schema types data warehouse modeling star snowflake schema
यह ट्यूटोरियल विभिन्न डेटा वेयरहाउस स्कीमा प्रकारों के बारे में बताता है। जानिए क्या है स्टार स्कीमा और स्नोफ्लेक स्कीमा और स्टार स्कीमा बनाम स्नोफ्लेक स्कीमा के बीच का अंतर:
इस में शुरुआती के लिए डेट वेयरहाउस ट्यूटोरियल , हम एक में गहराई से देखो था डेटा वेयरहाउस में आयामी डेटा मॉडल हमारे पिछले ट्यूटोरियल में।
इस ट्यूटोरियल में, हम सभी डेटा वेयरहाउस स्कीमाओं के बारे में जानेंगे जिनका उपयोग डेटा वेयर टेबल (या) डेटा वेयरहाउस टेबल को स्ट्रक्चर करने के लिए किया जाता है।
यूट्यूब वीडियो डाउनलोड करने के लिए सबसे अच्छा ऐप क्या है
चलो शुरू करते हैं!!
लक्षित दर्शक
- डेटा वेयरहाउस / ईटीएल डेवलपर्स और परीक्षक।
- डेटाबेस अवधारणाओं के बुनियादी ज्ञान के साथ डेटाबेस पेशेवर।
- डेटाबेस व्यवस्थापक / बड़े डेटा विशेषज्ञ जो डेटा वेयरहाउस / ईटीएल क्षेत्रों को समझना चाहते हैं।
- कॉलेज के स्नातक / फ्रेशर्स जो डेटा वेयरहाउस नौकरियों की तलाश कर रहे हैं।
आप क्या सीखेंगे:
डेटा वेयरहाउस स्कीमा
डेटा वेयरहाउस में, सभी डेटाबेस संस्थाओं (तथ्य तालिकाओं, आयाम तालिकाओं) और उनके तार्किक संघ के साथ सिस्टम को व्यवस्थित करने के तरीके को परिभाषित करने के लिए एक स्कीमा का उपयोग किया जाता है।
यहाँ DW में विभिन्न प्रकार की स्कीमें दी गई हैं:
- स्टार शेड्यूल
- स्नोफ्लेक स्कीमा
- गैलेक्सी आरेख
- स्टार क्लस्टर स्कीमा
(1) स्टार शेड्यूल
यह एक डेटा वेयरहाउस में सबसे सरल और सबसे प्रभावी स्कीमा है। कई आयाम तालिकाओं से घिरे केंद्र में एक फैक्ट टेबल स्टार स्कीमा मॉडल में एक स्टार जैसा दिखता है।
तथ्य तालिका सभी आयाम तालिकाओं के साथ एक-से-कई संबंध बनाए रखती है। एक तथ्य तालिका में प्रत्येक पंक्ति अपने आयाम तालिका पंक्तियों के साथ एक विदेशी कुंजी संदर्भ के साथ जुड़ी हुई है।
उपरोक्त कारण के कारण, इस मॉडल में तालिकाओं के बीच नेविगेशन कुल डेटा को क्वेरी करने के लिए आसान है। एक अंत-उपयोगकर्ता इस संरचना को आसानी से समझ सकता है। इसलिए सभी बिजनेस इंटेलिजेंस (बीआई) उपकरण स्टार स्कीमा मॉडल का बहुत समर्थन करते हैं।
स्टार स्कीमा डिजाइन करते समय आयाम टेबल उद्देश्यपूर्ण रूप से डी-सामान्यीकृत होते हैं। वे बेहतर विश्लेषण और रिपोर्टिंग के लिए प्रासंगिक डेटा संग्रहीत करने के लिए कई विशेषताओं के साथ व्यापक हैं।
स्टार स्कीमा के लाभ
- डेटा पुनर्प्राप्त करते समय क्वेरीज़ बहुत सरल जोड़ का उपयोग करती हैं और इस तरह क्वेरी प्रदर्शन में वृद्धि होती है।
- किसी भी समय किसी भी समय रिपोर्टिंग के लिए डेटा पुनर्प्राप्त करना सरल है।
स्टार स्कीमा का नुकसान
- यदि आवश्यकताओं में कई बदलाव हैं, तो मौजूदा स्टार स्कीमा को लंबे समय में संशोधित करने और पुन: उपयोग करने की अनुशंसा नहीं की जाती है।
- डेटा अतिरेक अधिक है क्योंकि तालिकाएँ पदानुक्रमिक रूप से विभाजित नहीं हैं।
स्टार स्कीमा का एक उदाहरण नीचे दिया गया है।
एक स्टार स्कीमा को छोड़कर
एक अंतिम-उपयोगकर्ता बिजनेस इंटेलिजेंस टूल्स का उपयोग करके एक रिपोर्ट का अनुरोध कर सकता है। आंतरिक रूप से 'चयनित प्रश्नों' की एक श्रृंखला बनाकर ऐसे सभी अनुरोध संसाधित किए जाएंगे। इन प्रश्नों के प्रदर्शन का रिपोर्ट निष्पादन समय पर प्रभाव पड़ेगा।
उपरोक्त स्टार स्कीमा उदाहरण से, यदि कोई व्यावसायिक उपयोगकर्ता यह जानना चाहता है कि जनवरी 2018 में केरल राज्य में कितने नोवेल और डीवीडी बेचे गए हैं, तो आप स्टार स्कीमा टेबल पर निम्नानुसार क्वेरी लागू कर सकते हैं:
SELECT pdim.Name Product_Name, Sum (sfact.sales_units) Quanity_Sold FROM Product pdim, Sales sfact, Store sdim, Date ddim WHERE sfact.product_id = pdim.product_id AND sfact.store_id = sdim.store_id AND sfact.date_id = ddim.date_id AND sdim.state = 'Kerala' AND ddim.month = 1 AND ddim.year = 2018 AND pdim.Name in (‘Novels’, ‘DVDs’) GROUP BY pdim.Name
परिणाम:
प्रोडक्ट का नाम | बेचा गया सामान | |
---|---|---|
। | स्कीमा को कोई भी आसानी से समझ और डिजाइन कर सकता है। | स्कीमा को समझना और डिजाइन करना कठिन है। |
उपन्यास | 12,702 है | |
डीवीडी | 32,919 है |
आशा है कि आप समझ गए होंगे कि स्टार स्कीमा को क्वेरी करना कितना आसान है।
# 2) स्नोफ्लेक स्कीमा
स्टार स्कीमा स्नोफ्लेक स्कीमा डिजाइन करने के लिए एक इनपुट के रूप में कार्य करता है। स्नो फ्लैकिंग एक ऐसी प्रक्रिया है जो किसी स्टार स्कीमा से सभी आयाम तालिकाओं को पूरी तरह से सामान्य कर देती है।
आयाम तालिकाओं के कई पदानुक्रमों से घिरे केंद्र में एक तथ्य तालिका की व्यवस्था स्नोफ्लेक स्कीमा मॉडल में स्नोफ्लेक की तरह दिखती है। हर तथ्य तालिका पंक्ति अपने आयाम तालिका पंक्तियों के साथ एक विदेशी कुंजी संदर्भ के साथ जुड़ी हुई है।
स्नोफ्लेक स्कीमा डिजाइन करते समय आयाम तालिकाओं को उद्देश्यपूर्ण रूप से सामान्यीकृत किया जाता है। विदेशी कुंजी को इसके मूल गुण से जोड़ने के लिए आयाम तालिकाओं के प्रत्येक स्तर पर जोड़ा जाएगा। स्नोफ्लेक स्कीमा की जटिलता आयाम तालिकाओं के पदानुक्रम स्तरों के सीधे आनुपातिक है।
स्नोफ्लेक स्कीमा के लाभ:
- नए आयाम तालिकाएँ बनाकर डेटा अतिरेक को पूरी तरह से हटा दिया जाता है।
- जब स्टार स्कीमा के साथ तुलना की जाती है, तो कम भंडारण स्थान का उपयोग स्नो फ्लेकिंग आयाम तालिकाओं द्वारा किया जाता है।
- स्नो फ्लेकिंग टेबल को अपडेट करना (या) आसान है।
स्नोफ्लेक स्कीमा के नुकसान:
- सामान्यीकृत आयाम तालिकाओं के कारण, ETL प्रणाली को तालिकाओं की संख्या को लोड करना पड़ता है।
- जोड़े गए तालिकाओं की संख्या के कारण क्वेरी करने के लिए आपको जटिल जोड़ की आवश्यकता हो सकती है। इसलिए क्वेरी के प्रदर्शन को नीचा दिखाया जाएगा।
स्नोफ्लेक स्कीमा का एक उदाहरण नीचे दिया गया है।
उपरोक्त स्नोफ्लेक आरेख में आयाम टेबल्स को सामान्यीकृत किया गया है:
- दिनांक तालिका में विदेशी कुंजी आईडी छोड़कर त्रैमासिक, मासिक और साप्ताहिक तालिकाओं में दिनांक आयाम को सामान्यीकृत किया जाता है।
- स्टोर आयाम राज्य के लिए तालिका को शामिल करने के लिए सामान्यीकृत है।
- उत्पाद आयाम ब्रांड में सामान्यीकृत है।
- ग्राहक आयाम में, शहर से जुड़ी विशेषताओं को ग्राहक तालिका में एक विदेशी कुंजी आईडी छोड़कर नई सिटी टेबल में ले जाया जाता है।
उसी तरह, एक एकल आयाम पदानुक्रम के कई स्तरों को बनाए रख सकता है।
उपरोक्त चित्र से पदानुक्रम के विभिन्न स्तरों को निम्नानुसार संदर्भित किया जा सकता है:
- त्रैमासिक आईडी, मासिक आईडी, और साप्ताहिक आईडी नई सरोगेट कुंजी हैं जो दिनांक आयाम पदानुक्रम के लिए बनाई गई हैं और जिन्हें दिनांक आयाम तालिका में विदेशी कुंजी के रूप में जोड़ा गया है।
- स्टेट आईडी स्टोर आयाम पदानुक्रम के लिए बनाई गई नई सरोगेट कुंजी है और इसे स्टोर आयाम तालिका में विदेशी कुंजी के रूप में जोड़ा गया है।
- ब्रांड आईडी उत्पाद आयाम पदानुक्रम के लिए बनाई गई नई सरोगेट कुंजी है और इसे उत्पाद आयाम तालिका में विदेशी कुंजी के रूप में जोड़ा गया है।
- सिटी आईडी ग्राहक आयाम पदानुक्रम के लिए बनाई गई नई सरोगेट कुंजी है और इसे ग्राहक आयाम तालिका में विदेशी कुंजी के रूप में जोड़ा गया है।
स्नोफ्लेक स्कीमा को छोड़ना
हम एंड-यूजर्स के लिए उसी तरह की रिपोर्ट तैयार कर सकते हैं जैसे कि स्नोफ्लेक स्कीमा के साथ स्टार स्कीमा संरचनाओं की। लेकिन प्रश्न यहाँ थोड़ा जटिल हैं।
उपरोक्त स्नोफ्लेक स्कीमा उदाहरण से, हम उसी क्वेरी को उत्पन्न करने जा रहे हैं जिसे हमने स्टार स्कीमा क्वेरी उदाहरण के दौरान डिज़ाइन किया है।
यदि कोई व्यवसाय उपयोगकर्ता यह जानना चाहता है कि जनवरी 2018 में केरल राज्य में कितने उपन्यास और डीवीडी बेचे गए हैं, तो आप क्वेरी को स्नोफ्लेक स्कीमा तालिकाओं पर निम्नानुसार लागू कर सकते हैं।
SELECT pdim.Name Product_Name, Sum (sfact.sales_units) Quanity_Sold FROM Sales sfact INNER JOIN Product pdim ON sfact.product_id = pdim.product_id INNER JOIN Store sdim ON sfact.store_id = sdim.store_id INNER JOIN State stdim ON sdim.state_id = stdim.state_id INNER JOIN Date ddim ON sfact.date_id = ddim.date_id INNER JOIN Month mdim ON ddim.month_id = mdim.month_id WHERE stdim.state = 'Kerala' AND mdim.month = 1 AND ddim.year = 2018 AND pdim.Name in (‘Novels’, ‘DVDs’) GROUP BY pdim.Name
परिणाम:
प्रोडक्ट का नाम | बेचा गया सामान |
---|---|
उपन्यास | 12,702 है |
डीवीडी | 32,919 है |
क्वेरिंग स्टार (या) स्नोफ्लेक स्कीमा टेबल्स को याद करते हुए अंक
किसी भी क्वेरी को नीचे की संरचना के साथ डिज़ाइन किया जा सकता है:
चयन खंड:
- चयन क्लॉज में निर्दिष्ट विशेषताएँ क्वेरी परिणामों में दिखाई जाती हैं।
- चयनित कथन भी समूह का उपयोग एकत्रित मूल्यों को खोजने के लिए करता है और इसलिए हमें समूह का उपयोग उस स्थिति में खंड द्वारा करना चाहिए।
क्लाज से:
- सभी आवश्यक तथ्य तालिकाओं और आयाम तालिकाओं को संदर्भ के अनुसार चुना जाना चाहिए।
कहां कारण:
- तथ्य तालिका विशेषताओं के साथ जुड़कर जहां खंड में उपयुक्त आयाम विशेषताओं का उल्लेख किया गया है। आयाम तालिकाओं से सरोगेट कुंजियों को संबंधित तालिकाओं से संबंधित विदेशी कुंजियों के साथ जोड़ा जाता है ताकि डेटा की सीमा को ठीक किया जा सके। इसे समझने के लिए कृपया ऊपर लिखे स्टार स्कीमा क्वेरी उदाहरण को देखें। यदि आप स्नोफ्लेक स्कीमा उदाहरण में लिखे गए हैं, तो यदि आप आंतरिक / बाहरी जॉइन का उपयोग कर रहे हैं, तो आप क्लॉज से भी डेटा को फ़िल्टर कर सकते हैं।
- जहाँ क्लॉज़ में डेटा पर अवरोधों के रूप में आयाम विशेषताओं का उल्लेख किया गया है।
- उपरोक्त सभी चरणों के साथ डेटा को फ़िल्टर करके, रिपोर्ट के लिए उपयुक्त डेटा वापस कर दिया जाता है।
व्यवसाय की जरूरतों के अनुसार, आप उपरोक्त संरचना का पालन करके किसी स्टार स्कीमा (या) स्नोफ्लेक स्कीमा क्वेरी में तथ्यों, आयामों, विशेषताओं और बाधाओं को हटा सकते हैं (या) जोड़ सकते हैं। आप किसी भी जटिल रिपोर्ट के लिए डेटा उत्पन्न करने के लिए अलग-अलग क्वेरी परिणामों को उप-क्वेरी (या) जोड़ सकते हैं।
# 3) गैलेक्सी आरेख
एक आकाशगंगा स्कीमा को तथ्य नक्षत्र योजना के रूप में भी जाना जाता है। इस स्कीमा में, कई तथ्य तालिकाएं समान आयाम तालिकाओं को साझा करती हैं। तथ्य तालिका और आयाम तालिकाओं की व्यवस्था गैलेक्सी स्कीमा मॉडल में सितारों के संग्रह की तरह दिखती है।
इस मॉडल में साझा आयामों को विकृत आयाम के रूप में जाना जाता है।
इस प्रकार के स्कीमा का उपयोग परिष्कृत आवश्यकताओं के लिए और एकत्रित तथ्य तालिकाओं के लिए किया जाता है जो स्टार स्कीमा (या) स्नोफ्लेक स्कीमा द्वारा समर्थित होने के लिए अधिक जटिल हैं। यह स्कीमा अपनी जटिलता के कारण बनाए रखना मुश्किल है।
गैलेक्सी स्कीमा का एक उदाहरण नीचे दिया गया है।
# 4) स्टार क्लस्टर स्कीमा
कई आयाम तालिकाओं के साथ एक स्नोफ्लेक स्कीमा को क्वेरी करते समय अधिक जटिल जोड़ की आवश्यकता हो सकती है। कम आयाम तालिकाओं वाले एक स्टार स्कीमा में अधिक अतिरेक हो सकता है। इसलिए, उपरोक्त दो स्कीमा की विशेषताओं को मिलाकर एक स्टार क्लस्टर स्कीमा चित्र में आया।
स्टार स्कीमा एक स्टार क्लस्टर स्कीमा डिजाइन करने का आधार है और स्टार स्कीमा से कुछ आवश्यक आयाम तालिकाओं को बर्फ़ से ढंक दिया जाता है और यह बदले में, एक अधिक स्थिर स्कीमा संरचना बनाता है।
स्टार क्लस्टर स्कीमा का एक उदाहरण नीचे दिया गया है।
कौन सा बेहतर स्नोफ्लेक स्कीमा या स्टार स्कीमा है?
डेटा वेयरहाउस प्लेटफ़ॉर्म और आपके डीडब्ल्यू सिस्टम में उपयोग किए जाने वाले बीआई उपकरण डिजाइन किए जाने के लिए उपयुक्त स्कीमा तय करने में महत्वपूर्ण भूमिका निभाएंगे। स्टार और स्नोफ्लेक डीडब्ल्यू में सबसे अधिक बार उपयोग किए जाने वाले स्कीमा हैं।
स्टार स्कीमा को प्राथमिकता दी जाती है यदि बीआई उपकरण व्यापार उपयोगकर्ताओं को सरल प्रश्नों के साथ तालिका संरचनाओं के साथ आसानी से बातचीत करने की अनुमति देते हैं। स्नोफ्लेक स्कीमा को पसंद किया जाता है यदि बीआई उपकरण व्यापार उपयोगकर्ताओं के लिए अधिक जोड़ और जटिल प्रश्नों के कारण सीधे टेबल संरचनाओं के साथ बातचीत करने के लिए अधिक जटिल हैं।
आप स्नोफ्लेक स्कीमा के साथ आगे बढ़ सकते हैं या तो यदि आप कुछ स्टोरेज स्पेस बचाना चाहते हैं या यदि आपके डीडब्ल्यू सिस्टम ने इस स्कीमा को डिजाइन करने के लिए उपकरण अनुकूलित किए हैं।
स्टार स्कीमा बनाम स्नोफ्लेक स्कीमा
नीचे दिए गए स्टार स्कीमा और स्नोफ्लेक स्कीमा के बीच महत्वपूर्ण अंतर हैं।
एस.एन.ओ. | स्टार शेड्यूल | स्नो फ्लेक स्कीमा |
---|---|---|
एक | डेटा अतिरेक अधिक है। | डेटा अतिरेक कम है। |
दो | आयाम तालिकाओं के लिए संग्रहण स्थान अधिक है। | आयाम तालिकाओं के लिए संग्रहण स्थान तुलनात्मक रूप से कम है। |
३ | इसमें डी-सामान्यीकृत आयाम टेबल हैं। | सामान्यीकृत आयाम तालिकाएँ होती हैं। |
४ | सिंगल फैक्ट टेबल कई डायमेंशन टेबल से घिरा हुआ है। | एकल तथ्य तालिका आयाम तालिकाओं के कई पदानुक्रमों से घिरा हुआ है। |
५ | तथ्य डेटा को लाने के लिए तथ्य और आयामों के बीच प्रत्यक्ष जुड़ाव का उपयोग करते हैं। | तथ्य डेटा को लाने के लिए तथ्य और आयामों के बीच जटिल जुड़ाव का उपयोग करते हैं। |
६ | क्वेरी निष्पादन का समय कम है। | क्वेरी निष्पादन का समय अधिक है। |
। | ऊपर नीचे दृष्टिकोण का उपयोग करता है। | नीचे के दृष्टिकोण का उपयोग करता है। |
निष्कर्ष
हम आशा करते हैं कि आपको इस ट्यूटोरियल से विभिन्न प्रकार के डेटा वेयरहाउस स्कीमाओं के साथ-साथ उनके लाभ और नुकसान के बारे में अच्छी समझ है।
हमने यह भी सीखा कि स्टार स्कीमा और स्नोफ्लेक स्कीमा को कैसे अलग किया जा सकता है, और किस स्कीमा को इन दोनों के बीच अपने अंतर के साथ चुनना है।
ETL में डेटा मार्ट के बारे में अधिक जानने के लिए हमारे आगामी ट्यूटोरियल के लिए बने रहें !!
=> यहां सरल डेटा वेयरहाउसिंग प्रशिक्षण श्रृंखला देखें।
अनुशंसित पाठ
- पायथन डेटा प्रकार
- C ++ डेटा प्रकार
- उदाहरणों के साथ डेटा वेयरहाउस टेस्टिंग ट्यूटोरियल | ईटीएल परीक्षण गाइड
- शीर्ष 10 लोकप्रिय डेटा वेयरहाउस उपकरण और परीक्षण प्रौद्योगिकी
- डेटा वेयरहाउस में आयामी डेटा मॉडल - उदाहरणों के साथ ट्यूटोरियल
- ETL परीक्षण डेटा वेयरहाउस परीक्षण ट्यूटोरियल (एक पूर्ण गाइड)
- डेटा वेयरहाउस में ईटीएल (एक्सट्रैक्ट, ट्रांसफॉर्म, लोड) प्रक्रिया क्या है?
- डेटा माइनिंग: डेटा एनालिसिस में प्रक्रिया, तकनीक और प्रमुख मुद्दे