dimensional data model data warehouse tutorial with examples
यह ट्यूटोरियल डेटा वेयरहाउस में डायमेंशनल डेटा मॉडल के लाभ और मिथकों की व्याख्या करता है। इसके अलावा, उदाहरणों के साथ आयाम सारणी और तथ्य सारणी के बारे में जानें:
डेटा वेयरहाउस टेस्टिंग इसमें हमारे पिछले ट्यूटोरियल में समझाया गया था सभी के लिए डेटा वेयरहाउस ट्रेनिंग सीरीज़ ।
डायमेंशनल डेटा मॉडलिंग तकनीकों के साथ डेटा वेयरहाउस (DW) में विशाल डेटा का आयोजन किया जाता है। ये डायमेंशनल डेटा मॉडलिंग तकनीक एंड-यूज़र्स के काम को बिजनेस डेटा के बारे में पूछताछ करने में बहुत आसान बनाती हैं। यह ट्यूटोरियल डीडब्ल्यू में आयामी डेटा मॉडल के बारे में बताता है।
लक्षित दर्शक
- डेटा वेयरहाउस / ईटीएल डेवलपर्स और परीक्षक।
- डेटाबेस अवधारणाओं के बुनियादी ज्ञान के साथ डेटाबेस पेशेवर।
- डेटाबेस व्यवस्थापक / बड़े डेटा विशेषज्ञ जो डेटा वेयरहाउस / ईटीएल अवधारणाओं को समझना चाहते हैं।
- कॉलेज के स्नातक / फ्रेशर्स जो डेटा वेयरहाउस नौकरियों की तलाश कर रहे हैं।
आप क्या सीखेंगे:
आयामी डेटा मॉडल
आयामी डेटा मॉडल डेटा संरचनाएं हैं जो डेटा को क्वेरी और विश्लेषण करने के लिए ईटीएल प्रवाह में अंतिम उपयोगकर्ताओं के लिए उपलब्ध हैं। ETL प्रक्रिया डेटा को लक्ष्य डायमेंशनल डेटा मॉडल में लोड करने के साथ समाप्त होती है। प्रत्येक आयामी डेटा मॉडल एक तथ्य तालिका के साथ बनाया गया है जो कई आयाम तालिकाओं से घिरा हुआ है।
डायमेंशनल डेटा मॉडल डिजाइन करते समय उठाए जाने वाले कदम:
आयामी डेटा मॉडलिंग के लाभ
नीचे सूचीबद्ध डायमेंशनल डेटा मॉडलिंग के विभिन्न लाभ हैं।
- वे लगातार बदलते DW वातावरण का उपयोग करने के लिए सुरक्षित हैं।
- डायमेंशनल डेटा मॉडल की मदद से विशाल डेटा आसानी से बनाया जा सकता है।
- आयामी डेटा मॉडल के डेटा को समझना और विश्लेषण करना आसान है।
- वे उच्च प्रदर्शन के साथ क्वेरी करने के लिए अंत-उपयोगकर्ताओं द्वारा जल्दी से सुलभ हैं।
- आयामी डेटा मॉडल हमें डेटा को पदानुक्रमित करने के लिए नीचे (या) रोल करने की अनुमति देते हैं।
ईआर मॉडलिंग बनाम आयामी डेटा मॉडलिंग
- ईआर मॉडलिंग परिचालन प्रणालियों के लिए उपयुक्त है जबकि आयामी मॉडलिंग डेटा वेयरहाउस के लिए उपयुक्त है।
- ईआर मॉडलिंग विस्तृत वर्तमान लेनदेन डेटा को बनाए रखता है जबकि आयामी मॉडलिंग वर्तमान और ऐतिहासिक लेनदेन डेटा दोनों के सारांश को बनाए रखता है।
- ईआर मॉडलिंग में सामान्यीकृत डेटा होता है जबकि आयामी मॉडलिंग में डी-सामान्यीकृत डेटा होता है।
- ईआर मॉडलिंग क्वेरी रिट्रीवल के दौरान अधिक जॉइन करती है जबकि डायमेंशनल मॉडलिंग कम संख्या में जॉइन करती है इसलिए डायमेंशनल मॉडलिंग में क्वेरी का प्रदर्शन तेज होता है।
डायमेंशनल डेटा मॉडलिंग मिथक
नीचे दिए गए कुछ मौजूदा आयामी डेटा मॉडलिंग मिथक हैं।
- डायमेंशनल डेटा मॉडल का उपयोग केवल डेटा के सारांश को दर्शाने के लिए किया जाता है।
- वे एक संगठन में विभाग-विशिष्ट हैं।
- वे स्केलेबिलिटी का समर्थन नहीं करते हैं।
- वे एंड-यूज़र रिपोर्ट और प्रश्नों के उद्देश्य की सेवा के लिए डिज़ाइन किए गए हैं।
- हम आयामी डेटा मॉडल को एकीकृत नहीं कर सकते।
आयाम टेबल्स
सभी विश्लेषण किए गए मीट्रिक मानों को संग्रहीत करके आयाम तालिका DW सिस्टम में एक महत्वपूर्ण भूमिका निभाती है। ये मान तालिका में आसानी से चयन करने योग्य आयामी विशेषताओं (कॉलम) के तहत संग्रहीत किए जाते हैं। एक DW प्रणाली की गुणवत्ता ज्यादातर आयाम विशेषताओं की गहराई पर निर्भर करती है।
इसलिए हमें आयाम तालिकाओं में उनके संबंधित मूल्यों के साथ कई विशेषताओं को प्रदान करने का प्रयास करना चाहिए।
आइए आयाम तालिकाओं की संरचना का पता लगाएं !!
(1) आयाम तालिका कुंजी: प्रत्येक आयाम तालिका में प्रत्येक पंक्ति को विशिष्ट रूप से पहचानने के लिए एक प्राथमिक कुंजी के रूप में इसका कोई भी आयाम गुण होगा। इसलिए उस विशेषता के विशिष्ट संख्यात्मक मान प्राथमिक कुंजी के रूप में कार्य कर सकते हैं।
यदि विशेषता मान किसी भी मामले में अद्वितीय नहीं हैं, तो आप क्रमिक रूप से उत्पन्न सिस्टम संख्याओं को प्राथमिक कुंजी के रूप में मान सकते हैं। इन्हें सरोगेट की भी कहा जाता है।
आयाम और तथ्यों के बीच प्रत्येक कुंजी के लिए आयामी डेटा मॉडल में संदर्भात्मक अखंडता बाधा होनी चाहिए। इस प्रकार तथ्य सारणी में संदर्भात्मक अखंडता बनाए रखने के लिए आयाम तालिका में प्रत्येक प्राथमिक / सरोगेट कुंजी के लिए एक विदेशी कुंजी संदर्भ होगा।
यदि यह विफल रहता है, तो संबंधित तथ्य तालिका डेटा को उस आयाम कुंजी के लिए पुनर्प्राप्त नहीं किया जा सकता है।
# 2) तालिका विस्तृत है: हम यह कह सकते हैं कि डायमेंशन टेबल चौड़ी है क्योंकि हम डीडब्ल्यू साइकल में किसी भी बिंदु पर किसी भी डायमेंशन टेबल में कितनी भी विशेषताएँ जोड़ सकते हैं। DW वास्तुकार ईटीएल टीम से स्कीमा में संबंधित नई विशेषताओं को जोड़ने का अनुरोध करेगा।
वास्तविक समय के परिदृश्यों में, आप 50 (या) अधिक विशेषताओं के साथ आयाम तालिकाओं को देख सकते हैं।
# 3) पाठीय विशेषताएँ: आयामी विशेषताएँ अधिमानतः पाठ (या) संख्यात्मक के रूप में किसी भी प्रकार के हो सकते हैं। पाठ्य विशेषताओं में कोड के बजाय वास्तविक व्यावसायिक शब्द होंगे। आयाम तालिका गणना के लिए नहीं होती हैं इसलिए संख्यात्मक मान शायद ही कभी आयामी विशेषताओं के लिए उपयोग किए जाते हैं।
# 4) विशेषताएँ प्रत्यक्ष रूप से संबंधित नहीं हो सकती हैं: आयाम तालिका में सभी विशेषताएँ एक दूसरे से संबंधित नहीं हो सकती हैं।
# 5) सामान्यीकृत नहीं: आयाम तालिका को सामान्य करने से तस्वीर में अधिक मध्यस्थ तालिका आती है जो कुशल नहीं है। इस प्रकार आयाम तालिकाओं को सामान्य नहीं किया जाता है।
आयामी विशेषताएँ प्रश्नों में बाधाओं के स्रोत के रूप में कार्य कर सकती हैं और रिपोर्ट में लेबल के रूप में भी प्रदर्शित की जा सकती हैं। यदि आप सीधे आयाम तालिका से एक विशेषता चुनते हैं और किसी भी अन्य मध्यस्थ तालिका को छूने के बिना संबंधित तथ्य तालिका को सीधे संदर्भित करते हैं, तो प्रश्न कुशलता से प्रदर्शन करेंगे।
# 6) ड्रिलिंग नीचे और ऊपर रोलिंग: आयाम विशेषताओं में जब भी डेटा को नीचे रोल (या) रोल करने की क्षमता होती है।
# 7) एकाधिक पदानुक्रम: एकल पदानुक्रम वाली एकल आयाम तालिका बहुत सामान्य है। एक आयाम तालिका में एक साधारण पदानुक्रम होगा यदि केवल एक पथ नीचे के स्तर से ऊपर तक मौजूद है। इसी तरह, कई पदानुक्रम होंगे यदि नीचे के स्तर से ऊपर तक पहुंचने के लिए कई पथ मौजूद हैं।
# 8) कुछ रिकॉर्ड: तथ्य तालिकाओं (लाखों में) की तुलना में आयाम तालिकाओं में रिकॉर्ड (सैकड़ों में) की संख्या कम होगी। हालांकि वे तथ्यों से छोटे हैं, वे तथ्य तालिकाओं को सभी इनपुट प्रदान करते हैं।
यहाँ एक ग्राहक आयाम तालिका का एक उदाहरण दिया गया है:
उपरोक्त अवधारणाओं को समझने से, आप यह तय कर सकते हैं कि क्या डेटा फ़ील्ड आयाम विशेषता के रूप में कार्य कर सकता है (या) स्रोत से डेटा निकालने के दौरान नहीं।
बुनियादी भार योजना एक आयाम के लिए
आयाम दो तरीकों से बनाए जा सकते हैं यानी बाहरी स्रोत प्रणालियों (या) से आयाम डेटा निकालकर ETL प्रणाली किसी भी बाहरी स्रोतों को शामिल किए बिना मंचन से आयामों का निर्माण कर सकती है। हालांकि, किसी भी बाहरी प्रसंस्करण के बिना एक ईटीएल प्रणाली आयाम तालिकाओं को बनाने के लिए अधिक उपयुक्त है।
इस प्रक्रिया में निम्नलिखित चरण शामिल हैं:
एक्सेल शीट में टेस्ट केस कैसे लिखें
- डेटा सफाई: डेटा को साफ किया जाता है, वैधता और व्यावसायिक नियमों को स्थिरता बनाए रखने के लिए आयाम तालिका में लोड करने से पहले लागू किया जाता है।
- डेटा अनुरूपता: डेटा वेयरहाउस के अन्य हिस्सों के डेटा को आयाम तालिका के प्रत्येक क्षेत्र के संबंध में, एकल मान के रूप में ठीक से एकत्र किया जाना चाहिए।
- एक ही डोमेन साझा करें: एक बार डेटा की पुष्टि हो जाने के बाद इसे मेज़ों में फिर से संग्रहीत किया जाता है।
- डेटा वितरण: अंत में सभी आयामी विशेषता मान असाइन किए गए प्राथमिक / सरोगेट कुंजी के साथ लोड होते हैं।
आयामों के प्रकार
आपके संदर्भ के लिए विभिन्न प्रकार के आयाम नीचे सूचीबद्ध हैं।
चलो शुरू करते हैं!!
(1) छोटे आयाम
डेटा वेयरहाउस में छोटे आयाम पंक्तियों और स्तंभों की कम संख्या के साथ लुकअप टेबल के रूप में कार्य करते हैं। छोटे आयामों में डेटा को स्प्रेडशीट से आसानी से लोड किया जा सकता है। यदि आवश्यक हो तो छोटे आयामों को सुपर आयाम के रूप में जोड़ा जा सकता है।
# 2) विकृत आयाम
एक अनुरूप आयाम एक आयाम है जिसे संबंधित तथ्य तालिका के साथ उसी तरह से संदर्भित किया जा सकता है।
दिनांक आयाम एक अनुरूप आयाम का सबसे अच्छा उदाहरण है जैसे कि वर्ष, माह, सप्ताह, दिन आदि जैसे दिनांक आयाम की विशेषताएँ किसी भी संख्या के तथ्यों में समान डेटा का संचार करती हैं।
एक विकृत आयाम का एक उदाहरण।
# 3) जंक डायमेंशन
तथ्य तालिका में कुछ विशेषताएँ जैसे झंडे और संकेतक को एक अलग कबाड़ आयाम तालिका में ले जाया जा सकता है। ये विशेषताएँ किसी अन्य मौजूदा आयाम तालिकाओं के समान नहीं हैं। सामान्य तौर पर, इन विशेषताओं के मूल्य केवल एक 'हां / नहीं' (या) 'सही / गलत' हैं।
प्रत्येक व्यक्ति ध्वज विशेषता के लिए एक नया आयाम बनाना तथ्य तालिका में अधिक संख्या में विदेशी कुंजी बनाकर इसे जटिल बनाता है। इसी समय, इन सभी झंडों और संकेतक सूचनाओं को तथ्य तालिकाओं में रखने से भी तथ्यों में संग्रहीत डेटा की मात्रा बढ़ जाती है जिससे प्रदर्शन में गिरावट आती है।
इसलिए इसके लिए सबसे अच्छा समाधान एकल कबाड़ आयाम बना रहा है क्योंकि कबाड़ आयाम किसी भी संख्या में 'हां / नहीं' या 'सही / गलत' संकेतक रखने में सक्षम है। हालाँकि, जंक आयाम इन संकेतकों (हां / नहीं (या) सही / गलत) के लिए वर्णनात्मक मूल्यों को संग्रहीत करता है जैसे कि सक्रिय और लंबित, आदि।
एक तथ्य तालिका की जटिलता और इसके संकेतकों के आधार पर, एक तथ्य तालिका में एक या अधिक रद्दी आयाम हो सकते हैं।
जंक डायमेंशन का एक उदाहरण।
# 4) रोल-प्ले आयाम
एक एकल आयाम जिसे एक तथ्य तालिका में कई उद्देश्यों के लिए संदर्भित किया जा सकता है, जिसे रोल-प्लेइंग आयाम के रूप में जाना जाता है।
एक भूमिका निभाने वाले आयाम के लिए सबसे अच्छा उदाहरण फिर से एक तारीख आयाम तालिका है क्योंकि एक आयाम में एक ही तिथि विशेषता का उपयोग विभिन्न उद्देश्यों के लिए किया जा सकता है जैसे कि ऑर्डर की तारीख, वितरण की तारीख, लेनदेन की तारीख, रद्द करने की तिथि, आदि।
यदि आवश्यक हो तो आप एक तथ्य तालिका के चार अलग-अलग तारीख विशेषताओं के संबंध में तिथि आयाम तालिका पर चार अलग-अलग विचार बना सकते हैं।
रोल-प्ले आयाम का एक उदाहरण।
# 5) आयामों का उत्थान करें
कुछ विशेषताएँ हो सकती हैं जो न तो आयाम (मेट्रिक्स) हो सकती हैं और न ही तथ्य (उपाय) लेकिन उन्हें विश्लेषण की आवश्यकता होती है। ऐसी सभी विशेषताओं को पतित आयामों में स्थानांतरित किया जा सकता है।
उदाहरण के लिए, आप क्रम संख्या, चालान संख्या आदि को पतित आयाम विशेषताओं के रूप में मान सकते हैं।
डीजेनरेट डायमेंशन का एक उदाहरण।
# 6) धीरे-धीरे बदलते आयाम
धीरे-धीरे बदलता आयाम एक ऐसा प्रकार है जहां डेटा समय-समय पर नियमित अंतराल के बजाय किसी भी समय धीरे-धीरे बदल सकता है। आयाम तालिकाओं में संशोधित डेटा को नीचे बताए अनुसार अलग-अलग तरीकों से नियंत्रित किया जा सकता है।
आप आयामी तालिका में प्रत्येक विशेषता के लिए व्यक्तिगत रूप से परिवर्तन का जवाब देने के लिए एससीडी प्रकार का चयन कर सकते हैं।
(i) टाइप 1 एससीडी
- टाइप 1 में जब आयामी विशेषताओं के मूल्यों में बदलाव होता है, तो मौजूदा मूल्यों को नए संशोधित मूल्यों के साथ अधिलेखित कर दिया जाता है जो एक अद्यतन के अलावा कुछ भी नहीं है।
- पुराना डेटा ऐतिहासिक संदर्भ के लिए नहीं रखा गया है।
- पुराने डेटा के अस्तित्व में नहीं होने के कारण पिछली रिपोर्टों को पुनर्जीवित नहीं किया जा सकता है।
- बनाए रखना आसान है।
- तथ्य तालिकाओं पर प्रभाव अधिक है।
टाइप 1 एससीडी का उदाहरण:
(Ii) टाइप 2 एससीडी
- टाइप 2 में, जब आयामी विशेषताओं के मूल्यों में बदलाव होता है, तो पुरानी पंक्ति डेटा को बदले बिना संशोधित मूल्यों के साथ एक नई पंक्ति डाली जाएगी।
- यदि कोई भी विदेशी कुंजी संदर्भ है जो किसी भी तथ्य तालिका में पुराने रिकॉर्ड के लिए मौजूद है, तो पुरानी सरोगेट कुंजी हर जगह एक नई सरोगेट कुंजी के साथ स्वचालित रूप से अपडेट हो जाती है।
- उपरोक्त चरण के साथ तथ्य तालिका परिवर्तनों पर प्रभाव बहुत कम है।
- परिवर्तनों के बाद पुराने डेटा को कहीं भी नहीं माना जाता है।
- टाइप 2 में, हम उन सभी परिवर्तनों को ट्रैक कर सकते हैं जो आयामी विशेषताओं के लिए हो रहे हैं।
- ऐतिहासिक डेटा के भंडारण पर कोई सीमा नहीं है।
- टाइप 2 में, प्रत्येक पंक्ति में कुछ विशेषताओं को जोड़ा जाता है जैसे परिवर्तित दिनांक, प्रभावी दिनांक-समय, समाप्ति तिथि-समय, परिवर्तन का कारण और वर्तमान ध्वज वैकल्पिक है। लेकिन यह महत्वपूर्ण है यदि व्यवसाय एक निश्चित समय अवधि के दौरान किए गए परिवर्तनों की संख्या जानना चाहता है।
टाइप 2 एससीडी का उदाहरण:
(Iii) टाइप 3 एससीडी
- टाइप 3 में जब आयामी विशेषताओं के मूल्यों में बदलाव होता है, तो नए मूल्य अपडेट किए जाते हैं लेकिन पुराने मूल्य अभी भी दूसरे विकल्प के रूप में मान्य हैं।
- हर परिवर्तन के लिए एक नई पंक्ति जोड़ने के बजाय, एक नया कॉलम जोड़ा जाएगा यदि यह पहले से मौजूद नहीं है।
- पुराने मानों को उपर्युक्त विशेषताओं में रखा गया है और प्राथमिक विशेषता के डेटा को परिवर्तित मान के साथ टाइप 1 में लिखा गया है।
- ऐतिहासिक डेटा के भंडारण पर एक सीमा है।
- तथ्य तालिकाओं पर प्रभाव अधिक है।
टाइप 3 एससीडी का उदाहरण:
(iv) टाइप 4 एससीडी
- टाइप 4 में, वर्तमान डेटा एक तालिका में संग्रहीत किया जाता है।
- अन्य तालिका में सभी ऐतिहासिक डेटा बनाए रखा गया है।
टाइप 4 एससीडी का उदाहरण:
(v) टाइप 6 एससीडी
- एक आयामी तालिका में सभी तीन एससीडी प्रकार 1, 2 और 3 का संयोजन भी हो सकता है जिसे टाइप 6 (या) हाइब्रिड धीरे-धीरे बदलते आयाम के रूप में जाना जाता है।
तथ्य सारणी
फैक्ट टेबल, मात्रात्मक रूप से मापे गए मानों के एक सेट को संग्रहीत करते हैं जो गणना के लिए उपयोग किए जाते हैं। व्यावसायिक रिपोर्ट में तथ्य तालिका के मूल्य प्रदर्शित होते हैं। आयाम तालिकाओं के विपरीत पाठ डेटा प्रकार, तथ्य तालिकाओं डेटा प्रकार काफी न्यूमेरिक है।
फैक्ट टेबल गहरी होती हैं जबकि डायमेंशन टेबल चौड़ी होती हैं क्योंकि फैक्ट टेबल में पंक्तियों की संख्या अधिक और कॉलम की संख्या कम होती है। तथ्य तालिका में मुख्य रूप से परिभाषित एक प्राथमिक कुंजी प्रत्येक पंक्ति को अलग से पहचानना है। तथ्य तालिका में प्राथमिक कुंजी को समग्र कुंजी भी कहा जाता है।
यदि तथ्य तालिका में समग्र कुंजी गायब है और यदि किसी भी दो रिकॉर्ड में समान डेटा है, तो डेटा के बीच अंतर करना और आयाम तालिका में डेटा को संदर्भित करना बहुत कठिन है।
इसलिए, यदि एक उचित अनूठी कुंजी समग्र कुंजी के रूप में मौजूद है, तो प्रत्येक तथ्य तालिका रिकॉर्ड के लिए एक क्रम संख्या उत्पन्न करना अच्छा है। एक अन्य विकल्प एक संक्षिप्त प्राथमिक कुंजी बनाना है। यह डायमेंशन टेबल पंक्ति-वार की सभी संदर्भित प्राथमिक कुंजियों को समाप्त करके जेनरेट किया जाएगा।
एक एकल तथ्य तालिका कई आयाम तालिकाओं से घिरी हो सकती है। वास्तव में तालिकाओं में मौजूद विदेशी कुंजियों की मदद से, मापा मूल्यों के संबंधित संदर्भ (क्रिया डेटा) को आयाम तालिकाओं में संदर्भित किया जा सकता है। प्रश्नों की सहायता से, उपयोगकर्ता ड्रिल डाउन का प्रदर्शन करेंगे और कुशलतापूर्वक रोल-अप करेंगे।
तथ्य तालिका में संग्रहीत किए जा सकने वाले डेटा का निम्नतम स्तर ग्रैन्युलैरिटी के रूप में जाना जाता है। एक तथ्य तालिका के साथ जुड़े आयाम तालिकाओं की संख्या उस तथ्य तालिका डेटा की ग्रैन्युलैरिटी के विपरीत आनुपातिक है। यानी सबसे छोटे माप मान को संदर्भित करने के लिए अधिक आयाम तालिकाओं की आवश्यकता होती है।
एक आयामी मॉडल में, तथ्य तालिका आयाम तालिकाओं के साथ कई-से-कई संबंध बनाए रखती है।
बिक्री तथ्य तालिका का एक उदाहरण:
फैक्ट टेबल्स के लिए लोड प्लान
आप निम्न बिंदुओं पर विचार करके एक तथ्य तालिका डेटा को कुशलता से लोड कर सकते हैं:
# 1) ड्रॉप एंड रिस्टोर इंडेक्स
वास्तव में तालिकाओं में अनुक्रमित डेटा को क्वेरी करते समय अच्छे प्रदर्शन बूस्टर होते हैं, लेकिन वे डेटा लोड करते समय प्रदर्शन को ध्वस्त कर देते हैं। इसलिए, किसी भी विशाल डेटा को वास्तव में तालिकाओं में लोड करने से पहले मुख्य रूप से उस तालिका के सभी अनुक्रमितों को छोड़ दें, डेटा को लोड करें और अनुक्रमित को पुनर्स्थापित करें।
# 2) अपडेट से अलग आवेषण
फैक्ट टेबल में लोड करते समय इन्सर्ट और अपडेट को मर्ज न करें। यदि अपडेट की संख्या कम है, तो आवेषण को संसाधित करें, और अलग से अपडेट करें। यदि अपडेट की संख्या अधिक है, तो त्वरित परिणामों के लिए तथ्य तालिका को छोटा और फिर से लोड करना उचित है।
# 3) विभाजन
बल्क फैक्ट टेबल के डेटा पर बेहतर क्वेरी परफॉर्मेंस के लिए एक टेबल पर फिजिकली टेबल को मिनी टेबल में विभाजित करें। डीबीए और ईटीएल टीम को छोड़कर किसी को भी तथ्यों पर विभाजन की जानकारी नहीं होगी।
एक के रूप में उदाहरण , आप एक तालिका को महीनेवार, तिमाही वार, वर्षवार, आदि विभाजन कर सकते हैं, जबकि क्वेरी करते समय, पूरे तालिका को स्कैन करने के बजाय केवल विभाजित डेटा पर विचार किया जाता है।
# 4) समानांतर में लोड
सुरक्षा कुंजी बेमेल का क्या अर्थ है
हमें अब तथ्य तालिकाओं पर विभाजन के बारे में एक विचार मिला है। तथ्यों में विभाजन डेटा में भारी मात्रा में डेटा लोड करते समय भी फायदेमंद होते हैं। ऐसा करने के लिए, सबसे पहले, डेटा को तार्किक रूप से अलग-अलग डेटा फ़ाइलों में तोड़ दें और समानांतर में डेटा के इन सभी तार्किक भागों को लोड करने के लिए ईटीएल नौकरियां चलाएं।
# 5) बल्क लोड उपयोगिता
अन्य RDBMS सिस्टम के विपरीत, ETL प्रणाली को मध्य लेनदेन विफलताओं के लिए स्पष्ट रूप से रोलबैक लॉग बनाए रखने की आवश्यकता नहीं है। यहाँ 'भारी मात्रा में डेटा लोड करने के लिए' SQL आवेषण 'के बजाय' बल्क लोड 'होते हैं। यदि एक भी लोड विफल हो जाता है, तो पूरे डेटा को आसानी से लोड किया जा सकता है (या) इसे वहां से जारी रखा जा सकता है जहां से इसे थोक लोड के साथ छोड़ दिया जाता है।
# 6) एक तथ्य रिकॉर्ड हटाना
फैक्ट टेबल रिकॉर्ड हटाना केवल तभी होता है जब व्यवसाय स्पष्ट रूप से चाहता है। यदि कोई तथ्य तालिका डेटा है जो अब स्रोत प्रणालियों में मौजूद नहीं है तो संबंधित डेटा को भौतिक रूप से (या) तार्किक रूप से हटाया जा सकता है।
- भौतिक हटाना: अवांछित तालिका तथ्य तालिका से स्थायी रूप से हटा दी जाती हैं।
- तार्किक हटाना: तथ्य तालिका में एक नया कॉलम जोड़ा जाएगा जैसे कि बिट (या) बूलियन प्रकार का 'हटा दिया गया'। यह हटाए गए रिकॉर्ड का प्रतिनिधित्व करने के लिए एक ध्वज के रूप में कार्य करता है। आपको यह सुनिश्चित करना चाहिए कि आप तथ्य तालिका डेटा को क्वेरी करते समय हटाए गए रिकॉर्ड का चयन नहीं कर रहे हैं।
# 7) एक तथ्य तालिका में अद्यतन और हटाए जाने के लिए अनुक्रम
जब कोई भी डेटा अपडेट किया जाना है, तो आयाम तालिका को पहले अद्यतन किया जाना चाहिए, यदि आवश्यक हो तो लुकअप तालिका में सरोगेट कुंजी को अपडेट करके और उसके बाद संबंधित तथ्य तालिका अपडेट। विलोपन रिवर्स में होता है, क्योंकि तथ्य तालिकाओं से सभी अवांछित डेटा को हटाने से लिंक किए गए अवांछित डेटा को आयाम तालिकाओं से हटाना आसान हो जाता है।
हमें दोनों मामलों में उपरोक्त अनुक्रम का पालन करना चाहिए क्योंकि आयाम तालिकाओं और तथ्य तालिकाओं में हर समय संदर्भात्मक अखंडता बनी रहती है।
तथ्यों के प्रकार
तथ्य तालिका डेटा के व्यवहार के आधार पर उन्हें लेनदेन तथ्य तालिका, स्नैपशॉट तथ्य तालिका और संचित स्नैपशॉट तथ्य तालिका के रूप में वर्गीकृत किया गया है। ये सभी तीन प्रकार अलग-अलग डेटा लोड रणनीतियों के साथ विभिन्न विशेषताओं का पालन करते हैं।
(1) लेनदेन तथ्य तालिकाएँ
जैसा कि नाम से पता चलता है कि लेन-देन तथ्य टेबल प्रत्येक घटना के लिए लेनदेन-स्तर डेटा संग्रहीत करता है। इस तरह का डेटा तथ्य तालिका स्तर पर ही विश्लेषण करना आसान है। लेकिन आगे के विश्लेषण के लिए, आप संबंधित आयामों का भी उल्लेख कर सकते हैं।
उदाहरण के लिए, मार्केटिंग वेबसाइट से होने वाली हर बिक्री (या) खरीद को लेनदेन तथ्य तालिका में लोड किया जाना चाहिए।
लेन-देन तथ्य तालिका का एक उदाहरण नीचे दिखाया गया है।
# 2) समय-समय पर स्नैपशॉट फैक्ट टेबल
जैसा कि नाम से संकेत मिलता है कि आवधिक स्नैपशॉट तथ्य तालिका में डेटा आवधिक अंतराल पर स्नैपशॉट (चित्र) के रूप में संग्रहीत किया जाता है, जैसे कि व्यापारिक आवश्यकताओं के आधार पर हर दिन, सप्ताह, महीने, तिमाही आदि के लिए।
तो यह स्पष्ट है कि यह हर समय डेटा का एकत्रीकरण है। इसलिए लेनदेन तथ्यों की तुलना में स्नैपशॉट तथ्य अधिक जटिल हैं। उदाहरण के लिए, किसी भी प्रदर्शन राजस्व रिपोर्ट डेटा को आसान संदर्भ के लिए स्नैपशॉट तथ्य तालिकाओं में संग्रहीत किया जा सकता है।
एक आवर्त स्नैपशॉट फैक्ट टेबल का एक उदाहरण नीचे दिखाया गया है।
# 3) स्नैपशॉट तथ्य तालिकाएँ संचित करना
स्नैपशॉट तथ्य तालिकाओं को संकलित करने से आप किसी उत्पाद के संपूर्ण जीवनकाल के लिए तालिकाओं में डेटा संग्रहीत कर सकते हैं। यह उपरोक्त दो प्रकारों के संयोजन के रूप में कार्य करता है जहां किसी भी समय स्नैपशॉट के रूप में किसी भी घटना द्वारा डेटा डाला जा सकता है।
इस प्रकार में, प्रत्येक पंक्ति के लिए अतिरिक्त दिनांक कॉलम और डेटा उस उत्पाद के प्रत्येक मील के पत्थर के साथ अद्यतन हो जाता है।
Accumulating Snapshot Fact Table का एक उदाहरण।
उपरोक्त तीन प्रकारों के अलावा, यहाँ कुछ अन्य प्रकार के तथ्य सारणी हैं:
# 4) तथ्यहीन तथ्य तालिकाएँ: एक तथ्य उपायों का एक संग्रह है, जबकि तथ्य कम ही घटनाओं (या) स्थितियों को कैप्चर करता है जिसमें कोई भी उपाय शामिल नहीं है। एक तथ्य-कम तथ्य तालिका का उपयोग मुख्य रूप से एक सिस्टम को ट्रैक करने के लिए किया जाता है। इन तालिकाओं के डेटा का विश्लेषण और रिपोर्टिंग के लिए उपयोग किया जा सकता है।
उदाहरण के लिए, आप एक कर्मचारी के विवरण की तलाश कर सकते हैं जिसने एक वर्ष में अवकाश लिया है और छुट्टी का प्रकार आदि, इन सभी गैर-स्पष्ट तथ्य विवरणों को शामिल करते हुए, तालिका निश्चित रूप से तथ्यों के आकार में वृद्धि करेगी।
एक फैक्टलेस फैक्ट टेबल का एक उदाहरण नीचे दिखाया गया है।
# 5) विकृत तथ्य तालिकाएँ: एक संधारित तथ्य एक तथ्य है जिसे उसी तरह से संदर्भित किया जा सकता है जैसे कि प्रत्येक डेटा मार्ट से संबंधित है।
एक तथ्य तालिका के विनिर्देशों
नीचे दिए गए तथ्य तालिका के विनिर्देश हैं।
- तथ्य का नाम: यह एक स्ट्रिंग है जो संक्षेप में तथ्य तालिका की कार्यक्षमता का वर्णन करता है।
- व्यापार प्रक्रिया: व्यवसाय के बारे में बात करने के लिए उस तथ्य तालिका को पूरा करने की आवश्यकता होती है।
- प्रशन: Mentions व्यापार सवालों की एक सूची है जो उस तथ्य तालिका द्वारा उत्तर दिया जाएगा।
- अनाज: उस तथ्य तालिका डेटा से जुड़े विस्तार के निम्नतम स्तर को इंगित करता है।
- आयाम: उस तथ्य तालिका से जुड़े सभी आयाम तालिकाओं को सूचीबद्ध करें।
- उपाय: तथ्य तालिका में संग्रहीत मान।
- लोड आवृत्ति तथ्य तालिका में डेटा लोड करने के लिए समय अंतराल का प्रतिनिधित्व करता है।
- प्रारंभिक पंक्तियाँ: पहली बार तथ्य तालिका में आबादी वाले प्रारंभिक डेटा का संदर्भ लें।
डायमेंशनल डेटा मॉडलिंग का उदाहरण
आप इस बात का अंदाजा लगा सकते हैं कि बिक्री और ऑर्डर के लिए नीचे दिए गए डायनामिक डेटा मॉडलिंग आरेख को देखकर किस तरह से डायमेंशन टेबल और फैक्ट टेबल को डिजाइन किया जा सकता है।
निष्कर्ष
अब तक, आपको डायमेंशनल डेटा मॉडलिंग तकनीकों, उनके लाभों, मिथकों, आयाम टेबल्स, फैक्ट टेबल्स के साथ-साथ उनके प्रकार और प्रक्रियाओं के बारे में उत्कृष्ट ज्ञान प्राप्त करना चाहिए।
डेटा वेयरहाउस स्कीमाओं के बारे में अधिक जानने के लिए हमारे आगामी ट्यूटोरियल को देखें !!
=> स्क्रैच से डेटा वेयरहाउसिंग जानने के लिए यहां जाएं।
अनुशंसित पाठ
- उदाहरणों के साथ डेटा वेयरहाउस टेस्टिंग ट्यूटोरियल | ईटीएल परीक्षण गाइड
- डेटा माइनिंग उदाहरण: डेटा माइनिंग 2021 के अधिकांश सामान्य अनुप्रयोग
- उदाहरणों के साथ अजगर डेटाइम ट्यूटोरियल
- डेटा वेयरहाउसिंग फंडामेंटल्स: उदाहरणों के साथ एक अंतिम गाइड
- वॉल्यूम परीक्षण ट्यूटोरियल: उदाहरण और वॉल्यूम परीक्षण उपकरण
- शीर्ष 10 लोकप्रिय डेटा वेयरहाउस उपकरण और परीक्षण प्रौद्योगिकी
- डेटा माइनिंग: डेटा एनालिसिस में प्रक्रिया, तकनीक और प्रमुख मुद्दे
- SoapUI Pro में डेटा चालित परीक्षण कैसे करें - SoapUI Tutorial # 14