what is etl extract
ईटीएल प्रक्रिया पर यह गहराई से ट्यूटोरियल डेटा वेयरहाउस में ईटीएल (निष्कर्षण, परिवर्तन, और लोड) प्रक्रिया में शामिल प्रक्रिया प्रवाह और चरणों की व्याख्या करता है:
श्रृंखला में यह ट्यूटोरियल बताता है: ईटीएल प्रक्रिया क्या है? डेटा निष्कर्षण, परिवर्तन, लोड हो रहा है, फ्लैट फ़ाइलें, क्या मंचन है? ईटीएल साइकिल, आदि।
चलो शुरू करते हैं!!
=> यहां परफेक्ट डेटा वेयरहाउसिंग ट्रेनिंग गाइड देखें।
आप क्या सीखेंगे:
- ETL (एक्सट्रैक्ट, ट्रांसफॉर्म, लोड) प्रोसेस फंडामेंटल
- निष्कर्ष
ETL (एक्सट्रैक्ट, ट्रांसफॉर्म, लोड) प्रोसेस फंडामेंटल
लक्षित दर्शक
- डेटा वेयरहाउस / ईटीएल डेवलपर्स और परीक्षक।
- डेटाबेस अवधारणाओं के बुनियादी ज्ञान के साथ डेटाबेस पेशेवर।
- डेटाबेस व्यवस्थापक / बड़े डेटा विशेषज्ञ जो डेटा वेयरहाउस / ईटीएल क्षेत्रों को समझना चाहते हैं।
- कॉलेज के स्नातक / फ्रेशर्स जो डेटा वेयरहाउस नौकरियों की तलाश कर रहे हैं।
डेटा वेयरहाउस में ईटीएल प्रक्रिया क्या है?
हम सभी जानते हैं कि डेटा वेयरहाउस भारी मात्रा में डेटा का एक संग्रह है, जो व्यापार उपयोगकर्ताओं को बिजनेस इंटेलिजेंस टूल की मदद से जानकारी प्रदान करता है।
इस उद्देश्य की पूर्ति के लिए डीडब्ल्यू को नियमित अंतराल पर लोड किया जाना चाहिए। सिस्टम में डेटा को एक या एक से अधिक परिचालन प्रणालियों, फ्लैट फ़ाइलों आदि से इकट्ठा किया जाता है। डेटा को DW में लाने वाली प्रक्रिया को ETL प्रक्रिया के रूप में जाना जाता है । निष्कर्षण, परिवर्तन और लोड करना ईटीएल के कार्य हैं।
# 1) निष्कर्षण: विभिन्न स्रोत प्रणालियों जैसे डेटाबेस, एप्लिकेशन और फ्लैट फ़ाइलों से सभी पसंदीदा डेटा की पहचान की जाती है और उन्हें निकाला जाता है। गैर-व्यावसायिक घंटों के दौरान नौकरियां चलाकर डेटा निष्कर्षण पूरा किया जा सकता है।
# 2) परिवर्तन: अधिकांश निकाले गए डेटा को सीधे लक्ष्य प्रणाली में लोड नहीं किया जा सकता है। व्यावसायिक नियमों के आधार पर, डेटा लोड करने से पहले कुछ परिवर्तन किए जा सकते हैं।
उदाहरण के लिए, लक्ष्य स्तंभ डेटा इनपुट के रूप में दो स्रोत स्तंभों को डेटा से अपेक्षित कर सकता है। इसी तरह, डेटा परिवर्तन के लिए जटिल तर्क हो सकते हैं जिनकी विशेषज्ञता की आवश्यकता है। कुछ डेटा जिन्हें किसी परिवर्तन की आवश्यकता नहीं होती है, उन्हें सीधे लक्ष्य प्रणाली में ले जाया जा सकता है।
परिवर्तन प्रक्रिया डेटा को भी सही करती है, किसी भी गलत डेटा को हटाती है और इसे लोड करने से पहले डेटा की किसी भी त्रुटि को ठीक करती है।
# 3) लोड हो रहा है: सभी एकत्रित जानकारी को लक्ष्य डेटा वेयरहाउस तालिकाओं में लोड किया जाता है।
डेटा निकालना
एक सफल DW सिस्टम को डिजाइन करने में डेटा निष्कर्षण एक प्रमुख भूमिका निभाता है। विभिन्न स्रोत प्रणालियों में डेटा की अलग-अलग विशेषताएं हो सकती हैं, और ETL प्रक्रिया डेटा को निकालते समय इन अंतरों को प्रभावी ढंग से प्रबंधित करेगी।
' तार्किक डेटा मानचित्र 'डेटा निष्कर्षण के लिए एक आधार दस्तावेज़ है। इससे पता चलता है कि किस स्रोत डेटा को किस लक्ष्य तालिका में जाना चाहिए, और ईटीएल प्रक्रिया में स्रोत फ़ील्ड को संबंधित लक्ष्य तालिका फ़ील्ड में कैसे मैप किया जाए।
लॉजिकल डेटा मैप डिजाइनिंग के दौरान किए जाने वाले कदम नीचे दिए गए हैं:
- एक डेटा वेयरहाउस आर्किटेक्ट तार्किक डेटा मानचित्र दस्तावेज़ को डिज़ाइन करता है।
- इस दस्तावेज़ का हवाला देकर, ETL डेवलपर ETL नौकरियों का निर्माण करेगा और ETL परीक्षक परीक्षण मामलों का निर्माण करेगा।
- सभी विशिष्ट डेटा स्रोत और संबंधित डेटा तत्व जो व्यावसायिक निर्णयों का समर्थन करते हैं, इस दस्तावेज़ में उल्लेख किया जाएगा। ये डेटा तत्व निष्कर्षण प्रक्रिया के दौरान इनपुट के रूप में कार्य करेंगे।
- सभी स्रोत प्रणालियों के डेटा का विश्लेषण किया जाता है और किसी भी प्रकार की डेटा विसंगतियों को प्रलेखित किया जाता है ताकि डीडब्ल्यू में गलत डेटा को निकालने से रोकने के लिए सही व्यापार नियमों को डिजाइन करने में मदद मिले। इस तरह के डेटा को यहां अस्वीकार कर दिया गया है।
- एक बार अंतिम स्रोत और लक्ष्य डेटा मॉडल ETL वास्तुकारों और व्यापार विश्लेषकों द्वारा डिज़ाइन किया गया है, वे ETL डेवलपर्स और परीक्षकों के साथ टहलने का संचालन कर सकते हैं। इसके द्वारा, उन्हें यह स्पष्ट रूप से समझ में आ जाएगा कि निष्कर्षण, परिवर्तन और लोडिंग के प्रत्येक चरण में व्यावसायिक नियमों का प्रदर्शन कैसे किया जाना चाहिए।
- इस दस्तावेज़ से मैपिंग नियमों के माध्यम से जाने पर, ईटीएल आर्किटेक्ट्स, डेवलपर्स और परीक्षकों को इस बात की अच्छी समझ होनी चाहिए कि प्रत्येक टेबल से आयाम, तथ्य और अन्य तालिकाओं के रूप में डेटा कैसे बहता है।
- गलत डेटा के निष्कर्षण से बचने के लिए किसी भी प्रकार के डेटा हेरफेर नियम या सूत्र भी यहाँ उल्लेखित हैं। उदाहरण के लिए, केवल पिछले 40 दिनों के डेटा को निकालें, आदि।
- यह ईटीएल टीम की जिम्मेदारी है कि वह व्यापार की आवश्यकताओं के अनुसार डेटा में ड्रिल करे, हर उपयोगी स्रोत प्रणाली, टेबल्स, और कॉलम डेटा को डीडब्ल्यू में लोड किया जाए।
तार्किक डेटा मानचित्र दस्तावेज़ आम तौर पर एक स्प्रेडशीट है जो निम्नलिखित घटकों को दिखाता है:
(तालिका '' नहीं मिली /)निष्कर्षण प्रवाह आरेख:
प्रत्येक स्रोत प्रणाली को अग्रिम में नौकरियों को चलाने के लिए समय खिड़की के बारे में बताएं, ताकि निष्कर्षण चक्र के दौरान कोई स्रोत डेटा याद न हो।
उपरोक्त चरणों के साथ, निष्कर्षण विभिन्न स्रोतों से डेटा को एक ही DW प्रारूप में अलग-अलग स्वरूपों से परिवर्तित करने के लक्ष्य को प्राप्त करता है, जिससे पूरे ETF प्रक्रियाओं का लाभ मिलता है। बेहतर विश्लेषण के लिए तार्किक रूप से रखा गया डेटा अधिक उपयोगी है।
डेटा वेयरहाउस में निष्कर्षण के तरीके
स्रोत और लक्ष्य डेटा वातावरण और व्यावसायिक आवश्यकताओं के आधार पर, आप अपने DW के लिए उपयुक्त निष्कर्षण विधि का चयन कर सकते हैं।
# 1) तार्किक निष्कर्षण विधियाँ
डेटा वेयरहाउस सिस्टम में डेटा निष्कर्षण एक बार पूरा लोड हो सकता है जो शुरू में किया जाता है (या) यह लगातार अद्यतन के साथ हर बार होने वाला वृद्धिशील भार हो सकता है।
Android के लिए अच्छा एमपी 3 संगीत डाउनलोडर
- पूर्ण निष्कर्षण: जैसा कि नाम से ही पता चलता है, सोर्स सिस्टम डेटा पूरी तरह से लक्ष्य तालिका में निकाला जाता है। पिछली बार निकाले गए समय टिकटों पर विचार किए बिना हर बार इस तरह का निष्कर्षण पूरे वर्तमान स्रोत प्रणाली डेटा को लोड करता है। अधिमानतः आप कम डेटा वाले प्रारंभिक भार या तालिकाओं के लिए पूर्ण निष्कर्षण का उपयोग कर सकते हैं।
- वृद्धिशील निष्कर्षण: एक विशिष्ट तिथि से जोड़ा / संशोधित किया गया डेटा वृद्धिशील निष्कर्षण के लिए माना जाएगा। यह तिथि अंतिम निकाले गए दिनांक (या) अंतिम आदेश तिथि आदि के रूप में व्यापार-विशिष्ट है। हम स्रोत तालिका से ही एक टाइमस्टैम्प कॉलम को संदर्भित कर सकते हैं (या) केवल निष्कर्षण तिथि विवरण को ट्रैक करने के लिए एक अलग तालिका बनाई जा सकती है। वृद्धिशील निष्कर्षण के दौरान टाइमस्टैम्प का उल्लेख एक महत्वपूर्ण विधि है। अगर टाइम टेबल में बड़े डेटा हैं तो टाइमस्टैम्प के बिना लॉजिक विफल हो सकते हैं।
# 2) शारीरिक निष्कर्षण के तरीके
स्रोत प्रणालियों की क्षमताओं और डेटा की सीमाओं के आधार पर, स्रोत सिस्टम ऑनलाइन निष्कर्षण और ऑफ़लाइन निष्कर्षण के रूप में निष्कर्षण के लिए भौतिक रूप से डेटा प्रदान कर सकते हैं। यह किसी भी तार्किक निष्कर्षण प्रकार का समर्थन करता है।
- ऑनलाइन निष्कर्षण :: हम सीधे स्रोत सिस्टम तालिकाओं से डेटा निकालने के लिए कनेक्शन स्ट्रिंग्स के साथ किसी भी स्रोत सिस्टम डेटाबेस से जुड़ सकते हैं।
- ऑफ़लाइन निष्कर्षण :: हम यहां सीधे स्रोत सिस्टम डेटाबेस से नहीं जुड़ेंगे, इसके बजाय स्रोत प्रणाली पूर्व-परिभाषित संरचना में स्पष्ट रूप से डेटा प्रदान करती है। सोर्स सिस्टम फ्लैट फाइल, डंप फाइल, आर्काइव लॉग और टेबलस्पेस के रूप में डेटा प्रदान कर सकते हैं।
ETL उपकरण किसी भी जटिल डेटा अर्क प्रदर्शन के लिए सबसे उपयुक्त हैं, डीडब्ल्यू के लिए किसी भी संख्या में हालांकि वे महंगे हैं।
बदला हुआ डेटा निकालना
एक बार प्रारंभिक लोड पूरा हो जाने के बाद, यह विचार करना महत्वपूर्ण है कि डेटा को कैसे निकाला जाए जो आगे स्रोत प्रणाली से बदल दिया जाए। ETL प्रोसेस टीम को प्रोजेक्ट की शुरुआत में शुरुआती भार और वृद्धिशील भार के लिए निष्कर्षण को लागू करने के बारे में एक योजना तैयार करनी चाहिए।
अधिकतर आप डेटा परिवर्तनों को पकड़ने के लिए वृद्धिशील लोड के लिए 'ऑडिट कॉलम' रणनीति पर विचार कर सकते हैं। सामान्य तौर पर, स्रोत सिस्टम तालिकाओं में ऑडिट कॉलम हो सकते हैं, जो प्रत्येक प्रविष्टि (या) संशोधन के लिए समय टिकट को संग्रहीत करते हैं।
टाइमस्टैम्प डेटाबेस ट्रिगर (या) से अनुप्रयोग द्वारा ही पॉप्युलेट हो सकता है। आपको ऑडिट कॉलम के डेटा की सटीकता सुनिश्चित करनी चाहिए, भले ही वे किसी भी तरह से लोड कर रहे हों, वृद्धिशील भार के लिए परिवर्तित डेटा को याद न करने के लिए।
वृद्धिशील भार के दौरान, आप अंतिम तिथि और अधिकतम समय पर विचार कर सकते हैं कि आखिरी लोड कब हुआ है और अंतिम लोड समय स्टैम्प की तुलना में अधिक समय स्टैम्प के साथ स्रोत प्रणाली से सभी डेटा निकालते हैं।
डेटा निकालते समय:
- केवल आपके द्वारा आवश्यक डेटा को पुनः प्राप्त करने के लिए प्रश्नों का उपयोग करें।
- डिस्टिक्ट क्लॉज का अधिक उपयोग न करें क्योंकि यह प्रश्नों के प्रदर्शन को धीमा कर देता है।
- यूनियन, माइनस, इंटर्सेक्ट जैसे सेट ऑपरेटरों का उपयोग सावधानी से करें क्योंकि यह प्रदर्शन को कम करता है।
- तुलनात्मक शब्दों का उपयोग करें जैसे कि, बीच में, आदि जहां क्लॉज, बजाय फंक्शन्स जैसे कि रूट (), to_char (), आदि।
डेटा परिवर्तन
परिवर्तन एक ऐसी प्रक्रिया है, जहां स्रोत प्रणाली डेटा को सीधे लक्ष्य प्रणाली पर लोड करने से पहले निकाले गए डेटा पर नियमों का एक सेट लागू होता है। निकाले गए डेटा को कच्चा डेटा माना जाता है।
मानकों के एक सेट के साथ परिवर्तन की प्रक्रिया DW स्रोत में विभिन्न स्रोत प्रणालियों से सभी डेटा को प्रयोग करने योग्य डेटा में लाती है। डेटा परिवर्तन का उद्देश्य डेटा की गुणवत्ता है। आप सभी तार्किक परिवर्तन नियमों के लिए डेटा मैपिंग दस्तावेज़ को संदर्भित कर सकते हैं।
परिवर्तन नियमों के आधार पर यदि कोई स्रोत डेटा निर्देशों को पूरा नहीं कर रहा है, तो ऐसे स्रोत डेटा को लक्ष्य डीडब्ल्यू सिस्टम में लोड करने से पहले खारिज कर दिया जाता है और इसे अस्वीकार फ़ाइल या अस्वीकार तालिका में रखा जाता है।
सीधे लोड कॉलम डेटा (स्रोत से लक्ष्य के लिए किसी भी परिवर्तन की आवश्यकता नहीं है) के लिए परिवर्तन नियम निर्दिष्ट नहीं हैं। इसलिए, डेटा परिवर्तनों को सरल और जटिल के रूप में वर्गीकृत किया जा सकता है। डेटा परिवर्तनों में कॉलम रूपांतरण, डेटा संरचना सुधारक आदि शामिल हो सकते हैं।
नीचे दिए गए कुछ कार्य डेटा परिवर्तन के दौरान किए जाने वाले हैं:
# 1) चयन: आप संपूर्ण टेबल डेटा या स्रोत सिस्टम से कॉलम डेटा का एक विशिष्ट सेट चुन सकते हैं। डेटा का चयन आमतौर पर एक्सट्रैक्शन पर ही पूरा होता है।
ऐसे मामले हो सकते हैं जहां स्रोत प्रणाली निष्कर्षण चरण के दौरान कॉलम डेटा के एक विशिष्ट सेट का चयन करने की अनुमति नहीं देती है, फिर पूरे डेटा को निकालें और परिवर्तन चरण में चयन करें।
# 2) विभाजन / शामिल होना: आप चयनित डेटा को विभाजित या जोड़कर जोड़ तोड़ कर सकते हैं। आपको रूपांतरण के दौरान चयनित स्रोत डेटा को और भी अधिक विभाजित करने के लिए कहा जाएगा।
उदाहरण के लिए, यदि पूरे पते को स्रोत प्रणाली में एक बड़े पाठ क्षेत्र में संग्रहीत किया जाता है, तो DW प्रणाली पते को शहर, राज्य, ज़िप कोड आदि के रूप में अलग-अलग क्षेत्रों में विभाजित करने के लिए कह सकती है। यह प्रत्येक के आधार पर अनुक्रमण और विश्लेषण के लिए आसान है। व्यक्तिगत रूप से घटक।
जबकि DW सिस्टम में परिवर्तन चरण के दौरान दो या दो से अधिक कॉलम डेटा को जोड़ना / विलय करना व्यापक रूप से उपयोग किया जाता है। इसका मतलब दो क्षेत्रों को एक ही क्षेत्र में विलय करना नहीं है।
उदाहरण के लिए, यदि किसी विशेष इकाई के बारे में जानकारी कई डेटा स्रोतों से आ रही है, तो किसी एकल इकाई के रूप में जानकारी इकट्ठा करना डेटा में शामिल होने / विलय करने के रूप में कहा जा सकता है।
# 3) रूपांतरण: निकाले गए स्रोत सिस्टम डेटा प्रत्येक डेटा प्रकार के लिए विभिन्न स्वरूपों में हो सकते हैं, इसलिए सभी निकाले गए डेटा को परिवर्तन चरण के दौरान एक मानकीकृत प्रारूप में परिवर्तित किया जाना चाहिए। उसी तरह का प्रारूप समझने में आसान है और व्यावसायिक निर्णयों के लिए उपयोग करना आसान है।
# 4) सारांश: कुछ स्थितियों में, DW स्रोत प्रणालियों के निम्न-स्तरीय विस्तृत डेटा के बजाय संक्षेपित डेटा की तलाश करेगा। क्योंकि निम्न-स्तरीय डेटा व्यावसायिक उपयोगकर्ताओं द्वारा विश्लेषण और क्वेरी करने के लिए सबसे उपयुक्त नहीं है।
उदाहरण के लिए, हर चेकआउट के लिए बिक्री डेटा डीडब्ल्यू प्रणाली द्वारा आवश्यक नहीं हो सकता है, स्टोर द्वारा दैनिक बिक्री उत्पाद (या) दैनिक बिक्री उपयोगी है। इसलिए व्यवसाय की आवश्यकताओं के अनुसार परिवर्तन चरण के दौरान डेटा का संक्षेपण किया जा सकता है।
# 5) संवर्धन: जब एक या अधिक स्तंभों को कई रिकॉर्ड्स से जोड़कर एक DW स्तंभ बनाया जाता है, तो डेटा संवर्धन DW सिस्टम में डेटा के बेहतर दृश्य के लिए फ़ील्ड को फिर से व्यवस्थित करेगा।
# 6) प्रारूप संशोधन: परिवर्तन चरण के दौरान प्रारूप संशोधन सबसे अधिक बार होते हैं। प्रत्येक स्तंभ के लिए डेटा प्रकार और उसकी लंबाई को संशोधित किया जाता है।
उदाहरण के लिए, एक स्रोत प्रणाली में एक स्तंभ संख्यात्मक हो सकता है और एक अन्य स्रोत प्रणाली में एक ही स्तंभ एक पाठ हो सकता है। इसे मानकीकृत करने के लिए, परिवर्तन चरण के दौरान इस कॉलम के डेटा प्रकार को टेक्स्ट में बदल दिया जाता है।
# 7) खेतों की कटाई: जब आप कई स्रोत प्रणालियों से डेटा निकाल रहे हैं, तो विभिन्न प्रणालियों में डेटा अलग-अलग डिकोड किया जा सकता है।
उदाहरण के लिए, एक स्रोत प्रणाली एसी, IN और SU के रूप में ग्राहक की स्थिति का प्रतिनिधित्व कर सकती है। एक अन्य प्रणाली 1, 0 और -1 के समान स्थिति का प्रतिनिधित्व कर सकती है।
डेटा परिवर्तन चरण के दौरान, आपको ऐसे कोड को उचित मूल्यों में डिकोड करने की आवश्यकता होती है, जो व्यावसायिक उपयोगकर्ताओं द्वारा समझा जा सकता है। इसलिए, उपरोक्त कोड सक्रिय, निष्क्रिय और निलंबित किए जा सकते हैं।
# 8) परिकलित और व्युत्पन्न मूल्य: स्रोत प्रणाली डेटा पर विचार करके, DW गणना के लिए अतिरिक्त स्तंभ डेटा संग्रहीत कर सकता है। डीडब्ल्यू में संग्रहीत करने से पहले आपको व्यापारिक तर्क के आधार पर गणना करनी होगी।
# 9) दिनांक / समय रूपांतरण: यह ध्यान केंद्रित करने के लिए प्रमुख डेटा प्रकारों में से एक है। कई स्रोत प्रणालियों में दिनांक / समय प्रारूप भिन्न हो सकते हैं।
उदाहरण के लिए, एक स्रोत दिनांक 10 नवंबर, 1997 तक संग्रहीत कर सकता है। एक अन्य स्रोत उसी तिथि को 11/10/1997 प्रारूप में संग्रहीत कर सकता है। इसलिए, डेटा परिवर्तन के दौरान, सभी दिनांक / समय मानों को एक मानक प्रारूप में परिवर्तित किया जाना चाहिए।
# 10) डी-डुप्लीकेशन: यदि स्रोत प्रणाली में डुप्लिकेट रिकॉर्ड हैं, तो यह सुनिश्चित करें कि केवल एक रिकॉर्ड DW सिस्टम में लोड किया गया है।
परिवर्तन प्रवाह आरेख:
परिवर्तन कैसे लागू करें?
डेटा परिवर्तनों की जटिलता के आधार पर आप मैन्युअल तरीकों का उपयोग कर सकते हैं, जो भी प्रभावी हो, रूपांतरण उपकरण (या) संयोजन प्रभावी है।
(1) मैनुअल तकनीक
छोटे डीडब्ल्यू सिस्टम के लिए मैनुअल तकनीक पर्याप्त हैं। डेटा विश्लेषकों और डेवलपर्स डेटा को मैन्युअल रूप से बदलने के लिए प्रोग्राम और स्क्रिप्ट बनाएंगे। इस विधि को कोड के प्रत्येक भाग के लिए विस्तृत परीक्षण की आवश्यकता है।
डेटा की मात्रा में वृद्धि के साथ त्रुटियों की संभावना के कारण व्यावसायिक नियमों (या) में होने वाले परिवर्तनों के कारण रखरखाव की लागत अधिक हो सकती है। आपको शुरू में मेटाडेटा का ध्यान रखना चाहिए और परिवर्तन नियमों में होने वाले हर बदलाव के साथ भी।
# 2) परिवर्तन उपकरण
यदि आप अधिकांश परिवर्तन प्रक्रिया को स्वचालित करना चाहते हैं, तो आप परियोजना के लिए उपलब्ध बजट और समय सीमा के आधार पर परिवर्तन उपकरण को अपना सकते हैं। स्वचालित करते समय आपको टूल्स का चयन करने, कॉन्फ़िगर करने, स्थापित करने और उन्हें DW सिस्टम के साथ एकीकृत करने के लिए अच्छी गुणवत्ता का समय बिताना चाहिए।
साधनों के साथ व्यावहारिक रूप से पूर्ण रूप से परिवर्तन स्वयं मैन्युअल हस्तक्षेप के बिना संभव नहीं है। लेकिन टूल द्वारा रूपांतरित डेटा निश्चित रूप से कुशल और सटीक है।
इसे प्राप्त करने के लिए, हमें उचित मापदंडों, डेटा परिभाषाओं और इनपुट के रूप में परिवर्तन टूल में नियम दर्ज करना चाहिए। दिए गए इनपुट से, उपकरण स्वयं मेटाडेटा को रिकॉर्ड करेगा और यह मेटाडेटा समग्र DW मेटाडेटा में जुड़ जाता है।
यदि व्यवसाय के नियमों में कोई बदलाव है, तो बस उन परिवर्तनों को उपकरण में दर्ज करें, बाकी परिवर्तन संशोधनों को उपकरण द्वारा ही ध्यान रखा जाएगा। इसलिए दोनों विधियों का एक संयोजन उपयोग करने के लिए कुशल है।
डेटा लोड हो रहा है
निकाले गए और परिवर्तित किए गए डेटा को ETL प्रक्रिया के लोड चरण के दौरान लक्ष्य DW टेबल में लोड किया जाता है। व्यवसाय यह तय करता है कि प्रत्येक तालिका के लिए लोडिंग प्रक्रिया कैसे होनी चाहिए।
लोडिंग प्रक्रिया निम्न तरीकों से हो सकती है:
- प्रारंभिक भार: पहली बार संबंधित DW तालिकाओं को पॉप्युलेट करने के लिए डेटा लोड करना।
- वृद्धिशील भार: एक बार डीडब्ल्यू तालिकाओं को लोड करने के बाद, शेष चल रहे परिवर्तन समय-समय पर लागू होते हैं।
- पूर्ण ताज़ा: यदि उपयोग में आने वाली किसी भी तालिका को ताज़ा करने की आवश्यकता है, तो उस तालिका से वर्तमान डेटा पूरी तरह से हटा दिया जाता है और फिर पुनः लोड किया जाता है। पुनः लोड करना प्रारंभिक भार के समान है।
ETL में लोडिंग प्रक्रिया की बेहतर समझ के लिए नीचे दिए गए उदाहरण को देखें:
उत्पाद आइ डि | प्रोडक्ट का नाम | सोल्ड डेट |
---|---|---|
1 | व्याकरण की पुस्तक | 3 जून 2007 |
दो | निशान | 3 जून 2007 |
३ | बॅक बॅग | 4 जून 2007 |
४ | टोपी | 4 जून 2007 |
५ | जूते | 5 जून 2007 |
# 1) प्रारंभिक लोड के दौरान, डेटा जो 3 पर बेचा जाता हैतृतीयजून 2007 DW लक्ष्य तालिका में लोड हो जाता है क्योंकि यह उपरोक्त तालिका का प्रारंभिक डेटा है।
#दो) इंक्रीमेंटल लोड के दौरान, हमें 3 के बाद बेचे जाने वाले डेटा को लोड करना होगातृतीयजून 2007. हमें अगले दिन के लिए पिछली तारीख (>) से अधिक बिकने वाली तारीख के साथ सभी रिकॉर्डों पर विचार करना चाहिए। इसलिए, 4 परवेंजून 2007, बेची गई तारीख> 3 के साथ सभी रिकॉर्ड प्राप्त करेंतृतीयजून 2007 में प्रश्नों का उपयोग करके और उपरोक्त तालिका से केवल उन दो रिकॉर्ड को लोड करें।
5 परवेंजून 2007, बेची गई तारीख> 4 के साथ सभी रिकॉर्ड प्राप्त करेंवेंजून 2007 और उपरोक्त तालिका से केवल एक रिकॉर्ड लोड करें।
# 3) पूर्ण रिफ्रेश के दौरान, उपरोक्त सभी डेटेड डेटा बेची गई तारीख के बावजूद एक समय में DW टेबल में लोड हो जाते हैं।
लोड किए गए डेटा को संबंधित आयाम (या) तथ्य तालिकाओं में संग्रहीत किया जाता है। डेटा निम्नानुसार लोड किया जा सकता है, जोड़ा जा सकता है या DW तालिकाओं में विलय किया जा सकता है:
# 4) लोड: डेटा खाली होने पर लक्ष्य तालिका में लोड हो जाता है। यदि तालिका में कुछ डेटा मौजूद है, तो मौजूदा डेटा हटा दिया जाता है और फिर नए डेटा के साथ लोड हो जाता है।
उदाहरण के लिए,
मौजूदा टेबल डेटा
कर्मचारी का नाम | भूमिका |
---|---|
जॉन | मैनेजर |
पुनर्वसु | लीड |
बीओबी | सहायक प्रबंधक |
रोनाल्ड | डेवलपर |
परिवर्तित डेटा
कर्मचारी का नाम | भूमिका |
---|---|
जॉन | मैनेजर |
रोहन | निदेशक |
चेतन | एवीपी |
वीपी |
डेटा लोडिंग के बाद
कर्मचारी का नाम | भूमिका |
---|---|
जॉन | मैनेजर |
रोहन | निदेशक |
चेतन | एवीपी |
वीपी |
# 5) परिशिष्ट उपरोक्त भार का एक विस्तार है क्योंकि यह पहले से मौजूद डेटा पर काम करता है। लक्ष्य तालिकाओं में, परिशिष्ट मौजूदा डेटा में अधिक डेटा जोड़ता है। यदि इनपुट डेटा के साथ कोई डुप्लिकेट रिकॉर्ड पाया जाता है, तो इसे डुप्लिकेट (या) के रूप में जोड़ा जा सकता है।
उदाहरण के लिए,
मौजूदा टेबल डेटा
कर्मचारी का नाम | भूमिका |
---|---|
जॉन | मैनेजर |
पुनर्वसु | लीड |
परिवर्तित डेटा
कर्मचारी का नाम | भूमिका |
---|---|
जॉन | मैनेजर |
रोहन | निदेशक |
चेतन | एवीपी |
वीपी |
आवेदन करने के बाद डेटा
कर्मचारी का नाम | भूमिका |
---|---|
जॉन | मैनेजर |
पुनर्वसु | लीड |
रोहन | निदेशक |
चेतन | एवीपी |
वीपी |
# 6) विनाशकारी मर्ज: यहां आने वाले डेटा की तुलना प्राथमिक कुंजी के आधार पर मौजूदा लक्ष्य डेटा के साथ की जाती है। यदि कोई मैच होता है, तो मौजूदा लक्ष्य रिकॉर्ड अपडेट हो जाता है। अगर कोई मैच नहीं मिलता है, तो एक नया रिकॉर्ड लक्ष्य तालिका में डाला जाता है।
उदाहरण के लिए,
मौजूदा टेबल डेटा
कर्मचारी का नाम | भूमिका |
---|---|
जॉन | मैनेजर |
पुनर्वसु | लीड |
परिवर्तित डेटा
कर्मचारी का नाम | भूमिका |
---|---|
जॉन | मैनेजर |
पुनर्वसु | निदेशक |
चेतन | एवीपी |
वीपी |
कंस्ट्रक्टिव मर्ज के बाद डेटा
कर्मचारी का नाम | भूमिका |
---|---|
जॉन | मैनेजर |
पुनर्वसु | निदेशक |
चेतन | एवीपी |
वीपी |
# 7) रचनात्मक जाता है: विनाशकारी मर्ज के विपरीत, यदि मौजूदा रिकॉर्ड के साथ कोई मेल है, तो यह मौजूदा रिकॉर्ड को छोड़ देता है जैसा कि यह है और आने वाले रिकॉर्ड को सम्मिलित करता है और इसे उस प्राथमिक कुंजी के संबंध में नवीनतम डेटा (टाइमस्टैम्प) के रूप में चिह्नित करता है।
उदाहरण के लिए,
मौजूदा टेबल डेटा
कर्मचारी का नाम | भूमिका |
---|---|
जॉन | मैनेजर |
पुनर्वसु | लीड |
परिवर्तित डेटा
कर्मचारी का नाम | भूमिका |
---|---|
जॉन | मैनेजर |
पुनर्वसु | निदेशक |
चेतन | एवीपी |
वीपी |
कंस्ट्रक्टिव मर्ज के बाद डेटा
c साक्षात्कार प्रश्न और उत्तर पीडीऍफ़
कर्मचारी का नाम | भूमिका |
---|---|
जॉन | मैनेजर |
पुनर्वसु | निदेशक*** |
पुनर्वसु | लीड |
चेतन | एवीपी |
वीपी |
तकनीकी रूप से, ताज़ा डेटा को अपडेट करने से आसान है। अद्यतन को केवल विशिष्ट परिवर्तनों को निकालने और उन्हें DW सिस्टम में लागू करने के लिए एक विशेष रणनीति की आवश्यकता होती है, जबकि ताज़ा करें डेटा को केवल प्रतिस्थापित करता है। लेकिन डेटा को ताज़ा करने में डेटा की मात्रा के आधार पर अधिक समय लगता है।
यदि आपके पास दैनिक चलाने के लिए ऐसी ताज़ा नौकरियां हैं, तो आपको डेटा लोड करने के लिए DW सिस्टम को नीचे लाने की आवश्यकता हो सकती है। हर बार डेटा लोड करने के लिए पूरे DW सिस्टम को नीचे लाने के बजाय, आप कुछ फ़ाइलों के रूप में डेटा को विभाजित और लोड कर सकते हैं।
परीक्षण करते समय प्रत्येक लोड के लिए रन समय पर ध्यान दें। यदि कोई डेटा किसी भी मुख्य मिसमैच आदि के कारण DW सिस्टम में लोड होने में सक्षम नहीं है, तो उन्हें इस तरह के डेटा को संभालने के तरीके दें। सुनिश्चित करें कि लोड किए गए डेटा की अच्छी तरह से जांच की जाती है।
लोड हो रहा है आरेख:
फ्लैट फ़ाइलें
फ्लैट फ़ाइलों का उपयोग व्यापक रूप से विषम प्रणालियों के बीच डेटा का आदान-प्रदान करने के लिए, विभिन्न स्रोत ऑपरेटिंग सिस्टम से और विभिन्न स्रोत डेटाबेस सिस्टम से डेटा वेयरहाउस अनुप्रयोगों के लिए किया जाता है। समरूप प्रणालियों के लिए फ्लैट फ़ाइलें सबसे कुशल और आसान हैं।
फ्लैट फाइलें मुख्य रूप से निम्नलिखित उद्देश्यों के लिए उपयोग की जाती हैं:
# 1) स्रोत डेटा की डिलीवरी: कुछ स्रोत सिस्टम हो सकते हैं जो सुरक्षा कारणों से DW उपयोगकर्ताओं को अपने डेटाबेस तक पहुंचने की अनुमति नहीं देंगे। ऐसे मामलों में, डेटा फ्लैट फ़ाइलों के माध्यम से वितरित किया जाता है।
इसी तरह, डेटा बाहरी विक्रेताओं या मेनफ्रेम सिस्टम से अनिवार्य रूप से फ्लैट फाइलों के रूप में प्राप्त होता है, और ये ETL उपयोगकर्ताओं द्वारा FTP'd होंगे।
# 2) काम / मचान टेबल: ईटीएल प्रक्रिया अपने आंतरिक उद्देश्य के लिए स्टेजिंग टेबल बनाती है। फ्लैट फ़ाइलों के साथ तालिकाओं के मंचन का कार्य DBMS की तुलना में बहुत आसान है क्योंकि किसी डेटाबेस को सम्मिलित करने और क्वेरी करने की तुलना में फ़ाइल सिस्टम पर पढ़ना और लिखना तेजी से होता है।
# 3) थोक भार के लिए तैयारी: एक बार एक्सट्रैक्शन और ट्रांसफ़ॉर्मेशन प्रक्रियाएँ पूरी हो जाने के बाद, यदि इन-स्ट्रीम बल्क लोड ETL टूल (या) द्वारा समर्थित नहीं है, तो यदि आप डेटा को संग्रहीत करना चाहते हैं तो आप एक फ़्लैट-फाइल बना सकते हैं। यह फ्लैट फ़ाइल डेटा प्रोसेसर द्वारा पढ़ा जाता है और डेटा को डीडब्ल्यू सिस्टम में लोड करता है।
फ्लैट फाइलें दो तरह से बनाई जा सकती हैं 'फिक्स्ड-लेंथ फ्लैट फाइलें' और 'डिलीट की गई फ्लैट फाइलें'। फ्लैट फाइल प्रोग्रामर्स द्वारा बनाई जा सकती है जो स्रोत प्रणाली के लिए काम करते हैं।
आइए देखें कि हम इन फ्लैट फ़ाइलों को कैसे संसाधित करते हैं:
फिक्स्ड लंबाई फ्लैट फ़ाइलें प्रसंस्करण
सामान्य तौर पर, फ्लैट फाइलें निश्चित लंबाई के स्तंभों की होती हैं, इसलिए उन्हें स्थितीय फ्लैट फाइलें भी कहा जाता है। नीचे एक फ्लैट-फ़ाइल का लेआउट है जो एक फ़ाइल में सटीक फ़ील्ड और उनकी स्थिति दिखाता है।
कार्यक्षेत्र नाम | लंबाई | शुरू | समाप्त | प्रकार | टिप्पणियाँ |
---|---|---|---|---|---|
संतोष | १० | 1 | १० | टेक्स्ट | ग्राहक का पहला नाम |
मध्य नाम | ५ | ग्यारह | पंद्रह | टेक्स्ट | ग्राहक का मध्य नाम |
उपनाम | १० | १६ | २५ | टेक्स्ट | ग्राहक का अंतिम नाम |
लेआउट में शामिल है फ़ील्ड का नाम, लंबाई, प्रारंभिक स्थिति जिस पर फ़ील्ड कैरेक्टर शुरू होता है, वह अंतिम स्थिति जिस पर फ़ील्ड कैरेक्टर समाप्त होता है, डेटा टाइप जैसे टेक्स्ट, न्यूमेरिक, आदि और यदि कोई हो तो कमेंट करें।
डेटा स्थितियों के आधार पर, ईटीएल परीक्षण टीम एक निश्चित लंबाई वाली फ्लैट फ़ाइल में डेटा की सटीकता को मान्य करेगी।
डिलीट की गई फ़्लैट फ़ाइलों को संसाधित करना
डिलीट फ़्लैट फ़ाइल्स में, प्रत्येक डेटा फ़ील्ड को डेलिमिटर द्वारा अलग किया जाता है। यह परिसीमन प्रत्येक क्षेत्र की प्रारंभिक और अंतिम स्थिति को इंगित करता है। सामान्य तौर पर, अल्पविराम का उपयोग सीमांकक के रूप में किया जाता है, लेकिन आप किसी अन्य प्रतीक या प्रतीकों के एक सेट का उपयोग कर सकते हैं।
डिलीट की गई फाइलें .CSV एक्सटेंशन (या) .TXT एक्सटेंशन (या बिना एक्सटेंशन के) की हो सकती हैं। ईटीएल फ़ाइलों को बनाने वाले डेवलपर्स उस फ़ाइल को संसाधित करने के लिए वास्तविक सीमांकक प्रतीक का संकेत देंगे। सीमांकित फ़ाइल लेआउट में, पहली पंक्ति कॉलम नामों का प्रतिनिधित्व कर सकती है।
स्थितीय फ्लैट फ़ाइलों के रूप में भी, ETL परीक्षण टीम स्पष्ट रूप से सीमांकित फ्लैट फ़ाइल डेटा की सटीकता को मान्य करेगी।
स्टेजिंग एरिया का उद्देश्य
स्टेजिंग क्षेत्र का मुख्य उद्देश्य ETL प्रक्रिया के लिए अस्थायी रूप से डेटा को स्टोर करना है। स्टेजिंग क्षेत्र को डीडब्ल्यू सिस्टम के बैकरूम के रूप में जाना जाता है। ETL आर्किटेक्ट यह तय करता है कि स्टेजिंग एरिया में डेटा स्टोर करना है या नहीं।
स्टेजिंग से बहुत तेजी से स्रोत प्रणालियों से डेटा प्राप्त करने में मदद मिलेगी। उसी समय यदि डीडब्ल्यू प्रणाली विफल हो जाती है, तो आपको स्रोत प्रणालियों से डेटा इकट्ठा करके प्रक्रिया को फिर से शुरू करने की आवश्यकता नहीं है यदि स्टेजिंग पहले से मौजूद है।
डेटा निष्कर्षण प्रक्रिया के बाद, यहाँ DW सिस्टम में डेटा चरणबद्ध करने के कारण हैं:
(1) पुनर्प्राप्ति: आबादी वाले मचान तालिकाओं को स्वयं DW डेटाबेस में संग्रहीत किया जाएगा (या) उन्हें फ़ाइल सिस्टम में स्थानांतरित किया जा सकता है और अलग से संग्रहीत किया जा सकता है। कुछ बिंदु पर, मचान डेटा पुनर्प्राप्ति डेटा के रूप में कार्य कर सकता है यदि कोई भी परिवर्तन या लोड चरण विफल रहता है।
ऐसी संभावना हो सकती है कि स्रोत प्रणाली ने ETL के लिए उपयोग किए गए डेटा को अधिलेखित कर दिया है, इसलिए निकाले गए डेटा को चरणबद्ध में रखने से हमें किसी भी संदर्भ में मदद मिलती है।
# 2) बैकअप: DW डेटाबेस तालिकाओं के विशाल संस्करणों के लिए वापस लेना मुश्किल है। लेकिन बैकअप किसी भी आपदा वसूली के लिए जरूरी है। इसलिए, यदि आपके पास चरणबद्ध डेटा है जो डेटा निकाला जाता है, तो आप परिवर्तन और लोड के लिए कार्य चला सकते हैं, जिससे दुर्घटनाग्रस्त डेटा फिर से लोड किया जा सकता है।
स्टेजिंग डेटा का बैकअप लेने के लिए, आप अक्सर स्टेजिंग डेटा को फाइल सिस्टम में स्थानांतरित कर सकते हैं ताकि आपके नेटवर्क में सेक और स्टोर करना आसान हो। जब भी बस फाइलों को अनकम्प्रेस्ड करना हो, स्टेजिंग टेबल में लोड करें और DW टेबल को फिर से लोड करने के लिए जॉब चलाएं।
# 3) ऑडिटिंग: कभी-कभी ईटीएल प्रणाली पर एक ऑडिट हो सकता है, स्रोत प्रणाली और लक्ष्य प्रणाली के बीच डेटा लिंकेज की जांच करने के लिए। ऑडिटर रूपांतरण नियमों के आधार पर आउटपुट डेटा के खिलाफ मूल इनपुट डेटा को मान्य कर सकते हैं।
स्रोत प्रणाली के पास डेटा उपलब्ध है या नहीं, भले ही मचान डेटा और इसका बैक अप बहुत मददगार हो। चूंकि ऑडिट किसी भी समय और वर्तमान (या) पिछले डेटा की किसी भी अवधि में हो सकता है। मंचन क्षेत्र की वास्तुकला को अच्छी तरह से योजनाबद्ध किया जाना चाहिए।
स्टेजिंग क्षेत्र को डिजाइन करना
डेटा वेयरहाउस में, स्टेजिंग एरिया डेटा को निम्नानुसार डिज़ाइन किया जा सकता है:
मचान तालिकाओं में डेटा के हर नए लोड के साथ, मौजूदा डेटा को हटा दिया जा सकता है (या) संदर्भ के लिए ऐतिहासिक डेटा के रूप में बनाए रखा गया है। यदि डेटा हटा दिया जाता है, तो इसे 'क्षणिक मंचन क्षेत्र' कहा जाता है।
यदि डेटा को इतिहास के रूप में बनाए रखा जाता है, तो इसे 'लगातार मंचन क्षेत्र' कहा जाता है। आप उपरोक्त दो प्रकारों के संयोजन के साथ एक स्टेजिंग क्षेत्र भी डिज़ाइन कर सकते हैं जो 'हाइब्रिड' है।
स्टेजिंग क्षेत्र को डिजाइन करते समय यहां दिए जाने वाले बुनियादी नियम हैं:
- केवल ईटीएल टीम को डेटा स्टेजिंग क्षेत्र तक पहुंच होनी चाहिए। मचान डेटा को छोड़ना अन्य उपयोगकर्ताओं के लिए प्रतिबंधित है।
- ईटीएल डेटा वास्तुकार द्वारा किसी अन्य उपयोगकर्ताओं को शामिल किए बिना, मचान क्षेत्र में तालिकाओं को जोड़ा, संशोधित या गिराया जा सकता है। जैसा कि मंचन क्षेत्र रिपोर्ट बनाने के लिए एक प्रस्तुति क्षेत्र नहीं है, यह सिर्फ एक कार्यक्षेत्र के रूप में कार्य करता है।
- ईटीएल वास्तुकार को डीबीए और ओएस प्रशासकों को विवरण प्रदान करने के लिए मचान क्षेत्र के डेटा भंडारण माप का अनुमान लगाना चाहिए। व्यवस्थापक मंचन डेटाबेस, फ़ाइल सिस्टम, निर्देशिका, आदि के लिए स्थान आवंटित करेंगे।
यदि स्टेजिंग क्षेत्र और डीडब्ल्यू डेटाबेस एक ही सर्वर का उपयोग कर रहे हैं तो आप आसानी से डेटा को डीडब्ल्यू सिस्टम में स्थानांतरित कर सकते हैं। यदि सर्वर अलग हैं, तो FTP (या) डेटाबेस लिंक का उपयोग करें।
ईटीएल प्रक्रिया प्रवाह
एक मानक ईटीएल चक्र नीचे की प्रक्रिया चरणों से गुजरेगा:
- क्रम में कार्य चलाने के लिए ETL चक्र को किक करें।
- सुनिश्चित करें कि सभी मेटाडेटा तैयार हैं।
- ETL चक्र विभिन्न स्रोतों से डेटा निकालने में मदद करता है।
- निकाले गए डेटा को मान्य करें।
- यदि स्टेजिंग टेबल का उपयोग किया जाता है, तो ईटीएल चक्र डेटा को स्टेजिंग में लोड करता है।
- ETL, एग्रीगेट आदि बनाकर, व्यापार नियमों को लागू करके परिवर्तन करता है
- यदि कोई विफलताएं हैं, तो ईटीएल चक्र रिपोर्ट के रूप में ध्यान में लाएगा।
- फिर ETL चक्र डेटा को लक्ष्य तालिकाओं में लोड करता है।
- पहले का डेटा जिसे ऐतिहासिक संदर्भ के लिए संग्रहीत करने की आवश्यकता है, संग्रहीत किया जाता है।
- बाकी डेटा जिन्हें संग्रहीत करने की आवश्यकता नहीं है, उन्हें साफ किया जाता है।
ईटीएल प्रक्रिया प्रवाह आरेख:
निष्कर्ष
इस ट्यूटोरियल में, हमने डेटा वेयरहाउस में ईटीएल प्रक्रिया की प्रमुख अवधारणाओं के बारे में सीखा। अब तक, आपको यह समझने में सक्षम होना चाहिए कि डेटा निष्कर्षण, डेटा परिवर्तन, डेटा लोडिंग और ETL प्रक्रिया प्रवाह क्या है।
डेटा वेयरहाउस टेस्टिंग के बारे में अधिक जानने के लिए आगामी ट्यूटोरियल पढ़ें !!
=> एक्सक्लूसिव डेटा वेयरहाउसिंग सीरीज़ के लिए यहां जाएं।
अनुशंसित पाठ
- उदाहरणों के साथ डेटा वेयरहाउस टेस्टिंग ट्यूटोरियल | ईटीएल परीक्षण गाइड
- ETL प्रक्रिया में उपयोगी 10 सर्वश्रेष्ठ डेटा मानचित्रण उपकरण (2021 सूची)
- ETL परीक्षण डेटा वेयरहाउस परीक्षण ट्यूटोरियल (एक पूर्ण गाइड)
- डेटा माइनिंग: प्रक्रिया, तकनीक और डेटा विश्लेषण में प्रमुख मुद्दे
- डाटा माइनिंग प्रोसेस: मॉडल, प्रोसेस स्टेप्स और चुनौतियां शामिल हैं
- ईटीएल परीक्षण साक्षात्कार प्रश्न और उत्तर
- 2021 में शीर्ष 10 ईटीएल परीक्षण उपकरण
- शीर्ष 10 लोकप्रिय डेटा वेयरहाउस उपकरण और परीक्षण प्रौद्योगिकी