what is data lake data warehouse vs data lake
यह ट्यूटोरियल डेटा लेक के बारे में सभी को इसकी आवश्यकता, परिभाषा, वास्तुकला, लाभ और डेटा झील बनाम डेटा वेयरहाउस के बीच के अंतर के बारे में बताता है:
'डेटा लेक' शब्द का इस्तेमाल आज की आईटी दुनिया में काफी बार किया जाता है। क्या आपने कभी सोचा है कि यह क्या है और शब्द कहाँ से आता है?
सूचना प्रौद्योगिकी युग में जहाँ डेटा दिन और रात कई रूपों में बढ़ रहा है, डेटा झील की अवधारणा निश्चित रूप से महत्वपूर्ण और उपयोगी हो जाती है।
आइए देखें कि एक डेटा झील क्या है और इसके फायदे, उपयोग आदि क्या हैं।
आप क्या सीखेंगे:
एक डेटा झील क्या है और यह कैसे काम करती है?
डेटा लेक एक प्रणाली या डेटा का केंद्रीकृत भंडार है जो आपको अपने सभी संरचित, अर्ध-संरचित, असंरचित और द्विआधारी डेटा को उसके प्राकृतिक / देशी / कच्चे प्रारूप में संग्रहीत करने देता है।
संरचित डेटा में आरडीबीएमएस से टेबल शामिल हो सकते हैं; अर्ध-संरचित डेटा में CSV फाइलें, XML फाइलें, लॉग, JSON, आदि शामिल हैं; असंरचित डेटा में PDF, शब्द दस्तावेज़, पाठ फ़ाइलें, ईमेल आदि शामिल हो सकते हैं; और बाइनरी डेटा में ऑडियो, वीडियो, चित्र फाइलें शामिल हो सकती हैं।
यह डेटा संग्रहीत करने के लिए एक सपाट वास्तुकला का अनुसरण करता है। आम तौर पर, डेटा को ऑब्जेक्ट ब्लॉब्स या फ़ाइलों के रूप में संग्रहीत किया जाता है।
(छवि स्रोत )
डेटा झील के साथ, आप अपने सभी उद्यम को स्टोर कर सकते हैं क्योंकि यह एक ही स्थान पर है, पहले डेटा की संरचना की कोई आवश्यकता नहीं है। आप इस पर मशीन लर्निंग, रियल-टाइम एनालिटिक्स, ऑन-प्रिमाइसेस डेटा-मूवमेंट, रियल-टाइम डेटा मूवमेंट, डैशबोर्ड और विज़ुअलाइज़ेशन सहित विभिन्न प्रकार के एनालिटिक्स को सीधे निष्पादित कर सकते हैं।
यह मूल रूप में इसमें सभी डेटा रखता है और अनुमान लगाता है कि विश्लेषण बाद में, ऑन-डिमांड होगा।
डेटा लेक की सादृश्य
(छवि स्रोत )
डेटा झील शब्द जेम्स डिक्सन द्वारा बनाया गया था, जो पेंटाहो के तत्कालीन सीटीओ थे। वह डेटा मार्ट (एक डेटा वेयरहाउस का एक उपसमूह) को परिभाषित करता है, जो प्रत्यक्ष और आसान उपयोग के लिए शुद्ध, आसुत जल, पैक और संरचित से भरी पानी की बोतल के समान है।
दूसरी ओर, यह अपने प्राकृतिक रूप में पानी के शरीर के अनुरूप है। डेटा प्रवाह (विभिन्न व्यावसायिक कार्यों / स्रोत प्रणालियों) से झील में बहता है। डेटा लेक के उपभोक्ता यानी यूजर्स के पास सैंपल का विश्लेषण, जांच, सैंपल इकट्ठा करने और गोता लगाने के लिए झील तक पहुंच होती है।
जिस तरह झील में पानी मछली पकड़ने, बोटिंग, पीने का पानी उपलब्ध कराने आदि की विभिन्न जरूरतों को पूरा करता है, उसी तरह डेटा लेक आर्किटेक्चर कई उद्देश्यों को पूरा करता है।
सी ++ चयन सॉर्ट एल्गोरिथ्म
एक डेटा वैज्ञानिक डेटा का पता लगाने और एक परिकल्पना बनाने के लिए इसका उपयोग कर सकता है। यह डेटा विश्लेषकों को डेटा का विश्लेषण करने और पैटर्न की खोज करने का अवसर प्रदान करता है। यह डेटा का पता लगाने के लिए व्यापार उपयोगकर्ताओं और हितधारकों को एक मोड प्रदान करता है।
यह विश्लेषकों को रिपोर्ट तैयार करने और उन्हें व्यवसाय के लिए प्रस्तुत करने का अवसर भी प्रदान करता है। इसके विपरीत, डेटा वेयरहाउस ने बिसलेरी बोतल की तरह अच्छी तरह से परिभाषित उद्देश्यों के लिए डेटा को पैक किया है जिसका उपयोग केवल पीने के पानी के लिए किया जा सकता है।
डेटा लेक मार्केट - विकास, रुझान और भविष्यवाणियाँ
डेटा लेक मार्केट को उत्पाद (समाधान या सेवा), परिनियोजन (ऑन-प्रिम या क्लाउड), क्लाइंट्स इंडस्ट्री (रिटेल, बैंकिंग, यूटिलिटी, इंश्योरेंस, आईटी, हेल्थकेयर, टेलीकॉम, पब्लिशिंग, मैन्युफैक्चरिंग) और भौगोलिक के आधार पर विभाजित किया जाता है। क्षेत्र।
मोर्डोर इंटेलिजेंस द्वारा प्रकाशित रिपोर्ट के अनुसार, नीचे डेटा झील के लिए बाजार स्नैपशॉट है:
(छवि स्रोत )
# 1) बाजार सारांश
डेटा लेक्स मार्केट का मूल्यांकन 2019 में 3.74 बिलियन अमरीकी डालर था और 2025 तक 17.60 बिलियन अमरीकी डालर को छूने का अनुमान है, प्रक्षेपण अवधि 2020 - 2025 के दौरान 29.9% की सीएजीआर (कम्पाउंड वार्षिक विकास दर)।
ये डेटा जलाशय तेजी से डेटा वेयरहाउस पर कई संगठनों के लिए एक किफायती विकल्प के रूप में बदल रहे हैं। डेटा झीलों के विपरीत, डेटा वेयरहाउसिंग को गोदाम में प्रवेश करने से पहले डेटा के अतिरिक्त प्रसंस्करण की आवश्यकता होती है।
डेटा वेयरहाउस की तुलना में डेटा वेयरहाउस के प्रबंधन का खर्च बहुत कम होता है क्योंकि वेयरहाउस के लिए डेटाबेस बनाने के लिए बहुत अधिक प्रोसेसिंग और स्पेस की आवश्यकता होती है।
# 2) प्रमुख खिलाड़ी
यह अनुमान लगाया जा रहा है कि डेटा लेक बाजार पांच प्रमुख खिलाड़ियों के प्रभुत्व वाले बाजार का प्रभुत्व होगा जैसा कि नीचे की छवि में देखा गया है।
# 3) प्रमुख रुझान
- इसका उपयोग बैंकिंग क्षेत्र में काफी बढ़ने की उम्मीद है। बैंक गो एनालिटिक्स पर डिलीवरी करने के लिए डेटा झीलों को अपना रहे हैं। साथ ही, यह बैंकिंग क्षेत्र में कई सिलो को भंग करने में मदद कर रहा है।
- जैसे-जैसे दुनिया भर में डिजिटल भुगतान / मोबाइल वॉलेट के उपयोग में भारी वृद्धि हो रही है, बड़े डेटा एनालिटिक्स की गुंजाइश बढ़ रही है और इस तरह उनके लिए अवसर बढ़ रहा है।
- यह अनुमान है कि उत्तरी अमेरिका में डेटा झीलों के लिए उच्च गोद लिया जाएगा। कैपजेमिनी द्वारा किए गए एक अध्ययन में कहा गया है कि अमेरिका में 60% से अधिक वित्तीय संगठन सोचते हैं कि बड़े डेटा एनालिटिक्स व्यवसाय के लिए एक विभाजक के रूप में कार्य करते हैं और उन्हें एक प्रतिस्पर्धात्मक बढ़त देते हैं। 90% से अधिक संगठनों को लगता है कि बड़ी डेटा परियोजनाओं में निवेश करने से भविष्य में सफलता की संभावना बढ़ जाती है।
- उन्हें स्मार्ट मीटर अनुप्रयोगों के उपयोग की आवश्यकता होती है और अमेरिका में, यह उम्मीद की जाती है कि 2021 में लगभग 90 मिलियन स्मार्ट मीटर लगाए जाएंगे। इसलिए, उनके लिए एक उच्च मांग की भविष्यवाणी की गई है।
डेटा झील की आवश्यकता क्यों है?
डेटा झील का उद्देश्य डेटा के अप्रतिबंधित दृश्य (इसके शुद्धतम रूप में डेटा) देना है।
उदाहरण
आजकल, कई बड़ी कंपनियां जिनमें Google, Amazon, Cloudera, Oracle, Microsoft और कुछ और भी डेटा लेक ऑफ़र हैं।
कई संगठन क्लाउड स्टोरेज सेवाओं जैसे Azure Data Lake या Amazon S3 का उपयोग कर रहे हैं। कंपनियां Apache Hadoop जैसी वितरित फ़ाइल प्रणाली का भी उपयोग कर रही हैं। एक व्यक्तिगत डेटा झील की अवधारणा जो आपको अपने स्वयं के बड़े डेटा को प्रबंधित करने और साझा करने की सुविधा प्रदान करती है।
अगर हम औद्योगिक उपयोग के बारे में बात करते हैं, तो यह हेल्थकेयर डोमेन के लिए बहुत उपयुक्त है। स्वास्थ्य सेवा में बहुत सारे डेटा के असंरचित प्रारूप के कारण ( उदाहरण के लिए, फिजिशियन नोट्स, क्लिनिकल डेटा, रोगी रोग इतिहास आदि) और वास्तविक समय की अंतर्दृष्टि के लिए आवश्यकता है, डेटा वेयरहाउस डेटा वेयरहाउस के लिए एक बढ़िया विकल्प है।
यह शिक्षा क्षेत्र में और जहां डेटा बहुत विशाल है और बहुत कच्चे हैं में लचीला समाधान प्रदान करता है।
परिवहन क्षेत्र में, मुख्य रूप से आपूर्ति श्रृंखला प्रबंधन या लॉजिस्टिक्स में, यह भविष्यवाणियां करने और लागत में कटौती के लाभों को साकार करने में सहायक है।
एविएशन और इलेक्ट्रिकल पावर इंडस्ट्री भी डेटा झीलों का इस्तेमाल कर रही हैं।
इसके कार्यान्वयन का एक उदाहरण जीई प्रेडिक्स (जनरल इलेक्ट्रिक द्वारा विकसित) है जो एक औद्योगिक डेटा झील मंच है जो औद्योगिक अनुप्रयोगों को बनाने, तैनात करने और शासन करने के लिए मजबूत डेटा शासन क्षमता प्रदान करता है जो औद्योगिक परिसंपत्तियों से जुड़ते हैं, डेटा एकत्र करते हैं और उनका विश्लेषण करते हैं, और वास्तविक समय प्रदान करते हैं। औद्योगिक बुनियादी ढांचे और प्रक्रियाओं में सुधार के लिए अंतर्दृष्टि।
डेटा वेयरहाउस बनाम डेटा लेक के बीच अंतर
अक्सर लोगों को यह समझना मुश्किल होता है कि एक झील डेटा वेयरहाउस से कैसे अलग है। उनका यह भी तर्क है कि यह डेटा वेयरहाउस के समान है। लेकिन यह वास्तविकता नहीं है।
डेटा लेक और डेटा वेयरहाउस के बीच एकमात्र समानता यह है कि दोनों डेटा स्टोरेज रिपॉजिटरी हैं। बाकी, वे अलग हैं। उनके पास विभिन्न उपयोग के मामले और उद्देश्य हैं।
मतभेद नीचे दिए गए हैं:
डेटा लेक | डेटा वेयरहाउस | |
---|---|---|
एनालिटिक्स | मशीन लर्निंग का उपयोग मशीन लर्निंग, डेटा डिस्कवरी डेटा प्रोफाइलिंग और प्रेडिक्टिव एनालिसिस के लिए किया जा सकता है। | एक डेटा वेयरहाउस का उपयोग बिजनेस इंटेलिजेंस, विज़ुअलाइज़ेशन और बैच रिपोर्टिंग के लिए किया जा सकता है। |
डेटा | एक डेटा लेक इसमें सभी कच्चे डेटा को रखेगा। यह संरचित, असंरचित या अर्ध-संरचित हो सकता है। यह संभव हो सकता है कि डेटा झील में कुछ डेटा का उपयोग कभी नहीं किया जाएगा। | एक डेटा वेयरहाउस केवल उस डेटा को शामिल करता है जो संसाधित और परिष्कृत होता है यानी संरचित डेटा जो विशिष्ट व्यावसायिक समस्याओं की रिपोर्टिंग और हल करने के लिए आवश्यक है। |
उपयोगकर्ताओं | आम तौर पर, डेटा झील के उपयोगकर्ता डेटा वैज्ञानिक और डेटा डेवलपर होते हैं। | आम तौर पर, डेटा वेयरहाउस के उपयोगकर्ता व्यावसायिक पेशेवर, परिचालन उपयोगकर्ता और व्यवसाय विश्लेषक होते हैं। |
अभिगम्यता | डेटा झील अत्यधिक सुलभ और अद्यतन करने में आसान और त्वरित है क्योंकि उनके पास कोई संरचना नहीं है। | डेटा वेयरहाउस में, डेटा को अपडेट करना अधिक जटिल और महंगा ऑपरेशन है क्योंकि डेटा वेयरहाउस को डिज़ाइन द्वारा संरचित किया जाता है। |
योजना | स्कीम-ऑन-राइट। DW कार्यान्वयन से पहले बनाया गया। | स्कीमा-ऑन-रीड। विश्लेषण के समय लिखा गया। |
आर्किटेक्चर | सपाट वास्तुकला | पदानुक्रमित वास्तुकला |
उद्देश्य | डेटा झीलों में संग्रहीत कच्चे डेटा का उद्देश्य निश्चित नहीं है या अनिर्धारित है। कई बार, डेटा भविष्य में कुछ विशिष्ट उपयोग के साथ या केवल डेटा को काम करने के लिए डेटा झील में प्रवाहित कर सकता है। डेटा लेक में कम व्यवस्थित और कम फ़िल्टर किए गए डेटा हैं। | डेटा वेयरहाउस में संग्रहीत संसाधित डेटा का एक विशिष्ट और निश्चित उद्देश्य है। एक DW ने डेटा को व्यवस्थित और फ़िल्टर किया है। इसलिए, इसे डेटा लेक की तुलना में कम संग्रहण स्थान की आवश्यकता होती है। |
भंडारण | कम लागत के भंडारण के लिए डिज़ाइन किया गया। डेटा लेक का हार्डवेयर डेटा वेयरहाउस के हार्डवेयर से बहुत अलग है। यह सस्ते भंडारण के साथ संयुक्त ऑफ-द-शेल्फ सर्वर का उपयोग करता है। यह डेटा झील को टेराबाइट्स और पेटाबाइट्स के लिए काफी किफायती और उच्च मापनीय बनाता है। यह एक डेटा झील में सभी डेटा रखने के लिए किया जाता है ताकि आप विश्लेषण करने के लिए किसी भी बिंदु पर समय पर वापस जा सकें। | बड़े डेटा वॉल्यूम के लिए महंगा। डेटा वेयरहाउस में अत्यधिक प्रदर्शन करने के लिए महंगे डिस्क स्टोरेज होते हैं। इसलिए, अंतरिक्ष के संरक्षण के लिए, डेटा मॉडल को सरलीकृत किया जाता है और केवल वही डेटा जो व्यावसायिक निर्णय लेने के लिए आवश्यक होता है, डेटा वेयरहाउस पर रखा जाता है। |
डेटा प्रकारों के लिए समर्थन | एक डाटा लेक सर्वर लॉग्स, सेंसर डेटा, सोशल नेटवर्क एक्टिविटी, टेक्स्ट, इमेज, मल्टीमीडिया आदि जैसे गैर-पारंपरिक डेटा प्रकारों का बहुत अच्छी तरह से समर्थन करता है। सभी डेटा स्रोत और संरचना के बावजूद रखे जाते हैं। | आम तौर पर, एक डेटा वेयरहाउस में ट्रांजेक्शनल सिस्टम से प्राप्त डेटा होता है। यह गैर-पारंपरिक डेटा प्रकारों का बहुत अच्छी तरह से समर्थन नहीं करता है। गैर-पारंपरिक डेटा को संग्रहीत और उपभोग करना डेटा वेयरहाउस के साथ महंगा और मुश्किल हो सकता है। |
सुरक्षा | डेटा झीलों की सुरक्षा uring मैच्योर ’अवस्था में है क्योंकि यह डेटा वेयरहाउस की तुलना में अपेक्षाकृत नई अवधारणा है। | डेटा वेयरहाउस की सुरक्षा of परिपक्व ’अवस्था में है। |
चपलता | अत्यधिक फुर्तीली; कॉन्फ़िगर करें और आवश्यकतानुसार पुन: कॉन्फ़िगर करें। | कम फुर्तीली; निश्चित कॉन्फ़िगरेशन। |
डेटा लेक आर्किटेक्चर
वास्तुकला आरेख
पीसी के लिए सबसे अच्छा मुफ्त यूट्यूब डाउनलोडर
ऊपर डेटा झील की वैचारिक वास्तुकला आरेख है। बाएं-अधिकांश भाग पर, आप देख सकते हैं कि हमारे पास डेटा स्रोत हैं जो संरचित, अर्ध-संरचित या असंरचित हो सकते हैं।
इन डेटा स्रोतों को एक कच्चे डेटा स्टोर में संयोजित किया जाता है जो अपने कच्चे रूप में डेटा का उपयोग करता है यानी बिना किसी परिवर्तन के डेटा। यह कम लागत, स्थायी और स्केलेबल भंडारण है।
अगला, हमारे पास विश्लेषणात्मक सैंडबॉक्स हैं जिनका उपयोग डेटा खोज, खोजपूर्ण डेटा विश्लेषण और भविष्य कहनेवाला मॉडलिंग के लिए किया जा सकता है। मूल रूप से, यह डेटा वैज्ञानिकों द्वारा डेटा का पता लगाने, नई परिकल्पना बनाने और उपयोग मामलों को परिभाषित करने के लिए उपयोग किया जाता है।
फिर एक बैच प्रोसेसिंग इंजन होता है जो कच्चे डेटा को उपभोक्ता के उपयोग योग्य रूप में प्रोसेस करता है यानी एक संरचित प्रारूप में जिसका उपयोग एंड-यूज़र्स को रिपोर्ट करने के लिए किया जा सकता है।
फिर हमारे पास एक वास्तविक समय प्रसंस्करण इंजन है जो स्ट्रीमिंग डेटा में लिया जाता है और इसे बदल देता है।
डेटा लेक की प्रमुख विशेषताएं
डेटा लेक के रूप में वर्गीकृत होने के लिए, एक बड़ी डेटा रिपॉजिटरी में निम्नलिखित तीन गुण होने चाहिए:
# 1) डेटा का एक एकल आम भंडार आमतौर पर एक वितरित फ़ाइल सिस्टम (DFS) के भीतर रखा जाता है।
Hadoop डेटा अपने मूल रूप में डेटा को बनाए रखता है और डेटा जीवनचक्र के दौरान डेटा और संबंधित शब्दार्थों में परिवर्तन कैप्चर करता है। यह दृष्टिकोण अनुपालन जांच और आंतरिक ऑडिट के लिए विशेष रूप से फायदेमंद है।
यह पारंपरिक एंटरप्राइज़ डेटा वेयरहाउस के ऊपर एक वृद्धि है जिसमें जब डेटा परिवर्तनों, एकत्रीकरण और संशोधनों के माध्यम से जाता है, तो संपूर्ण रूप से डेटा को आवश्यक रूप से डालना मुश्किल होता है, और कंपनियां डेटा के स्रोत / उत्पत्ति का पता लगाने का प्रयास करती हैं।
# 2) नियोजन और नौकरी शेड्यूलिंग क्षमताओं को शामिल करता है (उदाहरण के लिए, किसी भी शेड्यूलर टूल जैसे YARN, आदि के माध्यम से)।
वर्कलोड निष्पादन उद्यम के लिए एक आवश्यक आवश्यकता है Hadoop और YARN संसाधन प्रबंधन और निरंतर प्रक्रियाओं को प्रदान करने के लिए एक केंद्रीय मंच प्रदान करता है, सुरक्षा , और Hadoop समूहों में डेटा शासन उपकरण, यह सुनिश्चित करते हुए कि विश्लेषणात्मक वर्कफ़्लोज़ के पास डेटा पहुँच और कंप्यूटिंग शक्ति के आवश्यक स्तर होते हैं।
# 3) डेटा के साथ उपभोग, प्रक्रिया या काम करने के लिए आवश्यक उपयोगिताओं और कार्यों के सेट का अनुपालन करता है।
उपयोगकर्ताओं के लिए आसान और त्वरित पहुंच डेटा झील की प्रमुख विशेषताओं में से एक है, संगठनों के कारण डेटा को उसके मूल या शुद्ध रूप में संग्रहीत करता है।
जिस भी रूप में डेटा यानी संरचित, असंरचित या अर्ध-संरचित होता है, उसे डेटा झील में डाला जाता है। यह डेटा मालिकों को डेटा साझा करने के लिए किसी भी तकनीकी या राजनीतिक बाधाओं से छुटकारा दिलाकर ग्राहक, आपूर्तिकर्ता और संचालन डेटा को संयोजित करने की अनुमति देता है।
लाभ
(छवि स्रोत )
- बहुमुखी : CRM डेटा से लेकर सोशल नेटवर्क गतिविधियों तक सभी प्रकार के संरचित / असंरचित डेटा को संग्रहीत करने के लिए पर्याप्त रूप से सक्षम।
- स्कीमा की अधिक लचीलापन : डेटा विश्लेषण की योजना या पूर्व ज्ञान की आवश्यकता नहीं है। यह सभी डेटा को संग्रहीत करता है क्योंकि यह मूल रूप में है और अनुमान है कि विश्लेषण बाद में होगा, ऑन-डिमांड। यह OLAP के लिए बहुत उपयोगी है। उदाहरण के लिए, Hadoop डेटा लेक आपको स्कीमा मुक्त करने की अनुमति देता है जिसमें आप स्कीमा को डेटा से अलग कर सकते हैं।
- वास्तविक समय निर्णय विश्लेषण : वे वास्तविक समय निर्णय विश्लेषण तक पहुंचने के लिए निरंतर डेटा और गहन शिक्षण एल्गोरिदम की एक बड़ी मात्रा का लाभ उठाते हैं। असीमित डेटा प्रकारों से मूल्य प्राप्त करने में सक्षम।
- मापनीय: वे पारंपरिक डेटा गोदामों की तुलना में कहीं अधिक स्केलेबल हैं और, वे भी कम खर्चीले हैं।
- SQL और अन्य भाषाओं के साथ उन्नत विश्लेषिकी / संगतता: डेटा झीलों के साथ, डेटा को क्वेरी करने के कई तरीके हैं। पारंपरिक डेटा वेयरहाउस के विपरीत जो केवल सरल एनालिटिक्स के लिए एसक्यूएल का समर्थन करते हैं, वे आपको डेटा का विश्लेषण करने के लिए कई अन्य विकल्प और भाषा समर्थन देते हैं। वे स्पार्क एमएललिब जैसे मशीन लर्निंग टूल्स के साथ भी संगत हैं।
- डेमोक्रेटाइज़ डेटा: एक प्रभावी डेटा प्रबंधन प्लेटफॉर्म का उपयोग करते हुए पूरे संगठन में डेटा के एकल, एकीकृत दृश्य के माध्यम से डेटा तक पहुंच का डेमोक्रेटाइज किया गया। यह डेटा की चारों ओर उपलब्धता सुनिश्चित करता है।
- डेटा की बेहतर गुणवत्ता: कुल मिलाकर आपको तकनीकी लाभ जैसे कि देशी प्रारूप, मापनीयता, बहुमुखी प्रतिभा, स्कीमा लचीलेपन, एसक्यूएल और अन्य भाषाओं के समर्थन और उन्नत विश्लेषिकी के माध्यम से डेटा झीलों के साथ डेटा की बेहतर गुणवत्ता मिलती है।
चुनौतियां और जोखिम
डेटा झीलों के कई फायदे हैं। लेकिन हां, उनसे जुड़ी कुछ चुनौतियां और जोखिम भी हैं जिन्हें एक संगठन को ध्यान से संबोधित करने की आवश्यकता है।
वे:
- यदि ठीक से डिज़ाइन नहीं किया गया है, तो वे डेटा दलदल में बदल सकते हैं। कभी-कभी, संगठन बिना किसी रणनीति और उद्देश्य को ध्यान में रखते हुए इन झीलों में असीम डेटा डंप करते रहते हैं।
- कई बार, जो विश्लेषक डेटा का उपयोग करना चाहते हैं, उन्हें इस बारे में कोई जानकारी नहीं होती है कि ऐसा कैसे किया जाए क्योंकि डेटा झीलों में खनन करना काफी चुनौतीपूर्ण है। इस प्रकार, वे कुछ समय के बाद प्रासंगिकता और गति खो देते हैं। विश्लेषकों के लिए इस बाधा को दूर करने के लिए संगठनों को काम करने की आवश्यकता है।
- जैसा कि हमारे पास डेटा झीलों में बहुत अधिक अव्यवस्थित डेटा है, यह उत्पादन में उपयोग किए जाने के लिए पर्याप्त ताजा या चालू नहीं है। इसलिए, इन झीलों में डेटा पायलट मोड में रहता है और कभी भी उत्पादन में नहीं लगाया जाता है।
- असंरचित डेटा अनुपयोगी डेटा को जन्म दे सकता है।
- कभी-कभी, संगठन अनुभव करते हैं कि यह किए गए निवेश के संबंध में व्यापार पर महत्वपूर्ण प्रभाव नहीं डाल रहा है। इसके लिए मानसिकता में बदलाव की आवश्यकता है। होने वाले प्रभावों के लिए, कंपनियों को इन डेटा जलाशयों से प्राप्त विश्लेषण के आधार पर निर्णय लेने के लिए प्रबंधकों और नेताओं को प्रोत्साहित करने की आवश्यकता है।
- सुरक्षा और अभिगम नियंत्रण भी जोखिम में से एक है जब आप उनके साथ काम कर रहे होते हैं। कुछ डेटा जिनमें गोपनीयता और आवश्यक विनियम हो सकते हैं, उन्हें बिना किसी ओवरसाइट के डेटा झीलों में रखा जाता है।
कार्यान्वयन
एक उद्यम में, डेटा लेक कार्यान्वयन को चुस्त तरीके से करना काफी समझदार है।
यही कारण है कि डेटा लेक एमवीपी को पहले लागू करने के लिए इसे उपयोगकर्ताओं द्वारा गुणवत्ता, उपयोग में आसानी, भंडारण और विश्लेषणात्मक क्षमताओं के संबंध में परीक्षण किया जाता है, फीडबैक प्राप्त करते हैं और फिर झील में मूल्य जोड़ने के लिए जटिल आवश्यकताओं और सुविधाओं को जोड़ते हैं।
आमतौर पर, एक संगठन कार्यान्वयन के चार मूल चरणों से गुजरता है:
(छवि स्रोत )
प्रथम चरण:
बुनियादी डेटा झील: इस स्तर पर, टीम बुनियादी वास्तुकला, प्रौद्योगिकी (क्लाउड-आधारित या विरासत) और डेटा झील के लिए सुरक्षा और शासी प्रथाओं पर बैठ जाती है। यह विभिन्न एंटरप्राइज़ स्रोतों से आने वाले सभी कच्चे डेटा को संग्रहीत करने और समृद्ध जानकारी देने के लिए आंतरिक और बाहरी डेटा के संयोजन में सक्षम बनाया गया है।
चरण 2:
सैंडबॉक्स: विश्लेषणात्मक क्षमता संवर्धन: इस स्तर पर, डेटा वैज्ञानिक व्यावसायिक आवश्यकताओं को पूरा करने के लिए कच्चे डेटा और डिज़ाइन विश्लेषणात्मक मॉडल के उपयोग के लिए प्रारंभिक प्रयोगों को निष्पादित करने के लिए डेटा जलाशय तक पहुंचते हैं।
स्टेज 3:
राउटर पर नेटवर्क सुरक्षा कुंजी क्या है
डेटा वेयरहाउस और डेटा लेक सहयोग: इस स्तर पर, संगठन मौजूदा डेटा वेयरहाउस के साथ तालमेल में डेटा झील का उपयोग करना शुरू कर देता है। निम्न प्राथमिकता डेटा उन्हें भेजा जाता है ताकि डेटा वेयरहाउस की संग्रहण सीमा पार न हो।
यह ठंडे डेटा से अंतर्दृष्टि उत्पन्न करने की संभावना प्रस्तुत करता है या पारंपरिक डेटाबेस द्वारा अनुक्रमित नहीं की जाने वाली जानकारी की खोज करने के लिए इसे क्वेरी करता है।
स्टेज 4:
डेटा लेक के लिए एंड टू एंड अडॉप्शन: यह अंतिम और परिपक्वता अधिग्रहण चरण है जिसमें यह संगठन के डेटा आर्किटेक्चर के एक प्रमुख तत्व और प्रभावी रूप से प्रत्यक्ष खोज ऑपरेशन में बदल जाता है। इस समय तक, डेटा लेक ने EDW को प्रतिस्थापित कर दिया होगा और वे सभी एंटरप्राइज़ डेटा का एकमात्र स्रोत बन जाएंगे।
एक संगठन डेटा झील के माध्यम से निम्नलिखित कर सकता है:
- विभिन्न व्यावसायिक आवश्यकताओं के लिए जटिल डेटा मॉडलिंग और एनालिटिक्स समाधान बनाएं।
- इंटरेक्टिव डैशबोर्ड डिज़ाइन करें जो डेटा झील और विभिन्न अनुप्रयोगों और डेटा स्रोतों से समझ को मजबूत करता है।
- उन्नत विश्लेषिकी या रोबोटिक्स कार्यक्रमों को लागू करें, क्योंकि यह कम्प्यूटेशनल संचालन को संभालता है।
इस बिंदु पर, यह मजबूत सुरक्षा और शासन उपायों के रूप में अच्छी तरह से कर रहा है।
डेटा लेक वेंडर
उद्योग में डेटा लेक टूल प्रदान करने वाले विभिन्न विक्रेता हैं।
(छवि स्रोत )
अगर हम बड़ी कंपनियों को देखें:
- कम्प्यूटिंग एक बुद्धिमान डेटा झील उपकरण प्रदान कर रहा है। BDM (बिग डेटा मैनेजमेंट) 10.2.2 नवीनतम संस्करण उपलब्ध है।
- एक वेंडर कहा जाता है देखनेवाला जो उपकरण भी प्रदान कर रहा है।
- कंपनी बात करते हैं जो उनके ETL टूल के लिए लोकप्रिय है, डेटा लेक टूल भी प्रदान करता है।
- फिर, हमारे पास एक ओपन-सोर्स टूल है जिसे कहा जाता है कलो से तेरदता कंपनी। टेराडाटा कंपनी में team थिंक बिग ’की टीम ने इस उपकरण को विकसित किया है।
- कंपनी पीपा डेटा इन सेवाओं को भी प्रदान करता है।
- से माइक्रोसॉफ्ट , आप पा सकते हैं एज़्योर डेटा लेक उद्योग में उपलब्ध है।
- एचवीआर-सॉफ्टवेयर डेटा झील समेकन समाधान भी प्रदान करता है।
- पोडियम डेटा, एक Qlik कंपनी डेटा उत्पाद प्रदान कर रही है जैसे डेटा लेक पाइपलाइन, मल्टी-ज़ोन डेटा झील।
- हिमपात का एक खंड एक डेटा झील उत्पाद भी है।
- ज़लोनी एक डेटा झील कंपनी है जो बिग डेटा का उपयोग करके बहुत बड़ा डेटा संभाल रही है।
तो, ये सभी लोकप्रिय सर्विस प्रोवाइडर के साथ-साथ ऐसे टूल्स के लिए वेंडर हैं।
यदि आप डेटा झीलों के बारे में अपने ज्ञान का अभ्यास और निर्माण करने की तलाश कर रहे हैं, तो आप Informatica या Kylo के लिए जा सकते हैं। यदि आप क्लाउड-आधारित सेवा की तलाश कर रहे हैं, तो आप लुकर, इंफॉर्मेटिका और टैलेंड का विकल्प चुन सकते हैं। ये तीनों विक्रेता AWS क्लाउड डेटा झील प्रदान कर रहे हैं। आप Kylo से 1 महीने का निःशुल्क परीक्षण भी प्राप्त कर सकते हैं।
निष्कर्ष
इस ट्यूटोरियल में, हमने डेटा लेक की अवधारणा पर विस्तार से चर्चा की। हम डेटा झील, इसकी वास्तुकला, प्रमुख विशेषताओं, लाभों, इसके उदाहरणों, उपयोग मामलों, आदि के पीछे मूल विचार से गुजरे।
हमने यह भी देखा कि कैसे एक डेटा लेक डेटा वेयरहाउस से अलग है। हमने संबंधित सेवाएं प्रदान करने वाले शीर्ष विक्रेताओं को भी कवर किया।
पढ़ने का आनंद लो!!
अनुशंसित पाठ
- उदाहरणों के साथ डेटा वेयरहाउस टेस्टिंग ट्यूटोरियल | ईटीएल परीक्षण गाइड
- एसईओ के लिए शीर्ष 10 संरचित डेटा परीक्षण और सत्यापन उपकरण
- डेटा माइनिंग: डेटा एनालिसिस में प्रक्रिया, तकनीक और प्रमुख मुद्दे
- डेटा मार्ट ट्यूटोरियल - डेटा मार्ट के प्रकार, उदाहरण और कार्यान्वयन
- शीर्ष 10 लोकप्रिय डेटा वेयरहाउस उपकरण और परीक्षण प्रौद्योगिकी
- डेटा वेयरहाउस में आयामी डेटा मॉडल - उदाहरणों के साथ ट्यूटोरियल
- डेटा इकट्ठा करने की रणनीतियों के साथ 10+ सर्वश्रेष्ठ डेटा संग्रह उपकरण
- टेस्ट डेटा प्रबंधन के लिए आईबीएम तर्कसंगत गुणवत्ता प्रबंधक में डेटा पूल फ़ीचर