big data tutorial beginners what is big data
यह ट्यूटोरियल बिग डेटा बेसिक्स के बारे में विस्तार से बताता है। ट्यूटोरियल में बड़े डेटा के अनुप्रयोगों के साथ लाभ, चुनौतियां, प्रौद्योगिकी और उपकरण शामिल हैं:
तकनीकी प्रगति वाली इस डिजिटल दुनिया में, हम बड़ी मात्रा में दैनिक डेटा का आदान-प्रदान करते हैं टेराबाइट्स या पेटाबाइट ।
यदि हम उस डेटा का प्रतिदिन आदान-प्रदान कर रहे हैं, तो हमें इसे बनाए रखने और इसे कहीं स्टोर करने की आवश्यकता है। उच्च वेग और विभिन्न प्रकार के साथ बड़ी मात्रा में डेटा को संभालने का उपाय है बड़ा डेटा।
यह विभिन्न डेटाबेस, वेबसाइट, विजेट आदि जैसे कई स्रोतों से आने वाले जटिल डेटा को संभाल सकता है। इसके अलावा, यह विभिन्न स्रोतों से आने वाले डेटा को लिंक और मेल कर सकता है। यह वास्तव में डेटा तक तेजी से पहुंच प्रदान करता है ( उदाहरण के लिए, सामाजिक मीडिया)।
इस बड़ी डेटा श्रृंखला में ट्यूटोरियल की सूची
ट्यूटोरियल # 1: बिग डेटा क्या है? (यह ट्यूटोरियल)
ट्यूटोरियल # 2: Hadoop क्या है? शुरुआती के लिए Apache Hadoop ट्यूटोरियल
ट्यूटोरियल # 3: Hadoop HDFS - Hadoop डिस्ट्रिब्यूटेड फाइल सिस्टम
ट्यूटोरियल # 4: Hadoop आर्किटेक्चर और HDFS कमांड गाइड
ट्यूटोरियल # 5: उदाहरणों के साथ Hadoop MapReduce ट्यूटोरियल | MapReduce क्या है?
ट्यूटोरियल # 6: शुरुआती के लिए Apache Hadoop YARN ट्यूटोरियल | YARN क्या है?
ट्यूटोरियल # 7: व्यापक Hadoop परीक्षण ट्यूटोरियल | बिग डेटा परीक्षण गाइड
आप क्या सीखेंगे:
बिग डेटा क्या है?
विशाल शब्द बिगडाटा को समझाने के लिए पर्याप्त नहीं है, कुछ विशेषताएं बिगडाटा में डेटा को वर्गीकृत करती हैं।
हमारे पास बिगडेटा की तीन मुख्य विशेषताएं हैं, और यदि कोई डेटा इन विशेषताओं को संतुष्ट करता है तो इसे बिगडाटा माना जाएगा। मैं टी नीचे दिए गए तीन V का संयोजन है:
- आयतन
- वेग
- वैराइटी
आयतन : डेटा बड़ी मात्रा का होना चाहिए। बिग डेटा में बड़ी मात्रा में डेटा बनाए रखने के लिए समाधान है जो कि टेराबाइट या पेटाबाइट में है। हम BigData पर आसानी से और प्रभावी तरीके से CRUD (क्रिएट, रीड, अपडेट और डिलीट) ऑपरेशन कर सकते हैं।
वेग : यह डेटा तक तेजी से पहुंच के लिए जिम्मेदार है। उदाहरण के लिए, आजकल सोशल मीडिया को समय के एक अंश के भीतर डेटा के तेजी से आदान-प्रदान की आवश्यकता है और बिगडाटा इसके लिए सबसे अच्छा समाधान है। इसलिए, वेग एक और विशेषता है और यह डेटा की प्रसंस्करण गति है।
वैराइटी : सोशल मीडिया में, हम ऑडियो या वीडियो रिकॉर्डिंग, इमेज आदि जैसे अनस्ट्रक्चर्ड डेटा के साथ काम कर रहे हैं। इसके अलावा, बैंकिंग डोमेन जैसे विभिन्न क्षेत्रों को संरचित और अर्ध-संरचित डेटा की आवश्यकता होती है। BigData एक ही स्थान पर दोनों प्रकार के डेटा को बनाए रखने का समाधान है।
विविधता का अर्थ है विभिन्न प्रकार के डेटा जैसे स्ट्रक्चर्ड / अनस्ट्रक्चर्ड डेटा कई स्रोतों से आते हैं।
संरचित डेटा : वह डेटा जिसकी एक उचित संरचना होती है या जिसे Oracle, SQL Server या MySQL जैसे किसी भी रिलेशनल डेटाबीस में सारणीबद्ध रूप में आसानी से संग्रहीत किया जा सकता है। हम इसे आसानी से और कुशलता से संसाधित या विश्लेषण कर सकते हैं।
स्ट्रक्चर्ड डेटा का एक उदाहरण एक रिलेशनल डेटाबेस में संग्रहीत डेटा है जिसे SQL (स्ट्रक्चर्ड क्वेरी लैंग्वेज) का उपयोग करके प्रबंधित किया जा सकता है। उदाहरण के लिए, कर्मचारी डेटा (नाम, आईडी, पदनाम, और वेतन) एक सारणीबद्ध प्रारूप में संग्रहीत किया जा सकता है।
पारंपरिक डेटाबेस में, हम ऑपरेशन या रिस्ट्रक्चर किए गए या सेमी-स्ट्रक्चर्ड डेटा को प्रोसेस करने के बाद ही कर सकते हैं, यह फॉर्मेट होने के बाद या रिलेशनल डेटाबेस में फिट होता है। उदाहरण संरचित डेटा ईआरपी, सीआरएम आदि हैं।
अर्ध-संरचित डेटा: अर्ध-संरचित डेटा वह डेटा है जो पूरी तरह से स्वरूपित नहीं है। इसे डेटा टेबल या किसी डेटाबेस में संग्रहीत नहीं किया जाता है। लेकिन फिर भी, हम इसे आसानी से तैयार कर सकते हैं और इसे संसाधित कर सकते हैं क्योंकि इस डेटा में टैग या अल्पविराम-पृथक-मान आदि शामिल हैं। उदाहरण सेमी-स्ट्रक्चर्ड डेटा की XML फ़ाइलें, CSV फ़ाइलें आदि हैं।
असंरचित डेटा: अनस्ट्रक्चर्ड डेटा वह डेटा है जिसमें कोई संरचना नहीं होती है। यह किसी भी रूप में हो सकता है, कोई पूर्व-निर्धारित डेटा मॉडल नहीं है। हम इसे पारंपरिक डेटाबेस में संग्रहीत नहीं कर सकते। इसे खोजना और संसाधित करना जटिल है।
साथ ही, Unstructured Data की मात्रा बहुत अधिक है। उदाहरण अनस्ट्रक्चर्ड डेटा ई-मेल बॉडी, ऑडियो, वीडियो, इमेजेस, अचीव्ड डॉक्यूमेंट्स आदि हैं।
पारंपरिक डेटाबेस की चुनौतियाँ
कैसे ग्रहण में maven सेटअप करने के लिए
- ट्रेडिशनल डाटाबेस विभिन्न प्रकार के डेटा का समर्थन नहीं करता है अर्थात यह Unstructured and Semi-संरचित डेटा को संभालने में सक्षम नहीं है।
- बड़ी मात्रा में डेटा के साथ काम करते समय एक पारंपरिक डेटाबेस धीमा है।
- पारंपरिक डेटाबेस में, बड़ी मात्रा में डेटा का प्रसंस्करण या विश्लेषण बहुत मुश्किल है।
- एक पारंपरिक डेटाबेस उन डेटा को संग्रहीत करने में सक्षम है जो टेराबाइट्स या पेटाबाइट्स में हैं।
- एक पारंपरिक डेटाबेस ऐतिहासिक डेटा और रिपोर्ट को संभाल नहीं सकता है।
- समय की एक निश्चित मात्रा के बाद डेटाबेस का डेटा-अप आवश्यक है।
- पारंपरिक डेटाबेस के साथ बड़ी मात्रा में डेटा को बनाए रखने की लागत बहुत अधिक है।
- पारंपरिक डेटाबेस में डेटा सटीकता कम है क्योंकि इसमें पूर्ण ऐतिहासिक डेटा बनाए नहीं रखा गया है।
बड़ा डेटापारंपरिक डेटाबेस पर लाभ
- बिग डेटा विभिन्न प्रकार के डेटा, जैसे स्ट्रक्चर्ड, सेमी-स्ट्रक्चर्ड और अनस्ट्रक्चर्ड को संभालने, प्रबंधित करने और प्रोसेस करने के लिए जिम्मेदार है।
- यह बड़ी मात्रा में डेटा को बनाए रखने के मामले में लागत प्रभावी है। यह एक वितरित डेटाबेस सिस्टम पर काम करता है।
- हम बिगडाटा तकनीकों का उपयोग करके लंबे समय तक बड़ी मात्रा में डेटा बचा सकते हैं। इसलिए ऐतिहासिक डेटा को संभालना और सटीक रिपोर्ट तैयार करना आसान है।
- डाटा प्रोसेसिंग की गति बहुत तेज है और इस प्रकार सोशल मीडिया बिग डेटा तकनीकों का उपयोग कर रहा है।
- डेटा एक्यूरेसी बिग डेटा का एक बड़ा फायदा है।
- यह उपयोगकर्ताओं को वर्तमान और ऐतिहासिक डेटा के आधार पर अपने व्यवसाय के लिए कुशल निर्णय लेने की अनुमति देता है।
- बिगडाटा में एरर हैंडलिंग, वर्जन कंट्रोल और ग्राहक अनुभव बहुत प्रभावी हैं।
पठन पाठन => बिग डेटा बनाम बिग डेटा एनालिटिक्स बनाम डेटा साइंस
बिगडाटा में चुनौतियां और जोखिम
चुनौतियां:
- बिग डेटा में एक बड़ी चुनौती बड़ी मात्रा में डेटा का प्रबंधन करना है। आजकल डेटा विभिन्न स्रोतों से एक प्रणाली में आता है जिसमें विविधता होती है। इसलिए इसे ठीक से प्रबंधित करना, कंपनियों के लिए एक बहुत बड़ी चुनौती है। उदाहरण के लिए, पिछले 20 वर्षों के डेटा को रिपोर्ट करने के लिए, सिस्टम के पिछले 20 वर्षों के डेटा को सहेजने और बनाए रखने की आवश्यकता है। एक सटीक रिपोर्ट प्रदान करने के लिए, सिस्टम में केवल प्रासंगिक डेटा डालना आवश्यक है। इसमें अप्रासंगिक या अनावश्यक डेटा नहीं होना चाहिए, अन्यथा डेटा की मात्रा को बनाए रखना कंपनियों के लिए एक बड़ी चुनौती होगी।
- इस तकनीक के साथ एक और चुनौती विभिन्न प्रकार के डेटा का सिंक्रनाइज़ेशन है। जैसा कि हम सभी जानते हैं कि बिग डेटा विभिन्न स्रोतों से संरचित, असंरचित और अर्ध-संरचित डेटा का समर्थन करता है, इसे सिंक्रनाइज़ करना और डेटा की स्थिरता प्राप्त करना बहुत मुश्किल है।
- अगली चुनौती जो कंपनियों का सामना कर रही है वह विशेषज्ञों की खाई है जो सिस्टम में सामना कर रहे मुद्दों को मदद और कार्यान्वित कर सकते हैं। इस क्षेत्र में प्रतिभाओं की एक बड़ी खाई है।
- अनुपालन पहलू को संभालना महंगा है।
- बिगडाटा के डेटा संग्रह, एकत्रीकरण, भंडारण, विश्लेषण और रिपोर्टिंग की एक बड़ी लागत है। संगठन को इन सभी लागतों का प्रबंधन करने में सक्षम होना चाहिए।
जोखिम:
- यह विभिन्न प्रकार के डेटा को संभाल सकता है लेकिन यदि कंपनियां आवश्यकताओं को ठीक से समझ नहीं पाती हैं और डेटा के स्रोत को नियंत्रित करती हैं तो यह त्रुटिपूर्ण परिणाम प्रदान करेगा। नतीजतन, परिणामों की जांच और सही करने के लिए बहुत समय और धन की आवश्यकता होगी।
- बिगडेटा के साथ डेटा सुरक्षा एक और जोखिम है। डेटा की उच्च मात्रा के साथ, उच्च संभावनाएं हैं कि कोई इसे चुरा लेगा। डेटा हैकर्स कंपनी की महत्वपूर्ण जानकारी (ऐतिहासिक डेटा सहित) चोरी और बेच सकते हैं।
- इसके अलावा, डेटा गोपनीयता BigData के लिए एक और जोखिम है। यदि हम हैकर्स से व्यक्तिगत और संवेदनशील डेटा को सुरक्षित करना चाहते हैं तो इसे संरक्षित किया जाना चाहिए और सभी गोपनीयता नीतियों को पारित करना होगा।
बिग डेटा टेक्नोलॉजीज
निम्नलिखित तकनीकें हैं जिनका उपयोग बिग डेटा को प्रबंधित करने के लिए किया जा सकता है:
- अपाचे होडोप
- Microsoft HDInsight
- कोई SQL नहीं
- मधुमुखी का छत्ता
- सकप
- एक्सेल में बिगडाटा
इन तकनीकों का विस्तृत विवरण हमारे आगामी ट्यूटोरियल में शामिल किया जाएगा।
बिग डेटा अवधारणाओं का उपयोग करने के लिए उपकरण
नीचे सूचीबद्ध खुला स्रोत उपकरण हैं जो बिग डेटा अवधारणाओं का उपयोग करने में मदद कर सकते हैं:
# 1) अपाचे हडोप
# 2) Lumify
# 3) अपाचे स्टॉर्म
# 4) अपाचे समोआ
व्हाइटबॉक्स और ब्लैकबॉक्स परीक्षण के बीच अंतर
# 5) एलेस्टिक्स खोज
# 6) MongoDB
# 7) एचपीसीसी सिस्टम बिगडेटा
बिग डेटा के अनुप्रयोग
निम्नलिखित डोमेन हैं जहाँ इसका उपयोग किया जाता है:
- बैंकिंग
- मीडिया और मनोरंजन
- स्वास्थ्य देखभाल करने वाले
- बीमा
- शिक्षा
- खुदरा
- विनिर्माण
- सरकार
बिगडाटा और डेटा वेयरहाउस
डेटा वेयरहाउस एक बुनियादी अवधारणा है जिसे हमें Hadoop या BigData परीक्षण पर चर्चा करने से पहले समझने की आवश्यकता है।
डेटा वेयरहाउस को वास्तविक समय के उदाहरण से समझें। उदाहरण के लिए , एक कंपनी है जिसने तीन अलग-अलग देशों में अपनी शाखाएं स्थापित की हैं, आइए भारत, ऑस्ट्रेलिया और जापान में एक शाखा मान लें।
प्रत्येक शाखा में, पूरे ग्राहक डेटा को स्थानीय डेटाबेस में संग्रहीत किया जाता है। ये स्थानीय डेटाबेस सामान्य शास्त्रीय RDBMS जैसे Oracle या MySQL या SQL Server आदि हो सकते हैं और सभी ग्राहक डेटा को दैनिक रूप से संग्रहीत किया जाएगा।
अब, हर तिमाही, छमाही या वार्षिक आधार पर, संगठन व्यवसाय विकास के लिए इस डेटा का विश्लेषण करना चाहता है। ऐसा करने के लिए, संगठन इस सारे डेटा को कई स्रोतों से एकत्र करेगा और फिर एक स्थान पर एक साथ रख देगा और इस स्थान को कहा जाता है 'डेटा वेयरहाउस'।
डेटा वेयरहाउस एक तरह का डेटाबेस है जिसमें कई स्रोतों या कई डेटाबेस प्रकारों से खींचा गया सारा डेटा होता है 'ETL' (कौन सा है xtract, टी फिरौती और एल ओड) प्रक्रिया। डेटा वेयरहाउस में डेटा तैयार होने के बाद, हम इसका उपयोग विश्लेषणात्मक उद्देश्यों के लिए कर सकते हैं।
इसलिए विश्लेषण के लिए, हम डेटा वेयरहाउस में उपलब्ध डेटा से रिपोर्ट उत्पन्न कर सकते हैं। बिजनेस इंटेलिजेंस टूल्स का उपयोग करके कई चार्ट और रिपोर्ट तैयार की जा सकती हैं।
हमें व्यापार बढ़ाने और संगठनों के लिए उचित निर्णय लेने के लिए विश्लेषणात्मक उद्देश्यों के लिए डेटा वेयरहाउस की आवश्यकता है।
इस प्रक्रिया में तीन चीजें हो रही हैं, पहला कि हमने डेटा को कई स्रोतों से खींचा है और इसे एक ही स्थान पर रखा है जो डेटा वेयरहाउस है।
यहां हम 'ईटीएल' प्रक्रिया का उपयोग करते हैं, इस प्रकार कई स्रोतों से डेटा को एक स्थान पर लोड करते समय, हम इसे परिवर्तन जड़ों में लागू करेंगे और फिर हम यहां विभिन्न प्रकार के ईटीएल उपकरणों का उपयोग कर सकते हैं।
डेटा वेयरहाउस में डेटा तैयार हो जाने के बाद, हम बिजनेस इंटेलिजेंस (BI) टूल्स का उपयोग करके बिजनेस डेटा का विश्लेषण करने के लिए विभिन्न रिपोर्टें तैयार कर सकते हैं या हम उन्हें रिपोर्टिंग टूल भी कहते हैं। व्यवसाय के लिए डेटा का विश्लेषण करने के लिए रिपोर्ट और डैशबोर्ड बनाने के लिए झांकी या कॉग्नोस जैसे उपकरणों का उपयोग किया जा सकता है।
OLTP और OLAP
आइए समझते हैं कि ओएलटीपी और ओएलएपी क्या हैं?
डेटाबेस जिन्हें स्थानीय रूप से बनाए रखा जाता है और लेन-देन के उद्देश्यों के लिए उपयोग किया जाता है ओएलटीपी यानी ऑनलाइन ट्रांजेक्शन प्रोसेसिंग। दिन-प्रतिदिन के लेनदेन को यहां संग्रहीत किया जाएगा और तुरंत अपडेट किया जाएगा और इसीलिए हमने उन्हें ओएलटीपी सिस्टम कहा है।
यहां हम पारंपरिक डेटाबेस का उपयोग करते हैं, हमारे पास कई टेबल हैं और रिश्ते हैं, इस प्रकार डेटाबेस के अनुसार सब कुछ व्यवस्थित रूप से योजनाबद्ध है। हम इस डेटा का उपयोग विश्लेषणात्मक उद्देश्यों के लिए नहीं कर रहे हैं। यहां, हम Oracle, MySQL, SQL Server आदि जैसे शास्त्रीय RDMBS डेटाबेस का उपयोग कर सकते हैं।
जब हम डेटा वेयरहाउस भाग में आते हैं, तो हम Teradata या Hadoop Systems का उपयोग करते हैं, जो एक तरह का डेटाबेस भी है, लेकिन DataWarehouse में डेटा आमतौर पर विश्लेषणात्मक उद्देश्यों के लिए उपयोग किया जाता है और इसे कहा जाता है OLAP या ऑनलाइन विश्लेषणात्मक प्रक्रिया।
यहां, डेटा को तिमाही, छमाही या वार्षिक आधार पर अपडेट किया जा सकता है। कभी-कभी डेटा 'ऑफ़रली' के रूप में अच्छी तरह से अपडेट किया जाता है, जहां ऑफ़रली का अर्थ है कि डेटा को अपडेट किया जाता है और ग्राहक की प्रति आवश्यकताओं के विश्लेषण के लिए लाया जाता है।
इसके अलावा, विश्लेषण के लिए डेटा को दैनिक रूप से अपडेट नहीं किया जाता है क्योंकि हम एक निर्धारित आधार पर कई स्रोतों से डेटा प्राप्त करेंगे, और हम यह ईटीएल कार्य कर सकते हैं। यह ऑनलाइन एनालिटिकल प्रोसेसिंग सिस्टम कैसे काम करता है।
यहां फिर से, बीआई उपकरण या रिपोर्टिंग टूल रिपोर्ट के साथ-साथ डैशबोर्ड भी उत्पन्न कर सकते हैं और इसके आधार पर व्यवसाय के लोग अपने व्यवसाय को बेहतर बनाने के लिए निर्णय लेंगे।
बिगडेट तस्वीर में कहाँ आता है?
बिगडाटा वह डेटा है जो पारंपरिक डेटाबेस के भंडारण और प्रसंस्करण क्षमता से परे है और यह संरचित और असंरचित प्रारूप में है, इसलिए इसे स्थानीय RDBMS सिस्टम द्वारा नियंत्रित नहीं किया जा सकता है।
इस तरह का डेटा TeraBytes (TB) या PetaBytes (PB) या उससे आगे उत्पन्न होगा और यह आजकल तेजी से बढ़ रहा है। इस तरह के डेटा को प्राप्त करने के लिए कई स्रोत हैं जैसे कि फेसबुक, व्हाट्सएप (जो कि सोशल नेटवर्किंग से संबंधित हैं); ई-कॉमर्स से संबंधित अमेज़ॅन, फ्लिपकार्ट; जीमेल, याहू, रेडिफ संबंधित ईमेल और Google और अन्य खोज इंजन। हमें एसएमएस डेटा, कॉल रिकॉर्डिंग, कॉल लॉग्स आदि जैसे मोबाइल से भी बिगडाटा मिलता है।
निष्कर्ष
बिग डेटा बड़ी मात्रा में डेटा को कुशलतापूर्वक और सुरक्षित रूप से संभालने का उपाय है। यह ऐतिहासिक डेटा को बनाए रखने के लिए भी जिम्मेदार है। इस तकनीक के कई फायदे हैं जिसके कारण हर कंपनी बिग डेटा पर स्विच करना चाहती है
लेखक: वैशाली तारी, तकनीकी लीड @ सिंटेल
अनुशंसित पाठ
- डेटा मार्ट ट्यूटोरियल - डेटा मार्ट के प्रकार, उदाहरण और कार्यान्वयन
- शीर्ष 10 डेटाबेस डिज़ाइन उपकरण जटिल डेटा मॉडल बनाने के लिए
- 20+ MongoDB शुरुआती के लिए ट्यूटोरियल: नि: शुल्क MongoDB कोर्स
- क्या एक डेटा झील है | डेटा वेयरहाउस बनाम डेटा लेक
- एसईओ के लिए शीर्ष 10 संरचित डेटा परीक्षण और सत्यापन उपकरण
- डेटा वेयरहाउस में आयामी डेटा मॉडल - उदाहरणों के साथ ट्यूटोरियल
- डेटा माइनिंग: प्रक्रिया, तकनीक और डेटा विश्लेषण में प्रमुख मुद्दे
- SoapUI Pro में डेटा चालित परीक्षण कैसे करें - SoapUI Tutorial # 14