what is hadoop apache hadoop tutorial
शुरुआती के लिए यह अपाचे Hadoop ट्यूटोरियल बिग डेटा Hadoop, इसकी विशेषताओं, रूपरेखा और वास्तुकला के बारे में विस्तार से बताता है:
एनीमे देखने के लिए सबसे अच्छी साइट क्या है
पिछले ट्यूटोरियल में, हमने बिग डेटा पर विस्तार से चर्चा की। अब सवाल यह है कि हम विश्वसनीय और सटीक परिणामों के साथ डेटा की इतनी बड़ी मात्रा को कैसे संभाल और संसाधित कर सकते हैं।
वास्तव में अपाचे द्वारा प्रदान किया गया एक बेहतरीन समाधान है और जावा द्वारा संचालित है अर्थात्। Hadoop फ्रेमवर्क ।
=> आसान बिगडेटा प्रशिक्षण श्रृंखला के माध्यम से पढ़ें।
आप क्या सीखेंगे:
Hadoop क्या है?
Apache Hadoop सभी प्रकार के डेटा (संरचित, असंरचित और अर्ध-संरचित) को प्रबंधित करने के लिए एक ओपन-सोर्स फ्रेमवर्क है।
जैसा कि हम सभी जानते हैं, अगर हम अपने डेटा को प्रोसेस, स्टोर और मैनेज करना चाहते हैं तो RDBMS सबसे अच्छा उपाय है। लेकिन, डेटा को RDBMS के साथ संभालने के लिए एक संरचित प्रारूप में होना चाहिए। इसके अलावा, यदि डेटा का आकार बढ़ता है, तो RDBMS इसे संभालने में सक्षम नहीं है और हमें डेटाबेस को नियमित रूप से साफ करने की आवश्यकता है।
यह ऐतिहासिक डेटा हानि का कारण हो सकता है और मौसम पूर्वानुमान, बैंकिंग, बीमा, बिक्री, आदि जैसे कुछ उद्योगों में सटीक और विश्वसनीय परिणाम उत्पन्न नहीं कर सकता है। RDBMS के साथ एक और समस्या यह है कि यदि मुख्य सर्वर नीचे चला जाता है तो हम अपना महत्वपूर्ण खो सकते हैं डेटा और एक बहुत पीड़ित हैं।
इस ट्यूटोरियल में, हम देखेंगे कि हम Apache Hadoop के साथ इन समस्याओं को कैसे दूर कर सकते हैं।
Hadoop एक वितरित फ़ाइल सिस्टम है और यह बड़ी मात्रा में डेटा (पेटाबाइट और टेराबाइट में डेटा) संग्रहीत कर सकता है। डेटा प्रोसेसिंग की गति भी बहुत तेज है और विश्वसनीय परिणाम प्रदान करता है क्योंकि इसमें बहुत अधिक दोष-सहिष्णुता प्रणाली है।
Hadoop एक जावा-आधारित ओपन-सोर्स प्रोग्रामिंग फ्रेमवर्क है जो एक वितरित कंप्यूटिंग वातावरण में बड़े डेटा सेट के भंडारण और प्रसंस्करण का समर्थन करता है।
Hadoop कमोडिटी हार्डवेयर का उपयोग करते हुए क्लस्टर कॉन्सेप्ट पर आधारित है। इसके लिए किसी जटिल विन्यास की आवश्यकता नहीं होती है और हम सस्ता, सरल और हल्का विन्यास हार्डवेयर के साथ Hadoop वातावरण स्थापित कर सकते हैं।
सरल शब्दों में क्लस्टर अवधारणा वह डेटा है जो कई मशीनों पर प्रतिकृति प्रारूप में संग्रहीत किया जाता है ताकि जब कोई स्थान या आपदा किसी ऐसे स्थान पर हो जहां डेटा निवास कर रहा हो तो उस डेटा की डुप्लिकेट कॉपी किसी अन्य स्थान पर सुरक्षित रूप से उपलब्ध होनी चाहिए। ।
Hadoop Vs RDMBS
नीचे सूचीबद्ध कुछ बिंदु हैं जो RDBMS पर Hadoop के लाभों का वर्णन करते हैं।
विशेषताएं | Hadoop | आरडीबीएमएस |
---|---|---|
भंडारण | भंडारण की बहुत उच्च क्षमता। | बिगडाटा स्टोर नहीं कर सकते। |
आर्किटेक्चर | Hadoop HDFS, MapReduce और YARN पर आधारित है। | RDBMS ACID गुणों पर आधारित है। |
आयतन | बड़ी मात्रा में डेटा को संभाल सकता है। | RDBMS डेटा की बड़ी मात्रा को संभाल नहीं सकता है। |
विविधता / डेटा के प्रकार | संरचित, अर्ध संरचित और असंरचित डेटा जैसे वीडियो, चित्र, CSV फ़ाइलें, xml आदि को संभाल सकते हैं। | केवल संरचित डेटा को संभालें। |
गति | बड़ी मात्रा में डेटा का तेजी से प्रसंस्करण। | बड़ी मात्रा में डेटा संसाधित करते समय बहुत धीमी गति से। |
प्रवाह | उच्च थ्रूपुट। | कम थ्रूपुट। |
दोष सहिष्णुता | बहुत अच्छा | यदि मुख्य सर्वर नीचे जाता है, तो खोए हुए डेटा को पुनर्प्राप्त करने में सक्षम नहीं है। |
विश्वसनीय | बहुत विश्वसनीय और सटीक ऐतिहासिक और वर्तमान रिपोर्ट उत्पन्न करते हैं। | बिगडाटा के संदर्भ में विश्वसनीय नहीं है। |
Hadoop के फीचर्स
अब हम Hadoop की सही परिभाषा जानते हैं। चलो एक कदम आगे बढ़ते हैं और हमदोप में उपयोग की जाने वाली शब्दावली से परिचित होते हैं, इसकी वास्तुकला सीखते हैं और देखते हैं कि यह वास्तव में बिगडाटा पर कैसे काम करती है।
Hadoop फ्रेमवर्क निम्नलिखित अवधारणाओं या मॉड्यूल पर आधारित है:
- Hadoop YARN
- Hadoop Common
- Hadoop HDFS ( एच पालन करना घ istributed एफ साथ से रों यस्टेम)
- Hadoop MapReduce
# 1) Hadoop YARN: YARN का मतलब है ' य तथा सेवा मेरे नथेर आर स्रोत एन egotiator ”जिसका उपयोग क्लाउड की क्लस्टर तकनीक को प्रबंधित करने के लिए किया जाता है। इसका उपयोग नौकरी निर्धारण के लिए किया जाता है।
# 2) हडोप कॉमन: यह विस्तृत पुस्तकालय या उपयोगिताओं है जिन्हें YARN, MapReduce और HDFS जैसे Hadoop की अन्य विशेषताओं के साथ संचार करने के लिए उपयोग किया जाता है।
# 3) Hadoop HDFS: डेटा की उच्च मात्रा को संग्रहीत और संसाधित करने के लिए Hadoop में वितरित फ़ाइल सिस्टम का उपयोग किया जाता है। इसके अलावा, इसका उपयोग क्लस्टर से डेटा तक पहुंचने के लिए किया जाता है।
# 4) Hadoop MapReduce: MapReduce Hadoop की मुख्य विशेषता है जो क्लस्टर में डेटा के प्रसंस्करण के लिए जिम्मेदार है। यह डाटा प्रोसेसिंग की जॉब शेड्यूलिंग और मॉनिटरिंग के लिए उपयोग कर रहा है।
यहां, हमने इन विशेषताओं की परिभाषा को शामिल किया है, लेकिन हम अपने आगामी ट्यूटोरियल में इन सभी विशेषताओं का विस्तृत विवरण देखेंगे।
Hadoop Architecture
आइए फ्रेमवर्क की वास्तुकला को जानें और देखें कि इसमें किन घटकों का उपयोग किया गया है। यह ढांचा क्लस्टर में एक मास्टर-दास वास्तुकला का अनुसरण करता है।
निम्नलिखित Hadoop घटक हैं:
- HDFS
- मानचित्र छोटा करना
- यार्न
ये हडोप वास्तुकला के तीन महत्वपूर्ण घटक हैं। हमें आर्किटेक्चर की कुछ शब्दावली या अवधारणाओं को भी समझना चाहिए और देखना चाहिए कि वे कैसे काम करते हैं।
- नाम नोड
- डेटा नोड
- द्वितीयक नाम नोड
- ब्लाकों
# 1) नाम नोड
नाम नोड एचडीएफएस में मास्टर नोड है। इसमें फ़ाइल जानकारी, निर्देशिका संरचना, ब्लॉक जानकारी और डेटा नोड आदि की सभी जानकारी जैसे एचडीएफएस का मेटाडेटा शामिल है। नाम नोड केवल क्लाइंट से डेटा या फ़ाइल तक पहुँचने के लिए जिम्मेदार है। यह फाइलों में किए गए सभी लेन-देन या परिवर्तनों को ट्रैक करता है।
यह मुख्य रूप से दो फाइलों पर काम करता है यानी FsImage तथा संपादित करें । Name Node में एक JobTracker होता है, जिसमें Data Node का पूरा विवरण होता है, जैसे Data Node में क्या कार्य होता है, प्रत्येक Data Node के साथ कितने ब्लॉक होते हैं, प्रत्येक Data Node के दिल की धड़कन, क्लस्टर में जॉब शेड्यूलिंग विवरण इत्यादि।
संक्षेप में, हम कह सकते हैं कि एक JobTracker में प्रत्येक Data Node का TaskTracker होता है।
# 2) डेटा नोड
एचडीएसएफ में डेटा नोड स्लेव नोड है। डेटा नोड डेटा के वास्तविक भंडारण और प्रसंस्करण के लिए जिम्मेदार है। इसका मुख्य कार्य नौकरी को तीन ब्लॉकों में विभाजित करना और अलग-अलग डेटा नोड्स में संग्रहीत करना है। इसके बाद डेटा प्रोसेस करना शुरू कर देता है।
इसके अलावा, इसमें टास्कट्रैकर है जिसमें प्रत्येक ब्लॉक की पूरी जानकारी है और कौन सा ब्लॉक किस कार्य के लिए जिम्मेदार है, किस ब्लॉक ने कार्य पूरा किया है, आदि और डेटा को संसाधित करने के बाद यह नाम नोड को सूचना भेजता है। हर बार जब डेटा नोड शुरू होता है तो यह सभी जानकारी को फिर से नाम नोड को भेजता है।
# 3) माध्यमिक नाम नोड
द्वितीयक नाम नोड का उपयोग दोष सहिष्णुता के मामले में किया जाता है। दो परिदृश्य हैं जहाँ नाम नोड नीचे है और पूर्ण Hadoop संरचना विफल हो जाएगी क्योंकि नाम नोड विफलता का एकल बिंदु है।
(i) यदि किसी समस्या के कारण नाम नोड पुनः आरंभ होता है तो उसमें फिर से वृद्धि होती है क्योंकि उसके पास बड़ी मात्रा में डेटा होता है, फिर उसे पुनर्प्राप्त करने में समय लगता है।
(ii) नाम नोड दुर्घटना के मामले में, सभी HDFS डेटा खो देंगे और इसे फिर से पुनर्प्राप्त नहीं कर सकते क्योंकि नाम नोड विफलता का एकल बिंदु है। इस प्रकार, इन मुद्दों को दूर करने के लिए, माध्यमिक नाम नोड है। इसमें एक Namespace इमेज भी है और Edit Name Node की तरह ही लॉग्स हैं।
एक निश्चित अवधि के बाद, यह Namespace इमेज को कॉपी करेगा और Name Node से एडिट लॉग्स को अपडेट करेगा। इस प्रकार, एक नाम नोड विफलता के मामले में, माध्यमिक नाम नोड चित्र में आता है और प्राथमिक नाम नोड की तरह व्यवहार करता है। इस प्रक्रिया के कारण, यह कुल विफलता को रोकता है।
# 4) ब्लॉक
ब्लॉक एचडीएफएस में सबसे छोटी इकाई है। Hadoop फ़ाइल की एक बड़ी मात्रा को संसाधित कर सकता है क्योंकि यह इसे छोटे ब्लॉकों में विभाजित करता है। हम कह सकते हैं कि ब्लॉक एक विशाल फ़ाइल के डेटा के अलावा कुछ भी नहीं हैं। प्रत्येक ब्लॉक का आकार 128 एमबी है। ये ब्लॉक डेटा नोड्स में सेव होते हैं और डेटा को प्रोसेस करते हैं।
अब, इसके कार्य को समझने के लिए Hadoop की वास्तुकला को जानें।
Hadoop वितरित फ़ाइल सिस्टम (HDFS) फ़ाइल सिस्टम है जिसका उपयोग Hadoop क्लस्टर में किया जाता है। मुख्य रूप से HDFS का उपयोग क्लस्टर में Hadoop डेटा को संग्रहीत करने के लिए किया जाता है। एचडीएफएस आमतौर पर अनुक्रमिक डेटा प्रोसेसिंग पर काम कर रहा है। जैसा कि हम पहले से ही जानते हैं कि यह मास्टर-स्लेव वास्तुकला पर आधारित है।
क्लस्टर का सभी मेटाडेटा जॉबट्रैकर में नाम नोड पर सहेजा गया है और वास्तविक डेटा टास्कट्रैक में एचडीएफएस के डेटा नोड में संग्रहीत है।
MapReduce डेटा के प्रसंस्करण के लिए जिम्मेदार है। जब भी कोई फाइल प्रसंस्करण के लिए क्लस्टर में आती है, तो पहले डेटा नोड इसे ब्लॉक में विभाजित करता है और प्रत्येक ब्लॉक में 64MB डेटा होता है और यह 128MB स्टोर कर सकता है। फिर प्रत्येक ब्लॉक दो बार दोहराएगा और क्लस्टर में कहीं भी अलग-अलग डेटा नोड्स में स्टोर करेगा।
यह सभी जानकारी नाम नोड को भेजी जाएगी और नाम नोड इस जानकारी को मेटाडेटा के रूप में संग्रहीत करेगा। फिर डेटा का वास्तविक प्रसंस्करण डेटा नोड शुरू करेगा और हर तीन सेकंड में नाम नोड को एक दिल की धड़कन भेज देगा ताकि नाम नोड को यह जानकारी हो कि यह डेटा नोड काम कर रहा है।
यदि डेटा नोड में से कोई भी दिल की धड़कन भेजने में विफल रहता है तो नाम नोड फिर से किसी अन्य डेटा नोड पर उस ब्लॉक की प्रतिकृति बनाता है और प्रसंस्करण शुरू करता है।
अल इस जानकारी या स्नैपशॉट को FsImage में संग्रहीत किया जाएगा और यदि कोई लेनदेन किया जाता है, तो संपादित करें लॉग नई जानकारी को मर्ज करता है और हमेशा लॉग की एक नई प्रतिलिपि रखता है।
जो ब्लॉक पहले कार्य पूरा करता है, उसे लिया जाएगा और डेटा नोड नाम नोड को सूचना भेजता है और नाम नोड तदनुसार कार्रवाई करेगा।
इस पूरी प्रक्रिया में, YARN सिस्टम को आवश्यक संसाधन उपलब्ध कराएगा और उसका समर्थन करेगा, ताकि यह डाटा प्रोसेसिंग और गति को प्रभावित न करे। डेटा को संसाधित करने के बाद परिणाम आगे के विश्लेषण के लिए एचडीएफएस में सहेजे जाएंगे।
निष्कर्ष
इस ट्यूटोरियल में, हमने सीखा कि Hadoop क्या है, RDBMS बनाम Hadoop, फायदे, घटक और आर्किटेक्चर के Hadoop के बीच अंतर।
यह ढांचा बड़े डेटा को संसाधित करने और उसका विश्लेषण करने के लिए जिम्मेदार है। हमने देखा कि क्लस्टर में MapReduce, YARN, और HDFS काम कर रहे हैं।
ध्यान दें: नाम नोड और डेटा नोड के विन्यास विवरण निम्नलिखित हैं। माध्यमिक नाम नोड में नाम नोड के समान कॉन्फ़िगरेशन होगा।
नाम नोड कॉन्फ़िगरेशन:
प्रोसेसर: @ 2 गीगाहर्ट्ज़ पर चलने वाला 2 क्वाड कोर सीपीयू
रैम: 128 जीबी
डिस्क: 6 x 1TB SATA
नेटवर्क: 10 गीगाबिट ईथरनेट
डेटा नोड कॉन्फ़िगरेशन:
प्रोसेसर: @ 2 गीगाहर्ट्ज़ पर चलने वाला 2 क्वाड कोर सीपीयू
रैम: 64 जीबी
डिस्क: 12-24 x 1TB SATA
नेटवर्क: 10 गीगाबिट ईथरनेट
=> यहां बिग डेटा बिगिनर्स गाइड पर एक नज़र डालें।
अनुशंसित पाठ
- बिग डेटा ट्यूटोरियल शुरुआती के लिए | बिग डेटा क्या है?
- 20+ MongoDB शुरुआती के लिए ट्यूटोरियल: नि: शुल्क MongoDB कोर्स
- Node.js टेस्टिंग फ्रेमवर्क कैसे सेटअप करें: Node.js ट्यूटोरियल
- डेटा मार्ट ट्यूटोरियल - डेटा मार्ट के प्रकार, उदाहरण और कार्यान्वयन
- शुरुआती के लिए गहराई से ग्रहण ट्यूटोरियल
- पायथन ट्यूटोरियल फॉर बिगिनर्स (हैंड्स-ऑन फ्री पायथन ट्रेनिंग)
- अपाचे POI का उपयोग कर सेलेनियम वेबड्राइवर में डेटा ड्रिवेन फ्रेमवर्क
- शुरुआती के लिए लोडरनर ट्यूटोरियल (नि: शुल्क 8-दिवसीय गहराई पाठ्यक्रम)