apache hadoop yarn tutorial
Hadoop Components - Hadoop YARN के साथ MapReduce:
Hadoop घटक पर हमारे पिछले ट्यूटोरियल में, हमने Hadoop MapReduce और इसके प्रसंस्करण तंत्र जैसे INPUT, SPLITTING, MAPPING, SHUFFLING, REDUCING और FINAL RESULT के बारे में सीखा।
इस ट्यूटोरियल में हम पता लगाएंगे:
- मैप कम कैसे करता है YARN के साथ काम?
- Hadoop YARN के अनुप्रयोग वर्कफ़्लो।
=> यहां बिगडाटा शुरुआती गाइड पर एक नज़र डालें।
आप क्या सीखेंगे:
Hadoop YARN के साथ नक्शा कम करें
आइए समझते हैं कि मैपरेड्यूस कैसे Hadoop क्लस्टर पर नौकरियों को निष्पादित करने के लिए YARN का उपयोग कर रहा है। लेकिन इससे पहले कि हम आगे बढ़ें, पहला सवाल हमारे दिमाग में आता है YARN का पूर्ण रूप क्या है? या YARN का क्या मतलब है?
यार्न बोले तो फिर भी एक और संसाधन वार्ताकार।
यह वह है जो विभिन्न नौकरियों के लिए संसाधनों को आवंटित करता है जिन्हें Hadoop क्लस्टर पर निष्पादित करने की आवश्यकता होती है। इसे Hadoop 2.0 में पेश किया गया था।
Hadoop 1.0 तक MapReduce एकमात्र ढांचा या एकमात्र प्रसंस्करण इकाई थी जो Hadoop क्लस्टर पर कार्य कर सकती है। हालाँकि, Hadoop 2.0 में YARN को पेश किया गया था और उसी के उपयोग से हम MapReduce से भी आगे जाने में सक्षम हैं।
जैसा कि आप आरेख में देख सकते हैं, हमारे बीच में नीचे में एचडीएफएस है, हमें यार्न मिला है और यार्न का उपयोग करते हुए, बहुत सारे रूपरेखा एचडीएफएस से कनेक्ट और उपयोग करने में सक्षम हैं। इसलिए, यहां तक कि MapReduce का उपयोग संसाधनों के अनुरोध के लिए YARN का उपयोग करने के लिए कनेक्ट करने के लिए किया जाता है और उसके बाद ही यह HDFS यानी Hadoop क्लस्टर पर कार्य निष्पादित कर सकता है।
इसी प्रकार; SPARK, STORM, और अन्य खोज इंजन HDFS से जुड़ सकते हैं। HBase जो एक No SQL डेटाबेस है, इसे भी कनेक्ट कर सकता है। इसलिए एचडीएफएस के अनुप्रयोग विशाल हो गए, सिर्फ इसलिए कि यार्न अन्य रूपरेखाओं और अन्य बिगडेटा एनालिटिक्स टूल के लिए भी गेट खोलने में सक्षम था।
MapReduce Version1 (MRv1) और MapReduce Version2 (MRv2) में क्या अंतर है?
MRv1 मूल रूप से Hadoop फ्रेमवर्क 1 का एक हिस्सा था और Hadoop 2 के साथ YARN तस्वीर में आया था और MapReduce को कक्षाओं में कई बदलावों के साथ MRv2 में अपग्रेड किया गया था। कक्षाएं अपडेट की गईं, हालांकि, MapReduce प्रोग्राम लिखने का सिंटैक्स वही रहता है।
इस परिदृश्य में, MapReduce अब HDFS को अक्ष देने के लिए YARN से जुड़ता है।
YARN के साथ, रिसोर्स मैनेजर और नोड मैनेजर नए Daemons हैं जिन्हें Hadoop क्लस्टर में पेश किया गया था।
पहले यह जॉब ट्रैकर और टास्क ट्रैकर था। हालाँकि उन्हें Hadoop 2.0 से हटा दिया गया था, और YADN के साथ संसाधन प्रबंधक और नोड प्रबंधक को Hadoop ढांचे में पेश किया गया था।
Hadoop 2.x डेमोंस
चलो Hadoop 2.0 में नए शुरू किए गए डेमों पर एक त्वरित नज़र डालते हैं जो घटकों को चलाते हैं अर्थात् भंडारण और प्रसंस्करण।
यूनिक्स में, डब्ल्यू (लिखें) पहुंच की अनुमति देता है
एचडीएफएस ट्यूटोरियल में, हमने डेमन यानी नेमकोड और डेटानोड को विस्तार से समझा। इस ट्यूटोरियल में, हम समझेंगे कि कैसे संसाधन प्रबंधक और नोड प्रबंधक Hadoop 2.x क्लस्टर में प्रसंस्करण और नौकरियों का प्रबंधन करने के लिए काम करते हैं जिन्हें Hadoop क्लस्टर में निष्पादित करने की आवश्यकता होती है।
तो, संसाधन प्रबंधक क्या है? रिसोर्स मैनेजर मास्टर डेमोंस होता है जो मास्टर मशीन या नेमकोड पर चलता है जो एक हाई-एंड मशीन है। दूसरी ओर, नोड प्रबंधक, डेमन है जो स्लेव मशीन या डेटा नोड्स पर या डेटानेट प्रक्रिया के साथ चलता है।
Hadoop 2.x MapReduce YARN घटक
नीचे YARN के अन्य घटकों को देखें।
- ग्राहक: यह एक इकाई है जो जॉब की तरह कमांड लाइन इंटरफेस (सीएलआई) को प्रस्तुत करती है, और क्लाइंट एक जेएवीए एप्लिकेशन हो सकता है।
- संसाधन प्रबंधक: यह एक मास्टर डेमॉन है, जिसमें सभी नौकरियां क्लाइंट से सबमिट की जाती हैं, और यह वह है जो किसी विशेष कार्य को निष्पादित करने के लिए सभी क्लस्टर स्तर संसाधन आवंटित करता है। यह एक उच्च अंत मशीन पर चलता है जिसमें अच्छी गुणवत्ता वाले हार्डवेयर और अच्छे विन्यास होते हैं क्योंकि यह मास्टर मशीन है जिसे क्लस्टर पर सब कुछ प्रबंधित करना पड़ता है।
- नोड मैनेजर : यह एक स्लेव डेमन है जो स्लेव मशीन या डेटानोड पर चलता है, इसलिए प्रत्येक स्लेव मशीन में एक नोड प्रबंधक चल रहा है। यह विशेष रूप से DataNode के संसाधनों की निगरानी करता है, संसाधन प्रबंधक क्लस्टर संसाधनों का प्रबंधन करता है और नोड प्रबंधक DataNode संसाधनों का प्रबंधन करता है।
- नौकरी इतिहास सर्वर: यह उन सभी जॉब्स का ट्रैक रखने की इकाई है जिन्हें क्लस्टर पर निष्पादित किया गया है या जिन्हें क्लस्टर में प्रस्तुत किया गया है। यह स्थिति का भी ट्रैक रखता है और Hadoop क्लस्टर पर हुई प्रत्येक निष्पादन की लॉग फ़ाइलों को भी रखता है।
- आवेदन मास्टर : यह एक घटक है जिसे नोड मशीन, स्लेव मशीन पर निष्पादित किया जाता है और एक नौकरी को निष्पादित करने और प्रबंधित करने के लिए एक संसाधन प्रबंधक द्वारा बनाया जाता है। यह वह है जो संसाधन प्रबंधक से संसाधनों पर बातचीत करता है और अंत में कार्य को निष्पादित करने के लिए नोड प्रबंधक के साथ समन्वय करता है।
- कंटेनर: यह स्वयं नोड प्रबंधक द्वारा बनाया गया है जिसे संसाधन प्रबंधक द्वारा आवंटित किया गया है और सभी नौकरियां अंत में कंटेनर के भीतर निष्पादित की जाती हैं।
YARN कार्य प्रवाह
जैसा कि ऊपर चित्र में दिखाया गया है, एक है संसाधन प्रबंधक जिसमें से सभी नौकरियां जमा की जाती हैं और एक क्लस्टर होता है जिसमें स्लेव मशीनें होती हैं, और प्रत्येक स्लेव मशीन पर, एक होता है नोड मैनेजर चल रहा है।
संसाधन प्रबंधक इसके दो घटक हैं अर्थात् समयबद्धक तथा आवेदन प्रबंधंक।
एप्लिकेशन मास्टर और एप्लिकेशन मैनेजर के बीच क्या अंतर है?
आवेदन प्रबंधंक का एक घटक है संसाधन प्रबंधक जो यह सुनिश्चित करता है कि प्रत्येक कार्य निष्पादित हो और ए आवेदन मास्टर इसके लिए बनाया गया है। आवेदन मास्टर, दूसरी ओर, वह व्यक्ति है जो कार्य को निष्पादित करता है और उन सभी संसाधनों के लिए अनुरोध करता है जिन्हें निष्पादित करने की आवश्यकता होती है।
मान लीजिए कि नौकरी को सबमिट किया गया है संसाधन प्रबंधक , जैसे ही नौकरी प्रस्तुत की जाती है समयबद्धक कार्य शेड्यूल करता है। एक बार समयबद्धक कार्य को निष्पादित करने के लिए शेड्यूल करता है आवेदन प्रबंधंक पैदा करेगा पात्र में से एक में DataNodes , और इसके भीतर कंटेनर, आवेदन मास्टर शुरू किया जाएगा।
इस आवेदन मास्टर तब के साथ पंजीकरण करेंगे संसाधन प्रबंधक और एक के लिए अनुरोध पात्र कार्य निष्पादित करने के लिए। जितनी जल्दी हो सके पात्र आवंटित किया गया है आवेदन मास्टर अब के साथ जोड़ा जाएगा नोड मैनेजर और लॉन्च करने के लिए अनुरोध करें पात्र ।
जैसा कि हम देख सकते हैं, आवेदन मास्टर को आवंटित किया गया DataNodes D तथा है , और अब यह आवेदन मास्टर अनुरोध किया नोड मैनेजर लॉन्च करने के लिए कंटेनरों का DataNode डी तथा DataNode ई ।
जितनी जल्दी हो सके कंटेनरों लॉन्च किए गए थे आवेदन मास्टर के भीतर कार्य निष्पादित करेगा पात्र और परिणाम वापस भेजा जाएगा ग्राहक ।
अनुप्रयोग प्रवाह
इसे थोड़ा क्रमबद्ध तरीके से समझते हैं।
नीचे दिए गए आरेख में, हमारे पास चार घटक हैं। पहला वाला है ग्राहक, दूसरा वाला है संसाधन प्रबंधक , तीसरा है नोड मैनेजर और चौथी पंक्ति में है आवेदन मास्टर ।
तो चलिए देखते हैं कि कैसे इन चरणों को उनके बीच क्रियान्वित किया जाता है।
बहुत पहला कदम है ग्राहक जो नौकरी को सौंपता है संसाधन प्रबंधक , दूसरे चरण में संसाधन प्रबंधक आवंटित करता है a पात्र शुरू करने के लिए आवेदन मास्टर पर दास मशीनें ; तीसरा कदम है आवेदन मास्टर के साथ पंजीकृत करता है संसाधन प्रबंधक ।
जैसे ही यह पंजीकृत होता है, यह अनुरोध करता है पात्र कार्य निष्पादित करने के लिए यानी चौथा चरण। चरण पाँच में, आवेदन मास्टर सूचित करता है नोड मैनेजर जिस पर पात्र शुरू करने की जरूरत है।
चरण छह में, एक बार नोड मैनेजर लॉन्च किया है कंटेनर, आवेदन मास्टर इनके भीतर कोड निष्पादित करेगा कंटेनरों ।
अंत में, सातवें चरण में, ए ग्राहक संपर्क करता है संसाधन प्रबंधक या आवेदन मास्टर आवेदन की स्थिति पर नजर रखने के लिए।
अंत में, ए आवेदन मास्टर खुद से अपंजीकृत करेगा संसाधन प्रबंधक और परिणाम वापस दिया गया है ग्राहक । तो यह एक सरल अनुक्रमिक प्रवाह है कि कैसे YARN ढांचे का उपयोग करके एक MapReduce प्रोग्राम निष्पादित किया जाता है।
निष्कर्ष
इसलिए, इस ट्यूटोरियल में, हमने निम्नलिखित बिंदुओं को सीखा:
- यार्न बोले तो फिर भी एक और संसाधन वार्ताकार।
- YARN को Hadoop 2.0 में पेश किया गया था
- संसाधन प्रबंधक और नोड प्रबंधक को YARN के साथ Hadoop ढांचे में पेश किया गया था।
- ग्राहक, संसाधन प्रबंधक, नोड प्रबंधक, नौकरी इतिहास सर्वर, अनुप्रयोग मास्टर, और कंटेनर जैसे यार्न घटक।
आगामी ट्यूटोरियल में, हम बिगडाटा की परीक्षण तकनीकों और बिगडाटा परीक्षण में आने वाली चुनौतियों पर चर्चा करेंगे। हमें यह भी पता चल जाएगा कि बिगडाटा परीक्षण को आसान बनाने के लिए उन चुनौतियों और किसी भी बाईपास तरीके से कैसे पार किया जाए।
=> स्क्रैच से बिगडाटा जानने के लिए यहां जाएं।
अनुशंसित पाठ
- Hadoop क्या है? शुरुआती के लिए Apache Hadoop ट्यूटोरियल
- 20+ MongoDB शुरुआती के लिए ट्यूटोरियल: नि: शुल्क MongoDB कोर्स
- शुरुआती के लिए गहराई से ग्रहण ट्यूटोरियल
- पायथन ट्यूटोरियल फॉर बिगिनर्स (हैंड्स-ऑन फ्री पायथन ट्रेनिंग)
- बिग डेटा ट्यूटोरियल शुरुआती के लिए | बिग डेटा क्या है?
- शुरुआती के लिए लोडरनर ट्यूटोरियल (नि: शुल्क 8-दिन में गहराई पाठ्यक्रम)
- उदाहरणों के साथ Hadoop MapReduce ट्यूटोरियल | MapReduce क्या है?
- सर्वश्रेष्ठ मुफ्त सी # ट्यूटोरियल श्रृंखला: शुरुआती के लिए अंतिम सी # गाइड