comprehensive hadoop testing tutorial big data testing guide
यह ट्यूटोरियल मूल बातें, परीक्षण प्रकार, योजनाएं, आवश्यक पर्यावरण, परीक्षण प्रक्रिया, Hadoop और BigData परीक्षण के सत्यापन और सत्यापन की व्याख्या करता है:
इस ट्यूटोरियल में, हम Hadoop और BigData टेस्टिंग का मूल परिचय देखेंगे, जैसे परीक्षण कब और कहाँ से चित्र में आएगा और हमें Hadoop टेस्टिंग के एक भाग के रूप में परीक्षण करने की आवश्यकता है।
हम निम्नलिखित विषयों पर भी विस्तार से चर्चा करेंगे:
- Hadoop परीक्षण की भूमिकाएँ और जिम्मेदारियाँ
- Hadoop / BigData परीक्षण के लिए परीक्षण दृष्टिकोण
=> बिगडाटा प्रशिक्षण ट्यूटोरियल के ए-जेड को देखने के लिए यहां देखें।
आप क्या सीखेंगे:
- भंडारण और प्रसंस्करण डेटा Hadoop में
- BigData और Hadoop परीक्षण
- बिगडाटा के परीक्षण के लिए रणनीति या योजना क्या है?
- बिगडाटा परीक्षण के लिए परीक्षण के प्रकार
- BigData Hadoop परीक्षण के लिए उपकरण
- परीक्षण वातावरण और सेटिंग्स
- Roles और Hadoop परीक्षण की जिम्मेदारियाँ
- Hadoop परीक्षण / BigData परीक्षण के लिए परीक्षण दृष्टिकोण
- निष्कर्ष
- अनुशंसित पाठ
भंडारण और प्रसंस्करण डेटा Hadoop में
Hadoop सिस्टम पर इन प्रक्रियाओं को करने के लिए, हमारे पास चार खंडों में वर्गीकृत किया गया जनशक्ति है।
- Hadoop के व्यवस्थापक पर्यावरण की स्थापना के लिए जिम्मेदार हैं और Hadoop Systems तक पहुंचने के लिए प्रशासन अधिकार हैं।
- Hadoop Developers विभिन्न स्थानों से केंद्रीकृत स्थानों पर डेटा को खींचने, भंडारण और प्रसंस्करण के बारे में कार्यक्रम विकसित करना।
- Hadoop Testers विभिन्न स्थानों से खींचने से पहले और केंद्रीकृत स्थान पर खींचने के बाद डेटा को सत्यापित करने और सत्यापित करने के लिए और साथ ही ग्राहक के वातावरण में डेटा लोड करते समय सत्यापन और सत्यापन किया जाता है।
- Hadoop विश्लेषकों जब डेटा लोड हो रहा हो तब काम करें और जब डेटा क्लाइंट स्थान पर गोदाम तक पहुंच जाए। वे रिपोर्ट और डैशबोर्ड पीढ़ी के लिए इस डेटा का उपयोग करते हैं। विश्लेषक विकास और व्यवसाय विकास के लिए डेटा विश्लेषण करते हैं।
हम जानते हैं कि हडोप एक एकल प्रणाली नहीं है; इसमें कई प्रणालियाँ और मशीनें शामिल हैं। डेटा को कई मशीनों में विभाजित और संग्रहीत किया जाता है और अगर हम इसे फिर से एक्सेस करना चाहते हैं तो हमें डेटा को रिपोर्ट और इसी तरह से संयोजित करने और खींचने की आवश्यकता है।
डेवलपर डेटा को निकालने और इसे स्टोर करने के लिए JAVA और पायथन में प्रोग्राम लिखने के लिए जिम्मेदार है।
एक डेवलपर का दूसरा काम डेटा को प्रोसेस करना है। Hadoop की दो परतें हैं, एक है स्टोरिंग के लिए यानी Hadoop HDFS और दूसरा प्रसंस्करण के लिए यानी Hadoop MapReduce।
भंडारण का मतलब है कि हमारे पास जो भी डेटा है वह सिस्टम में संग्रहीत / डाला गया है। प्रसंस्करण का मतलब है कि हमें इसे कई मशीनों में विभाजित करना होगा और फिर से इसे ग्राहक को भेजना होगा।
इस प्रकार, भंडारण और प्रसंस्करण प्रोग्रामिंग स्क्रिप्ट द्वारा किया जाता है, और स्क्रिप्ट लिखने के लिए डेवलपर जिम्मेदार है।
प्रोग्रामिंग के अलावा, Hadoop में डेटा को स्टोर और प्रोसेस करने का दूसरा तरीका Hive, इम्पाला, HBase, आदि जैसे डेटाबेस एप्लिकेशन का उपयोग कर रहा है। इन टूल को किसी भी प्रोग्रामिंग ज्ञान की आवश्यकता नहीं है।
BigData और Hadoop परीक्षण
एक बार जब भंडारण और प्रसंस्करण डेवलपर द्वारा किया जाता है तो डेटा रिपोर्ट पीढ़ी के लिए चला जाता है। इससे पहले, हमें सटीकता के लिए संसाधित डेटा को सत्यापित करने और यह जांचने की आवश्यकता है कि क्या डेटा सही तरीके से लोड किया गया है या सही तरीके से संसाधित किया गया है या नहीं।
तो एक डेवलपर द्वारा बनाए गए प्रोग्राम और / या स्क्रिप्ट को Hadoop या BigData Tester द्वारा सत्यापित किया जाना चाहिए। परीक्षक को स्क्रिप्ट्स को सत्यापित करने और आदेशों को निष्पादित करने के लिए मैपर, हाइव, पिग स्क्रिप्स आदि जैसे बुनियादी प्रोग्रामिंग को जानना होगा।
इसलिए, परीक्षण करने से पहले, परीक्षकों को यह जानना होगा कि सभी कार्यक्रम और स्क्रिप्ट क्या काम कर रहे हैं, कोड कैसे लिखें और फिर उन्हें कैसे परीक्षण करना है, इसके बारे में सोचें। परीक्षण या तो मैन्युअल रूप से या स्वचालन उपकरण का उपयोग करके किया जा सकता है।
Hadoop में विभिन्न प्रकार की टेस्टिंग होती है जैसे Unit टेस्टिंग, रिग्रेशन टेस्टिंग, सिस्टम टेस्टिंग और परफॉरमेंस टेस्टिंग, इत्यादि। ये सामान्य टेस्टिंग प्रकार होते हैं जिनका उपयोग हम अपने सामान्य परीक्षण के साथ-साथ Hadoop और BigData टेस्टिंग में करते हैं।
हमारे पास एक ही तरह की परीक्षण शब्दावली है जैसे कि टेस्ट रणनीति, परीक्षण परिदृश्य, और परीक्षण के मामले, आदि जैसे हादोप और बिगडाटा परीक्षण। केवल पर्यावरण अलग है और विभिन्न प्रकार की तकनीकें हैं जिनका उपयोग हम BigData और Hadoop सिस्टम का परीक्षण करने के लिए करते हैं क्योंकि यहां हमें डेटा का परीक्षण करने की आवश्यकता है, न कि एप्लिकेशन की।
BigData का परीक्षण कैसे करें और BigData में सभी चीजों के परीक्षण की आवश्यकता क्या है?
बिगडाटा परीक्षण के लिए, हमें कुछ योजनाओं और रणनीतियों की आवश्यकता है।
इस प्रकार हमें निम्नलिखित बातों पर विचार करने की आवश्यकता है:
- बिगडाटा के लिए परीक्षण की रणनीति या योजना क्या है?
- BigData पर किस प्रकार के परीक्षण दृष्टिकोण लागू होते हैं?
- पर्यावरण की आवश्यकता क्या है?
- BigData को कैसे सत्यापित और सत्यापित करें?
- बिगडाटा परीक्षण में प्रयुक्त उपकरण क्या हैं?
उपरोक्त सभी प्रश्नों के उत्तर पाने की कोशिश करते हैं।
बिगडाटा के परीक्षण के लिए रणनीति या योजना क्या है?
बिगडाटा परीक्षण का अर्थ डेटा वेयरहाउस में भंडारण और प्रसंस्करण करते समय डेटा का सत्यापन और सत्यापन है।
BigData का परीक्षण करते समय, हमें विभिन्न डेटाबेस से निकाले गए डेटा की मात्रा और विविधता का परीक्षण करने की आवश्यकता होती है और साथ ही डेटा वेयरहाउस या Hadoop सिस्टम पर संसाधित किया जाता है, यह परीक्षण कार्यात्मक परीक्षण के अंतर्गत आता है।
हमें विभिन्न डेटाबेस से डाउनलोड किए गए डेटा के वेग का परीक्षण करने और Hadoop सिस्टम पर अपलोड करने की आवश्यकता है, जो प्रदर्शन परीक्षण का एक हिस्सा है।
तो, एक योजना या रणनीति के रूप में, हमें कार्यात्मक और साथ ही बिगडाटा परीक्षण के प्रदर्शन परीक्षण पर ध्यान केंद्रित करने की आवश्यकता है।
बिगडाटा परीक्षण में, परीक्षक को कमोडिटी हार्डवेयर और रिश्तेदार घटकों का उपयोग करके बड़ी मात्रा में डेटा के प्रसंस्करण को सत्यापित करना होगा। इसलिए, बिगडाटा के परीक्षण में डेटा की गुणवत्ता भी महत्वपूर्ण भूमिका निभाती है। डेटा की गुणवत्ता को सत्यापित और मान्य करना आवश्यक है।
बिगडाटा परीक्षण के लिए परीक्षण के प्रकार
पिछले भाग में, हमने देखा कि कार्यात्मक परीक्षण और प्रदर्शन परीक्षण BigData परीक्षण में एक महत्वपूर्ण भूमिका निभाते हैं, इसके अलावा एक BigData परीक्षक के रूप में, हमें डेटाबेस परीक्षण और आर्किटेक्चरल परीक्षण जैसे कुछ और प्रकार के परीक्षण करने की आवश्यकता है।
ये परीक्षण प्रकार भी कार्यात्मक और प्रदर्शन परीक्षण के रूप में महत्वपूर्ण हैं।
(1) वास्तुकला परीक्षण
यह परीक्षण यह सुनिश्चित करने के लिए किया जाता है कि डेटा का प्रसंस्करण उचित है और आवश्यकताओं को पूरा करता है। दरअसल, Hadoop System डेटा के विशाल मात्रा को संसाधित करता है और अत्यधिक संसाधन व्यापक है।
यदि आर्किटेक्चर अनुचित है, तो यह प्रदर्शन को कम कर सकता है जिसके कारण डेटा का प्रसंस्करण बाधित हो सकता है और डेटा की हानि हो सकती है।
# 2) डेटाबेस परीक्षण
यहां, प्रक्रिया सत्यापन तस्वीर में आता है और हमें विभिन्न डेटाबेस से डेटा को मान्य करने की आवश्यकता है यानी हमें यह सुनिश्चित करने की आवश्यकता है कि स्रोत डेटाबेस या स्थानीय डेटाबेस से प्राप्त डेटा सही और उचित होना चाहिए।
इसके अलावा, हमें यह जांचने की आवश्यकता है कि स्रोत डेटाबेस में उपलब्ध डेटा को Hadoop System में दर्ज किए गए डेटा से मिलान किया गया है।
इसी तरह, हमें यह सत्यापित करने की आवश्यकता है कि क्या Hadoop System में डेटा प्रसंस्करण के बाद सही और उचित है या परिवर्तन के बाद और उचित सत्यापन और सत्यापन के साथ क्लाइंट के वातावरण में लोड किया जा सकता है।
डेटाबेस टेस्टिंग के एक भाग के रूप में, हमें इसके माध्यम से जाने की आवश्यकता है क्रूर संचालन अर्थात् सृजन करना स्थानीय डेटाबेस में डेटा पुन: प्राप्त करें डेटा और हमें इसे खोजने की आवश्यकता है और यह डेटा वेयरहाउस में और डेटा वेयरहाउस से क्लाइंट के पर्यावरण में लोड करने से पहले और बाद में डेटाबेस में उपलब्ध होना चाहिए।
किसी का सत्यापन अद्यतन डेटा को संग्रहीत या लोड करने और संसाधित करने के हर चरण पर डेटा। किसी भी दूषित डेटा या किसी भी डुप्लिकेट और अशक्त डेटा का विलोपन।
# 3) प्रदर्शन परीक्षण
प्रदर्शन परीक्षण के एक भाग के रूप में, हमें डेटा की लोडिंग और प्रसंस्करण गति की जाँच करने की आवश्यकता होती है यानी IOPS (इनपुट आउटपुट प्रति सेकंड) की तरह।
विभिन्न डेटाबेस से डेटा वेयरहाउस या Hadoop सिस्टम और Hadoop सिस्टम या डेटा वेयरहाउस से क्लाइंट के पर्यावरण तक इनपुट के रूप में डेटा या डेटा दर्ज करने की गति की जांच करने की आवश्यकता है।
विभिन्न डेटाबेस से और डेटा वेयरहाउस से आउटपुट के रूप में आने वाले डेटा के वेग की भी जांच करनी चाहिए। इसे हम इनपुट आउटपुट प्रति सेकंड या IOPS कहते हैं।
इसके अलावा, एक अन्य पहलू डेटा अवशोषण और डेटा वितरण के प्रदर्शन की जांच करना है, और डेटा वेयरहाउस द्वारा विभिन्न डेटाबेस से डेटा वेयरहाउस द्वारा और क्लाइंट सिस्टम द्वारा Hadoop सिस्टम से कितनी तेजी से खपत होती है।
एक परीक्षक के रूप में, हमें डेटा वितरण के प्रदर्शन की जांच करने की आवश्यकता है, जैसे कि Hadoop System या डेटा वेयरहाउस में उपलब्ध विभिन्न फ़ाइलों को डेटा कितनी तेज़ी से वितरित किया जाता है। इसी तरह, क्लाइंट सिस्टम को डेटा वितरित करते समय भी यही प्रक्रिया होती है।
Hadoop सिस्टम या डेटा वेयरहाउस में कई घटक होते हैं, इसलिए एक परीक्षक को उन सभी घटकों जैसे MapReduce Jobs, डेटा प्रविष्टि और खपत, प्रश्नों की प्रतिक्रिया समय और उनके प्रदर्शन के साथ-साथ खोज के प्रदर्शन की जांच करने की आवश्यकता होती है संचालन। ये सभी प्रदर्शन परीक्षण में शामिल हैं।
# 4) कार्यात्मक परीक्षण
कार्यात्मक परीक्षण में सभी उप-घटकों, कार्यक्रमों और लिपियों का परीक्षण होता है, जो भंडारण या लोडिंग और प्रसंस्करण के संचालन के लिए उपयोग किए जाने वाले उपकरण, आदि।
एक परीक्षक के लिए, ये चार महत्वपूर्ण प्रकार और चरण हैं जिनके माध्यम से डेटा को फ़िल्टर करने की आवश्यकता होती है ताकि ग्राहक को सही और त्रुटि मुक्त डेटा मिले।
BigData Hadoop परीक्षण के लिए उपकरण
बिगडेटा के परीक्षण के लिए विभिन्न उपकरण हैं:
- HDFS Hadoop डिस्ट्रीब्यूशन फ़ाइल सिस्टम BigData स्टोर करने के लिए।
- बिगफैट के प्रसंस्करण के लिए एचडीएफएस मैप रिड्यूस।
- NoSQL या HQL कैसेंड्रा DB, चिड़ियाघरकीपर और HBase, आदि के लिए।
- क्लाउड-आधारित सर्वर उपकरण जैसे EC2।
परीक्षण वातावरण और सेटिंग्स
किसी भी प्रकार के परीक्षण के लिए, परीक्षक को उचित सेटिंग्स और पर्यावरण की आवश्यकता होती है।
नीचे दी गई आवश्यकताओं की सूची है:
- डेटा और एप्लिकेशन का प्रकार जो परीक्षण किया जा रहा है।
- भंडारण और प्रसंस्करण के लिए बड़ी मात्रा में डेटा की आवश्यकता होती है।
- क्लस्टर के सभी DataNodes पर फ़ाइलों का उचित वितरण।
- डेटा को संसाधित करते समय, हार्डवेयर उपयोग न्यूनतम होना चाहिए।
- अनुप्रयोग की आवश्यकता के अनुसार चल कार्यक्रम और लिपियाँ।
Roles और Hadoop परीक्षण की जिम्मेदारियाँ
Hadoop Tester के रूप में, हम आवश्यकताओं को समझने के लिए जिम्मेदार हैं, परीक्षण अनुमान तैयार करना, Testcases की योजना बनाना, कुछ Testcases का परीक्षण करने के लिए कुछ परीक्षण डेटा प्राप्त करना, टेस्ट बेड निर्माण के साथ शामिल होना, परीक्षण योजनाओं को निष्पादित करना, दोषों की रिपोर्टिंग और पुनर्प्राप्ति करना।
इसके अलावा, हमें दैनिक स्थिति रिपोर्टिंग और परीक्षण पूर्णता के लिए जिम्मेदार होने की आवश्यकता है।
पहली बात जिस पर हम चर्चा करने जा रहे हैं वह है टेस्ट की रणनीति । एक बार जब हम अपनी समस्या का प्रस्तावित समाधान कर लेते हैं तो हमें आगे बढ़ने और योजना बनाने या अपनी परीक्षण योजना को रणनीतिक बनाने की आवश्यकता होती है, हम स्वचालन रणनीति पर चर्चा कर सकते हैं जिसका उपयोग हम वहां कर सकते हैं, परीक्षण अनुसूची के बारे में योजना जो हमारी डिलीवरी की तारीखों पर निर्भर करती है, हम भी संसाधन नियोजन पर चर्चा कर सकते हैं।
स्वचालन रणनीति कुछ ऐसी है जो उत्पाद के परीक्षण में आवश्यक मैनुअल प्रयासों को कम करने में हमारी मदद करने वाली है। टेस्ट शेड्यूल महत्वपूर्ण है क्योंकि यह उत्पाद की समय पर डिलीवरी सुनिश्चित करेगा।
रिसोर्स प्लानिंग महत्वपूर्ण होगी क्योंकि हमें यह प्लान करने की आवश्यकता है कि हमें अपने परीक्षण में कितने मानव-घंटे की आवश्यकता है और हमारी टेस्ट प्लानिंग को अंजाम देने के लिए हडॉप रिसोर्स की कितनी आवश्यकता है।
एक बार जब हम अपने परीक्षण को रणनीतिक बना लेते हैं, तो हमें आगे बढ़ने और टेस्ट डेवलपमेंट प्लान बनाने की आवश्यकता होती है जिसमें टेस्ट प्लान बनाना, टेस्ट स्क्रिप्स बनाना शामिल होता है जो हमें अपनी टेस्टिंग को स्वचालित बनाने में मदद करेगा और कुछ टेस्टिंग डेटा की भी पहचान करेगा जो टेस्ट प्लान में उपयोग होने जा रहे हैं। और हमें उन परीक्षण योजनाओं को निष्पादित करने में मदद करता है।
एक बार जब हम टेस्ट डेवलपमेंट के साथ तैयार हो जाते हैं, जिसमें टेस्टिंग प्लान, टेस्ट स्क्रिप्ट और टेस्ट डेटा शामिल होते हैं, तो हम आगे बढ़ते हैं और उन टेस्ट प्लान को निष्पादित करना शुरू करते हैं।
जब हम परीक्षण योजनाओं को निष्पादित करते हैं, तो कुछ निश्चित परिदृश्य हो सकते हैं जहां वास्तविक आउटपुट अपेक्षा के अनुरूप नहीं है, और उन चीजों को दोष कहा जाता है। जब भी कोई दोष होता है, तो हमें उन दोषों का भी परीक्षण करना होगा और हमें उन लोगों के लिए मेट्रिसेस बनाने और बनाए रखने की आवश्यकता है।
ये सभी चीजें अगली श्रेणी के अंतर्गत आती हैं दोष प्रबंधन ।
दोष प्रबंधन क्या है?
दोष प्रबंधन में बग ट्रैकिंग, बग फिक्सिंग और बग सत्यापन शामिल हैं। जब भी हमारे पास मौजूद किसी भी उत्पाद के खिलाफ एक टेस्ट प्लान निष्पादित किया जाता है और जैसे ही किसी विशेष बग की पहचान की जाती है या एक दोष की पहचान की जाती है, तो उस दोष को डेवलपर को सूचित किया जाना चाहिए या डेवलपर को सौंपा जाना चाहिए।
तो डेवलपर इसे देख सकता है और इस पर काम करना शुरू कर सकता है। एक परीक्षक के रूप में, हमें बग की प्रगति को ट्रैक करने और ट्रैक करने की आवश्यकता है यदि बग को ठीक किया गया है। यदि बग को रिपोर्ट के अनुसार ठीक किया गया है, तो हमें आगे बढ़ने और इसे फिर से जाँचने और इसे हल करने की आवश्यकता है।
एक बार जब सभी कीड़े तय हो जाते हैं, बंद हो जाते हैं और सत्यापित होते हैं, तो हमें आगे बढ़कर ओकेए टेस्टेड उत्पाद देने की जरूरत है। लेकिन इससे पहले कि हम उत्पाद वितरित करें हमें यह सुनिश्चित करना चाहिए कि UAT (उपयोगकर्ता स्वीकृति परीक्षण) सफलतापूर्वक पूरा हो गया है।
हम यह सुनिश्चित करते हैं कि इंस्टॉलेशन टेस्टिंग और आवश्यकता सत्यापन ठीक से किया जाता है यानी उत्पाद जिसे क्लाइंट या एंड-यूज़र तक पहुंचाया जाता है, वह सॉफ़्टवेयर आवश्यकता दस्तावेज़ में उल्लिखित आवश्यकता के अनुसार है।
जिन चरणों पर हमने चर्चा की है वे कल्पना पर आधारित हैं, परीक्षण परिदृश्यों में से कोई भी हो या परीक्षण के किसी भी दृष्टिकोण का उपयोग करें जो हम उन चरणों के लिए उपयोग करने जा रहे हैं या उन वाक्यांशों को हमारे उत्पाद का परीक्षण करने और अंतिम परिणाम देने के लिए कहें, जो एक है OKAY परीक्षण उत्पाद।
आइए आगे विस्तार से चर्चा करें और इसे Hadoop टेस्टिंग के साथ सहसंबंधित करें।
हम जानते हैं कि Hadoop एक ऐसी चीज़ है जिसका उपयोग Batch Processing के लिए किया जाता है और हम यह भी जानते हैं कि ETL उन क्षेत्रों में से एक है जहाँ Hadoop का बहुत अधिक उपयोग किया जाता है। ETL एक्सट्रैक्शन ट्रांसफॉर्मेशन और लोडिंग के लिए है । हम इन प्रक्रियाओं के बारे में विस्तार से चर्चा करेंगे जब हम टेस्ट प्लान और टेस्ट रणनीति को हडोप परीक्षण परीक्षण के दृष्टिकोण के रूप में चर्चा करेंगे।
नीचे दिए गए आरेख के अनुसार, हम केवल यह मानते हैं कि हमारे पास चार अलग-अलग डेटा स्रोत हैं। ऑपरेशनल सिस्टम, सीआरएम ( ग्राहक संबंध प्रबंधन ) और ईआरपी ( उद्यम संसाधन योजना ) RDBMS है या कहो कि रिलेशनल डेटाबेस मैनेजमेंट सिस्टम है जो हमारे पास है और हमारे पास कुछ फ़्लैट फाइल्स भी हैं, जो शायद लॉग्स, फाइल्स, रिकॉर्ड्स या जो भी हमारे डेटा सोर्सेज के पास हैं।
हम Squp या Flume या जो भी विशेष उत्पाद डेटा, रिकॉर्ड या जो भी मेरे डेटा स्रोत के रूप में प्राप्त करने के लिए उपयोग कर रहे हैं। हम इन साधनों का उपयोग डेटा स्रोतों से डेटा को मेरी स्टेजिंग डायरेक्टरी में प्राप्त करने के लिए कर सकते हैं जो हमारी प्रक्रिया का पहला चरण है बाहर निकालना।
एक बार जब डेटा स्टैडिंग डायरेक्टरी जो वास्तव में HDFS (Hadoop डिस्ट्रीब्यूशन फाइल सिस्टम) के रूप में होती है, हम विशेष रूप से स्क्रिप्टिंग भाषा जैसे PIG का उपयोग करेंगे परिवर्तन वह डेटा। उस परिवर्तन हमारे पास मौजूद डेटा के अनुसार होगा।
एक बार जब हमारे पास जो भी स्क्रिप्टिंग तकनीक होती है, उसका उपयोग करके डेटा को रूपांतरित किया जाता है लोड हो रहा है डेटा वेयरहाउस में वह डेटा। डेटा वेयरहाउस से, उस डेटा का उपयोग OLAP विश्लेषण, रिपोर्टिंग और डेटा खनन या Analytics के लिए किया जाएगा।
आगे बढ़ते हैं और चर्चा करते हैं कि Hadoop टेस्टिंग के लिए हम सभी चरणों का उपयोग कर सकते हैं।
पहला चरण एक्सट्रैक्शन चरण होगा। यहां, हम अपने सोर्स डेटाबेस से या फ़्लैट फ़ाइलों से डेटा प्राप्त करने जा रहे हैं, और उस स्थिति में, हम क्या कर सकते हैं, हम यह सत्यापित कर सकते हैं कि सभी डेटा को स्रोत से स्टेजिंग डायरेक्टरी में सफलतापूर्वक और सही तरीके से कॉपी किया गया है।
इसमें रिकॉर्ड्स की संख्या, रिकॉर्ड्स के प्रकार और फ़ील्ड्स के प्रकार आदि की पुष्टि करना शामिल हो सकता है।
एक बार जब यह डेटा स्टेजिंग निर्देशिका में कॉपी हो जाता है, तो हम आगे बढ़ेंगे और दूसरे चरण को ट्रिगर करेंगे जो कि परिवर्तन है। यहां, हमारे पास कुछ व्यावसायिक तर्क होंगे जो स्रोत सिस्टम से कॉपी किए गए डेटा पर कार्य करेंगे और वास्तव में आवश्यक व्यावसायिक तर्क में डेटा का निर्माण या रूपांतरण करेंगे।
परिवर्तन में डेटा को क्रमबद्ध करना, डेटा को फ़िल्टर करना, डेटा को दो अलग-अलग डेटा स्रोतों से जोड़ना और कुछ अन्य ऑपरेशन शामिल हो सकते हैं।
एक बार जब डेटा रूपांतरित हो जाता है, तो हम आगे बढ़ेंगे और परीक्षण योजना तैयार होगी और हम जाँच करेंगे कि क्या हमें उम्मीद के मुताबिक आउटपुट मिल रहा है, और हम जो भी आउटपुट प्राप्त कर रहे हैं, वह अपेक्षित परिणाम और डेटा प्रकार, फ़ील्ड मान, और पर्वतमाला आदि कुछ ऐसी हैं जो जगह-जगह गिर रही हैं।
एक बार यह सही हो जाने के बाद, हम डेटा वेयरहाउस में डेटा लोड कर सकते हैं।
लोडिंग चरण में, हम वास्तव में जाँच कर रहे हैं कि स्टेज से रिकॉर्ड की संख्या और डेटा वेयरहाउस में रिकॉर्ड की संख्या सिंक में है या नहीं, वे समान नहीं हो सकते हैं, लेकिन उन्हें सिंक में होना चाहिए। हम यह भी देखते हैं कि जिस प्रकार का डेटा ट्रांसफ़ॉर्म किया गया है वह सिंक में है या नहीं।
पोस्ट करें कि हम इस डेटा का उपयोग OLAP विश्लेषण, रिपोर्टिंग और डेटा खनन के लिए करेंगे जो हमारे उत्पाद की अंतिम परत है और उस स्थिति में, हम बाद में हो सकते हैं या हम कह सकते हैं कि इन सभी परतों के लिए परीक्षण योजनाएं उपलब्ध हैं।
जब भी हमें स्रोत से कुछ डेटा गंतव्य में मिलता है, तो हमें हमेशा यह सुनिश्चित करने की आवश्यकता होती है कि केवल प्रमाणिक व्यक्तियों ने ही डेटा तक पहुँच प्राप्त की हो।
प्रमाणीकरण
प्राधिकार
इन दोनों शब्दों से हमारा क्या तात्पर्य है?
इसे समझने के लिए, ETL डायग्राम के परिप्रेक्ष्य में चीजों को प्राप्त करें।
उपरोक्त आरेख के अनुसार, हम अपने डेटा को स्रोत RDBMS इंजन और फ़्लैट फ़ाइलों से HDFS में प्राप्त कर रहे हैं, और उस चरण को एक्सट्रैक्शन कहा जाता है।
आइए एक विशेष तरीके से प्रमाणीकरण पर चर्चा करें, कुछ ऐसे व्यवसाय हैं जिनके पास डेटा है जो इसकी प्रकृति द्वारा प्रतिबंधित है, इस प्रकार के डेटा को संयुक्त राज्य अमेरिका के मानकों के अनुसार PII डेटा कहा जाता है।
PII के लिए खड़ा है व्यक्तिगत पहचान योग्य जानकारी, कोई भी जानकारी जैसे जन्म तिथि, SSN, मोबाइल नंबर, ईमेल पता और घर का पता आदि, सभी PII के अंतर्गत आते हैं। यह प्रतिबंधित है और सभी के साथ साझा नहीं किया जा सकता है।
डेटा को केवल उन व्यक्तियों के साथ साझा किया जाना चाहिए जिन्हें इसकी सबसे अधिक आवश्यकता है और जिन्हें वास्तविक प्रसंस्करण के लिए डेटा की आवश्यकता है। इस जाँच के होने और जगह में बचाव की पहली पंक्ति को प्रमाणीकरण कहा जाता है।
उदाहरण के लिए, हम एक लैपटॉप का उपयोग कर रहे हैं और हमारे पास वहां विंडोज इंस्टाल्ड है, हमारे पास हमारे विंडोज ऑपरेटिंग सिस्टम पर कुछ उपयोगकर्ता खाता हो सकता है और वहां हम एक पासवर्ड लगा रहे थे।
इस तरह से केवल वह व्यक्ति जिसके पास इस विशेष उपयोगकर्ता खाते के लिए क्रेडेंशियल्स हैं, सिस्टम में लॉग इन कर सकता है और इसी तरह हम अपने डेटा को चोरी या अनावश्यक उपयोग से सुरक्षित करने जा रहे हैं। दूसरी परत प्राधिकरण है।
उदाहरण, हमारे विंडोज ऑपरेटिंग सिस्टम पर दो अलग-अलग उपयोगकर्ता खाते हैं, एक उपयोगकर्ता खाता हमारा है और दूसरा अतिथि उपयोगकर्ता खाता हो सकता है। व्यवस्थापक (WE) को सभी प्रकार के ऑपरेशन करने का अधिकार है, जैसे सॉफ्टवेयर की स्थापना और स्थापना रद्द करना, नई फ़ाइल का निर्माण और मौजूदा फ़ाइलों का हटाया जाना, आदि।
दूसरी ओर, अतिथि उपयोगकर्ताओं के पास इस तरह की पहुँच नहीं हो सकती है। अतिथि के पास सिस्टम में लॉग इन करने के लिए प्रमाणीकरण होता है, लेकिन फाइल और इंस्टॉलेशन को हटाने और बनाने के साथ-साथ सिस्टम में और सिस्टम में क्रमशः किसी भी सॉफ्टवेयर की स्थापना रद्द करने का अधिकार नहीं है।
हालाँकि, प्रमाणीकृत होने के कारण अतिथि उपयोगकर्ता खाता उन फ़ाइलों को पढ़ने का अधिकार है जो बनाई गई हैं और पहले से इंस्टॉल किए गए सॉफ़्टवेयर का उपयोग करते हैं।
यह कैसे प्रमाणीकरण और प्राधिकरण का परीक्षण किया जाता है, इस मामले में, एचडीएफएस या किसी भी फाइल सिस्टम में जो भी डेटा उपलब्ध है, हमें डेटा के प्रमाणीकरण और प्राधिकरण की जांच करने की आवश्यकता है।
Hadoop परीक्षण / BigData परीक्षण के लिए परीक्षण दृष्टिकोण
परीक्षण दृष्टिकोण सभी प्रकार के परीक्षण के लिए न केवल सामान्य है क्योंकि यह बिगडाटा या हडोप परीक्षण है जब हम सामान्य मैनुअल परीक्षण या स्वचालन परीक्षण या सुरक्षा परीक्षण, प्रदर्शन परीक्षण में भी जाते हैं, इस प्रकार किसी भी प्रकार का परीक्षण उसी दृष्टिकोण का अनुसरण करता है।
आवश्यकताओं को
परीक्षण दृष्टिकोण के एक भाग के रूप में, हम के साथ शुरू करने की जरूरत है आवश्यकताओं को , आवश्यकता एक बुनियादी चीज है, आजकल की चुस्त प्रक्रिया में, हमने इसे स्टोरीज और एपिक्स कहा है। महाकाव्य कुछ और नहीं बल्कि बड़ी आवश्यकता है, जबकि कहानियां छोटी आवश्यकताएं हैं।
आवश्यकता मूल रूप से सभी डेटा मॉडल, लक्ष्य, स्रोत के साथ-साथ हमें किस तरह के ट्रांसफ़ॉर्मेशन को लागू करने की आवश्यकता है, हमें किस तरह के टूल का उपयोग करना है? इन सभी प्रकार के विवरण आवश्यकताओं पर उपलब्ध होंगे।
यह मूल रूप से क्लाइंट रिक्वायरमेंट या कस्टमर रिक्वायरमेंट्स है। इस आवश्यकता के आधार पर हम अपनी परीक्षण प्रक्रिया शुरू करेंगे।
अनुमान
दृष्टिकोण का एक और हिस्सा है अनुमान , हमें परीक्षण के एक भाग के रूप में पूरी गतिविधि के लिए कितना समय चाहिए। हम टेस्ट प्लानिंग करते हैं, टेस्ट परिदृश्य तैयार करते हैं, टेस्ट केस और उसी के निष्पादन की तैयारी करते हैं और साथ ही हम दोषों की जांच करेंगे और उन्हें रिपोर्ट करेंगे और परीक्षण रिपोर्ट भी तैयार करेंगे।
इन सभी गतिविधियों में कुछ समय लगेगा, इसलिए हमें इन सभी गतिविधियों को पूरा करने के लिए कितना समय चाहिए और इसे मूल रूप से एक अनुमान कहा जाता है। हमें प्रबंधन को कुछ मोटे अनुमान देने की जरूरत है।
परीक्षण योजना
परीक्षण योजना कुछ भी नहीं है, लेकिन प्रक्रियाओं के बारे में विवरण, क्या परीक्षण करना है, क्या परीक्षण नहीं करना है, परीक्षण का दायरा क्या है, कार्यक्रम क्या हैं, कितने संसाधनों की आवश्यकता है, हार्डवेयर और सॉफ्टवेयर की आवश्यकताएं और समय-सीमा के साथ-साथ परीक्षण चक्र क्या हैं उपयोग किया जाएगा, हम परीक्षण के स्तर की आवश्यकता है, आदि
टेस्ट प्लानिंग के दौरान, वे परियोजना के लिए कुछ संसाधन आवंटन करेंगे और हमारे पास विभिन्न मॉडल क्या हैं, कितने संसाधनों की आवश्यकता है और किस प्रकार के कौशल सेट की आवश्यकता है, आदि इन सभी चीजों और पहलुओं को टेस्ट में शामिल किया जाएगा। योजना चरण।
ज्यादातर समय लीड लेवल या मैनेजमेंट लेवल के लोग टेस्ट प्लानिंग करेंगे।
टेस्ट परिदृश्य और टेस्ट मामले
एक बार जब हम टेस्ट प्लानिंग के साथ हो जाते हैं, तो हमें तैयारी करनी होगी परीक्षण परिदृश्य और परीक्षण मामले विशेष रूप से बिग डेटा परीक्षण के लिए, हमें आवश्यकता दस्तावेज़ के साथ कुछ दस्तावेज़ों की आवश्यकता होती है। इस आवश्यकता दस्तावेज़ के साथ हम सभी को क्या चाहिए?
हमें चाहिए आवश्यकता दस्तावेज़ इसमें क्लाइंट की आवश्यकताएं शामिल हैं, इसके साथ ही हमें इसकी आवश्यकता है इनपुट दस्तावेज़ अर्थात। डेटा मॉडल। डेटा मॉडल इस मायने में है कि डेटाबेस स्कीम क्या हैं, टेबल क्या हैं और ये सभी रिश्ते क्या हैं डेटा डेटा मॉडल में उपलब्ध होंगे।
इसके अलावा, हमारे पास है मैपिंग दस्तावेज़ , के लिए मैपिंग दस्तावेज़ जैसे संबंधित डेटाबीस में हमारे पास कुछ टेबल्स हैं और एचडीएफएस में डेटा वेयरहाउस में ईटीएल के माध्यम से डेटा लोड करने के बाद, सभी मैपिंग करने की आवश्यकता है? यानी डाटा टाइपिंग मैपिंग।
सॉफ्टवेयर सी + + में लिखा है
उदाहरण के लिए, अगर हमारे पास HDFS में ग्राहक की तालिका है, तो HDFS में हमारे पास CUSTOMER_TARGET तालिका है या वही तालिका HIVE में भी हो सकती है।
इस ग्राहक तालिका में, हमारे पास कुछ कॉलम हैं और ग्राहक तालिका में, हमारे पास कुछ कॉलम हैं जैसा कि आरेख में दिखाया गया है। हमने कस्टमर टेबल से कस्टमर टेबल टेबल यानि सोर्स टू टार्गेट को डेटा डंप किया।
फिर हमें स्रोत तालिका में मौजूद डेटा की तरह सटीक मैपिंग की जांच करनी होगी जो ग्राहक तालिका 1 और पंक्ति 1 है और इसे C1R1 के रूप में मानता है और उसी डेटा को CAROMERARGET तालिका के C1R1 में मैप किया जाना चाहिए। इसे मूल रूप से मैपिंग कहा जाता है।
हमें कैसे पता चलेगा, वे सभी मैपिंग हैं जिन्हें हमें सत्यापित करने की आवश्यकता है? तो ये मैपिंग मैपिंग दस्तावेज़ में मौजूद होंगे। मैपिंग दस्तावेज़ में, ग्राहक सभी प्रकार के मैपिंग देगा।
इसके अलावा, हम एक की आवश्यकता है डिज़ाइन दस्तावेज़ , डिजाइन डॉक्यूमेंट डॉक्यूमेंट टीम के साथ-साथ क्यूए टीम दोनों के लिए जरूरी है, क्योंकि डिजाइन डॉक्यूमेंट में कस्टमर प्रदान करेगा कि वे किस तरह के मैप रिड्यूस जॉब्स को लागू करने जा रहे हैं और किस तरह के मैप रिड्यूस जॉब्स इनपुट्स लेते हैं और किस तरह का मैप एडेड जॉब्स आउटपुट देता है।
इसी तरह, यदि हमारे पास HIVE या PIG है, तो सभी UDF के ग्राहक क्या हैं और साथ ही वे कौन से इनपुट लेंगे और वे किस तरह के आउटपुट का उत्पादन करेंगे, आदि बनाए गए हैं।
टेस्ट परिदृश्य और टेस्ट केस तैयार करने के लिए, हमें इन सभी दस्तावेजों को हाथ से लगाना होगा:
- आवश्यकता दस्तावेज़
- डेटा मॉडल
- मैपिंग दस्तावेज़
- डिज़ाइन दस्तावेज़
ये एक संगठन से दूसरे संगठन में भिन्न हो सकते हैं, और कोई अनिवार्य नियम नहीं है कि हमारे पास ये सभी दस्तावेज होने चाहिए। कभी-कभी हमारे पास सभी दस्तावेज होते हैं और कभी-कभी हमारे पास केवल दो या तीन दस्तावेज होते हैं या कभी-कभी हमें एक दस्तावेज पर भी भरोसा करने की आवश्यकता होती है, जो कि परियोजना जटिलता, कंपनी के कार्यक्रम और सब कुछ पर निर्भर है।
टेस्ट परिदृश्य और टेस्ट मामलों पर समीक्षा
हमें टेस्ट परिदृश्य और टेस्ट मामलों पर एक समीक्षा करने की आवश्यकता है क्योंकि किसी तरह या कुछ मामलों में हम भूल जाते हैं या हम कुछ टेस्ट मामलों को याद करते हैं क्योंकि हर कोई उन सभी संभावित चीजों के बारे में नहीं सोच सकता है जो आवश्यकताओं के साथ किया जा सकता है, ऐसी स्थितियों में हमें लेने की आवश्यकता है तीसरे पक्ष के उपकरण या किसी और से मदद।
इसलिए, जब भी हम कुछ दस्तावेज तैयार करते हैं या कुछ करते हैं, तो हमें डेवलपर्स, टेस्टर जैसे टीम से सामान की समीक्षा करने के लिए किसी की आवश्यकता होती है। वे कुछ और शामिल करने के लिए उचित सुझाव देंगे या टेस्ट परिदृश्य और टेस्ट मामलों को अद्यतन या संशोधित करने का भी सुझाव देंगे।
वे सभी टिप्पणियां प्रदान करते हैं और इसके आधार पर हम अपने परीक्षण परिदृश्य और परीक्षण के मामलों और दस्तावेज़ के कई संस्करणों को अपडेट करेंगे जो हमें टीम में तब तक जारी करने की आवश्यकता है जब तक कि दस्तावेज़ पूरी तरह से आवश्यकता के अनुसार अद्यतन नहीं हो जाता।
परीक्षण निष्पादन
एक बार दस्तावेज तैयार हो जाने के बाद, हमें निष्पादन प्रक्रिया शुरू करने के लिए ऊपरी टीम से साइन-ऑफ मिल जाएगा जिसे मूल रूप से टेस्ट केस एक्ज़ेक्यूशन कहा जाता है।
यदि हम निष्पादन के दौरान अपने परीक्षण मामलों को निष्पादित करना चाहते हैं, तो हमें यह जांचने की आवश्यकता है कि डेवलपर को जानकारी भेजनी है, अगर यह सामान्य कार्यात्मक परीक्षण या कुछ अन्य परीक्षण या स्वचालन परीक्षण है, तो हमें एक बिल्ड की आवश्यकता है। लेकिन, यहाँ Hadoop या BigData परीक्षण बिंदु से, डेवलपर MapReduce जॉब्स प्रदान करेगा।
HDFS फाइलें - HDFS में जो भी फाइलें कॉपी की जाती हैं, उन फाइलों की जानकारी विशेषाधिकारों की जांच करने के लिए जरूरी है, HIVE लिपियां जो डेवलपर्स द्वारा HIVE टेबल में डेटा को सत्यापित करने के लिए बनाई गई थीं और हमें HIVE UDF की भी जरूरत है जो डेवलपर्स, PIG द्वारा विकसित किए गए थे। लिपियों और पीआईजी यूडीएफ के।
ये वे सभी चीजें हैं जो हमें डेवलपर्स से प्राप्त करने की आवश्यकता है। अमल के लिए जाने से पहले हमारे पास ये सब चीजें होनी चाहिए।
MapReduce Jobs के लिए, वे कुछ JAR फाइलें प्रदान करेंगे और HDFS के एक हिस्से के रूप में उन्होंने पहले ही HDFS में डेटा लोड कर दिया है और फाइलें तैयार होनी चाहिए और HIVE Tables में डेटा को मान्य करने के लिए HIVE लिपियों। यूडीएफ ने जो कुछ भी लागू किया है वह हाइव यूडीएफ में उपलब्ध होगा। हमें PIG लिपियों और UDF की समान चीज़ों की आवश्यकता है।
दोष रिपोर्टिंग और ट्रैकिंग
एक बार जब हम अपने परीक्षण मामलों को निष्पादित करते हैं तो हमें कुछ दोष मिलते हैं, कुछ अपेक्षित और कुछ वास्तविक अपेक्षित परिणामों के बराबर नहीं होते हैं, इसलिए हमें उसी को सूचीबद्ध करने और उन्हें विकास टीम को समाधान के लिए प्रदान करने की आवश्यकता है, और इसे मूल रूप से दोष रिपोर्टिंग कहा जाता है।
मान लीजिए अगर हमें MapReduce Job में कुछ खराबी आती है, तो हम उसे Developer को रिपोर्ट करेंगे और वे फिर से MapReduce Job को फिर से बनाएंगे और वे कुछ कोड लेवल में संशोधन करेंगे और फिर से वे नवीनतम MapReduce Job प्रदान करेंगे, जिसे हमें परीक्षण करने की आवश्यकता है ।
यह एक सतत प्रक्रिया है, एक बार जब नौकरी का परीक्षण और पास हो जाता है, तो हमें फिर से इसे फिर से तैयार करना होगा और इसे डेवलपर को रिपोर्ट करना होगा और फिर अगले परीक्षण के लिए प्राप्त करना होगा। यह है कि कैसे दोष रिपोर्टिंग और ट्रैकिंग गतिविधि को पूरा किया जाता है।
परीक्षण रिपोर्ट
एक बार जब हमने सभी परीक्षण प्रक्रिया के साथ कर लिया है और दोष बंद हो गए हैं तो हमें अपनी टेस्ट रिपोर्ट बनाने की आवश्यकता है। परीक्षण रिपोर्ट वह है जो हमने परीक्षण प्रक्रिया को पूरा करने के लिए किया है। सभी नियोजन, परीक्षण के मामले लेखन और निष्पादन, हमें कौन सा आउटपुट मिला, आदि सब कुछ एक साथ टेस्ट रिपोर्ट के रूप में प्रलेखित है।
हमें ये रिपोर्ट दैनिक या साप्ताहिक आधार पर या ग्राहक की जरूरतों के अनुसार भेजने की आवश्यकता है। आजकल संगठन AGILE मॉडल का उपयोग कर रहे हैं, इसलिए डेली स्क्रम्स के दौरान हर स्टेटस रिपोर्ट को अपडेट करने की आवश्यकता है।
निष्कर्ष
इस ट्यूटोरियल में, हम यहां से चले:
- बिगडाटा के परीक्षण की रणनीति या योजना।
- बिगडाटा परीक्षण के लिए आवश्यक वातावरण।
- बिगडाटा सत्यापन और सत्यापन।
- बिगडाटा के परीक्षण में प्रयुक्त उपकरण।
हमने भी सीखा -
- कैसे टेस्ट रणनीति, टेस्ट डेवलपमेंट, टेस्ट एग्जेक्यूटिव्स, डिफेक्ट मैनेजमेंट और डिलिवरी रोल्स और जिम्मेदारियों में Hadoop टेस्टिंग के हिस्से के रूप में काम करते हैं।
- Hadoop / BigData टेस्टिंग के लिए परीक्षण दृष्टिकोण जिसमें रिव्यू के साथ रिक्वायरमेंट गैदरिंग, एस्टीमेशन, टेस्ट प्लानिंग, क्रिएशन ऑफ टेस्ट व्यूवर्स एंड टेस्ट केसेस शामिल हैं।
- हमें परीक्षण निष्पादन, दोष रिपोर्टिंग और ट्रैकिंग और परीक्षण रिपोर्टिंग के बारे में भी पता चला।
हमें उम्मीद है कि यह बिगडाटा परीक्षण ट्यूटोरियल आपके लिए उपयोगी था!
=> सभी बिगडेटा ट्यूटोरियल यहां देखें।
अनुशंसित पाठ
- वॉल्यूम परीक्षण ट्यूटोरियल: उदाहरण और वॉल्यूम परीक्षण उपकरण
- SoapUI Pro में डेटा चालित परीक्षण कैसे करें - SoapUI Tutorial # 14
- उदाहरणों के साथ डेटा वेयरहाउस टेस्टिंग ट्यूटोरियल | ईटीएल परीक्षण गाइड
- परीक्षण प्राइमर eBook डाउनलोड
- ETL परीक्षण डेटा वेयरहाउस परीक्षण ट्यूटोरियल (एक पूर्ण गाइड)
- Hadoop क्या है? शुरुआती के लिए Apache Hadoop ट्यूटोरियल
- विनाशकारी परीक्षण और गैर विनाशकारी परीक्षण ट्यूटोरियल
- कार्यात्मक परीक्षण बनाम गैर-कार्यात्मक परीक्षण