top 29 data engineer interview questions
आने वाले साक्षात्कार के लिए तैयार करने में आपकी सहायता के लिए सबसे अधिक पूछे जाने वाले डेटा इंजीनियर साक्षात्कार प्रश्न और उत्तर की सूची:
आज, सॉफ्टवेयर इंजीनियरिंग सॉफ्टवेयर विकास के बाद सबसे अधिक मांग वाला क्षेत्र है और यह दुनिया में सबसे तेजी से बढ़ते रोजगार विकल्पों में से एक बन गया है। साक्षात्कारकर्ता अपनी टीम के लिए सर्वश्रेष्ठ डेटा इंजीनियर चाहते हैं और यही कारण है कि वे उम्मीदवारों का पूरी तरह से साक्षात्कार करते हैं। वे कुछ कौशल और ज्ञान की तलाश करते हैं। तो, आपको उनकी अपेक्षाओं को पूरा करने के लिए तैयार रहना होगा।
आप क्या सीखेंगे:
- एक डाटा इंजीनियर की जिम्मेदारियां
- एक डाटा इंजीनियर के कौशल
- अक्सर पूछे जाने वाले डेटा इंजीनियर साक्षात्कार प्रश्न
- निष्कर्ष
एक डाटा इंजीनियर की जिम्मेदारियां
जिम्मेदारियों में शामिल हैं:
- कंपनी के भीतर डेटा को संभालने और पर्यवेक्षण करने के लिए।
- डेटा स्रोत प्रणाली और स्टेजिंग क्षेत्रों को बनाए रखना और संभालना।
- बाद की इमारत के साथ-साथ डेटा को सरल बनाना और डेटा के पुनर्विकास में सुधार करना।
- उपलब्ध कराएं और डेटा परिवर्तन और ईटीएल प्रक्रिया दोनों को निष्पादित करें।
- डेटा क्वेरी बिल्डिंग का तदर्थ डेटा निकालना और करना।
एक डाटा इंजीनियर के कौशल
योग्यता के साथ, आपको कुछ कौशल भी चाहिए। जब आप डेटा इंजीनियर के पद की तैयारी कर रहे होते हैं तो वे दोनों महत्वपूर्ण होते हैं। यहां, हम शीर्ष 5 कौशल सूचीबद्ध कर रहे हैं, बिना किसी विशेष क्रम के, कि आपको एक सफल डेटा इंजीनियर बनने की आवश्यकता होगी।
- डेटा विज़ुअलाइज़ेशन में कौशल।
- अजगर और एसक्यूएल।
- बिग डेटा और डेटा वेयरहाउसिंग दोनों के लिए डेटा मॉडलिंग ज्ञान
- गणित
- ईटीएल में जानें
- बिग डाटा स्पेस का अनुभव
इसलिए, आपको अपने साक्षात्कार की तैयारी शुरू करने से पहले इन कौशल सेटों को सुधारने पर काम करना चाहिए। और जब आपने अपने कौशल को पॉलिश कर लिया है, तो यहां कुछ साक्षात्कार प्रश्न दिए गए हैं जिन्हें आप साक्षात्कारकर्ताओं को नोटिस करने और आपको किराए पर देने के लिए तैयार कर सकते हैं।
अक्सर पूछे जाने वाले डेटा इंजीनियर साक्षात्कार प्रश्न
सामान्य साक्षात्कार प्रश्न
Q # 1) आपने डेटा इंजीनियरिंग का अध्ययन क्यों किया?
उत्तर: इस सवाल का उद्देश्य आपकी शिक्षा, कार्य अनुभव और पृष्ठभूमि के बारे में सीखना है। यह आपके सूचना प्रणाली या कंप्यूटर विज्ञान की डिग्री की निरंतरता में एक स्वाभाविक पसंद हो सकता है। या, हो सकता है कि आपने एक समान क्षेत्र में काम किया हो, या आप पूरी तरह से अलग कार्य क्षेत्र से संक्रमण कर रहे हों।
जो भी आपकी कहानी हो सकती है, उसे वापस मत छोड़ो या शर्म करो। और जब आप साझा कर रहे हों, तो उन कौशलों पर प्रकाश डालते रहें जो आपने सीखी हैं और आपके द्वारा किए गए उत्कृष्ट कार्य।
हालाँकि, कहानी शुरू नहीं होती है। अपनी शैक्षिक पृष्ठभूमि के साथ थोड़ा शुरू करें और फिर उस हिस्से तक पहुंचें जब आप जानते थे कि आप डेटा इंजीनियर बनना चाहते थे। और फिर आगे बढ़ें कि आप यहां कैसे पहुंचे।
Q # 2) आपके अनुसार डेटा इंजीनियर होने के बारे में सबसे मुश्किल काम क्या है?
उत्तर: आपको इस सवाल का ईमानदारी से जवाब देना चाहिए। सभी नौकरियों का हर पहलू आसान नहीं है और आपका साक्षात्कारकर्ता जानता है कि। इस प्रश्न का उद्देश्य आपकी कमजोरी को इंगित करना नहीं है बल्कि यह जानना है कि आप उन चीजों के माध्यम से कैसे काम करते हैं जिनसे आपको निपटना मुश्किल है।
आप कुछ ऐसा कह सकते हैं, “एक डेटा इंजीनियर के रूप में मुझे एक कंपनी में सभी विभागों के अनुरोध को पूरा करना मुश्किल लगता है, जहां उनमें से ज्यादातर अक्सर परस्पर विरोधी मांगों के साथ आते हैं। इसलिए, मुझे अक्सर उनके अनुसार संतुलन बनाना चुनौतीपूर्ण लगता है।
लेकिन इसने मुझे विभागों के कामकाज और समग्र कंपनी के ढांचे में उनकी भूमिका के बारे में एक मूल्यवान अंतर्दृष्टि प्रदान की है। ' और यह सिर्फ एक उदाहरण है। आपको अपनी बात रखनी चाहिए।
Q # 3) हमें एक ऐसी घटना बताएं जिसमें आप विभिन्न स्रोतों से डेटा एक साथ लाने वाले थे, लेकिन अप्रत्याशित मुद्दों का सामना करना पड़ा और आपने इसे कैसे हल किया?
उत्तर: यह प्रश्न आपके लिए अपनी समस्या को सुलझाने के कौशल का प्रदर्शन करने का अवसर है और आप अचानक योजना में परिवर्तन के अनुकूल कैसे हैं। प्रश्न को आम तौर पर या विशेष रूप से डेटा इंजीनियरिंग के संदर्भ में संबोधित किया जा सकता है। यदि आप इस तरह के अनुभव के माध्यम से नहीं आए हैं तो आप एक काल्पनिक उत्तर दे सकते हैं।
यहाँ एक नमूना उत्तर दिया गया है: “मेरी पिछली फ्रैंचाइज़ी कंपनी में, मैं और मेरी टीम विभिन्न स्थानों और प्रणालियों से डेटा एकत्र करने वाले थे। लेकिन एक फ्रेंचाइजी ने बिना किसी पूर्व सूचना के अपना सिस्टम बदल दिया। इसके परिणामस्वरूप डेटा संग्रह और प्रसंस्करण के लिए कुछ मुट्ठी भर मुद्दे सामने आए।
इसका समाधान करने के लिए, हमें कंपनी के सिस्टम में आवश्यक डेटा प्राप्त करने के लिए पहले एक त्वरित अल्पकालिक समाधान के साथ आना था। और उसके बाद, हमने ऐसे मुद्दों को फिर से होने से रोकने के लिए एक दीर्घकालिक समाधान विकसित किया है। ”
Q # 4) डेटा इंजीनियर का काम डेटा आर्किटेक्ट से कैसे अलग है?
उत्तर: यह प्रश्न जांचने के लिए है कि क्या आप समझते हैं कि डेटा वेयरहाउस की टीम के भीतर मतभेद हैं। आप उत्तर के साथ गलत नहीं हो सकते डेटाबेस रखरखाव विभाग या कंपनी को क्या जरूरत है, इसके आधार पर दोनों की जिम्मेदारी ओवरलैप या अलग-अलग होती है।
आप कह सकते हैं कि “मेरे अनुभव के अनुसार, डेटा इंजीनियर और डेटा आर्किटेक्ट की भूमिकाओं के बीच अंतर कंपनी से कंपनी में भिन्न होता है। यद्यपि वे एक साथ मिलकर काम करते हैं, लेकिन उनकी सामान्य जिम्मेदारियों में अंतर होता है।
सर्वर का प्रबंधन करना और किसी कंपनी के डेटा सिस्टम की वास्तुकला का निर्माण करना डेटा आर्किटेक्ट की ज़िम्मेदारी है। और एक डेटा इंजीनियर का काम उस आर्किटेक्चर का परीक्षण और रखरखाव करना है। इसके साथ ही, हम, डेटा इंजीनियर, यह सुनिश्चित करते हैं कि जो डेटा विश्लेषकों को उपलब्ध कराया गया है, वह उच्च गुणवत्ता और विश्वसनीय हो। ”
तकनीकी साक्षात्कार प्रश्न
Q # 5) बिग डेटा के चार V क्या हैं?
(छवि स्रोत )
उत्तर:
बिग डेटा के चार वी हैं:
- पहला V है वेग जिस पर बिग डेटा समय के साथ उत्पन्न हो रहा है। तो, यह डेटा का विश्लेषण करने के रूप में माना जा सकता है।
- दूसरा V है वैराइटी बिग डेटा के विभिन्न रूपों में, यह छवियों, लॉग फ़ाइलों, मीडिया फ़ाइलों और वॉयस रिकॉर्डिंग के भीतर हो।
- तीसरा V है आयतन डेटा का। यह उपयोगकर्ताओं की संख्या, तालिकाओं की संख्या, डेटा के आकार या रिकॉर्ड की संख्या में हो सकता है।
- चौथा V है सच्चाई डेटा की अनिश्चितता या निश्चितता से संबंधित है। अन्य शब्दों में, यह तय करता है कि आप डेटा की सटीकता के बारे में कितना सुनिश्चित हो सकते हैं।
Q # 6) संरचित डेटा कैसे असंरचित डेटा से अलग है?
उत्तर: नीचे दी गई तालिका में अंतरों की व्याख्या है:
संरचित डेटा | असंरचित डेटा | |
---|---|---|
7) | एकत्रित डेटा एकल आयाम में समाहित है। | डेटा को विभिन्न आयाम तालिकाओं में विभाजित किया गया है। |
1) | इसे एमएस एक्सेस, ओरेकल, एसक्यूएल सर्वर और अन्य समान पारंपरिक डेटाबेस सिस्टम में संग्रहीत किया जा सकता है। | इसे पारंपरिक डेटाबेस सिस्टम में संग्रहीत नहीं किया जा सकता है। |
2) | इसे विभिन्न स्तंभों और पंक्तियों में संग्रहीत किया जा सकता है। | इसे पंक्तियों और स्तंभों में संग्रहीत नहीं किया जा सकता है। |
3) | संरचित डेटा का एक उदाहरण ऑनलाइन आवेदन लेनदेन है। | अनस्ट्रक्चर्ड डेटा के उदाहरण ट्वीट, गूगल सर्च, फेसबुक लाइक आदि हैं। |
4) | इसे डेटा मॉडल के भीतर आसानी से परिभाषित किया जा सकता है। | इसे डेटा मॉडल के अनुसार परिभाषित नहीं किया जा सकता है। |
5) | यह एक निश्चित आकार और सामग्री के साथ आता है। | यह विभिन्न आकारों और सामग्री में आता है। |
Q # 7) आप किस ETL उपकरण से परिचित हैं?
उत्तर: उन सभी ईटीएल टूल्स का नाम बताइए जिनके साथ आपने काम किया है। आप कह सकते हैं, “मैंने एसएएस डेटा प्रबंधन, आईबीएम इन्फॉस्फीयर और एसएपी डेटा सेवाओं के साथ काम किया है। लेकिन मेरा पसंदीदा एक Informatica से PowerCenter है। यह कुशल है, एक उच्च प्रदर्शन दर है, और लचीला है। संक्षेप में, इसमें एक अच्छे ईटीएल टूल के सभी महत्वपूर्ण गुण हैं।
वे व्यवसाय डेटा संचालन को सुचारू रूप से चलाते हैं और व्यवसाय या इसकी संरचना में परिवर्तन होने पर भी डेटा एक्सेस की गारंटी देते हैं। ” सुनिश्चित करें कि आपने केवल उन लोगों के बारे में बात की है जिनके साथ आपने काम किया है और जिनके साथ आप काम करना पसंद करते हैं। या, यह आपके साक्षात्कार को बाद में टैंक कर सकता है।
Q # 8) डेटा मॉडलिंग के डिजाइन स्कीमा के बारे में बताएं।
उत्तर: डेटा मॉडलिंग दो प्रकार के डिजाइन स्कीमा के साथ आता है।
उन्हें इस प्रकार समझाया गया है:
- पहला वाला है स्टार शेड्यूल , जिसे दो भागों में विभाजित किया गया है- तथ्य तालिका और आयाम तालिका। यहां, दोनों टेबल जुड़े हुए हैं। स्टार स्कीमा सबसे सरल डेटा मार्ट स्कीमा शैली है और इसे सबसे व्यापक रूप से भी जाना जाता है। इसका नाम इसलिए रखा गया है क्योंकि इसकी संरचना एक तारे के समान है।
- दूसरा वाला है स्नोफ्लेक स्कीमा जो स्टार स्कीमा का विस्तार है। यह अतिरिक्त आयाम जोड़ता है और इसे स्नोफ्लेक कहा जाता है क्योंकि इसकी संरचना हिमपात का एक खंड जैसा दिखता है।
Q # 9) स्टार स्कीमा और स्नोफ्लेक स्कीमा में क्या अंतर है?
(छवि स्रोत )
उत्तर: नीचे दी गई तालिका में अंतरों की व्याख्या है:
स्टार शेड्यूल | स्नोफ्लेक स्कीमा | |
---|---|---|
1) | आयाम तालिका में आयामों के लिए पदानुक्रम शामिल हैं। | पदानुक्रम के लिए अलग-अलग टेबल हैं। |
2) | यहाँ आयाम तालिकाएँ एक तथ्य तालिका को घेरती हैं। | आयाम तालिकाएं एक तथ्य तालिका को घेर लेती हैं और फिर वे आयाम तालिकाओं से घिरी होती हैं। |
3) | एक तथ्य तालिका और कोई भी आयाम तालिका केवल एक जुड़ने से जुड़ी होती है। | डेटा लाने के लिए, इसमें कई जुड़ावों की आवश्यकता होती है। |
4) | यह एक साधारण DB डिज़ाइन के साथ आता है। | इसमें एक जटिल डीबी डिज़ाइन है। |
5) | यहां तक कि विकृत प्रश्नों और डेटा संरचनाओं के साथ भी अच्छी तरह से काम करता है। | केवल सामान्यीकृत डेटा संरचना के साथ काम करता है। |
6) | डेटा अतिरेक- उच्च। | डेटा अतिरेक- बहुत कम। |
8) | तेज़ घन प्रसंस्करण। | कॉम्प्लेक्स स्लो क्यूब प्रोसेसिंग में शामिल होता है। |
Q # 10) डेटा वेयरहाउस और ऑपरेशनल डेटाबेस में क्या अंतर है?
उत्तर: नीचे दी गई तालिका में अंतरों की व्याख्या है:
डेटा वेयरहाउस | संचालन डेटाबेस | |
---|---|---|
7) | समवर्ती ग्राहकों की तरह मुट्ठी भर ओएलटीपी का समर्थन करता है। | कई समवर्ती ग्राहकों का समर्थन करता है। |
1) | ये उच्च मात्रा के विश्लेषणात्मक प्रसंस्करण का समर्थन करने के लिए डिज़ाइन किए गए हैं। | ये उच्च-मात्रा के लेनदेन का समर्थन करते हैं। |
2) | ऐतिहासिक डेटा एक डेटा वेयरहाउस को प्रभावित करता है। | वर्तमान डेटा परिचालन डेटाबेस को प्रभावित करता है। |
3) | नया, गैर-वाष्पशील डेटा नियमित रूप से जोड़ा जाता है, लेकिन शायद ही कभी बदला जाता है। | जरूरत पड़ने पर डेटा को नियमित रूप से अपडेट किया जाता है। |
4) | यह विशेषताओं, विषय क्षेत्रों और श्रेणियों द्वारा व्यावसायिक उपायों का विश्लेषण करने के लिए डिज़ाइन किया गया है। | यह वास्तविक समय प्रसंस्करण और व्यापार-व्यवहार के लिए डिज़ाइन किया गया है। |
5) | हर मेज पर कई पंक्तियों तक पहुँचने वाले भारी भार और जटिल प्रश्नों के लिए अनुकूलित। | प्रत्येक तालिका के लिए एक बार में एक पंक्ति को पुनः प्राप्त करने और जोड़ने की तरह लेनदेन के एक सरल एकल सेट के लिए अनुकूलित। |
6) | यह वैध और सुसंगत जानकारी से भरा है और इसके लिए किसी वास्तविक समय सत्यापन की आवश्यकता नहीं है। | आने वाली सूचनाओं को मान्य करने के लिए बेहतर है और सत्यापन डेटा तालिकाओं का उपयोग करता है। |
8) | इसकी प्रणालियाँ मुख्य रूप से विषय-उन्मुख हैं। | इसकी प्रणालियाँ मुख्य रूप से प्रक्रिया-उन्मुख हैं। |
9) | डेटा बाहर। | डेटा में। |
10) | बड़ी संख्या में डेटा एक्सेस किया जा सकता है। | सीमित संख्या में डेटा एक्सेस किया जा सकता है। |
ग्यारह) | OLAP, ऑन-लाइन विश्लेषणात्मक प्रसंस्करण के लिए बनाया गया। | ओएलटीपी के लिए बनाया गया, ऑन-लाइन लेनदेन प्रसंस्करण। |
Q # 11) OLTP और OLAP के बीच अंतर को इंगित करें।
उत्तर: नीचे दी गई तालिका में अंतर की व्याख्या की गई है:
OLTP | OLAP | |
---|---|---|
7) | डेटा की मात्रा बहुत बड़ी नहीं है। | इसमें बड़ी मात्रा में डेटा है। |
1) | परिचालन डेटा का प्रबंधन करने के लिए उपयोग किया जाता है। | सूचनात्मक डेटा का प्रबंधन करने के लिए उपयोग किया जाता है। |
2) | ग्राहक, क्लर्क और आईटी पेशेवर इसका इस्तेमाल करते हैं। | प्रबंधक, विश्लेषक, अधिकारी और अन्य ज्ञान कार्यकर्ता इसका उपयोग करते हैं। |
3) | यह ग्राहक-उन्मुख है। | यह बाजारोन्मुखी है। |
4) | यह वर्तमान डेटा का प्रबंधन करता है, जो अत्यंत विस्तृत हैं और निर्णय लेने के लिए उपयोग किया जाता है। | यह ऐतिहासिक डेटा की एक बड़ी मात्रा का प्रबंधन करता है। यह ग्रैन्युलैरिटी के विभिन्न स्तरों पर डेटा के प्रबंधन और भंडारण के साथ-साथ एकत्रीकरण और संक्षेपण के लिए सुविधाएं भी प्रदान करता है। इसलिए निर्णय लेने में उपयोग किए जाने के लिए डेटा अधिक आरामदायक हो जाता है। |
5) | इसमें 100 एमबी-जीबी डेटाबेस आकार है। | इसमें 100 जीबी-टीबी डेटाबेस आकार है। |
6) | यह एक डेटाबेस डिजाइन के साथ एक ईआर (इकाई-संबंध) डेटा मॉडल का उपयोग करता है जो एप्लिकेशन-उन्मुख है। | OLAP एक स्नोफ्लेक या स्टार मॉडल के साथ-साथ एक डेटाबेस डिज़ाइन के साथ उपयोग करता है जो विषय-उन्मुख है। |
8) | एक्सेस मोड- पढ़ें / लिखें। | एक्सेस मोड ज्यादातर लिखते हैं। |
9) | पूरी तरह से सामान्यीकृत। | आंशिक रूप से सामान्यीकृत। |
10) | इसकी प्रोसेसिंग स्पीड बहुत तेज है। | इसकी प्रसंस्करण गति इसमें शामिल फ़ाइलों की संख्या, जटिल क्वेरी और बैच डेटा ताज़ा पर निर्भर करती है |
Q # 12) Apache Hadoop के फ्रेमवर्क के पीछे की मुख्य अवधारणा को समझाइए।
उत्तर: यह MapReduce एल्गोरिथ्म पर आधारित है। इस एल्गोरिथ्म में, एक विशाल डेटा सेट को संसाधित करने के लिए, मैप और कम संचालन का उपयोग किया जाता है। मैप, फ़िल्टर और डेटा को कम करते समय, डेटा को सारांशित करता है। स्केलेबिलिटी और फॉल्ट टॉलरेंस इस कॉन्सेप्ट के प्रमुख बिंदु हैं। हम Apache Hadoop में इन सुविधाओं को कुशलतापूर्वक MapReduce और Multi-threading को लागू करके प्राप्त कर सकते हैं।
Q # 13) क्या आपने कभी Hadoop फ्रेमवर्क के साथ काम किया है?
(छवि स्रोत )
उत्तर: कई हायरिंग मैनेजर इंटरव्यू में हडोप टूल के बारे में पूछते हैं ताकि पता चल सके कि आप उन टूल्स और भाषाओं से परिचित हैं जो कंपनी उपयोग करती है। यदि आपने Hadoop फ्रेमवर्क के साथ काम किया है, तो उन्हें उपकरण और इसकी क्षमताओं के साथ अपने ज्ञान और कौशल के बारे में प्रकाश में लाने के लिए अपनी परियोजना का विवरण बताएं। और यदि आपने कभी इसके साथ काम नहीं किया है, तो इसकी विशेषताओं के साथ कुछ परिचित दिखाने के लिए कुछ शोध भी काम करेंगे।
तुम कह सकते हो, उदाहरण के लिए, “एक टीम प्रोजेक्ट पर काम करते हुए, मुझे हडोप के साथ काम करने का मौका मिला है। हम डेटा प्रोसेसिंग की दक्षता बढ़ाने पर ध्यान केंद्रित कर रहे थे, इसलिए, इसकी वितरित प्रसंस्करण के दौरान गुणवत्ता से समझौता किए बिना डेटा प्रोसेसिंग की गति बढ़ाने की अपनी क्षमता के कारण, हमने Hadoop का उपयोग करने का निर्णय लिया।
और जैसा कि मेरी पिछली कंपनी ने अगले कुछ महीनों में डेटा प्रोसेसिंग में काफी वृद्धि की उम्मीद की थी, इसकी मापनीयता भी काम आई। Hadoop जावा पर आधारित एक ओपन-सोर्स नेटवर्क भी है, जो इसे सीमित संसाधनों के साथ परियोजनाओं के लिए सबसे अच्छा विकल्प बनाता है और बिना किसी अतिरिक्त प्रशिक्षण के उपयोग करने में आसान है। '
youtube से mp4 तेज ऑनलाइन मुफ्त
Q # 14) Hadoop की कुछ महत्वपूर्ण विशेषताओं का उल्लेख करें।
उत्तर: विशेषताएं इस प्रकार हैं:
- Hadoop एक मुक्त खुला स्रोत ढांचा है जहाँ हम अपनी आवश्यकता के अनुसार स्रोत कोड को बदल सकते हैं।
- यह डेटा के तेजी से वितरित प्रसंस्करण का समर्थन करता है। HDFS Hadoop वितरित तरीके से डेटा संग्रहीत करता है और डेटा को समानांतर प्रक्रिया के लिए MapReduce का उपयोग करता है।
- Hadoop अत्यधिक सहिष्णु है और डिफ़ॉल्ट रूप से, अलग-अलग नोड्स पर, यह उपयोगकर्ता को प्रत्येक ब्लॉक के तीन प्रतिकृतियां बनाने की अनुमति देता है। इसलिए, यदि नोड्स में से एक असफल है, तो हम डेटा को दूसरे नोड से पुनर्प्राप्त कर सकते हैं।
- यह स्केलेबल भी है और कई हार्डवेयर के साथ संगत है।
- चूंकि Hadoop ने क्लस्टर में डेटा संग्रहीत किया, अन्य सभी कार्यों से स्वतंत्र। इसलिए यह विश्वसनीय है। संग्रहीत डेटा मशीनों की खराबी से अप्रभावित रहता है। और इसलिए, यह अत्यधिक उपलब्ध है।
Q # 15) बिग डेटा का विश्लेषण करके आप व्यवसाय के राजस्व को कैसे बढ़ा सकते हैं?
उत्तर: बिग डेटा विश्लेषण व्यवसायों का एक महत्वपूर्ण हिस्सा है क्योंकि यह राजस्व बढ़ाने के साथ-साथ उन्हें एक दूसरे से अलग करने में मदद करता है। बिग डेटा एनालिटिक्स पूर्वानुमानित विश्लेषण के माध्यम से व्यवसायों को अनुकूलित सुझाव और सिफारिशें प्रदान करता है।
यह ग्राहकों की प्राथमिकताओं और जरूरतों के आधार पर नए उत्पादों को लॉन्च करने में व्यवसायों की मदद करता है। इससे व्यवसायों को काफी अधिक कमाने में मदद मिलती है, लगभग 5-20% अधिक। बैंक ऑफ अमेरिका, लिंक्डइन, ट्विटर, वॉलमार्ट, फेसबुक आदि कंपनियां अपने राजस्व को बढ़ाने के लिए बिग डेटा एनालिसिस का उपयोग करती हैं।
Q # 16) बिग डेटा समाधान को तैनात करते समय, आपको किन चरणों का पालन करना चाहिए?
उत्तर: बिग डेटा समाधान को तैनात करते समय तीन चरणों का पालन किया जाना है:
- डेटा अंतर्ग्रहण- यह बिग डेटा समाधान को तैनात करने में पहला कदम है। यह SAP, MYSQL, Salesforce, लॉग फ़ाइलें, आंतरिक डेटाबेस, आदि जैसे विभिन्न स्रोतों से डेटा का निष्कर्षण है। डेटा अंतर्ग्रहण वास्तविक समय स्ट्रीमिंग या बैच नौकरियों के माध्यम से हो सकता है।
- आधार सामग्री भंडारण- डेटा के अंतर्ग्रहण के बाद, निकाले गए डेटा को कहीं संग्रहीत किया जाना चाहिए। इसे या तो HDFS या NoSQL डेटाबेस में संग्रहीत किया जाता है। HDFS यादृच्छिक पढ़ने या लिखने के लिए HBase के माध्यम से अनुक्रमिक पहुंच के लिए अच्छी तरह से काम करता है।
- डाटा प्रासेसिंग- बिग डेटा समाधान पर तैनाती के लिए यह तीसरा और समापन कदम है। भंडारण के बाद, डेटा को मुख्य रूपरेखा जैसे MapReduce या Pig के माध्यम से संसाधित किया जाता है।
Q # 17) एचडीएफएस में ब्लॉक और ब्लॉक स्कैनर क्या है?
उत्तर: एक ब्लॉक डेटा की न्यूनतम राशि है जिसे एचडीएफएस में लिखा या पढ़ा जा सकता है। 64MB एक ब्लॉक का डिफ़ॉल्ट आकार है।
ब्लॉक स्कैनर एक प्रोग्राम है जो किसी भी संभावित चेकसम त्रुटियों और डेटा भ्रष्टाचार के लिए सत्यापित करने के साथ-साथ समय-समय पर डेटाऑनोड पर ब्लॉक की संख्या को ट्रैक करता है।
Q # 18) यदि आपने कभी किसी को पेश किया है तो नई डेटा एनालिटिक्स एप्लिकेशन शुरू करते समय आपने किन चुनौतियों का सामना किया है?
उत्तर: यदि आपने कभी नया डेटा एनालिटिक्स पेश नहीं किया है, तो आप बस इतना कह सकते हैं। क्योंकि वे काफी महंगे हैं और इसलिए यह अक्सर ऐसा नहीं होता है कि कंपनियां ऐसा करती हैं। लेकिन अगर कोई कंपनी इसमें निवेश करने का फैसला करती है, तो यह एक बेहद महत्वाकांक्षी परियोजना हो सकती है। इन उपकरणों को स्थापित करने, कनेक्ट करने, उपयोग करने और बनाए रखने के लिए उच्च प्रशिक्षित कर्मचारियों की आवश्यकता होगी।
इसलिए, यदि आप कभी इस प्रक्रिया से गुज़रे हैं, तो उन्हें बताएं कि आपको किन बाधाओं का सामना करना पड़ा और आपने उन्हें कैसे काबू किया। यदि आप नहीं करते हैं, तो उन्हें विस्तार से बताएं कि आप इस प्रक्रिया के बारे में क्या जानते हैं। यह प्रश्न निर्धारित करता है कि क्या आपके पास नए डेटा एनालिटिक्स एप्लिकेशन की शुरूआत के दौरान आने वाली समस्याओं के माध्यम से बुनियादी जानकारी प्राप्त करना है।
नमूना उत्तर; “मैं अपनी पिछली कंपनी में नए डेटा एनालिटिक्स को पेश करने का हिस्सा रहा हूं। पूरी प्रक्रिया विस्तृत है और एक सुचारु रूप से संभव संक्रमण के लिए एक सुनियोजित प्रक्रिया की आवश्यकता है।
हालांकि, बेदाग योजना के साथ भी, हम हमेशा अप्रत्याशित परिस्थितियों और मुद्दों से नहीं बच सकते। ऐसा ही एक मुद्दा उपयोगकर्ता लाइसेंस के लिए एक अविश्वसनीय रूप से उच्च मांग था। यह खत्म हो गया और उससे आगे जो हमने उम्मीद की थी। अतिरिक्त लाइसेंस प्राप्त करने के लिए, कंपनी को वित्तीय संसाधनों को पुनः प्राप्त करना था।
इसके अलावा, प्रशिक्षण को इस तरह से नियोजित किया जाना चाहिए कि इससे वर्कफ़्लो में बाधा न आए। साथ ही, हमें उपयोगकर्ताओं की उच्च संख्या का समर्थन करने के लिए बुनियादी ढांचे का अनुकूलन करना था। ”
Q # 19) अगर HDN क्लस्टर में NameNode क्रैश होता है तो क्या होगा?
उत्तर: HDFS क्लस्टर में केवल एक NameNode है और यह DataNode के मेटाडेटा को बनाए रखता है। केवल एक NameNode होने से HDFS क्लस्टर्स को विफलता का एक ही बिंदु मिलता है।
इसलिए, यदि NameNode क्रैश हो जाता है, तो सिस्टम अनुपलब्ध हो सकता है। इसे रोकने के लिए, हम एक माध्यमिक NameNode निर्दिष्ट कर सकते हैं जो आवधिक चौकियों को HDFS फाइल सिस्टम में लेता है लेकिन यह NameNode का बैकअप नहीं है। लेकिन हम इसका उपयोग NameNode को पुनः बनाने और पुनः आरंभ करने के लिए कर सकते हैं।
Q # 20) Hadoop क्लस्टर में NAS और DAS के बीच अंतर।
उत्तर: NAS में, भंडारण और गणना की परतें अलग-अलग हैं, और फिर नेटवर्क पर विभिन्न सर्वरों के बीच भंडारण वितरित किया जाता है। DAS में रहते हुए, भंडारण आमतौर पर गणना नोड से जुड़ा होता है। Apache Hadoop एक विशिष्ट डेटा स्थान के पास प्रसंस्करण के सिद्धांत पर आधारित है।
इसलिए, भंडारण डिस्क को गणना के लिए स्थानीय होना चाहिए। DAS आपको Hadoop क्लस्टर पर प्रदर्शन प्राप्त करने में मदद करता है और इसका उपयोग कमोडिटी हार्डवेयर पर किया जा सकता है। सरल शब्दों में, यह अधिक लागत प्रभावी है। NAS भंडारण को लगभग 10 GbE के उच्च बैंडविड्थ के साथ पसंद किया जाता है।
Q # 21) क्या NoSQL डेटाबेस का निर्माण रिलेशनल डेटाबेस बनाने से बेहतर है?
(छवि स्रोत )
उत्तर: इस प्रश्न के उत्तर में, आपको दोनों डेटाबेस के बारे में अपने ज्ञान का प्रदर्शन करना होगा। इसके अलावा, आपको इस स्थिति का एक उदाहरण दिखाना होगा कि आप वास्तविक परियोजना में पता कैसे लगाते हैं या लागू करेंगे।
आपका उत्तर कुछ इस तरह हो सकता है “कुछ स्थितियों में, NoSQL डेटाबेस का निर्माण करना फायदेमंद हो सकता है। मेरी आखिरी कंपनी में जब मताधिकार प्रणाली तेजी से आकार में बढ़ रही थी, तो हमें अपने सभी परिचालन और बिक्री डेटा का अधिकतम लाभ उठाने के लिए जल्दी से बड़े पैमाने पर करना पड़ा।
बढ़े हुए डेटा प्रोसेसिंग लोड को हैंडल करते समय बड़े सर्वर के साथ स्केलिंग करने से बेहतर है। यह NoSQL डेटाबेस के साथ पूरा करने के लिए लागत प्रभावी और आसान है क्योंकि यह बड़ी मात्रा में डेटा से आसानी से निपट सकता है। यह तब काम आता है जब आपको भविष्य में डेटा लोड शिफ्ट में तेजी से प्रतिक्रिया देने की आवश्यकता होती है।
हालांकि रिलेशनल डेटाबेस किसी भी एनालिटिक्स टूल से बेहतर कनेक्टिविटी के साथ आते हैं। लेकिन NoSQL डेटाबेस में बहुत कुछ है। '
क्यू # 22) जब आप डेटा रखरखाव के साथ एक अप्रत्याशित समस्या का सामना करते हैं तो आप क्या करते हैं? क्या आपने इसके लिए कोई समाधान निकाला है?
उत्तर: अनिवार्य रूप से, हर नियमित कार्य में कुछ समय के लिए एक बार अप्रत्याशित मुद्दे उत्पन्न होते हैं, यहां तक कि डेटा रखरखाव के दौरान भी। इस सवाल का उद्देश्य यह जानना है कि क्या आप उच्च दबाव वाली स्थितियों और कैसे निपट सकते हैं।
आप कुछ कह सकते हैं जैसे 'डेटा रखरखाव एक नियमित कार्य हो सकता है, लेकिन स्क्रिप्ट के सफल निष्पादन को सुनिश्चित करने सहित विशिष्ट कार्यों को बारीकी से देखना महत्वपूर्ण है।
एक बार अखंडता की जांच करते समय, मैं एक भ्रष्ट सूचकांक में आया था जो भविष्य में गंभीर मुद्दों का कारण बन सकता था। यही कारण है कि मैं कंपनी के डेटाबेस में भ्रष्ट अनुक्रमित को रोकने के लिए एक नए रखरखाव कार्य के साथ आया था। '
Q # 23) क्या आपने कभी अपने क्षेत्र में किसी को प्रशिक्षित किया है? यदि हाँ, तो आपने इसके बारे में सबसे अधिक चुनौतीपूर्ण क्या पाया है?
उत्तर: आमतौर पर डेटा इंजीनियरों को अपने सहकर्मियों को नए सिस्टम या प्रक्रियाओं पर प्रशिक्षित करने की आवश्यकता होती है जो आपने पहले से ही मौजूदा सिस्टम और आर्किटेक्चर पर नए कर्मचारियों को बनाया या प्रशिक्षित किया है। इसलिए, इस प्रश्न के साथ, आपका साक्षात्कारकर्ता जानना चाहता है कि क्या आप इसे संभाल सकते हैं। यदि आपके पास किसी को प्रशिक्षित करने का मौका नहीं है, तो उन चुनौतियों के बारे में बात करें, जिन्होंने प्रशिक्षण दिया है या आप जानते हैं कि आपने सामना किया है।
आदर्श उत्तर का एक नमूना कुछ इस तरह होगा। “हाँ, मुझे सहकर्मियों के छोटे और बड़े दोनों समूहों को प्रशिक्षित करने का मौका मिला है। नए कर्मचारियों को किसी अन्य कंपनी में महत्वपूर्ण अनुभव के साथ प्रशिक्षित करना सबसे चुनौतीपूर्ण कार्य है जो मैं भर में आया हूं। वे अक्सर एक अलग दृष्टिकोण से डेटा का उपयोग करने के लिए उपयोग किया जाता है कि वे चीजों को करने के तरीके को स्वीकार करने के लिए संघर्ष करते हैं।
अक्सर, वे बेहद मतलबी होते हैं और सोचते हैं कि उन्हें सब कुछ सही पता है और इसीलिए उन्हें यह महसूस करने में बहुत समय लगता है कि किसी समस्या का एक से अधिक समाधान हो सकता है। मैं अपने दिमाग को खोलने के लिए उन्हें प्रोत्साहित करने की कोशिश करता हूं और हमारी वास्तुकला और प्रक्रियाओं को कितना सफल रहा है, इस पर जोर देकर वैकल्पिक संभावनाओं को स्वीकार करता हूं। ”
Q # 24) क्लाउड कंप्यूटिंग में काम करने के नियम और विपक्ष क्या हैं?
(छवि स्रोत )
उत्तर:
पेशेवरों:
- कोई बुनियादी ढांचा लागत नहीं।
- न्यूनतम प्रबंधन।
- प्रबंधन और प्रशासन को लेकर कोई परेशानी नहीं।
- उपयोग में आसान।
- जो आप उपयोग करते हैं उसके लिए भुगतान करें।
- यह विश्वसनीय है।
- यह डेटा कंट्रोल, बैकअप और रिकवरी प्रदान करता है।
- विशाल भंडारण।
विपक्ष:
- यह अच्छी तरह से कार्य करने के लिए समान रूप से अच्छा बैंडविड्थ के साथ एक अच्छा इंटरनेट कनेक्शन की आवश्यकता है।
- इसका डाउनटाइम है।
- बुनियादी ढांचे पर आपका नियंत्रण सीमित होगा।
- थोड़ा लचीलापन है।
- इसकी कुछ निश्चित लागतें हैं।
- सुरक्षा और तकनीकी मुद्दे हो सकते हैं।
Q # 25) डेटा इंजीनियरों का काम आमतौर पर 'बैकस्टेज' होता है। क्या आप 'स्पॉटलाइट' से दूर काम करने में सहज हैं?
उत्तर: आपका हायरिंग मैनेजर यह जानना चाहता है कि क्या आप लाइमलाइट से प्यार करते हैं या आप दोनों स्थितियों में अच्छा काम कर सकते हैं। आपका जवाब उन्हें बताना चाहिए कि यद्यपि आप लाइमलाइट पसंद करते हैं, आप पृष्ठभूमि में भी काम करने में सहज हैं।
'मेरे लिए क्या मायने रखता है कि मैं अपने क्षेत्र का विशेषज्ञ हो और अपनी कंपनी के विकास में योगदान दूं।' अगर मुझे स्पॉटलाइट में काम करना है, तो मैं ऐसा करने में सहज हूं। अगर ऐसा कोई मुद्दा है जिसे अधिकारियों को संबोधित करने की आवश्यकता है, तो मैं अपनी आवाज उठाने और इसे उनके ध्यान में लाने में संकोच नहीं करूंगा। '
Q # 26) क्या होता है जब ब्लॉक स्कैनर एक भ्रष्ट डेटा ब्लॉक का पता लगाता है?
उत्तर: सबसे पहले DataNode NameNode को रिपोर्ट करता है। फिर NameNode भ्रष्ट ब्लॉक की प्रतिकृति के माध्यम से एक नई प्रतिकृति बनाना शुरू करता है। यदि सही प्रतिकृति की प्रतिकृति गणना कारक से मेल खाती है, तो दूषित डेटा ब्लॉक हटाया नहीं जाएगा।
Q # 27) क्या आपने कभी पहले से मौजूद डेटा के लिए एक नया अभिनव उपयोग पाया है? क्या इससे कंपनी पर सकारात्मक असर पड़ा?
उत्तर: यह सवाल उनके लिए यह पता लगाने के लिए है कि क्या आप स्वयं प्रेरित हैं और परियोजनाओं की सफलता में योगदान करने के लिए पर्याप्त उत्सुक हैं। यदि संभव हो, तो एक उदाहरण के साथ प्रश्न का उत्तर दें जहां आपने एक परियोजना का प्रभार लिया था या एक विचार के साथ आया था। और यदि आपने कभी किसी समस्या का उपन्यास समाधान प्रस्तुत किया है, तो उसे याद न करें।
उदाहरण उत्तर: “मेरी पिछली नौकरी में, मैंने यह पता लगाने में भाग लिया कि हमारे पास एक उच्च कर्मचारी टर्नओवर दर क्यों है। मैंने विभिन्न विभागों से डेटा का बारीकी से अवलोकन किया, जहां मुझे वित्त, विपणन, संचालन आदि जैसे प्रमुख क्षेत्रों में अत्यधिक सहसंबद्ध डेटा मिला और कर्मचारी कारोबार की दर।
उन सहसंबंधों की बेहतर समझ के लिए विभाग के विश्लेषकों के साथ सहयोग किया। हमारी समझ से, हमने कुछ रणनीतिक बदलाव किए जो कर्मचारी कारोबार दर को सकारात्मक रूप से प्रभावित करते हैं। ”
Q # 28) क्या आपको लगता है कि गैर-तकनीकी कौशल एक डेटा इंजीनियर के रूप में सबसे अधिक उपयोगी है?
उत्तर: संचार या पारस्परिक कौशल जैसे सबसे स्पष्ट उत्तरों से बचने की कोशिश करें। आप कह सकते हैं, “मेरी नौकरी में प्राथमिकता और मल्टीटास्किंग बहुत काम आई है। हमें एक दिन में विभिन्न कार्य मिलते हैं क्योंकि हम विभिन्न विभागों के साथ काम करते हैं। और इसलिए, यह महत्वपूर्ण हो जाता है कि हम उन्हें प्राथमिकता दें। यह हमारे काम को आसान बनाता है और इन सभी को कुशलतापूर्वक पूरा करने में हमारी मदद करता है। ”
Q # 29) डेटा इंजीनियर के रूप में आपके सामने कुछ सामान्य समस्याएं हैं?
उत्तर: ये हैं:
- सतत और वास्तविक समय का एकीकरण।
- उन डेटा से भारी मात्रा में डेटा और जानकारी संग्रहीत करना।
- संसाधनों की कमी।
- यह देखते हुए कि कौन से उपकरण का उपयोग करना है और कौन से सर्वोत्तम परिणाम प्रदान कर सकते हैं।
निष्कर्ष
डेटा इंजीनियरिंग एक नियमित उबाऊ काम की तरह लग सकता है लेकिन इसके कई दिलचस्प पहलू हैं। यह संभव परिदृश्य से स्पष्ट है जो साक्षात्कारकर्ता पूछ सकते हैं। आपको न केवल तकनीकी किताबी सवालों के जवाब देने के लिए तैयार रहना चाहिए, बल्कि ऊपर सूचीबद्ध लोगों की तरह स्थितिजन्य सवालों का भी जवाब देना चाहिए। तभी आप यह साबित कर पाएंगे कि आप अपना काम अच्छे से कर सकते हैं और इसके लायक हैं।
शुभकामनाएं!!
अनुशंसित पाठ
- साक्षात्कार प्रश्न और उत्तर
- ईटीएल परीक्षण साक्षात्कार प्रश्न और उत्तर
- शीर्ष 32 सर्वश्रेष्ठ डेटास्टेट साक्षात्कार प्रश्न और उत्तर
- शीर्ष JSON साक्षात्कार प्रश्न और उत्तर
- टॉप टेराडाटा साक्षात्कार प्रश्न और उत्तर
- विस्तृत जवाब के साथ शीर्ष 24 डेटा मॉडलिंग साक्षात्कार प्रश्न
- शीर्ष 50+ डेटाबेस साक्षात्कार प्रश्न और उत्तर
- शीर्ष 30 SAS साक्षात्कार प्रश्न और उत्तर