data mining process
यह गहराई से डेटा माइनिंग ट्यूटोरियल बताता है कि डेटा माइनिंग क्या है, जिसमें डेटा विश्लेषण के लिए उपयोग की जाने वाली प्रक्रियाएं और तकनीकें शामिल हैं:
आइए चट्टानों से सोने के खनन का उदाहरण लेकर खनन शब्द का अर्थ समझें, जिसे सोने का खनन कहा जाता है। यहां उपयोगी चीज 'गोल्ड' है, इसलिए इसे सोने का खनन कहा जाता है।
इसी तरह से डेटा की एक बड़ी मात्रा से उपयोगी जानकारी को ज्ञान खनन के रूप में जाना जाता है, और लोकप्रिय रूप से डेटा खनन के रूप में जाना जाता है। उपयोगी जानकारी शब्द द्वारा, हम डेटा को निरूपित करते हैं जो आउटपुट का अनुमान लगाने में हमारी मदद कर सकता है।
उदाहरण के लिए किसी विशेष आयु समूह द्वारा किसी विशेष चीज (जैसे लोहा) की खरीद के रुझान का पता लगाना ( उदाहरण: 40-70 वर्ष)।
=>नीचे स्क्रॉल करेंशुरुआती के लिए 7 इन-डेप्थ डेटा माइनिंग ट्यूटोरियल की पूरी सूची देखने के लिए
आप क्या सीखेंगे:
यदि वेबसाइट पर ट्रैफ़िक हल्का है, तो परीक्षण दृष्टिकोण सबसे अच्छा काम करेगा
- डेटा माइनिंग ट्यूटोरियल की सूची
- इस डेटा खनन श्रृंखला में ट्यूटोरियल का अवलोकन
- डाटा माइनिंग क्या है?
- किस प्रकार के डेटा को कम किया जा सकता है?
- डेटा माइनिंग में क्या तकनीक का उपयोग किया जाता है?
- डेटा विश्लेषण में प्रमुख मुद्दे
- निष्कर्ष
डेटा माइनिंग ट्यूटोरियल की सूची
ट्यूटोरियल # 1: डेटा माइनिंग: प्रक्रिया, तकनीक और डेटा विश्लेषण में प्रमुख मुद्दे (यह ट्यूटोरियल)
ट्यूटोरियल # 2: डेटा माइनिंग तकनीक: एल्गोरिथम, तरीके और शीर्ष डेटा खनन उपकरण
ट्यूटोरियल # 3: डाटा माइनिंग प्रोसेस: मॉडल, प्रोसेस स्टेप्स और चुनौतियां शामिल हैं
ट्यूटोरियल # 4: डेटा माइनिंग उदाहरण: डेटा माइनिंग 2019 के अधिकांश सामान्य अनुप्रयोग
ट्यूटोरियल # 5: डेटा खनन में निर्णय ट्री एल्गोरिथ्म उदाहरण
ट्यूटोरियल # 6: Apriori एल्गोरिथम डेटा माइनिंग में: उदाहरणों के साथ कार्यान्वयन
ट्यूटोरियल # 7: डाटा माइनिंग में बार-बार पैटर्न (एफपी) ग्रोथ एलगोरिदम
इस डेटा खनन श्रृंखला में ट्यूटोरियल का अवलोकन
ट्यूटोरियल # | आप क्या सीखेंगे |
---|---|
ट्यूटोरियल_ # 7: | डाटा माइनिंग में बार-बार पैटर्न (एफपी) ग्रोथ एलगोरिदम यह फ़्रीक्वेंट पैटर्न ग्रोथ एलगोरिदम पर एक विस्तृत ट्यूटोरियल है जो एक FP ट्री के रूप में डेटाबेस का प्रतिनिधित्व करता है। एफपी ग्रोथ बनाम एप्रीओरी तुलना भी यहां बताई गई है। |
ट्यूटोरियल_ # 1: | डेटा माइनिंग: डेटा एनालिसिस में प्रक्रिया, तकनीक और प्रमुख मुद्दे यह गहराई से डेटा माइनिंग ट्यूटोरियल बताता है कि डेटा माइनिंग क्या है, जिसमें डेटा विश्लेषण के लिए उपयोग की जाने वाली प्रक्रियाएं और तकनीकें शामिल हैं। |
ट्यूटोरियल_ # 2: | डेटा माइनिंग तकनीक: एल्गोरिथम, तरीके और शीर्ष डेटा खनन उपकरण डेटा माइनिंग तकनीक पर यह ट्यूटोरियल उपयोगी डेटा निकालने के लिए एल्गोरिदम, डेटा खनन उपकरण और तरीके बताता है। |
ट्यूटोरियल_ # 3: | डाटा माइनिंग प्रोसेस: मॉडल, प्रोसेस स्टेप्स और चुनौतियां शामिल हैं डेटा माइनिंग प्रोसेस पर यह ट्यूटोरियल डेटा एक्सट्रैक्शन प्रोसेस में शामिल डाटा माइनिंग मॉडल, स्टेप्स और चुनौतियाँ शामिल करता है। |
ट्यूटोरियल_ # 4: | डेटा माइनिंग उदाहरण: डेटा माइनिंग 2019 के अधिकांश सामान्य अनुप्रयोग रियल लाइफ में अधिकांश लोकप्रिय डेटा माइनिंग उदाहरण इस ट्यूटोरियल में शामिल किए गए हैं। आपको फाइनेंस, मार्केटिंग, हेल्थकेयर और सीआरएम में डेटा माइनिंग एप्लीकेशन के बारे में अधिक जानकारी प्राप्त होगी। |
ट्यूटोरियल_ # 5: | डेटा खनन में निर्णय ट्री एल्गोरिथ्म उदाहरण यह इन-डीप ट्यूटोरियल डेटा माइनिंग में डिसीज़न ट्री एल्गोरिथम के बारे में बताता है। आप निर्णय ट्री उदाहरणों के बारे में जानेंगे, एल्गोरिथम और वर्गीकरण। |
ट्यूटोरियल_ # 6: | Apriori एल्गोरिथम डेटा माइनिंग में: उदाहरणों के साथ कार्यान्वयन यह डाटा माइनिंग में फ़्रीक्वेंट आइटम्स का पता लगाने के लिए अप्रीरी एलगोरिदम पर एक सरल ट्यूटोरियल है। आपको अप्रीरी में स्टेप्स जानने और समझने का तरीका भी काम आएगा। |
डाटा माइनिंग क्या है?
डेटा माइनिंग आज बड़ी मांग में है क्योंकि यह व्यवसायों को यह अध्ययन करने में मदद करता है कि उनके उत्पादों की बिक्री कैसे बढ़ सकती है। हम इसे एक फैशन स्टोर के उदाहरण से समझ सकते हैं, जो अपने प्रत्येक ग्राहक को पंजीकृत करेगा जो अपने स्टोर से एक आइटम खरीदता है।
ग्राहक द्वारा दिए गए डेटा जैसे कि उम्र, लिंग, आय समूह, पेशे इत्यादि के आधार पर, स्टोर यह पता लगाने में सक्षम होगा कि किस प्रकार के ग्राहक विभिन्न उत्पाद खरीदते हैं। यहां, हम देख सकते हैं कि ग्राहक के नाम का कोई फायदा नहीं है क्योंकि हम नाम से खरीद की प्रवृत्ति का अनुमान नहीं लगा सकते हैं कि क्या वह व्यक्ति एक निश्चित उत्पाद खरीदेगा या नहीं।
इस प्रकार आयु, लिंग, आय समूह, पेशे, आदि का उपयोग करके उपयोगी जानकारी प्राप्त की जा सकती है। डेटा में ज्ञान या दिलचस्प पैटर्न की खोज करना 'डेटा माइनिंग' है। अन्य शर्तें जिनका उपयोग किया जा सकता है वे हैं डेटा से नॉलेज माइनिंग, नॉलेज एक्सट्रैक्शन, डेटा एनालिसिस, पैटर्न एनालिसिस आदि।
एक अन्य शब्द जो लोकप्रिय रूप से डेटा माइनिंग में उपयोग किया जाता है वह है डेटा या केडीडी से नॉलेज डिस्कवरी।
डेटा विश्लेषण प्रक्रिया
ज्ञान खोज प्रक्रिया निम्नलिखित चरणों का एक क्रम है:
- डेटा सफाई: यह चरण इनपुट डेटा से शोर और असंगत डेटा को निकालता है।
- डेटा एकीकरण: यह चरण डेटा के कई स्रोतों को जोड़ता है। डेटा की सफाई और डेटा एकीकरण डेटा के प्रीप्रोसेसिंग के रूप में एक साथ बढ़ते हैं। प्रीप्रोसेस किया गया डेटा तब डेटा वेयरहाउस में संग्रहीत किया जाता है।
- डेटा चयन: ये चरण डेटाबेस से विश्लेषण कार्य के लिए डेटा का चयन करते हैं।
- डेटा परिवर्तन: इस चरण में, डेटा को खनन के लिए उपयोगी रूप में बदलने के लिए विभिन्न डेटा एकत्रीकरण और डेटा सारांश तकनीकों को लागू किया जाता है।
- डेटा खनन: इस चरण में, बुद्धिमान तरीके लागू करके डेटा पैटर्न निकाले जाते हैं।
- पैटर्न का मूल्यांकन: निकाले गए डेटा पैटर्न का मूल्यांकन और दिलचस्पता उपायों के अनुसार मान्यता प्राप्त है।
- ज्ञान निरूपण: विज़ुअलाइज़ेशन और ज्ञान प्रतिनिधित्व तकनीकों का उपयोग उपयोगकर्ताओं को खनन ज्ञान प्रस्तुत करने के लिए किया जाता है।
चरण 1 से 4 डेटा प्रीप्रोसेसिंग चरण के तहत आते हैं। यहां, डेटा खनन को एक एकल चरण के रूप में दर्शाया गया है, लेकिन यह संपूर्ण ज्ञान खोज प्रक्रिया को संदर्भित करता है।
इस प्रकार, हम कह सकते हैं, कि डेटा विश्लेषण बड़ी मात्रा में डेटा से दिलचस्प पैटर्न और ज्ञान की खोज करने की प्रक्रिया है। डेटा स्रोतों में डेटाबेस, डेटा वेयरहाउस, वर्ल्ड वाइड वेब, फ्लैट फाइलें और अन्य जानकारीपूर्ण फाइलें शामिल हो सकती हैं।
किस प्रकार के डेटा को कम किया जा सकता है?
खनन के लिए डेटा के सबसे बुनियादी रूप डेटाबेस डेटा, डेटा वेयरहाउस डेटा और लेनदेन डेटा हैं। डेटा माइनिंग तकनीकों को डेटा धाराओं, अनुक्रमित डेटा, पाठ डेटा और स्थानिक डेटा जैसे अन्य रूपों पर भी लागू किया जा सकता है।
# 1) डेटाबेस डेटा: डेटाबेस प्रबंधन प्रणाली अंतरसंबंधित डेटा का एक सेट है और डेटा को प्रबंधित और एक्सेस करने के लिए सॉफ़्टवेयर प्रोग्राम का एक सेट है। रिलेशनल डेटाबेस सिस्टम तालिकाओं का एक संग्रह है और प्रत्येक तालिका में विशेषताओं और टुपल्स का एक सेट होता है।
रिलेशनल डेटाबेस का खनन रुझानों और डेटा पैटर्न की खोज करता है उदाहरण के लिए: । उम्र, आय और पिछले क्रेडिट जोखिम के आधार पर ग्राहकों का क्रेडिट जोखिम। इसके अलावा, खनन उम्मीद से विचलन का पता लगा सकता है जैसे किसी वस्तु की कीमत में उल्लेखनीय वृद्धि।
# 2) डेटा वेयरहाउस डेटा: एक डेटा वेयरहाउस कई डेटा स्रोतों से एकत्र की गई जानकारी का एक संग्रह है, जिसे एक ही समय पर एकीकृत स्कीमा के तहत संग्रहीत किया जाता है। डीडब्ल्यू को एक बहुआयामी डेटा संरचना के रूप में तैयार किया जाता है जिसे डेटा क्यूब कहा जाता है जिसमें सेल और आयाम होते हैं जो डेटा को प्री-कॉम्पीटेशन और तेज़ एक्सेस प्रदान करते हैं।
डेटा खनन को अलग-अलग स्तरों पर आयामों को जोड़कर एक OLAP शैली में किया जाता है।
# 3) लेनदेन डेटा: लेन-देन डेटा एक लेन-देन कैप्चर करता है। इसमें लेनदेन आईडी और लेनदेन में उपयोग की जाने वाली वस्तुओं की सूची है।
# 4) अन्य प्रकार के डेटा: अन्य डेटा में शामिल हो सकते हैं: समय से संबंधित डेटा, स्थानिक डेटा, हाइपरटेक्स्ट डेटा और मल्टीमीडिया डेटा।
डेटा माइनिंग में क्या तकनीक का उपयोग किया जाता है?
डाटा माइनिंग एक अत्यधिक अनुप्रयोग संचालित डोमेन है। कई तकनीकें जैसे आंकड़े, मशीन लर्निंग, पैटर्न मान्यता, सूचना पुनर्प्राप्ति, विज़ुअलाइज़ेशन, आदि, डेटा विश्लेषण विधियों के विकास को प्रभावित करते हैं।
उनमे से कुछ की चर्चा यहाँ करते हैं !!
आंकड़े
सांख्यिकीय मॉडल का उपयोग करके डेटा के संग्रह, विश्लेषण, व्याख्या और प्रस्तुति का अध्ययन किया जा सकता है। उदाहरण के लिए , आंकड़ों का उपयोग शोर और लापता डेटा को मॉडल करने के लिए किया जा सकता है, और फिर इस मॉडल का उपयोग डेटा में शोर और लापता मूल्यों की पहचान करने के लिए बड़े डेटा सेट में किया जा सकता है।
मशीन लर्निंग
एमएल का उपयोग डेटा के आधार पर प्रदर्शन को बेहतर बनाने के लिए किया जाता है। मुख्य अनुसंधान क्षेत्र कंप्यूटर कार्यक्रमों के लिए जटिल पैटर्न को पहचानने और डेटा के आधार पर बुद्धिमान निर्णय लेने के लिए स्वचालित रूप से सीखने के लिए है।
मशीन लर्निंग सटीकता और डेटा खनन पर केंद्रित है और बड़े डेटा सेट, जटिल डेटा, आदि पर खनन विधियों की दक्षता और मापनीयता पर केंद्रित है।
मशीन लर्निंग तीन प्रकार की होती है:
- पर्यवेक्षित अध्ययन: लक्ष्य डेटा सेट ज्ञात है और मशीन को लक्ष्य मानों के अनुसार प्रशिक्षित किया जाता है।
- अप्रशिक्षित शिक्षण: लक्ष्य मान ज्ञात नहीं हैं और मशीनें स्वयं सीखती हैं।
- अर्ध-पर्यवेक्षित अधिगम: यह पर्यवेक्षित और अनुपयोगी शिक्षा दोनों की तकनीकों का उपयोग करता है।
सूचना पुनर्प्राप्ति (आईआर)
यह दस्तावेजों में दस्तावेजों या सूचनाओं की खोज करने का विज्ञान है।
यह दो सिद्धांतों का उपयोग करता है:
- खोजा जाने वाला डेटा असंरचित है।
- क्वेरीज़ मुख्य रूप से कीवर्ड द्वारा बनाई जाती हैं।
डेटा विश्लेषण और आईआर का उपयोग करके, हम दस्तावेजों के संग्रह में प्रमुख विषयों और प्रत्येक दस्तावेज़ में शामिल प्रमुख विषयों को पा सकते हैं।
डेटा विश्लेषण में प्रमुख मुद्दे
डेटा माइनिंग में इससे संबंधित कई समस्याएं हैं जो नीचे वर्णित हैं:
खनन पद्धति
- जैसे-जैसे विविध अनुप्रयोग होते हैं, नए खनन कार्य सामने आते रहते हैं। ये कार्य अलग-अलग तरीकों से एक ही डेटाबेस का उपयोग कर सकते हैं और नई डेटा माइनिंग तकनीकों के विकास की आवश्यकता होती है।
- बड़े डेटासेट में ज्ञान की खोज करते समय, हमें बहुआयामी स्थान का पता लगाने की आवश्यकता है। दिलचस्प पैटर्न खोजने के लिए, आयामों के विभिन्न संयोजनों को लागू करने की आवश्यकता है।
- अनिश्चित, शोर और अधूरा डेटा कभी-कभी गलत तरीके से व्युत्पन्न हो सकता है।
उपयोगकर्ता संपर्क
- डेटा विश्लेषण प्रक्रिया अत्यधिक इंटरैक्टिव होनी चाहिए। उपयोगकर्ता की इंटरैक्टिव होने के लिए खनन प्रक्रिया को सुविधाजनक बनाने के लिए यह महत्वपूर्ण है।
- डोमेन ज्ञान, पृष्ठभूमि ज्ञान, बाधाएं, आदि सभी को डेटा खनन प्रक्रिया में शामिल किया जाना चाहिए।
- डेटा खनन करके खोजा गया ज्ञान मनुष्यों के लिए उपयोग करने योग्य होना चाहिए। प्रणाली को ज्ञान, उपयोगकर्ता के अनुकूल विज़ुअलाइज़ेशन तकनीकों, आदि का एक अभिव्यंजक प्रतिनिधित्व करना चाहिए।
दक्षता और स्केलेबिलिटी
- डेटा रिपॉजिटरी में डेटा की एक बड़ी मात्रा से दिलचस्प डेटा निकालने के लिए डेटा माइनिंग एल्गोरिदम कुशल और स्केलेबल होना चाहिए।
- डेटा का व्यापक वितरण, कम्प्यूटेशन में जटिलता समानांतर और वितरित डेटा-गहन एल्गोरिदम के विकास को प्रेरित करती है।
डेटाबेस प्रकार की विविधता
- विविध अनुप्रयोगों के लिए प्रभावी और कुशल डेटा विश्लेषण उपकरणों का निर्माण, असंरचित डेटा से डेटा प्रकारों का व्यापक स्पेक्ट्रम, टेम्पोरल डेटा, हाइपरटेक्स्ट, मल्टीमीडिया डेटा, और सॉफ्टवेयर प्रोग्राम कोड अनुसंधान का एक चुनौतीपूर्ण और सक्रिय क्षेत्र बना हुआ है।
सामाजिक प्रभाव
- डेटा का उपयोग करने का खुलासा और व्यक्तिगत गोपनीयता और अधिकारों के संरक्षण के संभावित उल्लंघन चिंता के क्षेत्र हैं जिन्हें संबोधित करने की आवश्यकता है।
निष्कर्ष
डेटा माइनिंग बड़ी मात्रा में डेटा के निर्णय और विश्लेषण में मदद करता है। आजकल यह सबसे आम व्यापार तकनीक है। यह डेटा के स्वचालित विश्लेषण की अनुमति देता है और लोकप्रिय रुझानों और व्यवहार की पहचान करता है।
बाइनरी ट्री क्लास सी ++
उन्नत डेटा विश्लेषण और व्यवहार अध्ययन के लिए डेटा विश्लेषण को मशीन लर्निंग, सांख्यिकी, कृत्रिम बुद्धिमत्ता आदि के साथ जोड़ा जा सकता है।
डेटा माइनिंग को विभिन्न कारकों को ध्यान में रखते हुए लागू किया जाना चाहिए, जैसे डेटाबेस से जानकारी और पैटर्न निकालने की लागत (जटिल एल्गोरिदम जिन्हें विशेषज्ञ संसाधनों को लागू करने की आवश्यकता है), सूचना का प्रकार (ऐतिहासिक डेटा के रूप में समान नहीं हो सकता है कि यह क्या है वर्तमान में, इसलिए विश्लेषण उपयोगी नहीं होगा)।
हम इस ट्यूटोरियल की उम्मीद करते हैं डेटा माइनिंग की अवधारणा के अपने ज्ञान को समृद्ध किया !!
अनुशंसित पाठ
- संपूर्ण डेटा प्रबंधन के लिए 10 सर्वश्रेष्ठ डेटा विश्लेषण उपकरण (2021 सूची)
- डाटा माइनिंग बनाम मशीन लर्निंग बनाम आर्टिफिशियल इंटेलिजेंस बनाम डीप लर्निंग
- ETL प्रक्रिया में उपयोगी 10 सर्वश्रेष्ठ डेटा मानचित्रण उपकरण (2021 सूची)
- टेस्ट डेटा क्या है? उदाहरण के साथ टेस्ट डेटा तैयारी तकनीक
- JMeter डेटा परिशोधन उपयोगकर्ता परिभाषित चर का उपयोग कर
- शीर्ष 15 सर्वश्रेष्ठ मुफ्त डेटा खनन उपकरण: सबसे व्यापक सूची
- डेटा इकट्ठा करने की रणनीतियों के साथ 10+ सर्वश्रेष्ठ डेटा संग्रह उपकरण
- टेस्ट डेटा प्रबंधन के लिए आईबीएम तर्कसंगत गुणवत्ता प्रबंधक में डेटा पूल फ़ीचर