decision tree algorithm examples data mining
यह इन-डेप्थ ट्यूटोरियल डेटा माइनिंग में निर्णय ट्री एल्गोरिथम के बारे में बताता है। आप निर्णय ट्री उदाहरण, एल्गोरिथम और वर्गीकरण के बारे में जानेंगे:
हम पर एक जोड़ी की नजर थी डाटा माइनिंग उदाहरण हमारे पिछले ट्यूटोरियल में मुफ्त डेटा खनन प्रशिक्षण श्रृंखला ।
डिसीजन ट्री माइनिंग एक प्रकार की डेटा माइनिंग तकनीक है जिसका उपयोग क्लासिफिकेशन मॉडल बनाने में किया जाता है। यह अपने नाम की तरह ही पेड़ जैसी संरचना के रूप में वर्गीकरण मॉडल बनाता है। इस प्रकार का खनन पर्यवेक्षित वर्ग अधिगम से संबंधित है।
पर्यवेक्षित शिक्षण में, लक्ष्य परिणाम पहले से ही ज्ञात है। निर्णय पेड़ों का उपयोग श्रेणीबद्ध और संख्यात्मक डेटा दोनों के लिए किया जा सकता है। श्रेणीबद्ध डेटा लिंग, वैवाहिक स्थिति आदि का प्रतिनिधित्व करते हैं, जबकि संख्यात्मक डेटा उम्र, तापमान आदि का प्रतिनिधित्व करते हैं।
फर्जी ईमेल अकाउंट कैसे बनाते है
डेटासेट के साथ निर्णय वृक्ष का एक उदाहरण नीचे दिखाया गया है।
[छवि स्रोत ]
आप क्या सीखेंगे:
- निर्णय वृक्ष का उपयोग क्या है?
- वर्गीकरण विश्लेषण
- प्रतिगमन विश्लेषण
- एक निर्णय वृक्ष कैसे काम करता है?
- निर्णय ट्री इंडक्शन एल्गोरिथम
- निर्णय ट्री इंडक्शन
- कार्ट
- मशीन लर्निंग के लिए निर्णय ट्री इंडक्शन: ID3
- लालची पुनरावर्ती बाइनरी विभाजन क्या है?
- एक पेड़ बनाने के लिए विशेषताओं का चयन कैसे करें?
- निर्णय पेड़ों में ओवरफिटिंग
- ट्री प्रूनिंग क्या है?
- भविष्य कहनेवाला मॉडलिंग क्या है?
- निर्णय ट्री वर्गीकरण के लाभ
- निर्णय वृक्ष वर्गीकरण के नुकसान
- निष्कर्ष
- अनुशंसित पाठ
निर्णय वृक्ष का उपयोग क्या है?
डिसीजन ट्री का उपयोग वर्गीकरण और प्रतिगमन मॉडल बनाने के लिए किया जाता है। इसका उपयोग डेटा मॉडल बनाने के लिए किया जाता है जो निर्णय लेने की प्रक्रिया के लिए वर्ग लेबल या मूल्यों की भविष्यवाणी करेगा। मॉडल सिस्टम (फीडेड लर्निंग) को खिलाए गए प्रशिक्षण डेटासेट से निर्मित होते हैं।
निर्णय वृक्ष का उपयोग करके, हम उन निर्णयों की कल्पना कर सकते हैं जो समझने में आसान बनाते हैं और इस प्रकार यह एक लोकप्रिय डेटा खनन तकनीक है।
वर्गीकरण विश्लेषण
डेटा वर्गीकरण विश्लेषण का एक रूप है जो एक मॉडल बनाता है जो महत्वपूर्ण वर्ग चर का वर्णन करता है।उदाहरण के लिए, सुरक्षित या जोखिम भरा के रूप में बैंक ऋण अनुप्रयोगों को वर्गीकृत करने के लिए बनाया गया एक मॉडल। वर्गीकरण विधियों का उपयोग मशीन लर्निंग, और पैटर्न मान्यता में किया जाता है।
वर्गीकरण के आवेदन में धोखाधड़ी का पता लगाना, चिकित्सा निदान, लक्ष्य विपणन आदि शामिल हैं। वर्गीकरण समस्या का आउटपुट टर्मिनल नोड के सभी मनाया मूल्यों के 'मोड' के रूप में लिया जाता है।
वर्गीकरण मॉडल बनाने के लिए एक दो-चरण प्रक्रिया का पालन किया जाता है।
- पहले चरण में यानी सीखना: प्रशिक्षण डेटा पर आधारित एक वर्गीकरण मॉडल बनाया गया है।
- दूसरे चरण यानी वर्गीकरण में, मॉडल की सटीकता की जाँच की जाती है और फिर मॉडल का उपयोग नए डेटा को वर्गीकृत करने के लिए किया जाता है। यहाँ प्रस्तुत वर्ग लेबल 'हाँ' या 'नहीं', 'सुरक्षित' या 'जोखिम भरा' जैसे असतत मूल्यों के रूप में हैं।
वर्गीकरण मॉडल के निर्माण के लिए सामान्य दृष्टिकोण नीचे दिया गया है:
[छवि स्रोत ]
प्रतिगमन विश्लेषण
प्रतिगमन विश्लेषण का उपयोग संख्यात्मक विशेषताओं की भविष्यवाणी के लिए किया जाता है।
संख्यात्मक विशेषताओं को निरंतर मूल्य भी कहा जाता है। क्लास लेबल के बजाय निरंतर मूल्यों की भविष्यवाणी करने के लिए निर्मित मॉडल को प्रतिगमन मॉडल कहा जाता है। प्रतिगमन विश्लेषण का आउटपुट नोड के सभी मनाया मूल्यों का 'मीन' है।
एक निर्णय वृक्ष कैसे काम करता है?
एक निर्णय वृक्ष एक पर्यवेक्षित शिक्षण एल्गोरिथ्म है जो असतत और निरंतर चर दोनों के लिए काम करता है। यह डेटासेट में सबसे महत्वपूर्ण विशेषता के आधार पर डेटासेट को सबसेट में विभाजित करता है। निर्णय ट्री इस विशेषता की पहचान कैसे करता है और यह विभाजन कैसे किया जाता है इसका निर्णय एल्गोरिदम द्वारा किया जाता है।
सबसे महत्वपूर्ण भविष्यवक्ता को रूट नोड के रूप में नामित किया गया है, बंटवारे को उप-नोड्स बनाने के लिए किया जाता है जिसे निर्णय नोड्स कहा जाता है, और नोड जो आगे विभाजित नहीं होते हैं वे टर्मिनल या लीफ नोड हैं।
निर्णय ट्री में, डेटासेट को सजातीय और गैर-अतिव्यापी क्षेत्रों में विभाजित किया गया है। यह एक शीर्ष-डाउन दृष्टिकोण का अनुसरण करता है क्योंकि शीर्ष क्षेत्र एक ही स्थान पर सभी टिप्पणियों को प्रस्तुत करता है जो दो या अधिक शाखाओं में विभाजित होता है जो आगे विभाजित होते हैं। इस दृष्टिकोण को ए भी कहा जाता है लालची दृष्टिकोण क्योंकि यह केवल भविष्य के नोड्स पर ध्यान दिए बिना काम के बीच के वर्तमान नोड पर विचार करता है।
निर्णय ट्री एल्गोरिदम तब तक चलता रहेगा जब तक कि एक स्टॉप मानदंड जैसे कि टिप्पणियों की न्यूनतम संख्या तक नहीं पहुंच जाता है।
एक बार एक पेड़ का निर्माण हो जाने पर, कई नोड आउटलेर्स या शोर डेटा का प्रतिनिधित्व कर सकते हैं। अवांछित डेटा को हटाने के लिए ट्री प्रूनिंग विधि लागू की जाती है। यह बदले में, वर्गीकरण मॉडल की सटीकता में सुधार करता है।
मॉडल की सटीकता का पता लगाने के लिए, एक परीक्षण सेट जिसमें परीक्षण ट्यूपल और क्लास लेबल शामिल हैं, का उपयोग किया जाता है। परीक्षण सेट टुपल्स के प्रतिशत को मॉडल की सटीकता की पहचान करने के लिए मॉडल द्वारा सही ढंग से वर्गीकृत किया गया है। यदि मॉडल सटीक पाया जाता है तो इसका उपयोग डेटा टुपल्स को वर्गीकृत करने के लिए किया जाता है जिसके लिए क्लास लेबल ज्ञात नहीं हैं।
कुछ ट्री ट्री एल्गोरिदम में हंट एलगोरिदम, आईडी 3, सीडी 4.5 और कार्ट शामिल हैं।
एक निर्णय ट्री बनाने का उदाहरण
(उदाहरण डेटा खनन अवधारणाओं से लिया गया है: हान और किम्बर)
# 1) लर्निंग स्टेप: वर्गीकरण एल्गोरिथम द्वारा विश्लेषण के लिए प्रशिक्षण डेटा को सिस्टम में खिलाया जाता है। इस उदाहरण में, क्लास लेबल की विशेषता है 'ऋण निर्णय'। इस प्रशिक्षण डेटा से निर्मित मॉडल को निर्णय नियमों के रूप में दर्शाया गया है।
# 2) वर्गीकरण: वर्गीकरण नियम की सटीकता की जांच करने के लिए मॉडल को टेस्ट डेटासेट खिलाया जाता है। यदि मॉडल स्वीकार्य परिणाम देता है तो इसे अज्ञात वर्ग चर के साथ नए डेटासेट पर लागू किया जाता है।
निर्णय ट्री इंडक्शन एल्गोरिथम
निर्णय ट्री इंडक्शन
डिसीजन ट्री इंडक्शन ट्रेनिंग सेट से निर्णय पेड़ों को सीखने की विधि है। प्रशिक्षण सेट में विशेषताएँ और वर्ग लेबल होते हैं। निर्णय वृक्ष प्रेरण के अनुप्रयोगों में खगोल विज्ञान, वित्तीय विश्लेषण, चिकित्सा निदान, विनिर्माण और उत्पादन शामिल हैं।
एक निर्णय वृक्ष एक फ़्लोचार्ट वृक्ष की तरह की संरचना है जिसे प्रशिक्षण सेट ट्यूल से बनाया जाता है। डेटासेट छोटे उपसमुच्चय में टूट जाता है और एक पेड़ के नोड्स के रूप में मौजूद होता है। ट्री संरचना में एक रूट नोड, आंतरिक नोड्स या निर्णय नोड्स, लीफ नोड और शाखाएं होती हैं।
रूट नोड सबसे ऊपरी नोड है। यह वर्गीकरण के लिए चयनित सर्वश्रेष्ठ विशेषता का प्रतिनिधित्व करता है। निर्णय नोड्स के आंतरिक नोड्स डेटासेट लीफ नोड या टर्मिनल नोड की एक विशेषता का परीक्षण करते हैं जो वर्गीकरण या निर्णय लेबल का प्रतिनिधित्व करता है। शाखाएं प्रदर्शन किए गए परीक्षण के परिणाम दिखाती हैं।
कुछ निर्णय पेड़ ही होते हैं बाइनरी नोड्स , इसका मतलब है कि नोड की दो शाखाएं, जबकि कुछ निर्णय पेड़ गैर-बाइनरी हैं।
नीचे दी गई छवि टाइटैनिक डेटासेट के लिए निर्णय पेड़ को दर्शाती है कि यह भविष्यवाणी करने के लिए कि यात्री जीवित रहेगा या नहीं।
[छवि स्रोत ]
कार्ट
कार्ट मॉडल यानी वर्गीकरण और प्रतिगमन मॉडल निर्माण मॉडल के लिए एक निर्णय ट्री एल्गोरिथ्म है। निर्णय ट्री मॉडल जहां लक्ष्य मानों में असतत प्रकृति होती है, वर्गीकरण मॉडल कहलाता है।
असतत मान मानों का एक परिमित या अनगिनत अनंत सेट है, उदाहरण के लिए, आयु, आकार, आदि वे मॉडल जहां लक्ष्य मानों को निरंतर मूल्यों द्वारा दर्शाया जाता है, आमतौर पर संख्याएं होती हैं जिन्हें प्रतिगमन मॉडल कहा जाता है। निरंतर चर अस्थायी-बिंदु चर हैं। इन दो मॉडलों को एक साथ CART कहा जाता है।
CART वर्गीकरण मैट्रिक्स के रूप में Gini Index का उपयोग करता है।
मशीन लर्निंग के लिए निर्णय ट्री इंडक्शन: ID3
1970 के दशक के अंत और 1980 के दशक की शुरुआत में, जे.रोस क्विनलान एक शोधकर्ता थे जिन्होंने मशीन लर्निंग के लिए एक निर्णय ट्री एल्गोरिथ्म का निर्माण किया। इस एल्गोरिथ्म के रूप में जाना जाता है ID3, Iterative Dichotomiser । यह एल्गोरिथ्म ई.बी. हंट, जे और मारिन द्वारा वर्णित अवधारणा शिक्षण प्रणालियों का विस्तार था।
ID3 को बाद में C4.5 के रूप में जाना जाने लगा। ID3 और C4.5 निर्णय पेड़ों के निर्माण के लिए एक लालची टॉप-डाउन दृष्टिकोण का पालन करते हैं। एल्गोरिथ्म एक प्रशिक्षण डेटासेट के साथ शुरू होता है जिसमें क्लास लेबल होते हैं जिन्हें पेड़ के रूप में छोटे उप-भागों में विभाजित किया जाता है।
# 1) प्रारंभ में, तीन पैरामीटर हैं अर्थात् विशेषता सूची, विशेषता चयन विधि और डेटा विभाजन । विशेषता सूची में प्रशिक्षण सेट ट्यूपल्स की विशेषताओं का वर्णन है।
#दो) विशेषता चयन विधि tuples के बीच भेदभाव के लिए सबसे अच्छी विशेषता का चयन करने के लिए विधि का वर्णन करता है। विशेषता चयन के लिए उपयोग किए जाने वाले तरीके या तो सूचना लाभ या गिन्नी सूचकांक हो सकते हैं।
# 3) ट्री की संरचना (बाइनरी या गैर-बाइनरी) विशेषता चयन विधि द्वारा तय की जाती है।
# 4) निर्णय वृक्ष का निर्माण करते समय, यह एक एकल नोड के रूप में शुरू होता है जो टुपल्स का प्रतिनिधित्व करता है।
# 5) यदि रूट नोड ट्यूपल्स विभिन्न श्रेणी के लेबल का प्रतिनिधित्व करते हैं, तो यह ट्यूपल्स को विभाजित या विभाजित करने के लिए एक विशेषता चयन विधि कहता है। कदम शाखाओं और निर्णय नोड्स के गठन की ओर ले जाएगा।
# 6) विभाजन विधि यह निर्धारित करेगी कि डेटा ट्यूपल्स को विभाजित करने के लिए कौन सी विशेषता का चयन किया जाना चाहिए। यह परीक्षण के परिणाम के अनुसार नोड से उगाई जाने वाली शाखाओं को भी निर्धारित करता है। बंटवारे के मानदंड का मुख्य उद्देश्य यह है कि निर्णय पेड़ की प्रत्येक शाखा में विभाजन एक ही वर्ग लेबल का प्रतिनिधित्व करना चाहिए।
विभाजन विशेषता का एक उदाहरण नीचे दिखाया गया है:
ए। ऊपर का विभाजन असतत-मूल्यवान है।
बी। उपरोक्त भाग निरंतर-मूल्यवान है।
# 7) प्रशिक्षण डेटासेट टुपल्स के लिए निर्णय ट्री बनाने के लिए उपरोक्त विभाजन चरणों का पुनरावर्ती रूप से अनुसरण किया जाता है।
# 8) विभाजन तभी रुकता है जब या तो सभी विभाजन किए जाते हैं या जब शेष ट्यूपल्स को आगे विभाजित नहीं किया जा सकता है।
# 9) एल्गोरिथ्म की जटिलता द्वारा वर्णित है एन * | डी | * लॉग | डी | जहां डेटासेट D और | D | में विशेषताओं की संख्या n है tuples की संख्या है।
लालची पुनरावर्ती बाइनरी विभाजन क्या है?
बाइनरी बंटवारे की विधि में, ट्यूपल्स विभाजित होते हैं और प्रत्येक विभाजन लागत फ़ंक्शन की गणना की जाती है। सबसे कम लागत विभाजन का चयन किया जाता है। विभाजन विधि बाइनरी है जो 2 शाखाओं के रूप में बनाई गई है। यह प्रकृति में पुनरावर्ती है क्योंकि इसी विधि (लागत की गणना) का उपयोग डेटासेट के अन्य टुपल्स को विभाजित करने के लिए किया जाता है।
इस एल्गोरिथ्म को लालची कहा जाता है क्योंकि यह केवल वर्तमान नोड पर केंद्रित है। यह अपनी लागत को कम करने पर ध्यान केंद्रित करता है, जबकि अन्य नोड्स को अनदेखा किया जाता है।
एक पेड़ बनाने के लिए विशेषताओं का चयन कैसे करें?
ट्यूपल्स को विभाजित करने के तरीके के बारे में निर्णय लेने के लिए चयन चयन उपायों को विभाजन नियम भी कहा जाता है। स्प्लिटिंग मानदंड का उपयोग डेटासेट को सर्वश्रेष्ठ विभाजन के लिए किया जाता है। ये उपाय प्रशिक्षण ट्यूपल्स के विभाजन की विशेषताओं के लिए एक रैंकिंग प्रदान करते हैं।
विशेषता का चयन करने के सबसे लोकप्रिय तरीके सूचना लाभ, गिन्नी सूचकांक हैं।
(1) सूचना लाभ
यह विधि मुख्य विधि है जिसका उपयोग निर्णय पेड़ों के निर्माण के लिए किया जाता है। यह उन सूचनाओं को कम करता है जो टुपल्स को वर्गीकृत करने के लिए आवश्यक हैं। यह दिए गए टुप को वर्गीकृत करने के लिए आवश्यक परीक्षणों की संख्या को कम करता है। उच्चतम सूचना लाभ वाली विशेषता का चयन किया जाता है।
डेटासेट डी में टपल के वर्गीकरण के लिए आवश्यक मूल जानकारी निम्न द्वारा दी गई है:
जहां p की संभावना है कि tuple कक्षा C से संबंधित है। जानकारी बिट्स में एन्कोडेड है, इसलिए, बेस 2 में लॉग का उपयोग किया जाता है। E (s) डेटासेट का वर्ग लेबल ज्ञात करने के लिए आवश्यक जानकारी की औसत मात्रा का प्रतिनिधित्व करता है। इस जानकारी को लाभ भी कहा जाता है एन्ट्रापी ।
विभाजन के बाद सटीक वर्गीकरण के लिए आवश्यक जानकारी सूत्र द्वारा दी गई है:
जहां P (c) विभाजन का भार है। यह जानकारी X द्वारा विभाजन पर डेटासेट D को वर्गीकृत करने के लिए आवश्यक जानकारी का प्रतिनिधित्व करती है।
सूचना लाभ मूल और अपेक्षित जानकारी के बीच अंतर है जो डेटासेट ट्यूपल्स को वर्गीकृत करने के लिए आवश्यक है।
लाभ एक्स के मूल्य को जानने के लिए आवश्यक जानकारी की कमी है। उच्चतम सूचना लाभ के साथ विशेषता को 'सर्वश्रेष्ठ' चुना जाता है।
# 2) अनुपात प्राप्त करें
सूचना का लाभ कभी-कभी वर्गीकरण के लिए बेकार हो सकता है। हालांकि, लाभ अनुपात विभाजन में निर्धारित प्रशिक्षण डेटा को विभाजित करता है और कुल ट्यूपल्स के संबंध में परिणाम के ट्यूपल्स की संख्या पर विचार करता है। अधिकतम लाभ अनुपात के साथ विशेषता को विभाजन विशेषता के रूप में उपयोग किया जाता है।
# 3) गिन्नी सूचकांक
गिनी इंडेक्स की गणना केवल बाइनरी वैरिएबल के लिए की जाती है। यह डेटासेट ट्यूपल्स की अशुद्धता को मापता है जैसे कि
P की संभावना है कि tuple, C. C. से संबंधित है। Gini अनुक्रमणिका की गणना बाइनरी स्प्लिट डेटासेट D द्वारा विशेषता A के लिए की जाती है:
जहां डेटासेट D का n विभाजन है
अशुद्धि में कमी को मूल A के गिन्नी इंडेक्स के अंतर द्वारा और डी को गिन्नी इंडेक्स के अंतर द्वारा दिया जाता है।
अशुद्धता या अधिकतम गिनी सूचकांक में अधिकतम कमी को विभाजन के लिए सबसे अच्छी विशेषता के रूप में चुना गया है।
निर्णय पेड़ों में ओवरफिटिंग
ओवरफिटिंग तब होती है जब कोई निर्णय वृक्ष परीक्षणों की गहराई को बढ़ाकर यथासंभव परिपूर्ण होने का प्रयास करता है और जिससे त्रुटि कम हो जाती है। यह बहुत ही जटिल पेड़ों में परिणत होता है और अतिव्यापी होता है।
ओवरफिटिंग से निर्णय वृक्ष की भविष्य कहनेवाला प्रकृति कम हो जाती है। पेड़ों की अधिकता से बचने के लिए दृष्टिकोणों में प्री प्रूनिंग और पोस्ट प्रूनिंग शामिल हैं।
ट्री प्रूनिंग क्या है?
प्रूनिंग निर्णय वृक्ष से अप्रयुक्त शाखाओं को हटाने की विधि है। निर्णय पेड़ की कुछ शाखाएं आउटलेयर या शोर डेटा का प्रतिनिधित्व कर सकती हैं।
ट्री प्रूनिंग पेड़ की अवांछित शाखाओं को कम करने की विधि है। यह पेड़ की जटिलता को कम करेगा और प्रभावी पूर्वानुमान विश्लेषण में मदद करेगा। यह ओवरफिटिंग को कम करता है क्योंकि यह पेड़ों से महत्वहीन शाखाओं को हटा देता है।
पेड़ की छंटाई के दो तरीके हैं:
# 1) प्रीप्रुनिंग : इस दृष्टिकोण में, निर्णय वृक्ष का निर्माण जल्दी बंद हो जाता है। इसका मतलब यह है कि शाखाओं का विभाजन नहीं करना तय है। निर्मित अंतिम नोड पत्ती नोड बन जाता है और यह पत्ती नोड ट्यूपल्स के बीच सबसे अधिक बार वर्ग धारण कर सकता है।
विभाजन के भार का पता लगाने के लिए विशेषता चयन उपायों का उपयोग किया जाता है। थ्रेशोल्ड मान यह तय करने के लिए निर्धारित किया जाता है कि कौन से विभाजन उपयोगी माने जाते हैं। यदि नोड का भाग थ्रेशोल्ड से नीचे गिरकर विभाजित हो जाता है तो प्रक्रिया रुक जाती है।
# 2) पोस्टपोनिंग : यह विधि एक पूर्ण विकसित पेड़ से बाहरी शाखाओं को निकालती है। अवांछित शाखाओं को हटा दिया जाता है और एक पत्ती नोड द्वारा प्रतिस्थापित किया जाता है जो सबसे लगातार वर्ग लेबल को दर्शाता है। इस तकनीक को प्रीप्रुनिंग की तुलना में अधिक गणना की आवश्यकता होती है, हालांकि, यह अधिक विश्वसनीय है।
सबसे अच्छा पीसी अनुकूलन सॉफ्टवेयर क्या है
अप्रकट पेड़ों की तुलना में कांटेदार पेड़ अधिक सटीक और कॉम्पैक्ट होते हैं लेकिन वे प्रतिकृति और पुनरावृत्ति का नुकसान उठाते हैं।
पुनरावृत्ति तब होती है जब उसी विशेषता को एक पेड़ की शाखा के साथ बार-बार जांचा जाता है। प्रतिकृति तब होता है जब डुप्लिकेट उपप्रकार पेड़ के भीतर मौजूद होते हैं। इन मुद्दों को बहुभिन्नरूपी विभाजन द्वारा हल किया जा सकता है।
नीचे की छवि एक अप्रकाशित और छंटाई वाले पेड़ को दिखाती है।
निर्णय ट्री एल्गोरिथ्म का उदाहरण
उदाहरण स्रोत
नेट डेवलपर साक्षात्कार सवाल और जवाब
निर्णय वृक्ष का निर्माण
आइए हम पिछले 10 दिनों के मौसम डेटासेट के गुण, तापमान, हवा और नमी के साथ मौसम का एक उदाहरण लेते हैं। परिणाम चर क्रिकेट खेल रहा होगा या नहीं। हम निर्णय पेड़ के निर्माण के लिए ID3 एल्गोरिथ्म का उपयोग करेंगे।
दिन | आउटलुक | तापमान | नमी | हवा | क्रिकेट खेलो |
---|---|---|---|---|---|
। | ओवरकास्ट | ठंडा | साधारण | बलवान | हाँ |
1 | धूप | गरम | उच्च | कमज़ोर | ऐसा न करें |
दो | धूप | गरम | उच्च | बलवान | ऐसा न करें |
३ | ओवरकास्ट | गरम | उच्च | कमज़ोर | हाँ |
४ | वर्षा | हल्का | उच्च | कमज़ोर | हाँ |
५ | वर्षा | ठंडा | साधारण | कमज़ोर | हाँ |
६ | वर्षा | ठंडा | साधारण | बलवान | ऐसा न करें |
। | धूप | हल्का | उच्च | कमज़ोर | ऐसा न करें |
९ | धूप | ठंडा | साधारण | कमज़ोर | हाँ |
१० | वर्षा | हल्का | साधारण | कमज़ोर | हाँ |
ग्यारह | धूप | हल्का | साधारण | बलवान | हाँ |
१२ | ओवरकास्ट | हल्का | उच्च | बलवान | हाँ |
१३ | ओवरकास्ट | गरम | साधारण | कमज़ोर | हाँ |
१४ | वर्षा | हल्का | उच्च | बलवान | ऐसा न करें |
चरण 1: रूट नोड बनाने के लिए पहला कदम होगा।
चरण 2: यदि सभी परिणाम हाँ हैं, तो पत्ती नोड 'हाँ' वापस कर दिया जाएगा और पत्ती नोड 'नहीं' वापस कर दिया जाएगा।
चरण 3: सभी अवलोकनों की एन्ट्रॉपी और एंट्रॉपी को “एक्स” यानी ई (एस) और ई (एस, एक्स) के साथ खोजें।
चरण 4: जानकारी लाभ प्राप्त करें और उच्च जानकारी लाभ के साथ विशेषता का चयन करें।
चरण 5: उपरोक्त चरणों को तब तक दोहराएं जब तक कि सभी विशेषताएँ कवर न हो जाएं।
एन्ट्रापी की गणना:
हाँ नही
९ ५
यदि एन्ट्रॉपी शून्य है, तो इसका मतलब है कि सभी सदस्य एक ही वर्ग के हैं और यदि एन्ट्रॉपी एक है तो इसका मतलब है कि ट्यूपल्स का आधा हिस्सा एक वर्ग का है और उनमें से एक अन्य वर्ग का है। 0.94 का मतलब है निष्पक्ष वितरण।
सूचना लाभ विशेषता प्राप्त करें जो अधिकतम जानकारी प्राप्त करता है।
उदाहरण के लिए 'पवन', इसमें दो मूल्य लगते हैं: मजबूत और कमजोर, इसलिए, x = {मजबूत, कमजोर}।
एक्स = कमजोर और एक्स = मजबूत के लिए एच (एक्स), पी (एक्स) का पता लगाएं। H (S) की गणना पहले ही की जा चुकी है।
कमजोर = =
बलवान = 8
'कमजोर' हवा के लिए, उनमें से 6 क्रिकेट खेलने के लिए 'हां' कहते हैं और उनमें से 2 'नहीं' कहते हैं। तो एन्ट्रापी होगी:
'मजबूत' हवा के लिए, 3 ने क्रिकेट खेलने के लिए 'नहीं' कहा और 3 ने 'हाँ' कहा।
यह सही यादृच्छिकता दिखाता है क्योंकि आधा आइटम एक वर्ग से संबंधित है और शेष आधा दूसरों से संबंधित है।
सूचना लाभ की गणना करें,
इसी प्रकार अन्य विशेषताओं के लिए सूचना लाभ है:
विशेषता आउटलुक है उच्चतम जानकारी हासिल 0.246 का, इस प्रकार इसे रूट के रूप में चुना जाता है।
ओवरकास्ट के 3 मूल्य हैं: सनी, ओवरकास्ट और वर्षा। प्ले क्रिकेट के साथ ओवरकास्ट हमेशा 'हाँ' होता है। तो यह एक लीफ नोड के साथ समाप्त होता है, 'हाँ'। अन्य मूल्यों के लिए 'सनी' और 'वर्षा'।
आउटलुक के लिए 'सनी' के रूप में टेबल होगी:
तापमान | नमी | हवा | गोल्फ़ |
---|---|---|---|
गरम | उच्च | कमज़ोर | ऐसा न करें |
गरम | उच्च | बलवान | ऐसा न करें |
हल्का | उच्च | कमज़ोर | ऐसा न करें |
ठंडा | साधारण | कमज़ोर | हाँ |
हल्का | साधारण | बलवान | हाँ |
'आउटलुक' 'सनी' के लिए प्रवेश है:
सनी के संबंध में विशेषताओं के लिए सूचना लाभ है:
आर्द्रता के लिए सूचना लाभ सबसे अधिक है, इसलिए इसे अगले नोड के रूप में चुना जाता है। इसी तरह, एंट्रॉपी की गणना वर्षा के लिए की जाती है। पवन सबसे अधिक सूचना प्राप्त करता है ।
निर्णय पेड़ नीचे की तरह दिखेगा:
भविष्य कहनेवाला मॉडलिंग क्या है?
वर्गीकरण मॉडल का उपयोग अज्ञात सेट की विशेषताओं के परिणामों की भविष्यवाणी करने के लिए किया जा सकता है।
जब अज्ञात वर्ग लेबल वाला डेटासेट मॉडल में खिलाया जाता है, तो यह स्वचालित रूप से कक्षा लेबल को असाइन कर देगा। परिणामों की भविष्यवाणी करने के लिए संभाव्यता को लागू करने की इस पद्धति को भविष्य कहनेवाला मॉडलिंग कहा जाता है।
निर्णय ट्री वर्गीकरण के लाभ
नीचे सूचीबद्ध किए गए निर्णय ट्री वर्गीकरण के विभिन्न गुण हैं:
- निर्णय वृक्ष वर्गीकरण को किसी भी डोमेन ज्ञान की आवश्यकता नहीं है, इसलिए, यह ज्ञान की खोज प्रक्रिया के लिए उपयुक्त है।
- पेड़ के रूप में डेटा का प्रतिनिधित्व मनुष्य द्वारा आसानी से समझा जाता है और यह सहज है।
- यह बहुआयामी डेटा को संभाल सकता है।
- यह बड़ी सटीकता के साथ एक त्वरित प्रक्रिया है।
निर्णय वृक्ष वर्गीकरण के नुकसान
नीचे दिए गए निर्णय ट्री वर्गीकरण के विभिन्न अवगुण हैं:
- कभी-कभी निर्णय वृक्ष बहुत जटिल हो जाते हैं और इन्हें ओवरफीड्ड ट्री कहा जाता है।
- निर्णय ट्री एल्गोरिथ्म एक इष्टतम समाधान नहीं हो सकता है।
- अगर कुछ क्लास लेबल इस पर हावी हो जाता है तो निर्णय के पेड़ एक पक्षपाती समाधान दे सकते हैं।
निष्कर्ष
निर्णय पेड़ वर्गीकरण और प्रतिगमन विश्लेषण के लिए डेटा खनन तकनीक हैं।
यह तकनीक अब चिकित्सा निदान, लक्ष्य विपणन आदि जैसे कई क्षेत्रों में फैली हुई है। इन पेड़ों का निर्माण एक एल्गोरिथम जैसे ID3, CART के बाद किया गया है। ये एल्गोरिदम डेटा को विभाजन में विभाजित करने के लिए अलग-अलग तरीके ढूंढते हैं।
यह सबसे व्यापक रूप से ज्ञात पर्यवेक्षण तकनीक है जो मशीन सीखने और पैटर्न विश्लेषण में उपयोग की जाती है। निर्णय पेड़ सिस्टम को प्रदान किए गए प्रशिक्षण सेट से सीखने के माध्यम से मॉडल बनाकर लक्ष्य चर के मूल्यों की भविष्यवाणी करते हैं।
हमें उम्मीद है कि आपने इस जानकारीपूर्ण ट्यूटोरियल से डिसीजन ट्री माइनिंग के बारे में सब कुछ जान लिया होगा !!
PREV ट्यूटोरियल | अगले ट्यूटोरियल
अनुशंसित पाठ
- डेटा माइनिंग उदाहरण: डेटा माइनिंग 2021 के अधिकांश सामान्य अनुप्रयोग
- डेटा माइनिंग तकनीक: एल्गोरिथम, तरीके और शीर्ष डेटा खनन उपकरण
- डेटा माइनिंग: डेटा एनालिसिस में प्रक्रिया, तकनीक और प्रमुख मुद्दे
- B ट्री और B + ट्री डेटा संरचना C ++ में
- सी ++ में बाइनरी ट्री डेटा संरचना
- डाटा माइनिंग प्रोसेस: मॉडल, प्रोसेस स्टेप्स और चुनौतियां शामिल हैं
- AVL ट्री और ढेर डेटा संरचना C ++ में
- डाटा माइनिंग बनाम मशीन लर्निंग बनाम आर्टिफिशियल इंटेलिजेंस बनाम डीप लर्निंग