डेटा खनन में निर्णय ट्री एल्गोरिदम उदाहरण

decision tree algorithm examples data mining

समस्याओं को खत्म करने के लिए हमारे साधन का प्रयास करें

ऑपरेटिंग सिस्टम का चयन करें प्रक्षेपण का एक कार्यक्रम चुनें (वैकल्पिक रूप से)

अपनी समस्या का वर्णन करें

यह इन-डेप्थ ट्यूटोरियल डेटा माइनिंग में निर्णय ट्री एल्गोरिथम के बारे में बताता है। आप निर्णय ट्री उदाहरण, एल्गोरिथम और वर्गीकरण के बारे में जानेंगे:

हम पर एक जोड़ी की नजर थी डाटा माइनिंग उदाहरण हमारे पिछले ट्यूटोरियल में मुफ्त डेटा खनन प्रशिक्षण श्रृंखला ।

डिसीजन ट्री माइनिंग एक प्रकार की डेटा माइनिंग तकनीक है जिसका उपयोग क्लासिफिकेशन मॉडल बनाने में किया जाता है। यह अपने नाम की तरह ही पेड़ जैसी संरचना के रूप में वर्गीकरण मॉडल बनाता है। इस प्रकार का खनन पर्यवेक्षित वर्ग अधिगम से संबंधित है।

पर्यवेक्षित शिक्षण में, लक्ष्य परिणाम पहले से ही ज्ञात है। निर्णय पेड़ों का उपयोग श्रेणीबद्ध और संख्यात्मक डेटा दोनों के लिए किया जा सकता है। श्रेणीबद्ध डेटा लिंग, वैवाहिक स्थिति आदि का प्रतिनिधित्व करते हैं, जबकि संख्यात्मक डेटा उम्र, तापमान आदि का प्रतिनिधित्व करते हैं।

फर्जी ईमेल अकाउंट कैसे बनाते है

निर्णय ट्री खनन एल्गोरिथम

डेटासेट के साथ निर्णय वृक्ष का एक उदाहरण नीचे दिखाया गया है।

DecsionTree

(छवि स्रोत )

आप क्या सीखेंगे:

निर्णय वृक्ष का उपयोग क्या है?
वर्गीकरण विश्लेषण
प्रतिगमन विश्लेषण
एक निर्णय वृक्ष कैसे काम करता है?
निर्णय ट्री इंडक्शन एल्गोरिथम
निर्णय ट्री इंडक्शन
कार्ट
मशीन लर्निंग के लिए निर्णय ट्री इंडक्शन: ID3
लालची पुनरावर्ती बाइनरी विभाजन क्या है?
एक पेड़ बनाने के लिए विशेषताओं का चयन कैसे करें?
निर्णय पेड़ों में ओवरफिटिंग
ट्री प्रूनिंग क्या है?
भविष्य कहनेवाला मॉडलिंग क्या है?
निर्णय ट्री वर्गीकरण के लाभ
निर्णय वृक्ष वर्गीकरण के नुकसान
निष्कर्ष
अनुशंसित पाठ

निर्णय वृक्ष का उपयोग क्या है?

डिसीजन ट्री का उपयोग वर्गीकरण और प्रतिगमन मॉडल बनाने के लिए किया जाता है। इसका उपयोग डेटा मॉडल बनाने के लिए किया जाता है जो निर्णय लेने की प्रक्रिया के लिए वर्ग लेबल या मूल्यों की भविष्यवाणी करेगा। मॉडल सिस्टम (फीडेड लर्निंग) को खिलाए गए प्रशिक्षण डेटासेट से निर्मित होते हैं।

निर्णय वृक्ष का उपयोग करके, हम उन निर्णयों की कल्पना कर सकते हैं जो समझने में आसान बनाते हैं और इस प्रकार यह एक लोकप्रिय डेटा खनन तकनीक है।

वर्गीकरण विश्लेषण

डेटा वर्गीकरण विश्लेषण का एक रूप है जो एक मॉडल बनाता है जो महत्वपूर्ण वर्ग चर का वर्णन करता है।उदाहरण के लिए, सुरक्षित या जोखिम भरा के रूप में बैंक ऋण अनुप्रयोगों को वर्गीकृत करने के लिए बनाया गया एक मॉडल। वर्गीकरण विधियों का उपयोग मशीन लर्निंग, और पैटर्न मान्यता में किया जाता है।

वर्गीकरण के आवेदन में धोखाधड़ी का पता लगाना, चिकित्सा निदान, लक्ष्य विपणन आदि शामिल हैं। वर्गीकरण समस्या का आउटपुट टर्मिनल नोड के सभी मनाया मूल्यों के 'मोड' के रूप में लिया जाता है।

वर्गीकरण मॉडल बनाने के लिए एक दो-चरण प्रक्रिया का पालन किया जाता है।

पहले चरण में यानी सीखना: प्रशिक्षण डेटा पर आधारित एक वर्गीकरण मॉडल बनाया गया है।
दूसरे चरण यानी वर्गीकरण में, मॉडल की सटीकता की जाँच की जाती है और फिर मॉडल का उपयोग नए डेटा को वर्गीकृत करने के लिए किया जाता है। यहाँ प्रस्तुत वर्ग लेबल 'हाँ' या 'नहीं', 'सुरक्षित' या 'जोखिम भरा' जैसे असतत मूल्यों के रूप में हैं।

वर्गीकरण मॉडल के निर्माण के लिए सामान्य दृष्टिकोण नीचे दिया गया है:

भवन वर्गीकरण मॉडल के लिए दृष्टिकोण

(छवि स्रोत )

प्रतिगमन विश्लेषण

प्रतिगमन विश्लेषण का उपयोग संख्यात्मक विशेषताओं की भविष्यवाणी के लिए किया जाता है।

संख्यात्मक विशेषताओं को निरंतर मूल्य भी कहा जाता है। क्लास लेबल के बजाय निरंतर मूल्यों की भविष्यवाणी करने के लिए निर्मित मॉडल को प्रतिगमन मॉडल कहा जाता है। प्रतिगमन विश्लेषण का आउटपुट नोड के सभी मनाया मूल्यों का 'मीन' है।

एक निर्णय वृक्ष कैसे काम करता है?

एक निर्णय वृक्ष एक पर्यवेक्षित शिक्षण एल्गोरिथ्म है जो असतत और निरंतर चर दोनों के लिए काम करता है। यह डेटासेट में सबसे महत्वपूर्ण विशेषता के आधार पर डेटासेट को सबसेट में विभाजित करता है। निर्णय ट्री इस विशेषता की पहचान कैसे करता है और यह विभाजन कैसे किया जाता है इसका निर्णय एल्गोरिदम द्वारा किया जाता है।

सबसे महत्वपूर्ण भविष्यवक्ता को रूट नोड के रूप में नामित किया गया है, बंटवारे को उप-नोड्स बनाने के लिए किया जाता है जिसे निर्णय नोड्स कहा जाता है, और नोड जो आगे विभाजित नहीं होते हैं वे टर्मिनल या लीफ नोड हैं।

निर्णय ट्री में, डेटासेट को सजातीय और गैर-अतिव्यापी क्षेत्रों में विभाजित किया गया है। यह एक शीर्ष-डाउन दृष्टिकोण का अनुसरण करता है क्योंकि शीर्ष क्षेत्र एक ही स्थान पर सभी टिप्पणियों को प्रस्तुत करता है जो दो या अधिक शाखाओं में विभाजित होता है जो आगे विभाजित होते हैं। इस दृष्टिकोण को ए भी कहा जाता है लालची दृष्टिकोण क्योंकि यह केवल भविष्य के नोड्स पर ध्यान दिए बिना काम के बीच के वर्तमान नोड पर विचार करता है।

निर्णय ट्री एल्गोरिदम तब तक चलता रहेगा जब तक कि एक स्टॉप मानदंड जैसे कि टिप्पणियों की न्यूनतम संख्या तक नहीं पहुंच जाता है।

एक बार एक पेड़ का निर्माण हो जाने पर, कई नोड आउटलेर्स या शोर डेटा का प्रतिनिधित्व कर सकते हैं। अवांछित डेटा को हटाने के लिए ट्री प्रूनिंग विधि लागू की जाती है। यह बदले में, वर्गीकरण मॉडल की सटीकता में सुधार करता है।

मॉडल की सटीकता का पता लगाने के लिए, एक परीक्षण सेट जिसमें परीक्षण ट्यूपल और क्लास लेबल शामिल हैं, का उपयोग किया जाता है। परीक्षण सेट टुपल्स के प्रतिशत को मॉडल की सटीकता की पहचान करने के लिए मॉडल द्वारा सही ढंग से वर्गीकृत किया गया है। यदि मॉडल सटीक पाया जाता है तो इसका उपयोग डेटा टुपल्स को वर्गीकृत करने के लिए किया जाता है जिसके लिए क्लास लेबल ज्ञात नहीं हैं।

कुछ ट्री ट्री एल्गोरिदम में हंट एलगोरिदम, आईडी 3, सीडी 4.5 और कार्ट शामिल हैं।

एक निर्णय ट्री बनाने का उदाहरण

(उदाहरण डेटा खनन अवधारणाओं से लिया गया है: हान और किम्बर)

# 1) लर्निंग स्टेप: वर्गीकरण एल्गोरिथम द्वारा विश्लेषण के लिए प्रशिक्षण डेटा को सिस्टम में खिलाया जाता है। इस उदाहरण में, क्लास लेबल की विशेषता है 'ऋण निर्णय'। इस प्रशिक्षण डेटा से निर्मित मॉडल को निर्णय नियमों के रूप में दर्शाया गया है।

# 2) वर्गीकरण: वर्गीकरण नियम की सटीकता की जांच करने के लिए मॉडल को टेस्ट डेटासेट खिलाया जाता है। यदि मॉडल स्वीकार्य परिणाम देता है तो इसे अज्ञात वर्ग चर के साथ नए डेटासेट पर लागू किया जाता है।

एक निर्णय ट्री बनाने का उदाहरण

निर्णय ट्री इंडक्शन एल्गोरिथम

निर्णय ट्री इंडक्शन

डिसीजन ट्री इंडक्शन ट्रेनिंग सेट से निर्णय पेड़ों को सीखने की विधि है। प्रशिक्षण सेट में विशेषताएँ और वर्ग लेबल होते हैं। निर्णय वृक्ष प्रेरण के अनुप्रयोगों में खगोल विज्ञान, वित्तीय विश्लेषण, चिकित्सा निदान, विनिर्माण और उत्पादन शामिल हैं।

एक निर्णय वृक्ष एक फ़्लोचार्ट वृक्ष की तरह की संरचना है जिसे प्रशिक्षण सेट ट्यूल से बनाया जाता है। डेटासेट छोटे उपसमुच्चय में टूट जाता है और एक पेड़ के नोड्स के रूप में मौजूद होता है। ट्री संरचना में एक रूट नोड, आंतरिक नोड्स या निर्णय नोड्स, लीफ नोड और शाखाएं होती हैं।

रूट नोड सबसे ऊपरी नोड है। यह वर्गीकरण के लिए चयनित सर्वश्रेष्ठ विशेषता का प्रतिनिधित्व करता है। निर्णय नोड्स के आंतरिक नोड्स डेटासेट लीफ नोड या टर्मिनल नोड की एक विशेषता का परीक्षण करते हैं जो वर्गीकरण या निर्णय लेबल का प्रतिनिधित्व करता है। शाखाएं प्रदर्शन किए गए परीक्षण के परिणाम दिखाती हैं।

कुछ निर्णय पेड़ ही होते हैं बाइनरी नोड्स , इसका मतलब है कि नोड की दो शाखाएं, जबकि कुछ निर्णय पेड़ गैर-बाइनरी हैं।

नीचे दी गई छवि टाइटैनिक डेटासेट के लिए निर्णय पेड़ को दर्शाती है कि यह भविष्यवाणी करने के लिए कि यात्री जीवित रहेगा या नहीं।

निर्णय पेड़ प्रेरण

(छवि स्रोत )

कार्ट

कार्ट मॉडल यानी वर्गीकरण और प्रतिगमन मॉडल निर्माण मॉडल के लिए एक निर्णय ट्री एल्गोरिथ्म है। निर्णय ट्री मॉडल जहां लक्ष्य मानों में असतत प्रकृति होती है, वर्गीकरण मॉडल कहलाता है।

असतत मान मानों का एक परिमित या अनगिनत अनंत सेट है, उदाहरण के लिए, आयु, आकार, आदि वे मॉडल जहां लक्ष्य मानों को निरंतर मूल्यों द्वारा दर्शाया जाता है, आमतौर पर संख्याएं होती हैं जिन्हें प्रतिगमन मॉडल कहा जाता है। निरंतर चर अस्थायी-बिंदु चर हैं। इन दो मॉडलों को एक साथ CART कहा जाता है।

CART वर्गीकरण मैट्रिक्स के रूप में Gini Index का उपयोग करता है।

मशीन लर्निंग के लिए निर्णय ट्री इंडक्शन: ID3

1970 के दशक के अंत और 1980 के दशक की शुरुआत में, जे.रोस क्विनलान एक शोधकर्ता थे जिन्होंने मशीन लर्निंग के लिए एक निर्णय ट्री एल्गोरिथ्म का निर्माण किया। इस एल्गोरिथ्म के रूप में जाना जाता है ID3, Iterative Dichotomiser । यह एल्गोरिथ्म ई.बी. हंट, जे और मारिन द्वारा वर्णित अवधारणा शिक्षण प्रणालियों का विस्तार था।

ID3 को बाद में C4.5 के रूप में जाना जाने लगा। ID3 और C4.5 निर्णय पेड़ों के निर्माण के लिए एक लालची टॉप-डाउन दृष्टिकोण का पालन करते हैं। एल्गोरिथ्म एक प्रशिक्षण डेटासेट के साथ शुरू होता है जिसमें क्लास लेबल होते हैं जिन्हें पेड़ के रूप में छोटे उप-भागों में विभाजित किया जाता है।

# 1) प्रारंभ में, तीन पैरामीटर हैं अर्थात् विशेषता सूची, विशेषता चयन विधि और डेटा विभाजन । विशेषता सूची में प्रशिक्षण सेट ट्यूपल्स की विशेषताओं का वर्णन है।

#दो) विशेषता चयन विधि tuples के बीच भेदभाव के लिए सबसे अच्छी विशेषता का चयन करने के लिए विधि का वर्णन करता है। विशेषता चयन के लिए उपयोग किए जाने वाले तरीके या तो सूचना लाभ या गिन्नी सूचकांक हो सकते हैं।

# 3) ट्री की संरचना (बाइनरी या गैर-बाइनरी) विशेषता चयन विधि द्वारा तय की जाती है।

# 4) निर्णय वृक्ष का निर्माण करते समय, यह एक एकल नोड के रूप में शुरू होता है जो टुपल्स का प्रतिनिधित्व करता है।

# 5) यदि रूट नोड ट्यूपल्स विभिन्न श्रेणी के लेबल का प्रतिनिधित्व करते हैं, तो यह ट्यूपल्स को विभाजित या विभाजित करने के लिए एक विशेषता चयन विधि कहता है। कदम शाखाओं और निर्णय नोड्स के गठन की ओर ले जाएगा।

# 6) विभाजन विधि यह निर्धारित करेगी कि डेटा ट्यूपल्स को विभाजित करने के लिए कौन सी विशेषता का चयन किया जाना चाहिए। यह परीक्षण के परिणाम के अनुसार नोड से उगाई जाने वाली शाखाओं को भी निर्धारित करता है। बंटवारे के मानदंड का मुख्य उद्देश्य यह है कि निर्णय पेड़ की प्रत्येक शाखा में विभाजन एक ही वर्ग लेबल का प्रतिनिधित्व करना चाहिए।

विभाजन विशेषता का एक उदाहरण नीचे दिखाया गया है:

उपरोक्त भाग असतत मूल्य है

ए। ऊपर का विभाजन असतत-मूल्यवान है।

उपरोक्त भाग निरंतर मूल्यवान है।

बी। उपरोक्त भाग निरंतर-मूल्यवान है।

# 7) प्रशिक्षण डेटासेट टुपल्स के लिए निर्णय ट्री बनाने के लिए उपरोक्त विभाजन चरणों का पुनरावर्ती रूप से अनुसरण किया जाता है।

# 8) विभाजन तभी रुकता है जब या तो सभी विभाजन किए जाते हैं या जब शेष ट्यूपल्स को आगे विभाजित नहीं किया जा सकता है।

# 9) एल्गोरिथ्म की जटिलता द्वारा वर्णित है एन * | डी | * लॉग | डी | जहां डेटासेट D और | D | में विशेषताओं की संख्या n है tuples की संख्या है।

लालची पुनरावर्ती बाइनरी विभाजन क्या है?

बाइनरी बंटवारे की विधि में, ट्यूपल्स विभाजित होते हैं और प्रत्येक विभाजन लागत फ़ंक्शन की गणना की जाती है। सबसे कम लागत विभाजन का चयन किया जाता है। विभाजन विधि बाइनरी है जो 2 शाखाओं के रूप में बनाई गई है। यह प्रकृति में पुनरावर्ती है क्योंकि इसी विधि (लागत की गणना) का उपयोग डेटासेट के अन्य टुपल्स को विभाजित करने के लिए किया जाता है।

इस एल्गोरिथ्म को लालची कहा जाता है क्योंकि यह केवल वर्तमान नोड पर केंद्रित है। यह अपनी लागत को कम करने पर ध्यान केंद्रित करता है, जबकि अन्य नोड्स को अनदेखा किया जाता है।

एक पेड़ बनाने के लिए विशेषताओं का चयन कैसे करें?

ट्यूपल्स को विभाजित करने के तरीके के बारे में निर्णय लेने के लिए चयन चयन उपायों को विभाजन नियम भी कहा जाता है। स्प्लिटिंग मानदंड का उपयोग डेटासेट को सर्वश्रेष्ठ विभाजन के लिए किया जाता है। ये उपाय प्रशिक्षण ट्यूपल्स के विभाजन की विशेषताओं के लिए एक रैंकिंग प्रदान करते हैं।

विशेषता का चयन करने के सबसे लोकप्रिय तरीके सूचना लाभ, गिन्नी सूचकांक हैं।

(1) सूचना लाभ

यह विधि मुख्य विधि है जिसका उपयोग निर्णय पेड़ों के निर्माण के लिए किया जाता है। यह उन सूचनाओं को कम करता है जो टुपल्स को वर्गीकृत करने के लिए आवश्यक हैं। यह दिए गए टुप को वर्गीकृत करने के लिए आवश्यक परीक्षणों की संख्या को कम करता है। उच्चतम सूचना लाभ वाली विशेषता का चयन किया जाता है।

डेटासेट डी में टपल के वर्गीकरण के लिए आवश्यक मूल जानकारी निम्न द्वारा दी गई है:

डेटासेट में ट्यूपल का वर्गीकरण डी

जहां p की संभावना है कि tuple कक्षा C से संबंधित है। जानकारी बिट्स में एन्कोडेड है, इसलिए, बेस 2 में लॉग का उपयोग किया जाता है। E (s) डेटासेट का वर्ग लेबल ज्ञात करने के लिए आवश्यक जानकारी की औसत मात्रा का प्रतिनिधित्व करता है। इस जानकारी को लाभ भी कहा जाता है एन्ट्रापी ।

विभाजन के बाद सटीक वर्गीकरण के लिए आवश्यक जानकारी सूत्र द्वारा दी गई है:

विभाजन के बाद सटीक वर्गीकरण

जहां P (c) विभाजन का भार है। यह जानकारी X द्वारा विभाजन पर डेटासेट D को वर्गीकृत करने के लिए आवश्यक जानकारी का प्रतिनिधित्व करती है।

सूचना लाभ मूल और अपेक्षित जानकारी के बीच अंतर है जो डेटासेट ट्यूपल्स को वर्गीकृत करने के लिए आवश्यक है।

जानकारी हासिल

लाभ एक्स के मूल्य को जानने के लिए आवश्यक जानकारी की कमी है। उच्चतम सूचना लाभ के साथ विशेषता को 'सर्वश्रेष्ठ' चुना जाता है।

# 2) अनुपात प्राप्त करें

सूचना का लाभ कभी-कभी वर्गीकरण के लिए बेकार हो सकता है। हालांकि, लाभ अनुपात विभाजन में निर्धारित प्रशिक्षण डेटा को विभाजित करता है और कुल ट्यूपल्स के संबंध में परिणाम के ट्यूपल्स की संख्या पर विचार करता है। अधिकतम लाभ अनुपात के साथ विशेषता को विभाजन विशेषता के रूप में उपयोग किया जाता है।

अनुपात प्राप्त करें

# 3) गिन्नी सूचकांक

गिनी इंडेक्स की गणना केवल बाइनरी वैरिएबल के लिए की जाती है। यह डेटासेट ट्यूपल्स की अशुद्धता को मापता है जैसे कि

गनी सूचकांक

P की संभावना है कि tuple, C. C. से संबंधित है। Gini अनुक्रमणिका की गणना बाइनरी स्प्लिट डेटासेट D द्वारा विशेषता A के लिए की जाती है:

विशेषता ए द्वारा बाइनरी स्प्लिट डेटासेट डी

जहां डेटासेट D का n विभाजन है

अशुद्धि में कमी को मूल A के गिन्नी इंडेक्स के अंतर द्वारा और डी को गिन्नी इंडेक्स के अंतर द्वारा दिया जाता है।

अशुद्धता या अधिकतम गिनी सूचकांक में अधिकतम कमी को विभाजन के लिए सबसे अच्छी विशेषता के रूप में चुना गया है।

निर्णय पेड़ों में ओवरफिटिंग

ओवरफिटिंग तब होती है जब कोई निर्णय वृक्ष परीक्षणों की गहराई को बढ़ाकर यथासंभव परिपूर्ण होने का प्रयास करता है और जिससे त्रुटि कम हो जाती है। यह बहुत ही जटिल पेड़ों में परिणत होता है और अतिव्यापी होता है।

ओवरफिटिंग से निर्णय वृक्ष की भविष्य कहनेवाला प्रकृति कम हो जाती है। पेड़ों की अधिकता से बचने के लिए दृष्टिकोणों में प्री प्रूनिंग और पोस्ट प्रूनिंग शामिल हैं।

ट्री प्रूनिंग क्या है?

प्रूनिंग निर्णय वृक्ष से अप्रयुक्त शाखाओं को हटाने की विधि है। निर्णय पेड़ की कुछ शाखाएं आउटलेयर या शोर डेटा का प्रतिनिधित्व कर सकती हैं।

ट्री प्रूनिंग पेड़ की अवांछित शाखाओं को कम करने की विधि है। यह पेड़ की जटिलता को कम करेगा और प्रभावी पूर्वानुमान विश्लेषण में मदद करेगा। यह ओवरफिटिंग को कम करता है क्योंकि यह पेड़ों से महत्वहीन शाखाओं को हटा देता है।

पेड़ की छंटाई के दो तरीके हैं:

# 1) प्रीप्रुनिंग : इस दृष्टिकोण में, निर्णय वृक्ष का निर्माण जल्दी बंद हो जाता है। इसका मतलब यह है कि शाखाओं का विभाजन नहीं करना तय है। निर्मित अंतिम नोड पत्ती नोड बन जाता है और यह पत्ती नोड ट्यूपल्स के बीच सबसे अधिक बार वर्ग धारण कर सकता है।

विभाजन के भार का पता लगाने के लिए विशेषता चयन उपायों का उपयोग किया जाता है। थ्रेशोल्ड मान यह तय करने के लिए निर्धारित किया जाता है कि कौन से विभाजन उपयोगी माने जाते हैं। यदि नोड का भाग थ्रेशोल्ड से नीचे गिरकर विभाजित हो जाता है तो प्रक्रिया रुक जाती है।

# 2) पोस्टपोनिंग : यह विधि एक पूर्ण विकसित पेड़ से बाहरी शाखाओं को निकालती है। अवांछित शाखाओं को हटा दिया जाता है और एक पत्ती नोड द्वारा प्रतिस्थापित किया जाता है जो सबसे लगातार वर्ग लेबल को दर्शाता है। इस तकनीक को प्रीप्रुनिंग की तुलना में अधिक गणना की आवश्यकता होती है, हालांकि, यह अधिक विश्वसनीय है।

सबसे अच्छा पीसी अनुकूलन सॉफ्टवेयर क्या है

अप्रकट पेड़ों की तुलना में कांटेदार पेड़ अधिक सटीक और कॉम्पैक्ट होते हैं लेकिन वे प्रतिकृति और पुनरावृत्ति का नुकसान उठाते हैं।

पुनरावृत्ति तब होती है जब उसी विशेषता को एक पेड़ की शाखा के साथ बार-बार जांचा जाता है। प्रतिकृति तब होता है जब डुप्लिकेट उपप्रकार पेड़ के भीतर मौजूद होते हैं। इन मुद्दों को बहुभिन्नरूपी विभाजन द्वारा हल किया जा सकता है।

नीचे की छवि एक अप्रकाशित और छंटाई वाले पेड़ को दिखाती है।

PrunedUnprunedTree

निर्णय ट्री एल्गोरिथ्म का उदाहरण

उदाहरण स्रोत

नेट डेवलपर साक्षात्कार सवाल और जवाब

निर्णय वृक्ष का निर्माण

आइए हम पिछले 10 दिनों के मौसम डेटासेट के गुण, तापमान, हवा और नमी के साथ मौसम का एक उदाहरण लेते हैं। परिणाम चर क्रिकेट खेल रहा होगा या नहीं। हम निर्णय पेड़ के निर्माण के लिए ID3 एल्गोरिथ्म का उपयोग करेंगे।

दिन	आउटलुक	तापमान	नमी	हवा	क्रिकेट खेलो
।	ओवरकास्ट	ठंडा	साधारण	बलवान	हाँ
1	धूप	गरम	उच्च	कमज़ोर	ऐसा न करें
दो	धूप	गरम	उच्च	बलवान	ऐसा न करें
३	ओवरकास्ट	गरम	उच्च	कमज़ोर	हाँ
४	वर्षा	हल्का	उच्च	कमज़ोर	हाँ
५	वर्षा	ठंडा	साधारण	कमज़ोर	हाँ
६	वर्षा	ठंडा	साधारण	बलवान	ऐसा न करें
।	धूप	हल्का	उच्च	कमज़ोर	ऐसा न करें
९	धूप	ठंडा	साधारण	कमज़ोर	हाँ
१०	वर्षा	हल्का	साधारण	कमज़ोर	हाँ
ग्यारह	धूप	हल्का	साधारण	बलवान	हाँ
१२	ओवरकास्ट	हल्का	उच्च	बलवान	हाँ
१३	ओवरकास्ट	गरम	साधारण	कमज़ोर	हाँ
१४	वर्षा	हल्का	उच्च	बलवान	ऐसा न करें

चरण 1: रूट नोड बनाने के लिए पहला कदम होगा।

चरण 2: यदि सभी परिणाम हाँ हैं, तो पत्ती नोड 'हाँ' वापस कर दिया जाएगा और पत्ती नोड 'नहीं' वापस कर दिया जाएगा।

चरण 3: सभी अवलोकनों की एन्ट्रॉपी और एंट्रॉपी को “एक्स” यानी ई (एस) और ई (एस, एक्स) के साथ खोजें।

चरण 4: जानकारी लाभ प्राप्त करें और उच्च जानकारी लाभ के साथ विशेषता का चयन करें।

चरण 5: उपरोक्त चरणों को तब तक दोहराएं जब तक कि सभी विशेषताएँ कवर न हो जाएं।

एन्ट्रापी की गणना:

हाँ नही

९ ५

एन्ट्रापी

यदि एन्ट्रॉपी शून्य है, तो इसका मतलब है कि सभी सदस्य एक ही वर्ग के हैं और यदि एन्ट्रॉपी एक है तो इसका मतलब है कि ट्यूपल्स का आधा हिस्सा एक वर्ग का है और उनमें से एक अन्य वर्ग का है। 0.94 का मतलब है निष्पक्ष वितरण।

सूचना लाभ विशेषता प्राप्त करें जो अधिकतम जानकारी प्राप्त करता है।

उदाहरण के लिए 'पवन', इसमें दो मूल्य लगते हैं: मजबूत और कमजोर, इसलिए, x = {मजबूत, कमजोर}।

पवन उदाहरण

एक्स = कमजोर और एक्स = मजबूत के लिए एच (एक्स), पी (एक्स) का पता लगाएं। H (S) की गणना पहले ही की जा चुकी है।

कमजोर = =

बलवान = 8

कमजोर ताकतवर

'कमजोर' हवा के लिए, उनमें से 6 क्रिकेट खेलने के लिए 'हां' कहते हैं और उनमें से 2 'नहीं' कहते हैं। तो एन्ट्रापी होगी:

एन्ट्रापी सूत्र

'मजबूत' हवा के लिए, 3 ने क्रिकेट खेलने के लिए 'नहीं' कहा और 3 ने 'हाँ' कहा।

3 की एन्ट्रॉपी ने कहा

यह सही यादृच्छिकता दिखाता है क्योंकि आधा आइटम एक वर्ग से संबंधित है और शेष आधा दूसरों से संबंधित है।

सूचना लाभ की गणना करें,

सूचना लाभ की गणना करें

इसी प्रकार अन्य विशेषताओं के लिए सूचना लाभ है:

अन्य विशेषताओं के लिए सूचना लाभ

विशेषता आउटलुक है उच्चतम जानकारी हासिल 0.246 का, इस प्रकार इसे रूट के रूप में चुना जाता है।

ओवरकास्ट के 3 मूल्य हैं: सनी, ओवरकास्ट और वर्षा। प्ले क्रिकेट के साथ ओवरकास्ट हमेशा 'हाँ' होता है। तो यह एक लीफ नोड के साथ समाप्त होता है, 'हाँ'। अन्य मूल्यों के लिए 'सनी' और 'वर्षा'।

आउटलुक के लिए 'सनी' के रूप में टेबल होगी:

तापमान	नमी	हवा	गोल्फ़
गरम	उच्च	कमज़ोर	ऐसा न करें
गरम	उच्च	बलवान	ऐसा न करें
हल्का	उच्च	कमज़ोर	ऐसा न करें
ठंडा	साधारण	कमज़ोर	हाँ
हल्का	साधारण	बलवान	हाँ

'आउटलुक' 'सनी' के लिए प्रवेश है:

सनी के संबंध में विशेषताओं के लिए सूचना लाभ है:

सनी के संबंध में विशेषताओं के लिए सूचना लाभ

आर्द्रता के लिए सूचना लाभ सबसे अधिक है, इसलिए इसे अगले नोड के रूप में चुना जाता है। इसी तरह, एंट्रॉपी की गणना वर्षा के लिए की जाती है। पवन सबसे अधिक सूचना प्राप्त करता है ।

निर्णय पेड़ नीचे की तरह दिखेगा:

डेक्सियन ट्री एल्गो उदाहरण

भविष्य कहनेवाला मॉडलिंग क्या है?

वर्गीकरण मॉडल का उपयोग अज्ञात सेट की विशेषताओं के परिणामों की भविष्यवाणी करने के लिए किया जा सकता है।

जब अज्ञात वर्ग लेबल वाला डेटासेट मॉडल में खिलाया जाता है, तो यह स्वचालित रूप से कक्षा लेबल को असाइन कर देगा। परिणामों की भविष्यवाणी करने के लिए संभाव्यता को लागू करने की इस पद्धति को भविष्य कहनेवाला मॉडलिंग कहा जाता है।

निर्णय ट्री वर्गीकरण के लाभ

नीचे सूचीबद्ध किए गए निर्णय ट्री वर्गीकरण के विभिन्न गुण हैं:

निर्णय वृक्ष वर्गीकरण को किसी भी डोमेन ज्ञान की आवश्यकता नहीं है, इसलिए, यह ज्ञान की खोज प्रक्रिया के लिए उपयुक्त है।
पेड़ के रूप में डेटा का प्रतिनिधित्व मनुष्य द्वारा आसानी से समझा जाता है और यह सहज है।
यह बहुआयामी डेटा को संभाल सकता है।
यह बड़ी सटीकता के साथ एक त्वरित प्रक्रिया है।

निर्णय वृक्ष वर्गीकरण के नुकसान

नीचे दिए गए निर्णय ट्री वर्गीकरण के विभिन्न अवगुण हैं:

कभी-कभी निर्णय वृक्ष बहुत जटिल हो जाते हैं और इन्हें ओवरफीड्ड ट्री कहा जाता है।
निर्णय ट्री एल्गोरिथ्म एक इष्टतम समाधान नहीं हो सकता है।
अगर कुछ क्लास लेबल इस पर हावी हो जाता है तो निर्णय के पेड़ एक पक्षपाती समाधान दे सकते हैं।

निष्कर्ष

निर्णय पेड़ वर्गीकरण और प्रतिगमन विश्लेषण के लिए डेटा खनन तकनीक हैं।

यह तकनीक अब चिकित्सा निदान, लक्ष्य विपणन आदि जैसे कई क्षेत्रों में फैली हुई है। इन पेड़ों का निर्माण एक एल्गोरिथम जैसे ID3, CART के बाद किया गया है। ये एल्गोरिदम डेटा को विभाजन में विभाजित करने के लिए अलग-अलग तरीके ढूंढते हैं।

यह सबसे व्यापक रूप से ज्ञात पर्यवेक्षण तकनीक है जो मशीन सीखने और पैटर्न विश्लेषण में उपयोग की जाती है। निर्णय पेड़ सिस्टम को प्रदान किए गए प्रशिक्षण सेट से सीखने के माध्यम से मॉडल बनाकर लक्ष्य चर के मूल्यों की भविष्यवाणी करते हैं।

हमें उम्मीद है कि आपने इस जानकारीपूर्ण ट्यूटोरियल से डिसीजन ट्री माइनिंग के बारे में सब कुछ जान लिया होगा !!

PREV ट्यूटोरियल | अगले ट्यूटोरियल

डेटा खनन में निर्णय ट्री एल्गोरिदम उदाहरण

निर्णय वृक्ष का उपयोग क्या है?

वर्गीकरण विश्लेषण

प्रतिगमन विश्लेषण

एक निर्णय वृक्ष कैसे काम करता है?

निर्णय ट्री इंडक्शन एल्गोरिथम

निर्णय ट्री इंडक्शन

कार्ट

मशीन लर्निंग के लिए निर्णय ट्री इंडक्शन: ID3

लालची पुनरावर्ती बाइनरी विभाजन क्या है?

एक पेड़ बनाने के लिए विशेषताओं का चयन कैसे करें?

(1) सूचना लाभ

# 2) अनुपात प्राप्त करें

# 3) गिन्नी सूचकांक

निर्णय पेड़ों में ओवरफिटिंग

ट्री प्रूनिंग क्या है?

भविष्य कहनेवाला मॉडलिंग क्या है?

निर्णय ट्री वर्गीकरण के लाभ

निर्णय वृक्ष वर्गीकरण के नुकसान

निष्कर्ष

अनुशंसित पाठ

दिलचस्प लेख

संपादक की पसंद

मुसौ अभी भी बेचता है: Hyrule वारियर्स एज ऑफ कैलामिटी जहाज चार मिलियन

प्रिंस ऑफ फारस: द लॉस्ट क्राउन में ज़ुर्वन की आवाज़ का ताबीज कैसे प्राप्त करें

समीक्षा करें: फीनिक्स राइट: ऐस अटॉर्नी त्रयी

हेल्म ऑफ़ उर्टकोट क्वेस्ट गाइड वॉकथ्रू हॉगवर्ट्स लिगेसी

स्टारफ़ील्ड में इंजनों को कैसे लक्षित करें

यह लेगो स्टार वार्स: स्काईवॉकर सागा अवलोकन वीडियो इसे लेगो गेम के लिए महत्वाकांक्षी बनाता है

यहां विचर सीजन 3, हेनरी कैविल की विदाई पर एक नजर है

जेनशिन इम्पैक्ट अपने 4.5 कैरेक्टर लाइन-अप में एक जिद्दी सीमस्ट्रेस लेकर आया है

ब्लैक फ्राइडे पर एक्सबॉक्स वन के लिए $ 35 अंतिम काल्पनिक एक्सवी

स्टेलर ब्लेड 26 अप्रैल को पृथ्वी के लिए लड़ाई शुरू करता है

अच्छा विचार, बुरा विचार: विनाशकारी वातावरण

निंजा थ्योरी Hellblade II के आश्चर्यजनक चेहरे की एनीमेशन तकनीक को दिखाती है