weka dataset classifier
यह ट्यूटोरियल निर्णय वृक्ष के लिए WEKA डेटासेट, क्लासिफायर और J48 एल्गोरिथम की व्याख्या करता है। इसके अलावा Weka के लिए नमूना ARFF डेटासेट के बारे में जानकारी प्रदान करता है:
में पिछला ट्यूटोरियल , हमने वीका मशीन लर्निंग टूल, इसकी विशेषताओं, और वेका मशीन लर्निंग सॉफ्टवेयर को डाउनलोड, इंस्टॉल और उपयोग करने के बारे में सीखा।
WEKA वास्तविक डेटा पर डेटा माइनिंग समस्याओं को हल करने के लिए मशीन लर्निंग एल्गोरिदम की एक लाइब्रेरी है। WEKA भी कई मशीन लर्निंग एल्गोरिदम विकसित करने के लिए एक वातावरण प्रदान करता है। इसमें विभिन्न डेटा माइनिंग कार्यों जैसे डेटा वर्गीकरण, डेटा क्लस्टरिंग, रिग्रेशन, विशेषता चयन, बार-बार आइटम्स का खनन, और इसी तरह के उपकरण ले जाने का एक सेट है।
ये सभी कार्य WEKA रिपॉजिटरी में उपलब्ध sample.ARFF फाइल पर किए जा सकते हैं या उपयोगकर्ता अपनी डेटा फाइल तैयार कर सकते हैं। नमूना .arff फाइलें डेटासेट्स हैं जो शोधकर्ताओं द्वारा एकत्र किए गए ऐतिहासिक डेटा में अंतर्निहित हैं।
=> कम्प्लीट मशीन लर्निंग ट्रेनिंग सीरीज़ के माध्यम से पढ़ें
इस ट्यूटोरियल में, हम WEKA में कुछ सैंपल डेटासेट देखेंगे और वेदर.ऑर्फ़ डेटासेट का उपयोग करके निर्णय ट्री एल्गोरिथ्म डेटा माइनिंग भी करेंगे।
आप क्या सीखेंगे:
WEKA डेटासेट की खोज
WEKA मशीन लर्निंग टूल कुछ नमूना डेटासेट की एक निर्देशिका प्रदान करता है। इन डेटासेट को उपयोगकर्ताओं को सीधे मॉडल विकसित करने के लिए WEKA में सीधे लोड किया जा सकता है।
WEKA डेटासेट को 'C: Program Files Weka-3-8 data' लिंक से खोजा जा सकता है। डेटासेट .arff प्रारूप में हैं।
नमूना WEKA डेटासेट
WEKA में मौजूद कुछ नमूना डेटासेट नीचे दी गई तालिका में सूचीबद्ध हैं:
क्र.सं. | नमूना डेटासेट |
---|---|
।। | मधुमेह |
१। | एयरलाइन |
दो। | स्तन-कैंसर |
३। | संपर्क-लेंस |
चार। | cpu.arff |
५। | cpu.with-seller.arff |
६। | credit-g.arff |
।। | ग्लास |
९। | hypothyroid.arff |
१०। | आयनोस्पे |
ग्यारह। | iris.2D.arff |
१२। | iris.arff |
१३। | श्रम |
१४। | रायटरकोर्न- train.arff |
पंद्रह। | रायटरकोर्न- test.arff |
१६। | रायटरग्रेन- train.arff |
१।। | रायटरग्रेन-परीक्षण |
१।। | खंड-चुनौती |
१ ९। | खंड- test.arff |
बीस। | सोयाबीन |
इक्कीस। | सुपरमार्केट |
२२। | असंतुलित होना |
२। ३। | वोट |
२४। | weather.numeric.arff |
२५। | weather.nominal.arff |
आइए इनमें से कुछ पर एक नज़र डालें:
संपर्क-लेंस
contact-lens.arff डेटासेट संपर्क लेंसों के लिए एक डेटाबेस है। यह दान दाता, बेनोइट जुलियन द्वारा वर्ष 1990 में दिया गया था।
डेटाबेस: यह डेटाबेस पूर्ण है। इस डेटाबेस में उपयोग किए गए उदाहरण पूर्ण और शोर-रहित हैं। डेटाबेस में 24 उदाहरण और 4 विशेषताएँ हैं।
विशेषताएँ: चारों विशेषताएँ नाममात्र की हैं। कोई अनुपलब्ध गुण मान नहीं हैं। चार विशेषताएं इस प्रकार हैं:
# 1) रोगी की आयु: विशेषता आयु मान ले सकती है:
- युवा
- प्री-प्रेसबायोपिक
- जराक्षिदोषात्मक
#दो) तमाशा पर्चे: यह विशेषता मान ले सकती है:
- कमबीन
- हाइपरमेट्रोपे
# 3) दृष्टिवैषम्य: यह विशेषता मान ले सकती है
- ऐसा न करें
- हाँ
# 4) आंसू उत्पादन दर: मान हो सकते हैं
- कम किया हुआ
- साधारण
वर्ग: तीन वर्ग लेबल यहाँ परिभाषित किए गए हैं। ये:
- रोगी को हार्ड कॉन्टेक्ट लेंस के साथ फिट किया जाना चाहिए।
- रोगी को सॉफ्ट कॉन्टैक्ट लेंस के साथ फिट किया जाना चाहिए।
- रोगी को संपर्क लेंस के साथ फिट नहीं किया जाना चाहिए।
वर्ग वितरण: ऐसे उदाहरण जिन्हें कक्षा के लेबल में वर्गीकृत किया गया है, उन्हें नीचे सूचीबद्ध किया गया है:
कक्षा लेबल | उदाहरणों की नहीं | |
---|---|---|
१। | हार्ड कॉन्टेक्ट लेंस | ४ |
दो। | नरम संपर्क लेंस | ५ |
३। | कोई संपर्क लेंस नहीं | पंद्रह |
iris.arff
iris.arff डाटासेट 1988 में माइकल मार्शल द्वारा बनाया गया था। यह Iris Plants डेटाबेस है।
c ++ फ़ंक्शन में सरणियाँ
डेटाबेस: इस डेटाबेस का उपयोग पैटर्न पहचान के लिए किया जाता है। डेटा सेट में 50 उदाहरणों के 3 वर्ग होते हैं। प्रत्येक वर्ग एक प्रकार के आईरिस पौधे का प्रतिनिधित्व करता है। एक वर्ग अन्य 2 से रैखिक रूप से अलग है, लेकिन बाद वाले एक दूसरे से रैखिक रूप से अलग नहीं हैं। यह भविष्यवाणी करता है कि 3 आईरिस फूल किस प्रजाति के हैं। इसे एक बहु-श्रेणी वर्गीकरण डेटासेट कहा जाता है।
विशेषताएँ: इसमें 4 संख्यात्मक, भविष्य कहनेवाला गुण और वर्ग है। कोई लापता गुण नहीं हैं।
विशेषताएं हैं:
- सेमी लंबाई में सेमी
- सेमी में सीपाल चौड़ाई
- सेमी में पंखुड़ी की लंबाई
- सेमी में पंखुड़ी की चौड़ाई
- वर्ग:
- आइरिस सेटोसा
- आइरिस वर्सिकलर
- आइरिस वर्जिनिका
सारांश आँकड़े:
मिनट | मैक्स | मीन | एसडी | वर्ग सहसंबंध | |
---|---|---|---|---|---|
sepal लंबाई | 4.3 | 7.9 | 5.84 | 0.83 | 0.7826 है |
sepal चौड़ाई | 2.0 | 4.4 | 3.05 है | ०.४३ | -0.4194 |
पंखुड़ी की लंबाई | 1.0 | 6.9 है | 3.76 | 1.76 | 0.9490 (उच्च!) |
पंखुड़ी की चौड़ाई | 0.1 | 2.5 है | 1.20 | 0.76 | 0.9565 (उच्च) |
कक्षा वितरण: प्रत्येक 3 वर्गों के लिए 33.3%
कुछ अन्य डेटासेट:
मधुमेह
इस डेटासेट का डेटाबेस Pima Indian Diabetes है। यह डेटासेट भविष्यवाणी करता है कि क्या मरीज को अगले 5 वर्षों में मधुमेह होने का खतरा है। इस डेटासेट में मरीज पीमा इंडियन हेरिटेज से कम से कम 21 वर्ष की आयु के सभी महिलाएं हैं। इसमें 768 उदाहरण और 8 संख्यात्मक विशेषताएं हैं और एक वर्ग है। यह एक द्विआधारी वर्गीकरण डेटासेट है जहां अनुमानित चर दो वर्गों के नाममात्र का होता है।
आयनमंडल
यह बाइनरी वर्गीकरण के लिए एक लोकप्रिय डेटासेट है। इस डेटासेट में मौजूद उदाहरण में वातावरण से रडार रिटर्न के गुणों का वर्णन किया गया है। इसका उपयोग यह अनुमान लगाने के लिए किया जाता है कि आयनमंडल की कोई संरचना है या नहीं। इसमें 34 संख्यात्मक विशेषताएं और एक वर्ग है।
वर्ग विशेषता 'अच्छा' या 'बुरा' है जो 34 विशेषताओं के अवलोकन के आधार पर भविष्यवाणी की जाती है। प्राप्त संकेतों को तर्क के रूप में समय नाड़ी और नाड़ी संख्या लेते हुए ऑटोकैरेलेशन फ़ंक्शन द्वारा संसाधित किया जाता है।
प्रतिगमन डेटासेट
प्रतिगमन डेटासेट WEKA वेबपेज से डाउनलोड किया जा सकता है ” डेटासेट के संग्रह ”। इसमें विभिन्न स्रोतों से प्राप्त 37 प्रतिगमन समस्याएं हैं। डाउनलोड की गई फ़ाइल .arff प्रारूप में प्रतिगमन डेटासेट के साथ संख्यात्मक / निर्देशिका बनाएगी।
निर्देशिका में मौजूद लोकप्रिय डेटासेट निम्नानुसार हैं: लॉन्गले आर्थिक डेटासेट (longley.arff), बोस्टन घर मूल्य डाटासेट (Housing.arff), और स्तनधारियों के डेटा सेट (sleep.arff) में सोते हैं।
आइए अब देखते हैं कि WEKA एक्सप्लोरर का उपयोग करके डेटासेट में वास्तविक-मूल्यवान और नाममात्र विशेषताओं की पहचान कैसे करें।
क्या वास्तविक मूल्य और नाममात्र गुण हैं
वास्तविक मूल्यवान विशेषताएँ केवल वास्तविक मूल्यों वाले संख्यात्मक गुण हैं। ये औसत दर्जे की मात्राएँ हैं। इन विशेषताओं को अंतराल स्केल किया जा सकता है जैसे कि तापमान या अनुपात जैसे कि माध्य, मध्यमान।
नाममात्र के गुण नाम या कुछ चीजों का प्रतिनिधित्व करते हैं। ऐसी विशेषताओं में कोई आदेश नहीं है और वे कुछ श्रेणी का प्रतिनिधित्व करते हैं। उदाहरण के लिए, रंग।
डेटासेट में वास्तविक मूल्यों और नाममात्र विशेषताओं की पहचान के लिए WEKA का उपयोग करने के लिए नीचे दिए गए चरणों का पालन करें।
# 1) WEKA खोलें और 'एप्लिकेशन' के तहत 'एक्सप्लोरर' चुनें।
#दो) 'पूर्व-प्रक्रिया' टैब चुनें। 'ओपन फाइल' पर क्लिक करें। WEKA उपयोगकर्ता के साथ, आप WEKA नमूना फ़ाइलों तक पहुँच सकते हैं।
# 3) WEKA3.8 फ़ोल्डर से स्थानीय सिस्टम पर संग्रहीत इनपुट फ़ाइल का चयन करें। पूर्वनिर्धारित .arff फ़ाइल 'credit-g.arff' फ़ाइल का चयन करें और 'Open' पर क्लिक करें।
# 4) एक विशेषता सूची बाएं पैनल पर खुलेगी। चयनित विशेषता आँकड़े हिस्टोग्राम के साथ दाहिने पैनल पर दिखाए जाएंगे।
डेटासेट का विश्लेषण:
बाएं पैनल में वर्तमान संबंध दिखाता है:
- संबंध का नाम: german_credit नमूना फ़ाइल है।
- उदाहरण: डेटासेट में 1000 पंक्तियों की संख्या।
- विशेषताएँ: डेटासेट में 21 विशेषताएँ।
वर्तमान संबंध के नीचे का पैनल विशेषताओं का नाम दिखाता है।
दाएं पैनल में, चयनित विशेषता आँकड़े प्रदर्शित किए जाते हैं। को चुनिए विशेषता 'जाँच_स्टैटस'।
यह दिखाता है:
- विशेषता का नाम
- गुम: डेटासेट में विशेषता के किसी भी लापता मान। इस मामले में 0%।
- विशिष्ट: विशेषता के 4 अलग-अलग मूल्य हैं।
- प्रकार: विशेषता नाममात्र प्रकार की है, यह कोई संख्यात्मक मान नहीं लेता है।
- गणना: 1000 उदाहरणों के बीच, गिनती कॉलम में प्रत्येक अलग वर्ग लेबल की गिनती लिखी गई है।
- हिस्टोग्राम: यह विशेषता के लिए आउटपुट क्लास लेबल प्रदर्शित करेगा। इस डेटासेट में वर्ग लेबल या तो अच्छा है या बुरा है। अच्छे के 700 उदाहरण हैं (नीले रंग में चिह्नित) और बुरे के 300 उदाहरण हैं (लाल रंग से चिह्नित)।
- लेबल के लिए<0, the instances for good or bad are almost the same in number.
- लेबल के लिए, ०<= X<200, the instances with decision good are more than instances with bad.
- इसी तरह, लेबल> = 200 के लिए, अधिकतम उदाहरण अच्छे के लिए होते हैं और चेकिंग लेबल में निर्णय अच्छा होने के अधिक उदाहरण नहीं होते हैं।
अगली विशेषता 'अवधि' के लिए।
सही पैनल दिखाता है:
- नाम: यह विशेषता का नाम है।
- प्रकार: विशेषता का प्रकार संख्यात्मक है।
- अनुपस्थित मान: विशेषता का कोई गुम मान नहीं है।
- विशिष्ट: 1000 उदाहरणों में इसके 33 विशिष्ट मूल्य हैं। इसका अर्थ है 1000 उदाहरणों में इसके 33 विशिष्ट मूल्य हैं।
- अद्वितीय: इसमें 5 अद्वितीय मूल्य हैं जो एक दूसरे के साथ मेल नहीं खाते हैं।
- न्यूनतम मूल्य: विशेषता का न्यूनतम मान 4 है।
- अधिकतम मूल्य: विशेषता का अधिकतम मूल्य 72 है।
- मतलब: मीन इंस्टेंसेस द्वारा विभाजित सभी मूल्यों को जोड़ रहा है।
- मानक विचलन: विशेषता अवधि की समाप्ति।
- हिस्टोग्राम: हिस्टोग्राम में 4 इकाइयों की अवधि को दर्शाया गया है, अधिकतम उदाहरण एक अच्छे वर्ग के लिए होते हैं। जैसे-जैसे अवधि 38 इकाइयों तक बढ़ती है, अच्छे वर्ग लेबल के लिए उदाहरणों की संख्या कम हो जाती है। यह अवधि 72 इकाइयों तक पहुंचती है जिसमें केवल एक ही उदाहरण होता है जो निर्णय को खराब के रूप में वर्गीकृत करता है।
वर्ग नाममात्र की वर्गीकरण विशेषता है। इसके दो अलग-अलग मूल्य हैं: अच्छा और बुरा। अच्छे क्लास लेबल में 700 इंस्टेंस होते हैं और खराब क्लास लेबल में 300 इंस्टेंस होते हैं।
डेटासेट की सभी विशेषताओं की कल्पना करने के लिए, 'सभी को विज़ुअलाइज़ करें' पर क्लिक करें।
# 5) केवल संख्यात्मक विशेषताओं का पता लगाने के लिए, फ़िल्टर बटन पर क्लिक करें। वहां से, पर क्लिक करें चुनें -> WEKA> फिल्टर -> Unsupervised प्रकार -> निकालें प्रकार।
WEKA फिल्टर में एल्गोरिदम के लिए उपयुक्त बनाने के लिए डेटासेट के विशेषता मूल्यों को बदलने के लिए कई कार्यक्षमताओं हैं। उदाहरण के लिए, विशेषताओं का संख्यात्मक परिवर्तन।
डेटासेट से नाममात्र और वास्तविक-मूल्यवान विशेषताओं को फ़िल्टर करना WEKA फ़िल्टर का उपयोग करने का एक और उदाहरण है।
# 6) फ़िल्टर टैब में RemoveType पर क्लिक करें। एक ऑब्जेक्ट एडिटर विंडो खुल जाएगी। विशेषता टाइप करें 'संख्यात्मक विशेषताएँ हटाएं' चुनें और ठीक पर क्लिक करें।
# 7) फ़िल्टर लागू करें। केवल संख्यात्मक विशेषताएँ दिखाई जाएँगी।
वर्गीय विशेषता नाममात्र प्रकार की है। यह आउटपुट को वर्गीकृत करता है और इसलिए इसे हटाया नहीं जा सकता। इस प्रकार इसे संख्यात्मक विशेषता के साथ देखा जाता है।
आउटपुट:
डेटासेट में वास्तविक-मूल्यवान और नाममात्र मूल्यों की पहचान की जाती है। क्लास लेबल के साथ दृश्य को हिस्टोग्राम के रूप में देखा जाता है।
वीका निर्णय ट्री वर्गीकरण एल्गोरिदम
अब, हम देखेंगे कि J48 क्लासिफायर का उपयोग करके weather.nominal.arff डेटासेट पर निर्णय ट्री वर्गीकरण को कैसे लागू किया जाए।
weather.nominal.arff
यह WEKA के प्रत्यक्ष में मौजूद एक नमूना डेटासेट है। अगर मौसम क्रिकेट खेलने के लिए उपयुक्त है तो यह डेटासेट भविष्यवाणी करता है। डेटासेट में 5 विशेषताएँ और 14 उदाहरण हैं। वर्ग लेबल 'प्ले' आउटपुट को 'हां 'या' नहीं 'के रूप में वर्गीकृत करता है।
निर्णय वृक्ष क्या है
डिसीजन ट्री वह वर्गीकरण तकनीक है जिसमें तीन घटक रूट नोड, शाखा (एज या लिंक) और लीफ नोड होते हैं। रूट विभिन्न विशेषताओं के लिए परीक्षण की स्थिति का प्रतिनिधित्व करता है, शाखा सभी संभावित परिणामों का प्रतिनिधित्व करती है जो परीक्षण में हो सकते हैं, और लीफ नोड्स में उस वर्ग का लेबल होता है जिसमें यह होता है। जड़ नोड पेड़ की शुरुआत में होता है जिसे पेड़ का शीर्ष भी कहा जाता है।
जे 48 क्लासिफायर
यह एक निर्णय वृक्ष उत्पन्न करने के लिए एक एल्गोरिथ्म है जो C4.5 (ID3 का एक विस्तार) द्वारा उत्पन्न होता है। इसे एक सांख्यिकीय वर्गीकरण के रूप में भी जाना जाता है। निर्णय ट्री वर्गीकरण के लिए, हमें एक डेटाबेस की आवश्यकता है।
चरणों में शामिल हैं:
# 1) WEKA एक्सप्लोरर खोलें।
#दो) प्रीप्रोसेसर टैब विकल्प के तहत 'फ़ाइल चुनें' से मौसम। Nominal.arff फ़ाइल चुनें।
# 3) अवर्गीकृत डेटा को वर्गीकृत करने के लिए 'वर्गीकृत' टैब पर जाएं। 'चुनें' बटन पर क्लिक करें। इसमें से “पेड़ -> J48” का चयन करें। हमें भी चुनें बटन में अन्य विकल्पों पर एक त्वरित नज़र है:
- Bayes: यह संख्यात्मक विशेषताओं के लिए एक घनत्व का अनुमान है।
- मेटा: यह एक बहु-प्रतिक्रिया रैखिक प्रतिगमन है।
- कार्य: यह लॉजिस्टिक रिग्रेशन है।
- आलसी: यह स्वचालित रूप से मिश्रण एन्ट्रापी सेट करता है।
- नियम: यह एक नियम सीखने वाला है।
- पेड़: पेड़ डेटा को वर्गीकृत करते हैं।
# 4) स्टार्ट बटन पर क्लिक करें। क्लासिफायर आउटपुट दाएं हाथ के पैनल पर देखा जाएगा। यह पैनल में रन जानकारी दिखाता है:
- योजना: वर्गीकरण एल्गोरिथ्म का इस्तेमाल किया।
- उदाहरण: डेटासेट में डेटा पंक्तियों की संख्या।
- विशेषताएँ: डेटासेट में 5 विशेषताएँ हैं।
- पत्तियों की संख्या और वृक्ष का आकार निर्णय वृक्ष का वर्णन करता है।
- मॉडल बनाने में लगने वाला समय: आउटपुट के लिए समय।
- J48 का पूर्ण वर्गीकरण विशेषताओं और उदाहरणों की संख्या के साथ जुड़ा हुआ है।
# 5) पेड़ की कल्पना करने के लिए, परिणाम पर राइट-क्लिक करें और पेड़ की कल्पना करें।
उत्पादन :
उत्पादन एक निर्णय वृक्ष के रूप में होता है। मुख्य विशेषता 'आउटलुक' है।
यदि दृष्टिकोण धूप है, फिर पेड़ नमी का विश्लेषण करता है। यदि आर्द्रता अधिक है तो क्लास लेबल प्ले = 'हाँ'।
यदि आउटलुक घटाटोप है, क्लास लेबल, प्ले 'हाँ' है। वर्गीकरण का पालन करने वाले उदाहरणों की संख्या 4 है।
यदि आउटलुक बरसाती है आगे वर्गीकरण विशेषता 'हवा' का विश्लेषण करने के लिए जगह लेता है। अगर हवा = सच है, तो नाटक = 'नहीं'। उदाहरणों की संख्या जो दृष्टिकोण = हवा और हवा के लिए वर्गीकरण का पालन करती है = सच 2 है।
निष्कर्ष
WEKA मशीन लर्निंग एल्गोरिदम लागू करने के लिए नमूना डेटासेट की एक विस्तृत श्रृंखला प्रदान करता है। उपयोगकर्ता इन नमूना डेटासेट पर वर्गीकरण, प्रतिगमन, विशेषता चयन, एसोसिएशन जैसे मशीन शिक्षण कार्य कर सकते हैं और उनका उपयोग करके टूल भी सीख सकते हैं।
WEKA एक्सप्लोरर कई कार्यों को करने के लिए उपयोग किया जाता है, जो प्रीप्रोसेसिंग से शुरू होता है। प्रीप्रोसेसिंग एक .arff फ़ाइल के रूप में इनपुट लेता है, इनपुट को संसाधित करता है, और एक आउटपुट देता है जिसका उपयोग अन्य कंप्यूटर प्रोग्राम द्वारा किया जा सकता है। WEKA में प्रीप्रोसेसिंग का आउटपुट डेटासेट में मौजूद गुण देता है जो कि सांख्यिकीय विश्लेषण के लिए और कक्षा के लेबल के साथ तुलना में उपयोग किया जा सकता है।
WEKA भी निर्णय पेड़ के लिए कई वर्गीकरण एल्गोरिदम प्रदान करता है। J48 लोकप्रिय वर्गीकरण एल्गोरिदम में से एक है जो एक निर्णय ट्री को आउटपुट करता है। वर्गीकृत टैब का उपयोग करके उपयोगकर्ता निर्णय ट्री की कल्पना कर सकता है। यदि निर्णय ट्री बहुत अधिक आबादी वाला है, तो पेड़ की छंटाई को प्रीप्रोसेस टैब से उन विशेषताओं को हटाकर लागू किया जा सकता है जिनकी आवश्यकता नहीं है और फिर से वर्गीकरण प्रक्रिया शुरू करें।
=> एक्सक्लूसिव मशीन लर्निंग सीरीज के लिए यहां जाएं
अनुशंसित पाठ
- वीका ट्यूटोरियल - कैसे डाउनलोड करें, इंस्टॉल करें और वीका टूल का उपयोग करें
- निर्णय तालिका तकनीक का उपयोग करके जटिल व्यावसायिक तर्क परीक्षण परिदृश्य कैसे लिखें
- WEKA एक्सप्लोरर: विज़ुअलाइज़ेशन, क्लस्टरिंग, एसोसिएशन रूल माइनिंग
- डेटा खनन में निर्णय ट्री एल्गोरिदम उदाहरण
- सी ++ में निर्माण करने का निर्णय
- B ट्री और B + ट्री डेटा संरचना C ++ में
- सी ++ में बाइनरी ट्री डेटा संरचना
- AVL ट्री और ढेर डेटा संरचना C ++ में