apriori algorithm data mining
डेटा माइनिंग में लगातार वस्तुओं का पता लगाने के लिए एप्रीओरी एल्गोरिथम पर गहराई से ट्यूटोरियल। यह ट्यूटोरियल एप्रीओरी में कदम बताता है और यह कैसे काम करता है:
इस में डेटा माइनिंग ट्यूटोरियल सीरीज़ , हम पर एक नजर थी निर्णय ट्री एल्गोरिदम हमारे पिछले ट्यूटोरियल में।
डेटा माइनिंग के लिए कई तरीके हैं जैसे एसोसिएशन, सहसंबंध, वर्गीकरण और क्लस्टरिंग।
sql सर्वर 2012 अनुभवी पीडीएफ के लिए प्रश्न और उत्तर का साक्षात्कार करता है
यह ट्यूटोरियल मुख्य रूप से एसोसिएशन नियमों का उपयोग करके खनन पर केंद्रित है। संघ के नियमों द्वारा, हम एक तालिका में एक साथ होने वाली वस्तुओं या विशेषताओं के समूह की पहचान करते हैं।
आप क्या सीखेंगे:
- एक आइटमसेट क्या है?
- क्यों लगातार आइटम खनन?
- Apriori क्षमता में सुधार करने के तरीके
- एपोरिओरी एल्गोरिदम के अनुप्रयोग
- निष्कर्ष
एक आइटमसेट क्या है?
एक साथ वस्तुओं के एक सेट को एक आइटमसेट कहा जाता है। यदि किसी आइटमसेट में के-आइटम हैं तो उसे के-आइटमसेट कहा जाता है। एक आइटम में दो या दो से अधिक आइटम होते हैं। एक आइटमसेट जो अक्सर होता है, उसे एक बार-बार आने वाला आइटम कहा जाता है। इस प्रकार बार-बार आइटमसेट माइनिंग एक डेटा माइनिंग तकनीक है जो अक्सर एक साथ होने वाली वस्तुओं की पहचान करने के लिए होती है।
उदाहरण के लिए , रोटी और मक्खन, लैपटॉप और एंटीवायरस सॉफ्टवेयर, आदि।
एक लगातार आइटम क्या है?
वस्तुओं के एक सेट को अक्सर कहा जाता है यदि यह समर्थन और आत्मविश्वास के लिए न्यूनतम सीमा मूल्य को संतुष्ट करता है। समर्थन एकल लेनदेन में एक साथ खरीदी गई वस्तुओं के साथ लेनदेन दिखाता है। आत्मविश्वास लेनदेन को दर्शाता है जहां आइटम एक के बाद एक खरीदे जाते हैं।
बार-बार आइटमसेट खनन विधि के लिए, हम केवल उन लेनदेन पर विचार करते हैं जो न्यूनतम सीमा समर्थन और विश्वास आवश्यकताओं को पूरा करते हैं। इन खनन एल्गोरिदम से अंतर्दृष्टि बहुत सारे लाभ, लागत में कटौती और बेहतर प्रतिस्पर्धात्मक लाभ प्रदान करती हैं।
बार-बार खनन के लिए डेटा और डेटा की मात्रा के लिए लिया गया एक व्यापार समय है। लगातार खनन एल्गोरिथ्म एक कुशल एल्गोरिदम है जो थोड़े समय और कम मेमोरी खपत के भीतर आइटमों के छिपे हुए पैटर्न को खान देता है।
बार-बार पैटर्न खनन (FPM)
एक डेटासेट में विभिन्न वस्तुओं के बीच संबंधों की खोज करने के लिए डेटा पैटर्न खनन की सबसे महत्वपूर्ण तकनीक है। इन संबंधों को संघ के नियमों के रूप में दर्शाया जाता है। यह डेटा में अनियमितताओं को खोजने में मदद करता है।
एफपीएम में डेटा विश्लेषण, सॉफ्टवेयर बग, क्रॉस-मार्केटिंग, बिक्री अभियान विश्लेषण, मार्केट बास्केट विश्लेषण आदि के क्षेत्र में कई अनुप्रयोग हैं।
Apriori के माध्यम से खोजी गई लगातार वस्तुओं में डेटा माइनिंग कार्यों में कई अनुप्रयोग हैं। डेटाबेस में दिलचस्प पैटर्न ढूंढना, अनुक्रम नियमों का पता लगाना और खनन नियमों का खनन उनमें से सबसे महत्वपूर्ण है।
एसोसिएशन के नियम सुपरमार्केट लेनदेन डेटा पर लागू होते हैं, अर्थात खरीदे गए उत्पादों के संदर्भ में ग्राहक के व्यवहार की जांच करना। एसोसिएशन के नियम बताते हैं कि कितनी बार आइटम एक साथ खरीदे जाते हैं।
एसोसिएशन के नियम
एसोसिएशन नियम खनन के रूप में परिभाषित किया गया है:
'चलो = {...} आइटम नामक 'एन' बाइनरी विशेषताओं का एक सेट हो। D = {…।} लेन-देन का सेट करें जिसे डेटाबेस कहा जाता है। डी में प्रत्येक लेनदेन में एक अद्वितीय लेनदेन आईडी होता है और इसमें आइटम्स का सबसेट होता है। एक नियम को X-> Y जहां X, Y के रूप में परिभाषित किया जाता है? I और X? Y = ?. वस्तुओं के समुच्चय को क्रमशः X और Y के नियम कहा जाता है।
एसोसिएशन के नियमों का सीखना बड़े डेटाबेस में विशेषताओं के बीच संबंधों को खोजने के लिए उपयोग किया जाता है। एक एसोसिएशन नियम, ए => बी, लेन-देन के सेट के लिए 'फॉर्म का होगा', आइटमसेट के कुछ मूल्य एसेटसेट बी के मूल्यों को निर्धारित करता है, जिसमें न्यूनतम समर्थन और विश्वास मिलता है।
समर्थन और आत्मविश्वास निम्नलिखित उदाहरण द्वारा दर्शाया जा सकता है:
Bread=> butter (support=2%, confidence-60%)
उपर्युक्त कथन संघ के शासन का एक उदाहरण है। इसका मतलब यह है कि 2% लेन-देन है जो ब्रेड और मक्खन को एक साथ खरीदता है और 60% ग्राहक हैं जिन्होंने ब्रेड के साथ-साथ बटर भी खरीदा है।
आइटमसेट ए और बी के लिए समर्थन और आत्मविश्वास को सूत्रों द्वारा दर्शाया गया है:
एसोसिएशन नियम खनन में 2 चरण होते हैं:
- सभी लगातार आइटम खोजें।
- उपरोक्त बार-बार होने वाले सामानों से एसोसिएशन के नियम बनाएं।
क्यों लगातार आइटम खनन?
बार-बार आने वाले पैटर्न, अनुक्रमिक पैटर्न और कई अन्य डेटा माइनिंग कार्यों पर आधारित खनन संघ के नियमों, सहसंबंधों और ग्राफ पैटर्न की कमी में व्यापक आइटम या पैटर्न खनन का व्यापक रूप से उपयोग किया जाता है।
एपोरिओरी एल्गोरिदम - बार-बार पैटर्न एल्गोरिदम
Apriori एल्गोरिथ्म पहला एल्गोरिथ्म था जिसे लगातार आइटमसेट खनन के लिए प्रस्तावित किया गया था। बाद में आर अग्रवाल और आर श्रीकांत द्वारा इसमें सुधार किया गया और इसे अपोरी कहा जाने लगा। यह एल्गोरिथ्म खोज स्थान को कम करने के लिए दो चरणों 'जॉइन' और 'प्रून' का उपयोग करता है। यह सबसे लगातार आइटम खोजने के लिए एक पुनरावृत्त दृष्टिकोण है।
अपोरी कहते हैं:
संभावना है कि आइटम मैं अक्सर नहीं है अगर:
- पी (आई)
- P (I + A)
- यदि किसी आइटम सेट का न्यूनतम समर्थन से कम मूल्य है, तो उसके सभी सुपरसेट भी न्यूनतम समर्थन से नीचे गिर जाएंगे, और इस तरह से इसे अनदेखा किया जा सकता है। इस संपत्ति को एंटिमोनोटोन संपत्ति कहा जाता है।
- P (I + A)
डेटा माइनिंग के एपोरिओरी एल्गोरिदम में निम्नलिखित चरण हैं:
- स्टेप ज्वाइन करें : यह चरण प्रत्येक आइटम को स्वयं से जोड़कर K- आइटम से आइटम (K + 1) उत्पन्न करता है।
- प्रून स्टेप : यह चरण डेटाबेस में प्रत्येक आइटम की गिनती को स्कैन करता है। यदि उम्मीदवार आइटम न्यूनतम समर्थन को पूरा नहीं करता है, तो इसे अनंतिम माना जाता है और इस प्रकार इसे हटा दिया जाता है। यह कदम उम्मीदवार आइटम के आकार को कम करने के लिए किया जाता है।
एपोरी में कदम
Apriori एल्गोरिथ्म दिए गए डेटाबेस में सबसे लगातार आइटम खोजने के लिए अनुसरण किए जाने वाले चरणों का एक क्रम है। यह डेटा माइनिंग तकनीक जॉइन करता है और प्रून क्रमिक रूप से तब तक चलता रहता है जब तक कि सबसे लगातार आइटमसेट प्राप्त नहीं हो जाता। समस्या में एक न्यूनतम समर्थन सीमा दी जाती है या इसे उपयोगकर्ता द्वारा मान लिया जाता है।
# 1) एल्गोरिथ्म के पहले पुनरावृत्ति में, प्रत्येक आइटम को 1-आइटमसेट उम्मीदवार के रूप में लिया जाता है। एल्गोरिथ्म प्रत्येक आइटम की घटनाओं की गणना करेगा।
#दो) आज्ञा देना कुछ न्यूनतम समर्थन, min_sup (जैसे 2)। 1 - आइटम का सेट जिसकी घटना न्यूनतम है जब न्यूनतम समर्थन निर्धारित किया जाता है। केवल वे उम्मीदवार जो min_sup से अधिक या उसके बराबर गिने जाते हैं, उन्हें अगली पुनरावृत्ति के लिए आगे ले जाया जाता है और अन्य को छंटनी की जाती है।
# 3) अगला, min -sup के साथ 2-आइटम लगातार आइटम खोजे जाते हैं। इसके लिए ज्वाइन स्टेप में, 2-आइटम को स्वयं के साथ आइटम को मिलाकर 2 का समूह बनाकर उत्पन्न किया जाता है।
# 4) 2-आइटम वाले उम्मीदवारों को मिन-सुपर थ्रेशोल्ड मान का उपयोग करके छंटनी की जाती है। अब टेबल में केवल मिन-सुप्रीम के साथ 2 -टिमेटसेट होंगे।
# 5) अगला पुनरावृति ज्वाइन और प्रून स्टेप का उपयोग करके 3 -itemsets बनेगा। यह पुनरावृत्ति एंटीमोनोटोन संपत्ति का पालन करेगी जहां 3-आइटमों के सबसेट, यानी प्रत्येक समूह के 2 -टिटसेट उप सबसेट min_sup में आते हैं। यदि सभी 2-आइटम सबसेट अक्सर होते हैं, तो सुपरसेट अक्सर होगा अन्यथा यह छंटनी होती है।
# 6) अगला कदम 3-आइटमसेट को स्वयं से जोड़कर 4-आइटम बनाने का अनुसरण करेगा और यदि उसका सबसेट min_sup मानदंड को पूरा नहीं करता है तो प्रूनिंग करें। सबसे अधिक बार आइटमसेट प्राप्त होने पर एल्गोरिथ्म को रोक दिया जाता है।
(छवि स्रोत )
Apriori का उदाहरण:समर्थन सीमा = 50%, आत्मविश्वास = 60%
तालिका एक
लेन-देन | वस्तुओं की सूचि |
---|---|
टी 1 | I1, I2, I3 |
टी 2 | I2, I3, I4 |
टी 3 | I4, I5 |
टी -4 | I1, I2, I4 |
टी 5 | I1, I2, I3, I5 |
टी 6 | I1, I2, I3, I4 |
उपाय:
समर्थन सीमा = 50% => 0.5 * 6 = 3 => min_sup = 3
1. प्रत्येक आइटम की गिनती
तालिका 2
मद | गिनती |
---|---|
I1 | ४ |
I2 | ५ |
I3 | ४ |
I4 | ४ |
I5 | दो |
२। प्रून स्टेप: तालिका 2 दिखाता है कि I5 आइटम min_sup = 3 से नहीं मिलता है, इस प्रकार इसे हटा दिया जाता है, केवल I1, I2, I3, I4 min_sup की संख्या को पूरा करते हैं।
टेबल तीन
मद | गिनती |
---|---|
I1 | ४ |
I2 | ५ |
I3 | ४ |
I4 | ४ |
३। कदम से जुड़ें: फॉर्म 2-आइटमसेट। से तालिका एक 2-आइटम की घटनाओं का पता लगाएं।
टेबल-4
मद | गिनती |
---|---|
I1, I2 | ४ |
I1,I3 | ३ |
I1,I4 | दो |
I2, I3 | ४ |
I2, I4 | ३ |
I3, I4 | दो |
चार। प्रून स्टेप: टेबल -4 वह आइटम सेट दिखाता है {I1, I4} और {I3, I4}, min_sup को पूरा नहीं करता है, इस प्रकार इसे हटा दिया जाता है।
टेबल-5
मद | गिनती |
---|---|
I1, I2 | ४ |
I1,I3 | ३ |
I2, I3 | ४ |
I2, I4 | ३ |
५। जुड़ें और कदम बढ़ाएँ: फॉर्म 3-आइटमसेट। से तालिका एक 3-आइटमसेट की घटनाओं का पता लगाएं। से टेबल-5 , 2-आइटम सबसेट का पता लगाएं, जो min_sup का समर्थन करते हैं।
हम आइटमसेट के लिए देख सकते हैं {I1, I2, I3} सबसेट, {I1, I2}, {I1, I3}, {I2, I3} में हो रहे हैं टेबल-5 इस प्रकार {I1, I2, I3} अक्सर होता है।
हम आइटमसेट {I1, I2, I4} सबसेट, {I1, I2}, {I1, I4}, {I2, I4}, {I1, I4} के लिए देख सकते हैं, जैसा कि इसमें नहीं हो रहा है। टेबल-5 इस प्रकार {I1, I2, I4} अक्सर नहीं होता है, इसलिए इसे हटा दिया जाता है।
टेबल -6
मद |
---|
I1, I2, I3 |
I1, I2, I4 |
I1,I3,I4 |
I2, I3, I4 |
केवल {I1, I2, I3} अक्सर होता है ।
6. एसोसिएशन नियम बनाएं: एसोसिएशन के ऊपर खोजे गए लगातार आइटम से हो सकता है:
{1, I2} => {I3}
आत्मविश्वास = समर्थन {I1, I2, I3} / समर्थन {I1, I2} = (3/4) * 100 = 75%
{1, I3} => {I2}
आत्मविश्वास = समर्थन {I1, I2, I3} / समर्थन {I1, I3} = (3/3) * 100% - 100%
{2, I3} => {I1}
आत्मविश्वास = समर्थन {I1, I2, I3} / समर्थन {I2, I3} = (3/4) * 100 = 75%
{1} => {I2, I3}
आत्मविश्वास = समर्थन {I1, I2, I3} / समर्थन {I1} = (3/4) * 100 = 75%
{2} => {I1, I3}
आत्मविश्वास = समर्थन {I1, I2, I3} / समर्थन {I2 = (3/5) * 100 = 60%
{3} => {I1, I2}
आत्मविश्वास = समर्थन {I1, I2, I3} / समर्थन {I3} = (3/4) * 100 = 75%
इससे पता चलता है कि उपरोक्त सभी नियम नियम मजबूत हैं यदि न्यूनतम आत्मविश्वास सीमा 60% है।
द एप्रीओरी एल्गोरिदम: स्यूडो कोड
सी: उम्मीदवार आइटम का आकार k
एल: आकार कश्मीर के लगातार आइटम
सबसे अच्छी जगह मुफ्त में मोबाइल फोनों के लिए देखने के लिए
(छवि स्रोत )
लाभ
- एल्गोरिथम समझने में आसान है
- बड़े डेटाबेस में बड़े आइटमों पर शामिल होने के लिए जुड़ें और प्रून चरणों को लागू करना आसान है
नुकसान
- यदि आइटम बहुत बड़े हैं और न्यूनतम समर्थन बहुत कम रखा जाता है, तो इसे उच्च गणना की आवश्यकता होती है।
- पूरे डेटाबेस को स्कैन करने की आवश्यकता है।
Apriori क्षमता में सुधार करने के तरीके
एल्गोरिथ्म की दक्षता में सुधार के लिए कई तरीके उपलब्ध हैं।
- हैश-आधारित तकनीक: यह विधि k- आइटमसेट और इसके संबंधित गणना के लिए हैश तालिका नामक एक हैश-आधारित संरचना का उपयोग करती है। यह तालिका बनाने के लिए हैश फ़ंक्शन का उपयोग करता है।
- लेनदेन में कमी: यह विधि पुनरावृत्तियों में लेनदेन की संख्या को कम करती है। जिन लेन-देन में बार-बार आइटम नहीं होते हैं उन्हें चिह्नित या हटा दिया जाता है।
- विभाजन: इस विधि के लिए लगातार दो खानों के लिए केवल दो डेटाबेस स्कैन की आवश्यकता होती है। यह कहता है कि डेटाबेस में किसी भी आइटम के लिए संभावित रूप से लगातार होना चाहिए, यह डेटाबेस के कम से कम एक विभाजन में अक्सर होना चाहिए।
- नमूनाकरण: यह विधि डेटाबेस डी से एक यादृच्छिक नमूना एस चुनती है और फिर एस में लगातार आइटमसेट की खोज करती है। यह वैश्विक लगातार आइटमसेट खोना संभव हो सकता है। यह min_sup को कम करके कम किया जा सकता है।
- गतिशील आइटम की गिनती: यह तकनीक डेटाबेस की स्कैनिंग के दौरान डेटाबेस के किसी भी चिह्नित प्रारंभ बिंदु पर नए उम्मीदवार आइटम जोड़ सकती है।
एपोरिओरी एल्गोरिदम के अनुप्रयोग
कुछ क्षेत्र जहां अप्रीरी का उपयोग किया जाता है:
- शिक्षा क्षेत्र में: विशेषताओं और विशिष्टताओं के माध्यम से भर्ती छात्रों के डेटा खनन में एसोसिएशन नियमों को निकालना।
- चिकित्सा क्षेत्र में: उदाहरण के लिए रोगी के डेटाबेस का विश्लेषण।
- वानिकी में: जंगल की आग के आंकड़ों के साथ जंगल की आग की संभावना और तीव्रता का विश्लेषण।
- Apriori का उपयोग Amazon जैसी कई कंपनियों द्वारा किया जाता है अनुशंसा प्रणाली और Google द्वारा स्वतः-पूर्ण सुविधा के लिए।
निष्कर्ष
Apriori एल्गोरिथ्म एक कुशल एल्गोरिथ्म है जो केवल एक बार डेटाबेस को स्कैन करता है।
यह डेटाबेस में आइटमों के आकार को काफी हद तक कम कर देता है जिससे एक अच्छा प्रदर्शन मिलता है। इस प्रकार, डेटा माइनिंग उपभोक्ताओं और उद्योगों को निर्णय लेने की प्रक्रिया में बेहतर मदद करता है।
फ़्रीक्वेंट पैटर्न ग्रोथ एलगोरिदम के बारे में अधिक जानने के लिए हमारे आगामी ट्यूटोरियल को देखें !!
PREV ट्यूटोरियल | अगले ट्यूटोरियल
अनुशंसित पाठ
- डेटा माइनिंग तकनीक: एल्गोरिथम, तरीके और शीर्ष डेटा खनन उपकरण
- डेटा माइनिंग: डेटा एनालिसिस में प्रक्रिया, तकनीक और प्रमुख मुद्दे
- डेटा माइनिंग उदाहरण: डेटा माइनिंग 2021 के अधिकांश सामान्य अनुप्रयोग
- डेटा खनन में निर्णय ट्री एल्गोरिदम उदाहरण
- डाटा माइनिंग प्रोसेस: मॉडल, प्रोसेस स्टेप्स और चुनौतियां शामिल हैं
- डाटा माइनिंग बनाम मशीन लर्निंग बनाम आर्टिफिशियल इंटेलिजेंस बनाम डीप लर्निंग
- शीर्ष 15 सर्वश्रेष्ठ मुफ्त डेटा खनन उपकरण: सबसे व्यापक सूची
- JMeter डेटा परिशोधन उपयोगकर्ता परिभाषित चर का उपयोग कर