विभाजन पूर्वाग्रह वर्गीकरण प्रायिकता के साथ सांख्यिकी समझ
आकड़े - नाइव बेayes वर्गीकरण संभावना
नैव बेयस वर्गीकरणकर्ता एक लोकप्रिय मशीन लर्निंग एल्गोरिदम है जो वर्गीकरण कार्यों के लिए उपयोग किया जाता है। यह बेयस के प्रमेय पर आधारित है और विशेष रूप से बड़े डेटा सेट के साथ अच्छा काम करता है। अपनी सरलता के बावजूद, यह विभिन्न वास्तविक जीवन के परिदृश्यों में प्रभावी साबित हुआ है, जिसमें स्पैम फ़िल्टरिंग, भावना विश्लेषण, और अनुशंसा प्रणाली शामिल हैं। यह लेख नैव बेयस वर्गीकरणकर्ता फार्मूला को विश्लेषित करेगा, इसके इनपुट और आउटपुट को समझाएगा, और इसे एक साथ लाने के लिए व्यावहारिक उदाहरण प्रदान करेगा।
सूत्र को समझना
नैव बेयस वर्गीकरण सूत्र को इस प्रकार वर्णित किया जा सकता है:
P(C|X) = [P(X|C) * P(C)] / P(X)
जहाँ:
- P(C|X) यह भविष्यवक्ता (X) के आधार पर श्रेणी (C) की बाद की संभावना है।
- P(X|C) यह संभावना है जो वर्ग (C) के मामले में पूर्वानुमानकर्ता (X) की संभावना है।
- P(C) क्लास की पूर्व संभाव्यता है।
- P(X) प्री अनुमान लगाई गई संभावना है।
इनपुट और आउटपुट का विस्तृत विश्लेषण
चलो हम प्रत्येक घटक का अधिक विस्तार से अन्वेषण करें:
P(C|X) - पश्चात्तल संभावना
यह विशेष श्रेणी की सत्यता की संभावना है जो इनपुट फ़ीचर्स के दिए जाने पर होती है। उदाहरण के लिए, यदि आप ईमेल को स्पैम या नॉन स्पैम के रूप में वर्गीकृत कर रहे हैं, P(C|X)
यह संभावना क्या होगी कि एक ईमेल स्पाम है जब कुछ शब्दों की उपस्थिति हो।
P(X|C) - संभावना
यह किसी विशिष्ट श्रेणी के तहत इनपुट विशेषताओं के सत्य होने की संभावना है। उदाहरण के लिए, यदि एक ईमेल स्पैम है, तो विशिष्ट शब्दों के सामने आने की संभावना क्या है?
P(C) - पूर्व संभावना
यह डेटा सेट में प्रत्येक वर्ग के होने की संभावना को दर्शाता है। हमारे ईमेल उदाहरण में, यह आपके पूरे ईमेल डेटा सेट में स्पैम ईमेल के अनुपात का प्रतिनिधित्व कर सकता है।
P(X) - प्रमाण
इनपुट विशेषताओं के होने की कुल संभावना। वर्गीकरण समस्याओं में, यह एक सामान्यीकरण निरंतर के रूप में कार्य करता है।
व्यावहारिक उदाहरण
मान लीजिए कि हम ईमेल को उनकी सामग्री के आधार पर 'स्पैम' या 'नॉन स्पैम' के रूप में वर्गीकृत करना चाहते हैं। आइए एक सरल परिदृश्य की कल्पना करें जिसमें केवल दो शब्द हैं, "खरीदें" और "सस्ता"। हम इन शब्दों को शामिल करने वाले ईमेल को वर्गीकृत करने के लिए नाइव बेयस का उपयोग करना चाहते हैं।
आइए निम्नलिखित संभावनाओं का उपयोग करें:
P(spam) = 0.4
(40% ईमेल स्पैम हैं)P(स्पैम नहीं) = 0.6
ईमेल के 60% स्पैम नहीं हैंP("खरीदें"|स्पैम) = 0.1
(10% स्पैम ईमेल "खरीदें" शब्द शामिल करते हैं)P("सस्ते"|स्पैम) = 0.05
(स्पैम ईमेल का 5% "सस्ता" शब्द содержит करता है)P("खरीदें"|स्पैम नहीं) = 0.01
(गैर-स्पैम ईमेल्स का 1% "खरीदें" शब्द संलग्न करते हैं)P("सस्ता"|नॉन स्पैम) = 0.001
(0.1% गैर-स्पैम ईमेल "सस्ता" शामिल करते हैं)
""ईमेल को "खरीदें" और "सस्ता" शब्दों का उपयोग करते हुए 'स्पैम' या 'गैर स्पैम' के रूप में वर्गीकृत करने के लिए, हम निम्नलिखित बातों की गणना करते हैं:""
चरण 1: 'स्पैम' श्रेणी के लिए संभावना की गणना करें।
P(spam|"खरीदें", "सस्ते") = (P("खरीदें"|spam) * P("सस्ते"|spam) * P(spam)) / P("खरीदें" और "सस्ते")
संख्याएँ जोड़ने से हमें मिलता है:
P(spam|"खरीद", "सस्ता") = (0.1 * 0.05 * 0.4) / P("खरीद" और "सस्ता") = 0.002 / P("खरीद" और "सस्ता")
चरण 2: 'नॉन स्पैम' वर्ग के लिए संभावना की गणना करें।
P(not spam|"buy", "cheap") = (P("buy"|not spam) * P("cheap"|not spam) * P(not spam)) / P("buy" और "cheap")
मानों को प्रतिस्थापित करने पर, हमें मिलता है:
P(सामान्य नहीं|
इसलिए, अंतिम संभावनाएँ बन जाती हैं:
P(spam|"buy", "cheap") = 0.002
P(नॉन स्पैम|"खरीदें", "सस्ता") = 0.000006
इन मूल्यों की तुलना करते हुए, हम यह निष्कर्ष निकालते हैं कि ईमेल को 'स्पैम' के रूप में वर्गीकृत किए जाने की संभावना कहीं अधिक है।
डेटा सत्यापन
जब इस सूत्र को वास्तविक जीवन के परिदृश्यों में लागू किया जा रहा हो, तो सुनिश्चित करें कि आपके संभावनाएँ सही ढंग से सामान्यीकृत हैं और कि इनपुट मान मान्य संभावनाएँ हैं (अर्थात, 0 और 1 के बीच)। सभी इनपुट शून्य से अधिक होने चाहिए, क्योंकि शून्य संभावनाएँ अपरिभाषित व्यवहार का कारण बन सकती हैं।
सामान्य प्रश्न
नाइव बायज़ क्लासिफायर किसके लिए अच्छा है?
नैव बेयस वर्गीकर्ता विभिन्न वास्तविक जीवन के परिदृश्यों जैसे कि स्पैम पहचान, भावनात्मक विश्लेषण, और अनुशंसा प्रणालियों में अच्छा प्रदर्शन करते हैं क्योंकि ये सरलता और उच्च दक्षता के कारण होते हैं।
नैव बेयेस के सीमाएँ क्या हैं?
मॉडल यह मानता है कि सभी पूर्वानुमानकर्ता (विशेषताएँ) स्वतंत्र हैं, जो वास्तविक जीवन के परिदृश्यों में शायद ही कभी सत्य होती है। हालाँकि, यह व्यावहारिकता में फिर भी अच्छी तरह से कार्य करता है।
नैव बेयेस लगातार डेटा को कैसे संभालता है?
निरंतर डेटा के लिए, नाइव बेयस आमतौर पर मानता है कि ये विशेषताएँ गॉसियन वितरण का पालन करती हैं और ऐसे परिदृश्यों को संभालने के लिए गॉसियन नाइव बेयस का उपयोग करता है।
सारांश
नैव बेयेस वर्गीकरणकर्ता वर्गीकरण कार्यों के लिए एक शक्तिशाली लेकिन सरल उपकरण है। संभावनाओं और बेयेसियन अनुमान के सिद्धांत का लाभ उठाकर, यह इनपुट विशेषताओं के आधार पर डेटा को प्रभावी ढंग से वर्गीकृत कर सकता है। याद रखें, जबकि वर्गीकरणकर्ता विशेषता स्वतंत्रता को मानता है, यह अक्सर विविध अनुप्रयोगों में असाधारण रूप से अच्छा प्रदर्शन करता है।
Tags: सांख्यिकी, मशीन लर्निंग