विभाजन पूर्वाग्रह वर्गीकरण प्रायिकता के साथ सांख्यिकी समझ

आकड़े - नाइव बेayes वर्गीकरण संभावना

नैव बेयस वर्गीकरणकर्ता एक लोकप्रिय मशीन लर्निंग एल्गोरिदम है जो वर्गीकरण कार्यों के लिए उपयोग किया जाता है। यह बेयस के प्रमेय पर आधारित है और विशेष रूप से बड़े डेटा सेट के साथ अच्छा काम करता है। अपनी सरलता के बावजूद, यह विभिन्न वास्तविक जीवन के परिदृश्यों में प्रभावी साबित हुआ है, जिसमें स्पैम फ़िल्टरिंग, भावना विश्लेषण, और अनुशंसा प्रणाली शामिल हैं। यह लेख नैव बेयस वर्गीकरणकर्ता फार्मूला को विश्लेषित करेगा, इसके इनपुट और आउटपुट को समझाएगा, और इसे एक साथ लाने के लिए व्यावहारिक उदाहरण प्रदान करेगा।

सूत्र को समझना

नैव बेयस वर्गीकरण सूत्र को इस प्रकार वर्णित किया जा सकता है:

P(C|X) = [P(X|C) * P(C)] / P(X)

जहाँ:

P(C|X) यह भविष्यवक्ता (X) के आधार पर श्रेणी (C) की बाद की संभावना है।
P(X|C) यह संभावना है जो वर्ग (C) के मामले में पूर्वानुमानकर्ता (X) की संभावना है।
P(C) क्लास की पूर्व संभाव्यता है।
P(X) प्री अनुमान लगाई गई संभावना है।

इनपुट और आउटपुट का विस्तृत विश्लेषण

चलो हम प्रत्येक घटक का अधिक विस्तार से अन्वेषण करें:

P(C|X) - पश्चात्तल संभावना

यह विशेष श्रेणी की सत्यता की संभावना है जो इनपुट फ़ीचर्स के दिए जाने पर होती है। उदाहरण के लिए, यदि आप ईमेल को स्पैम या नॉन स्पैम के रूप में वर्गीकृत कर रहे हैं, P(C|X) यह संभावना क्या होगी कि एक ईमेल स्पाम है जब कुछ शब्दों की उपस्थिति हो।

P(X|C) - संभावना

यह किसी विशिष्ट श्रेणी के तहत इनपुट विशेषताओं के सत्य होने की संभावना है। उदाहरण के लिए, यदि एक ईमेल स्पैम है, तो विशिष्ट शब्दों के सामने आने की संभावना क्या है?

P(C) - पूर्व संभावना

यह डेटा सेट में प्रत्येक वर्ग के होने की संभावना को दर्शाता है। हमारे ईमेल उदाहरण में, यह आपके पूरे ईमेल डेटा सेट में स्पैम ईमेल के अनुपात का प्रतिनिधित्व कर सकता है।

P(X) - प्रमाण

इनपुट विशेषताओं के होने की कुल संभावना। वर्गीकरण समस्याओं में, यह एक सामान्यीकरण निरंतर के रूप में कार्य करता है।

व्यावहारिक उदाहरण

मान लीजिए कि हम ईमेल को उनकी सामग्री के आधार पर 'स्पैम' या 'नॉन स्पैम' के रूप में वर्गीकृत करना चाहते हैं। आइए एक सरल परिदृश्य की कल्पना करें जिसमें केवल दो शब्द हैं, "खरीदें" और "सस्ता"। हम इन शब्दों को शामिल करने वाले ईमेल को वर्गीकृत करने के लिए नाइव बेयस का उपयोग करना चाहते हैं।

आइए निम्नलिखित संभावनाओं का उपयोग करें:

P(spam) = 0.4 (40% ईमेल स्पैम हैं)
P(स्पैम नहीं) = 0.6 ईमेल के 60% स्पैम नहीं हैं
P("खरीदें"|स्पैम) = 0.1 (10% स्पैम ईमेल "खरीदें" शब्द शामिल करते हैं)
P("सस्ते"|स्पैम) = 0.05 (स्पैम ईमेल का 5% "सस्ता" शब्द содержит करता है)
P("खरीदें"|स्पैम नहीं) = 0.01 (गैर-स्पैम ईमेल्स का 1% "खरीदें" शब्द संलग्न करते हैं)
P("सस्ता"|नॉन स्पैम) = 0.001 (0.1% गैर-स्पैम ईमेल "सस्ता" शामिल करते हैं)

""ईमेल को "खरीदें" और "सस्ता" शब्दों का उपयोग करते हुए 'स्पैम' या 'गैर स्पैम' के रूप में वर्गीकृत करने के लिए, हम निम्नलिखित बातों की गणना करते हैं:""

चरण 1: 'स्पैम' श्रेणी के लिए संभावना की गणना करें।

P(spam|"खरीदें", "सस्ते") = (P("खरीदें"|spam) * P("सस्ते"|spam) * P(spam)) / P("खरीदें" और "सस्ते")

संख्याएँ जोड़ने से हमें मिलता है:

P(spam|"खरीद", "सस्ता") = (0.1 * 0.05 * 0.4) / P("खरीद" और "सस्ता") = 0.002 / P("खरीद" और "सस्ता")

चरण 2: 'नॉन स्पैम' वर्ग के लिए संभावना की गणना करें।

P(not spam|"buy", "cheap") = (P("buy"|not spam) * P("cheap"|not spam) * P(not spam)) / P("buy" और "cheap")

मानों को प्रतिस्थापित करने पर, हमें मिलता है:

P(सामान्य नहीं|

इसलिए, अंतिम संभावनाएँ बन जाती हैं:

P(spam|"buy", "cheap") = 0.002

P(नॉन स्पैम|"खरीदें", "सस्ता") = 0.000006

इन मूल्यों की तुलना करते हुए, हम यह निष्कर्ष निकालते हैं कि ईमेल को 'स्पैम' के रूप में वर्गीकृत किए जाने की संभावना कहीं अधिक है।

डेटा सत्यापन

जब इस सूत्र को वास्तविक जीवन के परिदृश्यों में लागू किया जा रहा हो, तो सुनिश्चित करें कि आपके संभावनाएँ सही ढंग से सामान्यीकृत हैं और कि इनपुट मान मान्य संभावनाएँ हैं (अर्थात, 0 और 1 के बीच)। सभी इनपुट शून्य से अधिक होने चाहिए, क्योंकि शून्य संभावनाएँ अपरिभाषित व्यवहार का कारण बन सकती हैं।

सामान्य प्रश्न

नाइव बायज़ क्लासिफायर किसके लिए अच्छा है?

नैव बेयस वर्गीकर्ता विभिन्न वास्तविक जीवन के परिदृश्यों जैसे कि स्पैम पहचान, भावनात्मक विश्लेषण, और अनुशंसा प्रणालियों में अच्छा प्रदर्शन करते हैं क्योंकि ये सरलता और उच्च दक्षता के कारण होते हैं।

नैव बेयेस के सीमाएँ क्या हैं?

मॉडल यह मानता है कि सभी पूर्वानुमानकर्ता (विशेषताएँ) स्वतंत्र हैं, जो वास्तविक जीवन के परिदृश्यों में शायद ही कभी सत्य होती है। हालाँकि, यह व्यावहारिकता में फिर भी अच्छी तरह से कार्य करता है।

नैव बेयेस लगातार डेटा को कैसे संभालता है?

निरंतर डेटा के लिए, नाइव बेयस आमतौर पर मानता है कि ये विशेषताएँ गॉसियन वितरण का पालन करती हैं और ऐसे परिदृश्यों को संभालने के लिए गॉसियन नाइव बेयस का उपयोग करता है।

सारांश

नैव बेयेस वर्गीकरणकर्ता वर्गीकरण कार्यों के लिए एक शक्तिशाली लेकिन सरल उपकरण है। संभावनाओं और बेयेसियन अनुमान के सिद्धांत का लाभ उठाकर, यह इनपुट विशेषताओं के आधार पर डेटा को प्रभावी ढंग से वर्गीकृत कर सकता है। याद रखें, जबकि वर्गीकरणकर्ता विशेषता स्वतंत्रता को मानता है, यह अक्सर विविध अनुप्रयोगों में असाधारण रूप से अच्छा प्रदर्शन करता है।

Tags: सांख्यिकी, मशीन लर्निंग

पी सी:
पी एक्स _सी:
पी एक्स: