Verstehen der Statistik mit dem Naiven Bayes Klassifikator Wahrscheinlichkeit
Der-Naive-Bayes-Klassifikator-ist-ein-beliebter-Machine-Learning-Algorithmus,-der-für-Klassifizierungsaufgaben-verwendet-wird.-Er-basiert-auf-dem-Bayes-Theorem-und-funktioniert-besonders-gut-bei-großen-Datensätzen.-Trotz-seiner-Einfachheit-hat-er-sich-in-verschiedenen-realen-Szenarien-als-effektiv-erwiesen,-einschließlich-Spam-Filterung,-Stimmungsanalyse-und-Empfehlungssysteme.-Dieser-Artikel-wird-die-Naive-Bayes-Klassifikator-Formel-aufschlüsseln,-ihre-Eingaben-und-Ausgaben-erklären-und-praktische-Beispiele-liefern,-um-alles-zusammenzubringen. Die-Naive-Bayes-Klassifikator-Formel-kann-wie-folgt-beschrieben-werden: wo: Lassen-Sie-uns-jeden-Bestandteil-im-Detail-erkunden: Dies-ist-die-Wahrscheinlichkeit,-dass-eine-bestimmte-Klasse-wahr-ist,-gegeben-die-Eingabefunktionen.-Wenn-Sie-beispielsweise-E-Mails-als-Spam-oder-Nicht-Spam-klassifizieren,-wäre- Dies-ist-die-Wahrscheinlichkeit,-dass-die-Eingabefunktionen-wahr-sind,-gegeben-eine-bestimmte-Klasse.-Zum-Beispiel,-was-ist-die-Wahrscheinlichkeit,-dass-bestimmte-Wörter-vorkommen,-gegeben-dass-eine-E-Mail-Spam-ist? Dies-spiegelt-die-Wahrscheinlichkeit-wider,-dass-jede-Klasse-im-Datensatz-vorkommt.-In-unserem-E-Mail-Beispiel-könnte-dies-der-Anteil-der-Spam-E-Mails-im-gesamten-E-Mail-Datensatz-sein. Die-Gesamtwahrscheinlichkeit,-dass-die-Eingabefunktionen-vorkommen.-Bei-Klassifikationsproblemen-fungiert-dies-als-Normierungskonstante. Angenommen,-wir-möchten-E-Mails-als-'Spam'-oder-'Nicht-Spam'-basierend-auf-ihrem-Inhalt-klassifizieren.-Stellen-Sie-sich-ein-einfaches-Szenario-mit-nur-zwei-Wörtern,-"kaufen"-und-"billig",-vor.-Wir-möchten-Naive-Bayes-nutzen,-um-eine-E-Mail-zu-klassifizieren,-die-diese-Wörter-enthält. Lassen-Sie-uns-die-folgenden-Wahrscheinlichkeiten-verwenden: Um-eine-E-Mail-mit-"kaufen"-und-"billig"-als-'Spam'-oder-'Nicht-Spam'-zu-klassifizieren,-berechnen-wir: Schritt-1:-Berechnen-Sie-die-Wahrscheinlichkeit-für-die-Klasse-'Spam'. Durch-Einsetzen-der-Zahlen-erhalten-wir: Schritt-2:-Berechnen-Sie-die-Wahrscheinlichkeit-für-die-Klasse-'Nicht-Spam'. Durch-Einsetzen-der-Werte-erhalten-wir: Daher-werden-die-endgültigen-Wahrscheinlichkeiten-zu: Durch-den-Vergleich-dieser-Werte-schließen-wir,-dass-die-E-Mail-viel-eher-als-'Spam'-klassifiziert-wird. Wenn-Sie-diese-Formel-in-realen-Szenarien-implementieren,-stellen-Sie-sicher,-dass-Ihre-Wahrscheinlichkeiten-korrekt-normiert-sind-und-dass-die-Eingabewerte-gültige-Wahrscheinlichkeiten-(d.h.-zwischen-0-und-1)-sind.-Alle-Eingaben-sollten-größer-als-null-sein,-da-null-Wahrscheinlichkeiten-zu-undefiniertem-Verhalten-führen-können. Naive-Bayes-Klassifikatoren-funktionieren-aufgrund-ihrer-Einfachheit-und-hohen-Effizienz-gut-in-verschiedenen-realen-Szenarien-wie-Spam-Erkennung,-Stimmungsanalyse-und-Empfehlungssystemen. Das-Modell-nimmt-an,-dass-alle-Prädiktoren-(Merkmale)-unabhängig-sind,-was-in-realen-Szenarien-selten-der-Fall-ist.-Trotzdem-liefert-es-in-der-Praxis-oft-gute-Ergebnisse. Bei-kontinuierlichen-Daten-wird-in-der-Regel-angenommen,-dass-diese-Merkmale-einer-Gaußschen-Verteilung-folgen,-und-es-wird-der-Gaußsche-Naive-Bayes-verwendet,-um-solche-Szenarien-zu-handhaben. Der-Naive-Bayes-Klassifikator-ist-ein-leistungsstarkes,-aber-einfaches-Werkzeug-für-Klassifizierungsaufgaben.-Durch-die-Nutzung-von-Wahrscheinlichkeiten-und-dem-Prinzip-der-bayesschen-Inferenz-kann-er-Daten effektiv basierend auf Eingabefunktionen kategorisieren. Denken Sie daran, dass der Klassifikator zwar die Unabhängigkeit der Merkmale voraussetzt, aber dennoch oft in verschiedenen Anwendungen außergewöhnlich gut abschneidet.Statistik-Naive-Bayes-Klassifikator-Wahrscheinlichkeit
Verständnis-der-Formel
P(C|X)-=-[P(X|C)-*-P(C)]-/-P(X)
Detaillierte-Aufschlüsselung-der-Eingaben-und-Ausgaben
P(C|X)-Posterior-Wahrscheinlichkeit
P(C|X)
-die-Wahrscheinlichkeit,-dass-eine-E-Mail-Spam-ist,-gegeben-das-Vorkommen-bestimmter-Wörter.P(X|C)-Wahrscheinlichkeit
P(C)-Prior-Wahrscheinlichkeit
P(X)-Evidenz
Praktisches-Beispiel
P(spam)-=-0.4
-(40-%-der-E-Mails-sind-Spam)P(not-spam)-=-0.6
-(60-%-der-E-Mails-sind-kein-Spam)P("kaufen"|spam)-=-0.1
-(10-%-der-Spam-E-Mails-enthalten-"kaufen")P("billig"|spam)-=-0.05
-(5-%-der-Spam-E-Mails-enthalten-"billig")P("kaufen"|nicht-spam)-=-0.01
-(1-%-der-Nicht-Spam-E-Mails-enthalten-"kaufen")P("billig"|nicht-spam)-=-0.001
-(0,1-%-der-Nicht-Spam-E-Mails-enthalten-"billig")P(spam|"kaufen",-"billig")-=-(P("kaufen"|spam)-*-P("billig"|spam)-*-P(spam))-/-P("kaufen"-und-"billig")
P(spam|"kaufen",-"billig")-=-(0.1-*-0.05-*-0.4)-/-P("kaufen"-und-"billig")-=-0.002-/-P("kaufen"-und-"billig")
P(nicht-spam|"kaufen",-"billig")-=-(P("kaufen"|nicht-spam)-*-P("billig"|nicht-spam)-*-P(nicht-spam))-/-P("kaufen"-und-"billig")
P(nicht-spam|"kaufen",-"billig")-=-(0.01-*-0.001-*-0.6)-/-P("kaufen"-und-"billig")-=-0.000006-/-P("kaufen"-und-"billig")
P(spam|"kaufen",-"billig")-=-0.002
P(nicht-spam|"kaufen",-"billig")-=-0.000006
Datenvalidierung
FAQs
Für-was-ist-der-Naive-Bayes-Klassifikator-gut?
Was-sind-die-Einschränkungen-von-Naive-Bayes?
Wie-geht-Naive-Bayes-mit-kontinuierlichen-Daten-um?
Zusammenfassung