Verstehen der Statistik mit dem Naiven Bayes Klassifikator Wahrscheinlichkeit
Statistik - Naive Bayes Klassifizierer Wahrscheinlichkeit
Der Naive Bayes-Klassifikator ist ein beliebter Algorithmus im maschinellen Lernen, der für Klassifizierungsaufgaben verwendet wird. Er basiert auf dem Bayesschen Theorem und funktioniert besonders gut mit großen Datensätzen. Trotz seiner Einfachheit hat sich gezeigt, dass er in verschiedenen realen Szenarien, einschließlich Spam-Filterung, Sentiment-Analyse und Empfehlungssystemen, effektiv ist. Dieser Artikel wird die Formel des Naive Bayes-Klassifikators aufschlüsseln, seine Eingaben und Ausgaben erklären und praktische Beispiele anbieten, um alles zusammenzuführen.
Verstehen der Formel
Die Formel des Naiven Bayes Klassifikators kann wie folgt beschrieben werden:
P(C|X) = [P(X|C) * P(C)] / P(X)
wo:
- P(C|X) ist die posterior Wahrscheinlichkeit der Klasse (C) gegeben dem Prädiktor (X).
- P(X|C) ist die Wahrscheinlichkeit, die die Wahrscheinlichkeit des Prädiktors (X) gegeben der Klasse (C) ist.
- P(C) ist die vorherige Wahrscheinlichkeit der Klasse.
- P(X) ist die Prior Wahrscheinlichkeit des Prädiktors.
Detaillierte Aufschlüsselung von Eingaben und Ausgaben
Lass uns jede Komponente im Detail erkunden:
P(C|X) - Posterior Wahrscheinlichkeit
Dies ist die Wahrscheinlichkeit, dass eine bestimmte Klasse wahr ist, gegeben die Eingabefeatures. Zum Beispiel, wenn Sie E Mails als Spam oder Nicht Spam klassifizieren, P(C|X)
Wäre die Wahrscheinlichkeit, dass eine E Mail Spam ist, gegeben die Anwesenheit bestimmter Wörter.
P(X|C) - Wahrscheinlichkeit
Dies ist die Wahrscheinlichkeit, dass die Eingabemerkmale wahr sind, gegeben eine bestimmte Klasse. Zum Beispiel, wie hoch ist die Wahrscheinlichkeit, bestimmte Wörter zu finden, wenn eine E Mail Spam ist?
P(C) - A-priori-Wahrscheinlichkeit
Dies spiegelt die Wahrscheinlichkeit wider, dass jede Klasse im Datensatz vorkommt. In unserem E Mail Beispiel könnte dies der Anteil der Spam E Mails in Ihrem gesamten E Mail Datensatz sein.
P(X) - Beweis
Die Gesamtheit der Wahrscheinlichkeit des Auftretens der Eingangsmerkmale. In Klassifikationsproblemen fungiert dies als Normierungskonstante.
Praktisches Beispiel
Angenommen, wir möchten E Mails basierend auf ihrem Inhalt als "Spam" oder "Nicht Spam" klassifizieren. Stellen Sie sich ein einfaches Szenario mit nur zwei Wörtern vor: "kaufen" und "billig". Wir möchten Naive Bayes verwenden, um eine E Mail, die diese Wörter enthält, zu klassifizieren.
Lass uns die folgenden Wahrscheinlichkeiten verwenden:
P(spam) = 0,4
(40 % der E Mails sind Spam)P(nicht Spam) = 0.6
60 % der E Mails sind kein Spam.P("kaufen"|spam) = 0.1
(10 % der Spam E Mails enthalten "kaufen")P("günstig"|spam) = 0.05
(5 % der Spam E Mails enthalten "billig")P("kaufen"|nicht Spam) = 0.01
(1 % der Nicht-Spam-E-Mails enthalten "kaufen")P("günstig"|nicht Spam) = 0.001
(0,1% der Nicht-Spam-E-Mails enthalten "billig")
Um eine E Mail, die "kaufen" und "günstig" enthält, als 'Spam' oder 'kein Spam' zu klassifizieren, berechnen wir:
Schritt 1: Berechnen Sie die Wahrscheinlichkeit für die Klasse 'Spam'.
P(spam|"buy", "cheap") = (P("buy"|spam) * P("cheap"|spam) * P(spam)) / P("buy" und "cheap")
Das Einsetzen der Zahlen ergibt:
P(spam|"buy", "cheap") = (0.1 * 0.05 * 0.4) / P("buy" und "cheap") = 0.002 / P("buy" und "cheap")
Schritt 2: Berechnen Sie die Wahrscheinlichkeit für die Klasse 'kein Spam'.
P(nicht Spam|"kaufen", "günstig") = (P("kaufen"|nicht Spam) * P("günstig"|nicht Spam) * P(nicht Spam)) / P("kaufen" und "günstig")
Durch das Einsetzen der Werte erhalten wir:
P(nicht Spam|"kaufen", "günstig") = (0,01 * 0,001 * 0,6) / P("kaufen" und "günstig") = 0,000006 / P("kaufen" und "günstig")
Daher werden die endgültigen Wahrscheinlichkeiten:
P(spam|"kaufen", "günstig") = 0,002
P(nicht Spam|"kaufen", "günstig") = 0.000006
Im Vergleich dieser Werte kommen wir zu dem Schluss, dass die E Mail viel wahrscheinlicher als 'Spam' eingestuft wird.
Datenvalidierung
Bei der Umsetzung dieser Formel in realen Szenarien stellen Sie sicher, dass Ihre Wahrscheinlichkeiten korrekt normalisiert sind und dass die Eingabewerte gültige Wahrscheinlichkeiten sind (d. h. zwischen 0 und 1). Alle Eingaben sollten größer als null sein, da Nullwahrscheinlichkeiten zu undefiniertem Verhalten führen können.
Häufig gestellte Fragen
Wofür ist der Naive Bayes Klassifikator gut?
Naive-Bayes-Klassifikatoren erzielen in verschiedenen realen Szenarien wie Spam-Detection, Sentiment-Analyse und Empfehlungssystemen aufgrund ihrer Einfachheit und hohen Effizienz gute Ergebnisse.
Was sind die Einschränkungen von Naive Bayes?
Das Modell geht davon aus, dass alle Prädiktoren (Merkmale) unabhängig sind, was in der Realität selten der Fall ist. Dennoch funktioniert es in der Praxis gut.
Wie geht Naive Bayes mit kontinuierlichen Daten um?
Für kontinuierliche Daten nimmt Naive Bayes typischerweise an, dass diese Merkmale einer gaußschen Verteilung folgen, und verwendet Gaussian Naive Bayes, um solche Szenarien zu behandeln.
Zusammenfassung
Der Naive Bayes Klassifikator ist ein leistungsstarkes, jedoch einfaches Werkzeug für Klassifizierungsaufgaben. Durch die Nutzung von Wahrscheinlichkeiten und dem Prinzip der bayesischen Inferenz kann er Daten effektiv basierend auf Eingabefeatures kategorisieren. Denken Sie daran, dass der Klassifikator zwar die Unabhängigkeit der Merkmale annimmt, er dennoch häufig außergewöhnlich gut in verschiedenen Anwendungen abschneidet.
Tags: Statistiken, Maschinelles Lernen