Pemahaman Statistik dengan Probabilitas Klasifikasi Naive Bayes

Statistik - Probabilitas Klasifikator Naive Bayes

Klasifikasi Naive Bayes adalah algoritma pembelajaran mesin yang populer digunakan untuk tugas klasifikasi. Itu berdasarkan Teorema Bayes dan bekerja dengan baik terutama dengan dataset yang besar. Meskipun kesederhanaannya, ia telah terbukti efektif dalam berbagai skenario kehidupan nyata termasuk penyaringan spam, analisis sentimen, dan sistem rekomendasi. Artikel ini akan memecah formula Klasifikasi Naive Bayes, menjelaskan masukan dan keluarannya, serta memberikan contoh praktis untuk menyatukan semuanya.

Memahami Rumus

Rumus Klasifikator Naive Bayes dapat dijelaskan sebagai:

P(C|X) = [P(X|C) * P(C)] / P(X)

di mana:

P(C|X) adalah probabilitas posterior dari kelas (C) yang diberikan prediktor (X).
P(X|C) adalah kemungkinan yang merupakan probabilitas prediktor (X) mengingat kelas (C).
P(C) adalah probabilitas prior dari kelas.
P(X) apakah probabilitas awal dari prediktor.

Rincian Mendetail dari Input dan Output

Mari kita eksplorasi setiap komponen dengan lebih detail:

P(C|X) - Probabilitas Posterior

Ini adalah probabilitas dari sebuah kelas tertentu menjadi benar berdasarkan fitur input. Sebagai contoh, jika Anda mengklasifikasikan email sebagai spam atau bukan spam, P(C|X) akan menjadi probabilitas bahwa email adalah spam mengingat keberadaan kata kata tertentu.

P(X|C) - Kemungkinan

Ini adalah probabilitas fitur input menjadi benar mengingat kelas tertentu. Misalnya, berapa probabilitas untuk menemui kata kata tertentu mengingat bahwa sebuah email adalah spam?

P(C) - Probabilitas Awal

Ini mencerminkan probabilitas masing masing kelas terjadi dalam dataset. Dalam contoh email kita, ini bisa menjadi proporsi email spam dalam seluruh dataset email Anda.

P(X) - Bukti

Probabilitas keseluruhan dari fitur input yang terjadi. Dalam masalah klasifikasi, ini bertindak sebagai konstanta normalisasi.

Contoh Praktis

Asumsikan kita ingin mengklasifikasikan email sebagai 'spam' atau 'tidak spam' berdasarkan kontennya. Bayangkan skenario sederhana dengan hanya dua kata, "beli" dan "murah". Kita ingin menggunakan Naive Bayes untuk mengklasifikasikan email yang mengandung kata kata ini.

Mari kita gunakan probabilitas berikut:

P(spam) = 0.4 (40% dari email adalah spam)
P(tidak spam) = 0,6 (60% dari email bukan spam)
P("beli"|spam) = 0.1 (10% dari email spam mengandung "beli")
P("murah"|spam) = 0.05 (5% dari email spam mengandung "murah")
P("beli"|bukan spam) = 0.01 (1% dari email non-spam mengandung "beli")
P("murah"|bukan spam) = 0.001 (0,1% dari email non-spam mengandung "murah")

Untuk mengklasifikasikan email yang mengandung "beli" dan "murah" sebagai 'spam' atau 'bukan spam', kami menghitung:

Langkah 1: Hitung probabilitas untuk kelas 'spam'.

P(spam|"beli", "murah") = (P("beli"|spam) * P("murah"|spam) * P(spam)) / P("beli" dan "murah")

Memasukkan angka angka memberikan kita:

P(spam|"beli", "murah") = (0.1 * 0.05 * 0.4) / P("beli" dan "murah") = 0.002 / P("beli" dan "murah")

Langkah 2: Hitung probabilitas untuk kelas 'bukan spam'.

P(bukan spam|"beli", "murah") = (P("beli"|bukan spam) * P("murah"|bukan spam) * P(bukan spam)) / P("beli" dan "murah")

Dengan mengganti nilainya, kita mendapatkan:

P(tidak spam|"beli", "murah") = (0.01 * 0.001 * 0.6) / P("beli" dan "murah") = 0.000006 / P("beli" dan "murah")

Oleh karena itu, probabilitas akhir menjadi:

P(spam|"beli", "murah") = 0.002

P(tidak spam|"beli", "murah") = 0.000006

Membandingkan nilai nilai ini, kami menyimpulkan bahwa email tersebut jauh lebih mungkin diklasifikasikan sebagai 'spam'.

Validasi Data

Saat menerapkan rumus ini dalam skenario kehidupan nyata, pastikan probabilitas Anda dinormalisasi dengan benar dan bahwa nilai input adalah probabilitas yang valid (yaitu, antara 0 dan 1). Semua input harus lebih besar dari nol, karena probabilitas nol dapat menyebabkan perilaku yang tidak terdefinisi.

FAQ

Untuk apa Klasifikasi Naive Bayes baik?

Klasifikasi Naive Bayes menunjukkan kinerja baik dalam berbagai skenario kehidupan nyata seperti deteksi spam, analisis sentimen, dan sistem rekomendasi karena kesederhanaan dan efisiensinya yang tinggi.

Apa saja batasan dari Naive Bayes?

Model mengasumsikan bahwa semua prediktor (fitur) adalah independen, yang jarang benar dalam skenario kehidupan nyata. Namun, model ini tetap menunjukkan kinerja yang baik dalam praktik.

Bagaimana Naive Bayes menangani data kontinu?

Untuk data kontinu, Naive Bayes biasanya mengasumsikan bahwa fitur fitur ini mengikuti distribusi Gaussian dan menggunakan Gaussian Naive Bayes untuk menangani skenario seperti itu.

Ringkasan

Klasifikasi Naive Bayes adalah alat yang kuat namun sederhana untuk tugas klasifikasi. Dengan memanfaatkan probabilitas dan prinsip inferensi Bayes, ia dapat secara efektif mengategorikan data berdasarkan fitur input. Ingat, meskipun klasifikator ini mengasumsikan independensi fitur, ia sering kali berkinerja sangat baik dalam berbagai aplikasi.

Tags: Statistik, Mesin Pembelajaran

P C:
P X _C:
P X: