Klasifikasi Naive Bayes pada Natural Language Processing.pptx
SintaBellaAgustina
10 views
33 slides
Aug 27, 2025
Slide 1 of 33
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
About This Presentation
klasifikasi naive bayes pada nlp
Size: 336.58 KB
Language: none
Added: Aug 27, 2025
Slides: 33 pages
Slide Content
Klasifikasi Naive Bayes pada Natural Language Processing Sinta Bella Agustina 18/10/2024
Agenda Pengertian Naive Bayes Teorema Bayes Asumsi Naive Bayes Jenis Naive Bayes Proses Klasifikasi Contoh Perhitungan Kelebihan dan Kekurangan Aplikasi Naive Bayes pada NLP
Pengertian Naive Bayes Naive Bayes adalah sebuah algoritma klasifikasi yang bekerja berdasarkan probabilitas . Algoritma ini mencoba memprediksi kelas dari sebuah data dengan menggunakan teorema Bayes dan memperhitungkan kemungkinan bahwa data tersebut berada dalam satu kelas dibandingkan kelas lainnya . Naive Bayes mengasumsikan bahwa semua fitur atau atribut dalam data saling independen satu sama lain, meskipun dalam praktiknya asumsi ini tidak selalu benar . Oleh karena itu , disebut "Naive" karena menganggap bahwa setiap fitur tidak mempengaruhi fitur lain, yang membuat perhitungannya lebih sederhana dan cepat . Algoritma ini sangat sering digunakan dalam klasifikasi teks , seperti pada analisis sentimen , deteksi spam , dan klasifikasi dokumen , karena kemampuannya untuk menangani data dalam jumlah besar dan kecepatan komputasinya yang tinggi .
Teorema Bayes P(C∣X): Probabilitas kelas 𝐶 diberikan fitur 𝑋 P(X∣C): Probabilitas kemunculan fitur X di kelas C P(C): Probabilitas awal kelas C P(X): Probabilitas fitur X.
Asumsi Naive Bayes Algoritma Naive Bayes didasarkan pada asumsi penting bahwa setiap fitur ( fitur ) dianggap independen satu sama lain. Artinya , ketika algoritma melakukan perhitungan untuk menentukan kelas atau kategori suatu data, algoritma menganggap bahwa kemunculan satu fitur tidak memengaruhi fitur lain. Dalam konteks klasifikasi teks , setiap kata dalam dokumen dianggap tidak bergantung pada kata-kata lain. Sebagai contoh , jika kita sedang memprediksi apakah sebuah ulasan film bersifat positif atau negatif , Naive Bayes akan menganggap bahwa kata " bagus " dalam kalimat tersebut tidak dipengaruhi oleh kata-kata lainnya , seperti "sangat" atau "film". Asumsi ini dikenal sebagai asumsi independensi bersyarat
Asumsi Naive Bayes Meskipun asumsi ini tidak selalu realistis — karena dalam bahasa alami , sering kali konteks dan hubungan antar kata sangat penting — asumsi independensi ini justru membuat algoritma menjadi sederhana dan cepat . Karena Naive Bayes tidak perlu memperhitungkan interaksi antara fitur-fitur (kata-kata), algoritma ini dapat menangani data dalam jumlah besar dengan lebih efisien .
Jenis Naive Bayes Multinomial Naive Bayes Cocok untuk klasifikasi teks yang berbasis pada frekuensi kemunculan kata. Digunakan ketika data teks dikonversi menjadi fitur berdasarkan jumlah kemunculan kata dalam dokumen . Contoh : Dalam analisis sentimen , kita dapat menghitung seberapa sering kata seperti " bagus " atau " buruk " muncul dalam ulasan film. Multinomial Naive Bayes akan memanfaatkan informasi ini untuk menentukan kelas ( positif / negatif ) Kata kunci : frekuensi kata , klasifikasi teks , jumlah kemunculan
Jenis Naive Bayes Bernoulli Naive Bayes Berbeda dengan Multinomial , Bernoulli Naive Bayes tidak memperhitungkan frekuensi kata, melainkan hanya apakah suatu kata muncul atau tidak dalam dokumen . Cocok untuk kasus di mana kita hanya tertarik pada keberadaan kata (misalnya, "ada" atau "tidak ada"), bukan seberapa sering kata tersebut muncul . Contoh : Untuk deteksi spam , Bernoulli Naive Bayes mungkin hanya memperhatikan apakah kata-kata seperti "gratis" atau " penawaran " ada dalam email, tanpa peduli seberapa sering kata itu muncul . Kata kunci : keberadaan kata , ada atau tidak , deteksi spam
Jenis Naive Bayes Gaussian Naive Bayes Gaussian Naive Bayes digunakan untuk data numerik yang mengikuti distribusi normal (Gaussian) . Algoritma ini bekerja baik pada fitur-fitur yang berupa angka dan bukan kata-kata. Oleh karena itu , Gaussian Naive Bayes jarang digunakan dalam klasifikasi teks , tetapi lebih umum pada klasifikasi data numerik . Contoh : Memprediksi apakah seorang pasien memiliki penyakit tertentu berdasarkan hasil tes darah atau tekanan darah , yang merupakan data numerik . Kata kunci : data numerik , distribusi Gaussian , fitur angka
Proses Klasifikasi dengan Naive Bayes Training ( Pelatihan ) Pada tahap ini , algoritma belajar dari data latih untuk membuat model klasifikasi . Ada dua langkah penting dalam tahap ini : Hitung frekuensi kata per kelas : Algoritma menghitung berapa kali setiap kata muncul dalam dokumen yang termasuk kelas tertentu . Misalnya , jika kita memiliki dua kelas ( positif dan negatif ), algoritma akan menghitung frekuensi kata seperti " bagus " dan " buruk " dalam dokumen yang tergolong positif atau negative. Hitung probabilitas awal kelas : Selain menghitung frekuensi kata, algoritma juga menghitung probabilitas awal dari setiap kelas . Ini disebut sebagai probabilitas prior . Misalnya , jika 60% dari data pelatihan adalah ulasan positif , maka probabilitas awal untuk kelas positif adalah 0,6. Tujuan pelatihan : Membangun model probabilitas berdasarkan data yang sudah diklasifikasikan sebelumnya
Proses Klasifikasi dengan Naive Bayes Testing ( Pengujian ) Pada tahap ini , algoritma akan menerapkan model yang telah dipelajari pada data baru yang belum diklasifikasikan . Langkah- langkah yang dilakukan adalah : Hitung probabilitas dokumen berada dalam setiap kelas : Ketika ada dokumen baru yang ingin diklasifikasikan , algoritma akan menghitung probabilitas bahwa dokumen tersebut termasuk dalam setiap kelas yang ada ( misalnya , positif atau negatif ). Algoritma akan memperhitungkan kemunculan kata-kata dalam dokumen dan membandingkannya dengan frekuensi yang dipelajari selama pelatihan . Pilih kelas dengan probabilitas tertinggi : Setelah menghitung probabilitas untuk setiap kelas , algoritma akan memilih kelas dengan probabilitas tertinggi sebagai prediksi akhir . Misalnya , jika probabilitas dokumen termasuk dalam kelas positif adalah 0,8 dan kelas negatif 0,2, maka dokumen tersebut akan diklasifikasikan sebagai positif . Tujuan pengujian : Memprediksi kelas dokumen baru berdasarkan model probabilitas yang sudah dibangun .
Contoh Klasifikasi Sentimen Dataset: Ulasan film dengan label positif dan negative. Prediksi sentimen dari ulasan baru .
Dataset
Langkah- langkah Perhitungan Naive Bayes Langkah 1: Pisahkan Ulasan Berdasarkan Kelas Ulasan positif : "Film ini sangat bagus ” " Luar biasa , sangat menarik ” "Film yang mengesankan ” Ulasan Negatif : "Film ini buruk sekali ” "Sangat mengecewakan ”
Langkah- langkah Perhitungan Naive Bayes Langkah 2: Hitung Probabilitas Aprior i Probabilitas berdasarkan jumlah ulasan per kelas .
Langkah- langkah Perhitungan Naive Bayes Langkah 3: Buat Daftar Kata-Kata dalam Setiap Kelas Kelas Positif : "film", " ini ", "sangat", " bagus ", " luar ", " biasa ", " menarik ", "yang", " mengesankan ” Kelas Negatif : "film", " ini ", " buruk ", " sekali ", "sangat", " mengecewakan ”
Langkah- langkah Perhitungan Naive Bayes Langkah 4: Hitung Probabilitas Bersyarat untuk Setiap Kata Sekarang, kita hitung probabilitas bahwa kata tertentu muncul dalam ulasan positif atau negatif . Misalnya, kita menghitung probabilitas kata-kata "film", "ini", "sangat", "bagus", dll., dalam kedua kelas. Mengapa kita tambahkan "1" pada perhitungan ini ? Ini disebut Laplace Smoothing , yang digunakan untuk menghindari probabilitas nol.
Langkah- langkah Perhitungan Naive Bayes Langkah 4: Hitung Probabilitas Bersyarat untuk Setiap Kata Misalkan jumlah kata unik di kedua kelas adalah 11 kata: ("film", " ini ", "sangat", " bagus ", " luar ", " biasa ", " menarik ", "yang", " mengesankan ", " buruk ", " sekali ", " mengecewakan ") . Hitung untuk Kelas Positif : Jumlah total kata dalam ulasan positif : 9 (kata "film", " ini ", "sangat", " bagus ", " luar ", " biasa ", " menarik ", "yang", " mengesankan “) Sekarang kita hitung untuk beberapa kata:
Langkah- langkah Perhitungan Naive Bayes Langkah 4: Hitung Probabilitas Bersyarat untuk Setiap Kata Misalkan jumlah kata unik di kedua kelas adalah 11 kata: ("film", " ini ", "sangat", " bagus ", " luar ", " biasa ", " menarik ", "yang", " mengesankan ", " buruk ", " sekali ", " mengecewakan ") . Hitung untuk Kelas Negatif : Jumlah total kata dalam ulasan negatif : 6 (kata "film", " ini ", " buruk ", " sekali ", "sangat", " mengecewakan ") Sekarang kita hitung untuk beberapa kata:
Langkah- langkah Perhitungan Naive Bayes Langkah 5: Klasifikasi Ulasan Baru Sekarang kita akan mencoba mengklasifikasikan ulasan baru : "Film ini sangat bagus " . Langkah 5.1: Hitung Likelihood untuk Kelas Positif : Kita kalikan probabilitas setiap kata muncul dalam kelas positif : 0.6 x 0.15 x 0.10 x 0.15 x 0.10 = 0.6 x 0.000255 = 0.000135
Langkah- langkah Perhitungan Naive Bayes Langkah 5: Klasifikasi Ulasan Baru Sekarang kita akan mencoba mengklasifikasikan ulasan baru : "Film ini sangat bagus " . Langkah 5.2: Hitung Likelihood untuk Kelas Negatif : Kita kalikan probabilitas setiap kata muncul dalam kelas negatif : Untuk kata " bagus ", probabilitas ( karena kata "bagus" tidak ada di ulasan negatif).
Langkah- langkah Perhitungan Naive Bayes Langkah 6: Ambil Keputusan Probabilitas untuk kelas positif lebih besar dari probabilitas untuk kelas negatif : =0.000135 vs =0.000041472 Maka , ulasan "Film ini sangat bagus " akan diklasifikasikan sebagai positif .
Ringkasan Langkah Klasifikasi Pisahkan dataset berdasarkan kelas . Hitung probabilitas apriori dan probabilitas bersyarat . Hitung likelihood dokumen baru . Ambil kelas dengan probabilitas tertinggi .
Kelebihan Naive Bayes Cepat dan Efisien : Cocok untuk Data Besar Naive Bayes sangat cepat dalam melakukan perhitungan karena modelnya yang sederhana . Algoritma ini mengasumsikan bahwa setiap fitur ( misalnya , kata dalam dokumen teks ) tidak saling bergantung , sehingga proses perhitungan probabilitas menjadi lebih mudah . Karena algoritma ini tidak memerlukan waktu komputasi yang berat untuk memproses hubungan antar fitur , Naive Bayes sangat efisien saat diterapkan pada dataset yang besar , seperti ribuan dokumen teks . Kecepatan dan efisiensi ini menjadikannya pilihan yang sangat baik untuk tugas-tugas seperti filtering email spam , analisis sentimen , dan klasifikasi dokumen .
Kelebihan Naive Bayes Akurat : Performa Bagus Meski dengan Asumsi Independensi Meskipun Naive Bayes membuat asumsi independensi fitur , yang berarti setiap kata dianggap tidak saling berhubungan , algoritma ini masih mampu memberikan hasil yang akurat dalam banyak kasus nyata . Contoh : Dalam klasifikasi teks seperti analisis sentimen atau deteksi spam, meskipun kata-kata dalam kalimat sering kali saling bergantung , Naive Bayes tetap mampu membuat prediksi yang sangat baik . Karena kesederhanaannya , Naive Bayes sering kali bekerja lebih baik dibandingkan algoritma yang lebih kompleks , terutama ketika dataset tidak terlalu besar atau fitur saling independen secara relatif .
Kelebihan Naive Bayes Mudah Diimplementasikan Algoritma ini mudah diimplementasikan , baik secara manual maupun menggunakan pustaka (library) machine learning seperti scikit-learn di Python. Karena matematika yang mendasarinya sederhana , Naive Bayes sering kali digunakan sebagai model dasar dalam banyak proyek machine learning sebelum mencoba algoritma yang lebih kompleks . Pengembang atau peneliti dapat dengan cepat mempersiapkan dan menguji Naive Bayes pada data mereka tanpa banyak pengaturan atau penyesuaian parameter .
Kekurangan Naive Bayes Asumsi Kemandirian : Tidak Mempertimbangkan Hubungan Antar Kata Naive Bayes didasarkan pada asumsi kemandirian atau independensi fitur . Artinya , setiap fitur ( misalnya , kata dalam teks ) dianggap tidak saling berhubungan . Dalam konteks klasifikasi teks , ini berarti algoritma mengabaikan hubungan antar kata. Contoh masalah : Dalam kalimat "film ini sangat tidak bagus ", kata " tidak " berfungsi untuk membalikkan makna kata " bagus ", tetapi Naive Bayes akan memperlakukan kata " bagus " secara terpisah dan mungkin mengira ulasan ini positif , meskipun sebenarnya negative . Implikasi : Asumsi ini bisa menjadi keterbatasan serius jika kita bekerja dengan data yang kompleks , di mana fitur-fitur sangat bergantung satu sama lain.
Kekurangan Naive Bayes Tidak Cocok untuk Pola Kompleks Naive Bayes tidak cocok untuk kasus di mana kita perlu mengenali pola yang lebih kompleks atau di mana fitur-fitur ( seperti kata-kata dalam teks ) memiliki hubungan yang kuat satu sama lain . Contoh : Algoritma ini mungkin tidak bekerja dengan baik pada masalah yang membutuhkan pemahaman konteks kalimat secara keseluruhan , seperti pada tugas-tugas Natural Language Understanding (NLU) yang lebih kompleks , di mana kata-kata memiliki makna yang bergantung pada posisi dan konteksnya dalam kalimat . Penyebab : Karena Naive Bayes tidak mempertimbangkan interaksi antar fitur , algoritma ini mungkin gagal dalam situasi yang lebih rumit di mana interaksi antar kata atau kombinasi kata sangat penting .
Kekurangan Naive Bayes Laplace Smoothing: Bisa Terlalu Menyederhanakan Hasil Laplace Smoothing adalah teknik yang digunakan untuk menangani kasus di mana ada kata yang tidak pernah muncul dalam data pelatihan untuk kelas tertentu . Ini menambahkan nilai kecil ke semua probabilitas kata untuk menghindari probabilitas nol. Masalahnya : Meskipun teknik ini berguna , dalam beberapa kasus , Laplace Smoothing bisa terlalu menyederhanakan hasil . Hal ini dapat menyebabkan penyesuaian berlebihan pada prediksi , terutama jika dataset memiliki kata-kata langka (yang jarang muncul ) . Implikasi : Dengan menambahkan probabilitas ke setiap kata, smoothing bisa mengurangi akurasi prediksi , terutama untuk data yang memang tidak sering muncul dalam satu kategori . Hasilnya , model bisa misklasifikasi dokumen atau teks .
Aplikasi Naive Bayes dalam NLP Analisis Sentimen : Mengklasifikasikan ulasan sebagai positif atau negative. Deteksi Spam : Memisahkan email spam dan non-spam. Klasifikasi Dokumen : Mengelompokkan dokumen berdasarkan tema .
Naive Bayes pada Analisis Sentimen Menggunakan ulasan sebagai data teks . Contoh : Menentukan apakah ulasan produk positif atau negative.
Naive Bayes pada Deteksi Spam Mengidentifikasi email berdasarkan kata-kata yang sering muncul dalam email spam. Contoh: Kata "gratis", "penawaran" sering muncul di email spam .
Kesimpulan Naive Bayes sederhana namun efektif untuk klasifikasi teks . Berguna dalam berbagai aplikasi seperti analisis sentimen dan deteksi spam. Penting memahami asumsi dan keterbatasannya .