Kelompok 10 - Normalized Mutual Information (NMI).pptx
NellyIndrianiW
0 views
12 slides
Sep 16, 2025
Slide 1 of 12
1
2
3
4
5
6
7
8
9
10
11
12
About This Presentation
metrik untuk mengevaluasi clustering
Size: 1.35 MB
Language: none
Added: Sep 16, 2025
Slides: 12 pages
Slide Content
NORMALIZED MUTUAL INFORMATION (NMI)
Tendy Hermansyah Dean Beniqno PERKENALAN ANGGOTA Zaidan Altaf Zaiz Febrian
Normalized Mutual Information (NMI) adalah metrik statistik yang digunakan untuk mengukur kesamaan antara dua label atau pengelompokan (clustering). NMI sering digunakan untuk mengevaluasi hasil clustering dengan membandingkan hasil klaster terhadap label ground truth (jika tersedia). APA ITU NMI? Rentang nilai: 0 → Tidak ada kesamaan 1 → Hasil klaster identik dengan label
DASAR TEORI MUTUAL INFORMATION (MI) Mutual Information (MI) adalah ukuran dari seberapa banyak informasi yang diketahui tentang satu variabel acak jika variabel lainnya diketahui. Keterangan: U dan V: Dua himpunan label (klaster dan label ground truth) P(u,v): Probabilitas bahwa sebuah data termasuk dalam klaster u dan label v P(u), P(v): Probabilitas data dalam klaster u atau label v
MI saja bisa bias terhadap jumlah data atau jumlah klaster. Nilai MI tidak berada dalam rentang tetap (bisa besar untuk dataset besar). Untuk bisa membandingkan antar clustering, perlu menormalkan MI → menjadi NMI. MENGAPA MI PERLU DINORMALISASI? RUMUS ENTROPI (H) RUMUS NORMALIZED MUTUAL INFORMATION (NMI):
Contoh 1 ( Sempurna ) : Bayangkan kita punya 6 data poin , dan kita ingin membandingkan label ground truth dan hasil clustering : Contoh Sederhana Data Ground Truth (U) Predicted Cluster (V) 1 A X 2 A X 3 B Y 4 B Y 5 C Z 6 C Z Setiap klaster di prediksi (X, Y, Z) tepat mencocokkan label asli (A, B, C) Maka , ini adalah hasil clustering sempurna Karena klaster dan label saling cocok tanpa kesalahan , maka : NMI=1.0\text{NMI} = 1.0NMI=1.0 Contoh 2 ( Tidak Sempurna ) : Data Ground Truth (U) Predicted Cluster (V) 1 A X 2 A Y 3 B X 4 B Y 5 C Z 6 C Z Klaster Z masih cocok dengan C Tapi klaster A dan B tercampur acak di X dan Y 🧮 Maka : MI akan turun karena informasi antara U dan V menjadi kurang NMI nilainya sekitar 0.58 – 0.65 tergantung proporsi
SIFAT DAN KARAKTERISTIK NMI Skala Tetap: NMI selalu berada di antara 0 dan 1 0 = tidak ada kesamaan antara label 1 = label identik (clustering sempurna) Invarian Terhadap Permutasi Label: NMI tidak terpengaruh oleh penamaan atau urutan label. → Sangat penting dalam clustering, karena label klaster bisa sembarang nama. Simetri: NMI(U,V)=NMI(V,U) Artinya, tidak masalah mana yang dianggap sebagai label "prediksi" atau "ground truth".
APLIKASI NMI DALAM DUNIA NYATA Evaluasi Clustering Otomatis: Digunakan untuk menilai hasil algoritma clustering (K-Means, DBSCAN, Agglomerative, dll) Jika tersedia label ground truth → NMI jadi alat perbandingan kualitas 2. Natural Language Processing (NLP): Mengelompokkan dokumen atau artikel secara otomatis NMI digunakan untuk membandingkan hasil klaster dokumen dengan kategori asli 3. Bioinformatika: Pengelompokan ekspresi gen atau jenis sel Ground truth mungkin berdasarkan data biologis → NMI mengevaluasi hasil otomatis
KELEBIHAN & KEKURANGAN NMI Kelebihan: Tidak tergantung label Rentang nilai tetap (0–1) → mudah dibaca Cocok untuk benchmarking berbagai model clustering Kekurangan: Bisa bias jika distribusi cluster sangat tidak seimbang Interpretasi nilai bisa membingungkan untuk dataset besar
NMI (Normalized Mutual Information) adalah metrik yang kuat untuk mengukur kemiripan antara dua label clustering. Nilai NMI berada di antara 0 (tidak mirip) dan 1 (identik). Bersifat simetris, invarian terhadap label, dan cocok untuk membandingkan hasil clustering. Cocok digunakan dalam banyak bidang: NLP, bioinformatika, analisis pelanggan, dan lainnya. Sebaiknya digunakan bersama metrik lain seperti ARI dan Purity untuk evaluasi yang lebih menyeluruh. KESIMPULAN