Kelompok 10 - Normalized Mutual Information (NMI).pptx

NellyIndrianiW 0 views 12 slides Sep 16, 2025
Slide 1
Slide 1 of 12
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12

About This Presentation

metrik untuk mengevaluasi clustering


Slide Content

NORMALIZED MUTUAL INFORMATION (NMI)

Tendy Hermansyah Dean Beniqno PERKENALAN ANGGOTA Zaidan Altaf Zaiz Febrian

Normalized Mutual Information (NMI) adalah metrik statistik yang digunakan untuk mengukur kesamaan antara dua label atau pengelompokan (clustering). NMI sering digunakan untuk mengevaluasi hasil clustering dengan membandingkan hasil klaster terhadap label ground truth (jika tersedia). APA ITU NMI? Rentang nilai: 0 → Tidak ada kesamaan 1 → Hasil klaster identik dengan label

DASAR TEORI MUTUAL INFORMATION (MI) Mutual Information (MI) adalah ukuran dari seberapa banyak informasi yang diketahui tentang satu variabel acak jika variabel lainnya diketahui. Keterangan: U dan V: Dua himpunan label (klaster dan label ground truth) P(u,v): Probabilitas bahwa sebuah data termasuk dalam klaster u dan label v P(u), P(v): Probabilitas data dalam klaster u atau label v

MI saja bisa bias terhadap jumlah data atau jumlah klaster. Nilai MI tidak berada dalam rentang tetap (bisa besar untuk dataset besar). Untuk bisa membandingkan antar clustering, perlu menormalkan MI → menjadi NMI. MENGAPA MI PERLU DINORMALISASI? RUMUS ENTROPI (H) RUMUS NORMALIZED MUTUAL INFORMATION (NMI):

Contoh 1 ( Sempurna ) : Bayangkan kita punya 6 data poin , dan kita ingin membandingkan label ground truth dan hasil clustering : Contoh Sederhana Data Ground Truth (U) Predicted Cluster (V) 1 A X 2 A X 3 B Y 4 B Y 5 C Z 6 C Z Setiap klaster di prediksi (X, Y, Z) tepat mencocokkan label asli (A, B, C) Maka , ini adalah hasil clustering sempurna Karena klaster dan label saling cocok tanpa kesalahan , maka : NMI=1.0\text{NMI} = 1.0NMI=1.0 Contoh 2 ( Tidak Sempurna ) : Data Ground Truth (U) Predicted Cluster (V) 1 A X 2 A Y 3 B X 4 B Y 5 C Z 6 C Z Klaster Z masih cocok dengan C Tapi klaster A dan B tercampur acak di X dan Y 🧮 Maka : MI akan turun karena informasi antara U dan V menjadi kurang NMI nilainya sekitar 0.58 – 0.65 tergantung proporsi

SIFAT DAN KARAKTERISTIK NMI Skala Tetap: NMI selalu berada di antara 0 dan 1 0 = tidak ada kesamaan antara label 1 = label identik (clustering sempurna) Invarian Terhadap Permutasi Label: NMI tidak terpengaruh oleh penamaan atau urutan label. → Sangat penting dalam clustering, karena label klaster bisa sembarang nama. Simetri: NMI(U,V)=NMI(V,U) Artinya, tidak masalah mana yang dianggap sebagai label "prediksi" atau "ground truth".

APLIKASI NMI DALAM DUNIA NYATA Evaluasi Clustering Otomatis: Digunakan untuk menilai hasil algoritma clustering (K-Means, DBSCAN, Agglomerative, dll) Jika tersedia label ground truth → NMI jadi alat perbandingan kualitas 2. Natural Language Processing (NLP): Mengelompokkan dokumen atau artikel secara otomatis NMI digunakan untuk membandingkan hasil klaster dokumen dengan kategori asli 3. Bioinformatika: Pengelompokan ekspresi gen atau jenis sel Ground truth mungkin berdasarkan data biologis → NMI mengevaluasi hasil otomatis

KELEBIHAN & KEKURANGAN NMI Kelebihan: Tidak tergantung label Rentang nilai tetap (0–1) → mudah dibaca Cocok untuk benchmarking berbagai model clustering Kekurangan: Bisa bias jika distribusi cluster sangat tidak seimbang Interpretasi nilai bisa membingungkan untuk dataset besar

NMI (Normalized Mutual Information) adalah metrik yang kuat untuk mengukur kemiripan antara dua label clustering. Nilai NMI berada di antara 0 (tidak mirip) dan 1 (identik). Bersifat simetris, invarian terhadap label, dan cocok untuk membandingkan hasil clustering. Cocok digunakan dalam banyak bidang: NLP, bioinformatika, analisis pelanggan, dan lainnya. Sebaiknya digunakan bersama metrik lain seperti ARI dan Purity untuk evaluasi yang lebih menyeluruh. KESIMPULAN

https://scikit-learn.org/stable/modules/generated/sklearn.metrics.normalized_mutual_info_score.html https://en.wikipedia.org/wiki/Mutual_information https://en.wikipedia.org/wiki/Normalized_mutual_information REFERENSI

TERIMA KASIH
Tags