Text Mining Term Frequency Inverse Document Frequency

rudolfo5 0 views 23 slides Oct 03, 2025
Slide 1
Slide 1 of 23
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23

About This Presentation

Text Mining TF-IDF


Slide Content

Text Mining

Materi Pengertian Text Mining Pemrosesan Text 1. Tokenisasi 2. Lemmatization 3. Vector Document

Pengertian Text Mining Text mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks + proses penganalisisan teks guna menyarikan informasi yang bermanfaat untuk tujuan tertentu . Proses data mining untuk data dokumen atau teks memerlukan lebih banyak tahapan , mengingat data teks memiliki karakteristik yang lebih kompleks daripada data biasa .

Karakteristik Dokumen Teks Menurut Loretta Auvil dan Duane Searsmith dari University of Illnois , karakteristik dokumen teks : Database text yang berukuran besar Memiliki dimensi yang tinggi , yakni satu kata merupakan satu dimensi , Mengandung kumpulan kata yang saling terkait ( frase ) dan antara kumpulan kata satu dengan lain dapat memiliki arti yang berbeda . Banyak mengandung kata ataupun arti yang bias ( ambigu ) Dokumen email merupakan dokumen yang tidak memiliki struktur bahasa yang baku , karena di dalamnya terkadang muncul istilah slank seperti “r u there?”, “ hellloooo bosss , whatzzz up?”, dan sebagainya .

Proses Text Mining Berdasarkan ketidakteraturan struktur data teks , maka proses text mining memerlukan beberapa tahap awal yang pada intinya adalah mempersiapkan agar teks dapat diubah menjadi lebih terstruktur . Bentuk perubahan yang dilakukan adalah ke dalam spreadsheet, kolom menunjuk dokumen dan baris menunjuk kata , sedangkan selnya menunjuk frekuensi kata dalam dokumen .

Proses Text Mining

Dokumen Plain text Format Elemen : XML, HTML, RTF, ODT, email, dsb Format Biner PDF, DOC, dsb

Tahapan Text Mining : Tokenisasi Tokenisasi secara garis besar memecah sekumpulan karakter dalam suatu teks ke dalam satuan kata . Bagaimana membedakan karakter – karakter tertentu yang dapat diperlakukan sebagai pemisah kata atau bukan . Sebagai contoh karakter whitespace, seperti enter, tabulasi , spasi dianggap sebagai pemisah kata . Namun untuk karakter petik tunggal (‘), titik (.), semikolon (;), titik dua (:) atau lainnya , dapat memiliki peran yang cukup banyak sebagai pemisah kata . Sebagai contoh antara “ tahu , tempe , dan sambal ” dengan “100,56”

Tahapan Text Mining : Tokenisasi Dalam memperlakukan karakter – karakter dalam teks sangat tergantung sekali pada konteks aplikasi yang dikembangkan . Pekerjaan tokenisasi akan semakin sulit juka juga harus memperhatikan struktur bahasa ( gramatikal )

Contoh proses tokenisasi Dokumen awal : Halo, nama saya Upin , saya sekolah di TK Tadika Mesra . Saya mempunyai saudara kembar namanya Ipin , Ipul , dan Upil . Hasil tokenisasi : * Halo * Nama * Saya * Upin * Saya * sekolah * Di * TK * Tadika * Mesra * Saya * Mempunya i * Saudara * kembar * namanya * Ipin * Ipul * Upil

Tahapan Text Mining : Filtering Filtering yaitu proses pembuangan stopword yang dimaksudkan untuk mengetahui suatu kata masuk ke dalam stopword atau tidak . Pembuangan stopword adalah proses pembuangan term yang tidak memiliki arti atau tidak relevan . Term yang diperoleh dari tahap tokenisasi dicek dalam suatu daftar stopword , apabila sebuah kata masuk di dalam daftar stopword maka kata tersebut akan masuk ke proses berikutnya .

Contoh proses filtering Hasil Tokenisasi : * Halo * Nama * Saya * Upin * Saya * sekolah * Di * Tadika * Mesra * Mempunyai * Saudara * kembar * namanya * Ipin * Ipul * Upil Hasil Filtering : * Halo * Nama * Saya * Upin * sekolah * TK * Tadika * Mesra * Saya * Mempunyai * Saudara * kembar * Ipin * Ipul * Upil

Lemmatization Setelah deretan karakter telah disegmentasi ke dalam kata – kata (token), langkah berikut yang mungkin dilakukan adalah mengubah setiap token ke bentuk standar . Proses ini disebut stemming/lemmatization, tujuannya adalah untuk mendapatkan bentuk dasar umum dari suatu kata . Contoh : - Am, are, is → be - car, cars, car’s, cars’ → car

Contoh proses Lemmatization * Tadika * Mesra * Mempunyai * Saudara * kembar * Tadika * Mesra * Punya * Saudara * kembar

Tahapan Text Mining : Algoritma TF-IDF Metode TF-IDF merupakan metode untuk menghitung bobot setiap kata yang paling umum digunakan pada information retrieval. Metode ini juga terkenal efisien , mudah , dan memiliki hasil yang akurat . Metode ini akan menghitung nilai Term Frequent (TF) dan Inverse Document Frequency (IDF) pada setiap token ( kata ) di setiap dokumen dalam korpus . Metode ini akan menghitung bobot setiap token t di dokumen d dengan rumus : W d,t = tf d,t * IDF t

Algoritma TF-IDF W d,t = tf d,t * IDF t d : Dokumen ke – d t : Kata ke -t dari kata kunci W : Bobot dokumen ke -d terhadap kata ke -t tf : Banyaknya kata yang dicari pada sebuah dokumen IDF : Inversed Document Frequency. Nilai IDF didapatkan dari log2(D/ df ). Dimana D adalah total dokumen dan df adalah banyak dokumen yang mengandung kata yang dicari .

Contoh Perhitungan TF-IDF Kata kunci ( kk ) = pengetahuan logistik Dokumen 1 (D1) = Manajemen transfer logistik Dokumen 2 (D2) = Pengetahuan antar individu Dokumen 3 (D3) = Dalam manajemen pengetahuan terdapat transfer pengetahuan logistik Tahap Pertama : Tokenisasi + manajemen + pengetahuan + transfer + terdapat + logistik + transfer + pengetahuan + pengetahuan + antar + logistik + individu + dalam + manajemen

Tabel Perhitungan TF-IDF TF Df D/df IDF Log(D /df) W Token kk D1 D2 D3 kk D1 D2 D3 Manajemen 1 1 2 1,5 0,176 0,176 0,176 Transaksi 1 1 3 0,477 0,477 Logistik 1 1 1 2 1,5 0,176 0,176 0,176 0,176 Transfer 1 1 3 0,477 0,477 Pengetahuan 1 1 2 2 1,5 0,176 0,176 0,176 0,352 Individu 1 1 3 0,477 0,477 Total 0,352 0,829 0,653 1,181 Bobot (W) untuk D1 = 0,176 + 0 = 0,176 Bobot (W) untuk D2 = 0 + 0,176 = 0,176 Bobot (W) untuk D3 = 0,176 + 0,352 = 0,528

Konklusi TF-IDF Dari contoh studi kasus di atas , dapat diketahui bahwa nilai bobot (W) dari D1 dan D2 adalah sama . Apabila diurutkan maka proses sorting juga tidak akan dapat mengurutkan secara tepat , karena nilai W keduanya sama . Untuk mengatasi hal ini , digunakan algoritma dari vector space model.

Vector Space Model Ide dari metode ini adalah dengan menghitung nilai cosinus sudut dari dua vector, yaitu W dari tiap dokumen dan W dari kata kunci . Rumus :

Tabel Perhitungan Vector Space Model Token Kk^2 D1^2 D2^2 D3^2 Kk *D1 Kk *D2 Kk *D3 Manajemen 0,031 0,031 Transaksi 0,228 Logistik 0,31 0,031 0,031 0,031 0,031 Transfer 0,228 Pengetahuan 0,31 0,031 0,124 0,031 0,062 Individu 0,228 Sqrt(k) Sqrt(Di) Sum(kk.D1) 0,787 0,539 0,509 0,643 0,031 0,031 0,093

Menghitung Vector Selanjutnya menghitung nilai cosinus sudut antara vektor kata kunci dengan tiap dokumen dengan rumus : Cosine(Di) = sum( kk.Di )/[ sqrt ( kk )* sqrt (Di)] Misalnya untuk D3 maka : Cosine(D3) = sum(kk.D3) / [ sqrt ( kk )* sqrt (D3)] = 0,093/[0,0249*0,643] = 0,581

Hitunglah untuk Cosine D1, D2 Cosine(D1) = sum(kk.D1) / [ sqrt ( kk )* sqrt (D1)] = = Cosine(D2) = sum(kk.D2) / [ sqrt ( kk )* sqrt (D2)] = =
Tags