bag of word pengatar Natural language processing

SintaBellaAgustina 5 views 27 slides Aug 27, 2025
Slide 1
Slide 1 of 27
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27

About This Presentation

bag of word pengantar natural language


Slide Content

Bag of Words ( BoW ) Konsep dan Kekurangannya Sinta Bella Agustina 11/10/20 24

Definisi Bag of Words Bag of Words ( BoW ) adalah metode yang sederhana untuk mengubah data teks menjadi angka ( vektor ). Metode ini menghitung berapa kali kata muncul di seluruh dokumen , tanpa memperhatikan urutan kata. Tujuan : Membuat teks dapat diproses oleh komputer dalam bentuk angka .

Contoh Teks yang Akan Diproses Review 1: " Makanan disini gurih dan enak !“ Review 2: " Makanan disini biasa saja .“ Review 3: " Makanan disini hambar dan tidak enak !“ Langkah Awal : Hilangkan tanda baca dan huruf kapital dari teks .

Membentuk Korpus (Kamus Kata) Setelah membersihkan teks , buat daftar kata unik dari semua review. Korpus : " makanan " " disini " " gurih " "dan" " enak " " biasa " " saja " " hambar " " tidak “ Catatan : Setiap kata hanya ditulis sekali , meskipun muncul lebih dari satu kali.

Frekuensi Kata dalam Review Untuk setiap review, hitung kemunculan kata dari korpus . Beri nilai 1 jika kata muncul , dan 0 jika tidak . Contoh : Review 1: [1, 1, 1, 1, 1, 0, 0, 0, 0] Review 2: [1, 1, 0, 0, 0, 1, 1, 0, 0] Review 3: [1, 1, 0, 1, 1, 0, 0, 1, 1]

Apa yang Membuat BoW Bermanfaat ? Sederhana : Mudah dipahami dan diterapkan . Cepat : Menghitung frekuensi kata secara langsung . Mudah digunakan : Cocok untuk tugas NLP dasar seperti analisis sentimen .

Masalah yang Timbul dalam BoW Ukuran Korpus Besar : Jika ada banyak kata unik , ukuran korpus akan semakin besar dan membuat komputasi lebih lambat . Sparse Matrix : Banyaknya nilai 0 pada vektor menciptakan masalah karena data yang kosong sulit diproses . Menghilangkan Konteks : BoW tidak mempertimbangkan urutan kata, sehingga arti kalimat bisa hilang .

TF-IDF (Term Frequency - Inverse Document Frequency) Konsep dan Aplikasi Sinta Bella Agustina 11/10/2024

Definisi TF-IDF TF-IDF adalah gabungan dari Term Frequency (TF) dan Inverse Document Frequency (IDF) . Tujuan : Mengonversi teks menjadi vektor sambil mempertimbangkan apakah kata tersebut penting atau tidak . TF-IDF biasa digunakan ketika kita ingin mengubah data teks menjadi vektor namun dengan memperhatikan apakah sebuah kata tersebut cukup informatif atau tidak . Mudahnya , TF-IDF membuat kata yang sering muncul memiliki nilai yang cenderung kecil , sedangkan untuk kata yang semakin jarang muncul akan memiliki nilai yang cenderung besar . Kata yang sering muncul disebut juga  Stopwords   biasanya dianggap kurang penting , salah satu contohnya adalah kata hubung (yang, di, akan , dengan , dll ).

Apa Itu Term Frequency (TF)? Term Frequency (TF) menghitung frekuensi jumlah kemunculan kata pada sebuah dokumen . Karena panjang dari setiap dokumen bisa berbeda-beda , maka umumnya nilai TF ini dibagi dengan panjang dokumen ( jumlah seluruh kata pada dokumen ) . Rumus : TF = ( Frekuensi kemunculan kata) / (Total kata dalam dokumen )

Contoh Perhitungan TF Mari kita ambil contoh kalimat Review 1 untuk dihitung nilai TF nya . Review 1:   Makanan disini gurih dan enak ! Korpus = [“ makanan ”, “ disini ”, “ gurih ”, “dan”, “ enak ”] Panjang kalimat = 5 Sehingga perhitungan untuk nilai TF nya menjadi : TF(“ makanan ”) = 1/5 ≈ 0.2 TF(“ disini ”) = 1/5 ≈ 0.2 TF(“ gurih ”) = 1/5 ≈ 0.2 TF(“ dan ”) = 1/5 ≈ 0.2 TF(“ enak ”) = 1/5 ≈ 0.2

Contoh Perhitungan TF Berikutnya , mari kita coba terapkan pada seluruh review dan kita formulasikan ke dalam bentuk tabel seperti berikut .

Apa Itu Inverse Document Frequency (IDF)? IDF menghitung seberapa jarang kata muncul di seluruh dokumen . IDF akan menilai kata yang sering muncul sebagai kata yang kurang penting berdasarkan kemunculan kata tersebut pada seluruh dokumen . Semakin kecil nilai IDF maka akan dianggap semakin tidak penting kata tersebut , begitu pula sebaliknya . Rumus : IDF = log (Total dokumen / Dokumen yang mengandung kata)

Contoh Perhitungan IDF Setiap review yang diberikan oleh pelanggan merupakan sebuah dokumen . Karena pada tulisan ini kita mempunyai 3 review, maka artinya kita mempunyai 3 dokumen . Mari kita coba hitung nilai IDF untuk masing-masing kata pada Review 1. Review 1 :   Makanan disini gurih dan enak ! Korpus = [“ makanan ”, “ disini ”, “ gurih ”, “dan”, “ enak ”] Jumlah dokumen = 3 Sehingga perhitungan untuk nilai IDF nya menjadi : IDF(“ makanan ”) = log(3/3) = 0 ( muncul di semua dokumen , jadi dianggap kurang penting ) IDF(“ disini ”) = log(3/3) = 0 ( muncul di semua dokumen , jadi dianggap kurang penting ) IDF(“ gurih ”) = log(3 / 1) = 0.48 ( muncul hanya di 1 dokumen , jadi dianggap lebih penting ) IDF(“ dan ”) = log(3 / 2) = 0.18 ( muncul di 2 dari 3 dokumen , jadi dianggap cukup umum , tetapi masih memiliki beberapa informasi penting ) IDF(“ enak ”) = log(3 / 2) = 0.18 ( muncul di 2 dari 3 dokumen , jadi dianggap cukup umum , tetapi masih memiliki beberapa informasi penting )

Bagaimana Menghitung TF-IDF? TF-IDF adalah hasil perkalian antara TF dan IDF . Rumus TF-IDF = TF x IDF Review 1:   Makanan disini gurih dan enak ! makanan TF(“ makanan ”) = 1/5 ≈ 0.2 IDF(“ makanan ”) = log(3 / 3) ≈ 0 TFIDF( “ makanan ” ) = 0.2/0=0

TF-IDF pada Tiga Review Dari tabel tersebut , akhirnya kita dapatkan vektor dari setiap review yang dinotasikan oleh  TFIDF1, TFIDF2,  dan  TFIDF3   seperti berikut . Vektor Review 1  = [0, 0, 0.095, 0.035, 0.035, 0, 0, 0, 0] Vektor Review 2  = [0, 0, 0, 0, 0, 0.119, 0.119, 0, 0] Vektor Review 3  = [0, 0, 0, 0.0293, 0.0293, 0, 0, 0.080, 0.080] Kesimpulan : Kata yang lebih jarang muncul mendapatkan nilai yang lebih tinggi .

Manfaat TF-IDF Mengabaikan Stopwords : Kata umum seperti " makanan " dan " disini " diberi bobot rendah . Menonjolkan Kata Penting : Kata-kata yang lebih unik dan jarang muncul , seperti " gurih ", diberi bobot lebih tinggi . Akurasi yang Lebih Baik : Digunakan dalam analisis teks untuk meningkatkan kualitas pemrosesan data.

Keterbatasan TF-IDF Berdasarkan Bag of Words : Tidak mempertimbangkan urutan kata. Tidak Menangkap Semantik : TF-IDF hanya fokus pada frekuensi kemunculan kata, bukan pada makna kalimat .

Web Scraping dalam Natural Language Processing (NLP) Pengumpulan Data Web untuk Pengolahan Teks Sinta Bella Agustina 11/10/2024

Apa Itu Web Scraping? Definisi : Web scraping adalah teknik untuk secara otomatis mengekstrak data dari halaman web. Penggunaan Umum : Mengambil teks , gambar , atau informasi lain dari situs web untuk tujuan analisis atau pelatihan model.

Mengapa Web Scraping Penting dalam NLP? Alasan Utama : Ketersediaan Data Besar : Banyak data teks tersedia secara online. Pelatihan Model NLP : Model NLP membutuhkan data dalam jumlah besar untuk dipelajari . Pengolahan Teks : Analisis sentimen , pengenalan entitas , klasifikasi teks , dll .

Langkah- langkah Dasar Web Scraping Akses Halaman Web : Menggunakan HTTP request untuk mendapatkan halaman . Mengambil Data : Menyaring elemen yang diperlukan dari HTML ( misalnya paragraf , ulasan ). Membersihkan Data : Menghapus informasi yang tidak relevan seperti iklan atau elemen navigasi . Penyimpanan Data : Menyimpan teks atau data ke dalam file CSV, database, dll . Analisis Data : Melakukan preprocessing pada teks untuk digunakan dalam NLP.

Contoh Kasus Scraping dalam NLP Analisis Sentimen : Mengumpulkan ulasan dari e-commerce atau media sosial untuk menentukan sentimen pengguna . Pengumpulan Berita : Mengambil artikel dari situs berita untuk klasifikasi topik atau ringkasan otomatis . Klasifikasi Dokumen : Mengambil dokumen dari berbagai sumber untuk diolah dan dilabeli untuk klasifikasi otomatis .

Teknik Text Preprocessing Setelah Scraping Cleaning Data : Menghapus karakter yang tidak diperlukan . Tokenization : Memecah teks menjadi kata-kata atau kalimat . Stopword Removal : Menghapus kata-kata umum seperti "yang", "di", "dan". Stemming/Lemmatization : Mengubah kata ke bentuk dasar ( contoh : " berlari " menjadi " lari ").

Kelebihan dan Tantangan Web Scraping Kelebihan : Akses ke data besar untuk pelatihan model. Mengumpulkan data secara otomatis dan cepat . Tantangan : Perubahan struktur halaman web bisa memengaruhi proses scraping. Batasan dari website ( misalnya CAPTCHA atau rate limiting). Isu legal dan etika scraping data tanpa izin .
Tags