bag of word pengatar Natural language processing

Bag of Words ( BoW ) Konsep dan Kekurangannya Sinta Bella Agustina 11/10/20 24

Definisi Bag of Words Bag of Words ( BoW ) adalah metode yang sederhana untuk mengubah data teks menjadi angka ( vektor ). Metode ini menghitung berapa kali kata muncul di seluruh dokumen , tanpa memperhatikan urutan kata. Tujuan : Membuat teks dapat diproses oleh komputer dalam bentuk angka .

Contoh Teks yang Akan Diproses Review 1: " Makanan disini gurih dan enak !“ Review 2: " Makanan disini biasa saja .“ Review 3: " Makanan disini hambar dan tidak enak !“ Langkah Awal : Hilangkan tanda baca dan huruf kapital dari teks .

Membentuk Korpus (Kamus Kata) Setelah membersihkan teks , buat daftar kata unik dari semua review. Korpus : " makanan " " disini " " gurih " "dan" " enak " " biasa " " saja " " hambar " " tidak “ Catatan : Setiap kata hanya ditulis sekali , meskipun muncul lebih dari satu kali.

Frekuensi Kata dalam Review Untuk setiap review, hitung kemunculan kata dari korpus . Beri nilai 1 jika kata muncul , dan 0 jika tidak . Contoh : Review 1: [1, 1, 1, 1, 1, 0, 0, 0, 0] Review 2: [1, 1, 0, 0, 0, 1, 1, 0, 0] Review 3: [1, 1, 0, 1, 1, 0, 0, 1, 1]

Apa yang Membuat BoW Bermanfaat ? Sederhana : Mudah dipahami dan diterapkan . Cepat : Menghitung frekuensi kata secara langsung . Mudah digunakan : Cocok untuk tugas NLP dasar seperti analisis sentimen .

Masalah yang Timbul dalam BoW Ukuran Korpus Besar : Jika ada banyak kata unik , ukuran korpus akan semakin besar dan membuat komputasi lebih lambat . Sparse Matrix : Banyaknya nilai 0 pada vektor menciptakan masalah karena data yang kosong sulit diproses . Menghilangkan Konteks : BoW tidak mempertimbangkan urutan kata, sehingga arti kalimat bisa hilang .

TF-IDF (Term Frequency - Inverse Document Frequency) Konsep dan Aplikasi Sinta Bella Agustina 11/10/2024

Definisi TF-IDF TF-IDF adalah gabungan dari Term Frequency (TF) dan Inverse Document Frequency (IDF) . Tujuan : Mengonversi teks menjadi vektor sambil mempertimbangkan apakah kata tersebut penting atau tidak . TF-IDF biasa digunakan ketika kita ingin mengubah data teks menjadi vektor namun dengan memperhatikan apakah sebuah kata tersebut cukup informatif atau tidak . Mudahnya , TF-IDF membuat kata yang sering muncul memiliki nilai yang cenderung kecil , sedangkan untuk kata yang semakin jarang muncul akan memiliki nilai yang cenderung besar . Kata yang sering muncul disebut juga Stopwords biasanya dianggap kurang penting , salah satu contohnya adalah kata hubung (yang, di, akan , dengan , dll ).

Apa Itu Term Frequency (TF)? Term Frequency (TF) menghitung frekuensi jumlah kemunculan kata pada sebuah dokumen . Karena panjang dari setiap dokumen bisa berbeda-beda , maka umumnya nilai TF ini dibagi dengan panjang dokumen ( jumlah seluruh kata pada dokumen ) . Rumus : TF = ( Frekuensi kemunculan kata) / (Total kata dalam dokumen )

Contoh Perhitungan TF Mari kita ambil contoh kalimat Review 1 untuk dihitung nilai TF nya . Review 1: Makanan disini gurih dan enak ! Korpus = [“ makanan ”, “ disini ”, “ gurih ”, “dan”, “ enak ”] Panjang kalimat = 5 Sehingga perhitungan untuk nilai TF nya menjadi : TF(“ makanan ”) = 1/5 ≈ 0.2 TF(“ disini ”) = 1/5 ≈ 0.2 TF(“ gurih ”) = 1/5 ≈ 0.2 TF(“ dan ”) = 1/5 ≈ 0.2 TF(“ enak ”) = 1/5 ≈ 0.2

Contoh Perhitungan TF Berikutnya , mari kita coba terapkan pada seluruh review dan kita formulasikan ke dalam bentuk tabel seperti berikut .

Apa Itu Inverse Document Frequency (IDF)? IDF menghitung seberapa jarang kata muncul di seluruh dokumen . IDF akan menilai kata yang sering muncul sebagai kata yang kurang penting berdasarkan kemunculan kata tersebut pada seluruh dokumen . Semakin kecil nilai IDF maka akan dianggap semakin tidak penting kata tersebut , begitu pula sebaliknya . Rumus : IDF = log (Total dokumen / Dokumen yang mengandung kata)

Contoh Perhitungan IDF Setiap review yang diberikan oleh pelanggan merupakan sebuah dokumen . Karena pada tulisan ini kita mempunyai 3 review, maka artinya kita mempunyai 3 dokumen . Mari kita coba hitung nilai IDF untuk masing-masing kata pada Review 1. Review 1 : Makanan disini gurih dan enak ! Korpus = [“ makanan ”, “ disini ”, “ gurih ”, “dan”, “ enak ”] Jumlah dokumen = 3 Sehingga perhitungan untuk nilai IDF nya menjadi : IDF(“ makanan ”) = log(3/3) = 0 ( muncul di semua dokumen , jadi dianggap kurang penting ) IDF(“ disini ”) = log(3/3) = 0 ( muncul di semua dokumen , jadi dianggap kurang penting ) IDF(“ gurih ”) = log(3 / 1) = 0.48 ( muncul hanya di 1 dokumen , jadi dianggap lebih penting ) IDF(“ dan ”) = log(3 / 2) = 0.18 ( muncul di 2 dari 3 dokumen , jadi dianggap cukup umum , tetapi masih memiliki beberapa informasi penting ) IDF(“ enak ”) = log(3 / 2) = 0.18 ( muncul di 2 dari 3 dokumen , jadi dianggap cukup umum , tetapi masih memiliki beberapa informasi penting )

Bagaimana Menghitung TF-IDF? TF-IDF adalah hasil perkalian antara TF dan IDF . Rumus TF-IDF = TF x IDF Review 1: Makanan disini gurih dan enak ! makanan TF(“ makanan ”) = 1/5 ≈ 0.2 IDF(“ makanan ”) = log(3 / 3) ≈ 0 TFIDF( “ makanan ” ) = 0.2/0=0

TF-IDF pada Tiga Review Dari tabel tersebut , akhirnya kita dapatkan vektor dari setiap review yang dinotasikan oleh TFIDF1, TFIDF2, dan TFIDF3 seperti berikut . Vektor Review 1 = [0, 0, 0.095, 0.035, 0.035, 0, 0, 0, 0] Vektor Review 2 = [0, 0, 0, 0, 0, 0.119, 0.119, 0, 0] Vektor Review 3 = [0, 0, 0, 0.0293, 0.0293, 0, 0, 0.080, 0.080] Kesimpulan : Kata yang lebih jarang muncul mendapatkan nilai yang lebih tinggi .

Manfaat TF-IDF Mengabaikan Stopwords : Kata umum seperti " makanan " dan " disini " diberi bobot rendah . Menonjolkan Kata Penting : Kata-kata yang lebih unik dan jarang muncul , seperti " gurih ", diberi bobot lebih tinggi . Akurasi yang Lebih Baik : Digunakan dalam analisis teks untuk meningkatkan kualitas pemrosesan data.

Keterbatasan TF-IDF Berdasarkan Bag of Words : Tidak mempertimbangkan urutan kata. Tidak Menangkap Semantik : TF-IDF hanya fokus pada frekuensi kemunculan kata, bukan pada makna kalimat .

Web Scraping dalam Natural Language Processing (NLP) Pengumpulan Data Web untuk Pengolahan Teks Sinta Bella Agustina 11/10/2024

Apa Itu Web Scraping? Definisi : Web scraping adalah teknik untuk secara otomatis mengekstrak data dari halaman web. Penggunaan Umum : Mengambil teks , gambar , atau informasi lain dari situs web untuk tujuan analisis atau pelatihan model.

Mengapa Web Scraping Penting dalam NLP? Alasan Utama : Ketersediaan Data Besar : Banyak data teks tersedia secara online. Pelatihan Model NLP : Model NLP membutuhkan data dalam jumlah besar untuk dipelajari . Pengolahan Teks : Analisis sentimen , pengenalan entitas , klasifikasi teks , dll .

Langkah- langkah Dasar Web Scraping Akses Halaman Web : Menggunakan HTTP request untuk mendapatkan halaman . Mengambil Data : Menyaring elemen yang diperlukan dari HTML ( misalnya paragraf , ulasan ). Membersihkan Data : Menghapus informasi yang tidak relevan seperti iklan atau elemen navigasi . Penyimpanan Data : Menyimpan teks atau data ke dalam file CSV, database, dll . Analisis Data : Melakukan preprocessing pada teks untuk digunakan dalam NLP.

Contoh Kasus Scraping dalam NLP Analisis Sentimen : Mengumpulkan ulasan dari e-commerce atau media sosial untuk menentukan sentimen pengguna . Pengumpulan Berita : Mengambil artikel dari situs berita untuk klasifikasi topik atau ringkasan otomatis . Klasifikasi Dokumen : Mengambil dokumen dari berbagai sumber untuk diolah dan dilabeli untuk klasifikasi otomatis .

Teknik Text Preprocessing Setelah Scraping Cleaning Data : Menghapus karakter yang tidak diperlukan . Tokenization : Memecah teks menjadi kata-kata atau kalimat . Stopword Removal : Menghapus kata-kata umum seperti "yang", "di", "dan". Stemming/Lemmatization : Mengubah kata ke bentuk dasar ( contoh : " berlari " menjadi " lari ").

Kelebihan dan Tantangan Web Scraping Kelebihan : Akses ke data besar untuk pelatihan model. Mengumpulkan data secara otomatis dan cepat . Tantangan : Perubahan struktur halaman web bisa memengaruhi proses scraping. Batasan dari website ( misalnya CAPTCHA atau rate limiting). Isu legal dan etika scraping data tanpa izin .

bag of word pengatar Natural language processing

About This Presentation

Slide Content

Tags

Categories

Download

Quick Actions

Statistics

Related Slideshows

bag of word pengatar Natural language processing

About This Presentation

Slide Content

Slide 1

Slide 2

Slide 3

Slide 4

Slide 5

Slide 6

Slide 7

Slide 8

Slide 9

Slide 10

Slide 11

Slide 12

Slide 13

Slide 14

Slide 15

Slide 16

Slide 17

Slide 18

Slide 19

Slide 20

Slide 21

Slide 22

Slide 23

Slide 24

Slide 25

Tags

Categories

Download

Quick Actions

Statistics

Related Slideshows

Pray For The Peace Of Jerusalem and You Will Prosper

Don_t_Waste_Your_Life_God.....powerpoint

VILLASUR_FACTORS_TO_CONSIDER_IN_PLATING_SALAD_10-13.pdf

Fertility awareness methods for women in the society

Chapter 5 Arithmetic Functions Computer Organisation and Architecture

syakira bhasa inggris (1) (1).pptx.......