LATIHAN SOAL pembersihan dan normalisasi data

EtySeptiati3 7 views 11 slides Oct 22, 2025
Slide 1
Slide 1 of 11
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11

About This Presentation

soal dan pembahasan


Slide Content

LATIHAN SOAL

Diketahui dataset nilai sebagai berikut : [80, 85, 90, NaN , 95, 100]. Ganti nilai yang hilang menggunakan mean imputation dan tampilkan dataset baru . Penyelesaian : 1) Identifikasi nilai yang tersedia : 80, 85, 90, 95, 100. 2) Hitung rata-rata dari nilai yang ada : (80 + 85 + 90 + 95 + 100)/5 = 450/5 = 90 3) Ganti NaN dengan 90. Dataset baru : [80, 85, 90, 90, 95, 100].

Diketahui dataset pengukuran : [10, 12, NaN , 14, 100]. Hitung median dari nilai yang tersedia dan imputasi nilai NaN dengan median . Penyelesaian : 1) Ambil nilai yang tersedia : 10, 12, 14, 100. 2) Urutkan : 10, 12, 14, 100. 3) Karena jumlah data genap (4), median = average dari dua nilai tengah (12 dan 14): (12+14)/2 = 13. 4) Isi NaN dengan 13 → dataset baru : [10, 12, 13 , 14, 100]. Bandingkan hasil /dataset baru tersebut jika menggunakan imputasi mean. Mana yang lebih representatif ?

Diketahui dataset: [5, 7, 8, 9, 10, 12, 50]. Gunakan metode IQR ( InterQuartile Range ) untuk mendeteksi outlier dan tentukan nilai yang dianggap outlier . Penyelesaian : Urutkan data ( sudah urut ): 5,7,8,9,10,12,50. Tentukan Q1 ( kuartil 1) dan Q3 ( kuartil 3). Untuk n=7, Q1 adalah median dari bagian kiri (5,7,8) → Q1=7; Q3 adalah median dari bagian kanan (10,12,50) → Q3=12. IQR = Q3 − Q1 = 12 − 7 = 5. Batas bawah = Q1 − 1.5*IQR = 7 − 7.5 = −0.5; batas atas = Q3 + 1.5*IQR = 12 + 7.5 = 19.5. 5) Nilai yang berada di luar rentang (−0.5, 19.5) dianggap outlier 50 > 19.5 → 50 adalah outlier.

Sebuah dataset berisi 10 baris. Baris ke-1 sampai ke-10 memiliki jumlah kolom 5. Diketahui jumlah nilai missing per baris: [0,1,3,2,0,4,1,5,0,2]. Tugas : Hapus baris yang memiliki persentase missing > 40%. Tampilkan indeks baris yang dihapus . Penyelesaian : Karena tiap baris punya 5 kolom , 40% dari 5 = 2 (0.4*5=2). Aturan : hapus jika missing > 2. 2) Periksa tiap baris: jumlah missing = [0,1,3,2,0,4,1,5,0,2]. Baris dengan missing >2 adalah baris ke-3 (3), baris ke-6 (4), baris ke-8 (5). Jadi indeks baris yang dihapus : 3, 6, 8.

Diberikan data pengukuran : X = [12, 150, 300, 50] . Normalisasikan data ini menggunakan ketiga metode berikut : Decimal scaling, Min–Max normalization ( skala 0–1) dan Z-score normalization Decimal scaling Prinsip : bagi setiap nilai dengan di mana adalah jumlah digit pada nilai absolut maksimum sehingga . Nilai maksimum absolut = 300 → jumlah digit = 3 → . Pembagi = . Normalisasi : Hasil decimal scaling: [0.012, 0.150, 0.300, 0.050]  

Min–Max normalization ( skala 0–1) Rumus : Rentang Normalisasi : Hasil min–max: [0.0000, 0.4792, 1.0000, 0.1319]  

Z-score normalization ( standarisasi ) Rumus : dengan = rata-rata, = simpangan baku ( populasi ). Langkah: 1) Hitung rata-rata : 2) Hitung varian ( populasi ) dan simpangan baku : a. Deviasi kuadrat tiap nilai : b. Jumlah =   c. Varian ( populasi ) = d. Simpangan baku 3) Hitung z untuk setiap nilai : 4) Hasil z-score ( dibulatkan 4 desimal ): [−1.0418, 0.1976, 1.5448, −0.7006]  

Decimal scaling : sederhana , semua nilai menjadi < 1; tetapi skala relatif antar nilai tetap ( tidak mengatur ke rentang tertentu seperti 0–1). Min–Max : mengubah data ke rentang 0–1 , cocok bila ingin input pada rentang tertentu (mis. neural network), tetapi sangat sensitif terhadap outlier ( nilai maksimum /minimum menentukan skala ). Z-Score : membuat data berpusat di 0 dengan simpangan baku 1; berguna bila ingin menstandarkan fitur sebelum analisis yang mengasumsikan distribusi normal atau ketika membandingkan fitur dengan unit berbeda .

Normalisasi data diperlukan agar: Skala antar variabel seimbang , Model analisis bekerja lebih efisien dan akurat , Proses perhitungan stabil , Interpretasi hasil lebih mudah , dan Data baru bisa diproses dengan cara yang konsisten .

Normalisasi data berikut ini :[2, 4, 4, 6, 7, 10, 12, 23, 25, 40].
Tags