Pert. 2 Data Exploration bagian (2).pptx

adiwahyucandrakusuma1 8 views 55 slides Sep 09, 2025
Slide 1
Slide 1 of 55
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41
Slide 42
42
Slide 43
43
Slide 44
44
Slide 45
45
Slide 46
46
Slide 47
47
Slide 48
48
Slide 49
49
Slide 50
50
Slide 51
51
Slide 52
52
Slide 53
53
Slide 54
54
Slide 55
55

About This Presentation

Menjelaskan bagian 2 dari data eksplorasi pada data science


Slide Content

DSB13 – Pengantar Machine Learning

Capaian Pembelajaran Mata Kuliah Mahasiswa mampu menjelaskan konsep teori data,variabel acak , distribusi probabilitas , dan konsep dasar Machine Learning (C2, A2) Mahasiswa mampu menjelaskan konsep teori Machine Learning dan metode pembelajarannya , serta mengaplikasikan konsep probabilitas&statistik dalam konteks pemrosesan data dengan Machine Learning (C3, A3)

Data Exploration (2) Pertemuan 2

Sub-CPMK Mahasiswa mampu memahami kualitas data yang baik dan dapat mengambil kesimpulan berdasarkan eksplorasi data (C2, A2) Materi : 1. Handling Data Quality Issues 2. Advanced Data Exploration

1. Handling Data Quality Issues

1.1. Faktor Penyebab Buruknya Kualitas Data Aturan bisnis tidak ada atau tidak ada standar untuk pengambilan data. Standar mungkin ada tetapi tidak ditegakkan pada saat pengambilan data. Terjadi entri data yang tidak konsisten ( ejaan yang salah, penggunaan nama panggilan , nama tengah , atau alias). Kesalahan entri data ( transposisi karakter , kesalahan ejaan , dan sebagainya ) terjadi . Integrasi data dari sistem dengan standar data yang berbeda . Masalah kualitas data dianggap memakan waktu dan mahal untuk diperbaiki . TMSM - Introduction to Data Structure 6

1.2 Primary Sources of Data Quality Problems Sumber : The Data Warehousing Institute, Data Quality and the Bottom Line, 2002

1.3 Metode Pendekatan untuk Menyelesaikan Permasalahan Kualitas Data Metode pendekatan untuk menyelesaikan permasalahan kualitas data dapat dibagi dua berdasarkan waktu pembuatan data base. Timeline Pembuatan Database Sebelum Database dibuat Timeline Psetelah database dibuatembuatan Database

1.3.1 Pendekatan Sebelum Database Dibuat Pendekatan ini termasuk pendekatan preventive sebelum terjadi permasalahan kualitas data. Sebelum Pembuatan Database Data Profiling Education and Training Standardisasi Data

1.3.1.1 Data Profiling Definisi : Proses mengevaluasi data untuk memahami struktur , konten , dan kualitasnya sebelum data dimasukkan ke dalam database. Teknik : Menggunakan SQL, Pandas di Python, atau alat khusus seperti Talend Data Preparation untuk melakukan analisis statistik terhadap data sumber.

1.3.1.2 Standardisasi Data Definisi : Menetapkan aturan dan standar untuk pengambilan dan entri data sebelum data dimasukkan ke dalam database. Teknik : Implementasi Aturan Bisnis : Menetapkan aturan bisnis yang jelas untuk pengambilan data. Enforcement: Memastikan bahwa aturan ini diikuti secara ketat oleh semua pihak yang terlibat dalam pengambilan data.

1.3.1.3 Education and Training Definisi : Meningkatkan kesadaran dan pengetahuan tentang pentingnya kualitas data di seluruh organisasi sebelum data dimasukkan ke dalam database. Teknik : Pelatihan karyawan : Memberikan pelatihan kepada karyawan tentang pentingnya kualitas data dan bagaimana menjaga standar . Dokumentasi dan Panduan Menyediakan dokumentasi dan panduan tentang praktik terbaik dalam pengambilan dan entri data.

1.3.2 Setelah Database Dibuat Setelah Database Dibuat Data Cleaning Data Integration Data Monitoring dan Data Governance Automated Data Correction

1.3.2.1 Data Cleaning Definisi : Proses membersihkan data dari kesalahan dan inkonsistensi setelah data dimasukkan ke dalam database. Teknik : Deteksi dan Penghapusan Duplikasi Penanganan Nilai Hilang Validasi Entri Data

1.3.2.1 Data Cleaning Deteksi dan Penghapusan Duplikasi

1.3.2.1 Data Cleaning Penanganan Nilai Hilang

1.3.2.1 Data Cleaning Validasi Entri Data

1.3.2.2 Data Integration Definisi : Proses menggabungkan data dari berbagai sumber yang berbeda serta dimasukkan ke dalam database Teknik : Extract, Transform, Load (ETL) Data mapping

1.3.2.2 Data Integration Extract, Transform, Load (ETL)

1.3.2.2 Data Integration Data mapping

1.3.2.3 Data Monitoring dan Governance Definisi : Pemantauan kualitas data secara terus-menerus dan pengelolaan kebijakan serta standar data setelah data dimasukkan ke dalam database. Teknik : Dashboard dan Reporting Data Stewardship

1.3.2.4 Automated Data Correction Definisi : Menggunakan alat otomatis untuk mendeteksi dan memperbaiki masalah kualitas data setelah data dimasukkan ke dalam database. Teknik : Machine Learning Rule-Based Systems

2. Advanced Data Exploration

2.1. Advanced Data Exploration Definisi : Advanced Data Exploration adalah langkah penting dalam analisis data dan machine learning yang melibatkan teknik-teknik canggih untuk memahami data secara mendalam . Proses ini tidak hanya membantu dalam menemukan pola dan anomali dalam data, tetapi juga memungkinkan kita untuk mempersiapkan data dengan lebih baik untuk analisis lebih lanjut atau pembangunan model machine learning. Tujuan : Memahami struktur dan distribusi data dengan lebih mendalam . Mengidentifikasi hubungan antara variabel . Menemukan pola , tren , dan anomali dalam data. Mempersiapkan data untuk analisis lebih lanjut atau pembangunan model machine learning. TMSM - Introduction to Data Structure 24

2.2 Komponen dalam Advanced Data Exploration TMSM - Introduction to Data Structure 25 Komponen Univariate Analysis Bivariate Analysis Multivariate Analysis Anomaly Detection Time Series Anlysis (Jika data dengan deret waktu )

2.2.1 Univariate Analysis Definisi : Analisis yang dilakukan pada satu variabel untuk memahami distribusi , pusat , dan sebaran datanya . Teknik : Histogram dan Boxplot untuk data numerik . Bar chart dan pie chart untuk data kategori . Menghitung statistik deskriptif seperti mean, median, mode, range, dan standard deviation.

2.2.1 Univariate Analysis Histogram dan Boxplot untuk data numerik .

2.2.1 Univariate Analysis Histogram dan Boxplot untuk data numerik .

2.2.1 Univariate Analysis Bar chart dan pie chart untuk data kategori .

2.2.1 Univariate Analysis Bar chart dan pie chart untuk data kategori .

2.2.2 Bivariate Analysis Definisi : Analisis yang melibatkan dua variabel untuk memahami hubungan antara keduanya . Teknik : Scatter plot untuk data numerik . Cross-tabulation dan Chi-square test untuk data kategori . Pearson/Spearman correlation untuk mengukur kekuatan dan arah hubungan antara dua variabel numerik .

2.2.2 Bivariate Analysis Scatter plot untuk data numerik .

2.2.2 Bivariate Analysis Scatter plot untuk data numerik .

2.2.2 Bivariate Analysis Cross-tabulation dan Chi-square test untuk data kategori . 1. Cross-tabulation Cross-tabulation digunakan untuk membuat tabel yang menunjukkan distribusi frekuensi dari dua variabel kategori . 2. Chi-square Test Chi-square test digunakan untuk menguji apakah ada perbedaan yang signifikan antara frekuensi yang diobservasi dan frekuensi yang diharapkan di dalam tabel kontingensi .

2.2.2 Bivariate Analysis Cross-tabulation dan Chi-square test untuk data kategori .

2.2.2 Bivariate Analysis Pearson/Spearman correlation untuk mengukur kekuatan dan arah hubungan antara dua variabel numerik . Pearson Correlation Koefisien korelasi Pearson mengukur kekuatan dan arah hubungan linier antara dua variabel numerik . Nilai Pearson berkisar antara -1 hingga 1: 1 berarti hubungan linier positif sempurna . -1 berarti hubungan linier negatif sempurna . 0 berarti tidak ada hubungan linier. Spearman Correlation Koefisien korelasi Spearman mengukur kekuatan dan arah hubungan monotonik antara dua variabel numerik . Ini tidak memerlukan hubungan linier, dan cocok untuk data yang tidak memenuhi asumsi normalitas . Nilai Spearman juga berkisar antara -1 hingga 1.

2.2.2 Bivariate Analysis Pearson/Spearman correlation untuk mengukur kekuatan dan arah hubungan antara dua variabel numerik .

2.2.3 Multivariate Analysis Definisi : Analisis yang melibatkan lebih dari dua variabel untuk memahami hubungan kompleks antar variabel . Teknik : Pair plot Heatmato Metode clustering untuk menemukan grup dalam data

2.2.3 Multivariate Analysis Pair plot

2.2.3 Multivariate Analysis Heatmato

2.2.3 Multivariate Analysis Metode clustering

2.2.4 Anomaly Detection Definisi : Identifikasid data yang tidak biasa atau outliers yang dapat mempengaruhi analisis atau model Teknik : IQR Z-Score Machine learning methods : isolation forest, one-class SVM

2.2.4 Anomaly Detection IQR IQR adalah metode statistik yang digunakan untuk mengidentifikasi outliers dengan mengukur rentang di antara kuartil pertama (Q1) dan kuartil ketiga (Q3) dalam data.

2.2.4 Anomaly Detection Z-Score Z-Score adalah ukuran statistik yang menunjukkan seberapa banyak deviasi standar suatu nilai dari rata-rata. Biasanya digunakan untuk mengidentifikasi outliers dalam data yang terdistribusi normal.

2.2.4 Anomaly Detection Machine learning methods : one-class SVM One-Class SVM adalah metode berbasis kernel yang digunakan untuk deteksi outliers, terutama pada data dengan distribusi yang tidak diketahui .

2.2.5 Time Series Analysis Definisi : Analisis data yang berurutan dalan waktu untuk memahami pola dan tren Teknik : Plotting time series Decomposition of time series Autocorrelation and Partial autocorrelation plots

2.2.5 Time Series Analysis Plotting Time Series: Menampilkan data dalam bentuk grafik dengan sumbu x sebagai waktu dan sumbu y sebagai nilai . Ini membantu dalam visualisasi pola , tren , dan fluktuasi dalam data. Decomposition of Time Series: Memecah time series menjadi komponen tren , musiman , dan residual. Ini membantu dalam memahami elemen-elemen yang mempengaruhi data dan membuat prediksi yang lebih akurat . Autocorrelation and Partial Autocorrelation Plots: Autocorrelation Plot menunjukkan korelasi antara nilai-nilai dalam data dengan nilai-nilai pada interval waktu yang berbeda . Partial Autocorrelation Plot menunjukkan korelasi antara nilai-nilai dalam data setelah menghilangkan pengaruh nilai-nilai di interval waktu sebelumnya .

2.2.5 Time Series Analysis Plotting time series

2.2.5 Time Series Analysis Decomposition of time series

2.2.5 Time Series Analysis Decomposition of time series

2.2.5 Time Series Analysis Autocorrelation and Partial autocorrelation plots

2.3 Langkah – langkah dalam Advanced Data Exploration Data Collection and Cleaning Mengumpulkan data dari berbagai sumber . Membersihkan data dari missing values, duplikasi , dan inkonsistensi . Initial Data Exploration Menggunakan teknik univariate dan bivariate untuk pemahaman awal . Mengidentifikasi anomali dan outliers. In-Depth Analysis Menggunakan multivariate analysis untuk memahami hubungan kompleks . Feature engineering untuk menciptakan fitur yang lebih informatif .

2.3 Langkah – langkah dalam Advanced Data Exploration ( Lanjut ) Visualization Membuat visualisasi yang membantu dalam memahami data secara lebih intuitif . Menggunakan teknik visualisasi interaktif untuk eksplorasi lebih lanjut . Reporting and Insights Menyusun laporan dengan temuan utama . Memberikan rekomendasi berdasarkan analisis data.

Ringkasan Terdapat beberapa factor penyebab kualitas data yang buruk , factor tertinggi adalah kesalahan input oleh manusia . Metode pendekatan untuk menyelesaikan permasalahan kualitas data dapat dibagi dua berdasarkan waktu pembuatan data base, yaitu sebelum dan setelah pembuatan database. Advanced Data Exploration adalah langkah penting dalam analisis data dan machine learning yang melibatkan teknik-teknik canggih untuk memahami data secara mendalam . Proses ini tidak hanya membantu dalam menemukan pola dan anomali dalam data, tetapi juga memungkinkan kita untuk mempersiapkan data dengan lebih baik untuk analisis lebih lanjut atau pembangunan model machine learning. TMSM - Introduction to Data Structure 54

TUHAN Memberkati Anda Terimakasih
Tags