Pert. 1 Data Exploration bagian (1).pptx

adiwahyucandrakusuma1 31 views 51 slides Sep 09, 2025
Slide 1
Slide 1 of 51
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41
Slide 42
42
Slide 43
43
Slide 44
44
Slide 45
45
Slide 46
46
Slide 47
47
Slide 48
48
Slide 49
49
Slide 50
50
Slide 51
51

About This Presentation

Menjelaskan bagian 1 dari data eksplorasi pada data science


Slide Content

Adi Wahyu Candra Kusuma, S.Kom ., M.T. Universitas Brawijaya (S1) Institut Teknologi Bandung (S2) Email – [email protected]

DSB13 – Pengantar Machine Learning

Topik Mata Kuliah Data Exploration (1) Data Exploration (2) Data Preparation Probability Theory Introduction of Machine Learning : Konsep dasar dan Terminologi Metode Pembelajaran Machine Learning (1) Review (1)

Topik Mata Kuliah Metode Pembelajaran Machine Learning (2) Regression Classification (1) Classification (2) Kinerja Model Machine Learning (1) Kinerja Model Machine Learning (2) Review (1)

Komponen Penilaian Tugas dan Praktek – 30% UTS – 30% UAS – 40%

Capaian Pembelajaran Mata Kuliah Mahasiswa mampu menjelaskan konsep teori data,variabel acak , distribusi probabilitas , dan konsep dasar Machine Learning (C2, A2) Mahasiswa mampu menjelaskan konsep teori Machine Learning dan metode pembelajarannya , serta mengaplikasikan konsep probabilitas&statistik dalam konteks pemrosesan data dengan Machine Learning (C3, A3)

Data Exploration (1) Pertemuan 1

Sub-CPMK Mahasiswa mampu memahami kualitas data yang baik dan dapat mengambil kesimpulan berdasarkan eksplorasi data (C2, A2) Materi : 1. Getting to Know the Data 2. Identifying Data Quality Issues

1. Getting to Know the Data

1.1. Seberapa Penting Pemahaman terhadap Data Getting to know the data merupakan tahap yang sangat penting dalam proses Machine Learning karena hal ini menetapkan dasar untuk keberhasilan analisis dan model yang akan dibangun . Memahami data dengan baik sebelum mulai mengaplikasikan algoritma Machine Learning memiliki beberapa alasan yang sangat penting : TMSM - Introduction to Data Structure 10

1.1. Seberapa Penting Pemahaman terhadap Data ( Lanjutan ) Memahami Karakteristik Data : Setiap dataset memiliki struktur dan karakteristiknya sendiri , seperti tipe data, distribusi nilai , dan hubungan antar fitur . Memahami hal ini membantu dalam memilih metode pemrosesan data yang sesuai serta model Machine Learning yang tepat untuk diterapkan . Deteksi dan Penanganan Anomali : Dengan mengenali anomali seperti nilai yang hilang , outlier, atau data tidak valid lainnya , kita dapat mengambil tindakan yang diperlukan seperti pengisian nilai yang hilang atau penghapusan outlier untuk memastikan data yang bersih dan representatif . TMSM - Introduction to Data Structure 11

1.1. Seberapa Penting Pemahaman terhadap Data ( Lanjutan ) Pemilihan Fitur yang Relevan : Memilih fitur-fitur yang paling relevan dan berpengaruh dalam memprediksi variabel target adalah kunci keberhasilan model. Dengan memahami distribusi dan korelasi fitur-fitur , kita dapat mengurangi dimensi data yang tidak perlu dan meningkatkan fokus pada fitur-fitur yang paling informatif . Persiapan Data yang Baik : Data yang dipersiapkan dengan baik, termasuk preprocessing seperti normalisasi , transformasi , atau encoding kategori , memastikan bahwa model Machine Learning dapat belajar dari data dengan efektif dan memberikan hasil yang konsisten . TMSM - Introduction to Data Structure 12

1.1. Seberapa Penting Pemahaman terhadap Data ( Lanjutan ) Evaluasi Model yang Akurat : Memahami distribusi data membantu dalam mengevaluasi kinerja model dengan lebih baik. Dengan pemahaman yang mendalam tentang data, kita dapat mengidentifikasi apakah model cenderung overfitting atau underfitting, serta melakukan penyesuaian yang diperlukan untuk meningkatkan prediksi yang akurat . Keselarasan dengan Tujuan Bisnis : Setiap analisis data dan penggunaan Machine Learning harus selaras dengan tujuan bisnis atau tujuan akhir yang ingin dicapai . Memahami data membantu dalam merancang solusi yang sesuai dan memberikan nilai tambah yang nyata bagi organisasi . TMSM - Introduction to Data Structure 13

1.2 Teknik Dasar Memahami Karakteristik Data Statistik Deskriptif : Menggunakan metrik seperti mean, median, modus, standar deviasi , dan kuartil untuk memberikan gambaran umum tentang distribusi data. Ini membantu dalam mengidentifikasi nilai ekstrim , rentang nilai , dan kecenderungan sentral data. Visualisasi Data : Grafik seperti histogram, box plot, scatter plot, dan heatmap membantu dalam memvisualisasikan distribusi data, hubungan antar variabel , serta pola atau tren yang mungkin ada . Visualisasi mempermudah interpretasi dan komunikasi hasil analisis kepada pemangku kepentingan . Analisis Korelasi : Menganalisis korelasi antar variabel untuk memahami hubungan dan dependensi antar fitur . Korelasi dapat membantu dalam pemilihan fitur , pemahaman terhadap pola yang ada , serta dalam pengambilan keputusan yang lebih baik . TMSM - Introduction to Data Structure 14

1.2 Teknik Dasar Memahami Karakteristik Data ( Lanjutan ) Pendeteksian Anomali : Mengidentifikasi dan menangani data yang tidak biasa atau outlier yang dapat mempengaruhi hasil analisis . Teknik seperti teknik statistik , klastering , atau algoritma deteksi anomali dapat digunakan tergantung pada sifat data. Pemrosesan Data : Melakukan pemrosesan data seperti pengisian nilai yang hilang , normalisasi skala , atau encoding fitur kategorikal untuk mempersiapkan data sebelum digunakan dalam analisis atau pelatihan model Machine Learning. TMSM - Introduction to Data Structure 15

TMSM - Introduction to Data Structure 16 1.3 Mengenal Tipe Data

1.3.1 Data Categorical Disebut dengan data kategori atau kualitatif karena data tersebut memiliki informasi dekriptif . Contoh paling mudah ketika bicara data jenis kelamin , data anak pintar , ranking kelas dan lain-lain. Data Kategori sendiri dibagi menjadi 3 ( tiga ) jenis , diantaranya adalah data binomial data nominal data ordinal.

1.3.1 Data Kategori ( Lanjutan ) Data binomial Data yang memiliki 2 (dua) pilihan jawaban , bisa dikategorikan sebagai data binomial. Sebagai contoh data jenis kelamin , yang hanya memiliki jawaban pria atau wanita . Contoh lainnya adalah baik-buruk , ya-tidak , untuk koin bisa berupa kepala-ekor , sukses-gagal dan lain sebagainya . Data nominal Data kategori dengan informasi yang tidak berurutan . Ciri data nominal, posisi datanya setara dan tidak bisa dilakukan operasi matematika . Contohnya data warna ( merah , hijau putih , kuning , dll ), olahraga (basket, sepak bola, voli , dll ), bunga ( mawar , melati , anggrek , dll ), dan lain sebagainya . Data ordinal Berbeda dengan data nominal, data ordinal berupa data kategori dengan informasi yang berurutan dan diantara data tersebut dapat berhubungan . Ciri data ordinal, posisi datanya tidak setara dan tidak bisa dilakukan operasi matematika . Contoh paling mudah yaitu data ukuran ( kecil , sedang , besar ), data ranking ( juara 1, juara 2, juara 3), data rating ( bintang 1, bintang 2, bintang 3), data pendidikan ( sd , smp , sma ) dan lain sebagainya .

1.3.2 Data Numerikal Disebut dengan daya numerik atau data kuantitatif karena data tersebut memiliki variabel berupa bilangan atau angka . Data numerik sendiri memiliki 2 (dua) jenis , yaitu data diskrit data kontinyu .

1.3.2 Data Numerikal ( Lanjutan ) Data diskrit Data yang bersifat putus-putus , dan bukan dalam bentuk bilangan pecahan . Data ini diperoleh dengan cara menghitung , contoh nya adalah data jumlah penduduk , data penjualan suatu barang , data jumlah suara dalam pemilihan umum dan lain sebagainya . Data kontinyu Data yang bersifat berkelanjutan , bisa dalam bentuk pecahan . Data ini diperoleh cara mengukur . Data kontinyu sendiri dibagi menjadi 2 (dua) jenis yaitu data interval dan data rasio .

2. Identifying Data Quality Issues

2.1 Data yang Baik untuk Diproses oleh Machine Learning Garbage In Garbage Out (GIGO) : P rinsip ini menekankan pentingnya data yang baik untuk mendapatkan model yang berkualitas dan prediksi yang akurat

2.2 Beberapa Karakteristik Data yang Baik 1. Jumlah Data: Kuantitas Data: Jumlah data yang memadai umumnya diperlukan untuk melatih model ML dengan baik . Model cenderung lebih baik jika dilatih dengan dataset yang lebih besar . 2. Kualitas Data: Kualitas Data: Kualitas data yang baik menjadi krusial . Data yang tidak akurat , tidak lengkap , atau bermasalah dapat menghasilkan model yang bias atau tidak dapat diandalkan . 3. Representativitas : Representativitas Data: Dataset harus mewakili variasi dan karakteristik dari populasi yang ingin dihasilkan oleh model. Representasi yang buruk dapat menghasilkan model yang tidak dapat di- generalisasi dengan baik .

2.2 Beberapa Karakteristik Data yang Baik ( Lanjut ) 4. Keberagaman Data: Keberagaman Data: Dataset yang beragam membantu model untuk memahami pola yang lebih umum . Keberagaman membantu mencegah overfitting pada pola yang spesifik . 5 . Konsistensi Data: Konsistensi Data: Konsistensi dalam format dan struktur data mempermudah pra-pemrosesan dan memastikan bahwa data dapat diolah dengan benar oleh model. 6. Privasi dan Kepatuhan : Privasi dan Kepatuhan : Data harus diperoleh dan diproses dengan mematuhi regulasi privasi dan hukum yang berlaku . Perlindungan privasi menjadi perhatian utama .

2.3 Konsep Kerangka Kerja Kualitas Data Sumber : https://www.researchgate.net/publication/343529257_METODE_PENILAIAN_KUALITAS_DATA_SEBAGAI_REKOMENDASI_SISTEM_REPOSITORI_ILMIAH_NASIONAL

2.3.1 Konsep Kerangka Kerja Kualitas Data ( Lanjutan ) Kualitas Data Intrinsik mengacu pada kualitas bawaan dari data itu sendiri , tanpa mempertimbangkan konteks penggunaannya . Dimensi-dimensi ini berperan penting dalam menentukan seberapa baik kualitas dari data yang kita miliki . Semakin tinggi kualitas data dalam aspek-aspek ini, semakin besar kemungkinan data tersebut dapat digunakan secara efektif untuk analisis dan pengambilan keputusan . Berikut adalah beberapa aspek utama dari kualitas data intrinsik :

2.3.1 Konsep Kerangka Kerja Kualitas Data ( Lanjutan ) 1. Believability ( Keterpercayaan ) Definisi : Believability mengukur sejauh mana data dapat dipercaya oleh pengguna . Data yang dianggap dapat dipercaya biasanya datang dari sumber yang andal dan konsisten . Contoh : Jika data tentang tingkat inflasi disediakan oleh lembaga pemerintah yang memiliki reputasi baik, data tersebut lebih cenderung dianggap dapat dipercaya dibandingkan data yang berasal dari sumber yang kurang dikenal .

2.3.1 Konsep Kerangka Kerja Kualitas Data ( Lanjutan ) 2. Accuracy (Akurasi) Definisi : Akurasi mengacu pada sejauh mana data secara tepat dan benar menggambarkan objek atau kejadian di dunia nyata . Data yang akurat adalah data yang benar-benar mencerminkan kenyataan tanpa adanya kesalahan . Contoh : Jika sebuah sistem inventaris mencatat bahwa ada 100 unit produk di gudang , tetapi kenyataannya hanya ada 90 unit, maka data tersebut tidak akurat .

2.3.1 Konsep Kerangka Kerja Kualitas Data ( Lanjutan ) 3. Objectivity ( Objektivitas ) Definisi : Objektivitas mengacu pada sejauh mana data bebas dari bias atau opini pribadi. Data yang objektif seharusnya didasarkan pada fakta yang tidak dipengaruhi oleh interpretasi subjektif . Contoh : Data statistik seperti angka kematian atau angka kelahiran biasanya dianggap objektif karena mereka didasarkan pada peristiwa yang terukur dan nyata .

2.3.1 Konsep Kerangka Kerja Kualitas Data ( Lanjutan ) 4. Reputation ( Reputasi ) Definisi : Reputasi mengukur sejauh mana sumber data dan data itu sendiri dianggap berkualitas baik oleh pengguna . Reputasi seringkali didasarkan pada pengalaman masa lalu dengan data atau sumber tersebut. Contoh : Data yang disediakan oleh institusi akademik ternama atau perusahaan yang memiliki rekam jejak yang baik dalam memberikan informasi yang akurat akan memiliki reputasi tinggi .

2.3.2 Konsep Kerangka Kerja Kualitas Data ( Lanjutan ) Kualitas Data Kontekstual mengacu pada seberapa baik data memenuhi kebutuhan dan konteks spesifik penggunaannya . Dimensi-dimensi ini membantu memastikan bahwa data yang digunakan sesuai dengan konteks spesifik , mendukung analisis yang akurat , dan membantu dalam pengambilan keputusan yang lebih baik. Berikut adalah beberapa aspek utama dari kualitas data kontekstual :

2.3.2 Konsep Kerangka Kerja Kualitas Data ( Lanjutan ) 1. Value-Added (Nilai Tambah ) Definisi : Value-added mengukur sejauh mana data memberikan manfaat atau kontribusi yang signifikan bagi tujuan atau proses tertentu . Data yang memiliki nilai tambah adalah data yang membantu dalam pengambilan keputusan , peningkatan efisiensi , atau pencapaian hasil yang lebih baik. Contoh : Data tentang tren pasar yang memungkinkan perusahaan membuat keputusan strategis untuk meningkatkan penjualan adalah contoh data dengan nilai tambah yang tinggi .

2.3.2 Konsep Kerangka Kerja Kualitas Data ( Lanjutan ) 2. Relevancy ( Relevansi ) Definisi : Relevansi mengacu pada seberapa cocok atau tepatnya data untuk kebutuhan spesifik dari pengguna atau aplikasi tertentu . Data yang relevan adalah data yang berhubungan langsung dengan masalah atau pertanyaan yang sedang dianalisis . Contoh : Data demografis mungkin sangat relevan untuk kampanye pemasaran yang menargetkan kelompok usia tertentu , tetapi mungkin tidak relevan untuk analisis efisiensi operasional di pabrik .

2.3.2 Konsep Kerangka Kerja Kualitas Data ( Lanjutan ) 3. Timeliness ( Ketepatan Waktu) Definisi : Timeliness mengukur sejauh mana data tersedia pada waktu yang tepat , sehingga masih berguna untuk analisis atau keputusan yang harus diambil . Data yang tepat waktu adalah data yang mutakhir dan tersedia ketika diperlukan . Contoh : Data penjualan harian yang tersedia pada waktu yang tepat memungkinkan perusahaan untuk menyesuaikan strategi penjualan mereka dengan cepat . Sebaliknya , data yang terlambat mungkin sudah tidak relevan untuk keputusan yang harus segera diambil .

2.3.2 Konsep Kerangka Kerja Kualitas Data ( Lanjutan ) 4. Completeness ( Kelengkapan ) Definisi : Kelengkapan mengacu pada sejauh mana semua data yang diperlukan tersedia untuk analisis atau pengambilan keputusan . Data yang lengkap mencakup semua informasi yang diperlukan untuk memberikan gambaran yang akurat dan menyeluruh . Contoh : Jika sebuah laporan penjualan mencakup data penjualan dari semua cabang perusahaan , tetapi salah satu cabang tidak disertakan , maka data tersebut tidak lengkap .

2.3.2 Konsep Kerangka Kerja Kualitas Data ( Lanjutan ) 5. Appropriate Amount of Data ( Jumlah Data yang Sesuai) Definisi : Jumlah data yang sesuai mengacu pada apakah jumlah data yang tersedia cukup untuk memenuhi kebutuhan analisis tanpa kelebihan atau kekurangan . Data harus cukup untuk mendukung keputusan atau analisis , tetapi tidak boleh terlalu banyak sehingga menyebabkan informasi berlebihan (information overload). Contoh : Untuk analisis tren penjualan , memiliki data dari lima tahun terakhir mungkin cukup untuk memberikan wawasan yang berarti. Namun , memiliki data dari 20 tahun lalu mungkin tidak menambah banyak nilai dan hanya memperumit analisis .

2.3.3 Konsep Kerangka Kerja Kualitas Data ( Lanjutan ) Kualitas Data Representasional mengacu pada cara data disajikan dan diatur , yang memengaruhi seberapa mudah data tersebut dipahami dan digunakan . Dimensi-dimensi ini penting untuk memastikan bahwa data disajikan dengan cara yang memudahkan pengguna untuk memahami , menganalisis , dan memanfaatkannya secara efektif, tanpa kebingungan atau kesalahan interpretasi . Berikut adalah beberapa aspek utama dari kualitas data representasional :

2.3.3 Konsep Kerangka Kerja Kualitas Data ( Lanjutan ) 1. Interpretability (Kemampuan Interpretasi ) Definisi : Interpretability mengukur sejauh mana data dapat diinterpretasikan atau dimaknai dengan benar oleh pengguna . Data yang dapat diinterpretasikan dengan baik memiliki label, format, dan penjelasan yang jelas sehingga pengguna dapat memahami makna dan konteksnya . Contoh : Data tentang tingkat kehadiran di sekolah yang disajikan dengan label yang jelas seperti " persentase kehadiran harian " akan lebih mudah diinterpretasikan oleh pengguna dibandingkan dengan data yang hanya mencantumkan angka tanpa penjelasan .

2.3.3 Konsep Kerangka Kerja Kualitas Data ( Lanjutan ) 2. Ease of Understanding ( Kemudahan Pemahaman ) Definisi : Ease of understanding mengacu pada sejauh mana data dapat dipahami dengan mudah oleh pengguna , tanpa memerlukan interpretasi yang kompleks . Data yang mudah dipahami biasanya disajikan dalam format yang sederhana , dengan penjelasan atau visualisasi yang jelas. Contoh : Sebuah grafik yang menunjukkan tren penjualan bulanan dalam bentuk garis sederhana lebih mudah dipahami dibandingkan dengan tabel data yang kompleks dengan banyak angka .

2.3.3 Konsep Kerangka Kerja Kualitas Data ( Lanjutan ) 3. Representational Consistency ( Konsistensi Representasi ) Definisi : Representational consistency mengukur sejauh mana data disajikan secara konsisten di berbagai konteks atau sistem . Konsistensi dalam representasi membantu pengguna dalam mengenali dan memahami data dengan cepat tanpa kebingungan . Contoh : Jika sebuah laporan menggunakan format tanggal yang sama ( misalnya , "DD-MM-YYYY") di seluruh dokumen, maka data tersebut dianggap memiliki konsistensi representasi yang baik. Sebaliknya , menggunakan format yang berbeda untuk tanggal di bagian laporan yang berbeda dapat menyebabkan kebingungan .

2.3.3 Konsep Kerangka Kerja Kualitas Data ( Lanjutan ) 4. Concise Representation ( Representasi yang Ringkas ) Definisi : Concise representation mengacu pada sejauh mana data disajikan dengan cara yang ringkas dan tidak berlebihan . Data yang disajikan secara ringkas memberikan informasi yang diperlukan tanpa adanya informasi yang tidak relevan atau berlebihan . Contoh : Sebuah ringkasan penjualan yang menyoroti angka kunci seperti total penjualan dan pertumbuhan tahunan dianggap sebagai representasi yang ringkas , dibandingkan dengan laporan panjang yang berisi data mentah yang tidak diproses .

2.3.4 Konsep Kerangka Kerja Kualitas Data ( Lanjutan ) Kualitas Data Aksesibilitas mengacu pada seberapa mudah dan aman data dapat diakses oleh pengguna yang berwenang . Kedua aspek ini penting untuk memastikan bahwa data tidak hanya mudah diakses oleh pengguna yang berhak , tetapi juga terlindungi dari akses yang tidak sah atau potensi penyalahgunaan . Aksesibilitas dan keamanan harus seimbang agar data tetap dapat dimanfaatkan secara maksimal tanpa mengorbankan kerahasiaan atau integritasnya . Berikut adalah dua aspek utama dari kualitas data aksesibilitas :

2.3.4 Konsep Kerangka Kerja Kualitas Data ( Lanjutan ) 1. Accessibility ( Aksesibilitas ) Definisi : Accessibility mengukur sejauh mana data dapat diakses oleh pengguna yang memerlukannya , tanpa hambatan teknis atau administratif . Data yang memiliki aksesibilitas tinggi tersedia dan mudah diakses oleh orang yang berhak , kapan pun dibutuhkan. Contoh : Sebuah sistem manajemen data yang memungkinkan karyawan mengakses laporan keuangan dari perangkat apa pun dan kapan pun adalah contoh dari data yang memiliki aksesibilitas tinggi . Sebaliknya , jika data hanya dapat diakses melalui komputer tertentu pada jam kerja tertentu , aksesibilitasnya rendah .

2.3.4 Konsep Kerangka Kerja Kualitas Data ( Lanjutan ) 2. Access Security ( Keamanan Akses ) Definisi : Access security mengacu pada sejauh mana akses terhadap data dilindungi dari pengguna yang tidak berwenang . Ini mencakup mekanisme untuk memastikan bahwa hanya orang yang memiliki otoritas yang dapat mengakses , mengubah , atau menghapus data. Contoh : Implementasi kontrol akses yang kuat , seperti penggunaan kata sandi , otentikasi dua faktor , dan enkripsi data, adalah contoh dari keamanan akses yang baik. Hal ini memastikan bahwa data sensitif , seperti informasi pelanggan , hanya dapat diakses oleh personel yang berwenang .

2.4 Kualitas Data yang Valid dan Reliable Sumber : https://www.slideshare.net/slideshow/data-quality-presentationppt-256210732/256210732

2.5 Atribut Kualitas Data Item Data Quality High data quality (38) Completeness, accuracy or positional accuracy, timeliness or updatedness or currency, validity, periodicity, relevance, reliability, precision, integrity, confidentiality or data security, comparability, consistency or internal consistency or external consistency, concordance, granularity, repeatability, readily useableness or usability or utility, objectivity, ease with understanding, importance, reflecting actual sample, meeting data standards, use of standards, accessibility, transparency, representativeness, disaggregation, data collection method or adjustment methods or data management process or data management Poor data quality (111) Missing data, under-reporting, inconsistencies, data errors or calculation errors or errors in report forms or errors resulted from data entry, invalid data, illegible hand writing, non-standardization of vocabulary, and inappropriate fields Sumber : Chen, Hailey, Wang, & Yu (2014)

2.6 Metode untuk Penilaian Dimensi Akurasi Data akurat ketika nilai data yang disimpan dalam database sesuai dengan nilai dunia nyata ( Batini , et al., 2009). Wang & Strong (1996b) mendefinisikan akurasi data sebagai “ sejauh mana data benar , dapat diandalkan dan tersertifikasi ”. Akurasi data ada dua jenis , yaitu akurasi sintaksis dan akurasi semantik . Akurasi sintaksis adalah kedekatan dari nilai v ke elemen-elemen yang sesuai definisi domain D. Akurasi sintaksis diukur dengan menggunakan fungsi yang disebut fungsi perbandingan , yang mengevaluasi jarak antara v dan nilai dalam D. Keakuratan semantik adalah kedekatan dari nilai v ke nilai v1 yang sebenarnya .

2.7 Metode untuk Penilaian Dimensi Kelengkapan Data lengkap ketika semua nilai data yang diperlukan tersedia . Selain itu , data harus dapat mewakili nilai nol karena dalam beberapa kasus data mungkin tidak memiliki nilai yang terkait ( Bovee , Srivastava, & Mak, 2003). Misalnya , karyawan dengan status tidak menikah atau belum menikah akan mengosongkan kolom nama pasangan . Dalam hal ini , nilai nol pada kolom nama pasangan tidak dapat dianggap sebagai data yang tidak lengkap . Data dapat memiliki nilai nol dan keberadaan nilai nol , tidak seharusnya dianggap sebagai data yang tidak lengkap . Data yang tidak lengkap terjadi ketika nilai nol ditetapkan untuk data yang seharusnya memiliki nilai .

2.8 Metode untuk Penilaian Dimensi Ketepatan Waktu Ketepatan waktu data mengacu pada usia data (Wang & Strong, 1996b). Ketepatan waktu data dapat dilihat sebagai atribut tanggal ( Bovee , et al., 2003). Atribut tanggal termasuk usia dan volatilitas sebagai ukuran ketepatan waktu data. Ketepatan waktu dan tanggal harus diukur oleh pengguna dalam konteks tujuan aplikasi . Ketepatan waktu data sangat penting karena data terkini memiliki potensi yang lebih besar untuk dipertimbangkan sebagai kualitas data yang tinggi (Wang & Strong, 1996b).

Ringkasan Getting to know the data merupakan tahap yang sangat penting dalam proses Machine Learning karena hal ini menetapkan dasar untuk keberhasilan analisis dan model yang akan dibangun . Garbage In Garbage Out (GIGO)  P rinsip ini menekankan pentingnya data yang baik untuk mendapatkan model yang berkualitas dan prediksi yang akurat . Indikator penilaian kualitas data harus berpedoman pada beberapa dimensi dan tipe data yang diukur . TMSM - Introduction to Data Structure 50

TUHAN Memberkati Anda Terimakasih
Tags