4. Classification etc example anything .pdf

kapalstudy 0 views 16 slides Oct 06, 2025
Slide 1
Slide 1 of 16
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16

About This Presentation

anything about clasification


Slide Content

Data Mining Workflow +
Classification

Learning:
Supervised,
Unsupervised,
Reinforced
•Supervised: data berlabel /
kelas tujuan diketahui.
•Contoh: prediksi apakah
seseorang sakit diabetes.
•Klasifikasi dan regresi
•Unsupervised: data tidak
berlabel / kelas tujuan tidak
diketahui
•Contoh: clustering user
gojek
•Clustering
•Reinforced: belajar berdasarkan
reward and punishment atas
tindakan agen
•Contoh: AI untuk
menyelesaikan game
MarioTBBBUmurGlukosa puasaDiabetes
1608055 126Y
1504521 87N GoFoodGoRideGoCarGoMart
15 37 7 3
67 6 8 5

Klasifikasi(Classification)
Klasifikasi adalah fungsi data mining yang menetapkan item dalam suatu
koleksi ke dalam kategori atau kelas target.
Tujuan dari klasifikasi adalah untuk memprediksi kelas target secara
akurat untuk setiap kasus dalam data.
Sebagai contoh, sebuah model klasifikasi dapat digunakan untuk
mengidentifikasi pemohon pinjaman sebagai risiko kredit rendah,
menengah, atau tinggi.

Alur kerja klasifikasi (sederhana, satu metode)
Penyiapan data
Training /
pembuatan model
+ Uji performa
Prediksi

Alur kerja klasifikasi (membandingkan beberapa metode)
Penyiapan data
Split data training dan testing
Training / pembuatan model
Pembandingan performa model + pemilihan model final/terbaik
Training dengan full training data dengan model terpilih
Prediksi Untukmenentukan
mana model yang
terbaikutkdi-deploy

Teknik evaluasi performa model
•Use training set: training menggunakan keseluruhan data training,
pengujian juga dilakukan thd data training -> tidak direkomendasikan.
Model harusnya belum pernah “melihat” data testing.
•Use test set: training menggunakan keseluruhan data training, testing
dengan data tersendiri khusus untuk testing.
•Model tidak pernah “melihat” data testing.
•Merupakan simulasi keadaan di dunia nyata. Kita tidak pernah tahu data seperti apa
yang akan diproses oleh model kita, ketika model ini diterapkan / “bertugas”.
•Kompetisi Kaggle menggunakan cara ini.
•Hold out / Percentage split: menyisihkan sebagian data training untuk
dijadikan data testing. Rasio umum: 70:30, 80:20, 90:10
•Cross-validation: data training dipecah menjadi beberapa bagian; masing-
masing bagian akan berperan sebagai data training dan data testing secara
bergiliran; hasil akhir merupakan rerata dari beberapa kali eksperimen tsb -
> Gold standard untukmengetahui performa model.
Soal latihan jangan sama dg soal ujian.
Untuk benar mengetahui kemampuan
siswa. Menghindari siswa menghafal.

Data Training, Data Testing, Data Validasi
•Data Training: data yang menjadidasarpembuatan/
fitting model
•Data Testing:
•Data untukmengujikemampuanmodel dalam
memprediksi.
•Data yang belumpernahdigunakandalamtraining
•Data Validasi:
•Data untukmengujikemampuanmodel ketika
melakukantuning model
•“simulasi” daridata testing

Teknik Validasi
•Standar umum: K-fold cross-valdation. Dengan K = 10.
Contoh ini
menggunakan K = 5
Validation Set

Model
•Model = fungsi / rumus yang memetakan pengaruh variable
independen kepada variable dependen
•Contoh sederhana:
�=5�+2
??????�=ቊ
????????????????????????,&#3627408485;<50
??????????????????, &#3627408485;≥50
y bisa diganti dengan
f(x), sama saja
Regresi
Klasifikasi
Jika x<50, maka Muda
Jika x >= 50, maka Tua

Contoh model decision tree

Lazy Learner vs Eager Learner
•Lazy learners simply storethe training data and waituntil a
testing data appear. When it does, classification is conducted
based on the most related data in the stored training data.
Compared to eager learners, lazy learners have less training
time but more time in predicting.
•Ex. K-Nearest Neighbor, Case-based reasoning
•Eager learners constructa classification modelbased on the
given training data before receiving data for classification. It
must be able to commit to a single hypothesis that covers
the entire instance space. Due to the model construction,
eager learners take a long time for train and less time to
predict.
•Ex. Decision Tree, Naive Bayes, Artificial Neural Networks

Confusion
Matrix

Model Performance Metrics (classification)

Contoh: akurasi tes antigenPositif CovidNegatif Covid
Positif Covid45 5
Negatif Covid 1 49
Prediksi
Aktual

Tugas
•Buatlah PPT tentang cara kerja K-Nearest Neighbor (KNN), max 10 halaman.
•Disertai contoh pengerjaan (kasus sederhana)
•Apa kelebihan dan kekurangan KNN?
Part A
•Praktekkan penggunaan KNN terhadap data riil. Antar kelompok data / kasus harus berbeda.
•Cari data (Kaggle, UCI, etc)
•Cari tutorial (Youtube, Medium, web, etc)
•Software: Jupyter Notebook!
Part B
Akan dipilih secara acak kelompok untuk presentasi.

•Yang diupload:
•PPT
•Jupyternotebook (ipynb)
•Data (csv)