Learning:
Supervised,
Unsupervised,
Reinforced
•Supervised: data berlabel /
kelas tujuan diketahui.
•Contoh: prediksi apakah
seseorang sakit diabetes.
•Klasifikasi dan regresi
•Unsupervised: data tidak
berlabel / kelas tujuan tidak
diketahui
•Contoh: clustering user
gojek
•Clustering
•Reinforced: belajar berdasarkan
reward and punishment atas
tindakan agen
•Contoh: AI untuk
menyelesaikan game
MarioTBBBUmurGlukosa puasaDiabetes
1608055 126Y
1504521 87N GoFoodGoRideGoCarGoMart
15 37 7 3
67 6 8 5
Klasifikasi(Classification)
Klasifikasi adalah fungsi data mining yang menetapkan item dalam suatu
koleksi ke dalam kategori atau kelas target.
Tujuan dari klasifikasi adalah untuk memprediksi kelas target secara
akurat untuk setiap kasus dalam data.
Sebagai contoh, sebuah model klasifikasi dapat digunakan untuk
mengidentifikasi pemohon pinjaman sebagai risiko kredit rendah,
menengah, atau tinggi.
Alur kerja klasifikasi (sederhana, satu metode)
Penyiapan data
Training /
pembuatan model
+ Uji performa
Prediksi
Alur kerja klasifikasi (membandingkan beberapa metode)
Penyiapan data
Split data training dan testing
Training / pembuatan model
Pembandingan performa model + pemilihan model final/terbaik
Training dengan full training data dengan model terpilih
Prediksi Untukmenentukan
mana model yang
terbaikutkdi-deploy
Teknik evaluasi performa model
•Use training set: training menggunakan keseluruhan data training,
pengujian juga dilakukan thd data training -> tidak direkomendasikan.
Model harusnya belum pernah “melihat” data testing.
•Use test set: training menggunakan keseluruhan data training, testing
dengan data tersendiri khusus untuk testing.
•Model tidak pernah “melihat” data testing.
•Merupakan simulasi keadaan di dunia nyata. Kita tidak pernah tahu data seperti apa
yang akan diproses oleh model kita, ketika model ini diterapkan / “bertugas”.
•Kompetisi Kaggle menggunakan cara ini.
•Hold out / Percentage split: menyisihkan sebagian data training untuk
dijadikan data testing. Rasio umum: 70:30, 80:20, 90:10
•Cross-validation: data training dipecah menjadi beberapa bagian; masing-
masing bagian akan berperan sebagai data training dan data testing secara
bergiliran; hasil akhir merupakan rerata dari beberapa kali eksperimen tsb -
> Gold standard untukmengetahui performa model.
Soal latihan jangan sama dg soal ujian.
Untuk benar mengetahui kemampuan
siswa. Menghindari siswa menghafal.
Data Training, Data Testing, Data Validasi
•Data Training: data yang menjadidasarpembuatan/
fitting model
•Data Testing:
•Data untukmengujikemampuanmodel dalam
memprediksi.
•Data yang belumpernahdigunakandalamtraining
•Data Validasi:
•Data untukmengujikemampuanmodel ketika
melakukantuning model
•“simulasi” daridata testing
Teknik Validasi
•Standar umum: K-fold cross-valdation. Dengan K = 10.
Contoh ini
menggunakan K = 5
Validation Set
Model
•Model = fungsi / rumus yang memetakan pengaruh variable
independen kepada variable dependen
•Contoh sederhana:
�=5�+2
??????�=ቊ
????????????????????????,�<50
??????????????????, �≥50
y bisa diganti dengan
f(x), sama saja
Regresi
Klasifikasi
Jika x<50, maka Muda
Jika x >= 50, maka Tua
Contoh model decision tree
Lazy Learner vs Eager Learner
•Lazy learners simply storethe training data and waituntil a
testing data appear. When it does, classification is conducted
based on the most related data in the stored training data.
Compared to eager learners, lazy learners have less training
time but more time in predicting.
•Ex. K-Nearest Neighbor, Case-based reasoning
•Eager learners constructa classification modelbased on the
given training data before receiving data for classification. It
must be able to commit to a single hypothesis that covers
the entire instance space. Due to the model construction,
eager learners take a long time for train and less time to
predict.
•Ex. Decision Tree, Naive Bayes, Artificial Neural Networks
Tugas
•Buatlah PPT tentang cara kerja K-Nearest Neighbor (KNN), max 10 halaman.
•Disertai contoh pengerjaan (kasus sederhana)
•Apa kelebihan dan kekurangan KNN?
Part A
•Praktekkan penggunaan KNN terhadap data riil. Antar kelompok data / kasus harus berbeda.
•Cari data (Kaggle, UCI, etc)
•Cari tutorial (Youtube, Medium, web, etc)
•Software: Jupyter Notebook!
Part B
Akan dipilih secara acak kelompok untuk presentasi.