Materi Presentasi CRISP_Data Mining_3.pptx

MUHAMMADFATHURRAHMAN730737 0 views 19 slides Sep 22, 2025
Slide 1
Slide 1 of 19
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19

About This Presentation

CRISP-DM (Cross-Industry Standard Process for Data Mining) adalah metodologi standar yang digunakan dalam proyek data mining dan analisis data. Metode ini memberikan kerangka kerja sistematis untuk memahami, merencanakan, dan melaksanakan proses pengolahan data hingga menghasilkan pengetahuan atau i...


Slide Content

Crisp-DM 3 Mukidin P31.2020.02319

1. Business Understanding Masalah : Ibu Susi Widyastuti adalah Ketua Prodgram Studi Manajemen Informatika di STIKOM Poltek Cirebon. Untuk melakukan evaluasi mutu lulusan terhadap keseusaian bidang pekerjaan , Susi Widyastuti mencoba untuk melakukan analisis dari data yang diambil dari siakad dan tracer study . Selama ini banyak lulusan Program Studi Manajemen Informatika yang bekerja tidak sesuai bidang keilmuannya . Oleh karena itu , ibu Susi Widyastuti akan mencoba mengetahui faktor apa saja yang memiliki korelasi kuat yang mempengaruhi lulusan Program Studi Informatika yang bekerja sesuai bidang . Dengan mengetahui korelasi antar atribut saya dapat memberikan report evaluasi dan memberikan saran terhadap penjaminan mutu kampus .

1. Business Understanding Objektif : mengetahui seberapa besar korelasi berbagai atribut terhadap keselarasan bidang pekerjaan mencari algoritma terbaik untuk memprediksi kesesuaian bidang pekerjaan lulusan Mencari fitur seleksi dan ekstraksi terbaik

2. Data understanding Data diambil dari siakad dan tracer study prodi D4 TI Politeknik Harapan Bersama Untuk meredam noise, dibuatlah acuan atribut sebagai berikut : Atribut Value Keterangan Nama karakter Nama mahasiswa ( dijadikan id) Beasiswa 0-1 0: tidak 1: dapat Lulus 0-1 0: terlambat 1: tepat Jk 0-1 0:perempuan 1:laki-laki Ipk 2,00-4,00 Nilai IPK Kp 0-1   melakukan KP di perusahaan IT 0: tidak 1: ya Lomba 0-1 keikutsertaan lomba dibidang IT 0: tidak 1: pernah Organisasi 0-1 keikutsertaan pada organisasi kemahasiswaan 0: tidak 1: ya Bidang kerja 0-1 Bekerja sesuai bidang 0: tidak 1 : ya

3. Data preparation Dataset : alumni.xlsx Hasil statistik terlihat data tidak memiliki noise dan missing value

3. Data preparation Simpan data tersebut dengan nama alumni_klasifikasi.xlsx

4. Modeling 1. Korelasi matrik

4. Modeling 4. Komparasi algoritma terbaik dengan 10-fold dataset menggunakan dataset alumni_klasifikasi.xlsx No Algoritma RMSE 1 K-NN 0.484 2 NN 0.483 3 Gradient Boost 0.444 4 DT 0.430 5 RF 0.467

4. Modeling 5. Pilih algoritma terbaik dan lakukan kombinasi dengan feature selection maupun feature extraction

5. evaluasi   1. Evaluasi tingkat korelasi Atribut (faktor) yang paling signifikan berpengaruh (hubungan positif ) pada bidang kerja adalah ipk Atribut (faktor) selanjutnya yang paling berpengaruh secara berurutan(hubungan positif ) adalah kp , lomba, organisasi, lulus, dan beasiswa Atribut yang bisa dikatakan tidak berpengaruh dengan bidang kerja adalah jk Namun atribut jk cukup berpengaruh ( hubungana negatif ) terhadap ipk . Dimana mahasiswa perempuan semakin besar nilai ipk

5. Evaluasi dapat disimpulkan : Semakin tinggi nilai ipk dan kp sesuai bidang semakin bekerja sesuai bidang

5. Evaluasi Dapat disimpulkan : Semakin mengikuti organisasi & lomba maka semakin bekerja sesuai bidang

5. Evaluasi 2. Algoritma terbaik Algoritma terbaik yang dipilih adalah Decission Tree dengan nilai RMSE 0,430 No Algoritma RMSE 1 K-NN 0.484 2 NN 0.483 3 Gradient Boost 0.444 4 DT 0.430 5 RF 0.467

5. Evaluasi 2. Algoritma terbaik Berdasarkan hasil uji T test dapat disimpulkan : Semua algoritma terdapat dalam 1 cluster Tidak ada perbedaan yang signifikan GB KNN NN DT RF

5. Evaluasi 3. Evaluasi pola yang dibentuk Atribut yang paling berpengaruh adalah ipk Atribut lain yang berpengaruh adalah kp Ketika ipk > 3.697 maka akan bekerja sesuai bidang Ketika ipk > 3.216 dan tidak kp diperusahaan it maka semakin tidak sesuai bidang Ketika ipk =< 3.216 semakin tidak sesuai bidang

5. Evaluasi 4. Fitur terbaik yaitu DT+BE yang memiliki nilai akurasi dan auc tertinggi NO ALGORITMA AKURASI AUC 1 DT+OSF+WCS 76.96% 0.762 2 DT+BE+WCS 78.93% 0.791 3 DT+FS+WCS 76.25% 0.770 4 DT+WCS 70.18% 0.661 5 DT+OSF+WIG 76.25% 0.763 6 DT+BE+WIG 75.89% 0.644 7 DT+FS+WIG 76.43% 0.775 8 DT+WIG 74.46% 0.744 9 DT+OSF 79.82% 0.700 10 DT+BE 80.36% 0.765 11 DT+FS 76.43% 0.758 12 DT 75.00% 0.796 13 DT+BE+PCA 77.50% 0.757 14 DT+OSF+PCA 76.25% 0.777 15 DT+FS+PCA 77.68% 0.756 16 DT+PCA 76.07% 0.658

6. Deployment Dari model yang diusulkan saya dapat mengetahui tingkat korelasi antar atribut Tetap memasukkan atribut jk walaupun tidak berpengaruh terhadap kesesuaian bidang pekerjaan. Namun atribut jk memiliki korelasi negatif pada besar IPK sebesar 0,359 Mencari atribut pendukung lainnya pada factor yang mempengaruhi kesesuaian bidang kerja, misal IP, status bekerja ketika kuliah, umur, dll Setelah diketahui faktor yang mempengaruhi kesesuaian bidang kerja. Maka, bisa diusulkan evaluasi berupa: pemantauan IP tiap semester membuat aturan tempat KP/KKN mahasiswa ditempat perusahaan IT mengarahkan mahasiswa untuk mengikutsertakan dalam lomba dibidang IT menghimbau mahasiswa untuk mengikuti organisasi kemahasiswaan melakukan bimbingan konseling pada mahasiswa yang bermasalah agar dapat lulus tepat waktu membantu mahasiswa untuk dapat mendapatkan program beasiswa

6.Deployment 5. Menerapkan pola prediksi lulusan bekerja pada sistem siakad. Dimana sistem dibuat cerdas dengan menerapkan pola yang dihasilkan oleh model.

6. Deployment Penerapan dari model terbaik menggunakan data Alumni_testing.xlsx
Tags