CRISP-DM (Cross-Industry Standard Process for Data Mining) adalah metodologi standar yang digunakan dalam proyek data mining dan analisis data. Metode ini memberikan kerangka kerja sistematis untuk memahami, merencanakan, dan melaksanakan proses pengolahan data hingga menghasilkan pengetahuan atau i...
CRISP-DM (Cross-Industry Standard Process for Data Mining) adalah metodologi standar yang digunakan dalam proyek data mining dan analisis data. Metode ini memberikan kerangka kerja sistematis untuk memahami, merencanakan, dan melaksanakan proses pengolahan data hingga menghasilkan pengetahuan atau insight yang bermanfaat.
Size: 1.25 MB
Language: none
Added: Sep 22, 2025
Slides: 19 pages
Slide Content
Crisp-DM 3 Mukidin P31.2020.02319
1. Business Understanding Masalah : Ibu Susi Widyastuti adalah Ketua Prodgram Studi Manajemen Informatika di STIKOM Poltek Cirebon. Untuk melakukan evaluasi mutu lulusan terhadap keseusaian bidang pekerjaan , Susi Widyastuti mencoba untuk melakukan analisis dari data yang diambil dari siakad dan tracer study . Selama ini banyak lulusan Program Studi Manajemen Informatika yang bekerja tidak sesuai bidang keilmuannya . Oleh karena itu , ibu Susi Widyastuti akan mencoba mengetahui faktor apa saja yang memiliki korelasi kuat yang mempengaruhi lulusan Program Studi Informatika yang bekerja sesuai bidang . Dengan mengetahui korelasi antar atribut saya dapat memberikan report evaluasi dan memberikan saran terhadap penjaminan mutu kampus .
1. Business Understanding Objektif : mengetahui seberapa besar korelasi berbagai atribut terhadap keselarasan bidang pekerjaan mencari algoritma terbaik untuk memprediksi kesesuaian bidang pekerjaan lulusan Mencari fitur seleksi dan ekstraksi terbaik
2. Data understanding Data diambil dari siakad dan tracer study prodi D4 TI Politeknik Harapan Bersama Untuk meredam noise, dibuatlah acuan atribut sebagai berikut : Atribut Value Keterangan Nama karakter Nama mahasiswa ( dijadikan id) Beasiswa 0-1 0: tidak 1: dapat Lulus 0-1 0: terlambat 1: tepat Jk 0-1 0:perempuan 1:laki-laki Ipk 2,00-4,00 Nilai IPK Kp 0-1 melakukan KP di perusahaan IT 0: tidak 1: ya Lomba 0-1 keikutsertaan lomba dibidang IT 0: tidak 1: pernah Organisasi 0-1 keikutsertaan pada organisasi kemahasiswaan 0: tidak 1: ya Bidang kerja 0-1 Bekerja sesuai bidang 0: tidak 1 : ya
3. Data preparation Dataset : alumni.xlsx Hasil statistik terlihat data tidak memiliki noise dan missing value
3. Data preparation Simpan data tersebut dengan nama alumni_klasifikasi.xlsx
4. Modeling 1. Korelasi matrik
4. Modeling 4. Komparasi algoritma terbaik dengan 10-fold dataset menggunakan dataset alumni_klasifikasi.xlsx No Algoritma RMSE 1 K-NN 0.484 2 NN 0.483 3 Gradient Boost 0.444 4 DT 0.430 5 RF 0.467
4. Modeling 5. Pilih algoritma terbaik dan lakukan kombinasi dengan feature selection maupun feature extraction
5. evaluasi 1. Evaluasi tingkat korelasi Atribut (faktor) yang paling signifikan berpengaruh (hubungan positif ) pada bidang kerja adalah ipk Atribut (faktor) selanjutnya yang paling berpengaruh secara berurutan(hubungan positif ) adalah kp , lomba, organisasi, lulus, dan beasiswa Atribut yang bisa dikatakan tidak berpengaruh dengan bidang kerja adalah jk Namun atribut jk cukup berpengaruh ( hubungana negatif ) terhadap ipk . Dimana mahasiswa perempuan semakin besar nilai ipk
5. Evaluasi dapat disimpulkan : Semakin tinggi nilai ipk dan kp sesuai bidang semakin bekerja sesuai bidang
5. Evaluasi Dapat disimpulkan : Semakin mengikuti organisasi & lomba maka semakin bekerja sesuai bidang
5. Evaluasi 2. Algoritma terbaik Algoritma terbaik yang dipilih adalah Decission Tree dengan nilai RMSE 0,430 No Algoritma RMSE 1 K-NN 0.484 2 NN 0.483 3 Gradient Boost 0.444 4 DT 0.430 5 RF 0.467
5. Evaluasi 2. Algoritma terbaik Berdasarkan hasil uji T test dapat disimpulkan : Semua algoritma terdapat dalam 1 cluster Tidak ada perbedaan yang signifikan GB KNN NN DT RF
5. Evaluasi 3. Evaluasi pola yang dibentuk Atribut yang paling berpengaruh adalah ipk Atribut lain yang berpengaruh adalah kp Ketika ipk > 3.697 maka akan bekerja sesuai bidang Ketika ipk > 3.216 dan tidak kp diperusahaan it maka semakin tidak sesuai bidang Ketika ipk =< 3.216 semakin tidak sesuai bidang
6. Deployment Dari model yang diusulkan saya dapat mengetahui tingkat korelasi antar atribut Tetap memasukkan atribut jk walaupun tidak berpengaruh terhadap kesesuaian bidang pekerjaan. Namun atribut jk memiliki korelasi negatif pada besar IPK sebesar 0,359 Mencari atribut pendukung lainnya pada factor yang mempengaruhi kesesuaian bidang kerja, misal IP, status bekerja ketika kuliah, umur, dll Setelah diketahui faktor yang mempengaruhi kesesuaian bidang kerja. Maka, bisa diusulkan evaluasi berupa: pemantauan IP tiap semester membuat aturan tempat KP/KKN mahasiswa ditempat perusahaan IT mengarahkan mahasiswa untuk mengikutsertakan dalam lomba dibidang IT menghimbau mahasiswa untuk mengikuti organisasi kemahasiswaan melakukan bimbingan konseling pada mahasiswa yang bermasalah agar dapat lulus tepat waktu membantu mahasiswa untuk dapat mendapatkan program beasiswa
6.Deployment 5. Menerapkan pola prediksi lulusan bekerja pada sistem siakad. Dimana sistem dibuat cerdas dengan menerapkan pola yang dihasilkan oleh model.
6. Deployment Penerapan dari model terbaik menggunakan data Alumni_testing.xlsx