Pertemuan 2 MK Data Mining - Data untuk Data Mining
kurirjne60
6 views
20 slides
Sep 17, 2025
Slide 1 of 20
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
About This Presentation
Berisi materi penjelasan data untuk keperluan data mining.
Size: 767.82 KB
Language: none
Added: Sep 17, 2025
Slides: 20 pages
Slide Content
Data Mining
SI30201
3SKS T; 1 SKS P
Oleh:
Rosyid R. Al-Hakim, S.Kom., S.Si., M.T.
Data untuk Data Mining
Tujuan
Pembelajaran
Setelah mengikutipembelajaranpada topikini, Mahasiswa
diharapkan mampu:
❑Menjelaskantipevariabel,kendala,danlangkah-langkah
terkaitpersiapandatadalamteknikdatamining.
Outline
✓Tipe variabel
✓Data preparation
✓Missing values
✓Repositori dataset
Data & Proses
Data Mining
❑Tahapan utama proses data mining
Input
(Dataset)
Metode
(Algoritma Data
Mining)
Output
(Pola/Model/
Knowledge)
Evaluation
(Akurasi, AUC,
RMSE, etc)
Data & Proses
Data Mining
❑Definisi data set
-Setdata(dataset/himpunandata)merupakankumpulanobjekdan
atributnya.
-Objekdigambarkandengansejumlahatributyangmenerangkansifatatau
karakteristikdariobjektersebut.Namalaindariobjekyangseringdigunakan
diantaranyarecord,point,vector,pattern,event,observation,case,sample,
instance,entitas.
-Atributadalahsifat/properti/karakteristikobjekyangnilainyabisa
bermacam-macamdarisatuobjekdenganobjeklainnya,darisatuwaktuke
waktuyanglainnya.Atributjugaseringdisebutvariabel,field,fitur,dimensi.
Data & Proses
Data Mining
-Sebagaicontohseorangpelangganmerupakanobjek,dimanaobjek
pelanggantersebutmemilikibeberapaatributsepertiidpelanggan,nama,
alamatdanlain-lain.Setiappelangganmemungkinkanmemilikinilaiatribut
yangberbedadenganpelangganlainnya,sertamemungkinkanperubahan
nilaiatributdariwaktukewaktu.
Data & Proses
Data Mining
❑Tipe data
Tipeatributdapatdibedakandarinilaibesertasifatnya.Adaempatsifatyang
dimilikiatributsecaraumum,yaitu:
-Pembeda(distinctness):=dan≠
-Urutan(order):<,>,≤,≥
-Penjumlahan,Pengurangan(addition):+dan–
-Perkalian,Pembagian(multiplication):*dan/
Umumnyatipeatributiniadaduayaitukategoris(kualitatif)dan
numerik(kuantitatif).
Data & Proses
Data Mining
Darikeduatipetersebutdibagilagimenjadibeberapasubtipeyangdisesuaikan
dengansifatnilaiyangdimilikinya:
Data & Proses
Data Mining
❑Tipe data
Sementaraberdasarkanjumlahnilainya,atributdapatdibedakanmenjadidua,yaitu:
1.Diskret
Sebuahatributdapatbernilaidiskretjikamempunyainilaidalamhimpunanjumlah
yangterbatas.Jenisinibisaditemukanpadaatributkategorisyanghanya
mempunyaibeberapavariasinilai(domain),sepertiindeknilaiyanghanya
mempunyailimakemungkinannilai(A,B,C,D,E).Contohlainnyaadalahjenis
kelamin(pria,wanita),benar/salah,ya/tidak,0/1.
Data & Proses
Data Mining
2.Kontinu
Sedangkanatributyangbernilaikontinuakanmempunyaijangkauannilaireal.
Sepertivariabelpanjang,tinggi,beratdimananilainyabiasanyamenggunakan
representasifloatingpoint(desimal).Namun,meskipunmenggunakanrepresentasi
real,ukuranpresisijumlahangkadibelakangkomatetapdigunakan.
Data & Proses
Data Mining
❑Karakteristik set data
Adatigakarakteristikumumsetdatayangmempunyaipengaruhbesardalamdata
mining,yaitudimensionalitas,sparsitas,resolusi.
1.Dimensionalitas(dimensionality)
-Dimensionalitasdapatdiartikansebagaijumlahatributyangdimilikiolehobjek-objek
dalamdataset.
-Datadenganjumlahdimensiyangsedikit(rendah)punyakecendrunganberbedasecara
kualitatifdengandatadalamkontekyangsama,tetapidenganjumlahdimensiyanglebih
banyak(tinggi).
-Kesulitanyangberhubungandengandatadimensitinggiseringdisebutsebagaicurseof
dimensionality.
-Untukitupadatahappreprocessing(prosesawal)perludilakukanpengurangandimensi
(dimensionalityreduction)
Data & Proses
Data Mining
❑Karakteristik set data
2.Sparsitas(sparsity)
-Untuksetdatadenganfiturasimetrik(jumlahfituryangterisinilaitidaksamaantarasatu
datadengandatayanglain),banyakatributdatamempunyainilai0didalamnya;dalam
banyakkasus,kurangdari1%mempunyainnilaibukan0.
-Dalampraktiknya,tentuinimenguntungkankarenakomputasimenjadilebihringan
(cepat)dankapasitaspenyimpananjugalebihsedikit.
Data & Proses
Data Mining
❑Karakteristik set data
3.Resolusi(resolution)
-Untukdatayangdigambarkandalambentukgrafikyangmemerlukankoordinatspasial,
karakteristikresolusiyangdigunakanjugaakanberpengaruh.
-Poladalamdatabergantungpadalevelresolusi.
-Jikaresolusiterlalubaik(tidakadaperbedaan/halus),polamungkintidakakankelihatan,
jikaresolusiterlalukasaratausempit,polajugaakanhilang
Data & Proses
Data Mining
❑Jenis set data
-Jenisdatasetadadua:PrivatedanPublic
-PrivateDataset:datasetdapatdiambildariorganisasiyangkitajadikanobyek
penelitian
•Bank,RumahSakit,Industri,Pabrik,PerusahaanJasa,etc
-PublicDataset:datasetdapatdiambildarirepositoripublikyangdisepakatiolehpara
penelitidatamining
•UCIRepository(http://www.ics.uci.edu/~mlearn/MLRepository.html)
•ACMKDDCup(http://www.sigkdd.org/kddcup/)
-Trendpenelitiandataminingsaatiniadalahmengujimetodeyangdikembangkan
olehpenelitidenganpublicdataset,sehinggapenelitiandapatbersifat:comparable,
repeatabledanverifiable.
Data & Proses
Data Mining
❑Tipe set data
•Data Record
•Data Matrix
•Data Transaksi
•Data Graph
•Data Terurut
Data & Proses
Data Mining
❑Kualitas data
Permasalahankualitasdataditinjaudariaspekpengukurandatadanpengumpulandata.
-KesalahanPengukuran:Nilaiygdicatatberbedadgnilaisebenarnya(noisebias,
precission,acuracy)
-KesalahanPengumpulan:Sepertihilangnyaobyekdata/nilaidariatribut/lingkup
obyekdatayangtidaktetap
-DuplicateData:objekdataganda(diatasidengandatacleaning)
Data & Proses
Data Mining
❑Kualitas data
-Outliers:obyekdatayangmemilikisifatyangberbedasekalidarikebanyakanobyek
data.
-MissingValue:nilaipadasuatuatributygtdkditemukan/kosong.
•Bisakarenarespondenmenolakmemberikaninformasi
•Atributtidakbisaditerapkankesemuakasus
•Diatasidgmengurangiobyekdata,memperkirakanmissingvalue,menggantidg
nilaiygmemungkinkan
Data & Proses
Data Mining
❑Pemrosesan awal data
Setdatayangakandiprosesdenganmetode-motodedataminingseringkaliharus
melaluipemrosesanawal.LangkahinimasukkedalamtahapanKDDsebelumproses
datamining.Beberapapermasalahansepertijumlahpopulasidatayangbesar,
banyaknyadatayangmenyimpang(anomalidata),dimensiyangterlalutinggi,
banyaknyafituryangtidakberkontribusibesar,danlain-lainmerupakanpemicu
munculnyapemrosesanawaldata(pre-processing)yangharusditerapkanpadasetdata
sebelumakhirnyadigunakandalamprosesdatamining.