Pertemuan 2 MK Data Mining - Data untuk Data Mining

kurirjne60 6 views 20 slides Sep 17, 2025
Slide 1
Slide 1 of 20
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20

About This Presentation

Berisi materi penjelasan data untuk keperluan data mining.


Slide Content

Data Mining
SI30201
3SKS T; 1 SKS P
Oleh:
Rosyid R. Al-Hakim, S.Kom., S.Si., M.T.

Data untuk Data Mining

Tujuan
Pembelajaran
Setelah mengikutipembelajaranpada topikini, Mahasiswa
diharapkan mampu:
❑Menjelaskantipevariabel,kendala,danlangkah-langkah
terkaitpersiapandatadalamteknikdatamining.

Outline
✓Tipe variabel
✓Data preparation
✓Missing values
✓Repositori dataset

Data & Proses
Data Mining
❑Tahapan utama proses data mining
Input
(Dataset)
Metode
(Algoritma Data
Mining)
Output
(Pola/Model/
Knowledge)
Evaluation
(Akurasi, AUC,
RMSE, etc)

Data & Proses
Data Mining
❑Definisi data set
-Setdata(dataset/himpunandata)merupakankumpulanobjekdan
atributnya.
-Objekdigambarkandengansejumlahatributyangmenerangkansifatatau
karakteristikdariobjektersebut.Namalaindariobjekyangseringdigunakan
diantaranyarecord,point,vector,pattern,event,observation,case,sample,
instance,entitas.
-Atributadalahsifat/properti/karakteristikobjekyangnilainyabisa
bermacam-macamdarisatuobjekdenganobjeklainnya,darisatuwaktuke
waktuyanglainnya.Atributjugaseringdisebutvariabel,field,fitur,dimensi.

Data & Proses
Data Mining
-Sebagaicontohseorangpelangganmerupakanobjek,dimanaobjek
pelanggantersebutmemilikibeberapaatributsepertiidpelanggan,nama,
alamatdanlain-lain.Setiappelangganmemungkinkanmemilikinilaiatribut
yangberbedadenganpelangganlainnya,sertamemungkinkanperubahan
nilaiatributdariwaktukewaktu.

Data & Proses
Data Mining
❑Tipe data
Tipeatributdapatdibedakandarinilaibesertasifatnya.Adaempatsifatyang
dimilikiatributsecaraumum,yaitu:
-Pembeda(distinctness):=dan≠
-Urutan(order):<,>,≤,≥
-Penjumlahan,Pengurangan(addition):+dan–
-Perkalian,Pembagian(multiplication):*dan/
Umumnyatipeatributiniadaduayaitukategoris(kualitatif)dan
numerik(kuantitatif).

Data & Proses
Data Mining
Darikeduatipetersebutdibagilagimenjadibeberapasubtipeyangdisesuaikan
dengansifatnilaiyangdimilikinya:

Data & Proses
Data Mining
❑Tipe data
Sementaraberdasarkanjumlahnilainya,atributdapatdibedakanmenjadidua,yaitu:
1.Diskret
Sebuahatributdapatbernilaidiskretjikamempunyainilaidalamhimpunanjumlah
yangterbatas.Jenisinibisaditemukanpadaatributkategorisyanghanya
mempunyaibeberapavariasinilai(domain),sepertiindeknilaiyanghanya
mempunyailimakemungkinannilai(A,B,C,D,E).Contohlainnyaadalahjenis
kelamin(pria,wanita),benar/salah,ya/tidak,0/1.

Data & Proses
Data Mining
2.Kontinu
Sedangkanatributyangbernilaikontinuakanmempunyaijangkauannilaireal.
Sepertivariabelpanjang,tinggi,beratdimananilainyabiasanyamenggunakan
representasifloatingpoint(desimal).Namun,meskipunmenggunakanrepresentasi
real,ukuranpresisijumlahangkadibelakangkomatetapdigunakan.

Data & Proses
Data Mining
❑Karakteristik set data
Adatigakarakteristikumumsetdatayangmempunyaipengaruhbesardalamdata
mining,yaitudimensionalitas,sparsitas,resolusi.
1.Dimensionalitas(dimensionality)
-Dimensionalitasdapatdiartikansebagaijumlahatributyangdimilikiolehobjek-objek
dalamdataset.
-Datadenganjumlahdimensiyangsedikit(rendah)punyakecendrunganberbedasecara
kualitatifdengandatadalamkontekyangsama,tetapidenganjumlahdimensiyanglebih
banyak(tinggi).
-Kesulitanyangberhubungandengandatadimensitinggiseringdisebutsebagaicurseof
dimensionality.
-Untukitupadatahappreprocessing(prosesawal)perludilakukanpengurangandimensi
(dimensionalityreduction)

Data & Proses
Data Mining
❑Karakteristik set data
2.Sparsitas(sparsity)
-Untuksetdatadenganfiturasimetrik(jumlahfituryangterisinilaitidaksamaantarasatu
datadengandatayanglain),banyakatributdatamempunyainilai0didalamnya;dalam
banyakkasus,kurangdari1%mempunyainnilaibukan0.
-Dalampraktiknya,tentuinimenguntungkankarenakomputasimenjadilebihringan
(cepat)dankapasitaspenyimpananjugalebihsedikit.

Data & Proses
Data Mining
❑Karakteristik set data
3.Resolusi(resolution)
-Untukdatayangdigambarkandalambentukgrafikyangmemerlukankoordinatspasial,
karakteristikresolusiyangdigunakanjugaakanberpengaruh.
-Poladalamdatabergantungpadalevelresolusi.
-Jikaresolusiterlalubaik(tidakadaperbedaan/halus),polamungkintidakakankelihatan,
jikaresolusiterlalukasaratausempit,polajugaakanhilang

Data & Proses
Data Mining
❑Jenis set data
-Jenisdatasetadadua:PrivatedanPublic
-PrivateDataset:datasetdapatdiambildariorganisasiyangkitajadikanobyek
penelitian
•Bank,RumahSakit,Industri,Pabrik,PerusahaanJasa,etc
-PublicDataset:datasetdapatdiambildarirepositoripublikyangdisepakatiolehpara
penelitidatamining
•UCIRepository(http://www.ics.uci.edu/~mlearn/MLRepository.html)
•ACMKDDCup(http://www.sigkdd.org/kddcup/)
-Trendpenelitiandataminingsaatiniadalahmengujimetodeyangdikembangkan
olehpenelitidenganpublicdataset,sehinggapenelitiandapatbersifat:comparable,
repeatabledanverifiable.

Data & Proses
Data Mining
❑Tipe set data
•Data Record
•Data Matrix
•Data Transaksi
•Data Graph
•Data Terurut

Data & Proses
Data Mining
❑Kualitas data
Permasalahankualitasdataditinjaudariaspekpengukurandatadanpengumpulandata.
-KesalahanPengukuran:Nilaiygdicatatberbedadgnilaisebenarnya(noisebias,
precission,acuracy)
-KesalahanPengumpulan:Sepertihilangnyaobyekdata/nilaidariatribut/lingkup
obyekdatayangtidaktetap
-DuplicateData:objekdataganda(diatasidengandatacleaning)

Data & Proses
Data Mining
❑Kualitas data
-Outliers:obyekdatayangmemilikisifatyangberbedasekalidarikebanyakanobyek
data.
-MissingValue:nilaipadasuatuatributygtdkditemukan/kosong.
•Bisakarenarespondenmenolakmemberikaninformasi
•Atributtidakbisaditerapkankesemuakasus
•Diatasidgmengurangiobyekdata,memperkirakanmissingvalue,menggantidg
nilaiygmemungkinkan

Data & Proses
Data Mining
❑Pemrosesan awal data
Setdatayangakandiprosesdenganmetode-motodedataminingseringkaliharus
melaluipemrosesanawal.LangkahinimasukkedalamtahapanKDDsebelumproses
datamining.Beberapapermasalahansepertijumlahpopulasidatayangbesar,
banyaknyadatayangmenyimpang(anomalidata),dimensiyangterlalutinggi,
banyaknyafituryangtidakberkontribusibesar,danlain-lainmerupakanpemicu
munculnyapemrosesanawaldata(pre-processing)yangharusditerapkanpadasetdata
sebelumakhirnyadigunakandalamprosesdatamining.

Thank You
Tags