BAB 6 A BIG DATA FRAMEWORK FOR REMOVING MISCLASSIFIED INSTANCES BASED ON FUZZY ROUGH.pptx

ikaarofatul 4 views 31 slides Aug 29, 2025
Slide 1
Slide 1 of 31
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31

About This Presentation

A BIG DATA FRAMEWORK FOR REMOVING MISCLASSIFIED INSTANCES BASED ON FUZZY ROUGH


Slide Content

A BIG DATA FRAMEWORK FOR REMOVING MISCLASSIFIED INSTANCES BASED ON FUZZY ROUGH Ika Arofatul H 

PENDAHULUAN Peningkatan yang cepat dalam ukuran dan variasi data biomedis adalah salah satu faktor terpenting untuk kemunculan big data. Untuk itu tujuan utama pengelolaan big data biomedis adalah mencapai akurasi klasifikasi terbaik karena dapat berdampak pada kehidupan individu . Untuk mencapai tujuan ini , kita perlu menyelesaikan masalah data biomedis , seperti tipe data yang hilang , tidak pasti , tidak konsisten , dan bernilai aktual . Ketidakkonsistenan data adalah masalah , tetapi ini adalah target semua analis data besar . Banyak solusi telah digunakan untuk menyelesaikan masalah ini . Masing-masing digunakan sebagai bagian dari tahap pra-pemrosesan data. Penghapusan fitur digunakan untuk menghapus fitur dengan data yang hilang . Ini juga membantu mengurangi volume data, terutama saat kami mengelola kumpulan big data. Di sisi lain, ketidak konsistenan data dianggap sebagai masalah signifikan yang menyebabkan Misclassified Instances. Ada beberapa faktor penting yang harus diselesaikan untuk mengelola contoh yang salah diklasifikasikan dalam data. Oleh karena itu , pertama -tama direkomendasikan untuk mengurangi atribut dengan nilai yang hilang yang berulang dan tidak fundamental. Jika data keluaran ( gambar ) digunakan dalam sistem evaluasi bobot fuzzy, yang harus mencakup indeks penilaian berikutnya : kejelasan , deviasi yang dipilih , entropi , common gradien , dan frekuensi spasial ; perbedaan dengan gambar referensi , mencakup kesalahan rectangular basis yang dsarankan , sign to noise ratio (SNR), dan tinggi SNR; dan perbedaan yang disediakan dalam entropi gerak , entropi sendi , mutual facts, indeks deviasi , koefisien korelasi , dan derajat distorsi . Parameter tersebut digunakan untuk mengevaluasi konsekuensi dari biaya evaluasi komprehensif untuk citra yang disintesis

PENDAHULUAN Tujuan dalam penelitian ini adalah melakukan pra -proses big data set untuk mengurangi fitur dan instance untuk mencapai akurasi klasifikasi yang tinggi . Anomali dan contoh yang salah label akan dihapus sebelum menjalankan algoritme pembelajaran . Untuk menangani instance outlier dan mislabel, algoritme pembelajaran digunakan untuk menghapus instance misklasifikasi . Teknik utama yang digunakan adalah genetic rough set attribute reduction ( GenRSAR ) untuk pemilihan fitur dan fuzzy-rough nearest neighbour untuk menghapus contoh yang salah diklasifikasikan . Penelitian ini bertujuan untuk menghasilkan data yang berkualitas dengan jumlah minimum kesalahan klasifikasi data untuk membantu kami melakukan proses klasifikasi dengan akurasi tinggi . Dengan menerapkan langkah-langkah pra-pemrosesan sebelumnya , ini membantu meningkatkan kinerja teknik klasifikasi , terutama untuk pohon klasifikasi . Model kami membantu menghapus kejadian yang menyebabkan masalah dalam proses klasifikasi . Model yang diusulkan meningkatkan kinerja klasifikasi sebesar 20%, mencapai 89,24% untuk pohon keputusan . Makalah ini disusun sebagai berikut . Mereview penelitian zaman modern sebelumnya dalam mengeliminasi data misclassified instance untuk teknik klasifikasi . Framework yang diusulkan didefinisikan secara rinci . Hasil eksperimen dari framework yang diusulkan . Kesimpulan dan pandangan masa.

Thank You RELATED WORK Bagian ini memperkenalkan gambaran umum dari beberapa studi saat ini untuk misclassified instances berdasarkan teknik klasifikasi Sebban dan Nock [7] mempelajari teknik reduksi yang berbeda . Mereka fokus pada dua strategi reduksi , yang terdiri dari menghilangkan fitur yang tidak relevan dan instans untuk membangun pohon yang lebih baik . Banyak metode reduksi yang diusulkan , tetapi prototipe mereka membuktikan bahwa menghapus instans yang salah diklasifikasikan dengan KNN membantu lolosnya memfilter kebisingan dan menghindari pemasangan yang berlebihan . Permasalahan contoh data over-fitting dan salah label saat tahapan klasifikasi telah dibahas oleh Verbaeten dan Van Assche [8] . Penghapusan pencilan diusulkan sebagai solusi yang baik untuk meningkatkan kinerja klasifikasi . Solusi yang diusulkan meningkatkan kinerja dan ukuran pohon berdasarkan teknik filter seperti persilangan validasi , voting dan begging. Jadi instans noisy dihapus dengan menggunakan algoritma decision tree C4.5 Untuk memfilter noise dalam dataset, Zeng dan Martinez [9] mempresentasikan pendekatan berbasis neural network-based ANR. Setiap instance melampirkan vektor probabilitas kelas untuk terlibat dalam training neural network. Sebagian besar noise dihilangkan dengan ANR. Sebuah kesalahan kecil dalam salah mengidentifikasi data non-noise ditunjukkan oleh hasil . Menghapus instance yang salah diklasifikasikan akan meningkatkan akurasi sebesar 24,5% saat training neural network. Neural network menghitung kemungkinan rendah dari instance yang diberi label dengan benar berdasarkan keluarannya .

Thank You RELATED WORK Strategi penurunan keributan serbaguna yang disebut FaLKNR . Prediksi lokasi dari mengklaim model SVM terdekat yang diproduksi pada set pelatihan membantu Segata et al. [10] untuk mempresentasikan FaLKNR . FaLKNR adalah yang tercepat dan memungkinkan peningkatan akurasi NN tertinggi . Untuk mencapai hasil yang lebih baik di sebagian besar masalah klasifikasi , langkah dasarnya adalah pembersihan data. Pembersihan data digunakan untuk menghapus kebisingan , data yang tidak konsisten , dan kesalahan dalam data pelatihan . Jadi , Jeatrakul dkk . [11] menekankan bahwa model data dan klasifikasi dapat direpresentasikan dalam bentuk yang lebih baik dengan bantuan pembersihan data Jensen dan Cornelis [12] mengembangkan pendekatan fuzzy-rough Sakar. Mereka mengusulkan dua metode untuk klasifikasi fuzzy-rough berdasarkan definisi tradisional dari klasifikasi fuzzy-rough. Dua teknik tersebut adalah 'FRNN-FRS ( Pengklasifikasi Fuzzy-Rough Nearest Neighbor – Fuzzy Rough Sets)' dan 'FRNN-VQRS (Fuzzy-Rough Nearest Neighbor classifier – Vaguely Quantified Rough Sets)'. Mereka membuktikan bahwa metode ini efektif dan kompetitif dengan teknik klasifikasi yang ada Ougiaroglou dan Evangelidis [13] menjelaskan bagaimana contoh yang salah label menyebabkan contoh lain pada data set menjadi salah label. Jadi , penghapusan instans yang salah label bisa efektif untuk pengurangan kebisingan . Mereka menyarankan contoh berdasarkan algoritme Nearest Network (KNN)

Thank You RELATED WORK Smith dan Martinez [14,26] mengusulkan PRISM untuk menghapus kesalahan klasifikasi . Ini membantu untuk meningkatkan kinerja klasifikasi atas strategi identifikasi pencilan . Mereka menunjukkan bagaimana algoritma machine-learning menangani noise dan pencilan untuk menghasilkan model yang lebih baik Untuk mengatur hiperglikemia di rawat inap , penulis referensi [15] melakukan sebuah proyek . Ini membantu untuk sebagian besar pasien non-ICU (unit perawatan intensif ); Mereka mengatakan bahwa ekonomi yang dikelola rawat inap adalah opsional . Yang mana semua lebih teratur setiap permintaan mungkin tidak ada solusi , tetapi perbedaan mutlak sudah , glukosa pada filosofi ekonomi terkelola standar perlu bantuan digunakan . Arunkumar dan Ramakrishnan [16] mengusulkan strategi baru yang menggunakan koneksi yang jelas untuk reduksi dimensi yang dilakukan dengan bantuan rough brief reduct untuk pemilihan fungsi pada ruang pencarian optimasi gerombolan partikel . Chaudhuri [17] menyatakan bahwa tugas kategori diselesaikan melalui FRSVM. Ini adalah variasi dari FSVM dan MFSVM. Rangkaian fuzzy rough menawarkan pengaruh contoh noise dan penanganan ketidakakuratan . Kapasitas partisipasi tersebut tercipta karena kapasitas center dan span dalam highlight space. Ini mengasumsikan bagian penting dari memeriksa pemilihan bagian permukaan Amiri dan Jensen [18] membahas missing value yang ada di banyak kumpulan data yang diproduksi dalam sains . Selanjutnya , menggunakan strategi atribusi informasi yang hilang adalah praktik yang khas dan penting . Teknik-teknik ini adalah semacam perlakuan terhadap ketidakstabilan dan ketidakjelasan yang ada pada kumpulan data

Click to edit Master title style METHODOLOGY 1. Rough Set Pawlak [27] mengusulkan teori rough set untuk mengatasi fuzzy material dan untuk menyederhanakan pengetahuan . Dalam teori rough set, orang-orang menggunakan mastering trendy untuk mengatur sekumpulan trendi mereka dengan unik atau penggabungan . Atribut adalah prinsip umum untuk mengatur semuanya . Atribut dapat dikategorikan dengan mengumpulkan yang serupa . Ini dikenal sebagai hubungan indiscernible Ind , dilambangkan sebagai dan merupakan dasar dari teori himpunan kasar Salah satu fokus utama dari teori rough set adalah bahwa ia tidak perlu repot dengan preparatory atau informasi data extra. Masalah penting utama yang berpindah ke penggunaan himpunan noise. hipotesis seperti kombinasi penurunan informasi , deteksi kondisi informasi , rating esensialitas informasi , periode perhitungan pilihan dari data, misalkan karakteristik data, pola deteksi dalam data dan mendapatkan efek hubungan data.

Upper and Lower Approximations Pendekatan atas dan bawah adalah ide penting untuk analisis data set kasar . Ide pendekatan bawah dan atas adalah untuk mengidentifikasi elemen mana dihimpunan yang punya tempat atau berpotensi punya tempat Pendekatan atas dari himpunan X, dilambangkan sebagai BX dihitung sebagai penyatuan unit-unit sederhana ini , yang memiliki persimpangan tidak kosong dengan X: Pendekatan Bawah Pendekatan Atas Misalkan X menunjukkan himpunan bagian elemen seluruhnya U, aproksimasi yang lebih rendah dilambangkan BX, dijelaskan karena penyatuan dari jenis fundamental yang mungkin terdapat dalam X, secara formal lebih besar : Pernyataan di atas dibaca sebagai : pendekatan atas dari himpunan X adalah himpunan objek xi, perbedaan antara perkiraan atas dan perkiraan bawah disebut batas X di U Pendekatan yang lebih rendah dari himpunan X untuk objek xi dibuktikan Persamaan di atas , yang termasuk unit sederhana yang terkandung dalam X ( dalam spasi B), BX dikenal sebagai pendekatan yang lebih rendah dari himpunan X di B

Core and Redact or Atribute Ide pusat dan reduksi adalah dua ide kritis teori himpunan kasar / rough sets theory seseorang dapat mengubah / menemukan subset yang bisa diabaikan . file yang tidak dapat dibedakan dari set dasar , dari seluruh pengaturan properti ( reduksi ) dalam pengaturan setiap karakteristik (inti). Keterikatan sistem informasi dapat dimanfaatkan untuk melihat beberapa estimasi sifat , yang berlebihan . Misalnya , beberapa ciri , yaitu kelebihan , dapat dihapus atau disaring dengan metode untuk strategi penataan ulang .

 ROUGH SET 01 02 Fuzzy-Rough Sets Untuk pemilihan atribut , strategi rough set sebelumnya harus digunakan dan diperluas ke rough set fuzzy. Karena sebagian besar kumpulan data digabungkan sebagai atribut , Fuzzy equivalence classes adalah konsep sentral dari rough set fuzzy. Untuk menerapkan diskritisasi dilakukan langkah fuzzifikasi . Himpunan Fuzzy-Rough adalah a generalisasi himpunan Rough, diturunkan dari aproksimasi himpunan fuzzy dalam perkiraan yang tajam [28] Genetic Rough Set Reduksi atribut adalah pendekatan menghapus subset atribut dari dataset. Strategi pengurangan atribut dalam ide rough set gagal menemukan pengurangan efisien maksimum karena tidak ada heuristik ideal yang dapat memastikan optimalitas . Pendekatan yang diusulkan menggunakan Crossover baru yang cocok dan operator mutasi yang membentuk dianggap bermasalah Contents You can simply impress your audience and add a unique zing and appeal to your Presentations

THE PROPOSED FRAMEWORK Kerangka kami diusulkan untuk meningkatkan kinerja klasifikasi yang terdiri dari empat tahap dasar

THE PROPOSED FRAMEWORK Pada tahap ini , kami menyiapkan dataset yang diuji dengan bantuan dari dua studi sebelumnya . Kami lebih suka mengubah tipe data menjadi tipe numerik dengan menetapkan nilai numerik untuk setiap nilai atribut nominal untuk mewakilinya Data Preparation Stage Tujuan prinsip memilih atribut adalah untuk mengurangi jumlah fitur dan menghilangkan domain masalah dengan kinerja yang bagus dalam merepresentasikan atribut Feature Selection Stage mempartisi ke dalam kumpulan data kecil , kami secara individual melakukan fuzzy-rough tetangga terdekat di masing-masing. Kami mengumpulkan kumpulan data kecil yang dihasilkan dari menghapus kesalahan klasifikasi berdasarkan FuzzyRoughNN dalam satu set data Handling Misclassified Instances Stage Klasifikasi digunakan untuk mengklasifikasikan data berdasarkan atribut set data dari kelas yang telah ditentukan Classification Stage Tahap 1 Tahap 2 Tahap 3 Tahap 4

6.5 Hasil Experiment Kami mencoba meningkatkan kinerja dengan menerapkan framework dua dataset acuan yaitu data diabetes dan hasil tes Electroencephalography dengan menggunakan model WEKA ('Waikato Environment for Knowledge Analysis). IOT antara dokter dengan pasien yang terdapat uraian data kesehatan yang terhubung dengan smart device tidak di sarankan karena seseorang dapat mengupload data pasien sehingga ditawarkan cloud untuk mengimkan datanya untuk big data dan dapat dianalisis menjadi statistic.

6.5.1.1 DATASET 1: Dataset Diabetes mengumpulkan jaringan pengiriman data untuk 130 rumah sakit di as yang terdiri data dalam satu deKade yaitu tahun 1999 s.d 2008 meliputi data pasien , log data dan riwayat prosedur penanganan pasien dalam rawat inap di rumah sakit sehingga datasetnya terlalu besar . oleh karena itu dibutuhkan banyak proses preprocesing untuk mendeksripsikan pasien seperti ras , jenis kelamin , usia dan jumlah pasien . ada juga 24 cara mendiskripsikan beberapa jenis pengobatan kepada pasien .

6.5.1.2 DATASET 2: Set Data EEG Hasil tes EEG (electroencephalography), yang digunakan untuk mengidentifikasi dan gangguan aktivitas otak manusia . ECG adalah teknik yang bermanfaat untuk memantau aktivitas listrik penggunaan susunan elektroda yang ditempatkan pada posisi tertentu di tubuh . Sistem pelacakan ECG mendukung dokter untuk mengetahui kondisi pasien Pada Tabel 6.2 Saat ini , Power rendah mencakup 15 fitur dan 14.980 instans tidak memiliki nilai yang hilang . Semua atribut dalam tipe data nyata . Pengukuran EEG dimainkan dengan Emotiv EEG Neuroheadset. Jangka waktu dimensi berubah menjadi 117 detik .

Kami memprosesnya sebelumnya sesuai dengan langkah-langkah yang ditunjukkan dalam Framework sebelumnya Kami melakukan klasifikasi . Validasi silang 10 kali lipat yang digunakan dalam pelatihan dataset. Kami membagi kumpulan data kami menjadi 33% pengujian dan 67% pelatihan . Teknik klasifikasi yang paling dapat digunakan salah satunya algoritma Decision tree yang paling sederhana adalah pengklasifikasi j48 yang membuat pohon biner. Naïve Byes adalah algoritma klasifikasi sederhana yang dibangun berdasarkan konsep probabilitas , sehingga dikenal sebagai pengklasifikasi probabilistik . Satu set probabilitas dihitung oleh Naïve Bayes untuk menghitung frekuensi dan penghitungan nilai data set yang diberikan . Salah satu algoritme yang paling akurat adalah SVM. Masalah klasifikasi dan regresi dapat menggunakan SVM. Decision tree , Naïve Bayes, dan SVM telah banyak menggunakan algoritma klasifikasi , yang mengabaikan yang hilang .

Missing Data Data Type Feature 0% missing data NUMERIC AF3 0% missing data NUMERIC F7 0% missing data NUMERIC F3 0% missing data NUMERIC FC5 0% missing data NUMERIC T7 0% missing data NUMERIC P7 0% missing data NUMERIC 01 0% missing data NUMERIC 02 0% missing data NUMERIC P8 0% missing data NUMERIC T8 0% missing data NUMERIC FC6 0% missing data NUMERIC F4 0% missing data NUMERIC F8 0% missing data NUMERIC AF4 0% missing data {0,1} Eye Detection TABEL 6.2 Daftar Fitur dan Tipe Datanya

6.5.2 Hasil Diskusi Hasil Data mewakili pasien , dan rumah sakit seperti yang ditunjukkan pada Gambar 6.4. Data diambil dari database untuk kunjungan pasien diabetes. D ata Set dengan kriteria sebagai berikut : Kunjungan rawat inap ( masuk klinik ). J auh dari kasus diabetes, pada tahap tertentu di mana segala bentuk diabetes dimasukkan ke perangkat sebagai analisis . Durasi hidup berubah menjadi minimal 1 hari dan paling banyak 14 hari . Penilaian laboratorium telah dilakukan di beberapa titik yang terdeteksi . Obat-obatan diberikan selama sakit . Adapun data biologis , pemrosesannya dianggap sebagai bagian penting dari komputasi global. Dengan demikian , penelitian biologi memiliki dampak tingkat pertama dalam asosiasi statistik ,

Strategi Mining untuk mengambil data sangat besar dari informasi organic adalah demonstrasi yang dinamis dan sistematis . Namun , diperlukan strategi, algoritme , perangkat lunak , dan perlengkapan yang ekstra kuat untuk pemrosesan organik . Studi sistem adalah teknik salah satu kunci untuk mengelola kumpulan data organik . Gambar 6.5 merepresentasikan data setelah preprocessing dengan mengubah format string menjadi format nominal, mengubah data nominal menjadi numerik . Data nominal dikonversi numerik menggunakan transformasi satu per satu . Ini juga mencerminkan penghapusan lebih dari 40% atribut data yang hilang . Gambar 5.3 menunjukkan GenRSAR yang diusulkan sebagai teknik penyaringan utama . Ini membantu mengekstrak atribut yang paling relevan untuk algoritme pembelajaran mesin . Karena algoritme genetika kuat untuk mencari data besar dengan cepat , ruang nonlinier juga terlihat buruk .

Seperti yang diilustrasikan pada Tabel 6.3 dan Gambar 6.7 dan 6.8 kami melakukan tiga algoritma tradisional dalam pemilihan atribut untuk mengurangi atribut . Hasil penelitian menunjukkan bahwa Genetik Rough Set Attribute Reduction ( GenRSAR ) dan Correlation Feature Selection (CFS) mencapai efek yang lebih baik pada dataset 1, tetapi dataset 2 adalah dataset yang diproses sebelumnya . Demikian juga karena GenRSAR menyimpan data hanya karena ia memilih 27 fitur tetapi CFS hanya dipilih 11 fitur . Jadi kami memilih GenRSAR sebagai algoritma pemilihan fitur .

Gambar 6.7

Gambar 6.9 menunjukkan penghapusan kesalahan klasifikasi berdasarkan 5NN terlebih dahulu Himpunan data. Kami menyadari bahwa contoh berkurang , contoh yang salah diklasifikasikan adalah dikurangi , data yang hilang berkurang , dan akurasi klasifikasi meningkat ( Tabel 6.4).   Setelah melakukan KNN pada dua dataset, kami menyimpulkan bahwa K = 5 adalah yang paling banyak kasus yang cocok karena memiliki efek yang signifikan pada tiga algoritma seperti yang diilustrasikan dalam Gambar 6.9 dan Tabel 6.5.  

  Setelah melakukan 5NN, interval fitur pemungutan suara seperti yang ditunjukkan pada Gambar 6.10 dan Fuzzy-rough 5NN pada dua dataset, kami menyimpulkan bahwa Fuzzy-rough 5NN lebih banyak kasus yang cocok karena memiliki pengaruh yang signifikan pada kinerja tiga algoritma sebagai ditunjukkan pada Gambar 6.11   Gambar 6.10 menunjukkan bahwa efek interval fitur pemungutan suara untuk menghapus instance yang salah diklasifikasikan pada kumpulan data yang pertama kali digunakan . Pada Gambar 6.11, hasilnya membuktikan bagaimana caranya FuzzyRoughSet adalah algoritma yang paling efisien karena dapat menyimpan data. Gambar 6.11 menunjukkan hubungan antara menghapus algoritma kesalahan klasifikasi dan sejumlah contoh .

Gambar 6.9

Tabel 6.4

Tabel 6.6 dan Gambar 6.12 mengilustrasikan pengaruh fuzzyRoughNN pada klasifikasi teknik . Setelah bertindak j48, SVM dan Naïve pada dataset, kami menyimpulkan bahwa file performa dan akurasi j48 lebih tinggi dari Naïve Bayes dan SVM. Tabel 6.5

Kesalahan klasifikasi adalah masalah terbesar yang kami hadapi ketika kami mencoba untuk mengklasifikasikan dan menangani dua kumpulan data besar biomedis kami. Korupsi dalam data menyebabkan akurasi yang rendah . 6.6 KESIMPULAN

Gambar 6.11

Gambar 6.12

Makalah ini , kami mengusulkan FuzzyRoughNN dengan teknik klasifikasi untuk diterapkan ke dua kumpulan data yang berbeda . Kami menggunakan FuzzyRoughNN untuk menghapus contoh yang salah label, yang berdampak negatif pada akurasi klasifikasi , efisiensi dan waktu pelatihan . Tabel 6.6

Kami menggunakan tiga algoritme untuk menghapus kesalahan klasifikasi pada kumpulan data. Ada KNN (K = 5), interval fitur pemungutan suara dan FuzzyRoughNN . Eksperimen kami Hasil penelitian menunjukkan bahwa FuzzyRoughNN memiliki pengaruh yang besar pada pengurangan kejadian ( penyimpanan data), menghapus contoh yang salah diklasifikasikan , mengurangi data yang hilang dan meningkatkan akurasi klasifikasi terutama pohon keputusan (j48). Di masa depan , kami berharap bias menerapkan model kami berdasarkan MapReduce untuk diproses . Kami ingin memanfaatkan MapReduce metodologi pengolahan data paralel tidak berurutan . Melakukan kasar parallel diatur untuk pemrosesan pemilihan fitur membantu menghemat waktu dan data dan dalam melakukan pengurangan yang lebih baik . Kami juga berharap dapat meningkatkan kinerja klasifikasi teknik .
Tags