Pengenalan dan Pengantar Data Science tentang Data

AlunSujjada1 0 views 25 slides Sep 27, 2025
Slide 1
Slide 1 of 25
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25

About This Presentation

Pengenalan tentang data science


Slide Content

Data Science Program Studi Informatika Sesi 1 – Pengantar Data Science

Data Science Ilmu pengetahuan multidisiplin yang memperlajari teknik ekstraksi data sehingga bermakna dan logis Proses penggalian data sehingga dihasikan produk data yang benar Proses untuk memproduksi pengetahuan data (data insight )

Definisi Data Science “Data science starts with data, which can range from a simple array of a few numeric observations to a complex matrix of millions of observations with thousands of variables. Data science utilizes certain specialized computational methods in order to discover meaningful and useful structures within a dataset. The discipline of data science coexists and is closely associated with a number of related areas such as database systems, data engineering, visualization, data analysis, experimentation, and business intelligence (BI). We can further define data science by investigating some of its key features and motivations [1]”

Definisi Data Science “ A data scientist is simply a person who can write code (in languages like R , Python , Java, SQL, Hadoop ( Pig , HQL, MR) etc.) for data ( storage , querying , summarization , visualization ) efficiently and quickly on hardware ( local machines , on databases , on cloud , on servers ) and understand enough statistics to derive insights from data so business can make decisions [2]”

Data Science is Multidisciplinary

Data Science is Multidisciplinary Data Science Diagram Venn 2.0 Staven Geringer Raleigh (2014)

Machine Learning Cabang ilmu kecerdasan buatan ( Artificial Intelligence ) yang memepelajari bagaimana dapat memberikan kemampuan belajar pada sebuah mesin (komputer, mini komputer) dengan menggunakan algoritma tertentu

Traditional Software Cabang ilmu yang dihasilkan dari irisan cabang ilmu komputer dengan SME ( Subject Matter Expertise ). SME merupakan pengetahuan yang digunakan untuk mengembangkan sistem yang dapat membantu proses bisnis pada sebuah instansi. Penerapan traditional software ini telah digunakan hampir di seluruh instansi pemerintahan maupun swasta atau pada perusahaan, contohnya e-learning , e-library , online banking , Point of Sales ( PoS ) .

Traditional Research Cabang ilmu yang diperoleh dari irisan pada ilmu matematika dan statistika dengan SME ( Subject Matter Expertise ). Traditional research telah dilakukan baik di perusahaan, instansi serta universitas .

What Data Science do? Memahami bisnis Mengumpulkan dan menelusuri data Melakukan persiapan dan proses data Membangun dan membuat model berdasarkan data Mengembangkan dan melakukan pemantauan kinerja

Data Science Life Cycle

Model Data Science Data science akan menemukan pola yang sebelumnya tidak diketahui dalam data dengan menggunakan pembelajaran mesin untuk menghasilkan Model Representatif Model representatif akan memberikan gambaran hubungan antar variabel yang ada dalam dalam dataset

Data Science Task

Data Science Task Data Science Task Deskripsi Klasifikasi & Regresi digunakan untuk memprediksi variabel target berdasarkan pada variabel input Deep learning artificial neural network yang bersifat sophisticated, penerapan deep learning ini telah banyak diterapkan untuk penyelesaian masalah klasifikasi dan regresi Clustering proses mengindentifikasi pengelompokan data yang dilakukan secara alami berdasarkan pada dataset yang tersedia Recommendation engines mesin yang dibuat agar memiliki kemampuan memberikan rekomendasi kepada pengguna berdasarkan pada preferensi pengguna

Data Science Task Data Science Task Deskripsi Anomaly or outlier detection kemampuan melakukan identifikasi pada titik-titik data diluar dataset yang secara signifikan memiliki sifat yang berbeda dengan dataset Time series forecasting proses memprediksi sebuah nilai tertentu berdasarkan pada histori data masa lalu yang kemungkinan akan memberikan sebuah trend / pola tertentu yang sifatnya didasarkan pada waktu (tahunan, bulanan, mingguan atau harian) Text mining proses mengubah data teks yang tidak terstruktur menjadi informasi yang bermakna dan dapat ditindaklanjuti Feature selection proses untuk menyeleksi attribut dalam sebuah dataset , sehingga diperoleh attribut -atribut yang sifatnya penting dan dapat memberikan ciri dari objek tertentu

Data Science Team

Skill Data Scientist

Sumber Data Science (yang sering digunakan) Kaggle merupakan salah satu situs web untuk Data Science dan Machine Learning yang menyediakan sekitar 6000 dataset dalam format CSV. UCI Machine Learning Repository merupakan pusat dataset yang menyediakan dataset yang dapat diunduh secara gratis. Terdapat sekitar 400 dataset . data.gov merupakan adalah pusat data terbuka milik Pemerintah AS yang terdiri terdiri dari berbagai kategori beberapa diantaranya yaitu Pertanian, Konsumen, Ekosistem, Pendidikan, Energi, Keuangan dan Sains.

Tools Data Science Data storage : MySQL , Oracle, SQL Server, HBase , MongoDB , and Redis Data querying : SQL, Python , Java, and R Data analysis : SAS, R , and Python Data visualization : JavaScript , R , and Python Data mining : Clojure , R , and Python Cloud : Amazon AWS, Microsoft Azure , and Google Cloud Hadoop Big Data : Spark , HDFS MapReduce (Java), Pig , Hive , and Sqoop

Software Package Data Science (yang populer) Pandas : sebuah software library Phyton yang digunakan untuk melakukan manipualasi dan analisis data. NumPy : Add -On dari Python yang mendukung untuk operasi multidimensional arrays and matrices dalam skala besar. SciPy : library dasar untuk scientific computing . Matplotlib : tools yang digunakan untuk membuat visualisasi data 2D. Seaborn : varian pemrograman Python untuk melakukan visulisasi data dengan menggunakan library dari matplotlib .

Penerapan Data Science di kehidupan

Terima Kasih
Tags