02 – Fundamental Sains Data
Yogi Saputra
09/09/25 201004-705-01-065 - Data Science - Informatics UIN SGD Bandung1
HISTORY
IBM shared statistics showing 90% of the data in the
world had been created within the last two years.
2013
Using Deep Learning techniques, Google’s speech
recognition, Google Voice, experienced a dramatic
performance jump of 49 percent
2015
job listings for data scientists increased by 15,000%.
There was also an increase in seminars and
conferences devoted specifically to Data Science
and big data
2011
Today
In the past 30 years, Data Science has quietly
grown to include businesses and organizations
worldwide.
https://www.dataversity.net/brief-history-data-science/
Sains Data (Data Science) adalah disiplin ilmu yang menggabungkan
statistik, ilmu komputer, dan domain knowledge untuk mengekstraksi
pengetahuan atau wawasan dari data.
DATA SCIENCE
09/09/25
201004-705-01-065 - Data Science - Informatics UIN SGD Bandung
3
Ruang Lingkup:
•Data Collection (pengumpulan data)
•Data Cleaning & Preprocessing
•Data Analysis & Visualization
•Modeling (AI & Machine Learning)
•Deployment (implementasi ke dunia nyata)
Hubungan dengan AI & Machine Learning:
•Data Science → fokus ke pipeline data (olah, analisis, insight).
•Machine Learning (ML) → bagian dari Data Science, digunakan untuk
membangun model prediktif/klasifikasi.
•Artificial Intelligence (AI) → bidang luas mencakup ML, NLP, Computer
Vision, dll.
Sederhananya data science membantu organisasi atau perusahaan
mendapatkan insight (wawasan) tentang bisnis mereka sendiri, tingkat
keberhasilan strategi mereka, kinerja anggotanya, dan sebagainya.
Mengapa Sains Data Penting
09/09/25
201004-705-01-065 - Data Science - Informatics UIN SGD Bandung
4
Dampak Sains Data di dunia :
Promosi pelestarian lingkungan . Tahukah Anda?
Kemajuan Bidang Kesehatan. Tahukah ?
Peningkatan Costumer Insight. Tahukah ?
Alur Kerja Data Science (Workflow)
09/09/25 201004-705-01-065 - Data Science - Informatics UIN SGD Bandung5
Data CollectionData Cleaning
Exploratory Data Analysis (EDA)
Feature EngineeringModeling & EvaluationDeployment & Monitoring
BECOME A DATA SCIENTIST
Skills:Data analyzing
Statistics
Programming
Data mining and engineering
Business analysis
09/09/25 201004-705-01-065 - Data Science - Informatics UIN SGD Bandung6
09/09/25 201004-705-01-065 - Data Science - Informatics UIN SGD Bandung7
8
Dasar Data Handling
CSV (Comma-Separated Values): data tabular sederhana.
JSON (JavaScript Object Notation): data semi-terstruktur, umum di web API.
SQL Database (MySQL, PostgreSQL): data relasional.
NoSQL Database (MongoDB, Cassandra): data tidak terstruktur/semi-terstruktur.
Struktur Data:
Tools Python:
•Pandas: untuk manipulasi data
tabular.
•NumPy: untuk operasi numerik/array.
import pandas as pd
# Baca dataset Titanic
data = pd.read_csv ("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")
# Lihat 5 data pertama
Print (data.head())
! Contoh Implementasi:
Dasar Data Preprocessing
Langkah Utama
Missing Values:menangani nilai kosong
(imputasi/penhapusan).
Outlier Handling: mendeteksi nilai ekstrem
dengan boxplot/z-score.
Normalisasi/Standarisasi:membuat data dalam skala
seragam.
Feature Engineering: membuat fitur baru yang
relevan.
! Contoh Implementasi:
# Cek missing value
Print (data.isnull(). sum())
# Imputasi kolom Age dengan rata-rata
data['Age'].fillna(data['Age'].mean(), inplace=True)
# Normalisasi kolom Fare
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
data[['Fare']] = scaler.fit_transform(data[['Fare']])
Exploratory Data Analysis (EDA)
Tujuan: memahami pola, distribusi, dan hubungan antarvariabel.
Statistik deskriptifVisualisasi distribusi
Analisis korelasi
! Contoh Implementasi:
import seaborn as sns
import matplotlib.pyplot as plt
# Statistik deskriptif
Print (data.describe())
# Visualisasi distribusi usia
sns.histplot(data['Age'], bins=20, kde=True)
plt.show()
# Korelasi antar variabel numerik
sns.heatmap(data.corr(), annot=True, cmap="coolwarm")
plt.show()
! Langkah :
09/09/25 201004-705-01-065 - Data Science - Informatics UIN SGD Bandung11
Melalui tugas besar ini, mahasiswa diharapkan mampu:
1.Menerapkan konsep fundamental sains data (data handling,
preprocessing, EDA, machine learning, dan etika AI).
2.Mengembangkan solusi analitik berbasis dashboard interaktif dengan
memanfaatkan dataset nyata.
3.Menyajikan informasi yang mendukung pengambilan keputusan secara
inovatif dan beretika.
Tugas Besar Data Science Project Untuk Portofolio
Guideline :
https://s.id/proyek_sainsdata