Trực Quan Hóa Dữ
Liệu Với Python
TA: Đỗ Thị Diệu Lê
Table of contents
Introduction Libraries
Matplotlib and seabornConcept of data
visualization
PracticesPlayground
Some snippets
01 02
03 04
● Trực quan hóa: Biến dữ liệu thành
hình ảnh, biểu đồ, sơ đồ.
●Mục đích: Giúp bộ não con người
dễ dàng:
○Nhận diện Xu hướng (Trends)
○Phát hiện Mối quan hệ
(Relationships)
○Khám phá Điểm bất thường
(Outliers)
○Kể một câu chuyện từ dữ liệu.
1.Trực quan hóa dữ liệu
2. Popular python visualize tools
Tiêu chí Matplotlib Seaborn
Cấp độ low-level high-level
Cú pháp Dài, chi tiết Ngắn gọn, trực quan
Mặc định Đơn giản Đẹp, hiện đại
Ưu điểm Tùy chỉnh mọi thứ Vẽ nhanh, đẹp sẵn
Cách dùng
plt.plot() sns.histplot()
Kết luận: Dùng seaborn để vẽ nhanh + dùng matplotlib để tùy chỉnh chi tiết.
Cài đặt và sử dụng
●Yêu cầu: Đã cài đặt Python và pip.
●Cài đặt qua pip (Terminal/CMD):
●Cài đặt qua conda (Anaconda/Miniconda):
Playground (colab)
03
Giới thiệu về dataset
Thông tin cơ bản về dữ liệu:
- Số thí sinh: 1131136
- Các môn học: ['Toán', 'Văn', 'Lí', 'Hóa', 'Sinh', 'Tin học', 'Công nghệ công nghiệp', 'Công nghệ
nông nghiệp', 'Sử', 'Địa', 'Giáo dục kinh tế và pháp luật', 'Ngoại ngữ', 'Mã môn ngoại ngữ']
●Điểm thấp chiếm đa số: Phần
lớn thí sinh có điểm dưới trung
bình
●Khoảng trống điểm số: Có sự
gián đoạn giữa các mức điểm
●Điểm cao ít: Số thí sinh đạt điểm
8-10 rất ít so với tổng số
Practice: Vẽ biểu đồ và nhận xét cho môn Văn và Tiếng Anh?
So sánh nhiều môn một lúc?
●Tương quan giữa môn học?
●Tương quan dương: học sinh có
điểm Toán cao thường cũng đạt
điểm Lí cao.
●Đường xu hướng (màu đỏ) dốc
lên rõ rệt, củng cố kết luận: hai
môn này có xu hướng đi cùng
nhau về điểm số.
Practice: Làm sao để tận dụng được phát hiện này?
●Kiểm tra hết tương quan của từng cặp môn học?
●Các môn cùng chung khối:
tương quan lớn
●Sinh học là cầu nối giữa Tự
nhiên và Xã hội.
Insight: Nhận xét về mối tương quan giữa Tiếng anh và môn Văn
●Văn và Tiếng Anh gần
như không liên quan:
phá vỡ giả định “ngôn
ngữ hỗ trợ ngôn ngữ”
4. Practice
●Tình huống 1:
○Một trường đại học muốn tìm những thí sinh có hồ sơ cân bằng giữa
khối Tự nhiên và Xã hội, thay vì chỉ giỏi một mảng. Họ định nghĩa "cân
bằng" là điểm các môn chính trong hai khối không chênh lệch nhau.
○Làm thế nào bạn có thể sử dụng scatter plot để trực quan hóa toàn
bộ dataset và giúp ban tuyển sinh dễ dàng nhận diện nhóm thí sinh
này?
●Tình huống 2:
○Một công ty công nghệ muốn trao học bổng cho những thí sinh có
tiềm năng về STEM
○Chỉ sử dụng một biểu đồ duy nhất, làm thế nào bạn có thể giúp họ
nhận diện nhanh nhóm thí sinh này trong cả dataset?