German Credit Data Science 1994 for students

GiaBoNguynNgc2 28 views 34 slides Oct 26, 2024
Slide 1
Slide 1 of 34
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34

About This Presentation

This paper for Data Science with the Data of Credit of German citizens


Slide Content

1

MỤC LỤC
MỤC LỤC 1
CHƯƠNG 1 2
GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ ĐỀ TÀI 2
A. Khoa học dữ liệu 2
1. Giới thiệu 2
2. Lợi ích 2
B. Đề tài 3
1. Lý do chọn đề tài 3
2. Mục tiêu 4
3. Đối tượng nghiên cứu 4
4. Phạm vi nghiên cứu 4
5. Phương pháp nghiên cứu 5
C. Mô tả dữ liệu 6
1. Cấu trúc dữ liệu 6
2. Thống kê mô tả các biến 8
CHƯƠNG 2 10
GIỚI THIỆU VỀ PHẦN MỀM VÀ CÁC THUẬT TOÁN ĐƯỢC SỬ DỤNG 10
A. Tổng quan về Orange 10
B. Các thuật toán được sử dụng 11
1. Phân lớp dữ liệu 11
2. Phân cụm dữ liệu 12
CHƯƠNG 3 13
PHÂN TÍCH DỮ LIỆU 13
A. Phân lớp dữ liệu 13
B. Phân cụm dữ liệu 19
PHƯƠNG PHÁP HIERARCHICAL CLUSTERING 20
PHƯƠNG PHÁP K-MEANS 24

2

CHƯƠNG 4 27
KẾT QUẢ CÁC MÔ HÌNH 27
A. Kết quả bài toán phân lớp và dự báo 27
B. Kết quả của mô hình phân cụm 28
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 30
Kết luận: 30
Giải pháp và hướng phát triển: 31
LỜI CẢM ƠN 31
HẠN CHẾ 31
DANH MỤC HÌNH ẢNH 32
DANH MỤC BẢNG BIỂU 33
TÀI LIỆU THAM KHẢO 33

CHƯƠNG 1
GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ ĐỀ TÀI
A. Khoa học dữ liệu
1. Giới thiệu
Khoa học dữ liệu (Data science) là ngành khoa học về việc khai phá, quản trị và
phân tích dữ liệu để dự đoán các xu hướng trong tương lai và đưa ra các quyết định, chiến
lược hành động. Khoa học dữ liệu (Data science) gồm ba phần chính: tạo và quản trị dữ
liệu, phân tích dữ liệu, và áp dụng kết quả phân tích thành những hành động có giá trị. Việc
phân tích và sử dụng dữ liệu dựa vào ba nguồn tri thức: toán học (thống kê toán học -
Mathematical Statistics), công nghệ thông tin (máy học - Machine Learning) và tri thức của
lĩnh vực ứng dụng cụ thể.
1
2. Lợi ích
Việc sử dụng khoa học dữ liệu vào thực tiễn kinh doanh có thể tạo ra sự khác biệt
rõ ràng về năng suất, việc đưa ra quyết định và phát triển sản phẩm. Khoa học dữ liệu có
thể giúp doanh nghiệp giảm thiểu sai sót, tăng hiệu quả và cung cấp dịch vụ khách hàng tốt
hơn. Khoa học dữ liệu còn giúp tự động hóa các chức năng tiêu tốn thời gian doanh nghiệp
trong những công việc quan trọng cần đến khối óc con người. Cụ thể những lợi ích mà khoa
học dữ liệu mang lại cho các nghiệp vụ kinh tế bao gồm: đo lường hiệu suất hiệu quả thông

3

qua việc phân tích dữ liệu; dự báo, tạo báo cáo tài chính, phân tích xu hướng kinh tế; tạo ra
phương thức tiếp cận khách hàng tốt hơn dựa trên việc nghiên cứu và phân tích dữ liệu
nhằm tìm hiểu sở thích khách hàng; giảm thiểu rủi ro, tăng cường bảo mật và bảo vệ thông
tin nhạy cảm; dự đoán kết quả và xu hướng thông qua việc thống kê, thu thập, phân tích và
xử lý dữ liệu nhằm nghiên cứu về phản hồi của người tiêu dùng, xu hướng thị trường và xu
hướng chung của công chúng.
2

B. Đề tài
1. Lý do chọn đề tài
Tín dụng từ lâu là công cụ quan trọng thúc đẩy quá trình tái sản xuất mở rộng và
nuôi dưỡng sự tăng trưởng của nền kinh tế. Nhờ có tín dụng, các doanh nghiệp có thể ra
đời và mở rộng quy mô cũng như người tiêu dùng có thể tiếp cận các sản phẩm, dịch vụ
với chất lượng tốt hơn. Từ đó, các dự án với quy mô lớn được dần dần triển khai và thực
hiện. Chính vì vậy, trong thời đại số, sự khổng lồ khối lượng dữ liệu từ nhiều nguồn khác
nhau đang được hình thành nên từng ngày, đặc biệt là chính trong lĩnh vực tín dụng. Các tổ
chức tài chính đang ngày càng phụ thuộc vào dữ liệu để đưa ra quyết định cho vay, đánh
giá rủi ro và quản lý tài sản. Sử dụng các kỹ thuật khai thác dữ liệu, chúng ta có thể phân
tích các yếu tố ảnh hưởng đến khả năng cho vay của công dân, từ đó phát hiện những mẫu
hình và xu hướng tiềm ẩn.
Đức không chỉ có nền kinh tế phát triển bền vững mà còn sở hữu một hệ thống
ngân hàng đa dạng và minh bạch, giúp việc thu thập và phân tích dữ liệu tín dụng trở nên
hiệu quả hơn. So với nhiều quốc gia khác, nơi mà thông tin tín dụng có thể bị hạn chế hoặc
thiếu tính chính xác, Đức cung cấp một khung pháp lý rõ ràng và các tiêu chuẩn cao trong
việc quản lý tín dụng. Điều này tạo ra cơ hội nghiên cứu sâu hơn về cách mà các yếu tố
kinh tế, xã hội và cá nhân tác động đến khả năng hoàn trả khoản vay, từ đó rút ra những bài
học quý giá có thể áp dụng cho các quốc gia khác trong việc nâng cao hiệu quả của hệ thống
tín dụng. Chính vì vậy, nhóm quyết định lựa chọn đề tài “Nghiên cứu và ứng dụng các
phương pháp khai thác dữ liệu để phân tích rủi ro tín dụng của công dân Đức”.
Các phương pháp như học máy và phân tích thống kê có khả năng phát hiện các
yếu tố ảnh hưởng đến khả năng hoàn trả khoản vay, đồng thời giảm thiểu các khoản cho
vay rủi ro. Mặc dù dữ liệu phong phú, việc xử lý và phân tích chúng vẫn gặp nhiều thách
thức, tạo cơ hội cho nghiên cứu sâu hơn.
Hơn nữa, trong bối cảnh thông tin giả mạo và không chính xác đang gia tăng, việc
ứng dụng các công cụ khai thác dữ liệu để xác thực và lọc thông tin trở nên cần thiết. Qua
đề tài này, nhóm hy vọng sẽ khám phá và ứng dụng công nghệ hiện đại để đánh giá rủi ro
tín dụng, từ đó cung cấp những khuyến nghị hữu ích cho các tổ chức tài chính và người tiêu
dùng, góp phần tạo ra một môi trường tín dụng an toàn và bền vững hơn.

4

2. Mục tiêu
a) Tổng quát
Việc nghiên cứu đề tài này nhằm cung cấp một cái nhìn toàn diện hơn về rủi ro tín
dụng tài chính của công dân Đức. Từ đó, đưa ra mô hình đánh giá chính xác về mức độ rủi
rọ tín dụng cho các tổ chức tài chính.
b) Cụ thể
Thứ nhất, nghiên cứu sẽ xác định được các yếu tố kinh tế, xã hội và cá nhân có ảnh
hưởng đến các rủi ro tín dụng, từ đó hiểu rõ hơn về các điều kiện dẫn đến khả năng hoàn
trả các khoản vay. Các yếu tố này không chỉ hỗ trợ việc xác định các mẫu hình mà còn giúp
các tổ chức tài chính định hình các tiêu chí cho vay hợp lý hơn.
Thứ hai, từ các yếu tố trên, mô hình sẽ phát triển mô hình phân tích rủi ro tín dụng
tài chính bằng cách áp dụng các kỹ thuật học và phân tích thống kê hiện đại. Mục đích tạo
ra mô hình này nhằm dự đoán chính xác khả năng trả nợ của người vay và tối ưu hoá quy
trình đưa quyết định cho vay. Điều này sẽ góp phần đảm bảo tính chính xác trong việc đánh
giá rủi ro và giảm thiểu khả năng xảy ra nợ xấu cho các tổ chức tài chính.
Thứ ba, nghiên cứu cũng sẽ đánh giá hiệu quả của các phương pháp khai thác dữ
liêu khác nhau trong việc phân tích rủi ro tín dụng. Từ đó rút ro được tính chính xác và tính
khả thi của từng mô hình.
Thứ tư, nhóm sẽ đưa ra các khuyến nghị cụ thể cho các tổ chức tài chính và nhà
hoạch định chính sách nhằm cải thiện quy trình quản lý rủi ro tín dụng. Những khuyến nghị
này sẽ không chỉ giúp hoạt động tổ chức tài chính hiệu quả mà còn xây dựng môi trường
tín dụng an toàn và bền vững.
Qua nghiên cứu này, nhóm hi vọng sẽ đóng góp tích cực vào việc nâng cao chất
lượng hệ thống tài chính, từ đó tạo điều kiện cho sự phát triển bền vững tài chính trong
tương lai.
3. Đối tượng nghiên cứu
Nghiên cứu tập trung vào việc sử dụng tín dụng của công dân Đức vào năm 1994.
Đối tượng nghiên cứu sẽ tập trung vào các yếu tố như tuổi, giới tính, tình trạng hôn nhân,
số người phụ thuộc, nghề nghiệp và thu nhập. Bên cạnh đó, nghiên cứu cũng xem xét các
thông tin về lịch sử thanh toán, số lượng khoản vay đang hoạt động, mức độ nợ và đánh giá
tín dụng từ các tổ chức tài chính.
4. Phạm vi nghiên cứu

5

Phạm vi nghiên cứu sẽ tập trung vào việc phân tích bộ dữ liệu German credit data
1994 để xác định các yếu tố ảnh hưởng đến rủi ro tín dụng. Nghiên cứu sẽ được thực hiện
trên dữ liệu từ năm 1994, cho phép phân tích trong bối cảnh kinh tế và xã hội của Đức vào
thời điểm đó.
5. Phương pháp nghiên cứu
Các bước
thực hiện
Nội dung thực hiện
Tình hình
thực tế
Hiện nay, các tổ chức tài chính đối mặt với rủi ro tín dụng ngày càng cao,
ảnh hưởng lớn đến hoạt động kinh doanh và sự ổn định của hệ thống tài
chính. Việc nghiên cứu các yếu tố ảnh hưởng đến rủi ro tín dụng là rất cần
thiết để giảm thiểu nợ xấu và đưa ra các quyết định tín dụng hiệu quả.
Đưa ra đề tài
nghiên cứu
Ứng dụng các phương pháp khai thác dữ liệu để phân tích các yếu tố kinh
tế, xã hội và cá nhân có ảnh hưởng đến rủi ro tín dụng . Mục tiêu là phát
triển mô hình dự đoán chính xác khả năng nợ của người vay.
Đặt ra vấn đề
Công dân Đức vào năm 1994 đối mặt với các yếu tố rủi ro tín dụng khác
nhau. Liệu các yếu tố kinh tế, xã hội, như tuổi, nghề nghiệp, thu nhập hay
lịch sử tín dụng có tác động trực tiếp đến khả năng trả nợ và liệu có mô hình
dự đoán nào chính xác hơn trong việc đánh giá rủi ro tín dụng?
Đề ra mục
tiêu nghiên
cứu
Xác định các yếu tố chính ảnh hưởng đến rủi ro tín dụng và xây dựng mô
hình phân tích, dự đoán khả năng trả nợ. Đánh giá hiệu quả các mô hình và
đưa ra khuyến nghị cụ thể cho các tổ chức tài nhằm cải thiện quy trình quản
lý rủi ro tín dụng.
Tìm kiếm bộ
dữ liệu
Đối tượng: Công dân Đức năm 1994. Bộ dữ liệu German Credit Data sẽ
được sử dụng để đảm bảo phù hợp với mục tiêu nghiên cứu đã đề ra.
Tiền xử lý,
xử lý và phân
tích dữ liệu
Tổng hợp, làm sạch và xử lý dữ liệu nhằm loại bỏ các nhiễu và lỗi. Phân tích
dữ liệu với các kỹ thuật khai thác dữ liệu và máy học (machine learning) và
hiện đại để phát triển mô hình dự đoán. Lập báo cáo phân tích kết quả.

6

Kết luận và
đưa ra kết
luận dự án
Đưa ra các kết luận về các yếu tố chính ảnh hưởng đến rủi ro tín dụng và
đánh giá tính khả thi, chính xác của từng mô hình. Đề xuất giải pháp cải
thiện quy trình quản lý rủi ro tín dụng và khuyến nghị cho các tổ chức tài
chính. Nhằm hỗ trợ cho quá trình nghiên cứu và thực hiện đồ án thay thế thi
cuối kỳ, chúng tôi đã áp dụng các phương pháp sau đây để phân tích, giải
thích và trả lời cho câu hỏi, từ đó đáp ứng các mục tiêu nghiên cứu đã đặt
ra.
Bảng 1.1: Phương pháp nghiên cứu
C. Mô tả dữ liệu
Bộ dữ liệu German Credit Data phân loại 1000 cá nhân được mô tả thành các nhóm
có rủi ro tín dụng tốt hoặc xấu dựa trên danh sách 20 thuộc tính. Bộ dữ liệu được công bố
ngày 16 tháng 11 năm 1994.
Nguồn gốc dữ liệu: UCI Machine Learning Repository. (n.d.).
https://archive.ics.uci.edu/dataset/144/statlog+german+credit+data
1. Cấu trúc dữ liệu
Thuộc tính Ý nghĩa Mô tả
Status of existing
checking account
Trạng thái tài khoản thanh
toán hiện có
Biến dữ liệu
Foreign worker Công nhân nước ngoài Biến dữ liệu
Credit history Lịch sử tín dụng Biến dữ liệu
Duration in month Thời gian trong tháng Biến số
Savings
account/bonds
Tài khoản tiết kiệm/trái phiếu Biến dữ liệu
Housing Nhà ở (nói chung) Biến dữ liệu
Other installment
plans
Kế hoạch trả góp khác Biến dữ liệu

7

Credit amount Số tiền tín dụng Biến số
Purpose Mục đích

Biến dữ liệu
Other debtors /
guarantors
Các đối tượng nợ/ người bảo
lãnh khác
Biến dữ liệu
Property Tài sản Biến dữ liệu
Present employment
since
Việc làm hiện tại Biến dữ liệu
Age in years Tuổi tính theo năm Biến số
Personal status and
sex
Trạng thái cá nhân và giới
tính.
Biến dữ liệu
Installment rate in
percentage of
disposable income
Tỷ lệ trả góp theo phần trăm
thu nhập khả dụng
Biến số

Number of existing
credits at this bank
Số lượng tín dụng hiện có tại
ngân hàng
Biến số
Telephone Số điện thoại Biến dữ liệu
Job Công việc Biến dữ liệu
Present residence
since
Nơi cư trú hiện tại Biến số
Number of people
being liable to
provide maintenance
for
Số người có trách nhiệm cung
cấp tiền nuôi dưỡng
Biến số
Bảng 1.2: Cấu trúc dữ liệu

8

2. Thống kê mô tả các biến
Bước 1: Dùng Rank chọn ra 5 biến có ý nghĩa lớn với bộ dữ liệu

Hình 1.1: 5 biến có ý nghĩa lớn đối với bộ dữ liệu
Từ Rank, ta có thể thấy 5 biến có ý nghĩa lớn bao gồm:
- Status of existing checking account
- Foreign worker
- Credit history
- Duration in month
- Savings account/bonds
Bước 2: Dùng Feature Statistics để thống kê mô tả dữ liệu:

Hình 1.2: Thống kê mô tả 5 biến có ý nghĩa lớn
- Duration in month
Biến "Thời gian vay tính theo tháng" (Duration in month) là một chỉ số quan
trọng về thời gian người vay dự định trả nợ. Giá trị trung bình của thời gian vay là 20,9
tháng, với giá trị phổ biến nhất (mode) là 24 tháng, có nghĩa là phần lớn các khoản vay

9

kéo dài khoảng 2 năm. Trong tập dữ liệu, giá trị trung vị (median) là 18 tháng, cho thấy
50% số người vay có thời gian vay dưới 18 tháng. Khoảng thời gian vay ngắn nhất được
ghi nhận là 4 tháng và dài nhất là 72 tháng, cho thấy sự đa dạng về thời gian vay. Với độ
phân tán (dispersion) là 0.577, sự chênh lệch trong thời gian vay là không quá lớn, hầu hết
các khoản vay nằm gần giá trị trung bình. Điều này giúp xác định rằng hầu hết các khoản
vay ở Đức có thời gian trung hạn, và việc trả nợ trong khoảng thời gian này có thể là yếu
tố được các tổ chức tín dụng chú trọng trong quá trình xem xét rủi ro.
- Status of existing checking account
Biến "Tình trạng tài khoản thanh toán hiện tại" (Status of existing checking
account) cung cấp thông tin về tình trạng tài khoản của người vay tại thời điểm vay vốn.
Theo dữ liệu, giá trị phổ biến nhất là "none", có nghĩa là phần lớn người vay không có tài
khoản thanh toán. Điều này có thể cho thấy rằng một số người vay có thể đang gặp khó
khăn trong việc duy trì tài khoản thanh toán, hoặc họ không có nhu cầu sử dụng tài khoản
thanh toán cho mục đích tín dụng. Mặc dù vậy, độ phân tán của biến này là 1.25, chỉ ra rằng
có một sự biến động vừa phải trong tình trạng tài khoản của người vay, nhưng không phải
tất cả đều không có tài khoản thanh toán. Sự đa dạng này có thể là một yếu tố ảnh hưởng
đến quyết định tín dụng, vì tài khoản thanh toán có thể được sử dụng để theo dõi dòng tiền
của người vay.
- Credit history
Lịch sử tín dụng (Credit history) là một trong những biến quan trọng nhất để đánh
giá mức độ rủi ro. Dữ liệu cho thấy đa số người vay có lịch sử tín dụng lành mạnh với giá
trị mode là "on-time", tức là họ đã thanh toán đúng hạn cho các khoản vay trước đây. Điều
này cho thấy sự tin cậy của người vay trong việc thực hiện nghĩa vụ tài chính của họ. Độ
phân tán là 1.19, cho thấy có một số khác biệt trong lịch sử tín dụng, nhưng phần lớn dữ
liệu tập trung vào nhóm người có lịch sử tốt. Một lịch sử tín dụng lành mạnh là yếu tố tích
cực khi đánh giá khả năng trả nợ, và do đó làm giảm mức độ rủi ro cho các tổ chức tín dụng
khi quyết định cấp vốn.
- Savings account/bonds
Biến "Tài khoản tiết kiệm/trái phiếu" (Savings account/bonds) thể hiện mức độ
tài sản tiết kiệm mà người vay sở hữu. Trong tập dữ liệu, giá trị mode là "minimal", cho
thấy phần lớn người vay có số dư tài khoản tiết kiệm rất thấp hoặc không có tài sản tiết
kiệm. Điều này có thể là dấu hiệu cảnh báo đối với các tổ chức tài chính vì thiếu tài sản tiết
kiệm có thể làm giảm khả năng đối phó với các tình huống tài chính khẩn cấp của người
vay. Độ phân tán của biến này là 1.17, cho thấy không có quá nhiều sự chênh lệch về mức
độ tài sản tiết kiệm giữa các người vay. Những người không có nhiều tài sản tiết kiệm

10

thường có mức độ rủi ro cao hơn, vì họ ít có khả năng trang trải các khoản nợ trong trường
hợp gặp khó khăn tài chính.
- Foreign worker
Biến "Người lao động nước ngoài" (Foreign worker) là một biến phân loại, giúp
xác định xem người vay có phải là lao động nước ngoài hay không. Giá trị mode là
"foreign-worker", cho thấy rằng phần lớn người vay trong tập dữ liệu là lao động nước
ngoài. Điều này có thể phản ánh đặc điểm dân cư và nhu cầu vay vốn của nhóm lao động
này tại Đức. Mặc dù biến này không trực tiếp phản ánh khả năng trả nợ, nhưng nó có thể
cung cấp thông tin về bối cảnh và hoàn cảnh kinh tế - xã hội của người vay. Những lao
động nước ngoài thường có thể gặp một số khó khăn trong việc tiếp cận các dịch vụ tài
chính so với cư dân bản địa, điều này có thể làm tăng rủi ro đối với các tổ chức tín dụng.
- Credit
Biến "Tín dụng" (Credit) là một biến quan trọng trong việc đánh giá chất lượng
tín dụng của người vay. Giá trị mode là "good", có nghĩa là đa số người vay được xếp hạng
tín dụng tốt. Đây là dấu hiệu tích cực, cho thấy phần lớn người vay có khả năng đáp ứng
các yêu cầu tín dụng và có thể giảm thiểu rủi ro cho các tổ chức tín dụng khi cấp vốn. Độ
phân tán của biến này là 0.611, cho thấy mức độ khác biệt vừa phải về mức tín dụng giữa
các người vay.

CHƯƠNG 2
GIỚI THIỆU VỀ PHẦN MỀM VÀ CÁC THUẬT TOÁN ĐƯỢC SỬ DỤNG
A. Tổng quan về Orange
Khai phá dữ liệu (Data Mining) và máy học (Machine Learning) là những lĩnh vực
phức tạp khi nghiên cứu. Hiện nay, nhiều phần mềm được phát triển để hỗ trợ người dùng
tiếp cận và giải quyết những khó khăn trong lĩnh vực này. Một trong số đó có thể kể đến là
Orange.
Orange có thể hiểu là một thư viện cốt lõi dựa trên C++ với nhiều thuật toán cơ bản
trong khai phá dữ liệu và học máy. Orange kết hợp nhiều tác vụ, nhờ đó có thể phân tích
những dữ liệu từ cơ bản đến phức tạp, đọc những tài liệu ở định dạng gốc hay các định dạng
dữ liệu khác. Bên cạnh đó, Orange còn mang đến giao diện với đồ họa đẹp mắt nhờ tập hợp
các widget đồ họa sinh động, cung cấp một bầu không khí tương tác thú vị hơn cho các
công cụ phân tích, điều đó khiến nó trở nên thú vị đối với người dùng phần mềm.
Phần mềm Orange nổi bật nhờ sự kết hợp giữa các công cụ khai phá dữ liệu và học
máy mã nguồn mở, dễ sử dụng, hiệu quả và linh hoạt, với giao diện đơn giản và thao tác

11

nhanh chóng. Orange không chỉ giúp phân tích các loại dữ liệu từ cơ bản đến phức tạp mà
còn tạo ra các hình ảnh trực quan hấp dẫn, giúp việc truy cập và sử dụng học máy trở nên
dễ dàng hơn cho cả người mới và người có kinh nghiệm.
Các widget là các thành phần của Orange. Chúng là nền tảng cốt lõi của phần mềm,
các widget cung cấp các chức năng quan trọng bao gồm từ tiền xử lý và trực quan hóa dữ
liệu cho đến đánh giá các thuật toán và mô hình dự đoán, Các widget sử dụng cơ chế giao
tiếp với nhau cách đặt biệt để truyền dữ liệu chỉ bằng cách kéo và thả con trỏ chuột từ vị trí
người sử dụng vô cùng tiện ích và đơn giản, phù hợp cho cả người mới và chuyên gia. Bên
cạnh đó, Orange còn nhiều công cụ trực quan và một số lượng đáng kể các vật dụng có xu
hướng hỗ trợ như: biểu đồ thanh, hình ảnh, biểu đồ nhiệt, …
B. Các thuật toán được sử dụng
1. Phân lớp dữ liệu
a. Phương pháp hồi quy (Logistic Regression)
Hồi quy Logistic là một phương pháp phân tích thống kế dùng để dự đoán xác suất
của một biến nhị phân (“có” hoặc “không”, “thành công” hoặc “thất bại”) dựa trên một
hay nhiều biến độc lập. Phương pháp này xây dựng một hàm logistic để mô hình hóa mối
quan hệ giữa biến phụ thuộc và các biến độc lập, từ đó xác định một mặt phẳng phân chia
giữa các lớp dữ liệu. Hồi quy logistic thường được ứng dụng rộng rãi trong các lĩnh vực
như y học, khoa học xã hội và tiếp thị để phân loại và dự đoán kết quả.
3

Trong quá trình thực hiện hồi quy logistic, người dùng cần chuẩn bị dữ liệu bằng
cách xác định các biến phụ thuộc và biến độc lập, xử lý dữ liệu thiếu và mã hoá biến phân
loại nếu cần thiết. Sau khi bộ dữ liệu đã sẵn sàng, bước tiếp theo là phân chia dữ liệu thành
tập huấn luyện và tập kiểm tra để có thể đánh giá mô hình một cách hiệu quả. Sau đó là xây
dựng mô hình bằng cách sử dụng các phương pháp tối ưu hóa để ước lượng các hệ số hồi
quy. Khi mô hình được xây dựng, ta sẽ đánh giá hiệu suất của nó thông qua các chỉ số như
độ chính xác, độ nhạy, độ đặc hiệu và AUC - ROC. Cuối cùng là có sử dụng mô hình để
dự đoán xác suất cho các quan sát mới.
Hồi quy logistic có nhiều ưu điểm, bao gồm sự dễ hiểu và dễ giải thích, khả năng
hoạt động hiệu quả với dữ liệu lớn, và khả năng cung cấp xác suất cho các dự đoán. Tuy
nhiên, phương pháp này cũng có một số nhược điểm. Nó nhạy cảm với outliers, giả định
rằng biến độc lập có mối quan hệ tuyến tính với logit của biến phụ thuộc, và không thể xử
lý tốt các mối quan hệ phi tuyến mà không áp dụng các biện pháp chuyển đổi thích hợp.
4

b. Phương pháp Support Vector Machine (SVM)

12

Support Vector Machine là một thuật toán được sử dụng rộng rãi trong các bài toán
phân loại và hồi quy. Phương pháp này hoạt động bằng cách xác định một siêu mặt phẳng
(hyperplane) tối ưu trong không gian đa chiều để phân tách dữ liệu thành hai lớp có khoảng
cách lớn nhất. SVM hoạt động hiệu quả với dữ liệu lớn và thường cho kết quả vượt trội so
với các thuật toán khác. Nó cũng sử dụng các hàm kernel để xử lý dữ liệu phi tuyến, làm
cho nó phù hợp với nhiều ứng dụng thực tiễn. SVM được sử dụng rộng rãi trong các lĩnh
vực như nhận dạng hình ảnh, phân loại văn bản, phân tích cảm xúc, và nhiều ứng dụng khác
trong học máy.
Support Vector Machine (SVM) có nhiều ưu điểm như hiệu suất cao trong các bài
toán phân loại với không gian đặc trưng lớn và số lượng điểm dữ liệu nhỏ, tăng độ chính
xác nhờ tối đa hóa khoảng cách giữa các lớp, và tính linh hoạt trong việc xử lý các mối
quan hệ phi tuyến thông qua việc sử dụng kernel. Tuy nhiên, SVM cũng có nhược điểm,
bao gồm thời gian huấn luyện lâu đối với tập dữ liệu lớn, khó khăn trong việc chọn kernel
phù hợp và khả năng tổng quát có thể kém nếu không được điều chỉnh đúng cách, dẫn đến
overfitting hoặc underfitting.
c. Phương pháp Cây Quyết Định (Decision Tree)
Cây quyết định (Decision Tree) là một mô hình phân lớp dữ liệu mạnh mẽ và phổ
biến, mô phỏng quá trình nhận thức và ra quyết định của con người thông qua cấu trúc dạng
cây. Mô hình này bao gồm một gốc cây (root node), các nhánh (branches), các node trong
(internal nodes) và node lá (leaf nodes). Cây quyết định hoạt động theo cách phân tích các
đặc trưng của dữ liệu để tạo ra các tập con đồng nhất, từ đó đưa ra kết quả. Cây bắt đầu từ
gốc, không có nhánh đầu vào, và các nhánh từ gốc dẫn đến các node trong, nơi diễn ra các
quyết định. Các node lá đại diện cho tất cả các kết quả có thể có trong tập dữ liệu. Với khả
năng ứng dụng cho cả phân loại và hồi quy, cây quyết định được sử dụng rộng rãi trong
nhiều lĩnh vực khác nhau.
Ưu điểm của cây quyết định bao gồm khả năng trực quan hóa dễ dàng và dễ hiểu,
không yêu cầu nhiều giả định về phân phối dữ liệu, và có thể xử lý cả dữ liệu định tính và
định lượng. Tuy nhiên, cây quyết định cũng có nhược điểm, chẳng hạn như dễ bị overfitting,
đặc biệt khi cây quá sâu, và độ nhạy với sự thay đổi nhỏ trong dữ liệu.
2. Phân cụm dữ liệu
a. Hierarchical Clustering
Phân cụm phân cấp (Hierarchical Clustering) là phương pháp phân nhóm dữ liệu
mà trong đó các đối tượng được nhóm thành các cụm theo cách tạo ra một cấu trúc cây dựa
trên: Ma trận khoảng cách giữa các phần tử và độ đo khoảng cách giữa các cụm. Phương
pháp này không cần xác định trước số cụm nhưng cần xác định điều kiện dừng.

13

Phương pháp phân cụm phân cấp (Hierarchical Clustering) có nhiều ưu điểm, bao
gồm khả năng trực quan hóa tốt qua dendrogram, cho phép người dùng dễ dàng hiểu cấu
trúc và mối quan hệ giữa các cụm. Nó không yêu cầu xác định trước số lượng cụm, giúp
linh hoạt hơn trong việc khám phá dữ liệu. Tuy nhiên, phương pháp này cũng có nhược
điểm, như thời gian tính toán lâu và độ phức tạp cao đối với tập dữ liệu lớn, cũng như khó
khăn trong việc điều chỉnh các yếu tố như khoảng cách và tiêu chí hợp nhất cụm. Hơn nữa,
khi đã hợp nhất các cụm, không thể thay đổi quyết định, dẫn đến khả năng mất thông tin
quan trọng.
b. K-Means
K- Means là một thuật toán phân cụm không giám sát. Phương pháp này phân chia
n điểm dữ liệu thành k cụm dựa trên sự tương đồng, với mục tiêu tối thiểu hóa phương sai
trong từng cụm. K-Means hoạt động bằng cách khởi tạo các tâm cụm, gán điểm dữ liệu vào
cụm gần nhất, và cập nhật tâm cho đến khi không còn thay đổi. Thuật toán này hiệu quả
cho dữ liệu lớn và dễ triển khai, nhưng cần xác định số lượng cụm k trước, và có thể nhạy
cảm với vị trí khởi tạo tâm cụm.
K-Means có nhiều ưu điểm như đơn giản, dễ hiểu và tốc độ nhanh, đặc biệt hiệu
quả với các tập dữ liệu lớn và có khả năng mở rộng dễ dàng. Tuy nhiên, phương pháp này
cũng có nhược điểm, bao gồm việc cần xác định trước số lượng cụm k, điều này có thể khó
khăn. Ngoài ra, K-Means nhạy cảm với việc khởi tạo tâm cụm, có thể dẫn đến kết quả khác
nhau, và kém hiệu quả với các cụm có hình dạng phức tạp hoặc kích thước không đồng
nhất.
CHƯƠNG 3
PHÂN TÍCH DỮ LIỆU
A. Phân lớp dữ liệu
Trong bài nghiên cứu này, nhóm sẽ thực hiện phân lớp dữ liệu của nhân viên và
dự báo tỷ lệ nghỉ việc thông qua 4 bước:
Bước 1: Khởi động phần mềm Orange, thêm Dataset tên “German Credit Data”
Bước 2: Mở tập dữ liệu “German Credit Data”, sử dụng lệnh Test & Score, Confusion
Matrix và ROC Analysis, lần lượt đánh giá các mô hình phân lớp và chọn ra mô hình có
kết quả đáng tin cậy nhất.

14

Bước 3: Sử dụng lệnh Data Sampler để thực hiện lấy mẫu:
- Lưu file chứa 10% dữ liệu với tên “Dubao_10%”
Bước 4: Sử dụng mô hình phân lớp đã chọn để tiến hành dự báo bằng lệnh Predictions với
tập dữ liệu “Dubao_10%”, xuất dữ liệu và lưu file “Ketquadubao”.
Đánh giá mô hình phân lớp theo Phân tích ROC
Với 3 mô hình phân lớp: Logistic Regression, SVM và Decision Tree. Sau khi tiến
hành phân tích ROC, có thể nhận thấy rằng mô hình Logistic Regression tạo ra đường cong
ROC gần với góc (0;1) hơn so với 2 mô hình SVM và Decision Tree. Điều này chỉ ra rằng
mô hình Logistic Regression có tỉ lệ dự báo True Positive Rate (TPR) cao hơn, đồng thời
tỷ lệ dự báo False Positive Rate (FPR) thấp hơn so với các mô hình còn lại.
Kết luận: Dựa trên phân tích ROC, chúng ta có thể đưa ra kết luận rằng Logistic
Regression là mô hình phân lớp có hiệu quả nhất trong việc phân lớp Dataset: German
Credit Data.sion là mô hình phân lớp có hiệu quả nhất trong việc phân lớp Dataset:
German Credit Data.

Hình 2.1: Mô hình phân lớp dữ liệu Hình 3.1: Mô hình phân lớp dữ liệu
Hình 3.2: Đường cong ROC với kết quả là bad

15


Hình 3.3: Đường cong ROC với kết quả là good
Đánh giá mô hình phân lớp theo Test and Score
Diện tích dưới đường cong (AUC): 0.787
Tính chính xác (CA): 0.753
Giá trị trung bình điều hòa (F1): 0.743
Độ chính xác (Precision): 0.753
Độ phủ (Recall): 0.376
Kết luận: Mô hình Hồi quy Logistic (Logistic Regression) có độ chính xác và kết quả
đáng tin cậy nhất

16


Hình 3.4: Kết quả đánh giá bằng Test and Score
Đánh giá mô hình phân lớp theo Confusion Matrix

Hình 3.5: Kết quả mô hình Logistic Regression đánh giá bằng Confusion Matrix

17


Hình 3.6: Kết quả mô hình SVM đánh giá bằng Confusion Matrix

Hình 3.7: Kết quả mô hình Tree đánh giá bằng Confusion Matrix

Confusion
Matrix
True
Positive
(TP)
True
Negative

False
Positive
False
Negative
Decision
Tree
76.4% 44.2% 23.6% 55.8%
SVM 78.7% 49.2% 21.3% 50.8%

18

Logistics
Regression
79.5% 61.5% 20.5% 38.5%
True positive (TP): Số lượng trường hợp mà mô hình dự đoán đúng và thực tế
là khách hàng không có khả năng tín dụng.
True negative (TN): Số lượng trường hợp mà mô hình dự đoán đúng và thực tế
là khách hàng có khả năng tín dụng.
False positive (FP) (Type I Error – Sai lầm loại 1): Số lượng mô hình dự đoán
tốt nhưng thực tế là xấu (khách hàng có khả năng tín dụng nhưng được dự đoán là không
có khả năng tín dụng).
False negative (FN): (Type 2 Error – Sai lầm loại II): Số lượng mô hình dự
đoán xấu nhưng thực tế là tốt (khách hàng không có khả năng tín dụng nhưng dự đoán là
có khả năng tín dụng).
1. Logistic Regression: cho thấy phần trăm TP và TN cao nhất: (79.5%) và
(61.5%). Có nghĩa là, phương pháp này đã dự đoán đúng khách hàng có khả năng tín dụng
và khách hàng không có khả năng tín dụng.
2. SVM: có tỉ lệ dự đoán TP và TN cao hơn Logistics Regression và thấp hơn Tree.
3. Decision Tree: có tỉ lệ dự đoán TP và TN thấp nhất, cho thấy nó là phương pháp
ít hiệu quả nhất trong cả 3.
Với đánh giá bằng Confusion Matrix:
Ý nghĩa Kết quả
Sai lầm loại I Thực tế, người này có
khả năng tín dụng
nhưng lại nghĩ không
có khả năng tín dụng
Tree > SVM
>Logistics Regression
Sai lầm loại II Thực tế, người này
không có khả năng tín
dụng nhưng lại nghĩ có
khả năng tín dụng
Tree > SVM
>Logistics Regression
Bảng 3.1: Kết quả đánh giá bởi Confusion Matrix
Theo kết quả đánh giá bởi Confusion Matrix, cả sai lầm loại I (False Positive) và
sai lầm loại II (False Negative) đều cho ra kết quả Phương pháp Hồi Quy (Logistics
Regression) ít sai lầm nhất trong cả 3 phương pháp.

19

Mô hình Hồi quy Logistic (Logistic Regression) có kết quả đáng tin cậy nhất.
Kết luận: Sau khi đánh giá 3 mô hình phân lớp thông qua ba phương pháp, nhóm
lựa chọn mô hình Hồi quy Tuyến tính (Logistic Regression) là mô hình có kết quả đáng tin
cậy và độ chính xác cao nhất để thực hiện dự báo
Lấy mẫu dữ liệu


Hình 3.8: Mô hình lấy mẫu dữ liệu
Tập dữ liệu German Credit Data sẽ được lấy mẫu ngẫu nhiên bằng lệnh Data
Sampler, với tập 10% là dữ liệu dự báo (Dubao_10%).
Phục vụ cho mục đích dự báo, tập dữ liệu Dubao 10% gồm 100 quan sát với 20
biến thuộc tính và 2 biến mục tiêu, không xuất hiện dữ liệu bị thiếu.

Hình 3.9: Tập dữ liệu mẫu (Dubao_10%)
B. Phân cụm dữ liệu

20

PHƯƠNG PHÁP HIERARCHICAL CLUSTERING
I. Phân cụm theo Linkage Single:
1. Phân cụm theo Credit history:

Hình 3.10: Phân cụm theo Linkage Single

Hình 3.11: Chỉ số SI theo Linkage Single

21


Hình 3.12: Kết quả thu được từ Pivot Table
Nhận xét: cụm rủi ro tín dụng cao (bad) và rủi ro tín dụng thấp (good) đạt được tỷ
lệ trả khoản vay đúng hạn cao nhưng đồng thời gặp vấn đề hoàn thành khoản vay đầy đủ
thấp.
2. Phân cụm theo Foreign worker:

Hình 3.13: Phân cụm theo Linkage Single

Hình 3.14: Chỉ số SI theo Linkage Single

22


Hình 3.15: Kết quả thu được từ Pivot Table
Nhận xét: Tài khoản có rủi ro tín dụng thấp chiếm phần lớn trong phân bổ tỷ lệ lao
động nước ngoài. Nhóm rủi ro tín dụng cao đạt 29,6% tỉ lệ lao động nước ngoài, 4% tỷ lệ
lao động trong nước. Trong khi đó, nhóm rủi ro tín dụng thấp chiếm đến 66,7% tỉ lệ lao
động nước ngoài và 33% tỷ lệ lao động trong nước.
3. Phân cụm theo Property:

Hình 3.16: Phân cụm theo Linkage Single

23


Hình 3.17: Chỉ số SI theo Linkage Single

Hình 3.18: Kết quả thu được từ Pivot Table
Nhận xét: Tài khoản rủi ro tín ro tín dụng thấp có tỉ lệ tài sản xe ô tô/ bất động sản/
bảo hiểm nhân thọ gần như gấp đôi tài khoản có rủi ro tín dụng cao.
II. Mô tả các bước phân cụm:
Bước 1: Chọn bộ dữ liệu German Credit Data.
Bước 2: Nối Dataset widget với Distance Widget, tiếp tục nối Distance Widget với
Hierarchical Clustering Widget.
Bước 3: Quan sát chỉ số SI tại Silhouette Plot.
Bước 4: Thu được kết quả từ Pivot Table.
Bước 5: Nhận xét.
III. KẾT QUẢ MÔ HÌNH HIERARCHICAL CLUSTERING

24

Quan sát thấy Linkage Single, Average, Weighted, Complete, Ward cho kết quả với
đa phần dữ liệu có chỉ số SI nhỏ hơn 0.3
Sử dụng Pivot Table để rút ra kết luận:
- Cụm 1: Cụm C1 là Bad vì với 300 mẫu dữ liệu quan sát C1 khớp với là Bad - Rủi
ro tín dụng cao
- Cụm 2: Cụm C2 là Good gì với 700 mẫu dữ liệu quan sát C2 khớp là Good - Rủi
ro tín dụng thấp
IV. ỨNG DỤNG MÔ HÌNH HIERARCHICAL CLUSTERING
Lợi ích phân cụm: bằng việc phân tích cụm, chúng ta có thể xác định những mô
hình ứng dụng nợ. Lấy ví dụ một mẫu, một phân cụm có thể bao gồm giới trẻ với cân bằng
tiết kiệm thấp hơn nhưng công việc ổn định, trong khi những phân cụm khác có thể bao
gồm những người xin việc lâu năm có thu nhập đáng kể.
Hiểu rõ những nhóm phân cụm có thể giúp cho người cho vay sử dụng phương
pháp của họ đối với những hồ sơ vay mượn khác nhau và cải thiện rủi ro tài sản. Biết những
thuộc tính của mỗi phân cụm, người cho vay có thể tạo ra lựa chọn cho chay với tỷ suất và
hạn thanh toán phù hợp cho rủi ro của hồ sơ cụ thể.
PHƯƠNG PHÁP K-MEANS
Phần mềm k-Means là một thuật toán toán học không giám sát phổ biến được sử
dụng để chia một tập dữ liệu thành các nhóm riêng biệt (cụm) dựa trên sự tương đồng.
Trong bộ dữ liệu German Credit Data, các mẫu ẩn có thể được xác định bằng cách khám
phá dữ liệu tín dụng, mà không cần dựa vào các nhãn được xác định trước.

25


Hình 3.19: Phân cụm bằng k-Means
- Số lượng cụm
Thiết lập cụm k-means để tìm kiếm cụm từ 2 đến 10. Thuật toán tính toán các cụm
và đánh giá chất lượng kết quả của từng cụm, k-Means sẽ sử dụng số lượng cụm được xác
định để phân vùng dữ liệu thành các nhóm sao cho mỗi điểm dữ liệu thuộc về cụm có giá
trị trung bình gần nhất.
- Silhouette Plot
Điểm Silhouette là một số liệu quan trọng được sử dụng để đánh giá mức độ giống
nhau của một điểm với cụm của chính nó (sự gắn kết) so với các cụm khác (sự tách biệt).
Điểm dao động từ -1 đến 1, trong đó:
● Gần 1: Các điểm khớp tốt với cụm của chính chúng.
● Gần 0: Các điểm nằm trên ranh giới của các cụm.
● Điểm âm: Các điểm có thể được gán cho các cụm sai. Trong bộ dữ liệu,
Silhouette dao động từ 0,130 cho 2 cụm đến 0,065 cho 4 cụm. Điểm cao nhất (0,130) dành
cho 2 cụm, cho biết hai cụm là sự tách biệt gắn kết nhất đối với bộ dữ liệu “German Credit
Data”, mặc dù điểm này tương đối thấp, cho thấy cụm yếu nói chung.
- Chạy lại (Re-runs)

26

Thiết lập thuật toán chạy lại 10 lần để đảm bảo rằng có thể có được cụm tốt nhất
có thể. Kết quả được trình bày là kết quả tốt nhất từ lần chạy này.
- Số lần lặp tối đa (Maximum Iterations)
Số lần lặp tối đa được thiết lập là 300, nghĩa là thuật toán được phép tinh chỉnh vị
trí cụm lên đến 300 lần. Thông thường, k-Means hội tụ tốt trước thời điểm này, nhưng số
lần lặp cao đảm bảo rằng thuật toán có đủ chỗ để tinh chỉnh các cụm mà không dừng sớm.
- Chi tiết
Với điểm số Silhouette là 0,130, dữ liệu được chia thành 2 cụm một cách tự nhiên
nhất. Mặc dù điểm số không cao, nhưng nó vẫn cho thấy rằng tập dữ liệu được cấu trúc tốt
hơn với 2 nhóm riêng biệt hơn là với nhiều cụm hơn.
Trong bối cảnh của Dữ liệu tín dụng Đức, điều này chỉ ra 2 loại: rủi ro tín dụng
cao (xấu) và rủi ro tín dụng thấp (tốt). Tuy nhiên, kết quả cụm là một trình không giám
sát, ý nghĩa thực tế của các cụm cần được xác thực bằng cách so sánh chúng với các nhãn
đã biết.
- Số lượng cụm cao hơn
Đối với các cụm lớn hơn 2, điểm số Silhouette bắt đầu giảm. Ví dụ, 3 cụm có điểm
là 0,093 và 10 cụm cho điểm 0,070. Điều này cho thấy việc chia dữ liệu thành nhiều cụm
hơn không tạo ra các nhóm được xác định rõ ràng. Hay nói cách khác, dữ liệu có thể không
có nhiều nhóm con riêng biệt được tách biệt có ý nghĩa và việc ép buộc nhiều cụm hơn có
thể chia dữ liệu theo những cách ít ý nghĩa hơn.
Việc lựa chọn 2 cụm có thể phản ánh cấu trúc cơ bản của dữ liệu tín dụng, có thể
tự nhiên phân tách các cá nhân thành các nhóm rủi ro cao và rủi ro thấp. Nếu dùng nhiều
cụm hơn, kết quả có thể khó hiểu hơn và có thể chia khách hàng thành các nhóm quá chi
tiết không mang lại ý nghĩa phân tích cụ thể.
- Nhãn tín dụng (Credit Labels)
Bộ dữ liệu chứa 1000 quan sát về dữ liệu tín dụng, có 700 trường hợp tín dụng
tốt “good” và 300 trường hợp tín dụng “xấu”.
- Sự mất cân bằng
Dữ liệu mất cân bằng, với phần lớn các quan sát (70%) được phân loại là tín dụng
tốt và 30% được phân loại tín dụng xấu. Sự mất cân bằng này rất quan trọng vì nó có thể
ảnh hưởng đến hiệu suất phân cụm và phân loại.

27


Pivot Table thể hiện sự bất cân xứng rõ ràng, với dữ liệu thuộc cụm rủi ro tín dụng
thấp là 70% và rủi ro tín dụng thấp là 30%. So sánh sự bất cân xứng và áp dụng Visualize
trong Orange giúp quan sát rõ hơn sự khác biệt rủi ro tín dụng tương ứng từng tệp khách
hàng khác nhau. Do đó, thuật toán K-means cho kết quả tốt nhất khi bộ dữ liệu được chia
thành 2 cụm như rủi ro tín dụng cao và rủi ro tín dụng thấp.
Để hiểu rõ hơn về hai cụm rủi ro tín dụng, cần phân tích các yếu tố đi kèm để thu
được kết quả trực quan hơn.
CHƯƠNG 4
KẾT QUẢ CÁC MÔ HÌNH
A. Kết quả bài toán phân lớp và dự báo
Thông qua việc áp dụng mô hình Logistic Regression vào dự báo cho tập dữ liệu
dubao_10% kết quả bài toán phân lớp bao gồm tổng 100 mẫu dữ liệu, với 27 khách hàng
có khả năng tín dụng xấu, còn lại 73 khách hàng có khả năng tín dụng tốt.
Hình 3.20: Kết quả Pivot Table bằng k-Means

28




Hình 4.1: Kết quả bài toán Phân lớp và Dự báo

B. Kết quả của mô hình phân cụm
So sánh 2 cụm tín dụng tốt và tín dụng xấu
Có thể thấy, tỷ lệ tín dụng tốt hơn gấp 2 lần tín dụng xấu.
Để có thể tìm ra đâu là các yếu tố tạo nên sự khác biệt giữa cơ cấu tín dụng tốt và
tín dụng xấu của 2 cụm, nhóm tiếp tục thực hiện phân tích và chọn lọc được các chỉ số, bao
gồm:
Tài sản

29


Hình 4.2: Tỷ lệ sở hữu tài sản của 2 nhóm tín dụng
Tỷ lệ sở hữu tài sản của 2 nhóm tín dụng tốt và xấu có sự khác biệt. Từ bảng trục
tài sản trên, nhóm tín dụng tốt thường sở hữu xe (23%) và các bất động sản (22,2%). Trong
khi ở nhóm tín dụng xấu, tỷ lệ sở hữu bất động sản và xe chỉ chiếm 6% và 10,2%. Với
khoản tiết kiệm và bảo hiểm nhân thọ, nhóm tín dụng tốt chiếm 16,1% trong khi ở nhóm
tín dụng xấu chỉ có 7,1%.
Quốc tịch

Hình 4.3: Kết quả bài toán Phân lớp và Dự báo
Từ bảng trục quốc tịch, nhóm tín dụng tốt có khác biệt lớn so với nhóm tín dụng
xấu. Cụ thể, nhóm công nhân nước ngoài có tỷ lệ tín dụng tốt cao (66,7%) trong khi ở nhóm
công nhân địa phương là 33%. Ngược lại, ở nhóm tín dụng xấu, công nhân nước ngoài
chiếm 29,6% trong khi công nhân địa phương là 4%.
Lịch sử tín dụng

30


Hình 4.4: Tỷ lệ lịch sử tín dụng giữa 2 nhóm
Từ bảng trục, theo lịch sử tín dụng, nhóm tín dụng tốt có khoản nợ tới hạn và thanh
toán đúng hạn chiếm tỷ trọng cao, lần lượt là 24,3% và 36,1%. Ở nhóm tín dụng xấu, 2 chỉ
số này chỉ chiếm 5% và 16,9%. Đối với khoản nợ quá hạn, nhóm tín dụng tốt chiếm 6%
trong khi nhóm tín dụng xấu chỉ chiếm 2,8%.
Kết quả
Qua phân tích 3 yếu tố điển hình có sự khác biệt lớn giữa 2 nhóm tín dụng tốt và
nhóm tín dụng xấu, 2 nhóm có một số đặc điểm sau:
Nhóm tín dụng tốt thường là những công nhân nước ngoài, thường có kinh nghiệm
chuyên môn cao hơn, sở hữu tài sản có giá trị cao (bất động sản, xe, khoản tiết kiệm và bảo
hiểm nhân thọ). Ngoài ra, nhóm này còn thường thanh toán các khoản nợ đúng hạn và tới
hạn.
Nhóm tín dụng xấu bao gồm những công nhân địa phương thường có khoản nợ đã
trả hoặc đang trả. Bên cạnh đó, việc không sở hữu tài sản có giá trị cao cũng cho thấy mức
độ rủi ro tín dụng lớn hơn.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Kết luận:
Nhóm tín dụng tốt thường là những người lao động nước ngoài có chuyên môn cao,
sở hữu tài sản giá trị và có thói quen thanh toán các khoản nợ đúng hạn, do đó, họ được coi
là ít rủi ro hơn trong các khoản vay tín dụng. Trong khi đó, nhóm tín dụng xấu chủ yếu là
người lao động địa phương với mức độ sở hữu tài sản thấp, và việc đã hoặc đang có các
khoản nợ cho thấy họ có khả năng gặp khó khăn trong việc thanh toán các khoản vay mới,
tăng rủi ro tín dụng.

31

Giải pháp và hướng phát triển:
- Đánh giá rủi ro tín dụng và tăng cường kiểm soát: Cần xây dựng hệ thống đánh
giá tín dụng chặt chẽ hơn, đặc biệt là với nhóm được đánh giá tín dụng xấu. Việc phân tích
kỹ lưỡng lịch sử tín dụng, tài sản, và thói quen tài chính của cá nhân sẽ giúp hạn chế rủi ro
cho các tổ chức tài chính.
- Nâng cao khả năng tiếp cận tài chính cho nhóm tín dụng xấu: Các ngân hàng
và tổ chức tín dụng có thể thiết kế các gói vay phù hợp với nhu cầu và khả năng chi trả của
nhóm công nhân địa phương, kết hợp với chương trình hỗ trợ tư vấn quản lý tài chính cá
nhân.
- Đẩy mạnh đào tạo và phát triển năng lực chuyên môn: Việc khuyến khích và hỗ
trợ các công nhân địa phương phát triển kỹ năng chuyên môn sẽ giúp họ tăng thu nhập và
cải thiện khả năng tín dụng, từ đó giảm bớt rủi ro vay nợ.
- Khuyến khích sở hữu tài sản có giá trị: Các chương trình khuyến khích tiết kiệm
và đầu tư vào bất động sản hoặc các tài sản khác có giá trị sẽ giúp nhóm công nhân địa
phương nâng cao khả năng tài chính, giảm rủi ro tín dụng trong tương lai.
LỜI CẢM ƠN
Với lòng biết ơn sâu sắc và tình cảm chân thành, chúng em xin phép gửi lời cảm
ơn chân thành nhất đến: thầy Hồ Văn Phúng - Giảng viên bộ môn Khoa Học Dữ Liệu. Thầy
đã giúp chúng em tích lũy thêm kiến thức, là có sở nền tảng để chúng em hoàn thành dự án
này. Cám ơn thầy đã luôn tận tình hướng dẫn, chỉ bảo chúng em cách thức để thực hiện dự
án, để chúng em thực hiện và hoàn thành dự án này. Đặc biệt nhờ sự hướng dẫn tận tình,
chúng em đã được tiếp cận với các phần mềm Excel và Orange… Chúng em tin chắc rằng,
đây sẽ là hành trang cho chúng em mau này. Một lần nữa, chúng em xin gửi lời cảm ơn
chân thành nhất đến thầy.
Có lẽ, với điều kiện thời gian và kinh nghiệm lần đầu dự án còn hạn chế, do đó
trong quá trình hoàn thành, chắc chắn không tránh khỏi những thiếu sót. Chúng em rất
mong nhận được những lời nhận xét và ý kiến đóng góp từ thầy Phúng để hoàn thiện dự án
tốt hơn và sẽ là kinh nghiệm cho chúng em trong những bài nghiên cứu sau này.
Chúng em xin cảm ơn thầy và kính chúc thầy sức khỏe, hạnh phúc và thành công
trên con đường sự nghiệp.
HẠN CHẾ
- Hạn chế của bộ dữ liệu: Bộ dữ liệu German Credit Data chỉ đại diện cho nhóm
công dân được thu thập dữ liệu ở Đức mà không phải tất cả công dân Đức. Điều này hạn
chế khả năng áp dụng kết quả phân tích ra ngoài phạm vi dữ liệu đã thu thập. Hơn nữa, bộ

32

dữ liệu được đưa ra từ năm 1994, nên có thể không cập nhật theo xu hướng tín dụng hiện
tại, làm giảm tính ứng dụng của kết quả phân tích trong bối cảnh hiện tại.
- Hạn chế của mô hình: Vẫn còn những sai sót không thể tránh khỏi trong quá
trình thực hiện phân tích và dự báo. Do đó, không thể dựa vào hoàn toàn kết quả từ mô hình
để đưa ra kết luận. Ngoài ra, dù đã ứng dụng các biện pháp phòng tránh, sử dụng các thông
tin quý giá từ khoa học dữ liệu nhưng rủi ro là điều khó tránh. Vì thế, cần có yếu tố quyết
định của con người trong việc triển khai các phương pháp đảm bảo an toàn và tuân thủ các
quy định.
- Hạn chế của con người: Sinh viên có thể không hiểu rõ về các giả định thống
kê của mô hình, dẫn đến việc áp dụng sai thuật toán hoặc không kiểm tra các điều kiện cần
thiết như phân phối của dữ liệu hoặc tính độc lập giữa các biến.

DANH MỤC HÌNH ẢNH
Chương 1: Giới thiệu về khoa học dữ liệu và đề tài
Hình 1.1: 5 biến có ý nghĩa lớn đối với bộ dữ liệu ............................................................... 8
Hình 1.2: Thống kê mô tả 5 biến có ý nghĩa lớn .................................................................. 8
Chương 3: Phân tích dữ liệu
Hình 3.1: Mô hình phân lớp dữ liệu ................................................................................... 14
Hình 3.2: Đường cong ROC với kết quả là bad ................................................................. 14
Hình 3.3: Đường cong ROC với kết quả là good ............................................................... 15
Hình 3.4: Kết quả đánh giá bằng Test and Score ............................................................... 16
Hình 3.5: Kết quả mô hình Logistic Regression đánh giá bằng Confusion Matrix ........... 16
Hình 3.6: Kết quả mô hình SVM đánh giá bằng Confusion Matrix .................................. 17
Hình 3.7: Kết quả mô hình Tree đánh giá bằng Confusion Matrix .................................... 17
Hình 3.8: Mô hình lấy mẫu dữ liệu .................................................................................... 19
Hình 3.9: Tập dữ liệu mẫu (Dubao_10%) .......................................................................... 19
Hình 3.10: Phân cụm theo Linkage Single ......................................................................... 20
Hình 3.11: Chỉ số SI theo Linkage Single .......................................................................... 20
Hình 3.12: Kết quả thu được từ Pivot Table ....................................................................... 21
Hình 3.13: Phân cụm theo Linkage Single ......................................................................... 21

33

Hình 3.14: Chỉ số SI theo Linkage Single .......................................................................... 21
Hình 3.15: Kết quả thu được từ Pivot Table ....................................................................... 22
Hình 3.16: Phân cụm theo Linkage Single ......................................................................... 22
Hình 3.17: Chỉ số SI theo Linkage Single .......................................................................... 23
Hình 3.18: Kết quả thu được từ Pivot Table ....................................................................... 23
Hình 3.19: Phân cụm bằng k-Means .................................................................................. 25
Hình 3.20: Kết quả Pivot Table bằng k-Means .................................................................. 27
Chương 4: Kết quả các mô hình
Hình 4.1: Kết quả bài toán Phân lớp và Dự báo ................................................................. 28
Hình 4.2: Tỷ lệ sở hữu tài sản của 2 nhóm tín dụng ........................................................... 29
Hình 4.3: Kết quả bài toán Phân lớp và Dự báo ................................................................. 29
Hình 4.4: Tỷ lệ lịch sử tín dụng giữa 2 nhóm ..................................................................... 30

DANH MỤC BẢNG BIỂU
Chương 1: Giới thiệu về khoa học dữ liệu và đề tài
Bảng 1.1: Phương pháp nghiên cứu ..................................................................................... 6
Bảng 1.2: Cấu trúc dữ liệu .................................................................................................... 7
Chương 3: Phân tích dữ liệu
Bảng 3.1: Kết quả đánh giá bởi Confusion Matrix ............................................................ 18

TÀI LIỆU THAM KHẢO
1. Phuong H. T. (n.d.). Ngành khoa học dữ liệu: Những điều bạn cần biết.
https://www.hotcourses.vn/study-abroad-info/study-guides/du-hoc-nganh-khoa-hoc-du-
lieu/
2. Staff, C. (2024, March 6). Data Science in Business Guide: Benefits, Uses, and
More. Coursera. https://www.coursera.org/articles/data-science-in-business
3. James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to
Statistical Learning. New York: Springer. https://www.statlearning.com/

34

4. Applied Logistic Regression, 3rd Edition. (n.d.). Wiley.com.
https://www.wiley.com/en-us/Applied+Logistic+Regression%2C+3rd+Edition-p-
9781118548387
Tags