chatbot_ đồ án tốt nghiệp đại học mở.pdf

ĐẠI HỌC ĐÀ NẴNG
TRƢỜNG ĐẠI HỌC BÁCH KHOA
---------------------------------------

NÔNG VĂN TÙNG

NGHIÊN CỨU XÂY DỰNG CHATBOT
HỖ TRỢ TƢ VẤN DU LỊCH QUẢNG BÌNH

Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 8480101

LUẬN VĂN THẠC SĨ

Ngƣời hƣớng dẫn khoa học: TS. TRẦN VĂN CƢỜNG

Đà Nẵng - Năm 2019

ii

LỜI CAM ĐOAN
Tôi xin cam đoan :
1 Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng
dẫn trực tiếp của thầy giáo TS. Trần Văn Cường.
2 Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác
giả, tên công trình, thời gian, địa điểm công bố.
3 Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi
xin chịu hoàn toàn trách nhiệm.
Tác giả luận văn

NÔNG VĂN TÙNG

iii

Lời cảm ơn
Tôi xin chân thành cám ơn quý Thầy, Cô trong khoa Công nghệ thông tin
Trường ĐH Bách khoa, Đại học Đà Nẵng và giảng viên trường ĐH Quảng Bình đã
trang bị cho tôi kiến thức nền tảng để có thể hoàn thành tốt luận văn này.
Cám ơn các bạn trong lớp đã chia sẻ các kinh nghiệm và đã hỗ trợ trong lúc
làm luận văn.
Đặc biệt em xin chân thành cảm ơn thầy giáo hướng dẫn TS. Trần Văn Cƣờng
đã hỗ trợ em trong lúc thực hiện luận văn này.
Mặc dù đă cố gắng hết khả năng nhưng không thể nào tránh khỏi những thiếu
sót. Rất mong nhận được sự góp quý báu của quý thầy cô để đề tài có thể hoàn chỉnh
hơn.

Học viên

NÔNG VĂN TÙNG

iv

MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................... ii
MỤC LỤC ...................................................................................................................... iv
TÓM TẮT LUẬN VĂN ............................................................................................... vii
DANH SÁCH CÁC HÌNH .......................................................................................... viii
DANH SÁCH CÁC BẢNG BIỂU .................................................................................. x
PHẦN I. MỞ ĐẦU .......................................................................................................... 1
1. Lý do chọn đề tài ..................................................................................................... 1
2. Mục tiêu và nhiệm vụ nghiên cứu ........................................................................... 2
3. Đối tƣợng và phạm vi nghiên cứu ........................................................................... 2
4. Phƣơng pháp nghiên cứu ......................................................................................... 3
5. Ý nghĩa khoa học và thực tiễn của đề tài ................................................................. 3
6. Bố cục luận văn:....................................................................................................... 4
PHẦN II. NỘI DUNG ..................................................................................................... 5
CHƢƠNG 1. TỔNG QUAN VỀ HỌC MÁY VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN . 5
1.1. PHƢƠNG PHÁP HỌC MÁY .............................................................................. 5
1.1.1. Trí tuệ nhân tạo .............................................................................................. 5
1.1.2. Học máy ......................................................................................................... 8
1.2. XỬ LÝ NGÔN NGỮ TỰ NHIÊN ..................................................................... 11
1.2.1. Tổng quan xử lý ngôn ngữ tự nhiên ............................................................. 11
1.2.2. Các bài toán cơ bản trong xử lý ngôn ngữ tự nhiên ..................................... 11
1.2.3. Ứng dụng của xử lý ngôn ngữ tự nhiên ....................................................... 12
1.3. CÁC PHƢƠNG PHÁP BIỂU DIỄN VĂN BẢN ............................................... 14
1.3.1. Mô hình biểu diễn văn bản truyền thống ..................................................... 14
1.3.2. Mô hình đồ thị biểu diễn văn bản ................................................................ 17
1.3.3. Mô hình Word2vec văn bản (vector hóa từ) ................................................ 20
1.3.4. Mô hình Doc2vec (vector hóa văn bản) ....................................................... 21

v

1.4. TÍNH ĐỘ TƢƠNG ĐỒNG VĂN ....................................................................... 23
1.4.1. Khái niệm độ tƣơng đồng ............................................................................ 23
1.4.2. Độ tƣơng đồng văn bản dựa trên tập từ chung ............................................. 23
1.4.3. Độ tƣơng đồng văn bản dựa trên vector biểu diễn ....................................... 24
1.4.4. Độ tƣơng đồng văn bản trong tiếng Việt ..................................................... 26
1.5. CÁC PHƢƠNG PHÁP PHÂN LOẠI VĂN BẢN ............................................. 30
1.5.1. Phƣơng pháp Naive Bayes ........................................................................... 30
1.5.2. Phƣơng pháp k–Nearest Neighbor(KNN) .................................................... 31
1.5.3. Phƣơng pháp cây quyết định ........................................................................ 32
1.5.4. Phƣơng pháp mạng Nơron nhân tạo ............................................................ 33
1.5.5. Phƣơng pháp Support Vector Machines (SVM) .......................................... 35
1.6. CHATBOT .......................................................................................................... 37
1.6.1. Khái niệm ..................................................................................................... 37
1.6.2. Hoạt động của chatbot .................................................................................. 38
1.6.3. Sự phát triển của chatbot .............................................................................. 38
1.6.4. Các lĩnh vực ứng dụng của chatbot .............................................................. 39
CHƢƠNG 2. PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG CHATBOT ........................ 40
2.1. CÁC MÔ HÌNH CHATBOT .............................................................................. 40
2.2. PHÂN LOẠI CHATBOT ................................................................................... 41
2.2.1. Flow-oriented chatbot .................................................................................. 41
2.2.2. Chatbot thông minh nhân tạo (Artificially intelligent chatbot) ................... 41
2.2.3. Chatbot lai (Hybrid chatbot) ........................................................................ 42
2.2.4. Chatbot đƣợc hỗ trợ bởi con ngƣời .............................................................. 43
2.3. CÁC PHƢƠNG PHÁP XÂY DỰNG CHATBOT ............................................. 43
2.3.1. So sánh trùng khớp mẫu câu (Pattern matchers) .......................................... 43
2.3.2. Sử dụng thuật toán phân lớp (Classification algorithms) ............................ 44
2.3.3. Mạng nơron nhân tạo (Artificial Neural Network - ANN) .......................... 44

vi

2.3.4. Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) ................ 44
2.3.5. Hiểu ngôn ngữ tự nhiên (Natural Language Understanding - NLU) ........... 45
2.4. CÁC VẤN ĐỀ CƠ BẢN KHI PHÁT TRIỂN HỆ THỐNG CHATBOT .......... 46
2.4.1. Xác định ý định ngƣời dùng ......................................................................... 47
2.4.2. Trích xuất thông tin ...................................................................................... 49
2.4.3. Quản lý hội thoại .......................................................................................... 50
2.5. CÔNG CỤ TẠO CHATBOT ............................................................................. 52
2.5.1. Nền tảng tạo chatbot .................................................................................... 52
2.5.2. Xây dựng chatbot dựa trên nền tảng mã nguồn mở RaSa............................ 52
CHƢƠNG 3. CÀI ĐẶT THỰC NGHIỆM HỆ THỐNG CHATBOT HỖ TRỢ TƢ
VẤN DU LỊCH QUẢNG BÌNH ................................................................................... 57
3.1. BÀI TOÁN TƢ VẤN DU LỊCH ........................................................................ 57
3.2. PHÂN TÍCH NHU CẦU TƢ VẤN DU LỊCH ................................................... 59
3.3. DỮ LIỆU THỰC NGHIỆM ............................................................................... 61
3.4. MÔ HÌNH HỆ THỐNG ...................................................................................... 63
3.5. CÀI ĐẶT THỰC NGHIỆM ............................................................................... 64
3.5.1. Một số yêu cầu về hệ thống ......................................................................... 64
3.5.2. Ngôn ngữ sử dụng ........................................................................................ 65
3.5.3. Xây dựng tập dữ liệu huấn luyện và kịch bản hội thoại .............................. 66
3.5.4. Xây dựng các Action:................................................................................... 69
3.6. KẾT QUẢ THỰC NGHIỆM .............................................................................. 71
3.7. PHÂN TÍCH VÀ ĐÁNH GIÁ KẾT QUẢ ......................................................... 74
PHẦN III. KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ................................................... 77
1. Kết luận .................................................................................................................. 77
2. Hƣớng phát triển .................................................................................................... 77
TÀI LIỆU THAM KHẢO ............................................................................................. 79

vii

TÓM TẮT LUẬN VĂN
NGHIÊN CỨU XÂY DỰNG CHATBOT
HỖ TRỢ TƢ VẤN DU LỊCH QUẢNG BÌNH
Học viên: Nông Văn Tùng Chuyên ngành: Khoa học máy tính
Mã số: 8480101 Khóa: K35 Trƣờng Đại học Bách khoa – ĐHĐN
Tóm tắt: Ngày nay chatbot có thể đƣợc ứng dụng rất nhiều trong các lĩnh vực của
đời sống xã hội. Nghiên cứu xây dựng chatbot dựa trên mã nguồn mở là một hƣớng
nghiên cứu nhận đƣợc nhiều sự quan tâm hiện nay. Trong luận văn này, tôi trình bày cơ
sở lý thuyết học máy, xử lý ngôn ngữ tự nhiên, các phƣơng pháp tạo chatbot. Từ đó đề
xuất mô hình hệ thống chatbot hỗ trợ tƣ vấn du lịch. Quá trình xây dựng hệ thống
chatbot bao gồm các bƣớc sau: (1) Thu thập dữ liệu; (2) Xác định ngôn ngữ sử dụng; (3)
Xây dựng tập dữ liệu huấn luyện; (4) Kịch bản hộp thoại; (5) Xây dựng Action
Kết quả thực nghiệm trên bộ dữ liệu đã đƣợc xây dựng cho thấy giải pháp đề xuất
xây dựng chatbot mang lại hiệu quả trong việc tƣ vấn cho khách du lịch.
Từ khóa: Xử lý ngôn ngữ tự nhiên, biểu diễn văn bản, độ tƣơng đồng văn bản,
công nghệ chatbot, chatbot
RESEARCH CONSTRUCTION OF CHATBOT QUANG BINH
TOURIST CONSULTANT SUPPORT
Student: Nong Van Tung Major: Computer Science
Code: 8480101 Course: K35 Polytechnic University – Da Nang University
Abstract: Today chatbot can be applied a lot in the areas of social life.
Researching to build chatbot based on open source is a research direction that has
received much attention now. In this dissertation, I present the theory of machine
learning theory, natural language processing, methods and chatbot technology. Since
then propose a model of chatbot system to support tourism consultancy. The process of
building chatbot system includes the following steps: (1) Data collection; (2) Determine
the language used; (3) Develop training data set; (4) Script dialog; (5) Building Action
Experimental results on the data set have been developed, showing that the
proposed solution for building chatbot is effective in advising tourists.
Keywords: Natural language processing, Text representation, Text similarity,
Chatbot technology, chatbot.

viii

DANH SÁCH CÁC HÌNH
Hình 1.1. Bộ dữ liệu chữ viết tay [22] ............................................................................. 9
Hình 1.2. Mô hình vector biểu diễn văn bản [3] ........................................................... 15
Hình 1.3. Ví dụ mô hình đồ thị khái niệm ..................................................................... 18
Hình 1.4. Ví dụ mô hình đồ thị hình sao [3] ................................................................. 19
Hình 1.5. Ví dụ về mô hình đồ thị có hƣớng, không gán nhãn ..................................... 20
Hình 1.6. Ví dụ mô hình đồ thị n khoảng cách đơn giản [3] ......................................... 20
Hình 1.7. Mô hình Cbow và Skip-gram [31] ................................................................ 21
Hình 1.8. Mô hình túi từ phân tán của vectơ đoạn [4] .................................................. 22
Hình 1.9. Mô hình bộ nhớ phân tán [4] ......................................................................... 22
Hình 1.10. Mô hình bộ nhớ phân tán cho việc học vector đoạn[35] ............................. 23
Hình 1.11. Ví dụ về cây quyết định [15] ....................................................................... 33
Hình 1.12. Sơ đồ đơn giản mạng Nơron nhân tạo [2] ................................................... 34
Hình 1.13. Sơ đồ đồ thị có hƣớng đơn giản [2] ............................................................. 35
Hình 1.14. Siêu mặt phẳng h phân chia dữ liệu huấn huyện thành 2 lớp + và - với
khoảng cách biên lớn nhất [10]. .................................................................................... 36
Hình 1.15. Xử lý hội thoại giữa chatbot và con ngƣời .................................................. 38
Hình 1.16. Hoạt động của chatbot ................................................................................. 38
Hình 2.1. Đoạn hội thoại của một chatbot trí tuệ nhân tạo [8] ...................................... 42
Hình 2.2. Chatbot tự động trả lời câu hỏi của khách hàng [28] .................................... 43
Hình 2.3. Cấu trúc cơ bản của một chatbot sử dụng NLP và công nghệ Machine
learning [19] .................................................................................................................. 45
Hình 2.4. Hệ thống chatbot sử sử dụng phƣơng pháp NLU [17] .................................. 46
Hình 2.5. Kiến trúc của hệ thống phân lớp ý định [23] ................................................. 48
Hình 2.6. Minh hoạ quản lý hội thoại theo mô hình máy trạng thái hữu hạn FSA [24]51
Hình 2.7. Xây dựng tập dữ liệu huấn luyện .................................................................. 55
Hình 3.1. Phần mềm chatbot ......................................................................................... 59

ix

Hình 3.2. Chatbot hỗ trợ tƣ vấn thông tin du lịch ......................................................... 60
Hình 3.3. Mô hình hệ thống chatbot .............................................................................. 63
Hình 3.4. Máy ảo Vultr.com dùng để cài đặt chatbot ................................................... 64
Hình 3.5. Các bƣớc thực hiện của giải thuật ................................................................. 66
Hình 3.6. Đặt phòng thông qua chatbot ......................................................................... 72
Hình 3.7. Hỏi tìm thông tin nhà hàng ............................................................................ 73
Hình 3.8. Hỏi tìm thông tin nhà hàng có chỉnh sửa ....................................................... 73
Hình 3.9. Chatbot trích xuất thông tin về số ngƣời phụ thuộc nhiều vào dữ liệu huấn
luyện NLU ..................................................................................................................... 74
Hình 3.10. Dữ liệu Tiếng Việt không dấu chƣa có kết quả nhƣ mong muốn ............... 76

x

DANH SÁCH CÁC BẢNG BIỂU
Bảng 1.1. Biểu diễn văn bản trong mô hình logic ......................................................... 14

xi

DANH SÁCH CÁC CH Ữ VIẾT TẮT

AI Artificial Intelligence
ML Machine Learning
NLG Natural Language Generation
NLU Natural Language Understanding
NPL Natural Language Processing
SVM Support Vector Machine

1

PHẦN I. MỞ ĐẦU
1. Lý do chọn đề tài
Chatbot là một chƣơng trình máy tính hoặc trí thông minh nhân tạo tƣơng tác
với con ngƣời bằng ngôn ngữ tự nhiên, thực hiện cuộc trò chuyện thông qua một giao
diện dƣới dạng tin nhắn hoặc âm thanh. Thuật ngữ “ChatterBot” ban đầu đƣợc đặt bởi
Michael Mauldin đầu tiên vào năm 1994. Chatbots còn đƣợc gọi là Conversational
Agents hay Dialog Systems. Các chatbots đƣợc thiết kế một cách thuyết phục con
ngƣời cƣ xử nhƣ một đối tác đàm thoại. Theo cách tƣơng tác mà chúng tƣơng tác với
ngƣời dùng, các chatbots thƣờng đƣợc chia thành hai loại: âm thanh và tin nhắn. Các
chatbots đƣợc thiết kế phức tạp dựa trên nền tảng xử lý ngôn ngữ tự nhiên, nhƣng cũng
có nhiều hệ thống khác đơn giản hơn bằng cách quét từ khóa trong đầu vào, sau đó trả
lời với từ khóa phù hợp nhất hoặc mẫu từ ngữ tƣơng tự nhất trong cơ sở dữ liệu.
Hiện nay phần lớn các chatbot đều thực hiện truy cập thông qua các trợ lý ảo
nhƣ trợ lý Google và Amazon Alexa, dƣới ứng dụng tin nhắn nhƣ Facebook
Messenger, WeChat hoặc thông qua các ứng dụng và trang web của các tổ chức riêng
lẻ. Sự phát triển của trí tuệ nhân tạo tạo điều kiện để chatbot phát triển nhanh chóng và
tạo ra một hệ sinh thái chatbot tƣơng tự hệ sinh thái ứng dụng. Chatbot đƣợc sử dụng
trong rất nhiều công việc nhƣ trong việc chăm sóc khách hàng (cung cấp thông tin sản
phẩm, đƣa ra các thông tin gợi ý…), quản lý hàng tồn, sắp xếp lịch, tra cứu dữ liệu y
tế, chăm sóc sức khỏe. Chatbot giúp tối ƣu hóa năng suất, giảm thiểu chi phí thông qua
chăm sóc khách hàng, chăm sóc sức khỏe, đời sống con ngƣời. Chatbot có lợi thế để
dễ dàng sử dụng bất cứ ngành nghề nào.
Du lịch là một trong những ngành kinh tế quan trọng, là một ngành kinh tế
tổng hợp có tính liên ngành, liên vùng và xã hội hóa cao. Du lịch không những có
khả năng tạo ra nguồn thu nhập rất lớn cho xã hội mà còn góp phần thực hiện
chính sách mở cửa, giao lƣu văn hóa, thúc đẩy sự đổi mới và phát triển nhiều
ngành kinh tế khác, đồng thời giải quyết nhiều vấn đề mang tính chất xã hội.
Quảng Bình, vùng đất đƣợc thiên nhiên ƣu ái ban tặng nhiều tài nguyên quý, độc
đáo để phục vụ cho việc phát triển một ngành du lịch với nhiều loại sản phẩm du
lịch, hình thức du lịch phong phú và đa dạng. Quảng Bình đã xác định “Du lịch là
một ngành kinh tế mũi nhọn của tỉnh”. Quảng Bình là vùng đất giàu tiềm năng, lợi
thế để phát triển du lịch, tuy nhiên du lịch Quảng Bình chƣa phát triển tƣơng xứng
với tiềm năng vốn có. Làm thế nào để du lịch Quảng Bình phát triển đi lên ngày
một nhanh và mạnh mẽ, thu hút đƣợc lƣợng khách du lịch đến thăm quan nhiều

2

hơn, nâng cao sức cạnh tranh, nâng cao vị thế du lịch Quảng Bình là một vấn đề
quan trọng và cấp thiết cần đƣợc đặt ra hiện nay.
Hiện nay, khách du lịch có thể tìm hiểu thông tin về các địa điểm, dịch vụ
du lịch ở Quảng Bình thông qua các công cụ tìm kiếm thông tin trên internet và
thông tin từ các công ty du lịch. Tuy nhiên những thông tin hữu ích và thiết thực
với du khách còn hạn chế, du khách phải mất rất nhiều thời gian trong việc tìm
hiểu thông tin.
Với mong muốn tạo một chatbot có khả năng hỗ trợ tƣ vấn thông tin du lịch
ở Quảng Bình để góp phần thu hút khách du lịch, nâng cao chất lƣợng du lịch tại
Quảng Bình, tôi đề xuất đề tài “Nghiên cứu xây dựng chatbot hỗ trợ tư vấn du
lịch Quảng Bình” làm đề tài luận văn của mình.
2. Mục tiêu và nhiệm vụ nghiên cứu
a. Mục tiêu
- Tìm hiểu về học máy, các thuật toán trong xử lý ngôn ngữ tự nhiên áp
dụng trong xây dựng chatbot nhằm nâng cao hiệu quả, độ chính xác của
chatbot.
- Xây dựng ngữ cảnh chatbot về du lịch Quảng Bình dựa trên các đặc trƣng
dữ liệu về du lịch Quảng Bình.
- Ứng dụng mã nguồn mở Rasa để xây dựng thử nghiệm hệ thống chatbot hỗ
trợ tƣ vấn cho khách du lịch tới Quảng Bình.
b. Nhiệm vụ nghiên cứu
- Tìm hiểu lý thuyết máy học và các thuật toán liên quan đến chatbot.
- Tìm hiểu các phƣơng pháp xử lý ngôn ngữ tự nhiên với ngôn ngữ Tiếng
Việt.
- Tìm hiểu các phƣơng pháp tính toán độ tƣơng tự của văn bản.
- Tìm hiểu công nghệ và kỹ thuật thiết kế chatbot.
3. Đối tƣợng và phạm vi nghiên cứu
a. Đối tƣợng nghiên cứu
- Lý thuyết máy học, các thuật toán, phƣơng pháp xử lý ngôn ngữ tự nhiên
với ngôn ngữ Tiếng Việt.
- Mã nguồn mở Rasa và kỹ thuật xây dựng chatbot.

3

- Dữ liệu về du lịch Quảng Bình.
b. Phạm vi nghiên cứu
- Nghiên cứu dữ liệu Tiếng Việt dùng trong du lịch và ngôn ngữ hội thoại sử
dụng cho xây dựng chatbot.
- Xây dựng và thực nghiệm hệ thống mô phỏng trợ lý ảo có trí tuệ nhân tạo,
hiểu và có thể trả lời những câu hỏi về thông tin du lịch Quảng Bình.
4. Phƣơng pháp nghiên cứu
a. Nghiên cứu lý thuyết
- Lý thuyết về học máy, các phƣơng pháp biễu diễn văn bản và đối sánh văn
bản.
- Tổng hợp và nghiên cứu các tài liệu liên quan đến chatbot, các thuật toán
tối ƣu dùng trong chatbot.
- Thu thập, thống kê số liệu từ nguồn dữ liệu về du lịch Quảng Bình.
- Xây dựng kịch bản cho chatbot du lịch Quảng Bình.
b. Nghiên cứu thực nghiệm
Cài đặt thực nghiệm chatbot trên tập dữ liệu về du lịch Quảng Bình và phân
tích, đánh giá kết quả.
5. Ý nghĩa khoa học và thực tiễn của đề tài
a. Về mặt lý thuyết
- Thực nghiệm các giả thuyết về các kỹ thuật xử lý ngôn ngữ tự nhiên, kỹ
thuật tính toán độ tƣơng đồng về mặt ngữ nghĩa trong văn bản Tiếng
Việt… giúp chatbot hiểu đƣợc câu đàm thoại khi giao tiếp với con ngƣời.
- Thực nghiệm các kỹ thuật học máy, khai phá dữ liệu trong huấn luyện và
trang bị khả năng tự học của chatbot.
b. Về mặt thực tiễn
- Khách du lịch giao tiếp với hệ thống chatbot hoạt động tự động trên nền
tảng trí tuệ nhân tạo, từng bƣớc đƣa Việt Nam bắt kịp và hội nhập theo xu
hƣớng phát triển của công nghiệp 4.0.
- Tăng lƣợng du khách đến với Quảng Bình, nâng cao chất lƣợng chăm sóc
khách du lịch.

4

6. Bố cục luận văn:
Nội dung luận văn đƣợc trình bày với các phần chính nhƣ sau:
Phần I. Mở đầu
Phần II. Nội dung luận văn
Chƣơng 1. Tổng quan về học máy và xử lý ngôn ngữ tự nhiên
Chương này sẽ trình bày tổng quan về học máy và xử lý ngôn ngữ tự nhiên, các
phương pháp biểu diễn văn bản, tính độ tương đồng văn bản, các phương pháp
phân loại văn bản, chatbot.
Chƣơng 2 . Phân tích và thiết kế chatbot hệ thống chatbot
Nội dung chương 2 sẽ trình bày về mô hình chatbot, phân loại chatbot, các
phương pháp xây dựng chatbot, các vấn đề cơ bản khi triển khai xây dựng hệ
thống chatbot, xây dựng chatbot trên nền tảng Rasa.
Chƣơng 3. Cài đặt thực nghiệm hệ thống chatbot hỗ trợ tƣ vấn du lịch
Quảng bình
Trong chương này mô tả bài toán sử dụng chatbot hỗ trợ tư vấn, phân tích nhu
cầu tư vấn, xây dựng dữ liệu thực nghiệm, đề xuất mô hình hệ thống, cài đặt
thực nghiệm, phân tích và đánh giá kết quả thực nghiệm
Phần III. Kết luận và hƣớng phát triển

5

PHẦN II. NỘI DUNG
CHƢƠNG 1. TỔNG QUAN VỀ HỌC MÁY
VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN
1.1. PHƢƠNG PHÁP HỌC MÁY
1.1.1. Trí tuệ nhân tạo
1.1.1.1. Định nghĩa
Trí tuệ nhân tạo (Artificial Intelligence - AI) là lĩnh vực chuyên nghiên cứu và
phát triển các hệ thống (phần mềm và phần cứng) nhằm giải quyết các bài toán giống
nhƣ cách thức giải quyết của con ngƣời trong một ngữ cảnh nào đó. Trí tuệ nhân tạo là
một ngành khoa học máy tính, đƣợc xây dựng trên một nền tảng lý thuyết chắc chắn và
có thể ứng dụng việc tự động hóa các hành vi thông minh của máy tính; giúp máy tính
có đƣợc những trí tuệ của con ngƣời nhƣ: biết suy nghĩ và lập luận để giải quyết vấn
đề, biết giao tiếp do hiểu ngôn ngữ, biết nói, biết học và tự thích nghi [13].
1.1.1.2. Quá trình hình thành và phát triển
“Liệu máy tính có khả năng suy nghĩ hay không?” đây là vấn đề đƣợc bác học
ngƣời Anh Alan Turing đƣa ra xem xét, ý tƣởng xây dựng một chƣơng trình AI xuất
hiện lần đầu vào tháng 10/1950. Thực hiện câu trả lời câu hỏi này, ông đã đƣa ra khái
niệm “phép thử bắt chƣớc” mà sau này ngƣời ta gọi là “phép thử Turing”. Phép thử
đƣợc thực hiện dƣới dạng một trò chơi. Trong đó, có ba đối tƣợng tham gia trò chơi
(gồm hai ngƣời và một máy tính). Một ngƣời (ngƣời thẩm vấn) ngồi trong một phòng
kín tách biệt với hai đối tƣợng còn lại. Ngƣời này đặt các câu hỏi và nhận các câu trả
lời từ ngƣời kia (ngƣời trả lời thẩm vấn) và từ máy tính. Cuối cùng, nếu ngƣời thẩm
vấn không phân biệt đƣợc câu trả lời nào là của ngƣời, câu trả lời nào là của máy tính
thì lúc đó có thể nói máy tính đã có khả năng “suy nghĩ” giống nhƣ ngƣời [32].
Tại hội nghị do Marvin Minsky và John McCarthy tổ chức với sự tham dự của
vài chục nhà khoa học tại trƣờng Dartmouth (Mỹ) vào năm 1956, tên gọi “Artificial
Intelligence” đƣợc công nhận chính thức và đƣợc dùng cho đến ngày nay. Cũng tại
đây, bộ môn nghiên cứu trí tuệ nhân tạo đầu tiên đã đƣợc thành lập.
Những năm sau đó, các nhà khoa học nhƣ John McArthy, Marvin Minsky,
Allen Newell và Herbert Simon cùng với những cộng sự đã viết nên những chƣơng
trình máy tính giải đƣợc những bài toán đại số, chứng minh các định lý và nói đƣợc

6

tiếng Anh [32]. Những thập niên tiếp theo một số nghiên cứu đã chứng minh không
thể vƣợt qua với các công nghệ tại thời điểm đó.
Đến thập kỷ 60, 70 Joel Moses viết chƣơng trình toán học Macsyma sử dụng cơ
sở tri thức đầu tiên thành công. Marvin Minsky và Seymour Papert đƣa ra các chứng
minh đầu tiên về giới hạn của các mạng nơron đơn giản.
Vào đầu những năm 1980, những nghiên cứu thành công liên quan đến AI nhƣ
các hệ chuyên gia (expert systems) - một dạng của chƣơng trình AI mô phỏng tri thức
và các kỹ năng phân tích của một hoặc nhiều chuyên gia con ngƣời. Đến những năm
1990 và đầu thế kỷ 21, AI đã đạt đƣợc những thành tựu to lớn nhất, AI đƣợc áp dụng
trong logic, khai phá dữ liệu, chẩn đoán y học và nhiều lĩnh vực ứng dụng khác trong
công nghiệp
Hiện nay, khoa học công nghệ phát triển mạnh mẽ, cùng những bộ dữ liệu
phong phú, các công cụ phát triển phần mềm miễn phí hoặc giá rẻ đã hỗ trợ rất nhiều
cho các nhà nghiên cứu. Từ đó đã thúc đẩy sự phát triển các nghiên cứu về trí tuệ nhân
tạo, giúp cho AI thu hút đông đảo các ông lớn nhƣ: Facebook, Google, Microsoft...
tham gia nghiên cứu, phát triển sản phẩm và mở ra kỷ nguyên mới cho trí tuệ nhân tạo.
1.1.1.3. Một số ứng dụng
Ngày nay, trí tuệ nhân tạo đƣợc ứng dụng theo hai hƣớng: Thiết kế những máy
tính thông minh độc lập với cách suy nghĩ của con ngƣời và dùng máy tính để bắt
chƣớc quá trình xử lý của con ngƣời, một số ứng dụng cơ bản nhƣ sau:
Nhận dạng chữ viết: Nhận dạng chữ viết ứng dụng trong lĩnh vực nhận dạng
chữ in hoặc chữ viết tay và lƣu thành văn bản điện tử. Ở Việt Nam, phần mềm
VnDOCR do Phòng Nhận dạng & Công nghệ tri thức, Viện Công nghệ Thông tin xây
dựng có thể nhận dạng trực tiếp tài liệu bằng cách quét thông qua máy scanner thành
các tệp ảnh, chuyển đổi thành các tệp có định dạng *.doc, *.xls, *.txt, *.rtf, giúp ngƣời
sử dụng không phải gõ lại tài liệu vào máy. Tƣơng tự với phần mềm nhận dạng chữ
viết trong thƣ viện, ngƣời ta cũng có thể dễ dàng chuyển hàng ngàn đầu sách thành văn
bản điện tử một cách nhanh chóng [33].
Nhận dạng tiếng nói: Nhận dạng tiếng nói đóng vai trò quan trọng trong giao
tiếp giữa ngƣời và máy. Nó giúp máy móc hiểu và thực hiện các hiệu lệnh của con
ngƣời. Một ứng dụng trong lĩnh vực này là hãng sản xuất xe hơi BMW (Đức) đang
tiến hành phát triển một công nghệ mới cho phép các tài xế có thể soạn email, tin nhắn
bằng giọng nói trong khi đang lái xe [33].

7

Dịch tự động: Dịch tự động là công việc thực hiện dịch một ngôn ngữ sang một
hoặc nhiều ngôn ngữ khác, không có sự can thiệp của con ngƣời trong quá trình dịch.
Tuy nhiên, để làm cho máy hiểu đƣợc ngôn ngữ là một trong những vấn đề khó nhất
của trí tuệ nhân tạo. Thí dụ câu: “bà già đi nhanh quá” cũng có nhiều cách hiểu khác
nhau: với cách phân tách từ và cụm từ thành bà già/đi/nhanh quá và bà/già đi/nhanh
quá... thì việc dịch câu kiểu nhƣ thế này từ tiếng Việt sang tiếng Anh đòi hỏi máy
không những phải hiểu đúng nghĩa câu tiếng Việt mà còn phải tạo ra đƣợc câu tiếng
Anh tƣơng ứng. Do đó đây vẫn là ứng dụng phức tạp.
Tìm kiếm thông tin: Thông tin trên mạng hàng ngày đƣợc gia tăng theo cấp số
nhân. Việc tìm kiếm thông tin mà ngƣời dùng quan tâm bây giờ là tìm đúng thông tin
mình cần và phải đáng tin cậy. Theo thống kê, có đến hơn 90% số lƣợng ngƣời Việt
Nam lên mạng internet để thực hiện việc tìm kiếm thông tin. Các máy tìm kiếm
(search engine) hiện nay chủ yếu thực hiện tìm kiếm dựa theo từ khóa. Thí dụ, Google
hay Yahoo chỉ phân tích nội dung một cách đơn giản dựa trên tần suất của từ khoá, thứ
hạng của trang và một số tiêu chí đánh giá khác. Kết quả là rất nhiều tìm kiếm không
nhận đƣợc câu trả lời phù hợp, thậm chí bị dẫn tới một liên kết không liên quan gì do
thủ thuật đánh lừa nhằm giới thiệu sản phẩm hoặc lại nhận đƣợc quá nhiều tài liệu
không phải thứ ta mong muốn, trong khi đó lại không tìm ra tài liệu cần tìm [33].
Khai phá dữ liệu và phát hiện tri thức: Đây là lĩnh vực cho phép xử lý từ rất
nhiều dữ liệu khác nhau để phát hiện ra tri thức mới. Ngoài ra, ứng dụng trong lĩnh
vực này cũng cần phải biết trả lời câu hỏi của ngƣời sử dụng chúng từ việc tổng hợp
dữ liệu thay vì máy móc chỉ đáp trả những gì có sẵn trong bộ nhớ. Thực tế để làm
đƣợc điều này rất khó, nó gần nhƣ là mô phỏng quá trình học tập, khám phá khoa học
của con ngƣời. Ngoài ra, dữ liệu thƣờng có số lƣợng rất lớn, với nhiều kiểu (số, văn
bản, hình ảnh, âm thanh, video...) và không ngừng thay đổi. Để tìm ra tri thức thì các
chƣơng trình phải đối mặt với vấn đề độ phức tạp tính toán. Đây là lĩnh vực vẫn còn
đang trong giai đoạn đầu phát triển [33].
Lái xe tự động: Theo Sebastian Thrun, Giáo sƣ ngành máy tính và kỹ thuật điện
của Đại học Carnegie Mellon: ƣu điểm lớn nhất của xe tự lái là khả năng loại bỏ sai
sót của con ngƣời - nguyên nhân dẫn đến 95% số vụ tử vong mỗi năm tại Mỹ do tai
nạn giao thông. “Chúng tôi có thể giảm bớt 50% số vụ tai nạn do nguyên nhân này”,
ông Sebastian Thrun khẳng định. Chế tạo đƣợc ôtô tự lái và an toàn cao cũng là một
mục tiêu đƣợc Cục nghiên cứu các dự án công nghệ cao Bộ quốc phòng Mỹ DARPA
(Defense Advanced Research Projects Agency) khởi xƣớng và hỗ trợ dƣới dạng một
cuộc thi mang tên “thách thức lớn của DARPA” (DARPA grand challenge). Chúng ta

8

hy vọng sẽ đến một ngày, những chiếc ôtô chạy trên đƣờng không cần ngƣời lái. Chỉ
nói nơi muốn đến, xe sẽ đƣa ta đi và đi an toàn [33].
Robot: Nhiều đề án nghiên cứu về robot thông minh và các lĩnh vực liên quan
đƣợc ứng dụng trong đời sống. Các đề án này hƣớng đến các sáng tạo công nghệ có
nhiều ý nghĩa trong văn hóa, xã hội và công nghiệp, đòi hỏi phải tích hợp nhiều công
nghệ, nhƣ nguyên lý các tác tử, biểu diễn tri thức về không gian, nhận biết chiến lƣợc,
lập luận thời gian thực, nhận dạng và xử lý các chuỗi hình ảnh liên tục trong thời gian
thực... Một trong những ứng dụng đó là đề án RoboCup: tổ chức thi đấu bóng đá giữa
các đội robot.
1.1.2. Học máy
1.1.2.1. Các phương pháp học máy
Học máy (Machine learning) là một lĩnh vực của trí tuệ nhân tạo liên quan đến
việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống "học" tự động từ dữ
liệu để giải quyết những vấn đề cụ thể. Ví dụ nhƣ các máy có thể "học" cách phân loại
thƣ điện tử xem có phải thƣ rác (spam) hay không và tự động xếp thƣ vào thƣ mục
tƣơng ứng. Học máy rất gần với suy diễn thống kê (statistical inference) tuy có khác
nhau về thuật ngữ [25].
Hiện nay có hai cách phổ biến để phân nhóm các thuật toán học máy. Đó là dựa
trên phƣơng thức học (learning style) và dựa trên chức năng (function) của mỗi thuật
toán [22]. Các thuật toán học máy theo phƣơng thức học đƣợc chia làm 4 nhóm: Học
có giám sát, học không giám sát, học bán giám sát, học củng cố.
- Học có giám sát (Supervised Learning): Là thuật toán dự đoán đầu ra (outcome)
của một dữ liệu mới (new input) dựa trên các cặp (input, outcome) đã biết từ trƣớc.
Cặp dữ liệu này còn đƣợc gọi là (dữ liệu, nhãn). Học có giám sát là nhóm phổ biến
nhất trong các thuật toán học máy. Phát biểu dƣới dạng toán học, học giám sát là khi
chúng ta có một tập hợp biến đầu vào X={x1,x0,…,xN} và một tập hợp nhãn tƣơng
ứng Y={y1,y2,…,yN}, trong đó xi,yi là các vector. Các cặp dữ liệu biết
trƣớc ,
ii
x y X Y đƣợc gọi là tập dữ liệu huấn luyện (training data). Từ tập dữ liệu
huấn luyện này, chúng ta cần tạo ra một hàm số ánh xạ mỗi phần tử từ tập X sang một
phần tử (xấp xỉ) tƣơng ứng của tập Y.
()
ii
y f x với 1,2,...xN
Mục đích là xấp xỉ hàm số f thật tốt để khi có một dữ liệu x mới, chúng ta có
thể tính đƣợc nhãn tƣơng ứng của nó ()y f x

9

Ví dụ: Trong lĩnh vực nhận dạng chữ viết tay, ở Hình 1.1 dƣới đây là tập bộ chữ
số mỗi chữ số đƣợc viết bởi nhiều ngƣời khác nhau. Bức ảnh này khi đƣợc đƣa vào
trong một thuật toán và chỉ cho nó biết mỗi bức ảnh tƣơng ứng với chữ số nào. Sau khi
thuật toán tạo ra một mô hình, tức một hàm số mà đầu vào là một bức ảnh và đầu ra là
một chữ số, khi nhận đƣợc một bức ảnh mới mà mô hình chƣa nhìn thấy bao giờ, nó sẽ
dự đoán bức ảnh đó chứa chữ số nào [22].
Hình 1.1. Bộ dữ liệu chữ viết tay [22]
Thuật toán học có giám sát đƣợc chia thành hai loại là phân loại (classification)
và hồi quy (regression). Một bài toán đƣợc gọi là phân loại nếu các nhãn của dữ liệu
vào đƣợc chia thành một số hữu hạn nhóm. Ví dụ: công cụ xác định xem một email có
phải là thƣ rác hay không của Gmail; xác định xem một khách hàng có khả năng thanh
toán nợ hay không trong các hãng tín dụng. Còn hồi quy thì nhãn không đƣợc chia
thành các nhóm mà là một giá trị cụ thể. Ví dụ: một khu đất có diện tích là x m
2
, có y
căn nhà, các xa trung tâm thị trấn z km sẽ có giá bao nhiêu?
- Học không giám sát ( Unsupervised Learning): Trong thuật toán này chỉ có dữ
liệu đầu vào mà không biết đƣợc đầu ra hoặc nhãn. Thuật toán này sẽ dựa vào cấu trúc
dữ liệu để thực hiện một công việc nào đó, ví dụ nhƣ phân nhóm (clustering) hoặc
giảm số chiều của dữ liệu (dimension reduction) để thuận tiện trong việc lƣu trữ và
tính toán. Phát biểu dƣới dạng toán học, học không giám sát là khi chúng ta chỉ có dữ
liệu vào X mà không biết nhãn Y tƣơng ứng.
Ví dụ: Xây dựng tham số “k-mean” cho vấn đề chia nhóm. Thuật toán Apriori
cho các vấn đề liên quan đến việc học tập quy tắc.
Các bài toán học không giám sát tiếp tục đƣợc chia thành hai loại phân nhóm
(clustering) và kết hợp (association). Phân nhóm của một bài toán phân nhóm toàn bộ

10

dữ liệu X thành các nhóm nhỏ dựa trên sự liên quan giữa các dữ liệu trong mỗi nhóm.
Ví dụ: phân nhóm khách hàng dựa trên hành vi mua hàng. Kết hợp là bài toán khi
chúng ta muốn khám phá ra một quy luật dựa trên nhiều dữ liệu cho trƣớc. Ví dụ:
chẳng hạn nhƣ những ngƣời mua A cũng có khuynh hƣớng mua B [29].
- Học bán giám sát (Semi-Supervised Learning): Các bài toán khi chúng ta có
một lƣợng lớn dữ liệu X nhƣng chỉ một phần trong chúng đƣợc gán nhãn đƣợc gọi là
học bán giám sát. Những bài toán thuộc nhóm này nằm giữa hai nhóm học giám sát và
học không giám sát. Trong thực tế các bài toán học máy thuộc học bán giám sát thì
việc thu thập dữ liệu có chi phí cao và tốn nhiều thời gian. Ngoài ra có những loại dữ
liệu chỉ có chuyên gia mới gán nhãn đƣợc (nhƣ ảnh y học), cũng có những loại dữ liệu
chƣa có nhãn có thể thu thập với chi phí thấp từ internet.
Ví dụ: Chúng ta đã lƣu trữ đƣợc là một kho ảnh nhƣng chỉ có một phần ảnh
đƣợc gán nhãn (nhƣ bức ảnh về ngƣời, động vật) và phần ảnh còn lại không đƣợc gán
nhãn.
- Học củng cố (Reinforcement Learning): Là các bài toán giúp cho một hệ
thống tự động xác định hành vi dựa trên hoàn cảnh để đạt đƣợc lợi ích cao nhất. Hiện
tại, học củng cố chủ yếu đƣợc áp dụng vào lý thuyết trò chơi (Game Theory), các thuật
toán cần xác định nƣớc đi tiếp theo để đạt đƣợc điểm số cao nhất. Ví dụ: huấn luyện
cho máy tính chơi game Mario là một dạng học củng cố.
1.1.2.2. Ứng dụng của học máy
Hiện nay học máy đƣợc ứng dụng rộng khắp các ngành khoa học, sản xuất đặc
biệt là các ngành cần phân tích khối dữ liệu lớn. Một số ứng dụng học máy phổ biến:
Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Xử lý văn bản, truy
xuất thông tin, trích chọn thông tin, tóm tắt văn bản tự động, khai phá và phát hiện tri
thức, giao tiếp ngƣời – máy, dịch máy.
Máy tìm kiếm: Nhƣ Google, Bing, Youtube các hệ thống này sử dụng các công
cụ của học máy để phát triển hệ thống tìm kiếm.
Tin sinh học: Trong lĩnh vực tin sinh học chuyên nghiên cứu về việc phát triển
các giải thuật, lý thuyết và các kĩ thuật thống kê và tính toán để giải quyết các bài toán
bắt nguồn từ nhu cầu quản lý và phân tích dữ liệu sinh học, phân loại và dự đoán chuỗi
gene, dự đoán tính chất của thuốc mới.
Nhận dạng mẫu (Patten recognition): Các ứng dụng phổ biến là nhận dạng tiếng
nói tự động, phân loại văn bản thành nhiều loại khác nhau (ví dụ: những thƣ điện tử

11

nào là spam/non-spam), nhận dạng tự động các mã bƣu điện viết tay trên các bao thƣ,
hay hệ thống nhận dạng danh tính dựa vào mặt ngƣời.
Chẩn đoán trong y tế: Công nghệ học máy giúp các chuyên gia y tế xác định
những xu hƣớng hoặc tín hiệu để cải thiện khả năng điều trị, chẩn đoán bệnh, trợ giúp
phân tích ảnh X – quang.
Các dịch vụ tài chính: Ngân hàng và các doanh nghiệp hoạt động trong lĩnh vực
tài chính sử dụng công nghệ học máy nhằm tìm khách hàng đang có hồ sơ rủi ro cao
hoặc sử dụng giám sát mạng để chỉ rõ những tín hiệu lừa đảo, gian lận thẻ tín dụng.
Phân tích thị trƣờng chứng khoán (stock market analysis): Sử dụng các kỹ thuật
toán học máy tiên tiến nhƣ mạng nơron nhân tạo (ANN), máy vector hỗ trợ (SVM) vào
bài toán dự báo chứng khoán dựa trên tập dữ liệu lịch sử giá.
Trò chơi: Chơi cờ (Deep blue, IBM, 1998), Deep Blue là một máy tính chơi cờ
vua do IBM phát triển. Nó đƣợc biết đến nhƣ là hệ thống cờ vua máy tính đầu tiên
giành đƣợc cả một trò chơi cờ vua và một trận đấu cờ vua chống lại nhà vô địch thế
giới trị vì dƣới sự kiểm soát thời gian thông thƣờng [30].
Ngƣời máy (robot): Là tổng hợp của rất nhiều ngành khoa học, trong đó học
máy tạo nên hệ thần kinh/bộ não của ngƣời máy.
1.2. XỬ LÝ NGÔN NGỮ TỰ NHIÊN
1.2.1. Tổng quan xử lý ngôn ngữ tự nhiên
Xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP) là một nhánh
của trí tuệ nhân tạo đƣợc tập trung vào các ứng dụng trên ngôn ngữ của con ngƣời.
Trong trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì
nó liên quan đến hiểu ngôn ngữ công cụ hoàn hảo nhất của tƣ duy và giao tiếp [26].
Xử lý ngôn ngữ chính là xử lý thông tin khi thông tin đầu vào là “dữ liệu ngôn
ngữ” (dữ liệu cần biến đổi), tức dữ liệu “văn bản” hay “tiếng nói”. Các dữ liệu liên
quan đến ngôn ngữ viết (văn bản) và nói (tiếng nói) đang dần trở thành kiểu dữ liệu
chính con ngƣời và lƣu trữ dƣới dạng điện tử. Đặc điểm chính của kiểu dữ liệu này là
không có cấu trúc hoặc nửa bán cấu trúc và chúng ta không thể lƣu trữ trong các khuôn
dạng cố định nhƣ các bảng biểu.
1.2.2. Các bài toán cơ bản trong xử lý ngôn ngữ tự nhiên
Xử lý ngôn ngữ tự nhiên bao gồm hiểu ngôn ngữ tự nhiên và sinh ngôn ngữ tự
nhiên. Trong đó, hiểu ngôn ngữ tự nhiên (NLU) bao gồm 4 bƣớc chính sau đây [34]:

12

Phân tích hình vị: Là sự nhận biết, phân tích, và miêu tả cấu trúc của những
hình vị trong một ngôn ngữ cho trƣớc và các đơn vị ngôn ngữ khác, nhƣ từ gốc, biên
từ, phụ tố, từ loại,… Có hai loại bài toán điển hình trong phần này, bao gồm bài toán
tách từ (word segmentation) và gán nhãn từ loại (POS).
Phân tích cú pháp: Là quy trình phân tích một chuỗi các biểu tƣợng, ở dạng
ngôn ngữ tự nhiên hoặc ngôn ngữ máy tính, tuân theo văn phạm hình thức. Văn phạm
hình thức thƣờng dùng trong phân tích cú pháp của ngôn ngữ tự nhiên bao gồm văn
phạm phi ngữ cảnh (Context-free grammar–CFG), văn phạm danh mục kết nối
(Combinatory categorial grammar–CCG), và văn phạm phụ thuộc (Dependency
grammar–DG). Đầu vào của quá trình phân tích là một câu gồm một chuỗi từ và nhãn
từ loại của chúng, và đầu ra là một cây phân tích thể hiện cấu trúc cú pháp của câu đó.
Các thuật toán phân tích cú pháp phổ biến bao gồm CKY, Earley, Chart và GLR.
Phân tích ngữ nghĩa: Là quá trình liên hệ cấu trúc ngữ nghĩa, từ cấp độ cụm từ,
mệnh đề, câu và đoạn đến cấp độ toàn bài viết, với ý nghĩa độc lập của chúng. Nói
cách khác, việc này nhằm tìm ra ngữ nghĩa của đầu vào ngôn từ. Phân tích ngữ nghĩa
bao gồm hai mức độ: Ngữ nghĩa từ vựng biểu hiện các ý nghĩa của những từ thành
phần, và phân biệt nghĩa của từ; Ngữ nghĩa thành phần liên quan đến cách thức các từ
liên kết để hình thành những nghĩa rộng hơn.
Phân tích diễn ngôn: Ngữ dụng học là môn nghiên cứu về mối quan hệ giữa
ngôn ngữ và ngữ cảnh sử dụng. Ngữ cảnh sử dụng bao gồm danh tính của ngƣời hoặc
vật, và vì thế ngữ dụng học bao gồm những nghiên cứu về cách ngôn ngữ đƣợc dùng
để đề cập (hoặc tái đề cập) tới ngƣời hoặc vật. Ngữ cảnh sử dụng bao gồm ngữ cảnh
diễn ngôn, vì vậy ngữ dụng học cũng bao gồm những nghiên cứu về cách thức cấu tạo
nên diễn ngôn, và cách ngƣời nghe hiểu ngƣời đang đối thoại với mình.
Khía cạnh thứ hai của NLP là sinh ngôn ngữ tự nhiên (NLG). Đây là một nhiệm
vụ trong quá trình xử lý ngôn ngữ tự nhiên trong việc sinh ra ngôn ngữ tự nhiên từ một
hệ thống máy biểu diễn nhƣ một cơ sở tri thức hoặc một dạng biểu diễn logic. NLG
đóng vai trò quan trọng trong rất nhiều ứng dụng NLP, bao gồm sinh hội thoại, tƣơng
tác ngƣời – máy, dịch thuật máy, và tóm tắt văn bản tự động.
1.2.3. Ứng dụng của xử lý ngôn ngữ tự nhiên
Xử lý ngôn ngữ tự nhiên có vai trò hết sức quan trọng trong ngành khoa học
máy tính. Xử lý ngôn ngữ tự nhiên có rất nhiều ứng dụng hữu ích trong cuộc sống
cũng nhƣ cơ sở cho các nghiên cứu trong các lĩnh vực khác. Sau đây là một vài ứng
dụng của xử lý ngôn ngữ tự nhiên [34]:

13

- Nhận dạng chữ viết: Có hai kiểu nhận dạng, thứ nhất là nhận dạng chữ in, ví dụ
nhận dạng chữ trên sách giáo khoa rồi chuyển nó thành dạng văn bản. Phức tạp
hơn là nhận dạng chữ viết tay, có khó khăn bởi vì chữ viết tay không có khuôn
dạng rõ ràng và thay đổi từ ngƣời này sang ngƣời khác. Với chƣơng trình nhận
dạng chữ viết in có thể chuyển hàng ngàn đầu sách trong thƣ viện thành văn bản
điện tử trong thời gian ngắn. Nhận dạng chữ viết của con ngƣời có ứng dụng
trong khoa học hình sự và bảo mật thông tin (nhận dạng chữ ký điện tử).
- Nhận dạng tiếng nói: Nhận dạng tiếng nói rồi chuyển chúng thành văn bản
tƣơng ứng. Giúp thao tác của con ngƣời trên các thiết bị nhanh hơn và đơn giản
hơn. Đây cũng là bƣớc đầu tiên cần phải thực hiện trong thực hiện giao tiếp
giữa con ngƣời với robot. Một ví dụ của ứng dụng nhận dạng tiếng nói là trợ
giúp ngƣời khiếm thị.
- Tổng hợp tiếng nói: Từ một văn bản tự động tổng hợp thành tiếng nói. Thay vì
phải tự đọc một cuốn sách hay nội dung một trang web, nó tự động đọc cho
chúng ta. Giống nhƣ nhận dạng tiếng nói, tổng hợp tiếng nói là sự trợ giúp tốt
cho ngƣời khiếm thị, nhƣng ngƣợc lại nó là bƣớc cuối cùng trong giao tiếp giữa
robot với ngƣời.
- Dịch tự động (Machine translate): là chƣơng trình dịch tự động từ ngôn ngữ này
sang ngôn ngữ khác. Các nghiên cứu và ứng dụng của dịch tự động hiện nay rất
phát triển, các ứng dụng có độ chính xác cao.
- Tìm kiếm thông tin (Information retrieval): Đặt câu hỏi và chƣơng trình tự tìm
ra nội dung phù hợp nhất. Thông tin ngày càng đầy lên theo cấp số nhân, đặc
biệt với sự trợ giúp của internet, việc tiếp cận thông tin trở lên dễ dàng hơn bao
giờ hết. Vấn đề là tìm đúng nhất thông tin cần tìm và đặc biệt thông tin đó phải
đáng tin cậy. Các máy tìm kiếm dựa trên giao diện web nhƣ Google hay Yahoo
hiện nay chỉ phân tích nội dung rất đơn giản là chỉ dựa trên tần suất của từ
khoá, thứ hạng của trang và một số tiêu chí đánh giá khác để đƣa ra kết luận.
Kết quả là rất nhiều tìm kiếm không nhận đƣợc câu trả lời phù hợp, thậm chí bị
dẫn tới một liên kết không liên quan do thủ thuật đánh lừa của các trang web
nhằm giới thiệu sản phẩm (kỹ thuật SEO - Search Engine Optimization). Thực
tế cho đến nay chƣa có máy tìm kiếm nào hiểu đƣợc ngôn ngữ tự nhiên của con
ngƣời trừ trang www.ask.com đƣợc đánh giá là "hiểu" đƣợc những câu hỏi có
cấu trúc ở dạng đơn giản nhất.

14

- Tóm tắt văn bản: Từ một văn bản dài đƣợc tóm tắt thành một văn bản ngắn hơn
nhƣng vẫn chứa những nội dung thiết yếu nhất.
- Khai phá dữ liệu và phát hiện tri thức: là phát hiện ra tri thức mới từ rất nhiều
tài liệu khác nhau. Khai phá dữ liệu là mô phỏng quá trình học tập, khai phá
thông tin có ích của con ngƣời. Ở mức độ đơn giản khi kết hợp với máy tìm
kiếm nó cho phép đặt câu hỏi để từ đó công cụ tìm kiếm tự tìm ra câu trả lời
thích hợp nhất.
1.3. CÁC PHƢƠNG PHÁP BI ỂU DIỄN VĂN BẢN
1.3.1. Mô hình biểu diễn văn bản truyền thống
1.3.1.1. Mô hình logic
Theo mô hình này các từ có nghĩa trong văn bản sẽ đƣợc đánh chỉ số và nội
dung văn bản đƣợc quản lý theo các chỉ số index đó. Mỗi văn bản đƣợc đánh chỉ số
theo quy tắc liệt kê các từ có nghĩa trong các văn bản với trị trí xuất hiện của nó trong
văn bản. Từ có nghĩa là từ mang thông tin chính về các văn bản lƣu trữ, khi nhìn nó
ngƣời ta ngƣời ta có thể biết chủ thể của văn bản cần biểu diễn [3].
Ví dụ: Ta có 2 văn bản với mã tƣơng ứng là VB1, VB2.
“Cộng hòa xã hội chủ nghĩa Việt Nam” (VB1)
“Việt nam dân chủ cộng hòa” (VB2)
Khi đó ta có cách biểu diễn nhƣ sau
Bảng 1.1. Biểu diễn văn bản trong mô hình logic
Từ mục Mã văn bản_vị trí xuất hiện
Cộng VB1(1),VB2(5)
Hòa VB1(2), VB2(5)
Xã VB1(3)
Hội VB1(4)
Chủ VB1(5),VB2(4)
Nghĩa VB1(6)
Việt VB1(7), VB2(1)
Nam VB1(8), VB2(2)

15

Khi biểu diễn văn bản theo mô hình này, ngƣời ta các tìm kiếm sau: Câu hỏi tìm
kiếm đƣợc đƣa ra dƣới dạng logic gồm một tập các phép toán (And, Or,…) thực hiện
trên các từ hoặc cụm từ, việc tìm kiếm dựa vào bảng Index đã tạo ra và kết quả lại là
các văn bản thảo mãn điều kiện trên.
1.3.1.2. Mô hình vector
Mô hình vector là một trong những mô hình đơn giản và thƣờng đƣợc sử dụng
trong phần lớn các bài toán xử lý dữ liệu văn bản. Theo mô hình này, mỗi văn bản
đƣợc biểu diễn thành một vector, mỗi thành phần của vector là một từ khóa trong tập
văn bản gốc và đƣợc gán một giá trị trọng số xác định tần suất xuất hiện của từ trong
văn bản [3].

Hình 1.2. Mô hình vector biểu diễn văn bản [3]
Phát biểu của mô hình [3]:
Mỗi văn bản D được biểu diễn dưới dạng một vector V (vector đặc trưng cho
văn bản D). Trong đó, V =(v1,v2,…,vn) và n là số lượng đặc trưng hay số chiều của
vector văn bản (thường là số từ khóa), vi là trọng số của đặc trưng thứ i (với 1 ≤i ≤ n).
Trọng số của đặc trƣng có thể tính dựa trên tần số xuất hiện của từ khóa trong
văn bản. Ma trận biểu diễn trọng số (ma trận tần suất) W ={wij} đƣợc xác định dựa
trên tần số xuất hiện của từ khóa ti trong văn bản dj. Một số phƣơng pháp xác định wij:
- Phƣơng pháp Boolean weighting: Giá trị là 1 nếu số lần xuất hiện của từ khóa
lớn hơn một ngƣỡng nào đó, ngƣợc lại là 0.
- Phƣơng pháp dựa trên tần số từ khóa (Term Frequency Weighting).
- Phƣơng pháp dựa trên nghịch đảo tần số văn bản (Inverse Document
Frequency).

16

- TF*IDF weighting.
a) Phƣơng pháp Boolean weighting
Mô hình vector với trọng số từ khóa ti nhận giá trị đúng nếu và chỉ nếu ti xuất
hiện trong văn bản đó.
Giả sử có một cơ sở dữ liệu gồm m văn bản, D = {d1, d2,... dm}. Mỗi văn bản
đƣợc biểu diễn dƣới dạng một vector gồm n từ khóa T = {t1, t2,…tn}. Gọi W = {Wij} là
ma trận trọng số, trong đó Wij là giá trị trọng số của từ khóa ti trong văn bản dj.
ij
W 


ii
1 nÕu t cã trong d
0 ngîc l¹i
b) Phƣơng pháp dựa trên tần số từ khóa (Term Frequency)
Các giá trị Wij đƣợc tính dựa trên tần số xuất hiện của từ khóa trong văn bản.
Giả sử fij là số lần xuất hiện của từ khóa ti trong văn bản dj, khi đó wij đƣợc tính bởi
một trong ba công thức:
Wij = fij
Wịj = 1 + log(fịj) ij ij
Wf

Nếu số lần xuất hiện từ khóa t trong văn bản dj càng lớn thì có nghĩa là văn bản
dj càng phụ thuộc vào từ khóa ti, hay nói cách khác từ khóa ti mang nhiều thông tin
trong văn bản dj. Ví dụ, nếu trong văn bản xuất hiện nhiều từ khóa máy tính, điều đó
có nghĩa là văn bản chủ yếu liên quan đến lĩnh vực tin học.
c) Phƣơng pháp dựa trên nghịch đảo tần số văn bản
Trong phƣơng pháp này Wij đƣợc tính theo công thứ sau: ij
ij
log( ) nÕu tf 1
0 nÕu tf = 0
iij
N
dfW







Trong đó N là số lƣợng văn bản và df là số lƣợng văn bản mà từ khóa ti xuất
hiện. Trong công thức này, trọng số Wij đƣợc tính dựa trên độ quan trọng của từ khóa
ti trong văn bản dj. Nếu ti xuất hiện trong càng ít văn bản, thì khi nó xuất hiện trong dj,
trọng số của nó đối với dj càng lớn (do tính nghịch đảo của hàm log), tức là hàm lƣợng
thông tin trong nó càng lớn. Nói cách khác ti là điểm quan trọng để phân biệt dj với các
văn bản khác.

17

d) Phƣơng pháp TF - IDF
Đây là phƣơng pháp kết hợp của hai phƣơng pháp TF và IDF. Trọng số Wij
đƣợc tính bằng tần số xuất hiện của từ khóa ti trong văn bản dj và độ hiếm của từ khóa
ti trong tập văn bản.
Công thức tính Wij ij
ij
(1 log( ))log( ) nÕu f 1
(i, j)
0 nÕu f 0
ij
i
N
f
dfweigh








Trong đó:
- weigh(i,j): là trọng số của từ thứ i trong văn bản bản thứ j
- fij (term frequency): số từ xuất hiện từ thứ i trong văn bản j, fij càng cao thì từ
đó càng miêu tả tốt nội dung văn bản.
- dfi (document frequency): số văn bản có chứa từ thứ i.
Nhân xét
Ƣu điểm: Mô hình vector là mô hình biểu diễn văn bản đƣợc sử dụng khá phổ
biến trong các hệ xử lý văn bản. Mối quan hệ giữa các văn bản đƣợc tính toán dựa trên
các vector biểu diễn nên dễ dàng thực hiện.
Nhƣợc điểm: Vì mỗi văn bản đƣợc biểu diễn thành một vector n chiều, với số
chiều thƣờng là số từ khác nhau trong tập văn bản, do đó không gian biểu diễn có số
chiều tƣơng đối lớn, việc lƣu trữ và tính toán trên vector tốn kém và phức tạp.
Ngoài ra, hệ thống không linh hoạt khi lƣu trữ các từ khóa. Chỉ cần một thay
đổi nhỏ trong bảng từ vựng sẽ dẫn đến hoặc là vector hóa lại toàn bộ các tài liệu, hoặc
là bỏ qua các từ có nghĩa bổ sung trong các tài liệu đƣợc mã hóa trƣớc đó.
1.3.2. Mô hình đồ thị biểu diễn văn bản
Mô hình đồ thị biểu diễn văn bản đƣợc John F. Sowa đƣa ra lần đầu tiên vào năm
1976 - mô hình đồ thị khái niệm (Conceptual Graphs CGs). Trong mô hình đồ thị, mỗi
đồ thị là một văn bản. Đỉnh của đồ thị có thể là câu, hoặc từ, hoặc kết hợp câu và từ.
Cạnh nối giữa các đỉnh là vô hƣớng hoặc có hƣớng, thể hiện mối quan hệ trong đồ thị.
Nhãn của đỉnh thƣờng là tần số xuất hiện của đỉnh, còn nhãn của cạnh là tên mối liên
kết khái niệm giữa hai đỉnh, hay tần số xuất hiện chung của hai đỉnh trong một phạm
vi nào đó, hay tên vùng mà đỉnh xuất hiện.

18

Ví dụ, trong bài toán rút trích thông tin, đỉnh là từ hay từ kết hợp câu, cạnh thể
hiện tần số đồng hiện. Trong bài toán phân lớp văn bản, đỉnh là từ, cạnh thể hiện trật tự
xuất hiện của từ hay vị trí xuất hiện của từ trong văn bản. Trong bài toán tóm tắt văn
bản, đỉnh là câu, cạnh thể hiện sự tƣơng đồng giữa các câu.
1.3.2.1. Mô hình đồ thị khái niệm (Conceptual Graphs -CGs)
Mô hình đồ thị khái niệm sử dụng mạng ngữ nghĩa để biểu diễn văn bản thành
đồ thị. Mỗi từ trong văn bản là một khái niệm và đƣợc biểu diễn bẳng đỉnh hình
vuông. Đỉnh hình oval thể hiện mối quan hệ giữa các khái niệm. Các đỉnh hình vuông
đƣợc nối với nhau dựa trên mối quan hệ trong mạng ngữ nghĩa và qua trung gian là
đỉnh hình oval.
Ví dụ ta có câu: “Nam is going to DaNang by taxi”, đồ thị khái niệm có dạng:

Hình 1.3. Ví dụ mô hình đồ thị khái niệm
Trong hình, các khái niệm là “Go”, “Person: Nam”, “City: DaNang” và “Taxi”,
các mối quan hệ “Agnt”, “Dest” và “Inst”.
Ƣu điểm của CGs là mô hình hóa văn bản một cách trực quan, chính xác và
logic. Hạn chế của mô hình là khác phức tạp, đòi hỏi phân tích ngữ nghĩa sâu, chuyên
biệt và phụ thuộc vào lĩnh vực.
1.3.2.2. Mô hình đồ thị hình sao
Trong đồ thị hình sao, đỉnh trung tâm là nét khái quát cấu trúc của văn bản. Sau
khi đỉnh trung tâm đƣợc xác lập, các đỉnh còn lại sẽ đƣợc triển khai. Ngoài đỉnh trung
tâm, các đỉnh còn lại biểu diễn từ trong văn bản. Cạnh nối giữa các đỉnh đƣợc gán
nhãn, thể hiện mối quan hệ giữa các đỉnh [3].

19

Hình 1.4. Ví dụ mô hình đồ thị hình sao [3]
1.3.2.3. Mô hình đồ thị vô hướng sử dụng tần số xuất hiện
Trong mô hình này, đỉnh và cạnh đều đƣợc gán nhãn là tần số xuất hiện của
đỉnh và cạnh tƣơng ứng. Cạnh đƣợc nối giữa hai đỉnh nếu hai từ xuất hiện chung trong
trong tập hợp (câu hoặc nhóm từ hoặc trang). Nhãn của đỉnh là tần số xuất hiện của từ
trong văn bản, nhãn của cạnh là tần số xuất hiện chung của 2 từ trong tập hợp và tần số
xuất hiện chung này lớn hơn ngƣỡng cho phép.
Ƣu điểm của mô hình là khai thác đƣợc mối quan hệ giữa từ với từ trong cấu
trúc văn bản cũng nhƣ tần số xuất hiện của từ, hỗ trợ cho quá trình tìm kiếm thông tin
nhanh chóng.
1.3.2.4. Mô hình đồ thị có hướng, cạnh không gán nhãn
Mô hình này còn đƣợc gọi là mô hình đồ thị đơn giản. Mỗi đỉnh biểu diễn một
từ riêng biệt và chỉ xuất hiện một lần trên đồ thị ngay cả khi từ đó xuất hiện nhiều lần
trong văn bản. Nhãn đình là tên của từ. Sau bƣớc tiền xử lý văn bản, nếu từ “a” đứng
ngay trƣớc từ “b” sẽ có cạnh nối từ đỉnh “a” đến đỉnh “b” (không kể các trƣờng hợp
phân cách bởi dấu câu).
Ví dụ: “Samsung sẽ giới thiệu điện thoai Samsung galaxy note 10 và trƣng bày
công nghệ bổ trợ đƣợc xây dựng để cải tiến điện thoại”

Ví dụ:

20

Hình 1.5. Ví dụ về mô hình đồ thị có hướng, không gán nhãn
Ƣu điểm của mô hình là lƣu trữ đƣợc các thông tin cấu trúc nhƣ thứ tự xuất
hiện, vị trí của từ trong văn bản và làm tăng hiệu quả của các bài toán phân lớp cũng
nhƣ gom cụm văn bản.
1.3.2.5. Mô hình đồ thị có hướng, cạnh không gán nhãn, cạnh là khoảng cách n
giữa hai từ trong văn bản.
Mô hình này còn có tên gọi khác là mô hình khoảng cách n đơn giản. Trong mô
hình này, ngƣời dùng cung cấp tham số n. Thay vì chỉ quan tâm từ “A” trực tiếp ngay
trƣớc từ “B” ta còn chú ý đến n từ đứng trƣớc từ “B”. Cạnh đƣợc xây dựng giữa hai từ
khi giữa chúng có số từ xuất hiện nhiều nhất là (n-1), ngoại trừ trƣờng hợp các từ đƣợc
phân cách bởi các dấu câu [3].
Ví dụ: ta có câu “Cánh đồng lúa xanh bát ngát”, với n = 2, mô hình biểu diễn
câu nhƣ sau:

Hình 1.6. Ví dụ mô hình đồ thị n khoảng cách đơn giản [3]
Ƣu điểm của mô hình là tận dụng đƣợc mối quan hệ giữa các từ, vùng lân cận
của từ trong câu và có thể áp dụng vào bài toán phân lớp văn bản.
1.3.3. Mô hình Word2vec văn bản (vector hóa từ)
Trong word2vec, một biểu diễn phân tán (distributed representation) của một từ
đƣợc sử dụng. Sử dụng một vector với vài trăm chiều. Mỗi từ đƣợc biểu diễn bởi tập

21

các trọng số của từng phần tử trong nó. Nhƣ thế thay vì kết nối one-to-one giữa các
phần từ trong vector và 1 từ, biểu diễn từ sẽ là dàn trải tất cả các thành phần của
vector, và mỗi phần tử trong vector sẽ góp phần định nghĩa nhiều từ khác.
Mỗi vector nhƣ vậy cũng đại diện cho một cách tóm lƣợc của ý nghĩa của một
từ. Và nhƣ vậy tiếp theo, chỉ đơn giản bằng cách kiểm tra một ngữ liệu lớn nó có thể
học word vectors, ta có thể nắm bắt các mối quan hệ giữa các từ trong một cách đáng
ngạc nhiên. Có thể sử dụng các vector là đầu vào cho một mạng nơron [4].
Bao gồm 2 mô hình :
- Mô hình túi từ liên lục (CBOW): Dự đoán 1 từ khi đã có các từ lân cận
- Mô hình Skip-gram: Là một mô hình đối lập hoàn toàn với mô hình CBOW.
Dự đoán các từ lân cận khi đã có 1 từ (theo thống kê mô hình này giúp làm mƣợt
CBOW mƣợt hơn nhiều)

Hình 1.7. Mô hình Cbow và Skip-gram [31]
Mục đích và tính hữu ích của word2vec là nhóm các vectơ của các từ tƣơng tự
lại với nhau trong vectorspace. Nghĩa là, nó phát hiện các điểm tƣơng đồng về mặt
toán học.
1.3.4. Mô hình Doc2vec (vector hóa văn bản)
Mô hình Doc2Vec đƣợc phát triển dựa trên mô hình Word2Vec [4] trên cơ sở
thừa kế ý tƣởng của Word2Vec và xây dựng thêm ma trận đoạn. Việc này giúp cho mô
hình Doc2Vec tập hợp tất cả các từ trong một câu thành một vectơ.
Mô hình Doc2vec bao gồm hai mô hình: Mô hình túi từ phân tán (distributed
bag of words- DBOW) và mô hình bộ nhớ phân tán (distributed memory- DM)
a. Mô hình túi từ phân tán(DBOW)

22

Hình 1.8. Mô hình túi từ phân tán của vectơ đoạn [4]
Mô hình này đơn giản là không quan tâm thứ tự các từ, huấn luyện nhanh hơn,
không sử dụng bối cảnh địa phƣơng/lân cận.
Mô hình chèn thêm 1 "word" là ParagraphID, ParagraphID này đại diện cho
văn bản đƣợc huấn luyện. Sau khi huấn luyện xong có thể hiểu các vector ParagraphID
này là vector nhúng của các văn bản.
b. Mô hình bộ nhớ phân tán(DM)

Hình 1.9. Mô hình bộ nhớ phân tán [4]
Nó xem một đoạn văn (paragraph) là một từ, sau đó nối từ này vào tập các từ
trong câu. Trong quá trình huấn luyện, vector của đoạn văn (paragraph) và vector từ
đều đƣợc cập nhật.
Đối với Doc2vec ngoài từ ta còn có thể biểu diễn các câu thậm chí là một đoạn
văn bản. Khi đó, có thể dễ dàng vector hóa cả một đoạn văn bản thành một vector có
số chiều cố định và nhỏ, từ đó có thể chạy bất cứ thuật toán phân loại cơ bản nào trên
các vector đó [40].

23

Hình 1.10. Mô hình bộ nhớ phân tán cho việc học vector đoạn[35]
1.4. TÍNH ĐỘ TƢƠNG ĐỒNG VĂN
Các phép đo độ tƣơng tự giữa văn bản và văn bản đã đƣợc nghiên cứu trong các
ứng dụng của xử lý ngôn ngữ tự nhiên và các lĩnh vực liên quan. Ứng dụng sớm nhất
của độ tƣơng tự văn bản là tìm kiếm thông tin, ở đó các tài liệu có liên quan tới câu
truy vấn đƣợc xếp hạng theo thứ tự của độ tƣơng tự. Ngoài ra, độ tƣơng tự văn bản còn
đƣợc dùng cho phân lớp văn bản, trích chọn hay tóm tắt văn bản, phƣơng pháp cho
đánh giá dịch máy tự động hay đánh giá tính chặt chẽ của văn bản.
1.4.1. Khái niệm độ tƣơng đồng
Độ tƣơng đồng là một đại lƣợng dùng để so sánh hai hay nhiều đối tƣợng với
nhau, phản ánh cƣờng độ của mối quan hệ giữa các đối tƣợng với nhau. Ví dụ: xét 2
câu “Tôi là nam” và “Tôi là nữ”, ta có thể nhận thấy hai câu trên có sự tƣơng đồng khá
cao [4].
Phát biểu bài toán tính độ tƣơng đồng nhƣ sau:
Xét 2 văn bản di và dj. Mục tiêu là tìm ra một giá trị S(di,dj), Se (0,1), thể hiện
độ tương đồng giữa 2 văn bản di và dj. Giá trị càng cao thì sự giống nhau về nghĩa của
hai văn bản càng nhiều.
Ví dụ trong mô hình không gian vector, ta sử dụng độ đo Cosine để tính độ
tƣơng đồng giữa hai văn bản, mỗi văn bản đƣợc biểu diễn bởi một vector.
Độ tƣơng tự ngữ nghĩa là khái niệm thể hiện tỷ lệ dựa trên sự giống nhau về nội
dung ý nghĩa của tập các tài liệu hoặc các thuật ngữ trong một danh sách các thuật ngữ
[6]. Độ tƣơng đồng ngữ nghĩa phản ánh mối quan hệ ngữ nghĩa giữa các câu, các tài
liệu văn bản.
1.4.2. Độ tƣơng đồng văn bản dựa trên tập từ chung

24

1.4.2.1. Khoảng cách Jaro
Khoảng cách Jaro định nghĩa độ đo tƣơng tự giữa hai chuỗi. Cho hai câu s1 và
s2, khoảng cách Jaro d giữa s1 và s2 đƣợc tính nhƣ sau [11]:
12
1
3
m m m t
d
s s m
 
  


Trong đó m là số từ giống nhau, t là ½ số bƣớc chuyển.
Phép chuyển vị trí sẽ đƣợc thực hiện khi hai từ giống nhau trong hai câu s1 và s2
có khoảng cách không lớn hơn giá trị:
 
12
max ,
1
2
ss

Mỗi từ trong câu s1 đƣợc so sánh với tất cả các từ trong s2. Số bƣớc chuyển
đƣợc định nghĩa là số lƣợng từ giống nhau giữa hai câu (nhƣng thứ tự trong chuỗi khác
nhau) chia cho 2.
1.4.2.2. Mô hình tương phản (Contrast model)
Mô hình tƣơng phản do Tversky đề xuất (“Features of similarity”,
Psychological Review, 1977) để tính độ tƣơng tự giữa hai câu A và B nhƣ sau:
sim(A,B) *g(A B) *g(A B) * (B A)g       
Trong đó g(A B) biểu diễn cho các từ chung A và B, g(A-B) biểu diễn cho
các từ riêng của A và g(B-A) biểu diễn cho các từ riêng của B. Hệ số    đƣợc xác
định trong quá trình thử nghiệm thuật toán.
1.4.2.3. Hệ số Jaccard
Hệ số Jaccard là một độ đo tƣơng tự của các tập hợp dựa trên phƣơng pháp
thống kê. Theo đó, độ tƣơng tự giữa hai câu A và B nhƣ sau [9] :

1.4.3. Độ tƣơng đồng văn bản dựa trên vector biểu diễn
1.4.3.1. Độ tương đồng cosine (A,B)
AB
sim
AB




25

Trong phƣơng pháp này, các văn bản đƣợc biểu diễn theo mô hình không gian
vector, mỗi thành phần của vector chỉ đến một từ tƣơng ứng trong danh sách mục từ đã
thu đƣợc từ quá trình tiền xử lý văn bản đầu.
Không gian vector hay số chiều của vector có kích thƣớc bằng số mục từ trong
danh sách mục từ. Giá trị mỗi phần tử của vector là độ quan trọng của mục từ trong
câu. Độ quan trọng của từ đƣợc tính theo một trong các phƣơng pháp đã trình bày ở
trên, phần mô hình vector biểu diễn văn bản, ví dụ: ij
ij
2
ij
W
j
tf
tf



Giả sử vector biểu diễn cho hai văn bản lần lƣợt có dạng:
Di = <w
i
1, ..., w
i
1> với w
i
t là trọng số của từ thứ t trong không gian vector i
Dj = <w
j
1, …, w
j
t> với w
j
t là trọng số của từ thứ t trong không gian vector j.
Độ đo tƣơng đồng đƣợc tính là Cosine của góc giữa hai vector biểu diễn cho hai
văn bản Di và Dj. Độ tƣơng tự của chúng đƣợc tính theo công thức:
1
ij
22
11
()
(w ) * (w )
t i j
k k k
t i t j
k k k k
ww
Sim D





Nhân xét: Vector biểu diễn cho các câu chƣa quan tâm đến mối quan hệ ngữ
nghĩa giữa các từ mục, do đó các từ đồng nghĩa sẽ không đƣợc phát hiện, kết quả tính
độ tƣơng tự chƣa cao.
1.4.3.2. Độ tương đồng dựa vào khoảng cách Euclide
Khoảng cách Euclide cũng là một phƣơng pháp khá phổ biến để xác định mức
độ tƣơng đồng giữa các vector đặc trƣng của hai văn bản [3].
Cho hai vector a
v và b
v khoảng cách Euclide đƣợc định nghĩa nhƣ sau:
2
1
( , )
(w w )_
n
ai bi
i
abvv
E Dist


Mức độ tƣơng đồng giữa hai vector đƣợc xác định bằng công thức: 1
1 2( , )
( , )
()_ w11 w
_ n
a in i b
i
ab
ab
vv
vv
E sim
n
E Dist

    

1.4.3.3. Độ tương đồng dựa vào khoảng cách Manhattan

26

Khoảng cách Manhattan là phƣơng pháp tính độ tƣơng đồng giữa các vector
đặc trƣng biểu diễn cho hai văn bản [2].
Cho hai vector a
v và b
v khoảng cách Euclide đƣợc định nghĩa nhƣ sau: 1
( , )
wwman_dist
n
ai bi
i
abvv



Mức độ tƣơng đồng giữa hai vector đƣợc xác định bằng công thức: 1
1( , )
( , )
_dist
wwman_ 1 1
n
ai bi
i
n
ab
ab
vv
vv
man
sim
n

    

1.4.4. Độ tƣơng đồng văn bản trong tiếng Việt
Thông thƣờng khi đánh giá độ tƣơng tự văn bản, chúng ta cần phân tích văn bản
thành các đơn vị nhỏ hơn và thực hiện đánh giá dựa trên các đơn vị này. Một số bộ
công cụ tách từ tiếng Việt nhƣ vnTokenizer, JvnTextPro đã đƣợc xây dựng và cho kết
quả khả quan có thể sử dụng làm bƣớc tiền xử lý cho hệ thống so sánh văn bản. Sau
khi tách từ, mỗi văn bản Ti sẽ đƣợc biểu diễn bằng một vector các từ có dạng: Ti =
{w1, w2,..., wni} với n là số từ tách đƣợc của Ti.
Trong nhiều trƣờng hợp, độ tƣơng tự giữa hai đoạn văn bản có thể xác định dựa
trên so khớp từ đơn giản, điểm tƣơng tự đƣợc xác định dựa trên số đơn vị từ vựng xuất
hiện ở cả hai đoạn văn bản đầu vào.
Các phƣơng pháp đánh giá độ tƣơng tự văn bản chủ yếu dựa trên hai yếu tố [3] :
- Đánh giá độ tƣơng tự ngữ nghĩa giữa các từ: Một số phƣơng pháp sử dụng
mạng từ (WordNet), một số khác dựa trên kho ngữ liệu Web hoặc dựa trên phân tích
ngữ nghĩa ẩn.
- Đánh giá độ tƣơng tự theo trật tự của từ trong văn bản.
Đánh giá về độ tƣơng tự ngữ nghĩa của từ đƣợc dùng để tạo ra các vector đặc
trƣng ngữ nghĩa của văn bản. Vector đặc trƣng này sử dụng các công thức trong mục
1.4.2 cho ta một phép đo độ tƣơng tự giữa hai văn bản tƣơng ứng.
1.4.4.1. Độ tương tự ngữ nghĩa từ - từ
a) Độ tương tự ngữ nghĩa từ - từ dựa trên WordNet
Wordnet là cơ sở dữ liệu tri thức từ vựng đƣợc thiết kế dựa trên những lý
thuyết về ngôn ngữ tâm lý theo cách liên tƣởng từ ngữ của con ngƣời. WordNet đƣợc
tổ chức dựa theo các quan hệ ngữ nghĩa. Một quan hệ ngữ nghĩa là một quan hệ giữa

27

các nghĩa. Một từ có thể có nghiều nghĩa và khi đó mỗi nghĩa sẽ thuộc vào những tập
đồng nghĩa khác nhau. Ngƣợc lại, mỗi tập đồng nghĩa lại có thể chứa một hoặc nhiều
hơn các từ khác nhau. Khi đó quan hệ ngữ nghĩa có thể đƣợc xem nhƣ là con trỏ giữa
các tập đồng nghĩa [14].
b) Độ tương tự ngữ nghĩa từ - từ dựa trên ngữ liệu
Độ tƣơng tự ngữ nghĩa dựa trên tập ngữ liệu (corpus) xác định mức độ tƣơng tự
về mặt ngữ nghĩa giữa các từ sử dụng thông tin xuất phát từ tập ngữ liệu lớn. Một số
phƣơng pháp xác định nhƣ sau:
- PMI (Pointwise Mutual Information) - thông tin chung dựa trên điểm
PMI đƣợc đƣa ra bởi Turney 2001 nhƣ một độ đo không giám sát để đánh giá
độ tƣơng tự ngữ nghĩa của từ. PMI sử dụng dữ liệu đã tập hợp từ việc tìm kiếm thông
tin (PMI-IR), dựa trên hiện tƣợng đồng xảy ra của các từ trên tập ngữ liệu lớn để xác
định độ tƣơng tự cho 2 từ w1 và w2 nhƣ sau: 12
12
12
(w ,w )
(w ,w ) log
(w )*p(w )
p
PMI
p


- LSA (Latent Semantic Analysis) - phân tích ngữ nghĩa ẩn
• Xây dựng ma trận T (ma trận từ - tài liệu) thể hiện tập ngữ liệu.
• Giảm số chiều SVD
Trong đó SVD có thể đƣợc xem là cách khắc phục một số hạn chế của mô hình
không gian vector chuẩn nhƣ số chiều cao, giúp cho LSA đƣợc tính với số chiều thấp
hơn và mối quan hệ giữa từ - văn bản đƣợc khai thác. Độ tƣơng tự trong không gian
kết quả đƣợc đo bằng độ tƣơng tự Cosine. Ngoài ra, LSA cũng sinh ra một mô hình
không gian vector thể hiện sự đồng nhất giữa các từ, cụm từ và các văn bản.
1.4.4.2. Độ tương tự ngữ nghĩa của văn bản
Việc đánh giá độ tƣơng tự ngữ nghĩa giữa hai văn bản trong đa số các nghiên
cứu sử dụng vector đặc trƣng cho ngữ nghĩa của văn bản. Mỗi thành phần trong vector
này đƣợc thiết lập từ việc tính độ tƣơng tự của một từ trong văn bản với các từ trong
văn bản còn lại, trọng số của thành phần là độ đo tƣơng tự lớn nhất [3].
Giả sử cho hai văn bản (đã đƣợc tách từ vựng) nhƣ sau:
T1 = { w11, w12, ..., w1m1}
T2 = { w21 ,w22, .., w2m2 }

28

Trong đó :
wij là từ thứ j trong văn bản di (i=i,2)
mi là số lƣợng từ vựng tách đƣợc của văn bản Ti.
Tập các từ không giống nhau của cả hai văn bản là:
T = Ti  T2 = { wi, w2, ..., wm }
Vector đặc trƣng ngữ nghĩa cho văn bản Ti, ký hiệu V1 = (v11, v12, ..., v1m) đƣợc
xây dựng nhƣ sau:
- Xét lần lƣợt từng từ wi  T, tính độ tƣơng tự ngữ nghĩa với mỗi từ trong T1, độ
đo tƣơng tự lớn nhất đƣợc đƣa vào thành phần v1i tƣơng ứng trong V1.
V1i = max{ sim(wi, w1j) | j =1..mi }, với i=1..m
- Độ tƣợng tự ngữ nghĩa của hai văn bản đƣợc tính dựa trên hai vector đặc trƣng
ngữ nghĩa tƣơng ứng. Hệ số cosin là một trong các độ đo hay đƣợc sử dụng để tính độ
tƣơng tự này: 12
1 2 1
12
22
12
1 2 1 2
11
..
(T ,T )
.
m
ii
i
mm
i i i i
ii
vvVV
simS
VV
v v v v






Để tính toán độ tƣơng tự (sim) giữa hai từ, trong tiếng Anh ngƣời ta có thể dựa
vào mạng từ WordNet, tuy nhiên với tiếng Việt mạng từ chƣa đƣợc xây dựng đầy đủ
nên một phƣơng án là sử dụng công cụ dịch từ tiếng Việt ra tiếng Anh, sau đó đánh giá
độ tƣơng tự đối với cặp từ tiếng Anh bằng mạng WordNet nhƣ trong đề tài của tác giả
Dƣơng Thăng Long [1]. Một số nghiên cứu khác sử dụng phƣơng pháp phân tích ngữ
nghĩa ẩn LSA hay PMI để đo độ tƣơng tự của từ dựa trên tập ngữ liệu.
1.4.4.3. Độ tương tự về thứ tự của từ trong văn bản
Một yếu tố quan trọng ảnh hƣởng đến độ tƣơng tự của văn bản là thứ tự của từ.
Cùng một một tập từ vựng giống nhau trong các văn bản nhƣng khác nhau về vị trí có
thể có ý nghĩa hoàn toàn khác nhau.
Ví dụ cho hai câu:
T1 = {con_trâu, húc, con_bò}
T2 = {con_bò, húc, con_trâu}
Hai câu trên cùng chứa một tập các từ giống nhau và gần giống nhau về thứ tự
từ, chỉ sai khác thứ tự của cặp từ “con_trâu và “con_bò”. Nếu chỉ dựa trên độ tƣơng tự

29

ngữ nghĩa của văn bản thì hai văn bản nếu cùng chứa một tập từ giống nhau sẽ cho kết
quả là hoàn toàn giống nhau, có nghĩa là sim(T1,T2)=1. Tuy nhiên, hai câu trên có ý
nghĩa không giống nhau, sự khác nhau của hai câu chính là do sự sai khác về vị trí của
các từ trong câu.
Theo tác giả Dƣơng Thăng Long [1] trong đề tài nghiên cứu của mình đã đƣa ra
phƣơng pháp đánh giá độ tƣơng tự của văn bản dựa trên thứ tự của từ nhƣ sau:
- Với mỗi cặp văn bản T1 và T2, xác định tập các từ vựng phân biệt của cả hai
văn bản T = T1 T2.
- Vector đặc trƣng thứ tự từ của hai văn bản, kí hiệu R1 = (r11, r12, ..., r1m) và R2
= (r21, r22, ..., r2m), đƣợc tính dựa trên tập T.
+ Vector thứ tự từ biểu diễn thứ tự của mỗi từ thuộc T nằm ở vị trí nào trong
văn bản tƣơng ứng.
+ Với mỗi từ wi  T, tìm một từ đúng hoặc gần nghĩa nhất trong T1 để xác
định trọng số cho phần tử r1i trong R1 theo một trong ba trƣờng hợp sau:
• Nếu từ wi có trong T1 thì r1i là số thứ tự của từ đó trong T1.
• Tìm từ trong T1 gần nghĩa nhất với wi, sử dụng phƣơng pháp đo độ
tƣơng tự ngữ nghĩa giữa hai từ. Nếu độ đo này vƣợt ngƣỡng  cho trƣớc thì r1i
là số thứ tự của từ đó trong T1.
• Nếu không tìm thấy hoặc độ tƣơng tự giữa từ các trong T1 và wi không
vƣợt ngƣỡng thì đặt r1i là  .
Vector đặc trƣng thứ tự của từ biểu diễn thông tin về cấu trúc của từ trong văn
bản. Mức độ giống nhau về cấu trúc của hai văn bản đƣợc tính toán dựa trên vector đặc
trƣng thứ tự từ bằng công thức sau:
2
1212 1
2
12
12
1
()
11
()
m
ii
i
m
ii
i
rrRR
simR
RR
rr



   




1.4.4.4. Kết hợp giữa các độ đo để đánh giá độ tương tự giữa hai văn bản
Trong các phân tích ở trên, độ tƣơng tự ngữ nghĩa thể hiện phép đo dựa trên
nghĩa từ vựng, còn độ tƣơng tự cấu trúc của từ thể hiện mối quan hệ về thứ tự giữa các
từ, các từ đứng trƣớc hoặc sau các từ khác. Cả hai độ tƣơng tự này đều có vai trò quan
trọng trong xác định độ tƣơng tự của văn bản. Do đó, để đo sự tƣơng tự của các văn

30

bản cần phải kết hợp của hai loại độ đo trên, độ tƣơng tự về ngữ nghĩa và độ tƣơng tự
về thứ tự các từ trong văn bản. Biểu thức kết hợp giữa hai độ đo có dạng [3].
sim = a*simS + b*simR với a+ b = 1
Việc xác định bộ trọng số của mỗi độ đo tƣơng tự (a,b) chƣa có một công thức
chung nào, chỉ có thể sử dụng phƣơng pháp quan sát và thử nghiệm qua các dữ liệu
thực tế để có lựa chọn tốt nhất cho hệ thống. Phƣơng án cân bằng các tiêu chí là một
lựa chọn, trong đó trọng số của các tiêu chí kết hợp có giá trị giống nhau, tức là a = 0.5
và b = 0.5.
1.5. CÁC PHƢƠNG PHÁP PHÂN LO ẠI VĂN BẢN
1.5.1. Phƣơng pháp Naive Bayes
Đây là thuật toán đƣợc xem là đơn giản nhất trong các phƣơng pháp. Bộ phân
lớp Bayes có thể dự báo các xác suất là thành viên của lớp, chẳng hạn xác suất mẫu
cho trƣớc thuộc về một lớp xác định. Chúng giả định các thuộc tính là độc lập nhau
(độc lập điều kiện lớp) [16] .
Thuật toán Naive Bayes dựa trên định lý Bayes đƣợc phát biểu nhƣ sau:
( ). ( )
()
()
P X Y P Y
P Y X
PY

Trong đó:
• Y đại diện một giả thuyết, giả thuyết này đƣợc suy luận khi có đƣợc chứng
cứ mới X.
• P(X): xác suất X xảy ra (Xác suất biên duyên của X).
• P(Y): xác suất Y xảy ra (Điều kiện tiên nghiệm của Y).
• P(X|Y): xác suất X xảy ra khi Y xảy ra (xác suất có điều kiện, khả năng của
X khi Y đúng).
• P(Y|X): xác suất hậu nghiệm của Y nếu biết X.
Áp dụng trong bài toán phân loại, các dữ kiện cần có :
• D: tập dữ liệu huấn luyện đã đƣợc vector hoá dƣới dạng x = (x1x0,...,xn)
• Ci : tập các tài liệu của D thuộc lớp Ci với i={1,2,3,...}
• Các thuộc tính x1 ,x2,.. .xn độc lập xác suất đôi một với nhau.
Theo định lý Bayes :

31

( ) ( )
()
()
ii
i
P X C P C
P C X
Px


Theo tính chất độc lập điều kiện:
12
1
( ) ( ) ( ) ( )... ( )
n
i k i i i n i
k
P X C P x C P x C P x C P x C


Khi đó, luật phân lớp cho các tài liệu mới X
new
= {x1 ,x2… xn} là: 1
max ( ) ( )
n
i i i
k
P C P x C






Trong đó: ()
i
PC
: đƣợc tính dựa trên tần suất xuất hiện tài liệu trong tập huấn luyện. ()
ii
P x C
: đƣợc tính từ những tập thuộc tính đã đƣợc tính trong quá trình huấn
luyện.
1.5.2. Phƣơng pháp k–Nearest Neighbor(KNN)
Thuật toán phân lớp là một phƣơng pháp truyền thống và khá nổi tiếng trong
hƣớng tiếp cận dựa trên thống kê, đã đƣợc nghiên cứu trong nhận dạng mẫu trong vài
thập kỷ gần đây. Nó đƣợc đánh giá là một trong những phƣơng pháp tốt nhất và đƣợc
sử dụng ngay từ những thời kỳ đầu của phân lớp văn bản .
Muốn phân lớp một văn bản mới, thuật toán KNN sẽ tính khoảng cách (Euclide,
Cosine ...) của văn bản này đến các văn bản trong tập huấn luyện và chọn ra k văn bản
có khoảng cách gần nhất, còn gọi là k “láng giềng”. Dùng các khoảng cách vừa tính
đƣợc đánh trọng số cho các chủ đề đã có. Trọng số của một chủ đề sẽ đƣợc tính bằng
tổng các khoảng cánh từ văn bản cần phân lớp đến các văn bản trong k láng giềng mà
có cùng chủ đề đó. Những chủ đề không xuất hiện trong tập k văn bản sẽ có trọng số
bằng 0. Các chủ đề đƣợc sắp xếp theo độ giảm dần của các trọng số và chủ đề nào có
trọng số cao sẽ là chủ đề cho văn bản cần phân lớp.
Công thức
Trọng số của chủ đề cj đối với văn bản x : , ( ). ( , )( ) ,
i
i
j i j j
d KNN
W c sim d y d c bxx



Trong đó:
- ( , ) 0,1i
j
y d c với

32

+ y=0 : văn bản di không phụ thuộc chủ đề cj
+ y=1 : văn bản di thuộc về chủ đề cj
- ,()
i
sim dx độ giống nhau giữa văn bản cần phân loại x và văn bản di.
Sử dụng độ đo cosin để tính ,()
i
sim dx : .
,( ) cos( )
.
,
i
ii
i
x
xx
d
si d
x
md
d


- j
b là ngƣỡng phân loại chủ đề cj, đƣợc tự động học sử dụng một tập văn
bản hợp lệ chọn ra từ tập huấn luyện.
Khi số văn bản trong tập văn bản láng giềng càng lớn thì thuật toán càng
ổn định và sai sót thấp.
1.5.3. Phƣơng pháp cây quyết định
Khái niệm: Cây quyết định (Decision Tree) là một mô hình thuộc nhóm thuật
toán học có giám sát. Cây quyết định là một công cụ phổ biến trong phân loại văn bản.
Đặc điểm của cây quyết định là một cây có cấu trúc kiểu lƣu đồ, trong đó:
- Gốc: Là nút trên cùng của cây
- Nút trong: Biểu diễn một kiểm tra trên một thuộc tính đơn (hình oval)
- Nhánh: Biểu diễn các kết quả của kiểm tra trên nút.
- Nút lá: Biểu diễn lớp hay sự phân phối lớp (hình vuông hoặc chữ nhật)
Ví dụ: Câu hỏi có chơi tennis hay không? Quyết định đƣa ra dựa trên các yếu tố
về thời tiết: outlook, humidity, wind.

33

Hình 1.11. Ví dụ về cây quyết định [15]
Các độ đo trong thuật toán
Entropy: Đặc trƣng cho độ hỗn tạp của (tinh khiết) của một tập bất kỳ
các mẫu thử. ()Entropy S
2
1
log
c
ii
i
pp


Trong đó :
- S : Tập các mẫu thử (tập huấn luyện)
- c : Là phân lớp trong mẫu thử
- Pi : Xác suất (tỉ lệ) các mẫu thử thuộc phân lớp Ci
Information Gain: đo sự giảm sút mong muốn của Entropy gây ra bởi một thuộc
tính A. ,Gain S A
= ()Entropy S - 
v
Entr )py S(o
Value A
v
v
s
s


- Value(A) : Tập các giá trị có thể cho thuộc tính A.
- Sv : Tập con của s mà A nhận giá trị V.
1.5.4. Phƣơng pháp mạng Nơron nhân tạo
Mạng Nơron nhân tạo là một hệ thống bao gồm nhiều phần tử xử lý đơn giản
(hay còn gọi là Nơron) tựa nhƣ Nơron thần kinh của não ngƣời, hoạt động song song

34

và đƣợc nối với nhau bởi các liên kết Nơron. Mỗi liên kết kèm theo một trọng số nào
đó, đặc trƣng cho tính kích hoạt hoặc ức chế giữa các Nơron [2].
Có thể xem các trọng số là phƣơng tiện để lƣu trữ thông tin dài hạn trong mạng
Nơron và nhiệm vụ của quá trình huấn luyện của mạng là cập nhật các trọng số khi có
thêm thông tin về mẫu học. Hay nói một cách khác, các trọng số đều đƣợc điều chỉnh
sao cho dáng điệu vào ra của mạng sẽ mô phỏng hoàn toàn phù hợp với môi trƣờng
đang xem xét.
.
Hình 1.12. Sơ đồ đơn giản mạng Nơron nhân tạo [2]
Mô hình mạng Nơron ở trên gồm 3 lớp: Lớp nhập (input), lớp ẩn(hidden) và lớp
xuất (output). Mỗi nút trong lớp nhập nhận giá trị của một biến độc lập và chuyển vào
mạng.
Dữ liệu từ tất cả các nút trong lớp nhập đƣợc tích hợp - ta gọi là tổng trọng số -
và chuyển kết quả cho các nút trong lớp ẩn. Gọi là “ẩn” vì các nút trong lớp này chỉ
liên lạc với các nút trong lớp nhập và lớp xuất, và chỉ có ngƣời thiết kế mạng mới biết
lớp này (ngƣời sử dụng không biết lớp này).
Các nút trong lớp xuất nhận các tín hiệu tổng trọng hóa từ các nút trong lớp ẩn.
Mỗi nút trong lớp xuất tƣơng ứng với một biến phụ thuộc.
Kiến trúc mạng Nơron:
Về cơ bản ta có thể hiểu mạng Nơron là một đồ thị có hƣớng nhƣ hình 1.13
Trong đó các đỉnh của đồ thị là các Nơron và các cạnh của đồ thị là các liên kết
giữa các Nơron

35

Hình 1.13. Sơ đồ đồ thị có hướng đơn giản [2]
Vì vậy để xây dựng một mạng Nơron ta xây dựng một đồ thị có hƣớng: Số đỉnh
của đồ thị bằng số Nơron trong mạng, giá trị của các cạnh chính là trọng số liên kết
Nơron. Ví dụ xây dựng một mạng Nơron đơn giản:
Đầu vào: Cho :
- Mạng Nơron có số lớp (với số lớp>1).
- Mỗi lớp có số Nơron trong một lớp (số Nơron>=1).
- Trọng số w liên kiết Nơron ngẫu nhiên trong khoảng (-a,a).
Đầu ra: Mạng nơron nhân tạo.
- Kiểu dữ liệu: chọn lƣu dữ kiểu mảng :
Int số lớp;
int số nơron[số lớp];
float w[i][j][k]; với 2<=i<=số lớp, 1<=j,k<=số nơron[] ,
1.5.5. Phƣơng pháp Support Vector Machines (SVM)
Máy sử dụng vector hỗ trợ(SVM) đƣợc Cortess và Vapnik giới thiệu năm 1995,
là phƣơng pháp tiếp cận phân lớp hiệu quả để giải quyết vấn đề nhận dạng mẫu 2 lớp
sử dụng nguyên lý cực tiểu hóa rủi ro có cấu trúc (Structural Risk Minimization) [10]
Trong không gian vector cho trƣớc một tập huấn luyện đƣợc biểu diễn trong đó
mỗi tài liệu là một điểm, thuật toán SVM sẽ tìm ra một siêu mặt phẳng h quyết định tốt
nhất có thể chia các điểm trên không gian này thành hai lớp riêng biệt tƣơng ứng lớp +
và lớp -. Chất lƣợng của siêu mặt phẳng phân cách này đƣợc quyết định bởi khoảng
cách (gọi là biên) của điểm dữ liệu gần nhất của mỗi lớp đến mặt phẳng này. Khoảng
cách biên càng lớn thì mặt phẳng quyết định càng tốt và việc phân lớp càng chính

36

xác. Mục đích thuật toán SVM là tìm đƣợc khoảng cách biên lớn nhất. Hình sau minh
họa cho thuật toán này:

Hình 1.14. Siêu mặt phẳng h phân chia dữ liệu huấn huyện thành 2 lớp + và - với
khoảng cách biên lớn nhất [10].
Công thức
Phƣơng trình siêu mặt phẳng chứa vector d trong không gian:
i
d .w b 0
Đặt i
ii
i
+1, khi d .w b 0
(d ) sign(d .w b)
-1, khi d .w b
h
0
 
   

Từ đó, i
h(d ) biễu diễn sự phân lớp của i
d vào hai lớp nói trên.
Có i
y { 1} , thì với yi =+1 thì văn bản d  lớp “+”; với yi = -1 thì văn bản d 
lớp “-”, lúc này muốn có siêu mặt phẳng h, ta sẽ giải bài toán sau:
Tìm Min w trong đó w và b thỏa mãn điều kiện
ii
i 1,n : y (sign(d .w b)) 1   
Khi đó ta có thể sử dụng toán tử Lagrange biến đổi thành dạng thức để giải bài
toán.
Ở phƣơng pháp SVM, mặt phẳng quyết định chỉ phụ thuộc vào các điểm gần nó
nhất (vector hỗ trợ - support vector) mà có khoảng cách đến nó là: 1
w . Khi các điểm
khác bị xóa đi thì vẫn không ảnh hƣởng đến kết quả ban đầu.

37

1.6. CHATBOT
1.6.1. Khái niệm
Chatbot là một chƣơng trình máy tính có khả năng giao tiếp với con ngƣời bằng
cách đƣa ra câu trả lời cho các câu hỏi và thực hiện cuộc trò chuyện bằng cách sử dụng
xử lý ngôn ngữ tự nhiên. Con ngƣời đƣa vào lời nói hoặc văn bản ngôn ngữ tự nhiên,
trong khi chƣơng trình chatbot sẽ đƣa ra phản hồi thông minh phù hợp nhất dƣới dạng
văn bản hoặc lời [5].
Cuộc trò chuyện có thể đƣợc bắt đầu bởi ngƣời dùng hoặc bởi chatbot. Quá
trình giao tiếp bắt đầu khi ngƣời dùng nhập câu hỏi hoặc câu dƣới dạng lời nói hoặc
văn bản cho chƣơng trình. Sau đó, đầu vào của ngƣời dùng đƣợc phân tích cho các từ
khóa hoặc cụm từ mà nó chứa và câu trả lời đƣợc lập trình phù hợp nhất từ cơ sở dữ
liệu chatbot. Quá trình kết thúc sau khi đầu ra đƣợc trình bày cho ngƣời dùng bằng đồ
họa hoặc bằng lời nói.
Thuật ngữ “ChatterBot” ban đầu đƣợc đặt bởi Michael Mauldin đầu tiên vào
năm 1994. Chatbots còn đƣợc gọi là Conversational Agents hay Dialog Systems. Các
chatbot đƣợc thiết kế một cách thuyết phục con ngƣời cƣ xử nhƣ một đối tác đàm
thoại. Theo cách tƣơng tác mà chúng tƣơng tác với ngƣời dùng, các chatbot thƣờng
đƣợc chia thành hai loại: âm thanh và tin nhắn. Các chatbot đƣợc thiết kế phức tạp dựa
trên nền tảng xử lý ngôn ngữ tự nhiên, nhƣng cũng có nhiều hệ thống khác đơn giản
hơn bằng cách quét từ khóa trong đầu vào, sau đó trả lời với từ khóa phù hợp nhất
hoặc mẫu từ ngữ tƣơng tự nhất trong cơ sở dữ liệu.

Dữ liệu vào của
ngƣời dùng
Dữ liệu của chatbot
Từ khóa hoặc cụm từ
đƣợc trích xuất
Chọn câu trả lời phù
hợp nhất

38

Hình 1.15. Xử lý hội thoại giữa chatbot và con người
Hiện nay phần lớn các chatbots đều thực hiện truy cập thông qua các trợ lý ảo
nhƣ trợ lý Google và Amazon Alexa, dƣới ứng dụng tin nhắn nhƣ Facebook
Messenger, WeChat hoặc thông qua các ứng dụng. Chatbot đƣợc sử dụng trong rất
nhiều công việc nhƣ trong việc chăm sóc khách hàng(cung cấp thông tin sản phẩm,
đƣa ra những gợi ý…), quản lý hàng tồn, sắp xếp lịch, tra cứu dữ liệu hồ sơ y tế, chăm
sóc sức khỏe, khuyến khích ngƣời dùng tập luyện, hƣớng dẫn chế độ ăn…
1.6.2. Hoạt động của chatbot
Chatbot tƣơng tác với con ngƣời qua âm thanh hoặc văn bản và sử dụng các nền
tảng để giao tiếp với bot. Phần mà các lập trình viên cần phát triển bao gồm [27]:
Translator: Dịch yêu cầu của ngƣời dùng giúp máy tính hiểu đƣợc yêu cầu cần
thực hiện. Mục đích và các thực thể có trong yêu cầu đƣợc trích xuất để làm cơ sở cho
xác định câu trả lời. Các kỹ thuật xử lý ngôn ngữ tự nhiên đƣợc áp dụng để phân tích
ngữ nghĩa yêu cầu của ngƣời dùng.

Hình 1.16. Hoạt động của chatbot
Processor: Xử lý yêu cầu của ngƣời dùng dựa vào dữ liệu đƣợc Translator cung
cấp. Câu trả lời sẽ đƣợc truy xuất từ cơ sở dữ liệu của chatbot. Tùy thuộc vào kỹ thuật
sử dụng sẽ cho mức độ chính xác của câu trả lời khác nhau.
Responsor: Nhận output từ Processor và trả lời lại cho ngƣời dùng.
1.6.3. Sự phát triển của chatbot
Ban đầu chatbot đƣợc phát triển nhƣ một ứng dụng bình thƣờng, cũng có giao
thức tầng ứng dụng, cơ sở dữ liệu và giao diện lập trình ứng dụng. Giao diện ngƣời
dùng của chatbot là giao diện trò chuyện. Mặc dù, Chatbot cung cấp các tính năng dễ
dàng cho ngƣời dùng có thể sử dụng nhƣng lại tăng độ phức tạp và tinh vi trong quá
trình xây dựng, quản lý và huấn luyện.
Question
Answer
Translator Processor Database
Responsor

39

Hầu hết các hệ thống chatbot đều có thể lƣu trữ dữ liệu các cuộc đối thoại với
ngƣời dùng. Các nhà phát triển chatbot sẽ sử dụng nhật ký các cuộc đối thoại để phân
tích những gì ngƣời dùng đang cố gắng hỏi và ý định của ngƣời dùng là gì?, tại sao
chatbot không hiểu?,…Với sự kết hợp của các mô hình và công cụ Machine Learning,
các nhà phát triển xây dựng các kịch bản mới cho từng câu hỏi, ý định với các câu trả
lời phù hợp nhất, đáp ứng nhu cầu của ngƣời dùng. Chatbot sẽ ngày càng phát triển
theo thời gian cũng giống nhƣ kinh nghiệm tiếp xúc với khách hàng của 1 nhân viên
bán hàng.
1.6.4. Các lĩnh vực ứng dụng của chatbot
Dịch vụ khách hàng: Chatbot đƣợc sử dụng thay thế cho nhân viên chăm sóc
khách hàng để trả lời các câu hỏi từ phía khách hàng. Chatbot thông minh và xử lý
nhanh hơn con ngƣời. Nó hoàn toàn tự động hóa và truyền tải thông tin đến khách
hàng ngay lập tức. Các chƣơng trình hỗ trợ khách hàng 24/7 và có thể trả lời các câu
hỏi của khách hàng và cung cấp thông tin, đề xuất cho khách hàng. Trong trƣờng hợp
trả lời không đƣợc, bot sẽ tự động gửi câu hỏi tới nhân viên chăm sóc và lắng nghe câu
trả lời. Nó sẽ học cách trả lời loại câu hỏi này và có thể trả lời trong tƣơng lai [20]. Ƣu
điểm nổi bật của chatbot là hệ thống thông minh hơn theo thời gian và có thể tự giải
quyết đƣợc nhiều câu hỏi hơn.
Du lịch lữ hành và bệnh viện: Chatbot ngày càng trở nên phổ biến và tiện dùng
hơn trong ngành công nghiệp y dƣợc và du lịch lữ hành. Vì nó có thể cung cấp cho
ngƣời dùng những dịch vụ tốt nhất với giá rẻ hơn. Một điểm đặc biệt khi dùng chatbot
là làm tăng mức độ hài lòng cho khách cũng nhƣ duy trì lòng trung thành của khách
đối với thƣơng hiệu thông qua hệ thống tự động [21].
Ngân hàng và dịch vụ tài chính: Chatbot nhƣ là ngƣời trợ lý của khách hàng, nó
có nhiệm vụ thông báo các thông tin hay cảnh báo các hoạt động bất thƣờng tới khách
hàng. Thông qua chatbot khách hàng sẽ hoàn toàn an tâm về dịch vụ sử dụng. Ví dụ
nhƣ khi có đăng nhập bất thƣờng, bot sẽ cảnh báo cho ngƣời dùng bằng cách nhắn tin
vào các tài khoản liên lạc đã cung cấp.
Chatbot như một trợ lí ảo: Một nhóm nhỏ của chatbot đã đƣợc thiết kế để giúp
thực hiện các tác vụ cụ thể. Nó sẽ làm một số công việc mà đáng ra chúng ta phải mất
thời gian xử lý hoặc đi thuê ngƣời khác làm. Ví dụ nhƣ sắp xếp cuộc hẹn, tìm hiểu một
vấn đề đƣợc chủ nhân yêu cầu và trả lời vấn đề đó cho chủ nhân gần nhƣ ngay lập
tức,…

40

CHƢƠNG 2. PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG CHATBOT
2.1. CÁC MÔ HÌNH CHATBOT
Mô hình truy xuất thông tin và mô hình sinh thông tin (Retrieval-Based model
vs. Generative Models). Các mô hình dựa trên truy xuất (Retrieval-based models) sử
dụng kho lƣu trữ các phản hồi đƣợc xác định trƣớc và một số loại heuristic để chọn
một phản hồi phù hợp dựa trên đầu vào và ngữ cảnh. Các heuristic có thể đơn giản nhƣ
một kết hợp biểu thức dựa trên luật hoặc phức tạp hơn nhƣ một tập hợp các phân loại
học máy. Các hệ thống này không tạo ra bất kỳ văn bản mới nào, họ chỉ cần chọn một
phản hồi từ một tập cố định [6].
Các mô hình sinh (Generative models) không dựa vào các câu trả lời đƣợc xác
định trƣớc. Nó tạo ra các câu trả lời một các tự động. Các mô hình sinh thƣờng dựa
trên các kỹ thuật dịch máy, nhƣng thay vì dịch từ ngôn ngữ này sang ngôn ngữ khác,
nó dịch từ đầu vào thành đầu ra là các phản hồi.
Cả hai phƣơng pháp đều có một số ƣu và nhƣợc điểm riêng. Các phƣơng pháp
dựa trên truy xuất, do việc lƣu trữ các câu trả lời đã đƣợc chuẩn bị trƣớc nên không có
các lỗi về mặt ngữ pháp. Tuy nhiên, phƣơng pháp này không thể xử lý cho các câu hỏi
hội thoại mới chƣa tồn tại trong cơ sở dữ liệu. Các mô hình này không thể xem xét lại
thông tin thực thể theo ngữ cảnh nhƣ các tên đƣợc đề cập trƣớc đó trong cuộc trò
chuyện. Các mô hình sinh có tính thông minh hơn so với mô hình dựa trên truy xuất.
Nó có thể tham khảo lại các thực thể trong đầu vào và tạo cảm giác đang nói chuyện
với một con ngƣời thực sự. Tuy nhiên, các mô hình này thƣờng rất phức tạp và khó
huấn luyện. Các hội thoại tạo ra rất dễ mắc lỗi ngữ pháp (đặc biệt là các câu dài) và
thƣờng yêu cầu số lƣợng lớn dữ liệu đào tạo.
Các kỹ thuật học sâu (Deep Learning) có thể đƣợc sử dụng cho cả các mô hình
dựa trên truy xuất hoặc mô hình sinh. Tuy nhiên hƣớng nghiên cứu nhận đƣợc sự chú
ý nhất hiện nay là mô hình sinh. Các kiến trúc Deep Learning nhƣ Sequence to
Sequence rất phù hợp để tạo văn bản và các nhà nghiên cứu đang hy vọng sẽ đạt đƣợc
tiến bộ nhanh chóng trong lĩnh vực này.
Miền mở và miền đóng (Open Domain vs Closed Domain):
- Miền mở (Open Domain) trong một miền mở ngƣời dùng có thể thực hiện
cuộc trò chuyện ở bất cứ nội dung gì. Không thiết phải có một mục tiêu hoặc ý định
hoàn toàn xác định. Cuộc trò chuyện trên các trang mạng xã hội nhƣ Twitter,
Facebook thƣờng là miền mở - ngƣời dùng có thể trao đổi tất cả các lĩnh vực và nhiều

41

ý định khác nhau. Số lƣợng chủ đề vô hạn và thực tế là cần một lƣợng kiến thức phong
phú để tạo ra các phản hồi hợp lý. Do đó chatbot trong miền mở là vấn đề khó hiện
nay.
- Miền đóng (closed domain) dữ liệu vào và dữ liệu ra trong miền đóng là bị
giới hạn vì hệ thống cố gắng đạt đƣợc một mục tiêu rất cụ thể. Những chatbot tƣ vấn
khách hàng mua sắm hoặc hỗ trợ kỹ thuật cho khách hàng hoặc dịch vụ chăm sóc
khách hàng là những ví dụ về chatbot trong miền đóng. Những hệ thống này cần tập
trung vào hoàn thành nhiệm vụ cụ thể nào đó một cách hiệu quả nhất có thể, do đó dữ
liệu sẽ bị giới hạn trong một miền cụ thể. Ngƣời dùng vẫn có thể thực hiện cuộc trò
chuyện ở bất cứ nội dung gì họ muốn, nhƣng hệ thống không bắt buộc phải xử lý tất cả
các trƣờng hợp này.
2.2. PHÂN LOẠI CHATBOT
Có nhiều loại chatbot khác nhau và mỗi loại chatbot có những phản ứng theo
những cách khác nhau. Không phải tất cả các chatbot đều thông minh giống nhau và
chúng xác định một nhiệm vụ cụ thể. Chatbot có thể phân thành bốn loại nhƣ sau [6]:
2.2.1. Flow-oriented chatbot
Loại chatbot này thực hiện theo các bƣớc đã đƣợc xác định trƣớc bởi ngƣời lập
trình. Trong flow-oriented chatbot, ngƣời dùng sẽ trải qua một số câu hỏi và tùy chọn.
Do đó, ngƣời dùng có thể đƣa ra quyết định dựa trên các tùy chọn mà nhà phát triển
chatbot đã cung cấp. Loại bot này thƣờng cung cấp rất nhiều nút và từ khóa mà qua đó
ngƣời dùng có thể chọn một hành động cụ thể để thực hiện hoặc một thông tin sẽ đƣợc
hiển thị. Loại bot này còn đƣợc gọi là chatbot dựa vào luật (rule based chatbot), nó
đƣợc xây dựng để thực hiện một số nhiệm vụ đƣợc xác định trƣớc dựa trên các quy tắc
đƣợc cung cấp bởi một lập trình viên. Các loại chatbot này có nhƣợc điểm là không thể
học để trở nên tốt hơn theo thời gian. Việc tạo chatbot dạng này khá đơn giản, chi phí
thấp và tốc độ phát triển của loại hình chatbot này khá nhanh.
2.2.2. Chatbot thông minh nhân tạo (Artificially intelligent chatbot)
Trong thập kỷ qua, trí tuệ nhân tạo đã có những bƣớc phát triển mạnh mẽ.
Nhiều thuật toán, kỹ thuật đã ra đời nhằm để mô hình hóa những công việc mà con
ngƣời có thể thực hiện đƣợc. Một trong những lĩnh vực thu hút đƣợc nhiều sự quan
tâm của các nhà khoa học là áp dụng trí tuệ nhân tạo trong xử lý ngôn ngữ tự nhiên.
Ngày nay chúng ta có thể tìm thấy sự tƣơng tác ngôn ngữ tự nhiên khác nhau với các
tác nhân đàm thoại. Giao tiếp diễn ra thông qua các công nghệ kỹ thuật số chứ không
phải trực tiếp. Do đó, giao tiếp qua trung gian máy tính (computer mediated

42

communication - CMC) đã trở thành một lĩnh vực nghiên cứu quan trọng để khám phá
mô phỏng ngôn ngữ tự nhiên của con ngƣời.
Ngày nay, một trong những dạng phổ biến nhất của CMS là nhắn tin tức thời
(instant messaging - IM). Chatbot là một dạng phổ biến của CMS. Các chatbot trí tuệ
nhân tạo dựa vào trí thông minh nhân tạo để mang lại trải nghiệm ngƣời dùng. Các
ứng dụng này bắt chƣớc tính cách, hành vi của con ngƣời, đó là tƣơng tác và trả lời các
câu hỏi trong khi tạo ra một cuộc trò chuyện có ý nghĩa với con ngƣời. Các chatbot
thông minh nhân tạo cho phép ngƣời dùng tham gia trao đổi một cách tự nhiên và có
một cuộc thảo luận thực sự. Ngƣời dùng có thể nhập bất kỳ câu nào và bot có thể phân
tích một tập hợp các tham số để hiểu ý định của ngƣời dùng và phản ứng lại.

Hình 2.1. Đoạn hội thoại của một chatbot trí tuệ nhân tạo [8]
2.2.3. Chatbot lai (Hybrid chatbot)
Các chatbot này kết hợp các ƣu điểm của Flow-oriented chatbot và Artificially
intelligent chatbot để mang lại trải nghiệm tốt hơn cho ngƣời dùng. Hầu hết các
chatbot hiện có là chatbot lai vì công nghệ xử lý ngôn ngữ tự nhiên vẫn còn nhiều hạn
chế để hiểu đƣợc mọi câu hội thoại từ ngƣời dùng, có nghĩa là ngƣời dùng sẽ không

43

thể luôn nhận đƣợc câu trả lời mà họ muốn. Với một chatbot lai, ngƣời dùng có thể
phải thông qua một loạt các câu hỏi nhƣ xảy ra trong các flow-oriented chatbot nhƣng
họ cũng có thể nhập các câu hỏi để trao đổi trực tiếp với bot.

Hình 2.2. Chatbot tự động trả lời câu hỏi của khách hàng [28]
2.2.4. Chatbot đƣợc hỗ trợ bởi con ngƣời
Chatbot đƣợc hỗ trợ bởi con ngƣời triển khai AI để cho phép ngƣời dùng tƣơng
tác trong khi sử dụng văn bản tự do. Tuy nhiên, đằng sau công nghệ này cũng có một
ngƣời điều hành quan sát cuộc trò chuyện và tiếp quản nếu chatbot không xử lý đƣợc
và nhằm thỏa mãn các yêu cầu của ngƣời dùng. Ƣu điểm của loại chatbot này là
chatbot có thể đƣợc đào tạo bởi ngƣời vận hành. Do đó, việc dạy chatbot đảm bảo trả
lời tốt hơn cho các cuộc hội thoại trong tƣơng lai.
2.3. CÁC PHƢƠNG PHÁP XÂY D ỰNG CHATBOT
2.3.1. So sánh trùng khớp mẫu câu (Pattern matchers)
Các chatbot hoạt động bằng cách sử dụng phƣơng pháp này để tìm kiếm các
mẫu câu có trong câu hỏi của ngƣời dùng và xem có khớp với các câu hỏi đã đƣợc lƣu
trữ trong cơ sở dữ liệu của hệ thống để đƣa ra câu trả lời phù hợp nhất. Phƣơng pháp
Pattern matchers dựa theo cấu trúc tiêu chuẩn của ngôn ngữ lập trình Artificial
Intelligence Markup Language (AIML) là một ví dụ. AIML là một dạng của XML
định nghĩa các quy tắc để kết hợp các mẫu câu hỏi và xác định câu trả lời cho nó.

44

2.3.2. Sử dụng thuật toán phân lớp (Classification algorithms)
Giả sử trong trƣờng hợp có rất nhiều câu hỏi riêng biệt với ý định khác nhau
đến từ ngƣời dùng, mà chatbot chỉ có thể phản hồi khi tất cả câu hỏi này đã đƣợc thiết
lập, huấn luyện cho chatbot với các kịch bản đối thoại đã đƣợc lƣu trữ trong cơ sở dữ
liệu. Sự phức tạp sẽ gia tăng khi chatbot cố gắng kết nối các mẫu câu và tạo nên một
cấu trúc phân tầng trong hệ thống. Một giải pháp đƣợc sử dụng là áp dụng các thuật
toán phân lớp vào chatbot để giảm việc phân loại quá nhiều các câu hỏi. Các câu hỏi sẽ
đƣợc phân lớp theo các điều kiện khác nhau và tạo ra một cấu trúc dễ quản lý hơn,
tăng độ chính xác cho các phản hồi đƣợc chatbot tới cho ngƣời dùng. Ví dụ: giả sử tập
hợp các câu hỏi, tin nhắn tƣơng tác của ngƣời dùng cùng ý định, chủ đề đã đƣợc phân
lớp trong các lớp cụ thể và sẽ có nhiều lớp đƣợc tạo. Nếu ngƣời đƣa ra một câu mới so
với cơ sở dữ liệu hiện có, chatbot sẽ đối sánh câu này với các câu đã tập hợp trong các
lớp. Dựa vào điểm số tƣơng tự của sự so sánh, chatbot sẽ tìm ra lớp chứa câu tƣơng tự
và đƣa ra phản hồi chính xác đến ngƣời dùng dựa vào lựa chọn câu thích hợp trong lớp
đó. Multinomial Naive Bayes là một thuật toán phân loại văn bản đƣợc sử dụng phổ
biến trong xử lý ngôn ngữ tự nhiên dựa trên tính toán xác suất áp dụng định lý Bayes.
Thuật toán này thuộc nhóm học có giám sát. Các vector đặc trƣng đƣợc xây dựng dựa
trên các phƣơng pháp biễu diễn văn bản nhƣ đã đề cập trong chƣơng 1. Với phƣơng
pháp này, điểm số chỉ thể hiện độ tin cậy và sự liên quan nhất định của các câu hỏi, tin
nhắn mà ngƣời dùng đƣa ra đối với một lớp cụ thể chứ không đảm bảo độ chính xác
hoàn toàn.
2.3.3. Mạng nơron nhân tạo (Artificial Neural Network - ANN)
Phƣơng pháp Mạng nơron nhân tạo là tính toán tỷ lệ chính xác dữ liệu đầu ra từ
dữ liệu đầu vào bằng cách tính toán các trọng số cho mỗi kết nối từ các lần lặp lại khi
huấn luyện dữ liệu cho chatbot. Mỗi bƣớc trong quá trình huấn luyện dữ liệu cho
chatbot sẽ sửa đổi các trọng số để dữ liệu đầu ra có độ chính xác cao nhất có thể. Mỗi
câu hội thoại sẽ đƣợc phân tách thành từng từ và mỗi từ chính là dữ liệu đầu vào cho
các nơron của ANN. Các từ sẽ đƣợc kết nối với nhau và khi huấn luyện dữ liệu cho
chatbot, các kết nối này sẽ đƣợc đo bằng trọng số cho hàng ngàn lần lặp lại ở các thời
điểm khác nhau. Mỗi lần lặp lại trọng số sẽ thay đổi và độ chính xác sẽ đƣợc cải thiện.
Do đó chatbot khi đƣợc huấn luyện trong thời gian dài sẽ tăng khả năng tự học, tự phát
triển về hiểu biết các ý định của ngƣời dùng và đạt đƣợc độ chính xác, độ tin cậy cao.
2.3.4. Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP)

45

Phƣơng pháp NLP sử dụng các thuật toán và truy xuất cơ sở dữ liệu để làm cơ
sở nhận dạng, chuyển đổi dữ liệu đầu vào của ngƣời dùng thành dữ liệu có cấu trúc và
tiến hành phân loại và đƣa ra các câu trả lời tƣơng ứng. Để giao tiếp tự nhiên với con
ngƣời, thì NLP phải là một phần quan trọng của bất kỳ công nghệ AI nào đƣợc sáng
tạo ra và đƣa vào sử dụng. Một hệ thống NLP hiệu quả thu thập các câu hỏi, tin nhắn
của ngƣời dùng, phân tích theo từng từ, nắm đƣợc ý định của ngƣời dùng, xác định
hành động phù hợp và phản hồi lại bằng ngôn ngữ mà ngƣời dùng sẽ hiểu.

Hình 2.3. Cấu trúc cơ bản của một chatbot sử dụng NLP và công nghệ Machine
learning [19]
Khi ngƣời dùng gửi tin nhắn đến chatbot thông qua nền tảng nhắn tin
(Messaging platform) nhƣ Facebook messenger thì thông tin sẽ đƣợc đƣa đến hệ thống
NLP để chatbot phân tích và hiểu đƣợc ý định ngƣời dùng (Bot Logic). Sau khi trích
xuất đƣợc ý định ngƣời dùng, chatbot sẽ phân loại và gửi đến cơ sở dữ liệu
(Information Sources) để chọn ra các câu trả lời tƣơng ứng, chính xác và ra lệnh
(Actions) để phản hồi lại ngƣời dùng. Ngoài khả năng tự phân tích dựa vào NLP,
chatbot sẽ tự nhận dạng nhanh chóng các tin nhắn của ngƣời dùng và tạo khả năng tự
học (Machine Learning) thông qua các thuật toán đƣợc nhà phát triển áp dụng và quá
trình huấn luyện lâu dài trong tƣơng lai.
2.3.5. Hiểu ngôn ngữ tự nhiên (Natural Language Understanding - NLU)
NLU là phƣơng pháp giúp cho các chatbot hiểu đƣợc các câu lệnh của ngƣời
dùng mà không phải dựa trên bất kỳ ngôn ngữ, câu thoại, cấu trúc nào đƣợc định dạng
sẵn ở trong hệ thống, giúp chatbot có thể phản hồi nhanh chóng đến ngƣời dùng. NLU
là một kỹ thuật nâng cao của NLP. NLU thƣờng đƣợc sử dụng cho các chatbot nhận
diện giọng nói. Các công ty, tập đoàn công nghệ hàng đầu thế giới đã đi đầu trong việc
ứng dụng NLU vào quá trình hình thành các công nghệ AI đầu tiên, là cha đẻ của

46

Chatbot nhƣ Alexa của Amazon, Siri của Apple, Google’s Assistant của Google và
Cortana của Microsoft.

Hình 2.4. Hệ thống chatbot sử sử dụng phương pháp NLU [17]
NLU giúp giải quyết một trong những vấn đề mà bất kỳ công nghệ AI nào cũng
gặp phải không chỉ riêng chatbot là làm thế nào để xử lý những dữ liệu đầu vào không
có cấu trúc cụ thể, không có định dạng rõ ràng, không có thuật toán, quy tắc quản lý
chặt chẽ. Với phƣơng pháp NLU, hệ thống có thể hiểu đƣợc dữ liệu đầu vào và tƣơng
tác lại với con ngƣời một cách dễ dàng. NLU có thể giúp chatbot hiểu đƣợc ý định của
mỗi ngƣời dùng thậm chí không cần đƣợc huấn luyện từ trƣớc. NLU hơn cả việc hiểu
và giải thích từ ngữ thông thƣờng, NLU có khả năng hiểu đƣợc ý nghĩa ngƣời dùng kể
cả các trƣờng hợp lỗi phổ biến nhƣ phát âm sai hoặc không đúng văn phạm, chính tả.
2.4. CÁC VẤN ĐỀ CƠ BẢN KHI PHÁT TRIỂN HỆ THỐNG CHATBOT
Để các chatbot có thể giao tiếp với ngƣời dùng nó cần phải hiểu văn bản trong
các câu hỏi của ngƣời dùng và đƣa ra những câu trả lời phù hợp. Thành phần đảm
nhiệm công việc này trong hệ thống chatbot đƣợc gọi là Natural Language
Understanding (NLU). Các kĩ thuật xử lý ngôn ngữ tự nhiên sẽ đƣợc áp dụng để có thể
hiểu đƣợc yêu cầu và trả lời yêu cầu một cách phù hợp nhất. Hiện nay, phƣơng pháp
tạo chatbot phổ biến nhất là các chatbot đƣợc sử dụng trong miền ứng dụng đóng
(closed domain) và trả lời theo mô hình truy xuất thông tin (retrieval-based model).
Mô hình truy xuất thông tin là mô hình trong đó, chatbot đƣa ra những phản hồi đƣợc
chuẩn bị trƣớc hoặc tuân theo những mô thức nhất định. Mô hình này khác với mô
hình tự động sinh câu trả lời (generative-based model), trong đó câu trả lời của chatbot
đƣợc tự động sinh ra bằng việc học từ một tập dữ liệu các đoạn hội thoại [18]. Các hệ
thống chatbot đƣợc triển khai trong thực tế phần lớn tuân theo mô hình truy xuất thông
tin và đƣợc áp dụng trong những miền ứng dụng nhất định.

47

Ba vấn đề xử lý ngôn ngữ tự nhiên cơ bản trong phát triển hệ thống chatbot
trong miền ứng dụng đóng và theo mô hình truy xuất thông tin [23]:
1) Xác định ý định ngƣời dùng (intent detection).
2) Trích xuất thông tin (information extraction).
3) Quản lý hội thoại (Dialog management).
2.4.1. Xác định ý định ngƣời dùng
Ngƣời dùng khi sử dụng hệ thống chatbot, dựa trên các câu hỏi truy vấn của họ
hệ thống sẽ xử lý để tìm ra câu trả lời phù hợp nhất. Ví dụ ngƣời dùng của hệ thống
chatbot hỗ trợ tƣ vấn du lịch có thể đƣa ra yêu cầu cung cấp thông tin về một địa điểm
du lịch nào đó hoặc có những câu hỏi cần sự trả lời tƣ vấn cho họ. Để đƣa ra hỗ trợ
đƣợc chính xác, chatbot cần xác định đƣợc ý định (intent) đó của ngƣời dùng. Việc xác
định ý định của ngƣời dùng là rất quan trọng, nó sẽ quyết định hội thoại tiếp theo giữa
ngƣời dùng và chatbot sẽ diễn ra nhƣ thế nào, có thỏa mãn yêu cầu của họ và quá trình
trao đổi có phù hợp giữa hỏi – trả lời hay không. Vì thế, nếu xác định sai ý định ngƣời
dùng, chatbot sẽ đƣa ra những phản hồi không đúng, không hợp ngữ cảnh. Khi đó,
ngƣời dùng có thể sẽ dừng sử dụng và không tiếp tục sử dụng hệ thống trong tƣơng lai.
Bài toán xác định ý định ngƣời dùng vì thế đóng vai trò rất quan trọng trong hệ thống
chatbot.
Đối với các miền ứng dụng đóng, chúng ta có thể giới hạn số lƣợng ý định của
ngƣời dùng nằm trong một tập hữu hạn các ý định đã đƣợc định nghĩa sẵn. Các ý định
đƣợc xây dựng có liên quan đến những nội dung mà chatbot đó có thể hỗ trợ. Do đó,
bài toán xác định ý định ngƣời dùng có thể quy về bài toán phân lớp văn bản. Do đó
xác định ý định ngƣời dùng có thể gọi là phân loại ý định (intent classification). Với
đầu vào là một câu giao tiếp của ngƣời dùng, hệ thống phân lớp sẽ xác định ý định
tƣơng ứng với câu đó trong tập các ý định đã đƣợc định nghĩa. Để xây dựng một mô
hình phân lớp ý định, chúng ta cần một tập dữ liệu huấn luyện bao gồm các cách diễn
đạt khác nhau cho mỗi ý định. Ví dụ, cùng một mục đích hỏi về địa điểm du lịch ở
Quảng Bình, ngƣời dùng có thể dùng những cách diễn đạt sau:
 Ở Quảng Bình có những địa điểm du lịch nào hấp dẫn?
 Những địa điểm du lịch nổi tiếng ở Quảng Bình là gì?
 Quảng Bình có những địa điểm du lịch nào có đông khách?
 Cho mình xin danh sách các địa điểm du lịch ở Quảng Bình?

48

Bƣớc tạo dữ liệu huấn luyện cho bài toán phân lớp ý định là một trong những
công việc quan trọng nhất khi phát triển hệ thống chatbot và ảnh hƣởng rất lớn tới chất
lƣợng của hệ thống chatbot. Công việc này đòi hỏi thời gian, công sức khá lớn của nhà
phát triển chatbot.
Mô hình học máy cho bài toán phân lớp ý định ngƣời dùng
Dựa trên dữ liệu huấn luyện cho bài toán phân lớp ý định, chúng ta sẽ mô hình
bài toán thành bài toán phân lớp văn bản. Bài toán phân lớp văn bản là một bài toán
kinh điển trong xử lý ngôn ngữ tự nhiên và có rất nhiều thuật toán phân lớp khác nhau
có thể đƣợc sử dụng. Mô hình phân lớp văn bản cho bài toán phân lớp ý định có thể
đƣợc phát biểu một cách hình thức nhƣ sau:
Cho một tập huấn luyện bao gồm các cặp (câu hội thoại, ý định), D = {(x
(1)
,
y
(1)
),…, (x
(n)
, y
(n)
)}, trong đó x
(i)
là các câu hội thoại và y
(i)
là ý định tƣơng ứng của câu
hội thoại x
(i)
. Các ý định y
(i)
nằm trong một tập hữu hạn Κ các ý định đã đƣợc định
nghĩa trƣớc. Chúng ta cần học từ tập huấn luyện này một mô hình phân lớp có chức
năng phân lớp một câu hội thoại mới vào một trong các ý định thuộc tập K. Kiến trúc
của hệ thống phân lớp ý định đƣợc minh hoạ trong hình sau.

Hình 2.5. Kiến trúc của hệ thống phân lớp ý định [23]
Trong bƣớc tiền xử lý dữ liệu, chúng ta sẽ thực hiện các thao tác “làm sạch” dữ
liệu nhƣ: loại bỏ các thông tin dƣ thừa, chuẩn hoá dữ liệu nhƣ chuyển các từ viết sai
chính tả thành đúng chính tả, chuẩn hoá các từ viết tắt,… Việc tiền xử lý dữ liệu có vai
trò quan trọng trong hệ thống chatbot do đặc thù của ngôn ngữ chat, nói: viết tắt, sai
chính tả, hay dùng tiếng lóng. Sau khi tiền xử lý dữ liệu và thu đƣợc dữ liệu đã đƣợc
làm sạch, chúng ta sẽ trích xuất những đặc trƣng từ dữ liệu này. Trong học máy, bƣớc
này đƣợc gọi là trích xuất đặc trƣng (feature extraction). Trong mô hình học máy
truyền thống, bƣớc trích xuất đặc trƣng ảnh hƣởng lớn đến độ chính xác của mô hình

49

phân lớp. Để trích xuất đƣợc những đặc trƣng tốt, chúng ta cần phân tích dữ liệu chi
tiết và cần cả những tri thức chuyên gia trong từng miền ứng dụng cụ thể.
Ở bƣớc huấn luyện, đầu vào là các đặc trƣng đã đƣợc trích xuất và áp dụng các
thuật toán học máy để sinh ra một mô hình phân lớp. Các mô hình phân lớp có thể là
các luật phân lớp (nếu sử dụng decision tree) hoặc là các vector trọng số tƣơng ứng với
các đặc trƣng đƣợc trích xuất (nhƣ trong các mô hình logistic regression, SVM, hay
mạng Neural). Chúng ta có thể sử dụng mô hình phân lớp đã đƣợc sinh ra để phân lớp
một câu hội thoại mới. Với mỗi câu hội thoại đều phải thực hiện các bƣớc tiền xử lý và
trích xuất đặc trƣng, sau đó mô hình phân lớp mới đƣợc áp dụng trên dữ liệu đã tiền xử
lý để xác định “điểm số” cho từng ý định trong tập các ý định và đƣa ra ý định có điểm
số cao nhất.
Mô hình dựa trên đối sánh nội dung
Mô hình phân lớp ý định dựa trên học máy thống kê yêu cầu dữ liệu huấn luyện
bao gồm các cách diễn đạt khác nhau cho mỗi ý định. Dữ liệu huấn luyện này thông
thƣờng đƣợc chuẩn bị một cách thủ công. Bƣớc chuẩn bị dữ liệu này mất rất nhiều thời
gian và công sức, đặc biệt là trong các ứng dụng mà số lƣợng ý định lớn. Một cách tiếp
cận khác có thể giảm chi phí chuẩn bị dữ liệu huấn luyện là sử dụng mô hình đối sánh
thông tin dựa vào nội dung của hội thoại. Với phƣơng pháp này, tập dữ liệu chuẩn bị
trƣớc là các cặp câu hỏi – trả lời. Với một câu hội thoại, thuật toán đối sánh thông tin
sẽ đƣợc áp dụng để đối sánh với từng câu hỏi trong tập dữ liệu. Câu trả lời cho câu hỏi
có nội dung gần giống nhất với câu đầu vào sẽ đƣợc lựa chọn. Các phƣơng pháp tính
tƣơng đồng văn bản sẽ đƣợc áp dụng để tìm ra giá trị tƣơng đồng trong mỗi so sánh.
Một trong những thách thức của mô hình đối sánh nội dung là việc xử lý những cách
diễn đạt khác nhau cho cùng một câu hỏi yêu cầu. Vì số lƣợng mẫu cho mỗi ý định
không nhiều, mô hình đối sánh sẽ phải sử dụng các luật hoặc tài nguyên ngữ nghĩa để
xử lý những biến thể khác nhau khi diễn đạt một từ, một cụm từ, hay một ý trong câu.
Mô hình lai
Mô hình lai (hybrid model) là mô hình có thể kết hợp nhiều mô hình khác nhau
nhƣ mô hình học máy, mô hình đối sánh nội dung và đặc biệt là các kỹ thuật tiến bộ
trong AI. Mô hình lai sẽ khắc phục đƣợc nhƣợc điểm của tính đa nghĩa và phong phú
trong diễn đạt của ngôn ngữ tự nhiên của phƣơng pháp đối sáng nội dung, giảm chi phí
cho chuẩn bị dữ liệu huấn luyện của học máy.
2.4.2. Trích xuất thông tin

chatbot_ đồ án tốt nghiệp đại học mở.pdf

About This Presentation

Slide Content

Tags

Categories

Download

Quick Actions

Statistics

Related Slideshows

chatbot_ đồ án tốt nghiệp đại học mở.pdf

About This Presentation

Slide Content

Slide 1

Slide 2

Slide 3

Slide 4

Slide 5

Slide 6

Slide 7

Slide 8

Slide 9

Slide 10

Slide 11

Slide 12

Slide 13

Slide 14

Slide 15

Slide 16

Slide 17

Slide 18

Slide 19

Slide 20

Slide 21

Slide 22

Slide 23

Slide 24

Slide 25

Slide 26

Slide 27

Slide 28

Slide 29

Slide 30

Slide 31

Slide 32

Slide 33

Slide 34

Slide 35

Slide 36

Slide 37

Slide 38

Slide 39

Slide 40

Slide 41

Slide 42

Slide 43

Slide 44

Slide 45

Slide 46

Slide 47

Slide 48

Slide 49

Slide 50

Slide 51

Slide 52

Slide 53

Slide 54

Slide 55

Slide 56

Slide 57

Slide 58

Slide 59

Slide 60

Tags

Categories

Download

Quick Actions

Statistics

Related Slideshows

Patient with vertigo if comes to opd how to diagnose

PLANIFICACION MICRO CURRICULAR PRIMER TRIMESTER.docx

Cuento MONSTRUO DE COLORES Anna Llenas.pdf

INVITACIÓN CHOCOLATADA nivel inicial de 4. 5 años

PALABRAS MAGICAS CLASE uso palabras magicas

Instituto Mexicano del Seguro Social presentación