Mo-hinh-YOLOv8-You-Only-Look-Onnnce.pptx

13PhmTrnDuyKhang12A2 9 views 11 slides Sep 22, 2025
Slide 1
Slide 1 of 11
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11

About This Presentation

xz


Slide Content

Mô hình YOLOv8 – You Only Look Once

Mở đầu Tổng quan về YOLOv8 YOLO (You Only Look Once) đã cách mạng hóa lĩnh vực phát hiện đối tượng với khả năng xử lý hình ảnh theo thời gian thực. Phiên bản YOLOv8 mới nhất ra mắt năm 2023 tiếp tục củng cố vị thế dẫn đầu, mang lại những cải tiến đáng kể về tốc độ và độ chính xác. YOLO là gì? Một mô hình mạng nơ-ron có khả năng phát hiện nhiều đối tượng trong một khung hình duy nhất. YOLOv8 có gì mới? Nâng cao hiệu suất, kiến trúc anchor-free và hỗ trợ đa nhiệm.

Cấu trúc Kiến trúc chi tiết của YOLOv8 YOLOv8 được xây dựng trên một nền tảng vững chắc với ba thành phần chính, mỗi thành phần đóng góp vào khả năng xử lý mạnh mẽ của mô hình. Backbone Sử dụng CSPDarknet cải tiến, hiệu quả hơn trong việc trích xuất các đặc trưng quan trọng từ hình ảnh. Neck PAN-FPN (Path Aggregation Network - Feature Pyramid Network) tối ưu hóa việc trộn lẫn các đặc trưng ở các tỷ lệ khác nhau, cải thiện khả năng phát hiện đối tượng đa kích thước. Head Sử dụng cơ chế dự đoán Anchor-free, cho phép mô hình dự đoán trực tiếp bounding box và các đặc trưng khác mà không cần các hộp neo định sẵn.

Cơ chế hoạt động Cách YOLOv8 phát hiện đối tượng YOLOv8 hoạt động bằng cách chia hình ảnh đầu vào thành các lưới (grid cells) và dự đoán đối tượng trong mỗi ô. Cơ chế anchor-free là điểm khác biệt lớn so với các phiên bản trước. Chia ảnh thành lưới: Hình ảnh được chia thành một lưới NxN. Mỗi ô lưới chịu trách nhiệm dự đoán các đối tượng có tâm nằm trong ô đó. Feature Maps đa tầng: Mô hình sử dụng các bản đồ đặc trưng (feature maps) ở nhiều tỷ lệ khác nhau để phát hiện đối tượng lớn và nhỏ. Anchor-free Prediction: Thay vì sử dụng các anchor box được định nghĩa trước như YOLOv5, YOLOv8 dự đoán trực tiếp kích thước và vị trí của bounding box cùng với điểm tin cậy và lớp đối tượng. Điều này giúp mô hình linh hoạt hơn và giảm thiểu lỗi do chọn anchor box không phù hợp.

Điểm mạnh Ưu điểm vượt trội của YOLOv8 YOLOv8 mang đến hàng loạt cải tiến, củng cố vị thế của dòng YOLO như một công cụ phát hiện đối tượng hàng đầu. Tốc độ thực Khả năng xử lý hình ảnh và video theo thời gian thực với thời gian phản hồi thấp, lý tưởng cho các ứng dụng yêu cầu độ trễ thấp. Độ chính xác cao Đạt được mAP (mean Average Precision) tốt hơn so với YOLOv5 và YOLOv7 trên nhiều bộ dữ liệu tiêu chuẩn, xây dựng trên tiến bộ học sâu và thị giác máy tính. Sự linh hoạt Không chỉ phát hiện, mô hình còn thực hiện phân đoạn, phân loại và ước tính tư thế. Hỗ trợ cả GPU và CPU, tích hợp TensorRT và OpenVino. Dễ sử dụng Hỗ trợ huấn luyện dễ dàng trên Python và PyTorch, thân thiện với nhà phát triển. So sánh độ chính xác và hiệu suất của các mô hình YOLO

Thách thức Hạn chế cần lưu ý của YOLOv8 Dù có nhiều ưu điểm, YOLOv8 vẫn có những thách thức nhất định mà người dùng cần cân nhắc khi triển khai. Yêu cầu phần cứng Việc huấn luyện các mô hình lớn của YOLOv8 đòi hỏi GPU mạnh mẽ và tài nguyên tính toán đáng kể. Nguy cơ Overfitting Với các bộ dữ liệu quá phức tạp hoặc ít đa dạng, mô hình có thể dễ bị overfitting, làm giảm hiệu suất trên dữ liệu mới. Đối tượng nhỏ Mặc dù đã cải thiện, YOLOv8 vẫn chưa phải là lựa chọn tốt nhất cho việc phát hiện các đối tượng cực nhỏ trong một số trường hợp đặc biệt.

Ứng dụng YOLOv8 trong thế giới thực Với tốc độ và độ chính xác vượt trội, YOLOv8 mở ra nhiều cánh cửa ứng dụng trong đa dạng các lĩnh vực, từ an ninh đến y tế. An ninh giám sát: Phát hiện và theo dõi người, phương tiện trong hệ thống camera. Giao thông thông minh: Nhận diện biển số, phân tích luồng giao thông để tối ưu hóa quản lý. Y tế: Hỗ trợ phân tích hình ảnh X-quang, CT để phát hiện bệnh lý sớm. Nông nghiệp: Phát hiện sâu bệnh, đếm vật nuôi hoặc phân loại nông sản. Công nghiệp: Kiểm tra chất lượng sản phẩm, phát hiện lỗi trên dây chuyền sản xuất. Bán lẻ: Phân tích hành vi khách hàng, quản lý hàng tồn kho thông minh.

So sánh YOLOv8 với các mô hình khác Đánh giá hiệu suất trên các tiêu chí quan trọng Mô hình Tốc độ (FPS) Độ chính xác (mAP) Dung lượng mô hình (MB) YOLOv8 80 55 25 GoogleNet 40 45 50 ResNet-50 20 50 100 DenseNet-121 15 48 80 VGG-16 5 35 500 Kết luận: YOLOv8 cân bằng tốt giữa tốc độ và độ chính xác, trở thành lựa chọn ưu việt cho nhiều ứng dụng thực tế.

Thuật toán xử lý ảnh của YOLOv8 Phân tích chi tiết quy trình xử lý từ đầu vào đến đầu ra YOLOv8 xử lý hình ảnh qua các bước tiền xử lý, trích xuất đặc trưng, kết hợp đặc trưng, dự đoán và hậu xử lý để phát hiện đối tượng hiệu quả. Neck Backbone Tiền xử lý Ảnh vào Tiền xử lý ảnh Ảnh đầu vào được điều chỉnh kích thước, chuẩn hóa và tăng cường dữ liệu (lật, xoay) để phù hợp với mô hình. Trích xuất đặc trưng (Backbone) Backbone (kiến trúc CSPDarknet-like) trích xuất các đặc trưng phân cấp từ ảnh, tạo ra các bản đồ đặc trưng ở nhiều tỷ lệ. Kết hợp đặc trưng (Neck) Phần neck (PAN-FPN) kết hợp các đặc trưng từ các cấp độ khác nhau của backbone, tăng cường khả năng phát hiện đối tượng đa kích thước. Dự đoán Anchor-Free (Head) Head trực tiếp dự đoán vị trí trung tâm, chiều rộng, chiều cao và xác suất lớp của đối tượng mà không cần anchor box định trước. Hậu xử lý Loại bỏ các bounding box có độ tin cậy thấp và áp dụng Non-Maximum Suppression (NMS) để chọn ra bounding box tốt nhất cho mỗi đối tượng.

Demo: YOLOv8 cho OCR Căn cước công dân Ứng dụng thực tế trong nhận diện và trích xuất thông tin Phát hiện vùng CCCD trong ảnh YOLOv8 xác định chính xác và cô lập vị trí của thẻ CCCD trong toàn bộ ảnh đầu vào, đảm bảo chỉ xử lý khu vực cần thiết. Xác định các trường thông tin Mô hình phát hiện và đánh dấu các trường dữ liệu quan trọng trên CCCD (Họ tên, Số CCCD, Ngày sinh, Địa chỉ, Ảnh chân dung) bằng các bounding box. Trích xuất văn bản từ các vùng đã phát hiện Công nghệ OCR được áp dụng để đọc và chuyển đổi văn bản từ từng bounding box thành dữ liệu số, sẵn sàng cho việc lưu trữ và phân tích. Kết quả cuối cùng Toàn bộ thông tin đã trích xuất được tổng hợp và trình bày dưới dạng có cấu trúc, dễ dàng tích hợp vào các hệ thống quản lý dữ liệu.

Kết luận Tương lai của YOLOv8 YOLOv8 là một bước tiến mạnh mẽ, tiếp tục khẳng định vị thế dẫn đầu của dòng YOLO trong phát hiện đối tượng thời gian thực. Mô hình này không chỉ cải thiện hiệu suất mà còn mở rộng khả năng ứng dụng, mang lại tiềm năng to lớn cho tương lai của AI. Tiềm năng YOLOv8 cân bằng xuất sắc giữa tốc độ và độ chính xác, là lựa chọn lý tưởng cho nhiều tác vụ. Hướng phát triển Tối ưu hóa cho thiết bị di động (edge devices), tích hợp với các công nghệ AI khác (NLP, multimodal). Tầm nhìn Đẩy mạnh ứng dụng AI vào đời sống, biến các hệ thống thông minh thành hiện thực.
Tags