Mạng không đề xuất vùng - pth - L6_Object_detection_One stage.pptx

phamthihuong 6 views 22 slides Nov 01, 2025
Slide 1
Slide 1 of 22
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22

About This Presentation

CNN


Slide Content

Bài 6: One stage – không đề xuất vùng 1

Đặc điểm Còn gọi là mạng một giai đoạn (one- stage) Các mạng này thường đề xuất một lưới box dày đặc trên ảnh ban đầu, thường có bước nhảy đều (stride) Từng box này sẽ được phân loại và hiệu chỉnh tọa độ (nếu box chứa đối tượng) bằng mạng CNN Các mạng một giai đoạn thường nhanh hơn và đơn giản hơn các mạng hai giai đoạn, nhưng độ chính xác có thể không cao bằng. 2

YOLO- You Only Look Once 3 YOLO chia toàn bộ ảnh đầu vào thành một lưới S × S. Mỗi ô trong lưới phát hiện vật thể nếu tâm của nó nằm trong ô đó . Với mỗi ô, mạng dự đoán : B hộp (bounding boxes) → mỗi hộp có tọa độ (x, y, w, h) . Confidence ( độ tin cậy ) : biểu diễn mức chắc chắn rằng có vật thể trong hộp và hộp này khớp với thật . confidence= Pr (object)× IoU ( pred,truth ) Pr( object ): xác suất có vật thể trong ô. IoU : độ giao nhau giữa hộp dự đoán và hộp thật .

YOLO- You Only Look Once 4 YOLO xử lý toàn bộ ảnh chỉ trong một lần chạy mạng nơ-ron , nên gọi là “You Only Look Once” . Giúp mô hình nhanh hơn nhiều so với các phương pháp hai giai đoạn ( như R-CNN, Faster R-CNN). Phát hiện trong một lần duy nhất , YOLO có thể giảm độ chính xác ở các vật thể nhỏ hoặc chồng chéo .

YOLO- You Only Look Once 5 YOLO chia ảnh thành các ô lưới (grid cells) Cấu trúc vector đầu ra cho mỗi ô Tổng cộng mỗi ô có B×5 + C giá trị . B: số lượng hộp mỗi ô dự đoán ( thường là 2 và d ự đoán đ ư ợc 1 loại vật thể ). C: số lớp cần nhận dạng . Kết quả đầu ra toàn mạng là tensor kích thước S×S×(B×5+C) .

YOLO- V1 6 YOLOv1 là một mạng CNN có cấu trúc gồm nhiều lớp tích chập (Convolutional layers), gộp (Pooling layers) và kết nối đầy đủ (Fully Connected layers). Nhiệm vụ: trích xuất đặc trưng (feature extraction) và dự đoán vị trí, kích thước, loại vật thể.

YOLO- V1 7 Input: 448×448×3 Conv Layer 1: 7×7×64 stride 2, trích xuất đặc trưng thô như cạnh, góc. Maxpool Layer: Giảm kích thước ảnh, giữ đặc trưng quan trọng . Conv Layers 2–6: Mỗi lớp học các đặc trưng phức tạp hơn. Conv Layers cuối 3×3×1024: Tạo bản đồ đặc trưng cuối cùng cho toàn bộ ảnh. FC 7×7×30: Biến đặc trưng không gian thành đầu ra dự đoán.

YOLO- Hàm mất mát 8 Tối thiểu hóa sai số (loss) giữa giá trị dự đoán và giá trị thật . Sai số vị trí ( tọa độ trung tâm x, y). Sai số kích thước hộp (w, h). Sai số confidence ( độ tin cậy có vật thể hay không ). Sai số phân loại (class probabilities).

YOLO- You Only Look Once Non-maximal suppression: gom các box lại để đưa ra kết quả cuối cùng nhờ giữ lại hộp có độ tin cậy cao nhất (confidence cao ) và loại bỏ những hộp trùng lặp . 9 Sắp xếp tất cả các hộp theo giá trị confidence ( từ cao → thấp ). Chọn hộp có confidence cao nhất làm hộp giữ lại . Tính IoU (Intersection over Union) giữa hộp này và các hộp khác . Loại bỏ những hộp có IoU lớn hơn một ngưỡng ( ví dụ 0.5). Lặp lại cho đến khi không còn hộp nào cần xử lý .

YOLO v2 10 Mỗi ô trong lưới có nhiều anchor box ( hộp neo) với kích thước và tỷ lệ khác nhau . Thay vì dự đoán trực tiếp toạ độ hộp , mô hình dự đoán độ lệch (offset) so với anchor box gần nhất . Phát hiện được nhiều vật thể trong cùng một vùng ảnh . Cải thiện độ chính xác với vật thể nhỏ và đa dạng tỷ lệ . Không có anchor box Có anchor box

YOLO v2 Mỗi ô có 5 anchor box. Với mỗi anchor mạng sẽ đưa ra các thông tin: offset của box: 4 số thực trong khoảng [0, 1] cho biết độ lệch của hộp dự đoán so với anchor gốc . Độ tin cậy box đó có khả năng chứa đối tượng (objectness score). Phân bố xác suất của đối tượng trong box đó ứng với các lớp đối tượng khác nhau (class scores). Tổng cộng mỗi ô có số đầu ra là: 5 * (4 + 1 + 20) = 125 số thực 5 anchor box 11

YOLO v2 YOLO v1 Image 448 x 448 x 3 CNN 7 x 7 x 1024 4096 2 FC Linear reg 7 x 7 x 30 YOLO v2 Image 448 x 448 x 3 CNN 7 x 7 x 1024 7 x 7 x 1024 2 x Conv3, 1024 7 x 7 x 125 1 x Conv1, 125 12

YOLO v2 Xác định kích thước mặc định của các anchor bằng cách áp dụng k-means trên tập box các đối tượng đã được đánh nhãn trong tập huấn luyện 13

YOLO v2 Nhược điểm của YOLO v1 và v2: Chỉ sử dụng feature map cuối cùng, khó phát hiện đối tượng kích thước nhỏ 14

YOLO v 12 15 YOLO12 tổ chức các lớp hiệu quả hơn bằng cách sử dụng R-ELAN, giúp cải thiện cách mô hình xử lý và học hỏi từ dữ liệu. Q uá trình huấn luyện ổn định hơn, khả năng nhận dạng đối tượng sắc nét hơn và yêu cầu tính toán thấp hơn, do đó nó chạy hiệu quả trên các môi trường khác nhau. Tất cả các dạng attention (4 dạng ) này giúp mô hình “tập trung” vào vùng quan trọng trong ảnh, thay vì xử lý mọi pixel như nhau.

YOLO v 12 16 K iến trúc khối trích xuất đặc trưng : YOLOv4 ( CSPNet ), YOLOv5/6 (ELAN), YOLOv8–10 (C2f/C3K2) cho đến YOLOv12 (R-ELAN). CSPNet (Cross Stage Partial Network): hiệu quả huấn luyện hạn chế với mô hình rất sâu . ELAN (Efficient Layer Aggregation Network): chưa tận dụng được hết mối quan hệ giữa các tầng. C3K2: c ấu trúc phức tạp hơn, tiêu tốn tài nguyên hơn R- elan (Recursive ELAN): tái sử dụng (recurrent) cấu trúc ELAN nhiều lần với khả năng mở rộngs linh hoạt , học đặc trưng sâu hơn nhưng tiết kiệm FLOPs

YOLO v 12 17 YOLO12 giới thiệu các cơ chế chú ý, cho phép mô hình tập trung vào các phần quan trọng nhất của hình ảnh thay vì xử lý mọi thứ một cách bình đẳng.  Nhanh hơn ( thấp latency). Chính xác hơn ( cao mAP ). Tối ưu hơn ( ít FLOPs hơn ).

SSD: Single Shot Detector Tương tự YOLO nhưng lưới box dày đặc hơn, có nhiều lưới với các kích thước box khác nhau Kiến trúc mạng backbone khác với YOLO : nhiều tầng feature map (b, c). 18 GT: Ground Truth – hộp thật

SSD: Single Shot Detector Mạng backbone: VGG- 16 Thêm các lớp tích chập phụ phía sau các lớp của mạng backbone Phát hiện đối tượng ở nhiều mức khác nhau trong mạng (Multi- scale) Liu et al. ECCV 2016. 19

SSD: Single Shot Detector @5x5x256 Feature map 5x5x 21classes 5x5x 4 box offset 3x3 conv 3x3 conv softmax Dự đoán 𝑝(𝑐𝑙𝑎𝑠𝑠) Hàm mục tiêu 𝐿 𝑥, 𝑐, , 𝑙, 𝑔 = 1 𝑁 (𝐿 𝑐𝑜𝑛𝑓 𝑥, 𝑐 (𝑥, 𝑦, 𝑤, ℎ) +𝛼𝐿 𝑙𝑜𝑐 (𝑥, 𝑙, 𝑔)) Feature map đầu vào 𝑝(𝑐𝑙𝑎𝑠𝑠 1 ) 3 𝑝(𝑐𝑙𝑎𝑠𝑠 2 ) 𝑝(𝑐𝑙𝑎𝑠𝑠 ) 𝑦 𝑥 𝑤 ℎ 20 Từ feature map → qua hai nhánh tích chập → dự đoán lớp & tọa độ → tính loss để huấn luyện .

More two- s t a g a e c o c b u j r e a c t t e de t e c t o r (proposal-driven mechanism) R- CNN Fast R- CNN Faster R- CNN Feature Pyramid Network (FPN) Mask R- CNN One-stage vs two- stage Faster and one- s t a g s e i m o b p j l e e c r t detector (dense sampling of object locations, scales, and aspect ratios) YOLO YOLO- v2 YOLO- v3 SSD DSSD MDCN RetinaNet CornetNet CenterNet EfficientDet SqueezeNet RedefineDet 21

22
Tags