EfficientNet - Cách mạng hóa mạng neural hiện đại.pdf

aicandy 142 views 9 slides Dec 02, 2024
Slide 1
Slide 1 of 9
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9

About This Presentation

EfficientNet được thiết kế để giải quyết những hạn chế này bằng cách đề xuất một phương pháp mở rộng cân bằng (compound scaling). Thay vì tăng một trong các yếu tố như depth, width, hoặc resolution, EfficientNet mở rộng tất cả các yếu ...


Slide Content

https://aicandy.vn/efficientnet-cach-mang-hoa-mang-neural-hien-dai/
Bản quyền thuộc về: https://aicandy.vn


Học tập toàn diện: Kết nối lý thuyết, thực hành và dữ liệu thực tế
https://aicandy.vn
1

EfficientNet: Cách mạng hóa mạng neural
hiện đại
Nội dung
 1. Giới thiệu
 2. Kiến trúc
o 2.1. Compound Scaling
o 2.2. Mobile Inverted Bottleneck Convolution (MBConv)
o 2.3. Squeeze-and-Excitation (SE) Blocks
 3. Các phiên bản
o 3.1. EfficientNet-B0
o 3.2. EfficientNet-B1
o 3.3. EfficientNet-B2
o 3.4. EfficientNet-B3
o 3.5. EfficientNet-B4
o 3.6. EfficientNet-B5
o 3.7. EfficientNet-B6
o 3.8. EfficientNet-B7
 4. Ứng dụng
o 4.1. Nhận diện và phân loại hình ảnh
o 4.2. Phát hiện đối tượng và phân đoạn ảnh
o 4.3. Ứng dụng trong công nghiệp
 5. Hiệu suất
o 5.1. Độ chính xác
o 5.2. Giảm tài nguyên
o 5.3. Phù hợp nhiều loại thiết bị
 6. Kết luận
1. Giới thiệu
Trong những năm gần đây, trí tuệ nhân tạo (AI) và học sâu (deep learning)
đã có những bước tiến vượt bậc, với nhiều ứng dụng đột phá trong nhận
diện hình ảnh, xử lý ngôn ngữ tự nhiên, và nhiều lĩnh vực khác.
Trong đó, các mô hình mạng neural convolutional (CNNs) đã trở thành nền
tảng cho nhiều hệ thống AI hiện đại. Một trong những kiến trúc CNN nổi
bật nhất trong thời gian gần đây là EfficientNet, được giới thiệu bởi nhóm
nghiên cứu của Google Brain vào năm 2019. EfficientNet không chỉ đem lại
hiệu suất cao mà còn tối ưu hóa về mặt tài nguyên, giúp mô hình hoạt động
tốt trên cả các thiết bị hạn chế về phần cứng.

https://aicandy.vn/efficientnet-cach-mang-hoa-mang-neural-hien-dai/
Bản quyền thuộc về: https://aicandy.vn


Học tập toàn diện: Kết nối lý thuyết, thực hành và dữ liệu thực tế
https://aicandy.vn
2

Các kiến trúc CNN cổ điển như AlexNet, VGGNet, và ResNet đã mang lại những
bước nhảy vọt trong hiệu suất của các hệ thống nhận diện hình ảnh. Tuy nhiên,
một trong những vấn đề lớn với các mô hình này là sự phức tạp và yêu cầu tài
nguyên phần cứng rất cao.
Để cải thiện độ chính xác, các nhà nghiên cứu thường tăng số lớp (depth), số
kênh (width), hoặc kích thước đầu vào (resolution) của mô hình. Việc mở
rộng này không phải lúc nào cũng hiệu quả và thường dẫn đến vấn đề về
quá khớp (overfitting) hoặc đòi hỏi bộ nhớ lớn.
EfficientNet được thiết kế để giải quyết những hạn chế này bằng cách đề xuất một
phương pháp mở rộng cân bằng (compound scaling). Thay vì tăng một trong các
yếu tố như depth, width, hoặc resolution, EfficientNet mở rộng tất cả các yếu tố
này theo một tỷ lệ nhất định, dựa trên việc tối ưu hóa hiệu suất và tài nguyên phần
cứng.

2. Kiến trúc
Kiến trúc của EfficientNet dựa trên mô hình nền tảng là MobileNetV2 và
MnasNet, hai mô hình được tối ưu hóa cho các thiết bị di động. EfficientNet
áp dụng phương pháp compound scaling để mở rộng mô hình từ một phiên

https://aicandy.vn/efficientnet-cach-mang-hoa-mang-neural-hien-dai/
Bản quyền thuộc về: https://aicandy.vn


Học tập toàn diện: Kết nối lý thuyết, thực hành và dữ liệu thực tế
https://aicandy.vn
3

bản nhỏ (EfficientNet-B0) lên các phiên bản lớn hơn (EfficientNet-B1 đến B7),
trong đó B7 là phiên bản lớn nhất và chính xác nhất.

2.1. Compound Scaling
Compound Scaling trong EfficientNet là một phương pháp mở rộng mô
hình theo ba chiều chính: chiều sâu (depth), chiều rộng (width), và độ phân
giải ảnh (resolution). Thay vì chỉ tăng một chiều như các phương pháp
truyền thống, EfficientNet đồng thời mở rộng cả ba chiều theo một tỷ lệ cân
bằng đã được tối ưu hóa. Cách tiếp cận này giúp cải thiện hiệu suất mô hình
mà không làm tăng quá mức số lượng tham số hoặc yêu cầu tài nguyên tính
toán, mang lại độ chính xác cao hơn với hiệu quả tính toán tối ưu.
2.2. Mobile Inverted Bottleneck Convolution (MBConv)
Một trong những điểm đặc biệt của EfficientNet là sử dụng các khối
MBConv, tương tự như trong MobileNetV2. Khối MBConv kết hợp giữa các
convolution điểm 1×1 (pointwise convolution) và depthwise convolution,
giúp giảm số lượng tham số nhưng vẫn giữ được độ chính xác cao.
2.3. Squeeze-and-Excitation (SE) Blocks
EfficientNet cũng sử dụng các khối Squeeze-and-Excitation (SE) để tự động
điều chỉnh trọng số của các kênh, giúp mô hình tập trung vào các kênh quan

https://aicandy.vn/efficientnet-cach-mang-hoa-mang-neural-hien-dai/
Bản quyền thuộc về: https://aicandy.vn


Học tập toàn diện: Kết nối lý thuyết, thực hành và dữ liệu thực tế
https://aicandy.vn
4

trọng hơn. SE block hoạt động bằng cách học các hệ số điều chỉnh (attention)
cho từng kênh, dựa trên giá trị tổng hợp của toàn bộ không gian đầu vào.
3. Các phiên bản
EfficientNet là một dòng mô hình CNN nổi bật, được thiết kế với mục tiêu
tối ưu hóa hiệu suất đồng thời giảm thiểu tài nguyên tính toán.EfficientNet
bao gồm nhiều phiên bản, từ EfficientNet-B0 đến EfficientNet-B7, mỗi phiên
bản là sự mở rộng của phiên bản trước đó thông qua phương pháp mở rộng
cân bằng (compound scaling). Đây là điểm nổi bật giúp EfficientNet có thể
duy trì sự cân bằng giữa độ chính xác và tài nguyên phần cứng khi kích
thước mô hình tăng lên.
3.1. EfficientNet-B0
EfficientNet-B0 là phiên bản đầu tiên và nhỏ nhất trong dòng EfficientNet,
được xem là cơ sở để mở rộng các phiên bản sau. Kiến trúc của EfficientNet-
B0 được tối ưu hóa dựa trên việc tìm kiếm cấu trúc neural (neural
architecture search – NAS), nhằm tìm ra cấu trúc mô hình tối ưu nhất về độ
chính xác và hiệu quả tính toán.
3.2. EfficientNet-B1

Phiên bản mở rộng đầu tiên, EfficientNet-B1 tăng chiều sâu và chiều rộng
của các lớp mạng, cùng với việc tăng độ phân giải ảnh đầu vào từ 224×224
lên 240×240 pixel. Phiên bản này có khoảng 7.8 triệu tham số và yêu cầu 0.7
tỷ FLOPs, với độ chính xác khoảng 79.2% trên ImageNet.

https://aicandy.vn/efficientnet-cach-mang-hoa-mang-neural-hien-dai/
Bản quyền thuộc về: https://aicandy.vn


Học tập toàn diện: Kết nối lý thuyết, thực hành và dữ liệu thực tế
https://aicandy.vn
5

3.3. EfficientNet-B2
EfficientNet-B2 tiếp tục tăng độ phân giải đầu vào lên 260×260 pixel, cùng
với việc tăng thêm một số lớp mạng. Số lượng tham số và FLOPs cũng tăng
lên lần lượt là 9.2 triệu và 1.0 tỷ, với độ chính xác đạt khoảng 80.3%.
3.4. EfficientNet-B3

Với độ phân giải đầu vào là 300×300 pixel, EfficientNet-B3 có khoảng 12 triệu
tham số và yêu cầu 1.8 tỷ FLOPs. Độ chính xác của phiên bản này đạt 81.6%
trên ImageNet.
3.5. EfficientNet-B4
Đây là một trong những phiên bản lớn hơn với độ phân giải 380×380 pixel,
19 triệu tham số, và 4.2 tỷ FLOPs. EfficientNet-B4 đạt độ chính xác khoảng
82.9%, vượt trội hơn nhiều mô hình truyền thống lớn khác.
3.6. EfficientNet-B5
Phiên bản này sử dụng ảnh đầu vào có độ phân giải 456×456 pixel, với
khoảng 30 triệu tham số và 9.9 tỷ FLOPs. Độ chính xác đạt 83.6% trên
ImageNet, một kết quả ấn tượng so với kích thước của mô hình.
3.7. EfficientNet-B6
Với 43 triệu tham số và độ phân giải ảnh 528×528 pixel, EfficientNet-B6 yêu
cầu 19.0 tỷ FLOPs và đạt độ chính xác khoảng 84.0%.
3.8. EfficientNet-B7

https://aicandy.vn/efficientnet-cach-mang-hoa-mang-neural-hien-dai/
Bản quyền thuộc về: https://aicandy.vn


Học tập toàn diện: Kết nối lý thuyết, thực hành và dữ liệu thực tế
https://aicandy.vn
6

Là phiên bản lớn nhất và mạnh mẽ nhất, EfficientNet-B7 sử dụng độ phân
giải 600×600 pixel. Phiên bản này có khoảng 66 triệu tham số và yêu cầu tới
37.0 tỷ FLOPs cho mỗi dự đoán. Độ chính xác của EfficientNet-B7 đạt 84.4%,
một trong những kết quả cao nhất trên tập dữ liệu ImageNet.
4. Ứng dụng
EfficientNet đã được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau, từ
nhận diện hình ảnh, phân loại hình ảnh, đến các bài toán phức tạp hơn như
phát hiện đối tượng (object detection) và phân đoạn ảnh (image
segmentation).
4.1. Nhận diện và phân loại hình ảnh
EfficientNet đã chứng minh được khả năng vượt trội trong các bài toán nhận
diện và phân loại hình ảnh, với hiệu suất tốt trên nhiều tập dữ liệu chuẩn
như ImageNet. Đặc biệt, EfficientNet đạt được độ chính xác hàng đầu trong
khi yêu cầu ít tài nguyên hơn so với các mô hình khác.
4.2. Phát hiện đối tượng và phân đoạn ảnh
EfficientNet cũng được tích hợp vào các hệ thống phát hiện đối tượng như
YOLO và SSD, cũng như các mô hình phân đoạn ảnh như U-Net. Với khả
năng mở rộng linh hoạt, EfficientNet giúp các hệ thống này hoạt động nhanh
hơn và chính xác hơn.
4.3. Ứng dụng trong công nghiệp
EfficientNet đã được sử dụng trong nhiều ứng dụng thực tế, từ kiểm tra chất
lượng sản phẩm trong dây chuyền sản xuất, nhận diện khuôn mặt trong an
ninh, đến phân tích hình ảnh y tế. Nhờ khả năng hoạt động hiệu quả trên cả
các thiết bị phần cứng giới hạn, EfficientNet trở thành lựa chọn hàng đầu
trong nhiều ứng dụng công nghiệp.
5. Hiệu suất
EfficientNet là một trong những kiến trúc mạng nơ-ron nhân tạo (CNN)
được đánh giá cao nhất trong lĩnh vực thị giác máy tính, nhờ vào sự cân bằng

https://aicandy.vn/efficientnet-cach-mang-hoa-mang-neural-hien-dai/
Bản quyền thuộc về: https://aicandy.vn


Học tập toàn diện: Kết nối lý thuyết, thực hành và dữ liệu thực tế
https://aicandy.vn
7

tuyệt vời giữa độ chính xác và hiệu quả sử dụng tài nguyên tính toán. Hiệu
suất vượt trội của EfficientNet được thể hiện rõ ràng qua nhiều khía cạnh
như độ chính xác trên các tập dữ liệu chuẩn, hiệu quả tính toán (FLOPs), số
lượng tham số (parameters), và khả năng tổng quát hóa trên các nhiệm vụ
khác nhau.
5.1. Độ chính xác
EfficientNet đã thiết lập nhiều kỷ lục về độ chính xác trên các tập dữ liệu
chuẩn, đặc biệt là ImageNet, một trong những tập dữ liệu phổ biến và thách
thức nhất trong lĩnh vực nhận diện hình ảnh.
ImageNet
Trên tập dữ liệu ImageNet, các phiên bản EfficientNet từ B0 đến B7 liên tục
cải thiện độ chính xác. Với EfficientNet-B0, độ chính xác top-1 đạt 77.1%, một
con số ấn tượng cho một mô hình có kích thước nhỏ và tài nguyên tính toán
thấp. Khi tăng dần kích thước mô hình, phiên bản EfficientNet-B7 đạt độ
chính xác top-1 lên đến 84.4%, vượt qua nhiều mô hình CNN truyền thống
như ResNet, Inception, và VGG.
Các tập dữ liệu khác
EfficientNet cũng thể hiện sự vượt trội trên nhiều tập dữ liệu khác như
CIFAR-10, CIFAR-100, và các nhiệm vụ về phát hiện đối tượng (object
detection) và phân đoạn ảnh (image segmentation). Ví dụ, trong các bài toán
phát hiện đối tượng, EfficientNet khi được kết hợp với các kỹ thuật như FPN
(Feature Pyramid Networks) đã đạt được độ chính xác cao hơn nhiều so với
các kiến trúc cũ.
5.2. Giảm tài nguyên
Một trong những điểm mạnh đáng kể của EfficientNet là khả năng duy trì
hoặc thậm chí cải thiện độ chính xác trong khi giảm thiểu đáng kể tài nguyên
tính toán và số lượng tham số cần thiết. Điều này có được nhờ vào phương
pháp mở rộng cân bằng (compound scaling), giúp mô hình có thể mở rộng
theo ba chiều: chiều sâu (depth), chiều rộng (width), và độ phân giải ảnh
(resolution) mà không làm tăng quá mức tài nguyên.

https://aicandy.vn/efficientnet-cach-mang-hoa-mang-neural-hien-dai/
Bản quyền thuộc về: https://aicandy.vn


Học tập toàn diện: Kết nối lý thuyết, thực hành và dữ liệu thực tế
https://aicandy.vn
8

FLOPs và Số tham số
So với các mô hình CNN truyền thống, EfficientNet yêu cầu ít FLOPs hơn
để đạt được cùng một mức độ chính xác. Chẳng hạn, EfficientNet-B0 với chỉ
0.39 tỷ FLOPs đã đạt được độ chính xác tương đương với ResNet-50, một
mô hình cần tới 4 tỷ FLOPs. Các phiên bản lớn hơn như EfficientNet-B7 cũng
chỉ yêu cầu 37 tỷ FLOPs, nhưng đạt được độ chính xác top-1 cao hơn nhiều
so với các mô hình lớn khác như NASNet và AmoebaNet.
Tối ưu hóa kích thước
Nhờ vào việc tối ưu hóa kiến trúc thông qua Neural Architecture Search
(NAS), EfficientNet có thể đạt được một mô hình nhỏ gọn nhưng vẫn mạnh
mẽ. Số lượng tham số của EfficientNet-B0 chỉ khoảng 5.3 triệu, nhưng nó vẫn
có thể đạt được hiệu suất tương đương hoặc vượt trội hơn các mô hình lớn
hơn như ResNet-34 với 21 triệu tham số.
5.3. Phù hợp nhiều loại thiết bị
Một trong những ưu điểm lớn của EfficientNet là khả năng triển khai trên
nhiều loại thiết bị khác nhau, từ các hệ thống server mạnh mẽ đến các thiết
bị di động có tài nguyên hạn chế.
Trên Server
EfficientNet, đặc biệt là các phiên bản lớn như B7, có thể tận dụng tối đa khả
năng tính toán của các hệ thống server để xử lý các tập dữ liệu lớn trong thời
gian ngắn, đồng thời duy trì độ chính xác cao.
Trên thiết bị di động
Các phiên bản nhỏ hơn như EfficientNet-B0, B1 được thiết kế đặc biệt để
hoạt động hiệu quả trên các thiết bị di động với bộ nhớ và năng lượng hạn
chế. Nhờ vào số lượng tham số ít và yêu cầu FLOPs thấp, EfficientNet có thể
được triển khai trên các ứng dụng di động mà vẫn đảm bảo tốc độ xử lý và
độ chính xác.
6. Kết luận

https://aicandy.vn/efficientnet-cach-mang-hoa-mang-neural-hien-dai/
Bản quyền thuộc về: https://aicandy.vn


Học tập toàn diện: Kết nối lý thuyết, thực hành và dữ liệu thực tế
https://aicandy.vn
9

EfficientNet đại diện cho một bước tiến quan trọng trong việc phát triển các
mô hình CNN hiện đại, mang lại sự cân bằng tối ưu giữa hiệu suất và tài
nguyên. Nhờ vào kiến trúc linh hoạt và kỹ thuật compound scaling,
EfficientNet không chỉ đạt được độ chính xác cao mà còn hoạt động hiệu quả
trên các thiết bị phần cứng hạn chế. Trong tương lai, EfficientNet có thể tiếp
tục đóng vai trò quan trọng trong việc phát triển các hệ thống AI, đặc biệt là
trong các ứng dụng yêu cầu tối ưu hóa về mặt tài nguyên.
EfficientNet đã mở ra những hướng đi mới trong việc thiết kế và tối ưu hóa
các mô hình CNN, và chúng ta có thể kỳ vọng rằng các nguyên tắc đằng sau
nó sẽ tiếp tục ảnh hưởng đến những cải tiến tiếp theo trong lĩnh vực học sâu
và trí tuệ nhân tạo.
Bài trước
Danh mục
Bài sau
Chúc bạn thành công trong hành trình khám phá và ứng dụng trí tuệ nhân tạo
vào học tập và công việc. Đừng quên truy cập thường xuyên để cập nhật thêm
kiến thức mới tại AIcandy