Bài toán phát hiện biển số xe máy Việt Nam
Lời mở đầu
Bài toán nhận diện biển số xe Việt Nam là một bài toán không còn mới, đã được phát triển dựa trên các phương pháp xử lý ảnh truyền thống và cả những kỹ thuật mới sử dụng Deep Learning. Trong bài toán này mình chỉ phát triển bài toán phát hiện biển số (một phần trong bài toán nhận diện biển số) dựa trên thuật toán YOLO-Tinyv4 với mục đích:
Hướng dẫn chuẩn bị dữ liệu cho bài toán Object Detection.
Hướng dẫn huấn luyện YOLO-TinyV4 dùng darknet trên Google Colab.
Chuẩn bị dữ liệu
Đánh giá bộ dữ liệu
Kích thước các biển số xe không có sự đa dạng, do khoảng cách từ camera đến biển số xe xấp xỉ gần bằng nhau giữa các ảnh.
Ảnh có độ sáng thấp và gần giống nhau do ảnh được chụp trong hầm chung cư.
Các phương pháp tăng sự đa dạng của bộ dữ liệu
Đa dạng kích thước của biển số
Đa dạng kích thước bằng 2 cách:
Cách 1: Thu nhỏ kích thước biển bằng cách thêm biên kích thước ngẫu nhiên vào ảnh gốc, sau đó resize ảnh bằng kích thước ảnh ban đầu.
Cách 2: Crop ảnh chứa biển số với kích thước ngẫu nhiên, sau đó resize ảnh bằng kích thước ảnh ban đầu.
# Cách1 def add_boder(image_path, output_path, low, high): """ low: kích thước biên thấp nhất (pixel) hight: kích thước biên lớn nhất (pixel) """ # random các kích thước biên trong khoảng (low, high) top = random.randint(low, high) bottom = random.randint(low, high) left = random.randint(low, high) right = random.randint(low, high) image = cv2.imread(image_path) original_width, original_height = image.shape[1], image.shape[0] #sử dụng hàm của opencv để thêm biên image = cv2.copyMakeBorder(image, top, bottom, left, right, cv2.BORDER_REPLICATE) #sau đó resize ảnh bằng kích thước ban đầu của ảnh image = cv2.resize(image, (original_width, original_height)) cv2.imwrite(output_path, image)
def random_crop(image_path, out_path): image = cv2.imread(image_path)
original_width, original_height = image.shape[1], image.shape[0] x_center,y_center = original_height//2, original_width//2
x_left = random.randint(0, x_center//2) x_right = random.randint(original_width-x_center//2, original_width)
y_top = random.randint(0, y_center//2) y_bottom = random.randint(original_height-y_center//2, original_width)
# crop ra vùng ảnh với kích thước ngẫu nhiên cropped_image = image[y_top:y_bottom, x_left:x_right] # resize ảnh bằng kích thước ảnh ban đầu cropped_image = cv2.resize(cropped_image, (original_width, original_height)) cv2.imwrite(out_path, cropped_image)
def change_brightness(image_path, output_path, value): """ value: độ sáng thay đổi """ img=cv2.imread(image_path) hsv = cv2.cvtColor(img, cv2.COLOR_BGR2HSV) h, s, v = cv2.split(hsv) v = cv2.add(v, value) v[v < 0] = 0 final_hsv = cv2.merge((h, s, v)) img = cv2.cvtColor(final_hsv, cv2.COLOR_HSV2BGR) cv2.imwrite(output_path, img) import imutils def rotate_image(image_path, range_angle, output_path): """ range_angle: Khoảng góc quay """ image = cv2.imread(image_path) #lựa chọn ngẫu nhiên góc quay angle = random.randint(-range_angle, range_angle) img_rot = imutils.rotate(image, angle) cv2.imwrite(output_path, img_rot)
Trong bài toán sử dụng mô hình YOLO, mình lưu file annotation dưới dạng .txt.
Lưu ý: Với bài toán có nhiều nhãn, nhiều người cùng gán nhãn thì cần thống nhất với nhau trước về thứ tự nhãn. Nguyên nhân do trong file annotation chỉ lưu chỉ số (0,1,3,4,…) của nhãn chứ không lưu tên nhãn.
Sau khi gán nhãn xong các bạn để file annotation và ảnh tương ứng vào cùng một thư mục.
Huấn luyện mô hình
Giới thiệu về YOLO-Tinyv4 và darknet
YOLO-Tinyv4
YOLOv4 là thuật toán Object Detection, mới được công bố trong thời gian gần đây với sự cải thiện về kết quả đáng kể so với YOLOv3.
YOLOv4 cho kết quả real-time khi chạy trên các nền tảng GPU cao cấp. Với mục đích trade-off giữa độ chính xác và tốc độ để có thể chạy trên các nền tảng CPU và GPU thấp hơn thì YOLO-Tinyv4 được ra đời.
Darknet
Darknet là một framework open source chuyên về Object Detection được viết bằng ngôn ngữ C và CUDA. Darknet dùng để huấn luyện các mô hình YOLO một cách nhanh chóng, dễ sử dụng.
Cấu hình darknet
Việc cấu hình trực tiếp trên Google Colab tương đối khó khăn với những bạn chưa quen làm việc với linux, bên cạnh đó vấn đề delay kết nối giữa Google Colab với drive trong một số trường hợp. Vì vậy mình sẽ hướng dẫn các bạn cấu hình trên máy cá nhân, xong nén thành file .zip, sau đó đẩy lên Google Drive.
Việc cấu hình trải qua các bước:
Bước 1: Clone darknet về máy.
Bước 3: Tạo file yolo-tinyv4-obj.cfg.
Tạo file chúng tôi với nội dung tương tự file chúng tôi trong thư mục darknet/cfg, sau đó chỉnh sử một số dòng:
Dòng 6: Thay đổi batch=64. Nghĩa là: batch = số ảnh (cả file annotation) được đưa vào huấn luyện trong một batch.
Dòng 7: Thay đổi subdivisions=16. Trong một batch được chia thành nhiều block, mỗi block chứa batch/subdivisions ảnh được đưa vào GPU xử lý tại một thời điểm. Weights của mô hình được update sau mỗi batch.
Dòng 20: Thay đổi max_batches=classes2000, không nhỏ hơn số ảnh trong tập huấn luyện, và không nhỏ hơn 6000 (theo đây}). VD: max_batches=6000.
Dòng 22: Thay đổi steps= 80%, 90% max_batches. VD: steps=4800,5400. Sau khi huấn luyện được 80%, 90% max_batches, learning_rate sẽ được nhân với một tỷ lệ (dòng 23 trong file), mặc định là 0.1.
Thay đổi classes=1 trong mỗi layer [yolo], dòng 217, 266.
Thay đổi filters trong mỗi layer [convolutional] trước layer [yolo] theo công thức filters=(số class+5)*3. Trong bài toán này filters=18.
Bước 4: Tạo file obj.names chứa tên của các class, sau đó lưu trong thư mục darknet/data.
Bước 8: Nén thư mục darknet thành file chúng tôi sau đó đưa lên Google Drive.
Huấn luyện model trên colab
Để thực thi các lệnh command line trong colab sử dụng thêm ! trước mỗi câu lệnh.
#Sau khi mount với drive. Chuyển đến thư mục chứa file chúng tôi vừa tải lên #Ví dụ mình để ở thư mục gốc của Google Drive cd drive/My Drive #Giải nén file darknet.zip !unzip darknet.zip #Chuyển đến thư mục darknet cd darknet #Tạo thư mục backup để lưu lại weights khi huấn luyện #Tên thư mục phải trùng với link folder backup trong file chúng tôi trên !mkdir backup #Tạo file chúng tôi chúng tôi theo đoạn code import os import numpy as np #"obj" là tên thư mục chứa cả ảnh và file annotation. lst_files = os.listdir("data/obj/") lst_images = [] for file in lst_files: if ".txt" not in file: lst_images.append(file) #Tách 200 ảnh ra làm tập validation random_idx = np.random.randint(0, len(lst_images), 200) #Tạo file chúng tôi được đặt trong thư mục darknet/data with open("data/train.txt","w") as f: for idx in range(len(lst_images)): if idx not in random_idx: f.write("data/obj/"+lst_images[idx]+"n") #Tạo file chúng tôi được đặt trong thư mục darknet/data with open("data/valid.txt","w") as f: for idx in random_idx: f.write("data/obj/"+lst_images[idx]+"n") #Biên dịch darknet (chỉ cần biên dịch một lần, lần sau dùng bỏ qua bước này) !make #Phân quyền thực thi module darknet !chmod +x ./darknet
Bắt đầu quá trình huấn luyện sử dụng command line:
!./darknet detector train data/obj.data chúng tôi yolov4-tiny.conv.29 -map
Cú pháp tổng quát để huấn luyện:
!./darknet detector train [data config file] [model config file] [pre-trained weights]
-map: Dùng để hiển thị mAP được tính trên tập validation.
Nếu bạn gặp lỗi:CUDA Error: out of memory: File exists thì hãy quay lại sửa subdivisions=32 trong file yolo-tinyv4-obj.cfg
Theo dõi quá trình huấn luyện
Quá trình huấn luyện sẽ được lưu vào file yolotinv4_lisenceplate.log, ngoài ra darknet tự động tạo ra ảnh chúng tôi lưu trong thư mục darknet và được cập nhật liên tục để theo dõi trực tiếp thông số của quá trình huấn luyện.
Dự đoán
Sau khi huấn luyện xong, toàn bộ weights sẽ được lưu trong folder backup.
#Danh sách các weights được lưu !ls backup/ !./darknet detector test [data config file] [model config file] [best-weights] [image path] #cụ thể như sau !./darknet detector test data/obj.data chúng tôi backup/yolo-tinyv4-obj_best.weights test1.jpg
Kết quả dự đoán được lưu thành file predictions.jpg
#Hàm sau được dùng để hiển thị kết quả dự đoán lên colab def show(path): import cv2 import matplotlib.pyplot as plt image = cv2.imread(path) original_width, original_height = image.shape[1], image.shape[0] resized_image = cv2.resize(image, (2*original_width, 2*original_height) , interpolation = cv2.INTER_CUBIC) resized_image = cv2.cvtColor(resized_image, cv2.COLOR_BGR2RGB) plt.figure(figsize=(20,10)) plt.axis("off") plt.imshow(resized_image) plt.show() show("predictions.jpg")