
Trong bối cảnh chuyển đổi số và ứng dụng AI ngày càng đóng vai trò trung tâm tại Việt Nam, công nghệ nhận dạng ký tự quang học (OCR) đã trở thành công cụ không thể thiếu để số hóa tài liệu, tự động hóa quy trình và nâng cao hiệu quả quản trị.
Tuy nhiên, bài toán nhận dạng văn bản tiếng Việt, với đặc thù dấu câu, cấu trúc ngữ pháp và chữ viết tay, luôn đòi hỏi sự thấu hiểu ngữ cảnh vượt xa khả năng "đọc chữ" thông thường.
Trước thách thức đó, Viện Ứng dụng Công nghệ CMC (CMC ATI) đã phát triển mô hình CATI-VLM – một hệ thống hiểu tài liệu bằng thị giác máy tính (Visual Document Understanding). Dựa trên kho dữ liệu lớn tới 5TB, mô hình này vừa được xếp hạng Top 12 thế giới và Top 1 Việt Nam tại cuộc thi quốc tế Robust Reading Competition (RRC), hạng mục Document Visual Question Answering (DocVQA), tổ chức tháng 6/2025.
Đây là sân chơi uy tín toàn cầu do Trung tâm Thị giác Máy tính thuộc Đại học Autònoma de Barcelona khởi xướng từ năm 2011, luôn đồng hành cùng hội nghị quốc tế ICDAR – diễn đàn hàng đầu thế giới về nhận dạng văn bản và thị giác máy tính.

CATI-VLM gây ấn tượng khi đạt độ chính xác cao nhất ở 4/7 bộ dữ liệu DocVQA, dù chỉ sử dụng 3 tỷ tham số, con số khiêm tốn so với các "gã khổng lồ" như Deepseek (27 tỷ tham số), GPT-4 Vision Turbo kết hợp Amazon Textract (Top 34), hay Baidu (Top 22). Kết quả này thể hiện rõ năng lực tối ưu hóa thuật toán và vận hành hiệu quả trên hạ tầng phù hợp với Việt Nam, thay vì chạy theo xu hướng mô hình siêu lớn, tiêu tốn tài nguyên.
TS Đặng Minh Tuấn, Viện trưởng CMC ATI, chia sẻ: “Chúng tôi rất vui mừng khi năng lực nghiên cứu của đội ngũ CMC được khẳng định trên sân chơi toàn cầu. Quan trọng hơn, CATI-VLM chứng minh khả năng làm chủ công nghệ lõi để giải quyết các bài toán đặc thù của tiếng Việt và ngành nghề chuyên biệt tại Việt Nam”.
Không chỉ dừng ở việc trích xuất ký tự như các hệ thống OCR truyền thống, CATI-VLM còn hiểu được nhiều lớp thông tin như biểu mẫu, checkbox, biểu đồ, chữ ký, bố cục trang và cả phong cách văn bản. Đặc biệt, mô hình có thể trả lời câu hỏi trực quan đặt trên hình ảnh tài liệu, mà không cần học theo từng mẫu cụ thể – tương tự như ChatGPT trong lĩnh vực tài liệu số.
CATI-VLM là kết quả của chiến lược đầu tư R&D hơn 10 năm qua của Tập đoàn Công nghệ CMC. Trong tương lai gần, CATI-VLM sẽ được triển khai trong các sản phẩm thuộc hệ sinh thái C.OpenAI của CMC như: Trợ lý CLS rà soát văn bản pháp luật, CMC SmartDoc – nền tảng chuyển đổi số tài liệu, hệ quản trị tri thức CMC KMS, hệ thống báo cáo thông minh cho văn phòng số và các ứng dụng Agentic Documents thế hệ mới.

Giám đốc CMC Cyber Security chia sẻ 3 bài học kinh nghiệm sau sự cố bị tấn công mã độc

Chủ tịch CMC Nguyễn Trung Chính đề xuất Hà Nội triển khai mô hình hợp tác “ba nhà”
