Xử Lý Tài Liệu Bằng AI 2026: Từ OCR Đến Bóc Tách Thông Minh

Posted on: 6/10/2026 7:47:02 AM

Mỗi doanh nghiệp đều có một "kho giấy tờ" thầm lặng ngốn thời gian: hóa đơn nhà cung cấp, hợp đồng, phiếu thu, đơn bảo hiểm, hồ sơ y tế, biểu mẫu hải quan. Suốt nhiều thập kỷ, việc bóc tách dữ liệu từ chúng vẫn dựa vào hai thứ: con người gõ tay, và OCR theo khuôn mẫu cứng nhắc. Năm 2026, làn sóng mô hình thị giác - ngôn ngữ (VLM) đã biến bài toán này thành một trong những ứng dụng AI có ROI rõ ràng nhất — và là sân chơi mới của các AI Agent.

Bài viết mổ xẻ Intelligent Document Processing (IDP) hiện đại: vì sao OCR truyền thống hụt hơi, kiến trúc pipeline sáu tầng, cách chấm điểm tin cậy để tự động hóa phần lớn nhưng vẫn giữ con người ở vòng lặp, và khung quyết định chọn công cụ cho production.

Vì sao OCR truyền thống không còn đủ

OCR cổ điển (Tesseract, zonal OCR) làm một việc duy nhất: chuyển pixel thành ký tự. Nó không hiểu ý nghĩa. Khi tài liệu có bố cục cố định — một mẫu form quét đúng chuẩn — OCR theo vùng (template) chạy tốt. Nhưng thực tế doanh nghiệp đầy rẫy ngoại lệ: bảng trải nhiều trang, ô gộp, chữ viết tay, con dấu đè lên số, hóa đơn mỗi nhà cung cấp một kiểu, file scan nghiêng và mờ.

Mỗi lần bố cục đổi, pipeline template lại vỡ và phải sửa luật bằng tay. Đây chính là "thuế bảo trì" khổng lồ khiến tự động hóa tài liệu mang tiếng xấu suốt nhiều năm. VLM thay đổi bản chất bài toán: chúng suy luận trên cả bố cục lẫn ngữ nghĩa thay vì chỉ đọc tọa độ, nên dung nạp được biến thể mà không cần viết lại luật.

94.62điểm OmniDocBench của GLM-OCR (0.9B tham số) — vượt nhiều mô hình frontier
~167xpipeline VLM tự host rẻ hơn mỗi trang so với gọi vision API thương mại
40% → 4%tỷ lệ phải review thủ công của một đội kế toán phải trả sau khi chuyển sang IDP agentic
99.24%độ chính xác bóc tách của nền tảng dẫn đầu trên tài liệu thực tế

IDP là gì, một câu

Intelligent Document Processing là tầng biến tài liệu phi cấu trúc (PDF, ảnh scan, email đính kèm) thành dữ liệu có cấu trúc, đã kiểm chứng (JSON theo schema) mà hệ thống nghiệp vụ tiêu thụ được — kèm theo điểm tin cậy và đường dẫn truy ngược về vị trí gốc.

Ba thế hệ xử lý tài liệu

Trước 2015 — OCR theo khuôn
Pixel thành ký tự. Tesseract, zonal OCR. Cần định nghĩa vùng cho từng mẫu, đổi bố cục là vỡ. Không hiểu ngữ nghĩa.
2018–2022 — Học máy nhận biết bố cục
Mô hình hiểu cấu trúc. LayoutLM, Donut, Form Recognizer học vị trí và quan hệ giữa các trường. Tốt hơn nhưng vẫn cần dữ liệu gán nhãn và fine-tune theo từng loại tài liệu.
2023–2024 — Bùng nổ VLM
Một mô hình, không cần train riêng. GPT-4V và lứa VLM tài liệu đọc được bố cục phức tạp chỉ bằng prompt, zero-shot. Bài toán dịch từ "train model" sang "viết schema và prompt".
2026 — IDP Agentic
Hệ thống tự quyết định. Agent tự chọn cách xử lý từng tài liệu, gọi công cụ kiểm tra chéo, chấm điểm tin cậy và chỉ đẩy lên người khi cần. Tự động hóa đầu-cuối (straight-through processing) trở thành mặc định.

Kiến trúc IDP hiện đại: pipeline sáu tầng

Một hệ IDP production không phải "một lệnh gọi LLM". Nó là chuỗi tầng có trách nhiệm tách bạch, mỗi tầng có thể đo lường và thay thế độc lập.

flowchart TB
    ING["1. Thu nhận
PDF, ảnh, email
phân loại + tiền xử lý"] PAR["2. Phân tích bố cục
OCR/VLM, nhận bảng,
tiêu đề, bounding box"] EXT["3. Bóc tách
map sang JSON schema,
VLM theo trường"] VAL["4. Kiểm chứng
so business rule,
đối chiếu DB, chấm điểm"] RTE{"5. Định tuyến
theo độ tin cậy"} STP["Straight-through
tự động ghi nhận"] HITL["Human-in-the-loop
người duyệt ô ngờ vực"] OUT["6. Tiêu thụ
ERP, kho dữ liệu,
vector DB cho RAG"] ING --> PAR --> EXT --> VAL --> RTE RTE -- "tin cậy cao" --> STP RTE -- "tin cậy thấp" --> HITL STP --> OUT HITL --> OUT HITL -. "phản hồi sửa lỗi" .-> EXT style ING fill:#f8f9fa,stroke:#e94560,color:#2c3e50 style PAR fill:#f8f9fa,stroke:#e94560,color:#2c3e50 style EXT fill:#e94560,stroke:#fff,color:#fff style VAL fill:#f8f9fa,stroke:#e94560,color:#2c3e50 style RTE fill:#ff9800,stroke:#fff,color:#fff style STP fill:#2c3e50,stroke:#fff,color:#fff style HITL fill:#16213e,stroke:#fff,color:#fff style OUT fill:#2c3e50,stroke:#fff,color:#fff
Sáu tầng IDP: thu nhận, phân tích bố cục, bóc tách, kiểm chứng, định tuyến theo tin cậy, tiêu thụ.

1. Thu nhận & phân loại

Chuẩn hóa đầu vào (xoay thẳng, khử nhiễu, tách trang), rồi phân loại tài liệu: đây là hóa đơn hay hợp đồng? Phân loại sai ở bước này kéo theo sai schema ở các bước sau, nên đây là điểm cần đo lường đầu tiên.

2. Phân tích bố cục

Tầng "đọc": nhận diện văn bản, bảng, tiêu đề, danh sách và giữ bounding box — tọa độ là thứ sẽ neo các trích dẫn về đúng vị trí gốc về sau. Đây là nơi chọn OCR hay VLM tùy độ phức tạp.

3. Bóc tách theo schema

Map nội dung đã đọc sang một JSON schema xác định trước (số hóa đơn, ngày, tổng tiền, danh sách dòng hàng...). VLM trích từng trường theo schema, thay vì trả về một khối text rồi mới regex — cách làm cũ giòn và khó bảo trì.

4. Kiểm chứng

Tầng dễ bị bỏ qua nhưng quyết định độ tin cậy của cả hệ: đối chiếu business rule (tổng dòng hàng có khớp tổng cuối?), tra cứu chéo cơ sở dữ liệu (mã nhà cung cấp có tồn tại?), kiểm tra định dạng. Mỗi trường nhận một điểm tin cậy.

5. Định tuyến theo độ tin cậy

Trái tim của tự động hóa: trường tin cậy cao đi thẳng (STP), trường ngờ vực được đẩy cho người duyệt. Chi tiết ở mục sau.

6. Tiêu thụ

Dữ liệu sạch chảy vào ERP/kế toán, hoặc được chunk và nhúng vào vector DB cho RAG — biến kho tài liệu thành nguồn tri thức hỏi-đáp được.

OCR hay VLM? Chọn đúng cho từng việc

VLM không thay thế OCR ở mọi nơi. OCR vẫn là "con ngựa thồ" cho khối lượng lớn, định dạng chuẩn, cần thông lượng và đầu ra tất định. VLM tạo bước nhảy về hiểu khi tài liệu lộn xộn, nặng bố cục, hoặc cần trích xuất theo ngữ nghĩa.

Tiêu chíOCR truyền thốngVLM (thị giác - ngôn ngữ)
Hiểu bố cụcTheo vùng cứng, dễ vỡ khi đổiSuy luận bố cục + ngữ nghĩa, dung nạp biến thể
Bảng & cấu trúc lồngYếu với bảng trải trang, ô gộpMạnh, hiểu quan hệ hàng/cột
Chữ viết tay, con dấuKémKhá đến tốt
Thông lượngRất cao, tất địnhThấp hơn, có yếu tố ngẫu nhiên
Chi phí mỗi trangRẻ nhấtCao hơn (tự host kéo giảm mạnh)
Việc hợp nhấtForm chuẩn, khối lượng lớn lặp lạiTài liệu đa dạng, cần trích theo nghĩa

Mẹo kiến trúc: phân tầng theo độ khó

Đừng chọn một mô hình cho tất cả. Cho tài liệu chuẩn chạy OCR rẻ; chỉ nâng cấp lên VLM cho phần ngờ vực hoặc bố cục lạ. Phân tầng theo độ khó vừa giữ chi phí thấp vừa đạt độ chính xác cao ở đúng nơi cần.

Bức tranh mô hình 2026: các VLM mã nguồn mở như GLM-4.5V, Qwen2.5-VL-72B, DeepSeek-VL2 đã đủ mạnh để tự host. Đáng chú ý, một mô hình chuyên biệt nhỏ như GLM-OCR (0.9B tham số) dẫn đầu OmniDocBench với 94.62 điểm — chứng minh "to hơn" không phải lúc nào cũng "tốt hơn" cho tài liệu.

Chấm điểm tin cậy & Human-in-the-Loop

Tự động hóa 100% mà bỏ kiểm soát là công thức cho thảm họa thầm lặng: một con số sai trong hóa đơn có thể trôi vào sổ sách. Lời giải của IDP 2026 là cố ý tạo "ma sát" đúng chỗ bằng điểm tin cậy: mỗi trường trích xuất nhận một xác suất, và hệ thống định tuyến theo ngưỡng.

flowchart LR
    F["Trường đã trích
+ điểm tin cậy"] --> C{"Mức
tin cậy?"} C -- "Cao" --> A["Tự động ghi nhận
(straight-through)"] C -- "Trung bình" --> R["Áp luật điều kiện
đối chiếu nguồn thứ hai"] C -- "Thấp" --> H["Người duyệt
chỉ ô được tô màu"] R --> A R --> H H --> L["Lưu nhãn sửa
cải thiện vòng sau"] style F fill:#f8f9fa,stroke:#e94560,color:#2c3e50 style C fill:#ff9800,stroke:#fff,color:#fff style A fill:#4CAF50,stroke:#fff,color:#fff style R fill:#f8f9fa,stroke:#e94560,color:#2c3e50 style H fill:#e94560,stroke:#fff,color:#fff style L fill:#2c3e50,stroke:#fff,color:#fff
Định tuyến theo ngưỡng tin cậy: cao đi thẳng, trung bình áp luật, thấp đẩy người duyệt — nhãn sửa quay lại cải thiện hệ thống.

Điểm tinh tế: đừng để con người duyệt cả tài liệu. Hệ tốt chỉ tô màu đúng những ô ngờ vực để người xử lý trong vài giây thay vì đọc lại toàn trang. Đó là khác biệt giữa "AI hỗ trợ" và "AI tạo thêm việc". Mỗi lần người sửa, nhãn đó được lưu lại để cải thiện ngưỡng và prompt cho vòng sau — vòng phản hồi khép kín.

Ngưỡng không phải hằng số

Ngưỡng tin cậy phải gắn với mức rủi ro nghiệp vụ: một trường "ghi chú" sai không sao, nhưng "số tài khoản nhận tiền" sai là thảm họa. Hãy đặt ngưỡng cao cho trường rủi ro cao, và đo tỷ lệ STP theo từng loại trường, không gộp chung một con số.

Bóc tách phục vụ RAG: trích dẫn neo theo tọa độ

Một mục tiêu lớn của IDP 2026 không chỉ là nhập liệu mà là biến tài liệu thành nguồn tri thức hỏi-đáp. Khi đó chất lượng bóc tách quyết định chất lượng RAG. Hai yếu tố then chốt:

Chunking đúng kích thước. Cắt tài liệu thành đoạn quá nhỏ thì mất ngữ cảnh, quá lớn thì loãng tín hiệu. Quy tắc thực dụng:

Loại truy vấnKích thước chunk gợi ýGhi chú
Sự kiện đơn (tên, ngày, số)256–512 tokenĐủ gọn để giữ độ chính xác
Phân tích, suy luận1024+ tokenCần đủ ngữ cảnh xung quanh
Hỗn hợp400–512 tokenĐiểm cân bằng để khởi đầu

Thêm chồng lấn 10–20% (sliding window) giữa các chunk để một câu bị cắt ngang vẫn xuất hiện trọn vẹn ở ít nhất một đoạn.

Trích dẫn neo theo bounding box. Đây là thứ phân biệt RAG đồ chơi với RAG production: mỗi câu trả lời phải dẫn ngược về đúng vùng tọa độ trên trang gốc. Nhờ giữ bounding box từ tầng phân tích bố cục, người dùng click vào trích dẫn là thấy ngay đoạn nguồn được tô sáng — vừa tạo niềm tin, vừa cho phép kiểm chứng nhanh khi mô hình có thể sai.

Chọn công cụ cho production

Thị trường 2026 đã chín: khoảng cách giữa các "ông lớn" đám mây và startup chuyên biệt đang thu hẹp. Vài lựa chọn tiêu biểu để định cỡ:

Công cụĐiểm mạnhSố liệu tham khảo
LlamaParseĐộ chính xác cao trên tài liệu phức tạp có bảng/ảnh~92% F1, ~$0.10/trang, cần API key
ReductoNền tảng agentic, tuân thủ doanh nghiệp99.24% độ chính xác, >1 tỷ trang, SOC 2 + HIPAA
Docling (IBM)Thông lượng cao, mã nguồn mở tự host~45 trang/giây trên GPU, giấy phép MIT
Azure Document IntelligenceTích hợp hệ sinh thái, model dựng sẵn~90% F1 form chuẩn, ~75% bố cục tự do, $1.50/1000 trang
UnstructuredKết hợp heuristic + ML, giữ metadata cho chunkingPhù hợp tiền xử lý cho RAG, giải thích được

Khung quyết định nhanh

Tài liệu nhạy cảm, cần tự chủ dữ liệu → tự host Docling/VLM mã nguồn mở. Cần độ chính xác đỉnh trên tài liệu hỗn loạn và chấp nhận trả phí API → LlamaParse/Reducto. Đã ở trong hệ sinh thái đám mây và xử lý form chuẩn → dịch vụ managed của nhà cung cấp đó. Đừng cưới một công cụ — tầng phân tích bố cục nên thay được mà không đụng phần còn lại.

ROI: vì sao IDP là ứng dụng AI dễ biện minh nhất

Khác với nhiều dự án AI khó đo, IDP có thước đo trực tiếp: tỷ lệ xử lý tự động (STP), thời gian mỗi tài liệu, và tỷ lệ phải review thủ công. Một đội kế toán phải trả (accounts payable) ghi nhận giảm tỷ lệ review thủ công từ 40% xuống 4% sau khi chuyển sang cách tiếp cận agentic — đơn giản vì hệ thống tự dung nạp biến thể định dạng mà trước kia luôn cần người can thiệp.

Việc nên làm

  • Đo STP và độ chính xác theo từng loại trường, không gộp một con số tổng.
  • Giữ bounding box xuyên suốt để truy ngược và trích dẫn.
  • Phân tầng OCR rẻ trước, chỉ nâng VLM cho phần khó.
  • Đặt ngưỡng tin cậy theo rủi ro nghiệp vụ, cao cho trường nhạy cảm.
  • Khép vòng phản hồi: nhãn người sửa quay lại cải thiện prompt và ngưỡng.

Việc nên tránh

  • Một lệnh gọi LLM "đọc cả PDF rồi trả JSON" — không có tầng kiểm chứng là tự rước rủi ro thầm lặng.
  • Tự động hóa 100% không HITL cho trường rủi ro cao.
  • Bắt người duyệt đọc lại cả trang thay vì chỉ ô ngờ vực.
  • Cứng nhắc một nhà cung cấp cho mọi loại tài liệu.
  • Bỏ qua phân loại đầu vào — sai loại là sai toàn bộ schema phía sau.

Kết luận

Xử lý tài liệu từng là góc "việc tay chân" bị AI bỏ quên. Năm 2026, với VLM đủ rẻ để tự host và đủ thông minh để hiểu bố cục lộn xộn, IDP trở thành một trong những ứng dụng AI tối ưu vận hành có ROI sạch sẽ nhất. Nhưng chìa khóa không nằm ở "mô hình to nhất", mà ở kiến trúc pipeline kỷ luật: phân tích bố cục giữ tọa độ, bóc tách theo schema, kiểm chứng bằng business rule, và định tuyến theo điểm tin cậy để con người chỉ chạm vào đúng phần đáng ngờ. Đó mới là thứ biến một demo ấn tượng thành một hệ thống đáng tin trong production.


Nguồn tham khảo