Xử Lý Tài Liệu Bằng AI 2026: Từ OCR Đến Bóc Tách Thông Minh

Posted on: 6/10/2026 7:47:02 AM

Mỗi doanh nghiệp đều có một "kho giấy tờ" thầm lặng ngốn thời gian: hóa đơn nhà cung cấp, hợp đồng, phiếu thu, đơn bảo hiểm, hồ sơ y tế, biểu mẫu hải quan. Suốt nhiều thập kỷ, việc bóc tách dữ liệu từ chúng vẫn dựa vào hai thứ: con người gõ tay, và OCR theo khuôn mẫu cứng nhắc. Năm 2026, làn sóng mô hình thị giác - ngôn ngữ (VLM) đã biến bài toán này thành một trong những ứng dụng AI có ROI rõ ràng nhất — và là sân chơi mới của các AI Agent.

Bài viết mổ xẻ Intelligent Document Processing (IDP) hiện đại: vì sao OCR truyền thống hụt hơi, kiến trúc pipeline sáu tầng, cách chấm điểm tin cậy để tự động hóa phần lớn nhưng vẫn giữ con người ở vòng lặp, và khung quyết định chọn công cụ cho production.

Vì sao OCR truyền thống không còn đủ

OCR cổ điển (Tesseract, zonal OCR) làm một việc duy nhất: chuyển pixel thành ký tự. Nó không hiểu ý nghĩa. Khi tài liệu có bố cục cố định — một mẫu form quét đúng chuẩn — OCR theo vùng (template) chạy tốt. Nhưng thực tế doanh nghiệp đầy rẫy ngoại lệ: bảng trải nhiều trang, ô gộp, chữ viết tay, con dấu đè lên số, hóa đơn mỗi nhà cung cấp một kiểu, file scan nghiêng và mờ.

Mỗi lần bố cục đổi, pipeline template lại vỡ và phải sửa luật bằng tay. Đây chính là "thuế bảo trì" khổng lồ khiến tự động hóa tài liệu mang tiếng xấu suốt nhiều năm. VLM thay đổi bản chất bài toán: chúng suy luận trên cả bố cục lẫn ngữ nghĩa thay vì chỉ đọc tọa độ, nên dung nạp được biến thể mà không cần viết lại luật.

94.62điểm OmniDocBench của GLM-OCR (0.9B tham số) — vượt nhiều mô hình frontier

~167xpipeline VLM tự host rẻ hơn mỗi trang so với gọi vision API thương mại

40% → 4%tỷ lệ phải review thủ công của một đội kế toán phải trả sau khi chuyển sang IDP agentic

99.24%độ chính xác bóc tách của nền tảng dẫn đầu trên tài liệu thực tế

IDP là gì, một câu

Intelligent Document Processing là tầng biến tài liệu phi cấu trúc (PDF, ảnh scan, email đính kèm) thành dữ liệu có cấu trúc, đã kiểm chứng (JSON theo schema) mà hệ thống nghiệp vụ tiêu thụ được — kèm theo điểm tin cậy và đường dẫn truy ngược về vị trí gốc.

Ba thế hệ xử lý tài liệu

Trước 2015 — OCR theo khuôn

Pixel thành ký tự. Tesseract, zonal OCR. Cần định nghĩa vùng cho từng mẫu, đổi bố cục là vỡ. Không hiểu ngữ nghĩa.

2018–2022 — Học máy nhận biết bố cục

Mô hình hiểu cấu trúc. LayoutLM, Donut, Form Recognizer học vị trí và quan hệ giữa các trường. Tốt hơn nhưng vẫn cần dữ liệu gán nhãn và fine-tune theo từng loại tài liệu.

2023–2024 — Bùng nổ VLM

Một mô hình, không cần train riêng. GPT-4V và lứa VLM tài liệu đọc được bố cục phức tạp chỉ bằng prompt, zero-shot. Bài toán dịch từ "train model" sang "viết schema và prompt".

2026 — IDP Agentic

Hệ thống tự quyết định. Agent tự chọn cách xử lý từng tài liệu, gọi công cụ kiểm tra chéo, chấm điểm tin cậy và chỉ đẩy lên người khi cần. Tự động hóa đầu-cuối (straight-through processing) trở thành mặc định.

Kiến trúc IDP hiện đại: pipeline sáu tầng

Một hệ IDP production không phải "một lệnh gọi LLM". Nó là chuỗi tầng có trách nhiệm tách bạch, mỗi tầng có thể đo lường và thay thế độc lập.

flowchart TB
    ING["1. Thu nhận
PDF, ảnh, email
phân loại + tiền xử lý"]
    PAR["2. Phân tích bố cục
OCR/VLM, nhận bảng,
tiêu đề, bounding box"]
    EXT["3. Bóc tách
map sang JSON schema,
VLM theo trường"]
    VAL["4. Kiểm chứng
so business rule,
đối chiếu DB, chấm điểm"]
    RTE{"5. Định tuyến
theo độ tin cậy"}
    STP["Straight-through
tự động ghi nhận"]
    HITL["Human-in-the-loop
người duyệt ô ngờ vực"]
    OUT["6. Tiêu thụ
ERP, kho dữ liệu,
vector DB cho RAG"]

    ING --> PAR --> EXT --> VAL --> RTE
    RTE -- "tin cậy cao" --> STP
    RTE -- "tin cậy thấp" --> HITL
    STP --> OUT
    HITL --> OUT
    HITL -. "phản hồi sửa lỗi" .-> EXT

    style ING fill:#f8f9fa,stroke:#e94560,color:#2c3e50
    style PAR fill:#f8f9fa,stroke:#e94560,color:#2c3e50
    style EXT fill:#e94560,stroke:#fff,color:#fff
    style VAL fill:#f8f9fa,stroke:#e94560,color:#2c3e50
    style RTE fill:#ff9800,stroke:#fff,color:#fff
    style STP fill:#2c3e50,stroke:#fff,color:#fff
    style HITL fill:#16213e,stroke:#fff,color:#fff
    style OUT fill:#2c3e50,stroke:#fff,color:#fff

Sáu tầng IDP: thu nhận, phân tích bố cục, bóc tách, kiểm chứng, định tuyến theo tin cậy, tiêu thụ.

1. Thu nhận & phân loại

Chuẩn hóa đầu vào (xoay thẳng, khử nhiễu, tách trang), rồi phân loại tài liệu: đây là hóa đơn hay hợp đồng? Phân loại sai ở bước này kéo theo sai schema ở các bước sau, nên đây là điểm cần đo lường đầu tiên.

2. Phân tích bố cục

Tầng "đọc": nhận diện văn bản, bảng, tiêu đề, danh sách và giữ bounding box — tọa độ là thứ sẽ neo các trích dẫn về đúng vị trí gốc về sau. Đây là nơi chọn OCR hay VLM tùy độ phức tạp.

3. Bóc tách theo schema

Map nội dung đã đọc sang một JSON schema xác định trước (số hóa đơn, ngày, tổng tiền, danh sách dòng hàng...). VLM trích từng trường theo schema, thay vì trả về một khối text rồi mới regex — cách làm cũ giòn và khó bảo trì.

4. Kiểm chứng

Tầng dễ bị bỏ qua nhưng quyết định độ tin cậy của cả hệ: đối chiếu business rule (tổng dòng hàng có khớp tổng cuối?), tra cứu chéo cơ sở dữ liệu (mã nhà cung cấp có tồn tại?), kiểm tra định dạng. Mỗi trường nhận một điểm tin cậy.

5. Định tuyến theo độ tin cậy

Trái tim của tự động hóa: trường tin cậy cao đi thẳng (STP), trường ngờ vực được đẩy cho người duyệt. Chi tiết ở mục sau.

6. Tiêu thụ

Dữ liệu sạch chảy vào ERP/kế toán, hoặc được chunk và nhúng vào vector DB cho RAG — biến kho tài liệu thành nguồn tri thức hỏi-đáp được.

OCR hay VLM? Chọn đúng cho từng việc

VLM không thay thế OCR ở mọi nơi. OCR vẫn là "con ngựa thồ" cho khối lượng lớn, định dạng chuẩn, cần thông lượng và đầu ra tất định. VLM tạo bước nhảy về hiểu khi tài liệu lộn xộn, nặng bố cục, hoặc cần trích xuất theo ngữ nghĩa.

Tiêu chí	OCR truyền thống	VLM (thị giác - ngôn ngữ)
Hiểu bố cục	Theo vùng cứng, dễ vỡ khi đổi	Suy luận bố cục + ngữ nghĩa, dung nạp biến thể
Bảng & cấu trúc lồng	Yếu với bảng trải trang, ô gộp	Mạnh, hiểu quan hệ hàng/cột
Chữ viết tay, con dấu	Kém	Khá đến tốt
Thông lượng	Rất cao, tất định	Thấp hơn, có yếu tố ngẫu nhiên
Chi phí mỗi trang	Rẻ nhất	Cao hơn (tự host kéo giảm mạnh)
Việc hợp nhất	Form chuẩn, khối lượng lớn lặp lại	Tài liệu đa dạng, cần trích theo nghĩa

Mẹo kiến trúc: phân tầng theo độ khó

Đừng chọn một mô hình cho tất cả. Cho tài liệu chuẩn chạy OCR rẻ; chỉ nâng cấp lên VLM cho phần ngờ vực hoặc bố cục lạ. Phân tầng theo độ khó vừa giữ chi phí thấp vừa đạt độ chính xác cao ở đúng nơi cần.

Bức tranh mô hình 2026: các VLM mã nguồn mở như GLM-4.5V, Qwen2.5-VL-72B, DeepSeek-VL2 đã đủ mạnh để tự host. Đáng chú ý, một mô hình chuyên biệt nhỏ như GLM-OCR (0.9B tham số) dẫn đầu OmniDocBench với 94.62 điểm — chứng minh "to hơn" không phải lúc nào cũng "tốt hơn" cho tài liệu.

Chấm điểm tin cậy & Human-in-the-Loop

Tự động hóa 100% mà bỏ kiểm soát là công thức cho thảm họa thầm lặng: một con số sai trong hóa đơn có thể trôi vào sổ sách. Lời giải của IDP 2026 là cố ý tạo "ma sát" đúng chỗ bằng điểm tin cậy: mỗi trường trích xuất nhận một xác suất, và hệ thống định tuyến theo ngưỡng.

flowchart LR
    F["Trường đã trích
+ điểm tin cậy"] --> C{"Mức
tin cậy?"}
    C -- "Cao" --> A["Tự động ghi nhận
(straight-through)"]
    C -- "Trung bình" --> R["Áp luật điều kiện
đối chiếu nguồn thứ hai"]
    C -- "Thấp" --> H["Người duyệt
chỉ ô được tô màu"]
    R --> A
    R --> H
    H --> L["Lưu nhãn sửa
cải thiện vòng sau"]

    style F fill:#f8f9fa,stroke:#e94560,color:#2c3e50
    style C fill:#ff9800,stroke:#fff,color:#fff
    style A fill:#4CAF50,stroke:#fff,color:#fff
    style R fill:#f8f9fa,stroke:#e94560,color:#2c3e50
    style H fill:#e94560,stroke:#fff,color:#fff
    style L fill:#2c3e50,stroke:#fff,color:#fff

Định tuyến theo ngưỡng tin cậy: cao đi thẳng, trung bình áp luật, thấp đẩy người duyệt — nhãn sửa quay lại cải thiện hệ thống.

Điểm tinh tế: đừng để con người duyệt cả tài liệu. Hệ tốt chỉ tô màu đúng những ô ngờ vực để người xử lý trong vài giây thay vì đọc lại toàn trang. Đó là khác biệt giữa "AI hỗ trợ" và "AI tạo thêm việc". Mỗi lần người sửa, nhãn đó được lưu lại để cải thiện ngưỡng và prompt cho vòng sau — vòng phản hồi khép kín.

Ngưỡng không phải hằng số

Ngưỡng tin cậy phải gắn với mức rủi ro nghiệp vụ: một trường "ghi chú" sai không sao, nhưng "số tài khoản nhận tiền" sai là thảm họa. Hãy đặt ngưỡng cao cho trường rủi ro cao, và đo tỷ lệ STP theo từng loại trường, không gộp chung một con số.

Bóc tách phục vụ RAG: trích dẫn neo theo tọa độ

Một mục tiêu lớn của IDP 2026 không chỉ là nhập liệu mà là biến tài liệu thành nguồn tri thức hỏi-đáp. Khi đó chất lượng bóc tách quyết định chất lượng RAG. Hai yếu tố then chốt:

Chunking đúng kích thước. Cắt tài liệu thành đoạn quá nhỏ thì mất ngữ cảnh, quá lớn thì loãng tín hiệu. Quy tắc thực dụng:

Loại truy vấn	Kích thước chunk gợi ý	Ghi chú
Sự kiện đơn (tên, ngày, số)	256–512 token	Đủ gọn để giữ độ chính xác
Phân tích, suy luận	1024+ token	Cần đủ ngữ cảnh xung quanh
Hỗn hợp	400–512 token	Điểm cân bằng để khởi đầu

Thêm chồng lấn 10–20% (sliding window) giữa các chunk để một câu bị cắt ngang vẫn xuất hiện trọn vẹn ở ít nhất một đoạn.

Trích dẫn neo theo bounding box. Đây là thứ phân biệt RAG đồ chơi với RAG production: mỗi câu trả lời phải dẫn ngược về đúng vùng tọa độ trên trang gốc. Nhờ giữ bounding box từ tầng phân tích bố cục, người dùng click vào trích dẫn là thấy ngay đoạn nguồn được tô sáng — vừa tạo niềm tin, vừa cho phép kiểm chứng nhanh khi mô hình có thể sai.

Chọn công cụ cho production

Thị trường 2026 đã chín: khoảng cách giữa các "ông lớn" đám mây và startup chuyên biệt đang thu hẹp. Vài lựa chọn tiêu biểu để định cỡ:

Công cụ	Điểm mạnh	Số liệu tham khảo
LlamaParse	Độ chính xác cao trên tài liệu phức tạp có bảng/ảnh	~92% F1, ~$0.10/trang, cần API key
Reducto	Nền tảng agentic, tuân thủ doanh nghiệp	99.24% độ chính xác, >1 tỷ trang, SOC 2 + HIPAA
Docling (IBM)	Thông lượng cao, mã nguồn mở tự host	~45 trang/giây trên GPU, giấy phép MIT
Azure Document Intelligence	Tích hợp hệ sinh thái, model dựng sẵn	~90% F1 form chuẩn, ~75% bố cục tự do, $1.50/1000 trang
Unstructured	Kết hợp heuristic + ML, giữ metadata cho chunking	Phù hợp tiền xử lý cho RAG, giải thích được

Khung quyết định nhanh

Tài liệu nhạy cảm, cần tự chủ dữ liệu → tự host Docling/VLM mã nguồn mở. Cần độ chính xác đỉnh trên tài liệu hỗn loạn và chấp nhận trả phí API → LlamaParse/Reducto. Đã ở trong hệ sinh thái đám mây và xử lý form chuẩn → dịch vụ managed của nhà cung cấp đó. Đừng cưới một công cụ — tầng phân tích bố cục nên thay được mà không đụng phần còn lại.

ROI: vì sao IDP là ứng dụng AI dễ biện minh nhất

Khác với nhiều dự án AI khó đo, IDP có thước đo trực tiếp: tỷ lệ xử lý tự động (STP), thời gian mỗi tài liệu, và tỷ lệ phải review thủ công. Một đội kế toán phải trả (accounts payable) ghi nhận giảm tỷ lệ review thủ công từ 40% xuống 4% sau khi chuyển sang cách tiếp cận agentic — đơn giản vì hệ thống tự dung nạp biến thể định dạng mà trước kia luôn cần người can thiệp.

Việc nên làm

Đo STP và độ chính xác theo từng loại trường, không gộp một con số tổng.
Giữ bounding box xuyên suốt để truy ngược và trích dẫn.
Phân tầng OCR rẻ trước, chỉ nâng VLM cho phần khó.
Đặt ngưỡng tin cậy theo rủi ro nghiệp vụ, cao cho trường nhạy cảm.
Khép vòng phản hồi: nhãn người sửa quay lại cải thiện prompt và ngưỡng.

Việc nên tránh

Một lệnh gọi LLM "đọc cả PDF rồi trả JSON" — không có tầng kiểm chứng là tự rước rủi ro thầm lặng.
Tự động hóa 100% không HITL cho trường rủi ro cao.
Bắt người duyệt đọc lại cả trang thay vì chỉ ô ngờ vực.
Cứng nhắc một nhà cung cấp cho mọi loại tài liệu.
Bỏ qua phân loại đầu vào — sai loại là sai toàn bộ schema phía sau.

Kết luận

Xử lý tài liệu từng là góc "việc tay chân" bị AI bỏ quên. Năm 2026, với VLM đủ rẻ để tự host và đủ thông minh để hiểu bố cục lộn xộn, IDP trở thành một trong những ứng dụng AI tối ưu vận hành có ROI sạch sẽ nhất. Nhưng chìa khóa không nằm ở "mô hình to nhất", mà ở kiến trúc pipeline kỷ luật: phân tích bố cục giữ tọa độ, bóc tách theo schema, kiểm chứng bằng business rule, và định tuyến theo điểm tin cậy để con người chỉ chạm vào đúng phần đáng ngờ. Đó mới là thứ biến một demo ấn tượng thành một hệ thống đáng tin trong production.

Nguồn tham khảo

#Document AI #IDP #AI Agents #OCR #Automation

# Xử Lý Tài Liệu Bằng AI 2026: Từ OCR Đến Bóc Tách Thông Minh

Mỗi doanh nghiệp đều có một "kho giấy tờ" thầm lặng ngốn thời gian: hóa đơn nhà cung cấp, hợp đồng, phiếu thu, đơn bảo hiểm, hồ sơ y tế, biểu mẫu hải quan. Suốt nhiều thập kỷ, việc bóc tách dữ liệu từ chúng vẫn dựa vào hai thứ: con người gõ tay, và OCR theo khuôn mẫu cứng nhắc. Năm 2026, làn sóng **mô hình thị giác - ngôn ngữ (VLM)** đã biến bài toán này thành một trong những ứng dụng AI có ROI rõ ràng nhất — và là sân chơi mới của các AI Agent.

Bài viết mổ xẻ **Intelligent Document Processing (IDP)** hiện đại: vì sao OCR truyền thống hụt hơi, kiến trúc pipeline sáu tầng, cách chấm điểm tin cậy để tự động hóa phần lớn nhưng vẫn giữ con người ở vòng lặp, và khung quyết định chọn công cụ cho production.

## Vì sao OCR truyền thống không còn đủ

OCR cổ điển (Tesseract, zonal OCR) làm một việc duy nhất: chuyển pixel thành ký tự. Nó không hiểu *ý nghĩa*. Khi tài liệu có bố cục cố định — một mẫu form quét đúng chuẩn — OCR theo vùng (template) chạy tốt. Nhưng thực tế doanh nghiệp đầy rẫy ngoại lệ: bảng trải nhiều trang, ô gộp, chữ viết tay, con dấu đè lên số, hóa đơn mỗi nhà cung cấp một kiểu, file scan nghiêng và mờ.

Mỗi lần bố cục đổi, pipeline template lại vỡ và phải sửa luật bằng tay. Đây chính là "thuế bảo trì" khổng lồ khiến tự động hóa tài liệu mang tiếng xấu suốt nhiều năm. VLM thay đổi bản chất bài toán: chúng **suy luận trên cả bố cục lẫn ngữ nghĩa** thay vì chỉ đọc tọa độ, nên dung nạp được biến thể mà không cần viết lại luật.

94.62điểm OmniDocBench của GLM-OCR (0.9B tham số) — vượt nhiều mô hình frontier

~167xpipeline VLM tự host rẻ hơn mỗi trang so với gọi vision API thương mại

40% → 4%tỷ lệ phải review thủ công của một đội kế toán phải trả sau khi chuyển sang IDP agentic

99.24%độ chính xác bóc tách của nền tảng dẫn đầu trên tài liệu thực tế

#### IDP là gì, một câu

Intelligent Document Processing là tầng biến **tài liệu phi cấu trúc** (PDF, ảnh scan, email đính kèm) thành **dữ liệu có cấu trúc, đã kiểm chứng** (JSON theo schema) mà hệ thống nghiệp vụ tiêu thụ được — kèm theo điểm tin cậy và đường dẫn truy ngược về vị trí gốc.

## Ba thế hệ xử lý tài liệu

Trước 2015 — OCR theo khuôn

**Pixel thành ký tự.** Tesseract, zonal OCR. Cần định nghĩa vùng cho từng mẫu, đổi bố cục là vỡ. Không hiểu ngữ nghĩa.

2018–2022 — Học máy nhận biết bố cục

**Mô hình hiểu cấu trúc.** LayoutLM, Donut, Form Recognizer học vị trí và quan hệ giữa các trường. Tốt hơn nhưng vẫn cần dữ liệu gán nhãn và fine-tune theo từng loại tài liệu.

2023–2024 — Bùng nổ VLM

**Một mô hình, không cần train riêng.** GPT-4V và lứa VLM tài liệu đọc được bố cục phức tạp chỉ bằng prompt, zero-shot. Bài toán dịch từ "train model" sang "viết schema và prompt".

2026 — IDP Agentic

**Hệ thống tự quyết định.** Agent tự chọn cách xử lý từng tài liệu, gọi công cụ kiểm tra chéo, chấm điểm tin cậy và chỉ đẩy lên người khi cần. Tự động hóa đầu-cuối (straight-through processing) trở thành mặc định.

## Kiến trúc IDP hiện đại: pipeline sáu tầng

Một hệ IDP production không phải "một lệnh gọi LLM". Nó là chuỗi tầng có trách nhiệm tách bạch, mỗi tầng có thể đo lường và thay thế độc lập.

```
flowchart TB
    ING["1. Thu nhận  
PDF, ảnh, email  
phân loại + tiền xử lý"]
    PAR["2. Phân tích bố cục  
OCR/VLM, nhận bảng,  
tiêu đề, bounding box"]
    EXT["3. Bóc tách  
map sang JSON schema,  
VLM theo trường"]
    VAL["4. Kiểm chứng  
so business rule,  
đối chiếu DB, chấm điểm"]
    RTE{"5. Định tuyến  
theo độ tin cậy"}
    STP["Straight-through  
tự động ghi nhận"]
    HITL["Human-in-the-loop  
người duyệt ô ngờ vực"]
    OUT["6. Tiêu thụ  
ERP, kho dữ liệu,  
vector DB cho RAG"]

ING --> PAR --> EXT --> VAL --> RTE
    RTE -- "tin cậy cao" --> STP
    RTE -- "tin cậy thấp" --> HITL
    STP --> OUT
    HITL --> OUT
    HITL -. "phản hồi sửa lỗi" .-> EXT

style ING fill:#f8f9fa,stroke:#e94560,color:#2c3e50
    style PAR fill:#f8f9fa,stroke:#e94560,color:#2c3e50
    style EXT fill:#e94560,stroke:#fff,color:#fff
    style VAL fill:#f8f9fa,stroke:#e94560,color:#2c3e50
    style RTE fill:#ff9800,stroke:#fff,color:#fff
    style STP fill:#2c3e50,stroke:#fff,color:#fff
    style HITL fill:#16213e,stroke:#fff,color:#fff
    style OUT fill:#2c3e50,stroke:#fff,color:#fff

```

Sáu tầng IDP: thu nhận, phân tích bố cục, bóc tách, kiểm chứng, định tuyến theo tin cậy, tiêu thụ.

### 1. Thu nhận & phân loại

Chuẩn hóa đầu vào (xoay thẳng, khử nhiễu, tách trang), rồi **phân loại** tài liệu: đây là hóa đơn hay hợp đồng? Phân loại sai ở bước này kéo theo sai schema ở các bước sau, nên đây là điểm cần đo lường đầu tiên.

### 2. Phân tích bố cục

Tầng "đọc": nhận diện văn bản, bảng, tiêu đề, danh sách và **giữ bounding box** — tọa độ là thứ sẽ neo các trích dẫn về đúng vị trí gốc về sau. Đây là nơi chọn OCR hay VLM tùy độ phức tạp.

### 3. Bóc tách theo schema

Map nội dung đã đọc sang một **JSON schema** xác định trước (số hóa đơn, ngày, tổng tiền, danh sách dòng hàng...). VLM trích từng trường theo schema, thay vì trả về một khối text rồi mới regex — cách làm cũ giòn và khó bảo trì.

### 4. Kiểm chứng

### 5. Định tuyến theo độ tin cậy

Trái tim của tự động hóa: trường tin cậy cao đi thẳng (STP), trường ngờ vực được đẩy cho người duyệt. Chi tiết ở mục sau.

### 6. Tiêu thụ

Dữ liệu sạch chảy vào ERP/kế toán, hoặc được chunk và nhúng vào **vector DB** cho RAG — biến kho tài liệu thành nguồn tri thức hỏi-đáp được.

## OCR hay VLM? Chọn đúng cho từng việc

VLM không thay thế OCR ở mọi nơi. OCR vẫn là "con ngựa thồ" cho khối lượng lớn, định dạng chuẩn, cần thông lượng và đầu ra tất định. VLM tạo bước nhảy về *hiểu* khi tài liệu lộn xộn, nặng bố cục, hoặc cần trích xuất theo ngữ nghĩa.

| Tiêu chí | OCR truyền thống | VLM (thị giác - ngôn ngữ) |
| --- | --- | --- |
| Hiểu bố cục | Theo vùng cứng, dễ vỡ khi đổi | Suy luận bố cục + ngữ nghĩa, dung nạp biến thể |
| Bảng & cấu trúc lồng | Yếu với bảng trải trang, ô gộp | Mạnh, hiểu quan hệ hàng/cột |
| Chữ viết tay, con dấu | Kém | Khá đến tốt |
| Thông lượng | Rất cao, tất định | Thấp hơn, có yếu tố ngẫu nhiên |
| Chi phí mỗi trang | Rẻ nhất | Cao hơn (tự host kéo giảm mạnh) |
| Việc hợp nhất | Form chuẩn, khối lượng lớn lặp lại | Tài liệu đa dạng, cần trích theo nghĩa |

#### Mẹo kiến trúc: phân tầng theo độ khó

Đừng chọn một mô hình cho tất cả. Cho tài liệu chuẩn chạy OCR rẻ; chỉ **nâng cấp lên VLM** cho phần ngờ vực hoặc bố cục lạ. Phân tầng theo độ khó vừa giữ chi phí thấp vừa đạt độ chính xác cao ở đúng nơi cần.

Bức tranh mô hình 2026: các VLM mã nguồn mở như **GLM-4.5V**, **Qwen2.5-VL-72B**, **DeepSeek-VL2** đã đủ mạnh để tự host. Đáng chú ý, một mô hình chuyên biệt nhỏ như GLM-OCR (0.9B tham số) dẫn đầu OmniDocBench với 94.62 điểm — chứng minh "to hơn" không phải lúc nào cũng "tốt hơn" cho tài liệu.

## Chấm điểm tin cậy & Human-in-the-Loop

Tự động hóa 100% mà bỏ kiểm soát là công thức cho thảm họa thầm lặng: một con số sai trong hóa đơn có thể trôi vào sổ sách. Lời giải của IDP 2026 là **cố ý tạo "ma sát" đúng chỗ** bằng điểm tin cậy: mỗi trường trích xuất nhận một xác suất, và hệ thống định tuyến theo ngưỡng.

```
flowchart LR
    F["Trường đã trích  
+ điểm tin cậy"] --> C{"Mức  
tin cậy?"}
    C -- "Cao" --> A["Tự động ghi nhận  
(straight-through)"]
    C -- "Trung bình" --> R["Áp luật điều kiện  
đối chiếu nguồn thứ hai"]
    C -- "Thấp" --> H["Người duyệt  
chỉ ô được tô màu"]
    R --> A
    R --> H
    H --> L["Lưu nhãn sửa  
cải thiện vòng sau"]

style F fill:#f8f9fa,stroke:#e94560,color:#2c3e50
    style C fill:#ff9800,stroke:#fff,color:#fff
    style A fill:#4CAF50,stroke:#fff,color:#fff
    style R fill:#f8f9fa,stroke:#e94560,color:#2c3e50
    style H fill:#e94560,stroke:#fff,color:#fff
    style L fill:#2c3e50,stroke:#fff,color:#fff

```

Định tuyến theo ngưỡng tin cậy: cao đi thẳng, trung bình áp luật, thấp đẩy người duyệt — nhãn sửa quay lại cải thiện hệ thống.

Điểm tinh tế: đừng để con người duyệt cả tài liệu. Hệ tốt chỉ **tô màu đúng những ô ngờ vực** để người xử lý trong vài giây thay vì đọc lại toàn trang. Đó là khác biệt giữa "AI hỗ trợ" và "AI tạo thêm việc". Mỗi lần người sửa, nhãn đó được lưu lại để cải thiện ngưỡng và prompt cho vòng sau — vòng phản hồi khép kín.

#### Ngưỡng không phải hằng số

Ngưỡng tin cậy phải gắn với **mức rủi ro nghiệp vụ**: một trường "ghi chú" sai không sao, nhưng "số tài khoản nhận tiền" sai là thảm họa. Hãy đặt ngưỡng cao cho trường rủi ro cao, và đo tỷ lệ STP theo từng loại trường, không gộp chung một con số.

## Bóc tách phục vụ RAG: trích dẫn neo theo tọa độ

Một mục tiêu lớn của IDP 2026 không chỉ là nhập liệu mà là biến tài liệu thành **nguồn tri thức hỏi-đáp**. Khi đó chất lượng bóc tách quyết định chất lượng RAG. Hai yếu tố then chốt:

**Chunking đúng kích thước.** Cắt tài liệu thành đoạn quá nhỏ thì mất ngữ cảnh, quá lớn thì loãng tín hiệu. Quy tắc thực dụng:

| Loại truy vấn | Kích thước chunk gợi ý | Ghi chú |
| --- | --- | --- |
| Sự kiện đơn (tên, ngày, số) | 256–512 token | Đủ gọn để giữ độ chính xác |
| Phân tích, suy luận | 1024+ token | Cần đủ ngữ cảnh xung quanh |
| Hỗn hợp | 400–512 token | Điểm cân bằng để khởi đầu |

Thêm **chồng lấn 10–20%** (sliding window) giữa các chunk để một câu bị cắt ngang vẫn xuất hiện trọn vẹn ở ít nhất một đoạn.

**Trích dẫn neo theo bounding box.** Đây là thứ phân biệt RAG đồ chơi với RAG production: mỗi câu trả lời phải dẫn ngược về *đúng vùng tọa độ* trên trang gốc. Nhờ giữ bounding box từ tầng phân tích bố cục, người dùng click vào trích dẫn là thấy ngay đoạn nguồn được tô sáng — vừa tạo niềm tin, vừa cho phép kiểm chứng nhanh khi mô hình có thể sai.

## Chọn công cụ cho production

Thị trường 2026 đã chín: khoảng cách giữa các "ông lớn" đám mây và startup chuyên biệt đang thu hẹp. Vài lựa chọn tiêu biểu để định cỡ:

| Công cụ | Điểm mạnh | Số liệu tham khảo |
| --- | --- | --- |
| LlamaParse | Độ chính xác cao trên tài liệu phức tạp có bảng/ảnh | ~92% F1, ~$0.10/trang, cần API key |
| Reducto | Nền tảng agentic, tuân thủ doanh nghiệp | 99.24% độ chính xác, >1 tỷ trang, SOC 2 + HIPAA |
| Docling (IBM) | Thông lượng cao, mã nguồn mở tự host | ~45 trang/giây trên GPU, giấy phép MIT |
| Azure Document Intelligence | Tích hợp hệ sinh thái, model dựng sẵn | ~90% F1 form chuẩn, ~75% bố cục tự do, $1.50/1000 trang |
| Unstructured | Kết hợp heuristic + ML, giữ metadata cho chunking | Phù hợp tiền xử lý cho RAG, giải thích được |

#### Khung quyết định nhanh

Tài liệu nhạy cảm, cần tự chủ dữ liệu → **tự host Docling/VLM mã nguồn mở**. Cần độ chính xác đỉnh trên tài liệu hỗn loạn và chấp nhận trả phí API → **LlamaParse/Reducto**. Đã ở trong hệ sinh thái đám mây và xử lý form chuẩn → **dịch vụ managed** của nhà cung cấp đó. Đừng cưới một công cụ — tầng phân tích bố cục nên thay được mà không đụng phần còn lại.

## ROI: vì sao IDP là ứng dụng AI dễ biện minh nhất

Khác với nhiều dự án AI khó đo, IDP có thước đo trực tiếp: **tỷ lệ xử lý tự động (STP)**, **thời gian mỗi tài liệu**, và **tỷ lệ phải review thủ công**. Một đội kế toán phải trả (accounts payable) ghi nhận giảm tỷ lệ review thủ công từ **40% xuống 4%** sau khi chuyển sang cách tiếp cận agentic — đơn giản vì hệ thống tự dung nạp biến thể định dạng mà trước kia luôn cần người can thiệp.

#### Việc nên làm

- Đo **STP và độ chính xác theo từng loại trường**, không gộp một con số tổng.
- Giữ **bounding box** xuyên suốt để truy ngược và trích dẫn.
- Phân tầng OCR rẻ trước, chỉ nâng VLM cho phần khó.
- Đặt ngưỡng tin cậy theo rủi ro nghiệp vụ, cao cho trường nhạy cảm.
- Khép vòng phản hồi: nhãn người sửa quay lại cải thiện prompt và ngưỡng.

#### Việc nên tránh

- Một lệnh gọi LLM "đọc cả PDF rồi trả JSON" — không có tầng kiểm chứng là tự rước rủi ro thầm lặng.
- Tự động hóa 100% không HITL cho trường rủi ro cao.
- Bắt người duyệt đọc lại cả trang thay vì chỉ ô ngờ vực.
- Cứng nhắc một nhà cung cấp cho mọi loại tài liệu.
- Bỏ qua phân loại đầu vào — sai loại là sai toàn bộ schema phía sau.

## Kết luận

Xử lý tài liệu từng là góc "việc tay chân" bị AI bỏ quên. Năm 2026, với VLM đủ rẻ để tự host và đủ thông minh để hiểu bố cục lộn xộn, IDP trở thành một trong những ứng dụng AI tối ưu vận hành có ROI sạch sẽ nhất. Nhưng chìa khóa không nằm ở "mô hình to nhất", mà ở **kiến trúc pipeline kỷ luật**: phân tích bố cục giữ tọa độ, bóc tách theo schema, kiểm chứng bằng business rule, và định tuyến theo điểm tin cậy để con người chỉ chạm vào đúng phần đáng ngờ. Đó mới là thứ biến một demo ấn tượng thành một hệ thống đáng tin trong production.

---

### Nguồn tham khảo

- [LlamaIndex — Agentic Document Processing: How AI Agents Automate Workflows](https://www.llamaindex.ai/blog/agentic-document-processing)
- [F22 Labs — OCR vs VLM: Accuracy, Performance & Real-World Use](https://www.f22labs.com/blogs/ocr-vs-vlm-vision-language-models-key-comparison/)
- [Ofox AI — Best LLM for OCR 2026: 7 Models Ranked](https://ofox.ai/blog/best-ai-model-for-ocr-2026/)
- [Reducto — Docling vs LlamaParse vs Unstructured vs Reducto](https://llms.reducto.ai/document-parser-comparison)
- [Extend — Best Confidence Scoring Systems for Document Processing](https://www.extend.ai/resources/best-confidence-scoring-systems-document-processing)
- [Firecrawl — Best Chunking Strategies for RAG (and LLMs) in 2026](https://www.firecrawl.dev/blog/best-chunking-strategies-rag)
- [Tensorlake — Citation-Aware RAG: Fine-Grained Citations with Bounding Boxes](https://www.tensorlake.ai/blog/rag-citations)

Generative UI 2026: Khi AI Tự Dựng Giao Diện

Thiết Kế UX Cho Sản Phẩm AI: 7 Nguyên Tắc Cho 2026

Disclaimer: The opinions expressed in this blog are solely my own and do not reflect the views or opinions of my employer or any affiliated organizations. The content provided is for informational and educational purposes only and should not be taken as professional advice. While I strive to provide accurate and up-to-date information, I make no warranties or guarantees about the completeness, reliability, or accuracy of the content. Readers are encouraged to verify the information and seek independent advice as needed. I disclaim any liability for decisions or actions taken based on the content of this blog.