Benchmark AI Agent 2026 — SWE-bench, GAIA, OSWorld và Cách Đo Năng Lực Thật

Posted on: 5/18/2026 9:09:45 AM

Table of contents

Vì sao benchmark agent khác benchmark LLM truyền thống?
1. SWE-bench Verified — Thước đo agent coding
1. ⚠ Cạm bẫy data contamination
2. GAIA — Bài toán "general AI assistant" và cú sốc scaffolding
1. 🎯 Bài học lớn nhất từ GAIA 2026
3. OSWorld-Verified — Computer Use đã vượt human baseline
4. Tau2-Bench — Khi policy adherence là vua
1. 💡 Pass^k là metric "production-grade"
5. WebArena — Browser agent đang rượt kịp con người
So sánh tổng hợp — Benchmark nào trust được?
Sáu cạm bẫy khi đọc điểm benchmark
Timeline: 24 tháng tiến hoá benchmark agent
Lời khuyên cho team đang chọn agent stack
1. ✅ Quy trình chọn agent đúng 2026
Tương lai 2027 — Benchmark agent sẽ đi đâu?
Tham khảo

Mỗi tuần lại có một vendor mới đăng tweet: "Agent của chúng tôi đạt 92% trên benchmark X — vượt mặt mọi đối thủ." Vài tháng sau, người dùng thực tế phát hiện agent đó chật vật ngay cả khi đặt vé máy bay đơn giản. Vấn đề không phải vendor nói dối — vấn đề là benchmark AI Agent năm 2026 là một bãi mìn: cùng một model có thể chênh nhau 30 đến 50 điểm tuỳ scaffolding, có vụ leakage làm OpenAI ngừng báo cáo điểm SWE-bench, và có benchmark mà human baseline đã bị vượt qua từ tháng 3.

Bài viết này bóc tách năm benchmark đang định hình cách ngành đánh giá agent năm 2026 — SWE-bench, GAIA, OSWorld, Tau2-Bench, WebArena — kèm số liệu mới nhất, cạm bẫy thường gặp, và lời khuyên rất thực tế: nhìn vào con số nào trước khi đặt cược production.

Vì sao benchmark agent khác benchmark LLM truyền thống?

MMLU, HumanEval, GSM8K là những bài kiểm tra "một phát ăn ngay": cho prompt vào, lấy câu trả lời ra, chấm. Nhưng agent thì khác về bản chất — chúng phải nhiều bước, gọi tool, đối thoại với người dùng giả lập, thao tác desktop hoặc browser thật, và đôi khi tự sửa lỗi giữa đường. Một loạt khái niệm mới xuất hiện:

Scaffolding — phần code "khung" quanh model: planner, memory, tool registry, retry logic. Cùng GPT-5 bare model với một wrapper Cursor và một wrapper agentless có thể chênh nhau 40 điểm trên SWE-bench.
Pass@k vs pass@1 — pass@1 là một lần thử ăn ngay; pass@k là cho phép k lần thử rồi lấy max. Best-of-N có thể đẩy điểm cao nhưng không phản ánh chi phí production.
Data contamination — model có thể đã thấy task trong training data. Đây là lý do OpenAI ngừng báo cáo SWE-bench Verified sau khi xác nhận có leakage.
Policy adherence — agent đặt được vé đúng nhưng vi phạm policy đổi vé thì vẫn fail. Một metric mà các benchmark cũ không hề đo.

flowchart TB
    A[Benchmark AI Agent 2026] --> B[Coding]
    A --> C[General Assistant]
    A --> D[Computer Use]
    A --> E[Tool + Policy]
    A --> F[Web Navigation]
    B --> B1[SWE-bench Verified
500 task Python repo]
    C --> C1[GAIA
466 câu hỏi đa modal]
    D --> D1[OSWorld-Verified
369 task desktop thật]
    E --> E1[Tau2-Bench
retail, airline, telecom]
    F --> F1[WebArena
e-commerce, forum, GitLab]
    style A fill:#e94560,stroke:#fff,color:#fff
    style B fill:#f8f9fa,stroke:#e94560,color:#2c3e50
    style C fill:#f8f9fa,stroke:#e94560,color:#2c3e50
    style D fill:#f8f9fa,stroke:#e94560,color:#2c3e50
    style E fill:#f8f9fa,stroke:#e94560,color:#2c3e50
    style F fill:#f8f9fa,stroke:#e94560,color:#2c3e50
    style B1 fill:#16213e,stroke:#fff,color:#fff
    style C1 fill:#16213e,stroke:#fff,color:#fff
    style D1 fill:#16213e,stroke:#fff,color:#fff
    style E1 fill:#16213e,stroke:#fff,color:#fff
    style F1 fill:#16213e,stroke:#fff,color:#fff

Hình 1 — Bản đồ năm benchmark agent quan trọng nhất 2026, phân theo loại năng lực được đo.

1. SWE-bench Verified — Thước đo agent coding

SWE-bench là tập 500 issue thật từ 12 repo Python lớn (Django, Flask, scikit-learn...), được kỹ sư OpenAI review thủ công để đảm bảo task giải được và test case không mơ hồ. Mỗi task: cho agent codebase + issue description, agent phải sinh patch sao cho hidden test suite của repo pass. Đây là benchmark coding agent được tham chiếu nhiều nhất kể từ năm 2025.

93.9%Claude Mythos Preview (top 1)

87.6%Claude Opus 4.7 Adaptive

85.0%GPT-5.3 Codex

63.4%Trung bình 83 model đã đánh giá

Con số chính thức tháng 5/2026 cho thấy top đã sát trần — Claude Mythos Preview đạt 93.9%, để lại 6.1% còn chỗ cải thiện. Nhưng đây là chỗ cần thận trọng:

⚠ Cạm bẫy data contamination

OpenAI đã ngừng báo cáo điểm SWE-bench Verified sau khi xác nhận có evaluation-set leakage trong training data. Khi nhìn điểm cao trên 90%, hãy hỏi: model có thấy task này trong pretraining không? Cộng đồng giờ chuyển dần sang SWE-bench Pro (Scale AI) và SWE-bench Live (issue mới mỗi tháng) để giảm rủi ro contamination.

Một fact thú vị: Augment Code đạt 72.0% với pass@1 thuần — không best-of-N, không trick. Điểm này thấp hơn nhiều so với top leaderboard nhưng phản ánh trung thực hơn chi phí production: trong môi trường thật bạn không thể chạy 16 attempt rồi lấy max.

2. GAIA — Bài toán "general AI assistant" và cú sốc scaffolding

GAIA (General AI Assistants) là benchmark 466 câu hỏi do Meta, HuggingFace và nhóm AutoGPT phát triển, đo khả năng reasoning + multimodal + web browsing + tool use trên các task giống như trợ lý thật ngoài đời. Câu hỏi mẫu: "Trong báo cáo NASA 1976 của tác giả X, hình minh hoạ ở trang 14 có bao nhiêu đối tượng?" — agent phải tự tìm PDF, tải, OCR và đếm.

Điều đặc biệt nhất ở GAIA năm 2026 không phải con số top mà là khoảng chênh giữa các loại leaderboard:

Leaderboard	Cho phép	Top score (5/2026)	Ý nghĩa
Princeton HAL (scaffolded)	Full agent stack — tool, memory, retry	Claude Sonnet 4.5: 74.6%	Đo "hệ thống" làm được gì
HAL bare model	Chỉ model thuần	GPT-5 Mini: 44.8%	Đo năng lực agentic nội tại
Steel.dev system-level	Tool chuyên dụng + browser	OPS-Agentic-Search: 92.36%	Đo platform end-to-end

🎯 Bài học lớn nhất từ GAIA 2026

Khoảng cách 30–50 điểm giữa bare model và scaffolded agent quan trọng hơn cả khoảng cách giữa các model. Một startup chọn đúng framework có thể bóp nghẹt một startup khác dùng model mạnh hơn nhưng wrapper yếu. Khi đọc bất kỳ điểm GAIA nào, câu hỏi đầu tiên phải là: "Đây là bare model hay scaffolded?"

3. OSWorld-Verified — Computer Use đã vượt human baseline

OSWorld là 369 task desktop thật chạy trên Ubuntu/Windows/macOS với app thật (LibreOffice, Chrome, VS Code, Thunderbird...). Agent phải nhìn screenshot, di chuột, gõ phím giống người dùng thật. Đây là bài kiểm tra gần nhất với "AI thay thế nhân viên văn phòng".

Human baseline trên OSWorld là 72.36% — không phải 100% vì kể cả người thật cũng bị nhầm UI, đóng nhầm cửa sổ, click sai chỗ. Tháng 4–5/2026, lần đầu tiên agent vượt qua mốc này:

82.6%Holo3-35B-A3B

79.6%Claude Mythos Preview

78.8%Holo3-122B-A10B

72.4%Human baseline

GPT-5.4 (3/3/2026) tự báo cáo 75.0% — lần đầu một model thương mại tự nhận vượt human baseline. Cộng đồng vẫn đang kiểm chứng độc lập, nhưng xu hướng đã rõ: computer use không còn là sci-fi.

xychart-beta
    title "OSWorld-Verified: tiến triển agent computer use"
    x-axis ["2024-Q1", "2024-Q3", "2025-Q1", "2025-Q3", "2026-Q1", "2026-Q2"]
    y-axis "Success rate (%)" 0 --> 100
    line [12, 22, 38, 55, 70, 82]
    line [72, 72, 72, 72, 72, 72]

Hình 2 — Đường cong tiến triển OSWorld (xanh) và human baseline 72.4% (đỏ). Q1/2026 là điểm giao.

4. Tau2-Bench — Khi policy adherence là vua

Sierra Research ra mắt τ-bench cuối 2024 với insight rất sắc: trong enterprise, không quan trọng agent có hoàn thành task không, quan trọng là có vi phạm policy không. Một agent đặt được vé máy bay nhưng không tính phí đổi vé theo policy của hãng — là fail, không phải half-credit.

Tau2-Bench (cập nhật 4/2026) mở rộng ra ba domain: retail, airline, telecom, với 38 model entry. Đặc biệt giờ có cả voice full-duplex — đo agent qua audio realtime, không chỉ text.

Domain	Top model (5/2026)	Pass^4 rate	Ý nghĩa pass^k
Tau2 Airline	LongCat-Flash-Thinking-2601 (Meituan)	0.765	Phải pass 4 lần liên tiếp trên cùng task
Tau2 Retail	Claude Sonnet 4.5 + Sierra scaffold	~0.71	Reliability là chính, không chỉ capability
Tau2 Telecom (mới)	GPT-5.3	~0.62	Domain phức tạp nhất, có dependency chain

💡 Pass^k là metric "production-grade"

Pass^k khác pass@k: pass@k cho phép k lần thử rồi lấy max (lạc quan), pass^k yêu cầu agent pass k lần liên tiếp (bi quan, đo reliability). Một agent có pass@1 = 0.85 nhưng pass^4 chỉ 0.5 thì cứ 4 lần chạy có 1 lần hỏng — không thể deploy vào customer-facing flow.

5. WebArena — Browser agent đang rượt kịp con người

WebArena là môi trường web giả lập đầy đủ: e-commerce (giống Amazon), forum (giống Reddit), CMS (giống Magento), GitLab clone. Agent phải mua hàng, post bài, tìm thông tin, quản lý PR — tất cả qua browser thật. 78% là human baseline.

Hai năm trước (2024), agent đầu tiên đạt 14%. Tháng 5/2026, leaderboard cực kỳ chật:

71.6%OpAgent (SOTA)

68.7%Claude Mythos Preview

65.8%GPT-5.4 Pro

78%Human

Top 3 chỉ chênh 5.8 điểm — cạnh tranh dữ dội hơn bất kỳ benchmark nào khác. Và khoảng cách với human đã rút từ 64 điểm (2024) xuống còn 6.4 điểm (2026). Theo đà này, cuối 2026 hoặc đầu 2027 agent sẽ vượt human trên WebArena.

So sánh tổng hợp — Benchmark nào trust được?

Benchmark	Đo cái gì	Top 5/2026	Human baseline	Rủi ro chính
SWE-bench Verified	Fix bug Python repo thật	93.9%	N/A (test pass)	Contamination, best-of-N
GAIA (HAL scaffolded)	General assistant multimodal	74.6%	~92%	Scaffolding gap 30+ điểm
OSWorld-Verified	Computer use thật trên OS	82.6%	72.4%	Human đã bị vượt — cần benchmark mới
Tau2-Bench	Tool use + policy adherence	~76.5%	~95%	Pass^k khắc nghiệt — phản ánh production
WebArena	Browser navigation đa app	71.6%	78%	Top 3 chỉ chênh 5.8% — khó phân biệt thật

Sáu cạm bẫy khi đọc điểm benchmark

1. Best-of-N che giấu chi phí

Một agent đạt 90% với best-of-16 nhưng pass@1 chỉ 60% sẽ tốn 16x tiền inference cho mỗi task. Production có chấp nhận được không?

2. Scaffolding có thể quan trọng hơn model

GAIA chứng minh: cùng model, bare vs scaffolded chênh 30+ điểm. Khi vendor khoe "Claude X.Y đạt 74%", hỏi: "scaffolding gì?"

3. Data contamination ngày càng tệ

Càng nhiều benchmark public, càng nhiều khả năng leakage. Xu hướng 2026 là benchmark "live" — task mới hàng tháng (SWE-bench Live), hoặc closed-set test (Scale Pro).

4. Self-reported > independent

Vendor luôn báo cáo điểm cao hơn 3–10% so với độc lập. GPT-5.4 tự báo 75% OSWorld nhưng độc lập đo được 65–70%. Trust Princeton HAL, BenchLM, Artificial Analysis hơn vendor blog.

5. Pass@1 ≠ pass^k

Production cần reliability, không cần lucky shot. Tau2-Bench dùng pass^k chính là vì lý do này. Pass^4 = 0.5 nghĩa là 50% requests hỏng sau 4 lần — disaster cho customer service.

6. Benchmark không cover use case của bạn

SWE-bench giỏi Python repo, nhưng codebase Vue 3 + Nuxt 4 của bạn có thể là câu chuyện khác. Luôn xây "evaluation set" nội bộ — 50–100 task đại diện cho production thật của bạn.

Timeline: 24 tháng tiến hoá benchmark agent

Q2/2024

SWE-bench gốc ra mắt — 2,294 task. Top model GPT-4 đạt ~12%, ai cũng nghĩ "còn xa lắm".

Q4/2024

SWE-bench Verified (OpenAI human-review) + τ-bench (Sierra) — chuyển focus từ "có hoàn thành" sang "có đúng policy".

Q1/2025

OSWorld đặt thử thách computer use. Agent đầu tiên đạt 22% — vẫn xa human 72.4%.

Q3/2025

Claude 3.7 Sonnet vượt 50% SWE-bench Verified lần đầu. Scaffolding gap bắt đầu được tranh luận công khai.

Q1/2026

OSWorld bị vượt human baseline (GPT-5.4 tự báo cáo 75%). Scale AI ra SWE-bench Pro để chống contamination.

Q2/2026

Tau2-Bench mở rộng voice + telecom. SWE-bench Live (issue mới mỗi tháng) thành benchmark vàng cho coding agent. Princeton HAL chuẩn hoá scaffolded vs bare leaderboard.

Lời khuyên cho team đang chọn agent stack

✅ Quy trình chọn agent đúng 2026

Xác định use case cụ thể — coding, customer service, computer use, web research? Mỗi cái map vào benchmark khác.
Đọc bare-model score, không phải scaffolded nếu bạn tự build agent layer. Đọc scaffolded score nếu mua platform.
Yêu cầu pass^k chứ không phải pass@1 cho production-facing flow.
Tự build eval set nội bộ 50–100 task — đây là số liệu duy nhất bạn tin tuyệt đối.
Theo dõi benchmark "live" (SWE-bench Live, GAIA fresh subset) để giảm rủi ro contamination.
So sánh chi phí inference — agent đạt 90% với 50K tokens/task vs 70% với 8K tokens/task có thể là economy hoàn toàn khác.

Tương lai 2027 — Benchmark agent sẽ đi đâu?

Khi human baseline đã bị vượt trên OSWorld và sắp bị vượt trên WebArena, ngành đang hướng tới ba làn sóng benchmark mới:

Long-horizon agent benchmarks — task kéo dài hàng giờ hoặc hàng ngày, ví dụ "lập kế hoạch dự án 3 tháng và execute". Gaia2 đã đi theo hướng này.
Multi-agent collaboration benchmarks — đo nhóm agent hợp tác giải task lớn (kiểu Magentic-One vs CAMEL vs AutoGen).
Safety + alignment benchmarks — đo khả năng agent từ chối action sai trái, kháng prompt injection, không leak secret. NeMo Guardrails và Llama Guard đang định hình mảng này.

Bài học lớn nhất từ benchmark agent 2026 không phải con số nào cao nhất, mà là: điểm benchmark là điều kiện cần, không phải điều kiện đủ. Trước khi bỏ tiền vào một agent stack, hãy nhớ rằng SWE-bench top model có thể fail thê thảm trên codebase Vue 3 của bạn, GAIA top score có thể không biết domain bảo hiểm Việt Nam, và OSWorld champion có thể không click được nút "Đăng nhập" của một app nội bộ. Benchmark dẫn lối — eval nội bộ mới quyết định.

Tham khảo

#AI Agents #AI Agent Benchmarks #SWE-bench #GAIA #OSWorld #Tau-Bench #WebArena #Agent Evaluation

# Benchmark AI Agent 2026 — SWE-bench, GAIA, OSWorld và Cách Đo Năng Lực Thật

Mỗi tuần lại có một vendor mới đăng tweet: *"Agent của chúng tôi đạt 92% trên benchmark X — vượt mặt mọi đối thủ."* Vài tháng sau, người dùng thực tế phát hiện agent đó chật vật ngay cả khi đặt vé máy bay đơn giản. Vấn đề không phải vendor nói dối — vấn đề là **benchmark AI Agent năm 2026 là một bãi mìn**: cùng một model có thể chênh nhau 30 đến 50 điểm tuỳ scaffolding, có vụ leakage làm OpenAI ngừng báo cáo điểm SWE-bench, và có benchmark mà human baseline đã bị vượt qua từ tháng 3.

Bài viết này bóc tách năm benchmark đang định hình cách ngành đánh giá agent năm 2026 — **SWE-bench, GAIA, OSWorld, Tau2-Bench, WebArena** — kèm số liệu mới nhất, cạm bẫy thường gặp, và lời khuyên rất thực tế: nhìn vào con số nào trước khi đặt cược production.

## Vì sao benchmark agent khác benchmark LLM truyền thống?

MMLU, HumanEval, GSM8K là những bài kiểm tra "một phát ăn ngay": cho prompt vào, lấy câu trả lời ra, chấm. Nhưng agent thì khác về bản chất — chúng phải **nhiều bước, gọi tool, đối thoại với người dùng giả lập, thao tác desktop hoặc browser thật, và đôi khi tự sửa lỗi giữa đường**. Một loạt khái niệm mới xuất hiện:

- **Scaffolding** — phần code "khung" quanh model: planner, memory, tool registry, retry logic. Cùng GPT-5 bare model với một wrapper Cursor và một wrapper agentless có thể chênh nhau 40 điểm trên SWE-bench.
- **Pass@k vs pass@1** — pass@1 là một lần thử ăn ngay; pass@k là cho phép k lần thử rồi lấy max. Best-of-N có thể đẩy điểm cao nhưng không phản ánh chi phí production.
- **Data contamination** — model có thể đã thấy task trong training data. Đây là lý do OpenAI ngừng báo cáo SWE-bench Verified sau khi xác nhận có leakage.
- **Policy adherence** — agent đặt được vé đúng nhưng vi phạm policy đổi vé thì vẫn fail. Một metric mà các benchmark cũ không hề đo.

```
flowchart TB
    A[Benchmark AI Agent 2026] --> B[Coding]
    A --> C[General Assistant]
    A --> D[Computer Use]
    A --> E[Tool + Policy]
    A --> F[Web Navigation]
    B --> B1[SWE-bench Verified  
500 task Python repo]
    C --> C1[GAIA  
466 câu hỏi đa modal]
    D --> D1[OSWorld-Verified  
369 task desktop thật]
    E --> E1[Tau2-Bench  
retail, airline, telecom]
    F --> F1[WebArena  
e-commerce, forum, GitLab]
    style A fill:#e94560,stroke:#fff,color:#fff
    style B fill:#f8f9fa,stroke:#e94560,color:#2c3e50
    style C fill:#f8f9fa,stroke:#e94560,color:#2c3e50
    style D fill:#f8f9fa,stroke:#e94560,color:#2c3e50
    style E fill:#f8f9fa,stroke:#e94560,color:#2c3e50
    style F fill:#f8f9fa,stroke:#e94560,color:#2c3e50
    style B1 fill:#16213e,stroke:#fff,color:#fff
    style C1 fill:#16213e,stroke:#fff,color:#fff
    style D1 fill:#16213e,stroke:#fff,color:#fff
    style E1 fill:#16213e,stroke:#fff,color:#fff
    style F1 fill:#16213e,stroke:#fff,color:#fff

```

Hình 1 — Bản đồ năm benchmark agent quan trọng nhất 2026, phân theo loại năng lực được đo.

## 1. SWE-bench Verified — Thước đo agent coding

SWE-bench là tập 500 issue thật từ 12 repo Python lớn (Django, Flask, scikit-learn...), được kỹ sư OpenAI review thủ công để đảm bảo task giải được và test case không mơ hồ. Mỗi task: cho agent codebase + issue description, agent phải sinh patch sao cho hidden test suite của repo pass. Đây là **benchmark coding agent được tham chiếu nhiều nhất** kể từ năm 2025.

93.9%Claude Mythos Preview (top 1)

87.6%Claude Opus 4.7 Adaptive

85.0%GPT-5.3 Codex

63.4%Trung bình 83 model đã đánh giá

Con số chính thức tháng 5/2026 cho thấy top đã sát trần — Claude Mythos Preview đạt 93.9%, để lại 6.1% còn chỗ cải thiện. Nhưng đây là chỗ cần thận trọng:

#### ⚠ Cạm bẫy data contamination

OpenAI **đã ngừng báo cáo điểm SWE-bench Verified** sau khi xác nhận có evaluation-set leakage trong training data. Khi nhìn điểm cao trên 90%, hãy hỏi: model có thấy task này trong pretraining không? Cộng đồng giờ chuyển dần sang **SWE-bench Pro** (Scale AI) và **SWE-bench Live** (issue mới mỗi tháng) để giảm rủi ro contamination.

## 2. GAIA — Bài toán "general AI assistant" và cú sốc scaffolding

GAIA (General AI Assistants) là benchmark 466 câu hỏi do Meta, HuggingFace và nhóm AutoGPT phát triển, đo khả năng **reasoning + multimodal + web browsing + tool use** trên các task giống như trợ lý thật ngoài đời. Câu hỏi mẫu: "Trong báo cáo NASA 1976 của tác giả X, hình minh hoạ ở trang 14 có bao nhiêu đối tượng?" — agent phải tự tìm PDF, tải, OCR và đếm.

Điều đặc biệt nhất ở GAIA năm 2026 không phải con số top mà là **khoảng chênh giữa các loại leaderboard**:

| Leaderboard | Cho phép | Top score (5/2026) | Ý nghĩa |
| --- | --- | --- | --- |
| Princeton HAL (scaffolded) | Full agent stack — tool, memory, retry | Claude Sonnet 4.5: **74.6%** | Đo "hệ thống" làm được gì |
| HAL bare model | Chỉ model thuần | GPT-5 Mini: **44.8%** | Đo năng lực agentic nội tại |
| Steel.dev system-level | Tool chuyên dụng + browser | OPS-Agentic-Search: **92.36%** | Đo platform end-to-end |

#### 🎯 Bài học lớn nhất từ GAIA 2026

Khoảng cách 30–50 điểm giữa bare model và scaffolded agent **quan trọng hơn cả khoảng cách giữa các model**. Một startup chọn đúng framework có thể bóp nghẹt một startup khác dùng model mạnh hơn nhưng wrapper yếu. Khi đọc bất kỳ điểm GAIA nào, câu hỏi đầu tiên phải là: "Đây là bare model hay scaffolded?"

## 3. OSWorld-Verified — Computer Use đã vượt human baseline

OSWorld là 369 task desktop thật chạy trên Ubuntu/Windows/macOS với app thật (LibreOffice, Chrome, VS Code, Thunderbird...). Agent phải **nhìn screenshot, di chuột, gõ phím** giống người dùng thật. Đây là bài kiểm tra gần nhất với "AI thay thế nhân viên văn phòng".

Human baseline trên OSWorld là **72.36%** — không phải 100% vì kể cả người thật cũng bị nhầm UI, đóng nhầm cửa sổ, click sai chỗ. Tháng 4–5/2026, lần đầu tiên agent vượt qua mốc này:

82.6%Holo3-35B-A3B

79.6%Claude Mythos Preview

78.8%Holo3-122B-A10B

72.4%Human baseline

GPT-5.4 (3/3/2026) tự báo cáo 75.0% — lần đầu một model thương mại tự nhận vượt human baseline. Cộng đồng vẫn đang kiểm chứng độc lập, nhưng xu hướng đã rõ: **computer use không còn là sci-fi**.

```
xychart-beta
    title "OSWorld-Verified: tiến triển agent computer use"
    x-axis ["2024-Q1", "2024-Q3", "2025-Q1", "2025-Q3", "2026-Q1", "2026-Q2"]
    y-axis "Success rate (%)" 0 --> 100
    line [12, 22, 38, 55, 70, 82]
    line [72, 72, 72, 72, 72, 72]

```

Hình 2 — Đường cong tiến triển OSWorld (xanh) và human baseline 72.4% (đỏ). Q1/2026 là điểm giao.

## 4. Tau2-Bench — Khi policy adherence là vua

Sierra Research ra mắt τ-bench cuối 2024 với insight rất sắc: trong enterprise, **không quan trọng agent có hoàn thành task không, quan trọng là có vi phạm policy không**. Một agent đặt được vé máy bay nhưng không tính phí đổi vé theo policy của hãng — là fail, không phải half-credit.

Tau2-Bench (cập nhật 4/2026) mở rộng ra ba domain: **retail, airline, telecom**, với 38 model entry. Đặc biệt giờ có cả **voice full-duplex** — đo agent qua audio realtime, không chỉ text.

| Domain | Top model (5/2026) | Pass^4 rate | Ý nghĩa pass^k |
| --- | --- | --- | --- |
| Tau2 Airline | LongCat-Flash-Thinking-2601 (Meituan) | 0.765 | Phải pass 4 lần liên tiếp trên cùng task |
| Tau2 Retail | Claude Sonnet 4.5 + Sierra scaffold | ~0.71 | Reliability là chính, không chỉ capability |
| Tau2 Telecom (mới) | GPT-5.3 | ~0.62 | Domain phức tạp nhất, có dependency chain |

#### 💡 Pass^k là metric "production-grade"

Pass^k khác pass@k: pass@k cho phép k lần thử rồi lấy max (lạc quan), pass^k yêu cầu agent **pass k lần liên tiếp** (bi quan, đo reliability). Một agent có pass@1 = 0.85 nhưng pass^4 chỉ 0.5 thì cứ 4 lần chạy có 1 lần hỏng — không thể deploy vào customer-facing flow.

## 5. WebArena — Browser agent đang rượt kịp con người

Hai năm trước (2024), agent đầu tiên đạt 14%. Tháng 5/2026, leaderboard cực kỳ chật:

71.6%OpAgent (SOTA)

68.7%Claude Mythos Preview

65.8%GPT-5.4 Pro

78%Human

Top 3 chỉ chênh 5.8 điểm — cạnh tranh dữ dội hơn bất kỳ benchmark nào khác. Và khoảng cách với human đã rút từ 64 điểm (2024) xuống còn 6.4 điểm (2026). Theo đà này, **cuối 2026 hoặc đầu 2027 agent sẽ vượt human trên WebArena**.

## So sánh tổng hợp — Benchmark nào trust được?

| Benchmark | Đo cái gì | Top 5/2026 | Human baseline | Rủi ro chính |
| --- | --- | --- | --- | --- |
| SWE-bench Verified | Fix bug Python repo thật | 93.9% | N/A (test pass) | Contamination, best-of-N |
| GAIA (HAL scaffolded) | General assistant multimodal | 74.6% | ~92% | Scaffolding gap 30+ điểm |
| OSWorld-Verified | Computer use thật trên OS | 82.6% | 72.4% | Human đã bị vượt — cần benchmark mới |
| Tau2-Bench | Tool use + policy adherence | ~76.5% | ~95% | Pass^k khắc nghiệt — phản ánh production |
| WebArena | Browser navigation đa app | 71.6% | 78% | Top 3 chỉ chênh 5.8% — khó phân biệt thật |

## Sáu cạm bẫy khi đọc điểm benchmark

#### 1. Best-of-N che giấu chi phí

Một agent đạt 90% với best-of-16 nhưng pass@1 chỉ 60% sẽ tốn 16x tiền inference cho mỗi task. Production có chấp nhận được không?

#### 2. Scaffolding có thể quan trọng hơn model

GAIA chứng minh: cùng model, bare vs scaffolded chênh 30+ điểm. Khi vendor khoe "Claude X.Y đạt 74%", hỏi: "scaffolding gì?"

#### 3. Data contamination ngày càng tệ

Càng nhiều benchmark public, càng nhiều khả năng leakage. Xu hướng 2026 là benchmark "live" — task mới hàng tháng (SWE-bench Live), hoặc closed-set test (Scale Pro).

#### 4. Self-reported > independent

#### 5. Pass@1 ≠ pass^k

Production cần reliability, không cần lucky shot. Tau2-Bench dùng pass^k chính là vì lý do này. Pass^4 = 0.5 nghĩa là 50% requests hỏng sau 4 lần — disaster cho customer service.

#### 6. Benchmark không cover use case của bạn

## Timeline: 24 tháng tiến hoá benchmark agent

Q2/2024

**SWE-bench gốc** ra mắt — 2,294 task. Top model GPT-4 đạt ~12%, ai cũng nghĩ "còn xa lắm".

Q4/2024

**SWE-bench Verified** (OpenAI human-review) + **τ-bench** (Sierra) — chuyển focus từ "có hoàn thành" sang "có đúng policy".

Q1/2025

**OSWorld** đặt thử thách computer use. Agent đầu tiên đạt 22% — vẫn xa human 72.4%.

Q3/2025

Claude 3.7 Sonnet vượt 50% SWE-bench Verified lần đầu. **Scaffolding gap** bắt đầu được tranh luận công khai.

Q1/2026

**OSWorld bị vượt human baseline** (GPT-5.4 tự báo cáo 75%). Scale AI ra **SWE-bench Pro** để chống contamination.

Q2/2026

**Tau2-Bench** mở rộng voice + telecom. **SWE-bench Live** (issue mới mỗi tháng) thành benchmark vàng cho coding agent. Princeton HAL chuẩn hoá scaffolded vs bare leaderboard.

## Lời khuyên cho team đang chọn agent stack

#### ✅ Quy trình chọn agent đúng 2026

1. **Xác định use case cụ thể** — coding, customer service, computer use, web research? Mỗi cái map vào benchmark khác.
2. **Đọc bare-model score, không phải scaffolded** nếu bạn tự build agent layer. Đọc scaffolded score nếu mua platform.
3. **Yêu cầu pass^k chứ không phải pass@1** cho production-facing flow.
4. **Tự build eval set nội bộ** 50–100 task — đây là số liệu duy nhất bạn tin tuyệt đối.
5. **Theo dõi benchmark "live"** (SWE-bench Live, GAIA fresh subset) để giảm rủi ro contamination.
6. **So sánh chi phí inference** — agent đạt 90% với 50K tokens/task vs 70% với 8K tokens/task có thể là economy hoàn toàn khác.

## Tương lai 2027 — Benchmark agent sẽ đi đâu?

Khi human baseline đã bị vượt trên OSWorld và sắp bị vượt trên WebArena, ngành đang hướng tới ba làn sóng benchmark mới:

- **Long-horizon agent benchmarks** — task kéo dài hàng giờ hoặc hàng ngày, ví dụ "lập kế hoạch dự án 3 tháng và execute". Gaia2 đã đi theo hướng này.
- **Multi-agent collaboration benchmarks** — đo nhóm agent hợp tác giải task lớn (kiểu Magentic-One vs CAMEL vs AutoGen).
- **Safety + alignment benchmarks** — đo khả năng agent từ chối action sai trái, kháng prompt injection, không leak secret. NeMo Guardrails và Llama Guard đang định hình mảng này.

Bài học lớn nhất từ benchmark agent 2026 không phải con số nào cao nhất, mà là: **điểm benchmark là điều kiện cần, không phải điều kiện đủ**. Trước khi bỏ tiền vào một agent stack, hãy nhớ rằng SWE-bench top model có thể fail thê thảm trên codebase Vue 3 của bạn, GAIA top score có thể không biết domain bảo hiểm Việt Nam, và OSWorld champion có thể không click được nút "Đăng nhập" của một app nội bộ. Benchmark dẫn lối — eval nội bộ mới quyết định.

## Tham khảo

- [SWE-bench Leaderboards (chính thức)](https://www.swebench.com/)
- [SWE-bench Verified — OpenAI human review](https://www.swebench.com/verified.html)
- [SWE-Bench Pro Leaderboard — Scale AI](https://labs.scale.com/leaderboard/swe_bench_pro_public)
- [SWE-bench Live — issue mới hàng tháng](https://swe-bench-live.github.io/)
- [GAIA Leaderboard — HuggingFace Space](https://huggingface.co/spaces/gaia-benchmark/leaderboard)
- [HAL GAIA Leaderboard — Princeton](https://hal.cs.princeton.edu/gaia)
- [OSWorld — official benchmark site](https://os-world.github.io/)
- [τ-bench — Sierra Research](https://taubench.com/)
- [tau2-bench GitHub repo](https://github.com/sierra-research/tau2-bench)
- [Artificial Analysis — Tau2-Bench Telecom Leaderboard](https://artificialanalysis.ai/evaluations/tau2-bench)
- [WebArena — official site](https://webarena.dev/)
- [Agentic AI Benchmarks — Awesome Agents](https://awesomeagents.ai/leaderboards/agentic-ai-benchmarks-leaderboard/)
- [BenchLM.ai — SWE-bench Verified meta-rankings](https://benchlm.ai/benchmarks/sweVerified)
- [AI Agent Framework Scorecard 2026 — Rapid Claw](https://rapidclaw.dev/blog/ai-agent-benchmarks-2026)

Computer Use Agents 2026: AI tự click chuột, gõ phím và lái trình duyệt

Bảo mật AI Agent 2026: Lethal Trifecta và phòng thủ nhiều lớp

Disclaimer: The opinions expressed in this blog are solely my own and do not reflect the views or opinions of my employer or any affiliated organizations. The content provided is for informational and educational purposes only and should not be taken as professional advice. While I strive to provide accurate and up-to-date information, I make no warranties or guarantees about the completeness, reliability, or accuracy of the content. Readers are encouraged to verify the information and seek independent advice as needed. I disclaim any liability for decisions or actions taken based on the content of this blog.