AlphaEvolve — AI Agent tự khám phá thuật toán vượt qua con người

Posted on: 5/8/2026 10:00:00 AM

Table of contents

1. AlphaEvolve là gì?
1. Điểm khác biệt cốt lõi
2. Kiến trúc kỹ thuật bên trong
3. Phá kỷ lục toán học 56 năm
1. 3.1. Nhân ma trận — Vượt qua Strassen
2. 3.2. Các bài toán kinh điển khác
  1. Con số ấn tượng
4. Tác động thực tế tại Google
5. Tác động vượt ra ngoài Google
6. AlphaEvolve vs FunSearch — Bước nhảy vọt
7. Dòng thời gian phát triển
8. Ablation Study — Thành phần nào quan trọng nhất?
9. Open-source và cộng đồng
1. Lưu ý quan trọng
10. Ý nghĩa với tương lai AI
11. Tham khảo

48Phép nhân ma trận 4×4×4 — phá kỷ lục 56 năm

0.7%Tài nguyên compute Google toàn cầu được thu hồi

50+Bài toán toán học được cải thiện

23%Tăng tốc kernel huấn luyện Gemini

1. AlphaEvolve là gì?

AlphaEvolve là một evolutionary coding agent do Google DeepMind phát triển, kết hợp mô hình ngôn ngữ lớn (LLM) Gemini với thuật toán tiến hóa (evolutionary computation) để tự động khám phá, thiết kế và tối ưu hóa thuật toán. Không giống các hệ thống chuyên biệt trước đó như AlphaFold (protein) hay AlphaTensor (nhân ma trận), AlphaEvolve là hệ thống đa mục đích — có thể áp dụng cho bất kỳ bài toán nào có hàm đánh giá rõ ràng.

Ý tưởng cốt lõi rất đẹp: thay vì đột biến ngẫu nhiên như thuật toán di truyền truyền thống, AlphaEvolve sử dụng LLM để tạo ra các biến thể thông minh hơn — mỗi "đột biến" được dẫn dắt bởi hiểu biết sâu sắc của mô hình về lập trình, toán học và khoa học.

Điểm khác biệt cốt lõi

AlphaEvolve chỉ cần hàng nghìn mẫu LLM để tìm ra thuật toán tối ưu, trong khi hệ thống tiền nhiệm FunSearch cần hàng triệu mẫu. Sức mạnh của frontier LLM (Gemini) với ngữ cảnh phong phú là yếu tố then chốt tạo nên hiệu quả vượt trội này.

2. Kiến trúc kỹ thuật bên trong

AlphaEvolve được triển khai dưới dạng pipeline tính toán bất đồng bộ (asynchronous computational pipeline) với Python asyncio, ưu tiên throughput — tối đa hóa số ý tưởng được đề xuất và đánh giá — thay vì tốc độ của bất kỳ phép tính đơn lẻ nào.

graph TB
    A["Prompt Sampler"] -->|"Tạo prompt\nkèm context"| B["LLM Ensemble\n(Gemini Flash + Pro)"]
    B -->|"Sinh code\ndạng SEARCH/REPLACE"| C["Evaluator Pipeline\n(Cascade 3 tầng)"]
    C -->|"Score +\nfeedback"| D["Program Database\n(MAP-Elites + Islands)"]
    D -->|"Chọn program\ntốt nhất"| A
    E["Controller"] -.->|"Điều phối\nbất đồng bộ"| A
    E -.-> B
    E -.-> C
    E -.-> D
    style A fill:#e94560,stroke:#fff,color:#fff
    style B fill:#4285f4,stroke:#fff,color:#fff
    style C fill:#4CAF50,stroke:#fff,color:#fff
    style D fill:#ff9800,stroke:#fff,color:#fff
    style E fill:#2c3e50,stroke:#fff,color:#fff

Hình 1: Pipeline chính của AlphaEvolve — vòng lặp tiến hóa bất đồng bộ

2.1. Prompt Sampler — Bộ não xây dựng ngữ cảnh

Prompt Sampler thu thập và tổng hợp thông tin từ nhiều nguồn: mô tả bài toán, phương trình, đoạn code, tài liệu tham khảo, và quan trọng nhất — các solution tốt nhất đã tìm được cùng điểm số từ Program Database. Hệ thống sử dụng stochastic formatting với template có xác suất thay đổi, giúp tạo sự đa dạng trong prompt.

Một tính năng đặc biệt: meta-prompt evolution — chính các chỉ dẫn trong prompt cũng được tiến hóa. LLM đề xuất cách cải thiện prompt, và những gợi ý hiệu quả được giữ lại trong một database riêng. Nói cách khác, AlphaEvolve tự tối ưu cách đặt câu hỏi cho chính nó.

2.2. LLM Ensemble — Song kiếm hợp bích

AlphaEvolve sử dụng hai mô hình Gemini phối hợp:

Gemini Flash: Độ trễ thấp, tạo ra lượng lớn candidate nhanh chóng — tối đa hóa breadth (chiều rộng) của không gian tìm kiếm
Gemini Pro: Năng lực mạnh hơn, thi thoảng đưa ra các gợi ý chất lượng cao giúp đạt breakthrough — những bước nhảy vọt trong quá trình tìm kiếm

Code được sinh ra dưới dạng structured SEARCH/REPLACE diff:

<<<<<<< SEARCH
# Original code block
=======
# New replacement code — LLM-generated mutation
>>>>>>> REPLACE

2.3. Evaluator Pipeline — Hệ thống sàng lọc 3 tầng

Đây là thành phần đảm bảo chất lượng, hoạt động theo cơ chế cascade:

Tầng 1 — Hypothesis testing: Test nhanh trên tập nhỏ, loại bỏ các chương trình lỗi trước khi chạy test case chính
Tầng 2 — Multi-metric scoring: Đánh giá đồng thời nhiều chỉ số. Nghiên cứu cho thấy tối ưu nhiều metric đồng thời thường cải thiện cả metric đơn lẻ mục tiêu
Tầng 3 — LLM-generated feedback: Một LLM riêng đánh giá các thuộc tính khó đo lường bằng code, ví dụ: độ đơn giản, readability

Evaluator hỗ trợ ngân sách tính toán lên đến 100 giờ compute cho mỗi solution, phân bổ bất đồng bộ trên nhiều cluster.

2.4. Program Database — Bộ nhớ tiến hóa

Lưu trữ và quản lý quần thể chương trình theo thuật toán kết hợp MAP-Elites (multi-dimensional archive) và island-based population models. Cấu hình mặc định: 500 chương trình, 5 đảo (islands), tỷ lệ khai thác (exploitation) 70%.

Cách người dùng tương tác

Người dùng chỉ cần đánh dấu phần code cần tiến hóa bằng EVOLVE-BLOCK-START / EVOLVE-BLOCK-END và cung cấp hàm đánh giá trả về metric dạng scalar. AlphaEvolve tự xử lý mọi thứ còn lại — từ việc tạo mutation, đánh giá, đến chọn lọc giải pháp tốt nhất.

3. Phá kỷ lục toán học 56 năm

Thành tựu gây chấn động nhất của AlphaEvolve là trong lĩnh vực nhân ma trận — bài toán nền tảng của khoa học máy tính.

3.1. Nhân ma trận — Vượt qua Strassen

Năm 1969, Volker Strassen chứng minh có thể nhân hai ma trận 2×2 với chỉ 7 phép nhân thay vì 8. Cho ma trận 4×4×4, thuật toán Strassen (áp dụng đệ quy) cần 49 phép nhân. Suốt 56 năm, không ai cải thiện được con số này.

AlphaEvolve phá vỡ kỷ lục: chỉ 48 phép nhân cho ma trận 4×4×4.

Kích thước ma trận	Kỷ lục cũ	AlphaEvolve	Ghi chú
(4, 4, 4)	49 (Strassen, 1969)	48	Kỷ lục 56 năm bị phá
(2, 4, 5)	33	32
(2, 4, 7)	46	45
(4, 4, 5)	62	61
(4, 4, 8)	98	96

Tổng cộng: 14 cải tiến so với state-of-the-art ở nhiều kích thước ma trận khác nhau. Một số thuật toán mới sử dụng phép nhân số phức, áp dụng được cho cả ma trận thực và phức.

3.2. Các bài toán kinh điển khác

Kissing Number Problem — bài toán 300 tuổi hỏi: bao nhiêu hình cầu bằng nhau có thể chạm vào một hình cầu trung tâm mà không chồng lên nhau? AlphaEvolve nâng cận dưới ở 11 chiều từ 592 lên 593.

Bài toán Erdős Minimum Overlap — hợp tác với nhà toán học đoạt giải Fields Terence Tao. AlphaEvolve sinh ra các xấp xỉ số, giúp cộng đồng toán học thiết lập và chứng minh một phỏng đoán mới. Bài toán được giải trong vòng 48 giờ — thay vì hàng tuần hoặc hàng tháng theo cách truyền thống.

Ramsey Numbers — cải thiện cận dưới cho 5 số Ramsey cổ điển, một số kết quả trước đó đã đứng yên hơn một thập kỷ.

Con số ấn tượng

Trên 50+ bài toán toán học được thử nghiệm: 75% trường hợp AlphaEvolve tái khám phá đúng cấu trúc tốt nhất đã biết, 20% trường hợp vượt qua state-of-the-art với cấu trúc hoàn toàn mới, chỉ 5% cho kết quả dưới mức tối ưu.

4. Tác động thực tế tại Google

AlphaEvolve không chỉ là nghiên cứu lý thuyết — nó đang chạy trong production tại Google và mang lại giá trị hàng chục triệu đô la.

4.1. Borg Data Center Scheduler

AlphaEvolve khám phá một heuristic đơn giản cho bài toán phân bổ tài nguyên CPU/bộ nhớ trong Borg — hệ thống quản lý container khổng lồ của Google. Kết quả:

Thu hồi 0.7% tài nguyên compute toàn cầu của Google
Tương đương khoảng 14,000 máy chủ
Tiết kiệm ước tính 42-70 triệu USD mỗi năm
Đã chạy trong production hơn 1 năm
Vượt trội hơn các giải pháp deep reinforcement learning

Tại sao heuristic đơn giản lại thắng deep RL?

Heuristic do AlphaEvolve tìm ra có ưu thế lớn về interpretability (dễ hiểu), debuggability (dễ gỡ lỗi), và predictability (dễ dự đoán) — tất cả đều quan trọng hơn hiệu suất tuyệt đối cho hệ thống production quy mô Google.

4.2. Tối ưu huấn luyện Gemini

23% speedup cho một kernel nhân ma trận quan trọng trong pipeline huấn luyện
Giảm 1% tổng thời gian huấn luyện Gemini — tiết kiệm 500K-1M USD mỗi lần train
Thời gian tối ưu từ vài tháng rút xuống còn vài ngày

4.3. FlashAttention và TPU

FlashAttention kernel: Tăng tốc 32.5%, thêm 15% speedup cho pre/postprocessing
TPU Circuit Design: Đề xuất viết lại Verilog loại bỏ các bit không cần thiết, được tích hợp vào thế hệ TPU tiếp theo — lần đầu tiên Gemini đóng góp trực tiếp vào thiết kế phần cứng TPU
Google Spanner: Giảm 20% write amplification cho LSM-tree compaction
Compiler optimization: Giảm gần 9% dung lượng lưu trữ phần mềm

5. Tác động vượt ra ngoài Google

Từ tháng 12/2025, AlphaEvolve được cung cấp dưới dạng Service API trên Google Cloud (private preview). Các đối tác đã đạt kết quả ấn tượng:

graph LR
    subgraph "Genomics"
        A["DeepConsensus\nGiảm 30% lỗi"]
    end
    subgraph "Energy"
        B["Grid Optimization\n14% → 88%"]
    end
    subgraph "Logistics"
        C["FM Logistic\n+10.4% hiệu suất"]
    end
    subgraph "Pharma"
        D["Schrödinger\n4x tăng tốc"]
    end
    subgraph "Finance"
        E["Klarna\n2x tốc độ train"]
    end
    subgraph "Semiconductor"
        F["Substrate\nNhiều lần nhanh hơn"]
    end
    style A fill:#e94560,stroke:#fff,color:#fff
    style B fill:#4285f4,stroke:#fff,color:#fff
    style C fill:#4CAF50,stroke:#fff,color:#fff
    style D fill:#ff9800,stroke:#fff,color:#fff
    style E fill:#2c3e50,stroke:#fff,color:#fff
    style F fill:#16213e,stroke:#fff,color:#fff

Hình 2: Tác động của AlphaEvolve tại các đối tác bên ngoài Google

Lĩnh vực	Đối tác / Ứng dụng	Kết quả
Genomics	DeepConsensus (PacBio DNA)	Giảm 30% lỗi phát hiện biến thể
Năng lượng	AC Optimal Power Flow	Tỷ lệ giải pháp khả thi từ 14% lên 88%
Khoa học Trái Đất	Dự đoán thiên tai	Tăng 5% độ chính xác, 20 loại rủi ro
Lượng tử	Google Willow processor	Giảm 10x tỷ lệ lỗi mạch lượng tử
Tài chính	Klarna	Tăng gấp đôi tốc độ train transformer
Bán dẫn	Substrate	Nhiều lần tăng tốc computational lithography
Logistics	FM Logistic	+10.4% hiệu suất, tiết kiệm 15,000+ km/năm
Quảng cáo	WPP	+10% độ chính xác so với tối ưu thủ công
Dược phẩm	Schrödinger	~4x tăng tốc MLFF training & inference

6. AlphaEvolve vs FunSearch — Bước nhảy vọt

Tiêu chí	FunSearch (2023)	AlphaEvolve (2025)
Phạm vi tiến hóa	Một hàm Python duy nhất	Toàn bộ file/codebase
Độ dài code	10-20 dòng	Hàng trăm dòng
Ngôn ngữ	Chỉ Python	Bất kỳ ngôn ngữ nào
Thời gian đánh giá	≤20 phút trên 1 CPU	Hàng giờ trên accelerator
Số mẫu LLM cần	Hàng triệu	Hàng nghìn
Mô hình	Mô hình code nhỏ	Frontier SOTA (Gemini)
Mục tiêu tối ưu	Một metric	Nhiều metric đồng thời
Cách đột biến	Toán tử định trước	Kiến thức thế giới từ LLM

7. Dòng thời gian phát triển

Tháng 10/2022

AlphaTensor ra mắt — dùng reinforcement learning cho nhân ma trận. Sau đó DeepMind thừa nhận đây là "ngõ cụt" vì không thể mở rộng.

Tháng 12/2023

FunSearch công bố — tiền thân trực tiếp, tiến hóa từng hàm Python đơn lẻ. Chứng minh LLM có thể hướng dẫn tìm kiếm tiến hóa hiệu quả.

Tháng 7/2024

AlphaProof đạt huy chương bạc tại Olympic Toán Quốc tế (IMO) — kết hợp LLM với AlphaZero cho chứng minh toán hình thức trong Lean.

Tháng 5/2025

AlphaEvolve ra mắt. Paper nghiên cứu và kết quả được công bố trên GitHub. Heuristic Borg scheduler đã chạy production hơn 1 năm trước thời điểm công bố.

Tháng 12/2025

AlphaEvolve có mặt trên Google Cloud (private preview). Hợp tác với Terence Tao giải bài toán Erdős — hoàn thành trong 48 giờ.

Tháng 3/2026

Kết quả Ramsey numbers được công bố — cải thiện 5 số Ramsey cổ điển, một số kỷ lục đã đứng yên hơn thập kỷ.

Tháng 5/2026

Blog post "AlphaEvolve Impact" — tổng kết triển khai rộng rãi tại Google và 9+ đối tác trong genomics, năng lượng, dược phẩm, logistics, tài chính.

8. Ablation Study — Thành phần nào quan trọng nhất?

DeepMind thực hiện ablation study loại bỏ từng thành phần trên bài toán tensor decomposition và kissing number. Kết quả cho thấy mỗi thành phần đều đóng góp đáng kể:

graph TD
    A["AlphaEvolve\nĐầy đủ"] --> B["Bỏ Evolution\n→ Giảm mạnh"]
    A --> C["Bỏ Context\n→ Giảm đáng kể"]
    A --> D["Bỏ Meta-prompt\nevolution"]
    A --> E["Chỉ tiến hóa\n1 hàm"]
    A --> F["Dùng LLM nhỏ\n→ Kém hơn rõ rệt"]
    style A fill:#e94560,stroke:#fff,color:#fff
    style B fill:#f8f9fa,stroke:#e0e0e0,color:#2c3e50
    style C fill:#f8f9fa,stroke:#e0e0e0,color:#2c3e50
    style D fill:#f8f9fa,stroke:#e0e0e0,color:#2c3e50
    style E fill:#f8f9fa,stroke:#e0e0e0,color:#2c3e50
    style F fill:#f8f9fa,stroke:#e0e0e0,color:#2c3e50

Hình 3: Ablation study — mỗi thành phần đều thiết yếu cho hiệu suất tổng thể

9. Open-source và cộng đồng

AlphaEvolve chính thức không phải open-source. Google DeepMind chỉ công bố repository kết quả (verification notebook) trên GitHub dưới license Apache 2.0 / CC-BY 4.0. Tuy nhiên, cộng đồng đã nhanh chóng xây dựng các implementation mã nguồn mở:

OpenEvolve — triển khai phổ biến nhất, hỗ trợ nhiều LLM provider
CodeEvolve — tập trung vào tối ưu code production
OpenAlpha_Evolve — re-implementation chi tiết theo paper
ShinkaEvolve & ThetaEvolve — các biến thể chuyên biệt

Lưu ý quan trọng

Các bản open-source chưa được kiểm chứng độc lập về khả năng tái tạo kết quả của Google DeepMind. Chi phí tính toán cho vòng lặp tiến hóa (hàng nghìn lần gọi LLM + evaluation) cũng là rào cản đáng kể cho nghiên cứu độc lập.

10. Ý nghĩa với tương lai AI

AlphaEvolve đánh dấu một bước ngoặt trong cách AI hỗ trợ phát triển phần mềm và nghiên cứu khoa học:

Từ code completion sang algorithm discovery: AI không chỉ hoàn thành code theo yêu cầu, mà chủ động phát minh thuật toán mới — và đã chứng minh có thể vượt qua con người ở nhiều bài toán
Evolutionary + LLM = tổ hợp mạnh mẽ: Sự kết hợp giữa tìm kiếm tiến hóa và kiến thức thế giới từ LLM tạo ra paradigm mới cho automated scientific discovery
Production-ready: Khác với nhiều nghiên cứu AI chỉ dừng ở paper, AlphaEvolve đã được triển khai trong production quy mô Google — đem lại giá trị kinh tế thực tế
Democratization thông qua API: Việc mở API trên Google Cloud cho phép các tổ chức nhỏ hơn tiếp cận khả năng khám phá thuật toán mà trước đây chỉ có các lab nghiên cứu lớn mới có

Trong thế giới AI agent ngày càng tự chủ — từ viết code, gỡ lỗi, đến thiết kế hệ thống — AlphaEvolve cho thấy AI có thể đi xa hơn: tự khám phá những thuật toán mà con người chưa từng nghĩ đến. Đó không chỉ là tương lai của AI, mà là tương lai của chính toán học và khoa học máy tính.

11. Tham khảo

#AlphaEvolve #Google DeepMind #AI Agent #Evolutionary Computation #Gemini #Algorithm Discovery #LLM

# AlphaEvolve — AI Agent tự khám phá thuật toán vượt qua con người

48Phép nhân ma trận 4×4×4 — phá kỷ lục 56 năm

0.7%Tài nguyên compute Google toàn cầu được thu hồi

50+Bài toán toán học được cải thiện

23%Tăng tốc kernel huấn luyện Gemini

## 1. AlphaEvolve là gì?

AlphaEvolve là một **evolutionary coding agent** do Google DeepMind phát triển, kết hợp mô hình ngôn ngữ lớn (LLM) Gemini với thuật toán tiến hóa (evolutionary computation) để **tự động khám phá, thiết kế và tối ưu hóa thuật toán**. Không giống các hệ thống chuyên biệt trước đó như AlphaFold (protein) hay AlphaTensor (nhân ma trận), AlphaEvolve là hệ thống **đa mục đích** — có thể áp dụng cho bất kỳ bài toán nào có hàm đánh giá rõ ràng.

#### Điểm khác biệt cốt lõi

AlphaEvolve chỉ cần **hàng nghìn** mẫu LLM để tìm ra thuật toán tối ưu, trong khi hệ thống tiền nhiệm FunSearch cần **hàng triệu** mẫu. Sức mạnh của frontier LLM (Gemini) với ngữ cảnh phong phú là yếu tố then chốt tạo nên hiệu quả vượt trội này.

## 2. Kiến trúc kỹ thuật bên trong

AlphaEvolve được triển khai dưới dạng **pipeline tính toán bất đồng bộ** (asynchronous computational pipeline) với Python `asyncio`, ưu tiên **throughput** — tối đa hóa số ý tưởng được đề xuất và đánh giá — thay vì tốc độ của bất kỳ phép tính đơn lẻ nào.

```
graph TB
    A["Prompt Sampler"] -->|"Tạo prompt\nkèm context"| B["LLM Ensemble\n(Gemini Flash + Pro)"]
    B -->|"Sinh code\ndạng SEARCH/REPLACE"| C["Evaluator Pipeline\n(Cascade 3 tầng)"]
    C -->|"Score +\nfeedback"| D["Program Database\n(MAP-Elites + Islands)"]
    D -->|"Chọn program\ntốt nhất"| A
    E["Controller"] -.->|"Điều phối\nbất đồng bộ"| A
    E -.-> B
    E -.-> C
    E -.-> D
    style A fill:#e94560,stroke:#fff,color:#fff
    style B fill:#4285f4,stroke:#fff,color:#fff
    style C fill:#4CAF50,stroke:#fff,color:#fff
    style D fill:#ff9800,stroke:#fff,color:#fff
    style E fill:#2c3e50,stroke:#fff,color:#fff

```

Hình 1: Pipeline chính của AlphaEvolve — vòng lặp tiến hóa bất đồng bộ

### 2.1. Prompt Sampler — Bộ não xây dựng ngữ cảnh

Prompt Sampler thu thập và tổng hợp thông tin từ nhiều nguồn: mô tả bài toán, phương trình, đoạn code, tài liệu tham khảo, và quan trọng nhất — các **solution tốt nhất đã tìm được** cùng điểm số từ Program Database. Hệ thống sử dụng **stochastic formatting** với template có xác suất thay đổi, giúp tạo sự đa dạng trong prompt.

Một tính năng đặc biệt: **meta-prompt evolution** — chính các chỉ dẫn trong prompt cũng được tiến hóa. LLM đề xuất cách cải thiện prompt, và những gợi ý hiệu quả được giữ lại trong một database riêng. Nói cách khác, AlphaEvolve tự tối ưu cách đặt câu hỏi cho chính nó.

### 2.2. LLM Ensemble — Song kiếm hợp bích

AlphaEvolve sử dụng **hai mô hình Gemini** phối hợp:

- **Gemini Flash**: Độ trễ thấp, tạo ra lượng lớn candidate nhanh chóng — tối đa hóa *breadth* (chiều rộng) của không gian tìm kiếm
- **Gemini Pro**: Năng lực mạnh hơn, thi thoảng đưa ra các gợi ý chất lượng cao giúp đạt *breakthrough* — những bước nhảy vọt trong quá trình tìm kiếm

Code được sinh ra dưới dạng **structured SEARCH/REPLACE diff**:

```text
<<<<<<< SEARCH
# Original code block
=======
# New replacement code — LLM-generated mutation
>>>>>>> REPLACE
```

### 2.3. Evaluator Pipeline — Hệ thống sàng lọc 3 tầng

Đây là thành phần đảm bảo chất lượng, hoạt động theo cơ chế **cascade**:

- **Tầng 1 — Hypothesis testing**: Test nhanh trên tập nhỏ, loại bỏ các chương trình lỗi trước khi chạy test case chính
- **Tầng 2 — Multi-metric scoring**: Đánh giá đồng thời nhiều chỉ số. Nghiên cứu cho thấy tối ưu nhiều metric đồng thời thường cải thiện cả metric đơn lẻ mục tiêu
- **Tầng 3 — LLM-generated feedback**: Một LLM riêng đánh giá các thuộc tính khó đo lường bằng code, ví dụ: độ đơn giản, readability

Evaluator hỗ trợ ngân sách tính toán lên đến **100 giờ compute** cho mỗi solution, phân bổ bất đồng bộ trên nhiều cluster.

### 2.4. Program Database — Bộ nhớ tiến hóa

Lưu trữ và quản lý quần thể chương trình theo thuật toán kết hợp **MAP-Elites** (multi-dimensional archive) và **island-based population models**. Cấu hình mặc định: 500 chương trình, 5 đảo (islands), tỷ lệ khai thác (exploitation) 70%.

#### Cách người dùng tương tác

Người dùng chỉ cần đánh dấu phần code cần tiến hóa bằng `EVOLVE-BLOCK-START / EVOLVE-BLOCK-END` và cung cấp hàm đánh giá trả về metric dạng scalar. AlphaEvolve tự xử lý mọi thứ còn lại — từ việc tạo mutation, đánh giá, đến chọn lọc giải pháp tốt nhất.

## 3. Phá kỷ lục toán học 56 năm

Thành tựu gây chấn động nhất của AlphaEvolve là trong lĩnh vực **nhân ma trận** — bài toán nền tảng của khoa học máy tính.

### 3.1. Nhân ma trận — Vượt qua Strassen

Năm 1969, Volker Strassen chứng minh có thể nhân hai ma trận 2×2 với chỉ 7 phép nhân thay vì 8. Cho ma trận 4×4×4, thuật toán Strassen (áp dụng đệ quy) cần 49 phép nhân. Suốt **56 năm**, không ai cải thiện được con số này.

AlphaEvolve phá vỡ kỷ lục: **chỉ 48 phép nhân** cho ma trận 4×4×4.

| Kích thước ma trận | Kỷ lục cũ | AlphaEvolve | Ghi chú |
| --- | --- | --- | --- |
| **(4, 4, 4)** | 49 (Strassen, 1969) | **48** | Kỷ lục 56 năm bị phá |
| **(2, 4, 5)** | 33 | **32** |  |
| **(2, 4, 7)** | 46 | **45** |  |
| **(4, 4, 5)** | 62 | **61** |  |
| **(4, 4, 8)** | 98 | **96** |  |

Tổng cộng: **14 cải tiến** so với state-of-the-art ở nhiều kích thước ma trận khác nhau. Một số thuật toán mới sử dụng phép nhân số phức, áp dụng được cho cả ma trận thực và phức.

### 3.2. Các bài toán kinh điển khác

**Kissing Number Problem** — bài toán 300 tuổi hỏi: bao nhiêu hình cầu bằng nhau có thể chạm vào một hình cầu trung tâm mà không chồng lên nhau? AlphaEvolve nâng cận dưới ở **11 chiều** từ 592 lên **593**.

**Bài toán Erdős Minimum Overlap** — hợp tác với nhà toán học đoạt giải Fields **Terence Tao**. AlphaEvolve sinh ra các xấp xỉ số, giúp cộng đồng toán học thiết lập và chứng minh một phỏng đoán mới. Bài toán được giải trong vòng **48 giờ** — thay vì hàng tuần hoặc hàng tháng theo cách truyền thống.

**Ramsey Numbers** — cải thiện cận dưới cho **5 số Ramsey cổ điển**, một số kết quả trước đó đã đứng yên hơn một thập kỷ.

#### Con số ấn tượng

Trên **50+ bài toán toán học** được thử nghiệm: 75% trường hợp AlphaEvolve tái khám phá đúng cấu trúc tốt nhất đã biết, **20% trường hợp vượt qua state-of-the-art** với cấu trúc hoàn toàn mới, chỉ 5% cho kết quả dưới mức tối ưu.

## 4. Tác động thực tế tại Google

AlphaEvolve không chỉ là nghiên cứu lý thuyết — nó đang chạy trong production tại Google và mang lại giá trị hàng chục triệu đô la.

### 4.1. Borg Data Center Scheduler

AlphaEvolve khám phá một heuristic đơn giản cho bài toán phân bổ tài nguyên CPU/bộ nhớ trong Borg — hệ thống quản lý container khổng lồ của Google. Kết quả:

- Thu hồi **0.7% tài nguyên compute toàn cầu** của Google
- Tương đương khoảng **14,000 máy chủ**
- Tiết kiệm ước tính **42-70 triệu USD mỗi năm**
- Đã chạy trong production **hơn 1 năm**
- Vượt trội hơn các giải pháp deep reinforcement learning

#### Tại sao heuristic đơn giản lại thắng deep RL?

Heuristic do AlphaEvolve tìm ra có ưu thế lớn về **interpretability** (dễ hiểu), **debuggability** (dễ gỡ lỗi), và **predictability** (dễ dự đoán) — tất cả đều quan trọng hơn hiệu suất tuyệt đối cho hệ thống production quy mô Google.

### 4.2. Tối ưu huấn luyện Gemini

- **23% speedup** cho một kernel nhân ma trận quan trọng trong pipeline huấn luyện
- Giảm **1% tổng thời gian huấn luyện Gemini** — tiết kiệm **500K-1M USD** mỗi lần train
- Thời gian tối ưu từ **vài tháng** rút xuống còn **vài ngày**

### 4.3. FlashAttention và TPU

- **FlashAttention kernel**: Tăng tốc **32.5%**, thêm **15% speedup** cho pre/postprocessing
- **TPU Circuit Design**: Đề xuất viết lại Verilog loại bỏ các bit không cần thiết, được tích hợp vào **thế hệ TPU tiếp theo** — lần đầu tiên Gemini đóng góp trực tiếp vào thiết kế phần cứng TPU
- **Google Spanner**: Giảm **20% write amplification** cho LSM-tree compaction
- **Compiler optimization**: Giảm gần **9%** dung lượng lưu trữ phần mềm

## 5. Tác động vượt ra ngoài Google

Từ tháng 12/2025, AlphaEvolve được cung cấp dưới dạng **Service API trên Google Cloud** (private preview). Các đối tác đã đạt kết quả ấn tượng:

```
graph LR
    subgraph "Genomics"
        A["DeepConsensus\nGiảm 30% lỗi"]
    end
    subgraph "Energy"
        B["Grid Optimization\n14% → 88%"]
    end
    subgraph "Logistics"
        C["FM Logistic\n+10.4% hiệu suất"]
    end
    subgraph "Pharma"
        D["Schrödinger\n4x tăng tốc"]
    end
    subgraph "Finance"
        E["Klarna\n2x tốc độ train"]
    end
    subgraph "Semiconductor"
        F["Substrate\nNhiều lần nhanh hơn"]
    end
    style A fill:#e94560,stroke:#fff,color:#fff
    style B fill:#4285f4,stroke:#fff,color:#fff
    style C fill:#4CAF50,stroke:#fff,color:#fff
    style D fill:#ff9800,stroke:#fff,color:#fff
    style E fill:#2c3e50,stroke:#fff,color:#fff
    style F fill:#16213e,stroke:#fff,color:#fff

```

Hình 2: Tác động của AlphaEvolve tại các đối tác bên ngoài Google

| Lĩnh vực | Đối tác / Ứng dụng | Kết quả |
| --- | --- | --- |
| **Genomics** | DeepConsensus (PacBio DNA) | Giảm 30% lỗi phát hiện biến thể |
| **Năng lượng** | AC Optimal Power Flow | Tỷ lệ giải pháp khả thi từ 14% lên 88% |
| **Khoa học Trái Đất** | Dự đoán thiên tai | Tăng 5% độ chính xác, 20 loại rủi ro |
| **Lượng tử** | Google Willow processor | Giảm 10x tỷ lệ lỗi mạch lượng tử |
| **Tài chính** | Klarna | Tăng gấp đôi tốc độ train transformer |
| **Bán dẫn** | Substrate | Nhiều lần tăng tốc computational lithography |
| **Logistics** | FM Logistic | +10.4% hiệu suất, tiết kiệm 15,000+ km/năm |
| **Quảng cáo** | WPP | +10% độ chính xác so với tối ưu thủ công |
| **Dược phẩm** | Schrödinger | ~4x tăng tốc MLFF training & inference |

## 6. AlphaEvolve vs FunSearch — Bước nhảy vọt

| Tiêu chí | FunSearch (2023) | AlphaEvolve (2025) |
| --- | --- | --- |
| **Phạm vi tiến hóa** | Một hàm Python duy nhất | Toàn bộ file/codebase |
| **Độ dài code** | 10-20 dòng | Hàng trăm dòng |
| **Ngôn ngữ** | Chỉ Python | Bất kỳ ngôn ngữ nào |
| **Thời gian đánh giá** | ≤20 phút trên 1 CPU | Hàng giờ trên accelerator |
| **Số mẫu LLM cần** | Hàng triệu | Hàng nghìn |
| **Mô hình** | Mô hình code nhỏ | Frontier SOTA (Gemini) |
| **Mục tiêu tối ưu** | Một metric | Nhiều metric đồng thời |
| **Cách đột biến** | Toán tử định trước | Kiến thức thế giới từ LLM |

## 7. Dòng thời gian phát triển

Tháng 10/2022

**AlphaTensor** ra mắt — dùng reinforcement learning cho nhân ma trận. Sau đó DeepMind thừa nhận đây là "ngõ cụt" vì không thể mở rộng.

Tháng 12/2023

**FunSearch** công bố — tiền thân trực tiếp, tiến hóa từng hàm Python đơn lẻ. Chứng minh LLM có thể hướng dẫn tìm kiếm tiến hóa hiệu quả.

Tháng 7/2024

**AlphaProof** đạt huy chương bạc tại Olympic Toán Quốc tế (IMO) — kết hợp LLM với AlphaZero cho chứng minh toán hình thức trong Lean.

Tháng 5/2025

**AlphaEvolve ra mắt**. Paper nghiên cứu và kết quả được công bố trên GitHub. Heuristic Borg scheduler đã chạy production hơn 1 năm trước thời điểm công bố.

Tháng 12/2025

AlphaEvolve có mặt trên **Google Cloud** (private preview). Hợp tác với **Terence Tao** giải bài toán Erdős — hoàn thành trong 48 giờ.

Tháng 3/2026

Kết quả **Ramsey numbers** được công bố — cải thiện 5 số Ramsey cổ điển, một số kỷ lục đã đứng yên hơn thập kỷ.

Tháng 5/2026

Blog post "AlphaEvolve Impact" — tổng kết triển khai rộng rãi tại Google và 9+ đối tác trong genomics, năng lượng, dược phẩm, logistics, tài chính.

## 8. Ablation Study — Thành phần nào quan trọng nhất?

DeepMind thực hiện ablation study loại bỏ từng thành phần trên bài toán tensor decomposition và kissing number. Kết quả cho thấy **mỗi thành phần đều đóng góp đáng kể**:

```
graph TD
    A["AlphaEvolve\nĐầy đủ"] --> B["Bỏ Evolution\n→ Giảm mạnh"]
    A --> C["Bỏ Context\n→ Giảm đáng kể"]
    A --> D["Bỏ Meta-prompt\nevolution"]
    A --> E["Chỉ tiến hóa\n1 hàm"]
    A --> F["Dùng LLM nhỏ\n→ Kém hơn rõ rệt"]
    style A fill:#e94560,stroke:#fff,color:#fff
    style B fill:#f8f9fa,stroke:#e0e0e0,color:#2c3e50
    style C fill:#f8f9fa,stroke:#e0e0e0,color:#2c3e50
    style D fill:#f8f9fa,stroke:#e0e0e0,color:#2c3e50
    style E fill:#f8f9fa,stroke:#e0e0e0,color:#2c3e50
    style F fill:#f8f9fa,stroke:#e0e0e0,color:#2c3e50

```

Hình 3: Ablation study — mỗi thành phần đều thiết yếu cho hiệu suất tổng thể

## 9. Open-source và cộng đồng

AlphaEvolve chính thức **không phải open-source**. Google DeepMind chỉ công bố **repository kết quả** (verification notebook) trên GitHub dưới license Apache 2.0 / CC-BY 4.0. Tuy nhiên, cộng đồng đã nhanh chóng xây dựng các implementation mã nguồn mở:

- **OpenEvolve** — triển khai phổ biến nhất, hỗ trợ nhiều LLM provider
- **CodeEvolve** — tập trung vào tối ưu code production
- **OpenAlpha_Evolve** — re-implementation chi tiết theo paper
- **ShinkaEvolve** & **ThetaEvolve** — các biến thể chuyên biệt

#### Lưu ý quan trọng

## 10. Ý nghĩa với tương lai AI

AlphaEvolve đánh dấu một bước ngoặt trong cách AI hỗ trợ phát triển phần mềm và nghiên cứu khoa học:

- **Từ code completion sang algorithm discovery**: AI không chỉ hoàn thành code theo yêu cầu, mà chủ động *phát minh* thuật toán mới — và đã chứng minh có thể vượt qua con người ở nhiều bài toán
- **Evolutionary + LLM = tổ hợp mạnh mẽ**: Sự kết hợp giữa tìm kiếm tiến hóa và kiến thức thế giới từ LLM tạo ra paradigm mới cho automated scientific discovery
- **Production-ready**: Khác với nhiều nghiên cứu AI chỉ dừng ở paper, AlphaEvolve đã được triển khai trong production quy mô Google — đem lại giá trị kinh tế thực tế
- **Democratization thông qua API**: Việc mở API trên Google Cloud cho phép các tổ chức nhỏ hơn tiếp cận khả năng khám phá thuật toán mà trước đây chỉ có các lab nghiên cứu lớn mới có

Trong thế giới AI agent ngày càng tự chủ — từ viết code, gỡ lỗi, đến thiết kế hệ thống — AlphaEvolve cho thấy AI có thể đi xa hơn: **tự khám phá những thuật toán mà con người chưa từng nghĩ đến**. Đó không chỉ là tương lai của AI, mà là tương lai của chính toán học và khoa học máy tính.

## 11. Tham khảo

- [Google DeepMind — AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms](https://deepmind.google/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/)
- [Google DeepMind — AlphaEvolve Impact (May 2026)](https://deepmind.google/blog/alphaevolve-impact/)
- [arXiv:2506.13131 — AlphaEvolve Research Paper](https://arxiv.org/abs/2506.13131)
- [Google Cloud — AlphaEvolve on Google Cloud](https://cloud.google.com/blog/products/ai-machine-learning/alphaevolve-on-google-cloud)
- [GitHub — AlphaEvolve Results Repository](https://github.com/google-deepmind/alphaevolve_results)
- [Terence Tao — The Story of Erdős Problem 126](https://terrytao.wordpress.com/2025/12/08/the-story-of-erdos-problem-126/)
- [IEEE Spectrum — AlphaEvolve Tackles the Kissing Problem](https://spectrum.ieee.org/deepmind-alphaevolve)
- [VentureBeat — Meet AlphaEvolve](https://venturebeat.com/ai/meet-alphaevolve-the-google-ai-that-writes-its-own-code-and-just-saved-millions-in-computing-costs)

LangGraph — Điều phối AI Agent phức tạp bằng kiến trúc đồ thị

Agentic Design Patterns — 7 mẫu thiết kế AI Agent mà Developer cần biết

Disclaimer: The opinions expressed in this blog are solely my own and do not reflect the views or opinions of my employer or any affiliated organizations. The content provided is for informational and educational purposes only and should not be taken as professional advice. While I strive to provide accurate and up-to-date information, I make no warranties or guarantees about the completeness, reliability, or accuracy of the content. Readers are encouraged to verify the information and seek independent advice as needed. I disclaim any liability for decisions or actions taken based on the content of this blog.