AlphaEvolve — AI Agent tự khám phá thuật toán vượt qua con người

Posted on: 5/8/2026 10:00:00 AM

48Phép nhân ma trận 4×4×4 — phá kỷ lục 56 năm
0.7%Tài nguyên compute Google toàn cầu được thu hồi
50+Bài toán toán học được cải thiện
23%Tăng tốc kernel huấn luyện Gemini

1. AlphaEvolve là gì?

AlphaEvolve là một evolutionary coding agent do Google DeepMind phát triển, kết hợp mô hình ngôn ngữ lớn (LLM) Gemini với thuật toán tiến hóa (evolutionary computation) để tự động khám phá, thiết kế và tối ưu hóa thuật toán. Không giống các hệ thống chuyên biệt trước đó như AlphaFold (protein) hay AlphaTensor (nhân ma trận), AlphaEvolve là hệ thống đa mục đích — có thể áp dụng cho bất kỳ bài toán nào có hàm đánh giá rõ ràng.

Ý tưởng cốt lõi rất đẹp: thay vì đột biến ngẫu nhiên như thuật toán di truyền truyền thống, AlphaEvolve sử dụng LLM để tạo ra các biến thể thông minh hơn — mỗi "đột biến" được dẫn dắt bởi hiểu biết sâu sắc của mô hình về lập trình, toán học và khoa học.

Điểm khác biệt cốt lõi

AlphaEvolve chỉ cần hàng nghìn mẫu LLM để tìm ra thuật toán tối ưu, trong khi hệ thống tiền nhiệm FunSearch cần hàng triệu mẫu. Sức mạnh của frontier LLM (Gemini) với ngữ cảnh phong phú là yếu tố then chốt tạo nên hiệu quả vượt trội này.

2. Kiến trúc kỹ thuật bên trong

AlphaEvolve được triển khai dưới dạng pipeline tính toán bất đồng bộ (asynchronous computational pipeline) với Python asyncio, ưu tiên throughput — tối đa hóa số ý tưởng được đề xuất và đánh giá — thay vì tốc độ của bất kỳ phép tính đơn lẻ nào.

graph TB
    A["Prompt Sampler"] -->|"Tạo prompt\nkèm context"| B["LLM Ensemble\n(Gemini Flash + Pro)"]
    B -->|"Sinh code\ndạng SEARCH/REPLACE"| C["Evaluator Pipeline\n(Cascade 3 tầng)"]
    C -->|"Score +\nfeedback"| D["Program Database\n(MAP-Elites + Islands)"]
    D -->|"Chọn program\ntốt nhất"| A
    E["Controller"] -.->|"Điều phối\nbất đồng bộ"| A
    E -.-> B
    E -.-> C
    E -.-> D
    style A fill:#e94560,stroke:#fff,color:#fff
    style B fill:#4285f4,stroke:#fff,color:#fff
    style C fill:#4CAF50,stroke:#fff,color:#fff
    style D fill:#ff9800,stroke:#fff,color:#fff
    style E fill:#2c3e50,stroke:#fff,color:#fff

Hình 1: Pipeline chính của AlphaEvolve — vòng lặp tiến hóa bất đồng bộ

2.1. Prompt Sampler — Bộ não xây dựng ngữ cảnh

Prompt Sampler thu thập và tổng hợp thông tin từ nhiều nguồn: mô tả bài toán, phương trình, đoạn code, tài liệu tham khảo, và quan trọng nhất — các solution tốt nhất đã tìm được cùng điểm số từ Program Database. Hệ thống sử dụng stochastic formatting với template có xác suất thay đổi, giúp tạo sự đa dạng trong prompt.

Một tính năng đặc biệt: meta-prompt evolution — chính các chỉ dẫn trong prompt cũng được tiến hóa. LLM đề xuất cách cải thiện prompt, và những gợi ý hiệu quả được giữ lại trong một database riêng. Nói cách khác, AlphaEvolve tự tối ưu cách đặt câu hỏi cho chính nó.

2.2. LLM Ensemble — Song kiếm hợp bích

AlphaEvolve sử dụng hai mô hình Gemini phối hợp:

  • Gemini Flash: Độ trễ thấp, tạo ra lượng lớn candidate nhanh chóng — tối đa hóa breadth (chiều rộng) của không gian tìm kiếm
  • Gemini Pro: Năng lực mạnh hơn, thi thoảng đưa ra các gợi ý chất lượng cao giúp đạt breakthrough — những bước nhảy vọt trong quá trình tìm kiếm

Code được sinh ra dưới dạng structured SEARCH/REPLACE diff:

<<<<<<< SEARCH
# Original code block
=======
# New replacement code — LLM-generated mutation
>>>>>>> REPLACE

2.3. Evaluator Pipeline — Hệ thống sàng lọc 3 tầng

Đây là thành phần đảm bảo chất lượng, hoạt động theo cơ chế cascade:

  • Tầng 1 — Hypothesis testing: Test nhanh trên tập nhỏ, loại bỏ các chương trình lỗi trước khi chạy test case chính
  • Tầng 2 — Multi-metric scoring: Đánh giá đồng thời nhiều chỉ số. Nghiên cứu cho thấy tối ưu nhiều metric đồng thời thường cải thiện cả metric đơn lẻ mục tiêu
  • Tầng 3 — LLM-generated feedback: Một LLM riêng đánh giá các thuộc tính khó đo lường bằng code, ví dụ: độ đơn giản, readability

Evaluator hỗ trợ ngân sách tính toán lên đến 100 giờ compute cho mỗi solution, phân bổ bất đồng bộ trên nhiều cluster.

2.4. Program Database — Bộ nhớ tiến hóa

Lưu trữ và quản lý quần thể chương trình theo thuật toán kết hợp MAP-Elites (multi-dimensional archive) và island-based population models. Cấu hình mặc định: 500 chương trình, 5 đảo (islands), tỷ lệ khai thác (exploitation) 70%.

Cách người dùng tương tác

Người dùng chỉ cần đánh dấu phần code cần tiến hóa bằng EVOLVE-BLOCK-START / EVOLVE-BLOCK-END và cung cấp hàm đánh giá trả về metric dạng scalar. AlphaEvolve tự xử lý mọi thứ còn lại — từ việc tạo mutation, đánh giá, đến chọn lọc giải pháp tốt nhất.

3. Phá kỷ lục toán học 56 năm

Thành tựu gây chấn động nhất của AlphaEvolve là trong lĩnh vực nhân ma trận — bài toán nền tảng của khoa học máy tính.

3.1. Nhân ma trận — Vượt qua Strassen

Năm 1969, Volker Strassen chứng minh có thể nhân hai ma trận 2×2 với chỉ 7 phép nhân thay vì 8. Cho ma trận 4×4×4, thuật toán Strassen (áp dụng đệ quy) cần 49 phép nhân. Suốt 56 năm, không ai cải thiện được con số này.

AlphaEvolve phá vỡ kỷ lục: chỉ 48 phép nhân cho ma trận 4×4×4.

Kích thước ma trậnKỷ lục cũAlphaEvolveGhi chú
(4, 4, 4)49 (Strassen, 1969)48Kỷ lục 56 năm bị phá
(2, 4, 5)3332
(2, 4, 7)4645
(4, 4, 5)6261
(4, 4, 8)9896

Tổng cộng: 14 cải tiến so với state-of-the-art ở nhiều kích thước ma trận khác nhau. Một số thuật toán mới sử dụng phép nhân số phức, áp dụng được cho cả ma trận thực và phức.

3.2. Các bài toán kinh điển khác

Kissing Number Problem — bài toán 300 tuổi hỏi: bao nhiêu hình cầu bằng nhau có thể chạm vào một hình cầu trung tâm mà không chồng lên nhau? AlphaEvolve nâng cận dưới ở 11 chiều từ 592 lên 593.

Bài toán Erdős Minimum Overlap — hợp tác với nhà toán học đoạt giải Fields Terence Tao. AlphaEvolve sinh ra các xấp xỉ số, giúp cộng đồng toán học thiết lập và chứng minh một phỏng đoán mới. Bài toán được giải trong vòng 48 giờ — thay vì hàng tuần hoặc hàng tháng theo cách truyền thống.

Ramsey Numbers — cải thiện cận dưới cho 5 số Ramsey cổ điển, một số kết quả trước đó đã đứng yên hơn một thập kỷ.

Con số ấn tượng

Trên 50+ bài toán toán học được thử nghiệm: 75% trường hợp AlphaEvolve tái khám phá đúng cấu trúc tốt nhất đã biết, 20% trường hợp vượt qua state-of-the-art với cấu trúc hoàn toàn mới, chỉ 5% cho kết quả dưới mức tối ưu.

4. Tác động thực tế tại Google

AlphaEvolve không chỉ là nghiên cứu lý thuyết — nó đang chạy trong production tại Google và mang lại giá trị hàng chục triệu đô la.

4.1. Borg Data Center Scheduler

AlphaEvolve khám phá một heuristic đơn giản cho bài toán phân bổ tài nguyên CPU/bộ nhớ trong Borg — hệ thống quản lý container khổng lồ của Google. Kết quả:

  • Thu hồi 0.7% tài nguyên compute toàn cầu của Google
  • Tương đương khoảng 14,000 máy chủ
  • Tiết kiệm ước tính 42-70 triệu USD mỗi năm
  • Đã chạy trong production hơn 1 năm
  • Vượt trội hơn các giải pháp deep reinforcement learning

Tại sao heuristic đơn giản lại thắng deep RL?

Heuristic do AlphaEvolve tìm ra có ưu thế lớn về interpretability (dễ hiểu), debuggability (dễ gỡ lỗi), và predictability (dễ dự đoán) — tất cả đều quan trọng hơn hiệu suất tuyệt đối cho hệ thống production quy mô Google.

4.2. Tối ưu huấn luyện Gemini

  • 23% speedup cho một kernel nhân ma trận quan trọng trong pipeline huấn luyện
  • Giảm 1% tổng thời gian huấn luyện Gemini — tiết kiệm 500K-1M USD mỗi lần train
  • Thời gian tối ưu từ vài tháng rút xuống còn vài ngày

4.3. FlashAttention và TPU

  • FlashAttention kernel: Tăng tốc 32.5%, thêm 15% speedup cho pre/postprocessing
  • TPU Circuit Design: Đề xuất viết lại Verilog loại bỏ các bit không cần thiết, được tích hợp vào thế hệ TPU tiếp theo — lần đầu tiên Gemini đóng góp trực tiếp vào thiết kế phần cứng TPU
  • Google Spanner: Giảm 20% write amplification cho LSM-tree compaction
  • Compiler optimization: Giảm gần 9% dung lượng lưu trữ phần mềm

5. Tác động vượt ra ngoài Google

Từ tháng 12/2025, AlphaEvolve được cung cấp dưới dạng Service API trên Google Cloud (private preview). Các đối tác đã đạt kết quả ấn tượng:

graph LR
    subgraph "Genomics"
        A["DeepConsensus\nGiảm 30% lỗi"]
    end
    subgraph "Energy"
        B["Grid Optimization\n14% → 88%"]
    end
    subgraph "Logistics"
        C["FM Logistic\n+10.4% hiệu suất"]
    end
    subgraph "Pharma"
        D["Schrödinger\n4x tăng tốc"]
    end
    subgraph "Finance"
        E["Klarna\n2x tốc độ train"]
    end
    subgraph "Semiconductor"
        F["Substrate\nNhiều lần nhanh hơn"]
    end
    style A fill:#e94560,stroke:#fff,color:#fff
    style B fill:#4285f4,stroke:#fff,color:#fff
    style C fill:#4CAF50,stroke:#fff,color:#fff
    style D fill:#ff9800,stroke:#fff,color:#fff
    style E fill:#2c3e50,stroke:#fff,color:#fff
    style F fill:#16213e,stroke:#fff,color:#fff

Hình 2: Tác động của AlphaEvolve tại các đối tác bên ngoài Google

Lĩnh vựcĐối tác / Ứng dụngKết quả
GenomicsDeepConsensus (PacBio DNA)Giảm 30% lỗi phát hiện biến thể
Năng lượngAC Optimal Power FlowTỷ lệ giải pháp khả thi từ 14% lên 88%
Khoa học Trái ĐấtDự đoán thiên taiTăng 5% độ chính xác, 20 loại rủi ro
Lượng tửGoogle Willow processorGiảm 10x tỷ lệ lỗi mạch lượng tử
Tài chínhKlarnaTăng gấp đôi tốc độ train transformer
Bán dẫnSubstrateNhiều lần tăng tốc computational lithography
LogisticsFM Logistic+10.4% hiệu suất, tiết kiệm 15,000+ km/năm
Quảng cáoWPP+10% độ chính xác so với tối ưu thủ công
Dược phẩmSchrödinger~4x tăng tốc MLFF training & inference

6. AlphaEvolve vs FunSearch — Bước nhảy vọt

Tiêu chíFunSearch (2023)AlphaEvolve (2025)
Phạm vi tiến hóaMột hàm Python duy nhấtToàn bộ file/codebase
Độ dài code10-20 dòngHàng trăm dòng
Ngôn ngữChỉ PythonBất kỳ ngôn ngữ nào
Thời gian đánh giá≤20 phút trên 1 CPUHàng giờ trên accelerator
Số mẫu LLM cầnHàng triệuHàng nghìn
Mô hìnhMô hình code nhỏFrontier SOTA (Gemini)
Mục tiêu tối ưuMột metricNhiều metric đồng thời
Cách đột biếnToán tử định trướcKiến thức thế giới từ LLM

7. Dòng thời gian phát triển

Tháng 10/2022
AlphaTensor ra mắt — dùng reinforcement learning cho nhân ma trận. Sau đó DeepMind thừa nhận đây là "ngõ cụt" vì không thể mở rộng.
Tháng 12/2023
FunSearch công bố — tiền thân trực tiếp, tiến hóa từng hàm Python đơn lẻ. Chứng minh LLM có thể hướng dẫn tìm kiếm tiến hóa hiệu quả.
Tháng 7/2024
AlphaProof đạt huy chương bạc tại Olympic Toán Quốc tế (IMO) — kết hợp LLM với AlphaZero cho chứng minh toán hình thức trong Lean.
Tháng 5/2025
AlphaEvolve ra mắt. Paper nghiên cứu và kết quả được công bố trên GitHub. Heuristic Borg scheduler đã chạy production hơn 1 năm trước thời điểm công bố.
Tháng 12/2025
AlphaEvolve có mặt trên Google Cloud (private preview). Hợp tác với Terence Tao giải bài toán Erdős — hoàn thành trong 48 giờ.
Tháng 3/2026
Kết quả Ramsey numbers được công bố — cải thiện 5 số Ramsey cổ điển, một số kỷ lục đã đứng yên hơn thập kỷ.
Tháng 5/2026
Blog post "AlphaEvolve Impact" — tổng kết triển khai rộng rãi tại Google và 9+ đối tác trong genomics, năng lượng, dược phẩm, logistics, tài chính.

8. Ablation Study — Thành phần nào quan trọng nhất?

DeepMind thực hiện ablation study loại bỏ từng thành phần trên bài toán tensor decomposition và kissing number. Kết quả cho thấy mỗi thành phần đều đóng góp đáng kể:

graph TD
    A["AlphaEvolve\nĐầy đủ"] --> B["Bỏ Evolution\n→ Giảm mạnh"]
    A --> C["Bỏ Context\n→ Giảm đáng kể"]
    A --> D["Bỏ Meta-prompt\nevolution"]
    A --> E["Chỉ tiến hóa\n1 hàm"]
    A --> F["Dùng LLM nhỏ\n→ Kém hơn rõ rệt"]
    style A fill:#e94560,stroke:#fff,color:#fff
    style B fill:#f8f9fa,stroke:#e0e0e0,color:#2c3e50
    style C fill:#f8f9fa,stroke:#e0e0e0,color:#2c3e50
    style D fill:#f8f9fa,stroke:#e0e0e0,color:#2c3e50
    style E fill:#f8f9fa,stroke:#e0e0e0,color:#2c3e50
    style F fill:#f8f9fa,stroke:#e0e0e0,color:#2c3e50

Hình 3: Ablation study — mỗi thành phần đều thiết yếu cho hiệu suất tổng thể

9. Open-source và cộng đồng

AlphaEvolve chính thức không phải open-source. Google DeepMind chỉ công bố repository kết quả (verification notebook) trên GitHub dưới license Apache 2.0 / CC-BY 4.0. Tuy nhiên, cộng đồng đã nhanh chóng xây dựng các implementation mã nguồn mở:

  • OpenEvolve — triển khai phổ biến nhất, hỗ trợ nhiều LLM provider
  • CodeEvolve — tập trung vào tối ưu code production
  • OpenAlpha_Evolve — re-implementation chi tiết theo paper
  • ShinkaEvolve & ThetaEvolve — các biến thể chuyên biệt

Lưu ý quan trọng

Các bản open-source chưa được kiểm chứng độc lập về khả năng tái tạo kết quả của Google DeepMind. Chi phí tính toán cho vòng lặp tiến hóa (hàng nghìn lần gọi LLM + evaluation) cũng là rào cản đáng kể cho nghiên cứu độc lập.

10. Ý nghĩa với tương lai AI

AlphaEvolve đánh dấu một bước ngoặt trong cách AI hỗ trợ phát triển phần mềm và nghiên cứu khoa học:

  • Từ code completion sang algorithm discovery: AI không chỉ hoàn thành code theo yêu cầu, mà chủ động phát minh thuật toán mới — và đã chứng minh có thể vượt qua con người ở nhiều bài toán
  • Evolutionary + LLM = tổ hợp mạnh mẽ: Sự kết hợp giữa tìm kiếm tiến hóa và kiến thức thế giới từ LLM tạo ra paradigm mới cho automated scientific discovery
  • Production-ready: Khác với nhiều nghiên cứu AI chỉ dừng ở paper, AlphaEvolve đã được triển khai trong production quy mô Google — đem lại giá trị kinh tế thực tế
  • Democratization thông qua API: Việc mở API trên Google Cloud cho phép các tổ chức nhỏ hơn tiếp cận khả năng khám phá thuật toán mà trước đây chỉ có các lab nghiên cứu lớn mới có

Trong thế giới AI agent ngày càng tự chủ — từ viết code, gỡ lỗi, đến thiết kế hệ thống — AlphaEvolve cho thấy AI có thể đi xa hơn: tự khám phá những thuật toán mà con người chưa từng nghĩ đến. Đó không chỉ là tương lai của AI, mà là tương lai của chính toán học và khoa học máy tính.

11. Tham khảo