Cloudflare Agent Cloud 2026 — Xây dựng AI Agents trên Edge với Workers, Durable Objects và Project Think

Posted on: 4/18/2026 2:09:47 AM

1. Cloudflare — Từ CDN đến Agent Cloud

Cloudflare đã trải qua một hành trình đáng chú ý: từ nhà cung cấp CDN và bảo mật web đơn thuần, trở thành một nền tảng toàn diện cho AI Agents. Với Agents Week 2026 (tháng 4/2026), Cloudflare chính thức ra mắt khái niệm Agent Cloud — một tầm nhìn biến mạng lưới edge toàn cầu thành hạ tầng chạy AI agents phân tán, có trạng thái, và serverless.

Điểm khác biệt cốt lõi: thay vì thuê VM chạy 24/7 để host agent, Cloudflare cho phép agents hibernate khi không hoạt động và chỉ tốn tài nguyên khi thực sự xử lý — giảm chi phí vận hành xuống gần bằng 0 cho idle agents.

330+ Thành phố có Edge PoP
100K Requests miễn phí/ngày (Workers)
50+ Open-source AI Models
<5ms Cold start Dynamic Workers

2. Workers & Dynamic Workers — V8 Isolates trên Edge

2.1. Cloudflare Workers: Nền tảng Serverless Edge

Cloudflare Workers chạy code JavaScript/TypeScript trên V8 isolates — cùng engine mà Chrome sử dụng — tại hơn 330 edge locations toàn cầu. Không phải container, không phải VM — mỗi request được xử lý trong một isolate nhẹ với cold start gần như bằng 0.

Đặc điểm kỹ thuật quan trọng:

  • Free tier: 100,000 requests/ngày, 10ms CPU time/invocation
  • Paid ($5/tháng): 10 triệu requests, 30s CPU time, không giới hạn static assets
  • Hỗ trợ: JavaScript, TypeScript, Python, Rust (qua WASM)
  • Bindings: kết nối trực tiếp đến KV, R2, D1, Queues, Durable Objects mà không cần network hop

2.2. Dynamic Workers: Code-at-Runtime

Dynamic Workers (open beta tháng 3/2026) là bước tiến lớn: cho phép inject và thực thi code tại runtime thông qua API, không cần deploy trước. Đây là nền tảng cho AI-generated code — agent tạo code, gửi lên, và code chạy ngay lập tức.

So sánh Dynamic Workers vs Container

Dynamic Workers khởi động 100x nhanh hơn và sử dụng 1/10 bộ nhớ so với container. Với startup single-digit milliseconds và memory single-digit MB, chúng đủ nhẹ để dùng một lần rồi bỏ — lý tưởng cho thực thi code từ AI.

Mô hình bảo mật của Dynamic Workers theo nguyên tắc zero ambient authority:

// Dynamic Worker mặc định không có quyền gì
const worker = await createDynamicWorker({
  code: agentGeneratedCode,
  bindings: {
    globalOutbound: null,  // Không truy cập network
    // Chỉ cấp quyền cần thiết qua bindings
    DB: env.MY_D1_DATABASE,
    STORAGE: env.MY_R2_BUCKET,
  }
});

3. Durable Objects & Facets — State cho AI Agents

3.1. Durable Objects: Single-threaded Actor Model

Durable Objects giải quyết bài toán lớn nhất của serverless: trạng thái (state). Mỗi Durable Object là một actor đơn luồng với:

  • SQLite database riêng trên local disk — latency gần bằng 0
  • Transactional storage đảm bảo consistency
  • Hibernation: tự động sleep khi idle, wake khi có request — không tốn chi phí khi không hoạt động
  • WebSocket support: duy trì kết nối realtime

Ý nghĩa kinh tế rất rõ ràng: nếu có 10,000 AI agents nhưng chỉ 1% hoạt động cùng lúc, hệ thống VM truyền thống cần 10,000 instances chạy liên tục. Với Durable Objects + hibernation, chỉ cần ~100 instances active tại bất kỳ thời điểm nào.

3.2. Durable Object Facets: Isolation cho Dynamic Code

Facets (Agents Week 2026) mở rộng Durable Objects theo mô hình parent-child:

graph TD
    A["🏗️ Parent Durable Object
(Platform code)"] --> B["📊 Parent SQLite
Metadata, billing, logs"] A --> C["🔒 Facet (Child)
Dynamic code từ AI"] C --> D["💾 Child SQLite
Application data"] B -.->|"❌ Isolated"| D A --> E["🔒 Facet (Child 2)
Ứng dụng khác"] E --> F["💾 Child SQLite 2
Data riêng biệt"] D -.->|"❌ Isolated"| F style A fill:#e94560,stroke:#fff,color:#fff style C fill:#2c3e50,stroke:#fff,color:#fff style E fill:#2c3e50,stroke:#fff,color:#fff style B fill:#f8f9fa,stroke:#e94560,color:#2c3e50 style D fill:#f8f9fa,stroke:#e94560,color:#2c3e50 style F fill:#f8f9fa,stroke:#e94560,color:#2c3e50

Hình 1: Kiến trúc Parent-Child của Durable Object Facets

Mỗi Facet có SQLite database riêng, hoàn toàn cách ly với parent và các facets khác. Parent kiểm soát rate limiting, quota, billing — child chỉ tập trung vào logic ứng dụng. Đây là nền tảng cho các platform cho phép AI tạo ứng dụng có persistent state.

export class AppRunner extends DurableObject {
  async fetch(request: Request): Promise<Response> {
    // Load dynamic code từ R2 hoặc API
    const appCode = await this.env.R2.get("apps/user-123/code.js");

    // Tạo facet — mỗi app có SQLite riêng
    const facet = this.ctx.facets.get("user-app-123", {
      className: "UserApp",
      code: await appCode.text(),
    });

    return facet.fetch(request);
  }
}

4. Project Think — Agents SDK thế hệ mới

Project Think là framework chính thức của Cloudflare cho AI agents, xây trên nền Durable Objects. Thay vì tự ghép các primitives, Think cung cấp một base class xử lý toàn bộ lifecycle của agent.

4.1. Kiến trúc cốt lõi

Think Base Class — Minimal Agent

import { Think } from "@cloudflare/agents";
import { createWorkersAI } from "@cloudflare/agents/ai";

export class MyAgent extends Think<Env> {
  getModel() {
    return createWorkersAI({ binding: this.env.AI })(
      "@cf/moonshotai/kimi-k2.5"
    );
  }
}

Chỉ cần override getModel() — Think tự quản lý conversation, memory, tool execution, và persistence.

4.2. Primitives quan trọng

Durable Execution với Fibers:

Fibers cho phép agent loops chạy trong nhiều phút (hoặc lâu hơn) mà không sợ mất tiến trình. Mỗi fiber được ghi nhận trong SQLite trước khi thực thi, có thể checkpoint bất cứ lúc nào, và tự khôi phục khi platform restart.

await this.runFiber("research-task", async (fiber) => {
  const results = await this.searchWeb(query);
  await fiber.stash(); // Checkpoint — an toàn nếu crash

  const analysis = await this.analyzeResults(results);
  await fiber.stash(); // Checkpoint lần 2

  return this.generateReport(analysis);
});

Sub-agents qua Facets:

Mỗi sub-agent là một Durable Object con với SQLite riêng, giao tiếp qua typed RPC. Parent agent phân chia công việc cho sub-agents — mỗi agent chạy isolated và có thể hibernate độc lập.

Persistent Sessions:

Conversation lưu dạng tree structure (parent-message relationships), hỗ trợ non-destructive compaction (tóm tắt thay vì xóa) và full-text search qua SQLite FTS5. Sessions có thể fork để khám phá nhiều hướng mà không mất context gốc.

4.3. Execution Ladder — 5 tầng thực thi

Tier Tên Khả năng Use Case
0 Workspace Durable filesystem (SQLite + R2) Lưu trữ file, config, dữ liệu
1 Dynamic Workers V8 isolate, zero ambient authority Chạy code an toàn từ AI
2 NPM Resolution Bundler + npm packages Code phức tạp cần dependencies
3 Browser Headless browser automation Scraping, testing, screenshots
4 Sandbox Full toolchain + git access Build, compile, deploy projects

5. Workers AI & AI Gateway — Unified Model Access

5.1. Workers AI: 50+ Models trên Edge

Workers AI cung cấp inference cho hơn 50 open-source models trực tiếp trên mạng lưới GPU của Cloudflare. Không cần quản lý infrastructure — gọi model qua binding giống như gọi hàm:

const response = await env.AI.run(
  "@cf/meta/llama-4-scout-17b-16e-instruct",
  {
    messages: [
      { role: "user", content: "Phân tích kiến trúc microservices" }
    ]
  }
);

Các model đáng chú ý mới nhất (tháng 4/2026):

  • Google Gemma 4 26B A4B — MoE 26B tổng, 4B active, context 256K, hỗ trợ vision + thinking + function calling
  • GLM-4.7-Flash — Context 131K tokens, tối ưu cho summarization
  • Qwen3-30B-A3B — MoE chỉ activate 3B params mỗi forward pass
  • EmbeddingGemma-300M — Vector 768 chiều, tối ưu low-latency embedding

5.2. AI Gateway: Proxy thống nhất cho mọi AI Provider

AI Gateway hoạt động như unified inference layer, hỗ trợ 14+ providers (OpenAI, Anthropic, Google, Mistral...) qua cùng một interface. Điểm đột phá mới: dùng chung AI.run() binding cho cả Workers AI models lẫn third-party models.

graph LR
    A["🤖 AI Agent"] --> B["🌐 AI Gateway"]
    B --> C["Workers AI
Llama, Gemma, Qwen"] B --> D["OpenAI
GPT-4.1, o4"] B --> E["Anthropic
Claude Opus, Sonnet"] B --> F["Google
Gemini 2.5"] B --> G["Caching Layer"] B --> H["Rate Limiting"] B --> I["AI Firewall"] style A fill:#e94560,stroke:#fff,color:#fff style B fill:#2c3e50,stroke:#fff,color:#fff style C fill:#f8f9fa,stroke:#e94560,color:#2c3e50 style D fill:#f8f9fa,stroke:#e94560,color:#2c3e50 style E fill:#f8f9fa,stroke:#e94560,color:#2c3e50 style F fill:#f8f9fa,stroke:#e94560,color:#2c3e50 style G fill:#f8f9fa,stroke:#4CAF50,color:#2c3e50 style H fill:#f8f9fa,stroke:#ff9800,color:#2c3e50 style I fill:#f8f9fa,stroke:#e94560,color:#2c3e50

Hình 2: AI Gateway — Unified inference layer cho multi-provider

AI Gateway cung cấp:

  • Caching: cache response cho prompts giống nhau, giảm chi phí và latency
  • Rate limiting: kiểm soát quota theo user/key/endpoint
  • AI Firewall: phát hiện prompt injection, data exfiltration trước khi request đến model
  • Analytics: dashboard theo dõi token usage, latency, error rate theo model/provider
  • Fallback: tự động chuyển sang provider khác khi một provider gặp sự cố

6. MCP Server trên Edge

Cloudflare đã hợp tác chặt chẽ với Anthropic để xây dựng hạ tầng cho remote MCP servers — đưa Model Context Protocol lên edge với khả năng scale và hibernation.

MCP + Durable Objects = Stateful Tool Servers

Mỗi MCP server instance chạy như một McpAgent (extends Durable Object), tự động hỗ trợ hibernation — ngủ khi không có request, thức dậy với state nguyên vẹn khi agent cần. Đây là giải pháp cho bài toán "MCP server cần luôn sẵn sàng nhưng không thể chạy 24/7 cho mọi user".

Kiến trúc enterprise MCP trên Cloudflare:

graph TD
    A["AI Agent / Claude"] -->|"MCP Request"| B["Cloudflare Access
OAuth 2.0 / RFC 9728"] B --> C["AI Gateway
Code Mode giảm token"] C --> D["MCP Server Portal
(McpAgent on DO)"] D --> E["Tool: Database Query"] D --> F["Tool: File Storage"] D --> G["Tool: External API"] D -.->|"Hibernate khi idle"| H["💤 State preserved
trong SQLite"] style A fill:#e94560,stroke:#fff,color:#fff style B fill:#2c3e50,stroke:#fff,color:#fff style C fill:#2c3e50,stroke:#fff,color:#fff style D fill:#e94560,stroke:#fff,color:#fff style E fill:#f8f9fa,stroke:#e94560,color:#2c3e50 style F fill:#f8f9fa,stroke:#e94560,color:#2c3e50 style G fill:#f8f9fa,stroke:#e94560,color:#2c3e50 style H fill:#f8f9fa,stroke:#4CAF50,color:#2c3e50

Hình 3: Enterprise MCP deployment trên Cloudflare

Tính năng nổi bật:

  • Code Mode: giảm token cost bằng cách nén tool descriptions
  • Managed OAuth: implement RFC 9728 cho agent authentication không cần tự build OAuth flow
  • Cloudflare Mesh: cấp quyền truy cập private databases/APIs cho MCP server mà không cần tunnel thủ công
  • Scannable API tokens: quyền scoped theo resource, tuân thủ least-privilege

7. Hệ sinh thái dịch vụ hỗ trợ

7.1. Storage Layer

Dịch vụ Loại Free Tier Use Case cho Agents
R2 Object Storage (S3-compatible) 10 GB storage, 1M Class A, 10M Class B ops/tháng Lưu artifacts, code, models, files lớn
D1 SQLite Database 5 GB storage, 5M rows read/ngày Metadata, user data, agent state
KV Key-Value Store 1 GB storage, 100K reads/ngày Config, feature flags, session data
Queues Message Queue 10K operations/ngày (mới 02/2026) Task scheduling, async workflows
Vectorize Vector Database 5M vectors, 30M query dimensions/tháng RAG, semantic search, embeddings

7.2. Agents Week 2026 — Dịch vụ mới

Sandboxes (GA)

Môi trường isolated với shell, filesystem, và background processes. Agents có thể tạo , cài packages, chạy build, và maintain state qua nhiều sessions. Đây là Tier 4 trong Execution Ladder.

Browser Run — Headless Browser nâng cấp

Concurrency tăng 4x so với bản trước. Tính năng mới: Live View (xem browser đang làm gì realtime) và Human-in-Loop (agent dừng lại chờ user can thiệp khi cần). Lý tưởng cho web scraping, testing, và form filling tự động.

Artifacts — Git-compatible Storage

Hệ thống lưu trữ có version, hỗ trợ hàng chục triệu repos. Agents có thể tạo, commit, và quản lý code repositories trực tiếp — không cần GitHub hay GitLab bên ngoài cho các project nhỏ.

Email Service (Public Beta)

Agents gửi/nhận/xử lý email natively — không cần Sendgrid hay SES riêng. Hữu ích cho agents cần giao tiếp với con người qua email.

Flagship — Feature Flags trên Edge

Đánh giá feature flags với latency sub-millisecond nhờ KV + Durable Objects. Agents có thể kiểm tra flags trước khi thực thi logic mà gần như không có overhead.

Unweight — Nén LLM Model

Giảm 22% footprint của LLM models qua lossless compression. Ý nghĩa: cùng GPU chạy được nhiều models hơn, giảm cost inference trên Workers AI.

8. Kiến trúc tham khảo: AI Agent trên Cloudflare

Dưới đây là kiến trúc end-to-end cho một AI agent production chạy hoàn toàn trên Cloudflare:

graph TD
    subgraph "Client Layer"
        U["👤 User"] --> W["Worker
(API Gateway)"] end subgraph "Agent Layer" W --> T["Think Agent
(Durable Object)"] T --> F1["Sub-agent 1
(Facet - Research)"] T --> F2["Sub-agent 2
(Facet - Code Gen)"] T --> F3["Sub-agent 3
(Facet - Review)"] end subgraph "AI Layer" F1 --> AI["Workers AI
Llama 4 / Gemma 4"] F2 --> GW["AI Gateway
→ Claude / GPT"] F3 --> AI end subgraph "Tool Layer" T --> MCP["MCP Server
(McpAgent on DO)"] MCP --> BR["Browser Run"] MCP --> SB["Sandbox"] MCP --> EX["External APIs"] end subgraph "Storage Layer" T --> D1["D1
Agent metadata"] T --> R2["R2
Files & artifacts"] T --> VZ["Vectorize
RAG embeddings"] T --> Q["Queues
Async tasks"] end style U fill:#e94560,stroke:#fff,color:#fff style W fill:#2c3e50,stroke:#fff,color:#fff style T fill:#e94560,stroke:#fff,color:#fff style F1 fill:#2c3e50,stroke:#fff,color:#fff style F2 fill:#2c3e50,stroke:#fff,color:#fff style F3 fill:#2c3e50,stroke:#fff,color:#fff style AI fill:#f8f9fa,stroke:#e94560,color:#2c3e50 style GW fill:#f8f9fa,stroke:#e94560,color:#2c3e50 style MCP fill:#e94560,stroke:#fff,color:#fff style BR fill:#f8f9fa,stroke:#4CAF50,color:#2c3e50 style SB fill:#f8f9fa,stroke:#4CAF50,color:#2c3e50 style EX fill:#f8f9fa,stroke:#4CAF50,color:#2c3e50 style D1 fill:#f8f9fa,stroke:#ff9800,color:#2c3e50 style R2 fill:#f8f9fa,stroke:#ff9800,color:#2c3e50 style VZ fill:#f8f9fa,stroke:#ff9800,color:#2c3e50 style Q fill:#f8f9fa,stroke:#ff9800,color:#2c3e50

Hình 4: Kiến trúc end-to-end AI Agent Production trên Cloudflare

9. So sánh với các nền tảng khác

Tiêu chí Cloudflare Agent Cloud AWS Lambda + Bedrock Azure Functions + OpenAI
Cold start <5ms (V8 isolate) 100ms–2s (container) 200ms–3s (container)
Stateful agents Durable Objects (native) DynamoDB / Step Functions Durable Functions
Agent hibernation Built-in, tự động Không có (tự implement) Có (Durable Functions)
MCP support McpAgent + OAuth native Tự build Tự build
Built-in AI models 50+ open-source trên edge Bedrock (managed) Azure OpenAI (managed)
Free tier Rất rộng (Workers, R2, D1, KV, Queues) 1M requests Lambda, giới hạn Bedrock 1M requests Functions, có credit AI
Edge locations 330+ thành phố 30+ regions 60+ regions
Dynamic code execution Dynamic Workers (native) Không có native Không có native

Lưu ý quan trọng

Cloudflare Workers có giới hạn CPU time (10ms free, 30s paid) — không phù hợp cho CPU-intensive tasks dài. Durable Objects Facets vẫn đang beta. Dynamic Workers giới hạn ở Workers Paid plan. Với các workload cần GPU training hoặc heavy compute dài, AWS/Azure/GCP vẫn là lựa chọn phù hợp hơn.

10. Bắt đầu với Cloudflare Agent Cloud

Dưới đây là ví dụ tạo một AI agent đơn giản với Project Think:

// wrangler.toml
// name = "my-ai-agent"
// main = "src/index.ts"
// compatibility_date = "2026-04-01"
// [ai]
// binding = "AI"
// [[durable_objects.bindings]]
// name = "AGENT"
// class_name = "ResearchAgent"

import { Think } from "@cloudflare/agents";
import { createWorkersAI } from "@cloudflare/agents/ai";
import { tool } from "ai";
import { z } from "zod";

export class ResearchAgent extends Think<Env> {
  getModel() {
    return createWorkersAI({ binding: this.env.AI })(
      "@cf/google/gemma-4-26b-a4b"
    );
  }

  getTools() {
    return {
      search: tool({
        description: "Tìm kiếm thông tin trên web",
        parameters: z.object({ query: z.string() }),
        execute: async ({ query }) => {
          // Sử dụng AI Search hoặc external API
          const results = await this.env.AI.run(
            "@cf/cloudflare/ai-search",
            { query }
          );
          return results;
        },
      }),
      saveNote: tool({
        description: "Lưu ghi chú vào storage",
        parameters: z.object({
          title: z.string(),
          content: z.string()
        }),
        execute: async ({ title, content }) => {
          // Durable Object SQLite — persist qua hibernation
          await this.sql.exec(
            "INSERT INTO notes (title, content, created_at) VALUES (?, ?, ?)",
            title, content, new Date().toISOString()
          );
          return { saved: true };
        },
      }),
    };
  }
}

export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const id = env.AGENT.idFromName("default");
    const agent = env.AGENT.get(id);
    return agent.fetch(request);
  },
};

Deploy chỉ cần:

npx wrangler deploy

11. Timeline phát triển Cloudflare Developer Platform

2017
Ra mắt Cloudflare Workers — serverless trên V8 isolates tại edge. Khái niệm "compute gần user" bắt đầu.
2021
Ra mắt Durable Objects — giải quyết bài toán state cho serverless. R2 Object Storage cạnh tranh trực tiếp với S3, không tính phí egress.
2022
D1 (SQLite trên edge) và Queues ra mắt beta. Hệ sinh thái storage bắt đầu hoàn chỉnh.
2023
Ra mắt Workers AIAI Gateway — Cloudflare gia nhập thị trường AI inference. Vectorize cho vector search.
2024
Agents SDK ban đầu. Hỗ trợ MCP servers trên Workers. Browser Rendering cho headless automation.
02/2026
Queues miễn phí — 10K ops/ngày trên free plan. Dynamic Workers open beta.
04/2026
Agents Week: Project Think, Durable Object Facets, Sandboxes GA, Browser Run 4x, Artifacts, Email Service, AI Firewall, Managed OAuth, Flagship, Unweight. Cloudflare chính thức định vị là Agent Cloud.

12. Kết luận

Cloudflare Agent Cloud đánh dấu sự dịch chuyển quan trọng: từ "nơi host websites" sang "nơi chạy AI agents". Sự kết hợp giữa V8 isolates (nhanh, nhẹ), Durable Objects (stateful, hibernation), và hệ sinh thái storage/AI phong phú tạo nên một platform mà ít nền tảng nào sánh được về mặt developer experience và chi phí vận hành.

Đặc biệt với free tier rộng rãi — Workers (100K req/ngày), R2 (10GB), D1 (5GB), KV (1GB), Queues (10K ops/ngày), Vectorize (5M vectors) — đây là nơi lý tưởng để prototype và thậm chí chạy production cho các AI agent project quy mô nhỏ-vừa mà gần như không tốn chi phí.

Điểm mấu chốt

Nếu bạn đang xây dựng AI agents và cần: (1) cold start cực nhanh, (2) state management tự động với hibernation, (3) MCP server support native, (4) free tier rộng rãi — Cloudflare Agent Cloud xứng đáng là lựa chọn đầu tiên để đánh giá. Hạn chế chính là CPU time limit và một số tính năng còn beta.

Nguồn tham khảo