Voice AI Agent 2026: Kiến trúc Trợ lý Giọng nói Thời gian thực

Posted on: 6/5/2026 1:14:29 AM

Table of contents

1. Vì sao voice agent bùng nổ năm 2026?
1. Ràng buộc nền tảng: hội thoại là thời gian thực
2. Hai kiến trúc: cascading và speech-to-speech
1. Đa số đội production thực tế chọn gì?
3. Ngân sách độ trễ — thời gian thực sự "đi đâu"
1. Tầng truyền tải lặng lẽ quyết định ngân sách của bạn
4. Luân phiên lượt lời và ngắt lời: dạy máy biết trò chuyện
1. 4.1. Phát hiện kết thúc lượt lời
2. 4.2. Barge-in: xử lý ngắt lời
  1. Vì sao barge-in cần "hủy" chứ không chỉ "tắt tiếng"
5. Bên trong một voice agent production
6. Gọi hàm (function calling) ngay trong cuộc gọi trực tiếp
1. Stream mọi thứ, đừng buffer thứ gì không cần thiết
7. Hệ sinh thái công cụ voice 2026
1. Tự xây hay mua?
8. Những bài toán khó không nằm ở LLM
9. Đo lường một voice agent: những chỉ số thực sự quan trọng
1. Đừng tối ưu độ trễ trong chân không
10. Sự dịch chuyển vai trò: từ người viết kịch bản đến nhà thiết kế hội thoại
1. Tạo phẩm trung tâm mới: bản đặc tả hội thoại
11. Voice agent đã tiến hóa thế nào
12. Những sai lầm thường gặp cần tránh
13. Kết luận
1. Nguồn tham khảo

Bạn gọi đến tổng đài chăm sóc khách hàng. Bạn nói xong câu, rồi có một giây im lặng trọn vẹn — sau đó tổng đài viên bắt đầu nói, đúng lúc bạn vừa định bổ sung "...à, còn một việc nữa." Nó nói chồng lên lời bạn. Cả hai cùng dừng. Nó vẫn nói tiếp, hoàn thành nốt một ý mà bạn đã bỏ giữa chừng. Cuộc trò chuyện trở nên gãy gập, và bạn nhận ra ngay tức khắc rằng mình đang nói chuyện với một cái máy. Giờ hãy tưởng tượng cũng cuộc gọi đó nhưng câu trả lời bật ra trong vòng chưa đến 300 mili-giây, agent dừng lại ngay khoảnh khắc bạn chen ngang, và nó tiếp tục đúng chỗ bạn vừa chuyển hướng. Khác biệt giữa hai cuộc gọi ấy không nằm ở mô hình ngôn ngữ — nó nằm ở kỹ thuật giọng nói (voice engineering), và năm 2026 lĩnh vực này đã trở thành một bộ môn riêng.

Agent dạng văn bản có đặc quyền của thời gian. Agent giọng nói thì không. Hội thoại của con người vận hành theo một nhịp luân phiên lượt lời được đo bằng mili-giây, và bộ não nhận ra độ trễ từ rất lâu trước khi kịp gọi tên nó. Bài viết này mổ xẻ cách các voice agent thời gian thực thực sự hoạt động năm 2026: hai kiến trúc đang cạnh tranh nhau, thời gian thực sự "đi đâu mất", cách máy học cách luân phiên lượt lời và xử lý khi bị ngắt lời, hệ sinh thái công cụ production, và vì sao những bài toán khó nhất của voice AI gần như chẳng liên quan gì đến LLM.

~300msNgưỡng độ trễ phản hồi trước khi con người thấy "lag"

~320msĐộ trễ đầu-cuối của các mô hình speech-to-speech nhanh nhất 2026

150–700msĐộ trễ WebRTC tiết kiệm được so với cuộc gọi PSTN

600ms–1.7sĐộ trễ đầu-cuối điển hình của pipeline STT→LLM→TTS ngây thơ

1. Vì sao voice agent bùng nổ năm 2026?

Giao diện giọng nói không mới — cây phím IVR của tổng đài đã tồn tại hàng chục năm, trợ lý giọng nói có từ thập niên 2010. Cái thay đổi là ba thứ mà giọng nói luôn thiếu cuối cùng đã đến cùng lúc. Thứ nhất, LLM làm cho hội thoại mở trở nên khả thi: voice agent giờ có thể xử lý "à mà, kiểm tra giúp tôi xem đơn hàng kia đã gửi chưa?" thay vì "bấm phím 2 để thanh toán." Thứ hai, độ trễ tụt xuống dưới ngưỡng cảm nhận: mô hình streaming, suy luận nhanh hơn, và các mô hình thuần giọng nói đẩy thời gian khứ hồi xuống dưới mốc ~300ms — mốc mà hội thoại bắt đầu hết "máy móc". Thứ ba, các framework điều phối trưởng thành: Pipecat ra v1.0 vào tháng 4/2026, LiveKit Agents ship cơ chế xử lý ngắt lời thích ứng — phần "đường ống" trước kia ngốn một đội ngũ vài tháng nay đã thành một thư viện.

Kết quả là voice agent chuyển từ trò mới lạ thành hạ tầng: đặt lịch hẹn, sàng lọc khách hàng gọi đi (outbound sales), tiếp nhận thông tin y tế, gọi món drive-through, hỗ trợ kỹ thuật. Bất cứ nơi nào có một cuộc gọi hay một chiếc micro nằm giữa con người và hệ thống, voice agent giờ đều có thể thay thế.

Ràng buộc nền tảng: hội thoại là thời gian thực

Một agent văn bản có thể "nghĩ" ba giây và chẳng ai phiền. Một voice agent ngừng ba giây trước khi trả lời thì bị coi là hỏng — con người diễn giải sự im lặng thành lúng túng, mất kết nối, hoặc bất lịch sự. Mọi quyết định kiến trúc trong voice AI đều là hệ quả của một sự thật tàn nhẫn: bạn đang chạy đua với một chiếc đồng hồ 300ms ở mỗi lượt lời, và đồng hồ bắt đầu chạy đúng khoảnh khắc người dùng ngừng nói.

2. Hai kiến trúc: cascading và speech-to-speech

Có đúng hai cách để xây một voice agent năm 2026, và lựa chọn giữa chúng là quyết định hệ trọng nhất bạn sẽ đưa ra.

Pipeline nối tầng (cascading) — còn gọi là turn-based — xâu chuỗi ba mô hình riêng biệt: speech-to-text (STT/ASR) chuyển lời người dùng thành văn bản, một LLM suy luận trên bản ghi và sinh ra câu trả lời dạng text, rồi text-to-speech (TTS) phát thành giọng nói. Hướng speech-to-speech (S2S) dùng một mô hình đa phương thức duy nhất nhận âm thanh và xuất thẳng âm thanh, không qua văn bản trung gian — giữ lại tông giọng, ngữ điệu, sắc thái mà văn bản vứt bỏ.

flowchart LR
    subgraph C[Pipeline noi tang - Cascading]
      direction LR
      U1[Am thanh
nguoi dung] --> VAD1[VAD +
endpointing]
      VAD1 --> STT[STT / ASR]
      STT --> LLM[LLM
suy luan]
      LLM --> TTS[TTS]
      TTS --> O1[Am thanh
agent]
    end
    subgraph S[Speech-to-Speech]
      direction LR
      U2[Am thanh
nguoi dung] --> M[Mot mo hinh
da phuong thuc S2S]
      M --> O2[Am thanh
agent]
    end

    style C fill:#16213e,stroke:#fff,color:#fff
    style S fill:#0f3460,stroke:#fff,color:#fff
    style LLM fill:#e94560,stroke:#fff,color:#fff
    style M fill:#e94560,stroke:#fff,color:#fff

Cascading xâu ba mô hình thay thế được với văn bản ở giữa; speech-to-speech gộp tất cả vào một mô hình thuần âm thanh.

Đánh đổi là có thật và không có bên thắng tuyệt đối. Speech-to-speech thắng về độ tự nhiên và độ trễ — nó "nghe" được tiếng cười, sự ngập ngừng, giọng mỉa mai, và phản hồi trong ~320ms vì không có pipeline nào phải đi qua. Cascading thắng về khả năng kiểm soát, quan sát và chi phí — bạn chọn chính xác LLM nào suy luận, đọc và lưu được bản ghi văn bản, chèn được logic nghiệp vụ giữa khâu nhận dạng và khâu trả lời, và thay thế bất kỳ thành phần nào mà không phải đập đi xây lại.

Tiêu chí	Cascading (STT→LLM→TTS)	Speech-to-Speech (S2S)
Độ trễ	Cao hơn — tổng của ba mô hình (600ms–1.7s khi ngây thơ, ~500ms khi tối ưu)	Thấp hơn — một mô hình (~320ms tốt nhất)
Độ tự nhiên	Mất ngữ điệu/cảm xúc tại nút thắt văn bản	Giữ tông giọng, nhấn nhá, tiếng cười, ngập ngừng
Kiểm soát suy luận	Toàn quyền — chọn LLM bất kỳ, chèn logic giữa pipeline	Hạn chế — suy luận bị "nướng" sẵn trong mô hình
Khả năng quan sát	Cao — có bản ghi văn bản ở mọi khâu	Thấp — không có text trung gian để log/audit
Phụ thuộc nhà cung cấp	Thấp — trộn ghép nhiều nhà cung cấp	Cao — gắn chặt với mô hình S2S của một hãng
Hợp nhất với	Điện thoại, tuân thủ, tool use phức tạp, kiểm soát chi phí	Hội thoại tiêu dùng, UX ưu tiên tự nhiên

Đa số đội production thực tế chọn gì?

Năm 2026, phần lớn các triển khai production vẫn chạy pipeline cascading, vì một lý do: kiểm soát. Đội ngũ cần quyết định LLM nào suy luận, người dùng nghe giọng nào, và logic tuân thủ/nghiệp vụ nào chạy giữa khâu nhận dạng và khâu trả lời — đặc biệt trong các lĩnh vực bị quản chặt như y tế và tài chính. Speech-to-speech đang thắng ở các sản phẩm hướng người tiêu dùng, ưu tiên tự nhiên, nhưng "tôi cần đọc bản ghi và định tuyến cái này sang một tool" vẫn đẩy đa số doanh nghiệp về phía cascade.

3. Ngân sách độ trễ — thời gian thực sự "đi đâu"

Mô hình tư duy hữu ích nhất trong voice AI là ngân sách độ trễ (latency budget): một lượng thời gian cố định — khoảng 300ms để trải nghiệm "nhanh nhạy" — mà mọi thành phần phải chia nhau. Sự thật phản trực giác là STT và TTS không phải nơi tốn thời gian. Hai thủ phạm thật sự là luân phiên lượt lời (quyết định người dùng đã thực sự nói xong chưa) và thời gian tới token đầu tiên của LLM.

Khâu	Chi phí điển hình	Ghi chú
Khứ hồi mạng	30–80ms	WebRTC; điện thoại PSTN ngốn nhiều hơn hẳn
Speech-to-text	100–300ms	STT streaming rất nhanh; chạy ngay khi người dùng đang nói
Phát hiện kết thúc lượt (endpoint)	500–1000ms+	Kẻ giết người thầm lặng — chờ để chắc chắn người dùng đã dừng
LLM tới token đầu tiên	350–1000ms	Biến số kiểm soát được lớn nhất
Text-to-speech (âm thanh đầu tiên)	90–200ms	TTS streaming bật ra chunk đầu rất nhanh

Hãy để ý rằng phát hiện endpoint có thể tốn nhiều hơn tất cả các khâu khác cộng lại. Nếu bạn chờ trọn một giây im lặng để chắc chắn người dùng đã xong, bạn đã phá vỡ ngân sách trước cả khi LLM kịp bắt đầu. Đó là lý do vì sao phát hiện lượt lời là bài toán khó nhất trong voice AI — và mục tiếp theo dành riêng cho nó.

Tầng truyền tải lặng lẽ quyết định ngân sách của bạn

Với WebRTC bạn còn lại khoảng 240–270ms cho STT + LLM + TTS sau chi phí truyền tải. Trên một cuộc gọi điện thoại PSTN, truyền tải có thể ngốn toàn bộ ngân sách, chỉ còn 0–100ms — khiến mục tiêu 300ms trở nên bất khả thi về mặt vật lý. WebRTC tiết kiệm 150–700ms so với một cuộc gọi điện thoại truyền thống. Nếu bạn xây giọng nói trên mạng điện thoại, bạn không chơi cùng một trò chơi; bạn buộc phải nới mục tiêu độ trễ (≈800ms chấp nhận được với y tế, <600ms với outbound sales) và thiết kế xoay quanh nó.

4. Luân phiên lượt lời và ngắt lời: dạy máy biết trò chuyện

Con người giỏi đến kinh ngạc trong việc biết khi nào tới lượt mình nói. Chúng ta dùng sự im lặng, ngữ điệu, ngữ pháp và nhịp thở làm tín hiệu, và chen lời, ngắt lời một cách nhịp nhàng. Máy thì không có sẵn thứ nào trong số đó. Hai bài toán định nghĩa giọng nói hội thoại: biết khi nào người dùng nói xong (endpointing) và xử lý khi bị cắt ngang (barge-in).

4.1. Phát hiện kết thúc lượt lời

Cách ngây thơ là một bộ đếm im lặng: chờ 800–1200ms im lặng sau từ cuối, rồi giả định người dùng đã xong. Nhưng im lặng thuần túy là một tín hiệu tồi — người ta dừng giữa câu để suy nghĩ ("Tôi muốn đặt... một bàn cho bốn người"), và một bộ đếm ngốc nghếch sẽ ngắt lời họ. Câu trả lời của 2026 là endpointing ngữ nghĩa: kết hợp ngưỡng im lặng của Voice Activity Detection (VAD) cùng với một mô hình phán đoán xem câu đã hoàn chỉnh về mặt ngữ nghĩa hay chưa. "Tôi muốn đặt một bàn cho" là chưa trọn câu về ngữ pháp — hãy chờ. "Tôi muốn đặt một bàn cho bốn người" là trọn vẹn — hãy trả lời. Endpointing tốt là khác biệt giữa một agent điềm đạm và một agent liên tục cắt lời bạn.

4.2. Barge-in: xử lý ngắt lời

Khi agent đang nói mà người dùng bắt đầu lên tiếng, agent phải dừng ngay lập tức — đúng như một con người lịch sự. Điều này nghe thì tầm thường nhưng khó tàn bạo, vì bốn việc phải xảy ra gần như đồng thời ngay khoảnh khắc phát hiện barge-in.

flowchart TD
    A[Agent dang noi] --> B{VAD phat hien
nguoi dung noi vuot nguong
du cua so toi thieu?}
    B -- Khong --> A
    B -- Co: BARGE-IN --> C[1. Dung phat TTS
ngay lap tuc]
    C --> D[2. Huy sinh TTS
dang do]
    D --> E[3. Huy sinh LLM
dang chay]
    E --> F[4. Reset trang thai stream
vut bo luot cu]
    F --> G[Lang nghe dau vao
moi cua nguoi dung]
    G --> H[Bat dau luot moi]

    style A fill:#e94560,stroke:#fff,color:#fff
    style B fill:#fff3e0,stroke:#ff9800,color:#2c3e50
    style C fill:#16213e,stroke:#fff,color:#fff
    style D fill:#16213e,stroke:#fff,color:#fff
    style E fill:#16213e,stroke:#fff,color:#fff
    style F fill:#16213e,stroke:#fff,color:#fff
    style H fill:#4CAF50,stroke:#fff,color:#fff

Barge-in là một quy trình tháo dỡ bốn bước. Thiếu bất kỳ bước nào, agent sẽ nói chồng lên người dùng hoặc "nói nốt ý cũ" sau khi đã bị ngắt.

Nếu thiếu bất kỳ bước nào trong bốn bước đó, lỗi sẽ nghe thấy ngay lập tức: agent cứ nói chồng lên người dùng, hoặc nó im bặt rồi đột ngột tiếp tục một câu mà người dùng đã bỏ qua từ lâu. Các framework hiện đại nay đã ship sẵn barge-in được tinh chỉnh — LiveKit Agents báo cáo xử lý ngắt lời thích ứng đạt khoảng 86% precision và 100% recall — nhưng việc tinh chỉnh rất quan trọng: quá nhạy thì một tiếng ho cũng làm agent ngưng giữa câu; quá lỏng thì nó phớt lờ những lần ngắt lời thật sự.

Vì sao barge-in cần "hủy" chứ không chỉ "tắt tiếng"

Một cách làm ngây thơ chỉ tắt tiếng loa. Nhưng LLM vẫn đang sinh, TTS vẫn đang tổng hợp, và token vẫn đang được buffer. Nếu bạn chỉ tắt tiếng, ngay khoảnh khắc người dùng nói xong câu chen ngang, agent sẽ tuôn ra toàn bộ câu trả lời trước khi bị ngắt — rối loạn và máy móc. Barge-in thật sự hủy phần việc LLM và TTS đang dở và vứt bỏ âm thanh đã buffer, để agent thật sự từ bỏ lượt cũ và đáp lại đúng điều người dùng vừa nói.

5. Bên trong một voice agent production

Ráp các mảnh lại, một voice agent thực thụ có cấu trúc giải phẫu rõ ràng. Bộ điều phối (orchestrator) ngồi ở trung tâm, điều phối một vòng lặp thời gian thực chặt chẽ giữa tầng truyền tải và stack mô hình.

flowchart TB
    subgraph T[Tang Truyen tai]
      WRTC[WebRTC / WebSocket
stream am thanh hai chieu]
    end
    subgraph ORCH[Orchestrator - vong lap thoi gian thuc]
      VAD[VAD + endpointing
ngu nghia]
      INT[Bo xu ly ngat loi
barge-in]
      CTX[Trang thai hoi thoai
+ ngu canh]
    end
    subgraph MODELS[Stack Mo hinh]
      STT[STT streaming]
      LLM[LLM + tool calling]
      TTS[TTS streaming]
    end
    subgraph TOOLS[Tools / Backend]
      API[CRM / DB / dat lich
function call]
    end
    WRTC --> VAD
    VAD --> STT
    STT --> CTX
    CTX --> LLM
    LLM --> TTS
    TTS --> WRTC
    LLM <--> API
    INT -. huy .-> LLM
    INT -. huy .-> TTS
    WRTC -. tieng nguoi dung .-> INT

    style T fill:#2c3e50,stroke:#fff,color:#fff
    style ORCH fill:#16213e,stroke:#fff,color:#fff
    style MODELS fill:#0f3460,stroke:#fff,color:#fff
    style TOOLS fill:#e94560,stroke:#fff,color:#fff

Orchestrator nắm thời gian và ngắt lời; stack mô hình làm phần nặng nhọc; tools nối cuộc gọi với hệ thống nghiệp vụ thật.

Tầng truyền tải: stream âm thanh hai chiều qua WebRTC (trình duyệt/app) hoặc cầu WebSocket (điện thoại). Đây là nơi đặt "sàn" độ trễ của bạn.
Orchestrator: bộ não của thời gian — chạy VAD và endpointing ngữ nghĩa, phát hiện barge-in, giữ trạng thái hội thoại, và quyết định khi nào chuyển giao giữa nghe và nói. Đây chính là phần mà các framework như Pipecat và LiveKit Agents trao cho bạn.
Stack mô hình: STT streaming, một LLM có tool-calling, và TTS streaming — hoặc một mô hình S2S duy nhất thay cả ba.
Tools / backend: LLM gọi các hàm thật giữa cuộc trò chuyện — tra đơn hàng, đặt lịch, kiểm tra tồn kho — đây là thứ phân biệt một agent hữu ích với một chatbot chỉ biết nói.

6. Gọi hàm (function calling) ngay trong cuộc gọi trực tiếp

Một voice agent chỉ biết nói thì là một cái podcast. Giá trị đến khi nó hành động — và các lệnh gọi tool trong một cuộc thoại trực tiếp gây ra một bài toán độ trễ mà agent văn bản không bao giờ gặp. Khi người dùng hỏi "đơn của tôi gửi chưa?", agent phải gọi backend, chờ phản hồi, rồi trả lời — nhưng nó không thể cứ im bặt hai giây trong khi API phản hồi.

Mẫu thiết kế chuẩn của 2026 là kỹ thuật lấp đầy trong khi truy vấn (filler-while-fetching): ngay khi một lệnh gọi tool bắt đầu, agent phát ra một câu xác nhận tự nhiên ngắn ("Để tôi kiểm tra giúp anh/chị nhé...") để lấp khoảng lặng, chạy lệnh gọi hàm song song, rồi ghép câu trả lời thật vào khi nó trở về. Điều này phản chiếu chính xác điều một tổng đài viên người thật làm khi họ nói "anh/chị chờ một chút để em tra cứu." Kết hợp với việc stream câu trả lời của LLM từng token vào TTS, nó giữ cuộc trò chuyện luôn "sống" ngay cả khi công việc thật đang diễn ra bên dưới.

Stream mọi thứ, đừng buffer thứ gì không cần thiết

Quy tắc vàng của độ trễ giọng nói: đừng bao giờ chờ một đầu ra hoàn chỉnh khi bạn có thể bắt đầu phát ra một phần. STT stream bản ghi từng phần khi người dùng đang nói. LLM stream token khi đang suy luận. TTS bắt đầu nói câu đầu trong khi LLM vẫn đang sinh câu thứ hai. Mỗi luồng gối lên luồng kế tiếp, nên người dùng nghe những từ đầu tiên của câu trả lời từ lâu trước khi câu trả lời đầy đủ tồn tại. Một pipeline xử lý xong hẳn mỗi khâu rồi mới bắt đầu khâu sau sẽ luôn cảm thấy ì ạch, dù mỗi mô hình riêng lẻ có nhanh đến đâu.

7. Hệ sinh thái công cụ voice 2026

Hệ sinh thái phân tách thành các tầng rõ ràng: framework điều phối, nền tảng truyền tải thời gian thực, và nhà cung cấp mô hình (STT, TTS, S2S).

Tầng	Ví dụ	Cho bạn cái gì
Framework điều phối	Pipecat (v1.0, 4/2026), LiveKit Agents	Vòng lặp thời gian thực: VAD, endpointing, barge-in, đấu nối pipeline, plug-in nhà cung cấp
Truyền tải thời gian thực	LiveKit, hạ tầng WebRTC, cầu nối điện thoại	Stream âm thanh độ trễ thấp, tích hợp số điện thoại, scale cuộc gọi đồng thời
API speech-to-speech	Mô hình realtime/S2S của các hãng	Một mô hình âm-thanh-vào/âm-thanh-ra ở ~320ms, giữ ngữ điệu
Nhà cung cấp STT / TTS	Hãng ASR streaming + TTS neural	Các thành phần thay thế được của một pipeline cascading
Nền tảng voice agent	Sản phẩm đầu-cuối hosted	Build/deploy/giám sát ít "đường ống" hơn; đổi kiểm soát lấy tốc độ ra thị trường

Tự xây hay mua?

Mua một nền tảng hosted nếu bạn cần một voice agent chạy được trong vài ngày và ca sử dụng là chuẩn mực (đặt lịch, FAQ, sàng lọc). Tự xây trên một framework điều phối như Pipecat hay LiveKit Agents khi bạn cần kiểm soát tinh vi stack mô hình, tích hợp tool tùy biến, ràng buộc on-prem/tuân thủ, hoặc tối ưu chi phí mỗi cuộc gọi ở quy mô lớn. Tầng framework là điểm ngọt cho phần lớn đội kỹ thuật năm 2026: nó trao cho bạn phần "đường ống" thời gian thực tàn bạo (barge-in, endpointing) trong khi để lựa chọn mô hình và logic nghiệp vụ trong tay bạn.

8. Những bài toán khó không nằm ở LLM

Bài học phản trực giác của việc xây voice agent là mô hình ngôn ngữ hiếm khi là nút thắt cổ chai. Những lỗi phá nát production gần như đều nằm ở tầng âm thanh và thời gian.

1. Lỗi phiên âm đầu độc mọi thứ phía sau

Nếu STT nghe nhầm "tôi muốn hủy" thành "tôi muốn huy", LLM sẽ suy luận trên rác và tự tin làm sai. Giọng vùng miền, tạp âm nền, nói chồng, và thuật ngữ chuyên ngành (tên thuốc, mã sản phẩm SKU) đều làm giảm chất lượng ASR. Một voice agent chỉ tốt ngang với bản phiên âm tệ nhất của nó.

2. "Ảo giác" bản ghi trên nền im lặng

Một số mô hình ASR sinh ảo giác từ ngữ trong lúc im lặng hoặc có tạp âm nền — bịa ra một câu mà người dùng chưa hề nói, để rồi LLM ngoan ngoãn đáp lại nó. Phòng vệ trước đầu vào "ma" là một mối lo production có thật.

3. Endpointing không bao giờ "xong xuôi"

Mỗi lĩnh vực có kiểu ngừng nghỉ khác nhau. Một người gọi lớn tuổi nói với những quãng dừng dài; một người đang bực bội nói nhanh và hay chen ngang. Một ngưỡng endpointing duy nhất không thể phục vụ cả hai, và làm sai nghĩa là hoặc cắt lời người ta, hoặc trở nên ì ạch.

4. Chi phí cộng dồn theo từng phút

Khác với một truy vấn văn bản một lần, một cuộc gọi giọng nói đốt STT + LLM + TTS liên tục trong suốt thời lượng. Một cuộc gọi mười phút là mười phút ba mô hình cùng chạy. Ở quy mô lớn, kinh tế theo phút — không phải theo truy vấn — quyết định sản phẩm có khả thi hay không, đây là một lý do lớn khiến nhiều đội bám trụ pipeline cascading kiểm soát được.

9. Đo lường một voice agent: những chỉ số thực sự quan trọng

Ba con số định nghĩa chất lượng voice agent, và không con số nào trong đó là "độ chính xác LLM" đứng riêng.

Chỉ số	Đo cái gì	Vì sao quan trọng
TTFT (thời gian tới token/âm thanh đầu)	Độ trễ từ lúc người dùng dứt lời tới lúc agent bắt đầu nói	Con số được cảm nhận rõ nhất — chính là "độ nhanh nhạy"
WER (tỉ lệ lỗi từ)	Độ chính xác phiên âm của khâu STT	Đặt trần cho mọi thứ phía sau
RTF (real-time factor)	Thời gian xử lý so với độ dài âm thanh	Quyết định bạn có theo kịp luồng trực tiếp hay không
Precision/recall ngắt lời	Mức độ chính xác khi barge-in kích hoạt (và không)	Quyết định agent có vẻ lịch sự hay hung hăng
Tỉ lệ hoàn thành tác vụ	% cuộc gọi đạt được mục tiêu của người dùng	KPI nghiệp vụ thật — độ trễ vô nghĩa nếu tác vụ thất bại

Đừng tối ưu độ trễ trong chân không

Một agent 200ms nghe nhầm nửa số đầu vào còn tệ hơn một agent 400ms nghe đúng. Độ trễ và độ chính xác đánh đổi lẫn nhau — ép endpointing siêu nhanh nghĩa là cắt lời người ta nhiều hơn. Luôn đọc TTFT song song với WER và tỉ lệ hoàn thành tác vụ, không bao giờ đọc một mình.

10. Sự dịch chuyển vai trò: từ người viết kịch bản đến nhà thiết kế hội thoại

Voice AI thay đổi việc mà đội ngũ xung quanh nó thực sự làm. Thế giới IVR cũ được dựng bằng cách viết các luồng gọi cứng nhắc — "nếu người dùng bấm 1, đi tới nút B." Thế giới giọng nói agentic thay thế điều đó bằng thiết kế hội thoại và chính sách: định nghĩa nhân cách (persona) và tông giọng của agent, các tool nó được phép gọi, quy tắc leo thang để chuyển giao cho người thật, và các rào chắn tuân thủ về những gì nó phải và không được nói.

Với Project Manager hay product owner, giọng nói đưa vào công việc quản trị mà văn bản chưa từng đòi hỏi: cuộc gọi nào được ghi âm và bản ghi được lưu thế nào, agent tự nhận diện là AI ra sao (một yêu cầu pháp lý ở nhiều nơi), chuyện gì xảy ra khi nó không hiểu người gọi, và đo lường không chỉ tỉ lệ "đỡ tải" mà cả niềm tin của khách hàng. Voice agent trở thành một sản phẩm có SLA về độ trễ, có người sở hữu phần thiết kế hội thoại, và có dấu vết kiểm toán — không phải một kịch bản ai đó viết một lần rồi quên.

Tạo phẩm trung tâm mới: bản đặc tả hội thoại

Cũng như runbook trở thành tài sản chung giữa SRE và agent, bản đặc tả hội thoại (conversation spec) — persona, tool được phép, ngưỡng leo thang, câu chữ tuân thủ, hành vi dự phòng — trở thành tạo phẩm mà product, kỹ thuật và bộ phận tuân thủ cùng sở hữu. Kỹ sư đấu nối pipeline; product viết persona và luồng; tuân thủ rà soát các rào chắn. Giọng nói là nơi ba bộ môn này cuối cùng buộc phải chia sẻ chung một tài liệu.

11. Voice agent đã tiến hóa thế nào

Thập niên 2010 — IVR & trợ lý giọng nói đầu tiên

Cây gọi cứng nhắc và trợ lý dò từ khóa. Hữu ích với lệnh hẹp, bất lực với hội thoại mở. "Bấm 1 để thanh toán."

2023–2024 — Cascade LLM xuất hiện

Pipeline STT→LLM→TTS làm hội thoại mở khả thi, nhưng độ trễ ở mức 1–2 giây và ngắt lời phá vỡ trải nghiệm. Demo ấn tượng, production mong manh.

2025 — Speech-to-speech & độ trễ dưới một giây

Mô hình thuần âm thanh và pipeline stream-mọi-thứ đẩy thời gian khứ hồi xuống dưới ngưỡng cảm nhận. Barge-in và endpointing ngữ nghĩa thành kỳ vọng mặc định.

2026 — Giọng nói như hạ tầng

Pipecat v1.0, LiveKit Agents với xử lý ngắt lời được tinh chỉnh, mô hình S2S ~320ms. Voice agent chuyển từ mới lạ thành hạ tầng production xuyên suốt hỗ trợ, bán hàng và y tế.

2027+ triển vọng

Agent biết cảm xúc, đọc được sự bực bội và điều chỉnh, chuyển giao mượt cho người thật giữa cuộc gọi, và giọng nói trở thành kênh hạng nhất bên cạnh văn bản và màn hình.

12. Những sai lầm thường gặp cần tránh

1. Tối ưu LLM mà bỏ quên truyền tải

Đội ngũ chăm chăm chọn mô hình trong khi chạy trên một tầng truyền tải đã ngốn hết ngân sách. Sửa WebRTC vs điện thoại và endpointing trước — đó là nơi các giây "ẩn nấp".

2. Xử lý xong hẳn từng khâu

Chờ xong bản ghi đầy đủ, rồi câu trả lời LLM đầy đủ, rồi TTS đầy đủ là cầm chắc một agent ì ạch. Hãy stream và gối các khâu lên nhau, nếu không bạn sẽ không bao giờ chạm tới ngân sách.

3. Coi barge-in là "tắt tiếng loa"

Không hủy phần việc LLM và TTS đang dở thì agent sẽ nói nốt câu đã bỏ dở sau khi bị ngắt. Barge-in thật sự tháo dỡ và vứt bỏ lượt cũ.

4. Một ngưỡng endpointing cho mọi người dùng

Một mốc thời gian im lặng duy nhất không thể phục vụ cả một người gọi chậm rãi, suy tư lẫn một người nhanh nhảu, thiếu kiên nhẫn. Dùng endpointing ngữ nghĩa và tinh chỉnh theo từng ca sử dụng.

13. Kết luận

Điều khó nhất về voice AI năm 2026 không phải làm cho máy biết nói — mà làm cho nó biết trò chuyện. Hội thoại là một vũ điệu thời gian thực của luân phiên lượt lời, ngắt lời và canh thời gian mà con người làm một cách vô thức còn máy phải được kỹ-thuật-hóa để bắt chước, từng mili-giây một. LLM là phần dễ; việc điều phối sự im lặng, quy trình tháo dỡ bốn bước của barge-in, sự gối luồng che giấu độ trễ, và chất lượng phiên âm mà mọi thứ khác phụ thuộc vào — đó mới là bộ môn thật sự.

Nếu bạn đang xây một cái, hãy bắt đầu từ quyết định kiến trúc (cascading để kiểm soát, S2S để tự nhiên), làm chắc tầng truyền tải trước khi đụng vào mô hình, và đo TTFT cùng tỉ lệ hoàn thành tác vụ ngay từ ngày đầu. Một voice agent trả lời trong 300ms, dừng ngay khoảnh khắc bạn chen ngang, và thực sự hoàn thành tác vụ của bạn không hề giống như đang nói chuyện với robot — và chính cảm giác đó, chứ không phải mô hình đứng sau nó, mới là toàn bộ sản phẩm. Cuộc đua là với một chiếc đồng hồ 300ms, và mọi lựa chọn kiến trúc đều xoay quanh việc bạn tiêu những mili-giây ấy thế nào.

Nguồn tham khảo

#Voice AI #AI Agent #Speech-to-Speech #WebRTC #Real-Time #LLM

# Voice AI Agent 2026: Kiến trúc Trợ lý Giọng nói Thời gian thực

Bạn gọi đến tổng đài chăm sóc khách hàng. Bạn nói xong câu, rồi có một giây im lặng trọn vẹn — sau đó tổng đài viên bắt đầu nói, đúng lúc bạn vừa định bổ sung "...à, còn một việc nữa." Nó nói chồng lên lời bạn. Cả hai cùng dừng. Nó vẫn nói tiếp, hoàn thành nốt một ý mà bạn đã bỏ giữa chừng. Cuộc trò chuyện trở nên gãy gập, và bạn nhận ra ngay tức khắc rằng mình đang nói chuyện với một cái máy. Giờ hãy tưởng tượng cũng cuộc gọi đó nhưng câu trả lời bật ra trong vòng chưa đến 300 mili-giây, agent dừng lại ngay khoảnh khắc bạn chen ngang, và nó tiếp tục đúng chỗ bạn vừa chuyển hướng. Khác biệt giữa hai cuộc gọi ấy không nằm ở mô hình ngôn ngữ — nó nằm ở **kỹ thuật giọng nói (voice engineering)**, và năm 2026 lĩnh vực này đã trở thành một bộ môn riêng.

~300msNgưỡng độ trễ phản hồi trước khi con người thấy "lag"

~320msĐộ trễ đầu-cuối của các mô hình speech-to-speech nhanh nhất 2026

150–700msĐộ trễ WebRTC tiết kiệm được so với cuộc gọi PSTN

600ms–1.7sĐộ trễ đầu-cuối điển hình của pipeline STT→LLM→TTS ngây thơ

## 1. Vì sao voice agent bùng nổ năm 2026?

Giao diện giọng nói không mới — cây phím IVR của tổng đài đã tồn tại hàng chục năm, trợ lý giọng nói có từ thập niên 2010. Cái thay đổi là ba thứ mà giọng nói luôn thiếu cuối cùng đã đến cùng lúc. Thứ nhất, **LLM làm cho hội thoại mở trở nên khả thi**: voice agent giờ có thể xử lý "à mà, kiểm tra giúp tôi xem đơn hàng kia đã gửi chưa?" thay vì "bấm phím 2 để thanh toán." Thứ hai, **độ trễ tụt xuống dưới ngưỡng cảm nhận**: mô hình streaming, suy luận nhanh hơn, và các mô hình thuần giọng nói đẩy thời gian khứ hồi xuống dưới mốc ~300ms — mốc mà hội thoại bắt đầu hết "máy móc". Thứ ba, **các framework điều phối trưởng thành**: Pipecat ra v1.0 vào tháng 4/2026, LiveKit Agents ship cơ chế xử lý ngắt lời thích ứng — phần "đường ống" trước kia ngốn một đội ngũ vài tháng nay đã thành một thư viện.

#### Ràng buộc nền tảng: hội thoại là thời gian thực

Một agent văn bản có thể "nghĩ" ba giây và chẳng ai phiền. Một voice agent ngừng ba giây trước khi trả lời thì bị coi là hỏng — con người diễn giải sự im lặng thành lúng túng, mất kết nối, hoặc bất lịch sự. Mọi quyết định kiến trúc trong voice AI đều là hệ quả của một sự thật tàn nhẫn: **bạn đang chạy đua với một chiếc đồng hồ 300ms ở mỗi lượt lời**, và đồng hồ bắt đầu chạy đúng khoảnh khắc người dùng ngừng nói.

## 2. Hai kiến trúc: cascading và speech-to-speech

Có đúng hai cách để xây một voice agent năm 2026, và lựa chọn giữa chúng là quyết định hệ trọng nhất bạn sẽ đưa ra.

**Pipeline nối tầng (cascading)** — còn gọi là turn-based — xâu chuỗi ba mô hình riêng biệt: speech-to-text (STT/ASR) chuyển lời người dùng thành văn bản, một LLM suy luận trên bản ghi và sinh ra câu trả lời dạng text, rồi text-to-speech (TTS) phát thành giọng nói. Hướng **speech-to-speech (S2S)** dùng một mô hình đa phương thức duy nhất nhận âm thanh và xuất thẳng âm thanh, không qua văn bản trung gian — giữ lại tông giọng, ngữ điệu, sắc thái mà văn bản vứt bỏ.

```
flowchart LR
    subgraph C[Pipeline noi tang - Cascading]
      direction LR
      U1[Am thanh  
nguoi dung] --> VAD1[VAD +  
endpointing]
      VAD1 --> STT[STT / ASR]
      STT --> LLM[LLM  
suy luan]
      LLM --> TTS[TTS]
      TTS --> O1[Am thanh  
agent]
    end
    subgraph S[Speech-to-Speech]
      direction LR
      U2[Am thanh  
nguoi dung] --> M[Mot mo hinh  
da phuong thuc S2S]
      M --> O2[Am thanh  
agent]
    end

style C fill:#16213e,stroke:#fff,color:#fff
    style S fill:#0f3460,stroke:#fff,color:#fff
    style LLM fill:#e94560,stroke:#fff,color:#fff
    style M fill:#e94560,stroke:#fff,color:#fff

```
Cascading xâu ba mô hình thay thế được với văn bản ở giữa; speech-to-speech gộp tất cả vào một mô hình thuần âm thanh.

Đánh đổi là có thật và không có bên thắng tuyệt đối. Speech-to-speech thắng về *độ tự nhiên và độ trễ* — nó "nghe" được tiếng cười, sự ngập ngừng, giọng mỉa mai, và phản hồi trong ~320ms vì không có pipeline nào phải đi qua. Cascading thắng về *khả năng kiểm soát, quan sát và chi phí* — bạn chọn chính xác LLM nào suy luận, đọc và lưu được bản ghi văn bản, chèn được logic nghiệp vụ giữa khâu nhận dạng và khâu trả lời, và thay thế bất kỳ thành phần nào mà không phải đập đi xây lại.

| Tiêu chí | Cascading (STT→LLM→TTS) | Speech-to-Speech (S2S) |
| --- | --- | --- |
| **Độ trễ** | Cao hơn — tổng của ba mô hình (600ms–1.7s khi ngây thơ, ~500ms khi tối ưu) | Thấp hơn — một mô hình (~320ms tốt nhất) |
| **Độ tự nhiên** | Mất ngữ điệu/cảm xúc tại nút thắt văn bản | Giữ tông giọng, nhấn nhá, tiếng cười, ngập ngừng |
| **Kiểm soát suy luận** | Toàn quyền — chọn LLM bất kỳ, chèn logic giữa pipeline | Hạn chế — suy luận bị "nướng" sẵn trong mô hình |
| **Khả năng quan sát** | Cao — có bản ghi văn bản ở mọi khâu | Thấp — không có text trung gian để log/audit |
| **Phụ thuộc nhà cung cấp** | Thấp — trộn ghép nhiều nhà cung cấp | Cao — gắn chặt với mô hình S2S của một hãng |
| **Hợp nhất với** | Điện thoại, tuân thủ, tool use phức tạp, kiểm soát chi phí | Hội thoại tiêu dùng, UX ưu tiên tự nhiên |

#### Đa số đội production thực tế chọn gì?

Năm 2026, phần lớn các triển khai production vẫn chạy **pipeline cascading**, vì một lý do: kiểm soát. Đội ngũ cần quyết định LLM nào suy luận, người dùng nghe giọng nào, và logic tuân thủ/nghiệp vụ nào chạy giữa khâu nhận dạng và khâu trả lời — đặc biệt trong các lĩnh vực bị quản chặt như y tế và tài chính. Speech-to-speech đang thắng ở các sản phẩm hướng người tiêu dùng, ưu tiên tự nhiên, nhưng "tôi cần đọc bản ghi và định tuyến cái này sang một tool" vẫn đẩy đa số doanh nghiệp về phía cascade.

## 3. Ngân sách độ trễ — thời gian thực sự "đi đâu"

Mô hình tư duy hữu ích nhất trong voice AI là **ngân sách độ trễ (latency budget)**: một lượng thời gian cố định — khoảng 300ms để trải nghiệm "nhanh nhạy" — mà mọi thành phần phải chia nhau. Sự thật phản trực giác là STT và TTS *không* phải nơi tốn thời gian. Hai thủ phạm thật sự là **luân phiên lượt lời** (quyết định người dùng đã thực sự nói xong chưa) và **thời gian tới token đầu tiên của LLM**.

| Khâu | Chi phí điển hình | Ghi chú |
| --- | --- | --- |
| **Khứ hồi mạng** | 30–80ms | WebRTC; điện thoại PSTN ngốn nhiều hơn hẳn |
| **Speech-to-text** | 100–300ms | STT streaming rất nhanh; chạy ngay khi người dùng đang nói |
| **Phát hiện kết thúc lượt (endpoint)** | 500–1000ms+ | Kẻ giết người thầm lặng — chờ để chắc chắn người dùng đã dừng |
| **LLM tới token đầu tiên** | 350–1000ms | Biến số kiểm soát được lớn nhất |
| **Text-to-speech (âm thanh đầu tiên)** | 90–200ms | TTS streaming bật ra chunk đầu rất nhanh |

Hãy để ý rằng phát hiện endpoint có thể tốn nhiều hơn tất cả các khâu khác cộng lại. Nếu bạn chờ trọn một giây im lặng để *chắc chắn* người dùng đã xong, bạn đã phá vỡ ngân sách trước cả khi LLM kịp bắt đầu. Đó là lý do vì sao phát hiện lượt lời là bài toán khó nhất trong voice AI — và mục tiếp theo dành riêng cho nó.

#### Tầng truyền tải lặng lẽ quyết định ngân sách của bạn

Với **WebRTC** bạn còn lại khoảng 240–270ms cho STT + LLM + TTS sau chi phí truyền tải. Trên một **cuộc gọi điện thoại PSTN**, truyền tải có thể ngốn toàn bộ ngân sách, chỉ còn 0–100ms — khiến mục tiêu 300ms trở nên bất khả thi về mặt vật lý. WebRTC tiết kiệm 150–700ms so với một cuộc gọi điện thoại truyền thống. Nếu bạn xây giọng nói trên mạng điện thoại, bạn không chơi cùng một trò chơi; bạn buộc phải nới mục tiêu độ trễ (≈800ms chấp nhận được với y tế, <600ms với outbound sales) và thiết kế xoay quanh nó.

## 4. Luân phiên lượt lời và ngắt lời: dạy máy biết trò chuyện

Con người giỏi đến kinh ngạc trong việc biết khi nào tới lượt mình nói. Chúng ta dùng sự im lặng, ngữ điệu, ngữ pháp và nhịp thở làm tín hiệu, và chen lời, ngắt lời một cách nhịp nhàng. Máy thì không có sẵn thứ nào trong số đó. Hai bài toán định nghĩa giọng nói hội thoại: **biết khi nào người dùng nói xong** (endpointing) và **xử lý khi bị cắt ngang** (barge-in).

### 4.1. Phát hiện kết thúc lượt lời

Cách ngây thơ là một bộ đếm im lặng: chờ 800–1200ms im lặng sau từ cuối, rồi giả định người dùng đã xong. Nhưng im lặng thuần túy là một tín hiệu tồi — người ta dừng giữa câu để suy nghĩ ("Tôi muốn đặt... một bàn cho bốn người"), và một bộ đếm ngốc nghếch sẽ ngắt lời họ. Câu trả lời của 2026 là **endpointing ngữ nghĩa**: kết hợp ngưỡng im lặng của Voice Activity Detection (VAD) *cùng với* một mô hình phán đoán xem câu đã hoàn chỉnh về mặt ngữ nghĩa hay chưa. "Tôi muốn đặt một bàn cho" là chưa trọn câu về ngữ pháp — hãy chờ. "Tôi muốn đặt một bàn cho bốn người" là trọn vẹn — hãy trả lời. Endpointing tốt là khác biệt giữa một agent điềm đạm và một agent liên tục cắt lời bạn.

### 4.2. Barge-in: xử lý ngắt lời

Khi agent đang nói mà người dùng bắt đầu lên tiếng, agent phải **dừng ngay lập tức** — đúng như một con người lịch sự. Điều này nghe thì tầm thường nhưng khó tàn bạo, vì bốn việc phải xảy ra gần như đồng thời ngay khoảnh khắc phát hiện barge-in.

```
flowchart TD
    A[Agent dang noi] --> B{VAD phat hien  
nguoi dung noi vuot nguong  
du cua so toi thieu?}
    B -- Khong --> A
    B -- Co: BARGE-IN --> C[1. Dung phat TTS  
ngay lap tuc]
    C --> D[2. Huy sinh TTS  
dang do]
    D --> E[3. Huy sinh LLM  
dang chay]
    E --> F[4. Reset trang thai stream  
vut bo luot cu]
    F --> G[Lang nghe dau vao  
moi cua nguoi dung]
    G --> H[Bat dau luot moi]

style A fill:#e94560,stroke:#fff,color:#fff
    style B fill:#fff3e0,stroke:#ff9800,color:#2c3e50
    style C fill:#16213e,stroke:#fff,color:#fff
    style D fill:#16213e,stroke:#fff,color:#fff
    style E fill:#16213e,stroke:#fff,color:#fff
    style F fill:#16213e,stroke:#fff,color:#fff
    style H fill:#4CAF50,stroke:#fff,color:#fff

```
Barge-in là một quy trình tháo dỡ bốn bước. Thiếu bất kỳ bước nào, agent sẽ nói chồng lên người dùng hoặc "nói nốt ý cũ" sau khi đã bị ngắt.

#### Vì sao barge-in cần "hủy" chứ không chỉ "tắt tiếng"

Một cách làm ngây thơ chỉ tắt tiếng loa. Nhưng LLM vẫn đang sinh, TTS vẫn đang tổng hợp, và token vẫn đang được buffer. Nếu bạn chỉ tắt tiếng, ngay khoảnh khắc người dùng nói xong câu chen ngang, agent sẽ tuôn ra *toàn bộ* câu trả lời trước khi bị ngắt — rối loạn và máy móc. Barge-in thật sự **hủy phần việc LLM và TTS đang dở và vứt bỏ âm thanh đã buffer**, để agent thật sự từ bỏ lượt cũ và đáp lại đúng điều người dùng vừa nói.

## 5. Bên trong một voice agent production

```
flowchart TB
    subgraph T[Tang Truyen tai]
      WRTC[WebRTC / WebSocket  
stream am thanh hai chieu]
    end
    subgraph ORCH[Orchestrator - vong lap thoi gian thuc]
      VAD[VAD + endpointing  
ngu nghia]
      INT[Bo xu ly ngat loi  
barge-in]
      CTX[Trang thai hoi thoai  
+ ngu canh]
    end
    subgraph MODELS[Stack Mo hinh]
      STT[STT streaming]
      LLM[LLM + tool calling]
      TTS[TTS streaming]
    end
    subgraph TOOLS[Tools / Backend]
      API[CRM / DB / dat lich  
function call]
    end
    WRTC --> VAD
    VAD --> STT
    STT --> CTX
    CTX --> LLM
    LLM --> TTS
    TTS --> WRTC
    LLM <--> API
    INT -. huy .-> LLM
    INT -. huy .-> TTS
    WRTC -. tieng nguoi dung .-> INT

style T fill:#2c3e50,stroke:#fff,color:#fff
    style ORCH fill:#16213e,stroke:#fff,color:#fff
    style MODELS fill:#0f3460,stroke:#fff,color:#fff
    style TOOLS fill:#e94560,stroke:#fff,color:#fff

```
Orchestrator nắm thời gian và ngắt lời; stack mô hình làm phần nặng nhọc; tools nối cuộc gọi với hệ thống nghiệp vụ thật.

- **Tầng truyền tải:** stream âm thanh hai chiều qua WebRTC (trình duyệt/app) hoặc cầu WebSocket (điện thoại). Đây là nơi đặt "sàn" độ trễ của bạn.
- **Orchestrator:** bộ não của thời gian — chạy VAD và endpointing ngữ nghĩa, phát hiện barge-in, giữ trạng thái hội thoại, và quyết định khi nào chuyển giao giữa nghe và nói. Đây chính là phần mà các framework như Pipecat và LiveKit Agents trao cho bạn.
- **Stack mô hình:** STT streaming, một LLM có tool-calling, và TTS streaming — hoặc một mô hình S2S duy nhất thay cả ba.
- **Tools / backend:** LLM gọi các hàm thật giữa cuộc trò chuyện — tra đơn hàng, đặt lịch, kiểm tra tồn kho — đây là thứ phân biệt một agent hữu ích với một chatbot chỉ biết nói.

## 6. Gọi hàm (function calling) ngay trong cuộc gọi trực tiếp

Một voice agent chỉ biết nói thì là một cái podcast. Giá trị đến khi nó *hành động* — và các lệnh gọi tool trong một cuộc thoại trực tiếp gây ra một bài toán độ trễ mà agent văn bản không bao giờ gặp. Khi người dùng hỏi "đơn của tôi gửi chưa?", agent phải gọi backend, chờ phản hồi, rồi trả lời — nhưng nó không thể cứ im bặt hai giây trong khi API phản hồi.

Mẫu thiết kế chuẩn của 2026 là kỹ thuật **lấp đầy trong khi truy vấn (filler-while-fetching)**: ngay khi một lệnh gọi tool bắt đầu, agent phát ra một câu xác nhận tự nhiên ngắn ("Để tôi kiểm tra giúp anh/chị nhé...") để lấp khoảng lặng, chạy lệnh gọi hàm song song, rồi ghép câu trả lời thật vào khi nó trở về. Điều này phản chiếu chính xác điều một tổng đài viên người thật làm khi họ nói "anh/chị chờ một chút để em tra cứu." Kết hợp với việc stream câu trả lời của LLM từng token vào TTS, nó giữ cuộc trò chuyện luôn "sống" ngay cả khi công việc thật đang diễn ra bên dưới.

#### Stream mọi thứ, đừng buffer thứ gì không cần thiết

Quy tắc vàng của độ trễ giọng nói: **đừng bao giờ chờ một đầu ra hoàn chỉnh khi bạn có thể bắt đầu phát ra một phần.** STT stream bản ghi từng phần khi người dùng đang nói. LLM stream token khi đang suy luận. TTS bắt đầu nói câu đầu trong khi LLM vẫn đang sinh câu thứ hai. Mỗi luồng gối lên luồng kế tiếp, nên người dùng nghe những từ đầu tiên của câu trả lời từ lâu trước khi câu trả lời đầy đủ tồn tại. Một pipeline xử lý xong hẳn mỗi khâu rồi mới bắt đầu khâu sau sẽ luôn cảm thấy ì ạch, dù mỗi mô hình riêng lẻ có nhanh đến đâu.

## 7. Hệ sinh thái công cụ voice 2026

Hệ sinh thái phân tách thành các tầng rõ ràng: framework điều phối, nền tảng truyền tải thời gian thực, và nhà cung cấp mô hình (STT, TTS, S2S).

| Tầng | Ví dụ | Cho bạn cái gì |
| --- | --- | --- |
| **Framework điều phối** | Pipecat (v1.0, 4/2026), LiveKit Agents | Vòng lặp thời gian thực: VAD, endpointing, barge-in, đấu nối pipeline, plug-in nhà cung cấp |
| **Truyền tải thời gian thực** | LiveKit, hạ tầng WebRTC, cầu nối điện thoại | Stream âm thanh độ trễ thấp, tích hợp số điện thoại, scale cuộc gọi đồng thời |
| **API speech-to-speech** | Mô hình realtime/S2S của các hãng | Một mô hình âm-thanh-vào/âm-thanh-ra ở ~320ms, giữ ngữ điệu |
| **Nhà cung cấp STT / TTS** | Hãng ASR streaming + TTS neural | Các thành phần thay thế được của một pipeline cascading |
| **Nền tảng voice agent** | Sản phẩm đầu-cuối hosted | Build/deploy/giám sát ít "đường ống" hơn; đổi kiểm soát lấy tốc độ ra thị trường |

#### Tự xây hay mua?

**Mua** một nền tảng hosted nếu bạn cần một voice agent chạy được trong vài ngày và ca sử dụng là chuẩn mực (đặt lịch, FAQ, sàng lọc). **Tự xây** trên một framework điều phối như Pipecat hay LiveKit Agents khi bạn cần kiểm soát tinh vi stack mô hình, tích hợp tool tùy biến, ràng buộc on-prem/tuân thủ, hoặc tối ưu chi phí mỗi cuộc gọi ở quy mô lớn. Tầng framework là điểm ngọt cho phần lớn đội kỹ thuật năm 2026: nó trao cho bạn phần "đường ống" thời gian thực tàn bạo (barge-in, endpointing) trong khi để lựa chọn mô hình và logic nghiệp vụ trong tay bạn.

## 8. Những bài toán khó không nằm ở LLM

#### 1. Lỗi phiên âm đầu độc mọi thứ phía sau

#### 2. "Ảo giác" bản ghi trên nền im lặng

#### 3. Endpointing không bao giờ "xong xuôi"

#### 4. Chi phí cộng dồn theo từng phút

## 9. Đo lường một voice agent: những chỉ số thực sự quan trọng

Ba con số định nghĩa chất lượng voice agent, và không con số nào trong đó là "độ chính xác LLM" đứng riêng.

| Chỉ số | Đo cái gì | Vì sao quan trọng |
| --- | --- | --- |
| **TTFT (thời gian tới token/âm thanh đầu)** | Độ trễ từ lúc người dùng dứt lời tới lúc agent bắt đầu nói | Con số được cảm nhận rõ nhất — chính là "độ nhanh nhạy" |
| **WER (tỉ lệ lỗi từ)** | Độ chính xác phiên âm của khâu STT | Đặt trần cho mọi thứ phía sau |
| **RTF (real-time factor)** | Thời gian xử lý so với độ dài âm thanh | Quyết định bạn có theo kịp luồng trực tiếp hay không |
| **Precision/recall ngắt lời** | Mức độ chính xác khi barge-in kích hoạt (và không) | Quyết định agent có vẻ lịch sự hay hung hăng |
| **Tỉ lệ hoàn thành tác vụ** | % cuộc gọi đạt được mục tiêu của người dùng | KPI nghiệp vụ thật — độ trễ vô nghĩa nếu tác vụ thất bại |

#### Đừng tối ưu độ trễ trong chân không

Một agent 200ms nghe nhầm nửa số đầu vào còn tệ hơn một agent 400ms nghe đúng. Độ trễ và độ chính xác đánh đổi lẫn nhau — ép endpointing siêu nhanh nghĩa là cắt lời người ta nhiều hơn. Luôn đọc TTFT *song song* với WER và tỉ lệ hoàn thành tác vụ, không bao giờ đọc một mình.

## 10. Sự dịch chuyển vai trò: từ người viết kịch bản đến nhà thiết kế hội thoại

Voice AI thay đổi việc mà đội ngũ xung quanh nó thực sự làm. Thế giới IVR cũ được dựng bằng cách viết các luồng gọi cứng nhắc — "nếu người dùng bấm 1, đi tới nút B." Thế giới giọng nói agentic thay thế điều đó bằng **thiết kế hội thoại và chính sách**: định nghĩa nhân cách (persona) và tông giọng của agent, các tool nó được phép gọi, quy tắc leo thang để chuyển giao cho người thật, và các rào chắn tuân thủ về những gì nó phải và không được nói.

Với **Project Manager hay product owner**, giọng nói đưa vào công việc quản trị mà văn bản chưa từng đòi hỏi: cuộc gọi nào được ghi âm và bản ghi được lưu thế nào, agent tự nhận diện là AI ra sao (một yêu cầu pháp lý ở nhiều nơi), chuyện gì xảy ra khi nó không hiểu người gọi, và đo lường không chỉ tỉ lệ "đỡ tải" mà cả niềm tin của khách hàng. Voice agent trở thành một sản phẩm có SLA về độ trễ, có người sở hữu phần thiết kế hội thoại, và có dấu vết kiểm toán — không phải một kịch bản ai đó viết một lần rồi quên.

#### Tạo phẩm trung tâm mới: bản đặc tả hội thoại

Cũng như runbook trở thành tài sản chung giữa SRE và agent, **bản đặc tả hội thoại (conversation spec)** — persona, tool được phép, ngưỡng leo thang, câu chữ tuân thủ, hành vi dự phòng — trở thành tạo phẩm mà product, kỹ thuật và bộ phận tuân thủ cùng sở hữu. Kỹ sư đấu nối pipeline; product viết persona và luồng; tuân thủ rà soát các rào chắn. Giọng nói là nơi ba bộ môn này cuối cùng buộc phải chia sẻ chung một tài liệu.

## 11. Voice agent đã tiến hóa thế nào

Thập niên 2010 — IVR & trợ lý giọng nói đầu tiên

Cây gọi cứng nhắc và trợ lý dò từ khóa. Hữu ích với lệnh hẹp, bất lực với hội thoại mở. "Bấm 1 để thanh toán."

2023–2024 — Cascade LLM xuất hiện

Pipeline STT→LLM→TTS làm hội thoại mở khả thi, nhưng độ trễ ở mức 1–2 giây và ngắt lời phá vỡ trải nghiệm. Demo ấn tượng, production mong manh.

2025 — Speech-to-speech & độ trễ dưới một giây

2026 — Giọng nói như hạ tầng

2027+ triển vọng

## 12. Những sai lầm thường gặp cần tránh

#### 1. Tối ưu LLM mà bỏ quên truyền tải

#### 2. Xử lý xong hẳn từng khâu

#### 3. Coi barge-in là "tắt tiếng loa"

Không hủy phần việc LLM và TTS đang dở thì agent sẽ nói nốt câu đã bỏ dở sau khi bị ngắt. Barge-in thật sự tháo dỡ và vứt bỏ lượt cũ.

#### 4. Một ngưỡng endpointing cho mọi người dùng

## 13. Kết luận

Điều khó nhất về voice AI năm 2026 không phải làm cho máy biết nói — mà làm cho nó biết *trò chuyện*. Hội thoại là một vũ điệu thời gian thực của luân phiên lượt lời, ngắt lời và canh thời gian mà con người làm một cách vô thức còn máy phải được kỹ-thuật-hóa để bắt chước, từng mili-giây một. LLM là phần dễ; việc điều phối sự im lặng, quy trình tháo dỡ bốn bước của barge-in, sự gối luồng che giấu độ trễ, và chất lượng phiên âm mà mọi thứ khác phụ thuộc vào — đó mới là bộ môn thật sự.

### Nguồn tham khảo

- [Softcery — Real-Time (Speech-to-Speech) vs Turn-Based (Cascading STT/TTS) Voice Agent Architecture](https://softcery.com/lab/ai-voice-agents-real-time-vs-turn-based-tts-stt-architecture)
- [Digital Applied — Voice Agent Infrastructure Stack 2026: Full Reference](https://www.digitalapplied.com/blog/voice-agent-infrastructure-stack-2026-reference)
- [Future AGI — Voice AI Barge-In and Turn-Taking: A 2026 Implementation Guide](https://futureagi.com/blog/voice-ai-barge-in-turn-taking-2026/)
- [Famulor — Realtime vs. Pipeline Voice Agent: Architecture Guide 2026](https://www.famulor.io/blog/realtime-vs-pipeline-voice-agent-architecture-guide-2026)
- [Chanl — Voice AI Pipeline: STT, LLM, TTS and the 300ms Budget](https://www.channel.tel/blog/voice-ai-pipeline-stt-tts-latency-budget)
- [Telnyx — Voice AI Agents Compared on Latency in 2026](https://telnyx.com/resources/voice-ai-agents-compared-latency)
- [Ultravox — Speech-to-Speech Voice Agents: Architecture, Benefits, and How They Work](https://www.ultravox.ai/voice-ai/speech-to-speech-voice-agents-architecture-benefits-and-how-they-work)
- [Retell AI — How Real-Time Voice AI Actually Works (STT → LLM → TTS)](https://www.retellai.com/blog/how-real-time-voice-ai-works-stt-llm-tts)

AI Agent Observability 2026: Làm Sao Biết Agent Chạy Đúng?

Định danh AI Agent 2026: Xác thực & Phân quyền cho Tác nhân

Disclaimer: The opinions expressed in this blog are solely my own and do not reflect the views or opinions of my employer or any affiliated organizations. The content provided is for informational and educational purposes only and should not be taken as professional advice. While I strive to provide accurate and up-to-date information, I make no warranties or guarantees about the completeness, reliability, or accuracy of the content. Readers are encouraged to verify the information and seek independent advice as needed. I disclaim any liability for decisions or actions taken based on the content of this blog.