Redis 8 Vector Sets 2026 - Kiến trúc Native Vector Search với HNSW, Quantization Q8/BIN và Hybrid Filter cho Multi-Agent AI

Posted on: 4/14/2026 10:11:33 PM

Table of contents

1. Vì sao Vector Set là một cột mốc kiến trúc cho Redis
1. Một phép so sánh đơn giản
2. Mô hình dữ liệu bên trong một Vector Set
3. HNSW nằm ở lõi — hiểu để điều chỉnh đúng
1. Quy tắc ngón cái
4. Quantization — bí quyết để Redis phục vụ hàng chục triệu vector trong RAM
1. Bẫy thường gặp với BIN
5. Bộ lệnh cốt lõi — từ VADD đến VSIM
6. Mô hình luồng — VSIM threaded, VADD single-thread
7. Kiến trúc multi-agent với Redis 8 Vector Set và ClickHouse
8. Hybrid filter — nơi Vector Set vượt xa vector DB truyền thống
1. Mẹo tối ưu
9. Semantic cache cho LLM agent — use case "killer" của Vector Set
10. ClickHouse làm lớp observability cho Vector Set
1. Drift detection cho embedding
11. Persistence và replication — Vector Set chơi cùng AOF/RDB
12. So sánh với các vector engine khác
13. Migration từ RediSearch FT.VECTOR sang Vector Set
1. Đừng quên đo bộ nhớ
14. Checklist trước khi đẩy Vector Set vào production
15. Tổng kết
Nguồn tham khảo

Trong gần một thập kỷ, Redis là đồng nghĩa với cache key-value siêu nhanh. Nhưng từ giữa năm 2025, cùng với bản phát hành chính thức của Redis 8, một "loại dữ liệu nguyên bản" mới đã âm thầm thay đổi vai trò của Redis trong kiến trúc AI: Vector Set. Đây không phải là một module bên ngoài như RediSearch ngày xưa, cũng không phải là một index phụ trợ — đó là một data type bậc nhất, được đặt cạnh STRING, HASH, STREAM và SORTED SET. Với các lệnh VADD/VSIM/VEMB, HNSW graph được cài vào tận lõi server, quantization int8 và binary mặc định, Vector Set biến một cụm Redis có sẵn thành tầng retrieval năng suất cao cho multi-agent — không cần thêm Milvus, không cần thêm pgvector, không phải chạy song song hai cluster. Bài viết này đi sâu vào kiến trúc bên trong của Vector Set, cách dùng nó làm "xương sống" cho pipeline agent retrieval, cách kết hợp với ClickHouse cho observability và các pattern production mà đội ngũ engineering nên biết năm 2026.

50K+VSIM queries/giây trên tập 3M vector 300 chiều (int8)

8xGiảm bộ nhớ so với float32 khi bật Q8 quantization mặc định

32xGiảm bộ nhớ khi bật BIN quantization (đổi lấy một phần recall)

<1msĐộ trễ end-to-end điển hình cho top-K retrieval trong agent pipeline

1. Vì sao Vector Set là một cột mốc kiến trúc cho Redis

Trước Redis 8, muốn tìm kiếm vector trong Redis ta phải dùng module RediSearch với lệnh FT.CREATE ... VECTOR HNSW .... Cách làm này hoạt động tốt, nhưng có ba điểm đau đầu: nó là một module riêng có license không giống Redis core, nó tái sử dụng cú pháp FT dành cho full-text search (vốn khá phức tạp), và nó coi vector như một field bên trong hash/JSON — buộc client phải biết cấu trúc tài liệu. Với một hệ thống AI cần retrieval ở mọi ngóc ngách, những điều này đủ để khiến team phải nghĩ tới việc bê cả một vector database riêng vào stack.

Redis 8 đáp lại bằng một thiết kế khác hẳn: Vector Set là một data type mới, độc lập, thuộc lõi Redis. Không có module, không cần kích hoạt, không cần index phụ. Về mặt mental model, nó giống như một SET quen thuộc — tập các phần tử không trùng lặp — nhưng thay vì so sánh bằng chuỗi, các phần tử được liên kết với một vector nhiều chiều và tập hỗ trợ tìm kiếm theo độ tương đồng. Mọi lệnh V* (VADD, VSIM, VEMB, VCARD, VREM...) hoạt động ngay trên key của Vector Set, giống như LPUSH/LRANGE hoạt động trên LIST.

Một phép so sánh đơn giản

Với SET, ta có SADD users:active alice bob rồi SMEMBERS users:active. Với Vector Set, ta có VADD embeddings:docs VALUES 1536 0.01 0.02 ... doc:42 rồi VSIM embeddings:docs VALUES 1536 0.01 0.03 ... COUNT 10. Không còn schema, không còn "field", không còn nghĩ tới chỉ mục. Vector Set là index.

2. Mô hình dữ liệu bên trong một Vector Set

Mặc dù nhìn từ ngoài rất đơn giản, bên trong một Vector Set là một cấu trúc khá tinh vi. Mỗi key chứa ba thành phần phối hợp với nhau:

graph TB
    VS["Vector Set
key: embeddings:docs"] --> HNSW["HNSW Graph
multi-layer navigable index"]
    VS --> Store["Quantized Vector Store
int8 / binary / f32"]
    VS --> Attrs["Element Attributes
JSON metadata cho hybrid filter"]
    HNSW --> L0["Layer 0
tập đầy đủ các element"]
    HNSW --> L1["Layer 1
~1/M element"]
    HNSW --> L2["Layer 2+
càng lên càng thưa"]
    Store --> Q8["Q8: 1 byte/chiều
default, 8x nhẹ hơn f32"]
    Store --> BIN["BIN: 1 bit/chiều
32x nhẹ, hạ một phần recall"]
    Store --> NQ["NOQUANT: float32
full precision"]
    Attrs --> Filt["VSIM ... FILTER
biểu thức so sánh metadata"]
    style VS fill:#e94560,stroke:#fff,color:#fff
    style HNSW fill:#0f3460,stroke:#fff,color:#fff
    style Store fill:#0f3460,stroke:#fff,color:#fff
    style Attrs fill:#0f3460,stroke:#fff,color:#fff

Ba thành phần này được thiết kế để tối ưu cho workload AI: HNSW graph cho tìm kiếm k-NN tương đồng, vector store lượng tử hóa để giảm RAM, và attribute store để lọc metadata ngay trong lúc tìm. Khác với một số vector DB truyền thống phải gọi về "truy vấn hậu kiểm" — lấy top-K rồi lọc — Vector Set của Redis hỗ trợ filter expression được đánh giá trong quá trình duyệt đồ thị, tránh được hiện tượng "lọc xong còn 0 kết quả" khi điều kiện quá chặt.

3. HNSW nằm ở lõi — hiểu để điều chỉnh đúng

HNSW (Hierarchical Navigable Small World) là thuật toán graph đang thống trị gần như toàn bộ hệ thống tìm kiếm vector production. Ý tưởng cốt lõi rất thanh lịch: xây một chồng nhiều tầng đồ thị, tầng trên cùng chỉ chứa một phần nhỏ các điểm và có liên kết "xa", các tầng dưới càng lúc càng dày. Khi tìm kiếm, ta xuất phát từ tầng cao nhất để "nhảy xa" tới vùng tương đồng, rồi dần xuống các tầng thấp để tinh chỉnh kết quả. Đây là lý do HNSW đạt latency gần như hằng số ngay cả trên tập dữ liệu hàng triệu vector.

Redis 8 mở ra hai tham số then chốt của HNSW ngay trên VADD:

VADD embeddings:docs VALUES 1536 0.01 0.02 ... doc:42 M 32 EF 600

M — số kết nối tối đa mỗi node có trong đồ thị. Mặc định 16. Tăng M sẽ cải thiện recall nhưng tăng bộ nhớ và thời gian chèn. Khoảng thực dụng: 16-64 cho hầu hết các workload; 64+ chỉ khi recall là yêu cầu khắt khe (pháp luật, y tế).
EF (build) — kích thước danh sách candidate khi xây đồ thị. Mặc định 200. EF cao làm đồ thị "sạch" hơn, tìm kiếm sau này nhanh hơn ở cùng recall. Đổi lại thời gian VADD chậm đi. Khoảng thực dụng: 200-800.
EF (query) — truyền qua VSIM ... EF 400, quyết định mức độ "tham lam" lúc tìm kiếm. Đây là nút vặn runtime chính để đánh đổi tốc độ và độ chính xác.

Quy tắc ngón cái

Nếu không chắc, bắt đầu với M=16, EF_BUILD=200 cho giai đoạn ingest, và điều chỉnh EF_QUERY lúc runtime theo độ quan trọng của request. Với các bài toán retrieval đơn giản (FAQ, semantic cache), EF=100 thường đủ. Với các agent cần recall cao (legal, medical, code search), nâng lên 400-800. Luôn đo recall thực tế trên một tập ground truth nhỏ trước khi quyết định.

4. Quantization — bí quyết để Redis phục vụ hàng chục triệu vector trong RAM

Điểm quyết định về kinh tế của Vector Set nằm ở bước lượng tử hóa. Một vector 1536 chiều (chuẩn text-embedding-3-small của OpenAI) ở định dạng float32 chiếm 6144 byte — tức 6 KB cho mỗi mẩu dữ liệu. Một tập 10 triệu vector ngốn 60 GB RAM chỉ tính riêng vector, chưa kể đồ thị HNSW. Không cluster Redis nào muốn chịu chi phí đó.

Redis 8 giải quyết bằng ba chế độ lượng tử hóa, chọn ngay lúc VADD:

Chế độ	Bit mỗi chiều	Kích thước tương đối	Tác động recall	Khi nào dùng
Q8 (mặc định)	8 bit signed	1x	Gần như không mất recall với embedding chuẩn	Hầu hết mọi trường hợp production — đây là lựa chọn "an toàn và tiết kiệm"
NOQUANT	32 bit float	4x	Không	Benchmark, debug, hoặc embedding được biết là nhạy cảm với sai số (e.g. distance rất gần nhau)
BIN (binary)	1 bit mỗi chiều	1/8x của Q8, 1/32x của float32	Giảm recall rõ, có thể bù bằng re-ranking top-K với vector gốc	Tập dữ liệu rất lớn (>100M), latency cực thấp, kết hợp two-stage search

Cách Q8 đạt được "gần không mất recall" là ở chỗ Redis tự động tính scale factor tối ưu cho mỗi vector, bảo toàn khoảng động (dynamic range) thay vì clip đơn thuần. Các embedding hiện đại (OpenAI, Cohere, BGE) có phân phối giá trị chuẩn hóa tốt nên Q8 thường chỉ khiến cosine similarity sai lệch vài phần nghìn — nằm trong sai số đo lường của chính mô hình.

BIN thú vị theo cách khác. Thay vì giữ giá trị thật, nó chỉ ghi "dấu" của mỗi chiều (1 nếu dương, 0 nếu âm). Khoảng cách Hamming trên vector nhị phân trở thành proxy cho khoảng cách cosine trên vector gốc. Đây là kỹ thuật tương tự các hệ thống tìm kiếm ảnh quy mô lớn. Với một cluster agent phải giữ 500 triệu embedding đoạn code, BIN có thể là cửa ngõ duy nhất khả thi — và kết hợp với re-ranking top-K bằng vector gốc (lưu riêng trong S3 hoặc trong một Vector Set Q8 thứ hai) vẫn có thể đạt recall đủ cho production.

Bẫy thường gặp với BIN

Nhiều team thử BIN lần đầu trên 1 triệu vector, thấy recall giảm 20% và kết luận "không dùng được". Vấn đề thường không nằm ở BIN mà ở chỗ không có re-ranking. Pattern đúng là: VSIM với COUNT = 200 trên Vector Set BIN để "lọc thô", rồi re-rank 200 ứng viên bằng cosine trên vector gốc full precision. Cách này giữ latency dưới 3 ms mà recall vẫn bám sát top-K của full precision search.

5. Bộ lệnh cốt lõi — từ VADD đến VSIM

Bộ lệnh V* của Redis 8 nhỏ gọn một cách có chủ ý. Các command quan trọng nhất gói lại như sau:

# Thêm một vector với metadata
VADD embeddings:docs VALUES 1536 0.12 -0.08 ... doc:42 \
    SETATTR '{"lang":"vi","type":"article","ts":1728345600}'

# Tìm top-10 tương đồng từ một vector truy vấn
VSIM embeddings:docs VALUES 1536 0.14 -0.05 ... COUNT 10 WITHSCORES

# Tìm tương đồng trực tiếp theo ELE (không cần truyền vector lại)
VSIM embeddings:docs ELE doc:42 COUNT 20

# Hybrid filter: chỉ lấy kết quả có lang=vi và type=article
VSIM embeddings:docs VALUES 1536 ... COUNT 10 \
    FILTER '.lang == "vi" && .type == "article"'

# Ràng buộc độ tham lam lúc query
VSIM embeddings:docs ELE doc:42 COUNT 10 EF 400

# Đọc lại vector đã lưu (dùng khi cần tự re-rank)
VEMB embeddings:docs doc:42

# Xóa phần tử và tự động cập nhật đồ thị
VREM embeddings:docs doc:42

# Thống kê nhanh
VCARD embeddings:docs          # số phần tử
VDIM embeddings:docs           # số chiều của vector trong set
VINFO embeddings:docs          # cấu hình M, EF, quantization

Ba điểm đáng chú ý về mặt API design. Thứ nhất, VSIM cho phép truy vấn theo ELE — tức "tìm những phần tử giống doc:42 nhất". Đây là primitive tuyệt vời cho recommend-similar và cho self-consistency giữa các agent (agent A đề xuất, agent B gọi VSIM ELE để kiểm tra có duplicate không). Thứ hai, FILTER chạy inline — biểu thức so sánh được Redis đánh giá trong lúc duyệt đồ thị HNSW, không phải hậu kiểm. Thứ ba, VEMB trả về vector đã giải lượng tử, cho phép team tự làm re-ranking phía client với full precision khi cần.

6. Mô hình luồng — VSIM threaded, VADD single-thread

Redis vốn nổi tiếng là single-threaded cho command execution. Với Vector Set, thiết kế này được nới một cách tinh tế: VSIM được Redis chạy trên thread phụ mặc định, trong khi VADD thì không. Lý do đơn giản nhưng quan trọng: VSIM là thao tác chỉ-đọc trên đồ thị HNSW đã ổn định — an toàn để chạy song song với các command khác, vì không có ghi. VADD thì khác: chèn một node mới đòi hỏi cập nhật nhiều cạnh trên đồ thị, và việc cho phép nhiều VADD song song trên cùng key sẽ mở ra cửa cho race condition khó gỡ.

graph LR
    Client1["Client: VSIM"] --> MainLoop["Main Redis loop"]
    Client2["Client: GET key"] --> MainLoop
    Client3["Client: VADD"] --> MainLoop
    MainLoop -->|"offload"| Worker1["Worker thread 1
VSIM execution"]
    MainLoop -->|"offload"| Worker2["Worker thread 2
VSIM execution"]
    MainLoop -->|"inline"| Inline["GET / VADD / LPUSH
chạy trong main loop"]
    Worker1 --> Reply["Reply queue"]
    Worker2 --> Reply
    Inline --> Reply
    Reply --> MainLoop
    style MainLoop fill:#e94560,stroke:#fff,color:#fff
    style Worker1 fill:#4CAF50,stroke:#fff,color:#fff
    style Worker2 fill:#4CAF50,stroke:#fff,color:#fff

Tác động thực tế: một Redis node có thể xử lý ~50,000 VSIM mỗi giây trên tập 3 triệu vector 300 chiều, trong khi main loop vẫn sẵn sàng phục vụ GET/SET với độ trễ dưới 1 ms. Ngược lại, tốc độ VADD bị giới hạn ở mức vài nghìn insertion/giây trên một node — đủ cho hầu hết workload mà throughput đọc vượt trội throughput ghi, nhưng cần chú ý nếu pipeline ingest đòi hỏi bulk load. Với bulk load lớn, pattern đúng là VADD có flag CAS để chia việc cho worker thread, hoặc shard Vector Set thành nhiều key theo tenant/partition và ingest song song.

7. Kiến trúc multi-agent với Redis 8 Vector Set và ClickHouse

Phần này là xương sống thực tiễn. Giả sử ta đang xây một hệ thống multi-agent phục vụ ba chức năng: trợ lý code (semantic search repo), agent tra cứu tri thức (long-term memory), và orchestrator duyệt tool (MCP tool selection bằng embedding). Thay vì ba hệ thống vector DB riêng, ta gom tất cả vào một cluster Redis 8 với nhiều Vector Set theo namespace, và dùng ClickHouse làm tầng observability song hành.

graph TB
    User["User request"] --> GW["LLM Gateway"]
    GW --> Plan["Planner Agent"]
    Plan --> TR["Tool Router
VSIM embeddings:tools"]
    Plan --> MR["Memory Retriever
VSIM embeddings:memory"]
    Plan --> CR["Code Search Agent
VSIM embeddings:code"]
    TR --> Redis["Redis 8 Cluster
Vector Sets"]
    MR --> Redis
    CR --> Redis
    Redis --> Exe["Executor Agent"]
    Exe --> Ans["Response"]
    Plan -.->|"retrieval traces"| CH["ClickHouse
vector search analytics"]
    Exe -.->|"agent outputs"| CH
    Redis -.->|"cmd stats, EF, cache"| CH
    style Redis fill:#e94560,stroke:#fff,color:#fff
    style Ans fill:#4CAF50,stroke:#fff,color:#fff
    style CH fill:#f39c12,stroke:#fff,color:#fff

Mỗi Vector Set phục vụ một "tập tri thức" với đặc điểm tối ưu riêng:

Vector Set	Nguồn embedding	Quantization	M / EF_BUILD	Pattern truy vấn
`embeddings:tools`	Mô tả tool MCP (ngắn, ~200 token)	Q8	16 / 200	VSIM top-5 với FILTER theo scope, recall ưu tiên hơn tốc độ
`embeddings:memory:{user}`	Conversation turn, note, bookmark	Q8	24 / 300	VSIM top-20 với FILTER theo thời gian, re-rank theo recency
`embeddings:code`	Hàm, class, chunk file	BIN + re-rank bằng Q8	32 / 500	VSIM top-200 BIN → re-rank top-20 bằng VEMB + cosine
`embeddings:cache:llm`	Prompt đã trả lời	Q8	16 / 200	VSIM top-1 với threshold 0.92 cho semantic cache

Điểm mạnh của cách tổ chức này là mọi agent chỉ cần một TCP connection tới Redis và truy vấn namespace khác nhau. Latency retrieval ở cuối chuỗi thường dưới 2 ms cho top-10, bao gồm cả FILTER hybrid. Khi cluster cần scale, ta shard theo key (Redis Cluster tự động hash slot) hoặc theo tenant (namespace embeddings:memory:{user} phân bố đều qua các master).

8. Hybrid filter — nơi Vector Set vượt xa vector DB truyền thống

Một trong những vấn đề đau đầu kinh điển của k-NN search là "sau khi lấy top-K thì áp filter mới biết không kết quả nào thỏa". Nhiều vector DB giải bằng cách tăng K lên rất lớn và lọc hậu kiểm, nhưng hiệu năng sụp đổ nhanh khi điều kiện lọc quá hẹp. Redis 8 Vector Set thiết kế filter theo hướng khác: biểu thức FILTER được đánh giá trực tiếp trong vòng lặp HNSW, một node chỉ được thêm vào candidate list khi nó vừa tương đồng cao vừa thỏa filter.

Cú pháp biểu thức rất gần gũi với JavaScript/JSON path:

# Metadata JSON được lưu qua SETATTR lúc VADD hoặc VSETATTR sau này
VSETATTR embeddings:docs doc:42 '{"lang":"vi","score":87,"tags":["ai","redis"]}'

# Lọc bằng biểu thức boolean
VSIM embeddings:docs ELE q:12345 COUNT 10 \
    FILTER '.lang == "vi" && .score > 80 && contains(.tags, "redis")'

# So sánh số, so sánh chuỗi, kết hợp AND/OR/NOT
VSIM embeddings:docs VALUES 1536 ... COUNT 10 \
    FILTER '(.type == "article" || .type == "guide") && .ts > 1728345600'

Ba lợi ích thực tế. Thứ nhất, không cần pre-filter rồi re-query — hầu hết business rules (multi-tenancy, date range, content type) được gom vào một call duy nhất. Thứ hai, không bao giờ bị "zero result" do filter quá chặt — engine sẽ tiếp tục duyệt đồ thị cho tới khi đủ K kết quả thỏa hoặc EF candidates cạn, đảm bảo recall tối đa có thể. Thứ ba, filter không phá vỡ cache hit ratio của HNSW vì nó gắn vào cùng pass duyệt.

Mẹo tối ưu

Khi filter rất chọn lọc (ví dụ .tenant_id == 'acme-42' và tenant này chỉ có 0.1% dữ liệu), hãy cân nhắc tách Vector Set theo tenant (embeddings:docs:acme-42). Cách này để HNSW chỉ phải duyệt đúng không gian cần thiết và thường nhanh hơn filter inline một bậc. Ngược lại, với filter ít chọn lọc (ngôn ngữ, ngày tháng rộng) thì inline filter gọn hơn và dễ bảo trì hơn.

9. Semantic cache cho LLM agent — use case "killer" của Vector Set

Trong số mọi ứng dụng, semantic cache có lẽ là trường hợp Vector Set mang lại ROI rõ nhất. Mô hình rất đơn giản: mỗi lần agent trả lời một prompt, ta tính embedding của prompt đó và lưu cặp (embedding, response) vào Vector Set. Khi có prompt mới tới, VSIM top-1; nếu độ tương đồng > threshold (ví dụ 0.93), trả luôn response đã cache. Không còn tốn token, không còn đợi Claude suy nghĩ.

import redis
from openai import OpenAI

r = redis.Redis(host='redis-agent', port=6379, decode_responses=True)
ai = OpenAI()

SIM_THRESHOLD = 0.93
CACHE_KEY = "embeddings:cache:llm"

def get_embedding(text: str) -> list[float]:
    return ai.embeddings.create(
        model="text-embedding-3-small",
        input=text,
    ).data[0].embedding

def answer_with_cache(prompt: str, tenant: str) -> str:
    emb = get_embedding(prompt)
    # Tìm câu đã trả lời gần nhất trong tenant hiện tại
    pipe = r.pipeline()
    pipe.execute_command(
        "VSIM", CACHE_KEY, "VALUES", len(emb), *map(str, emb),
        "COUNT", 1, "WITHSCORES",
        "FILTER", f'.tenant == "{tenant}"'
    )
    hit = pipe.execute()[0]
    if hit and float(hit[1]) >= SIM_THRESHOLD:
        entry_id = hit[0]
        return r.hget(f"llm:answer:{entry_id}", "text")
    # Miss → gọi LLM thật
    response = ai.chat.completions.create(
        model="claude-opus-4-6",
        messages=[{"role": "user", "content": prompt}],
    ).choices[0].message.content
    # Ghi vào cache để lần sau tái sử dụng
    entry_id = f"hit:{hash(prompt)}"
    r.hset(f"llm:answer:{entry_id}", mapping={"text": response, "prompt": prompt})
    r.execute_command(
        "VADD", CACHE_KEY, "VALUES", len(emb), *map(str, emb), entry_id,
        "SETATTR", f'{{"tenant":"{tenant}","ts":{int(time.time())}}}'
    )
    return response

Trong workload thực tế — giả sử 30-40% request có câu hỏi gần tương đương (một điều rất phổ biến với chat-bot nội bộ, trợ lý customer service, code review bot) — semantic cache cắt giảm gần một phần ba chi phí LLM mà độ trễ trả lời hit giảm xuống còn vài mili-giây. Đây là một trong những cách rẻ nhất và an toàn nhất để tối ưu stack AI năm 2026, và Vector Set biến nó thành chuyện của 30 dòng code.

10. ClickHouse làm lớp observability cho Vector Set

Redis không được thiết kế để kể lại lịch sử truy vấn. Một trường hợp điển hình: team phát hiện recall retrieval của agent xuống dần theo thời gian, nhưng không có dữ liệu để trả lời "khi nào tụt, VSIM nào tụt, prompt nào tụt". Giải pháp kiến trúc tiêu chuẩn năm 2026 là đồng hành Redis với ClickHouse.

Pipeline logging ngắn gọn: mỗi lần agent gọi VSIM, ghi một event vào Redis Stream; một consumer push batch vào ClickHouse qua Kafka Engine. Schema điển hình:

CREATE TABLE vsearch_events (
    ts              DateTime64(3),
    request_id      String,
    tenant_id       LowCardinality(String),
    vector_set      LowCardinality(String),  -- 'embeddings:tools', 'embeddings:memory'
    agent_id        LowCardinality(String),
    query_hash      UInt64,
    filter_expr     String,
    count_requested UInt16,
    count_returned  UInt16,
    top_score       Float32,
    latency_ms      UInt32,
    cache_hit       UInt8,
    ef_query        UInt16,
    quantization    LowCardinality(String),  -- 'Q8', 'BIN', 'NOQUANT'
    embedding_model LowCardinality(String)
)
ENGINE = MergeTree
PARTITION BY toYYYYMM(ts)
ORDER BY (tenant_id, vector_set, ts)
TTL ts + INTERVAL 60 DAY;

Với bảng này, hàng loạt câu hỏi quan trọng đều trả lời được trong vài trăm mili-giây ngay trên tỉ dòng dữ liệu. Recall theo vector set nào đang sụt trong 7 ngày qua? Filter nào đang dẫn tới count_returned < count_requested? Tenant nào gọi VSIM với EF cao bất thường? Độ trễ p99 của embeddings:memory có tăng sau khi scale lên 10M element không? Một AggregatingMergeTree materialized view kể lại các chỉ số này theo phút sẽ cho dashboard Grafana quét 30 ngày chỉ trong vài chục mili-giây.

Drift detection cho embedding

ClickHouse còn là nơi lý tưởng để phát hiện embedding drift: lưu trung bình top_score theo tenant/vector_set theo ngày, và cảnh báo khi phân phối lệch quá 2 độ lệch chuẩn so với tuần trước. Drift thường xảy ra khi domain thay đổi (ví dụ khách hàng mới mang phong cách prompt khác) hoặc model embedding bị lên version. Phát hiện sớm giúp team kịp retrain hoặc rebuild Vector Set thay vì đợi người dùng phàn nàn.

11. Persistence và replication — Vector Set chơi cùng AOF/RDB

Một câu hỏi sống còn cho bất kỳ data type mới nào trong Redis: nó có được ghi xuống đĩa và nhân bản đúng không? Vector Set được thiết kế để hoạt động trong suốt với toàn bộ hệ sinh thái persistence sẵn có của Redis. Cụ thể:

AOF (Append Only File): Mỗi VADD/VREM/VSETATTR được ghi lại dưới dạng command. Khi Redis restart, toàn bộ đồ thị HNSW được dựng lại từ các VADD tuần tự. Lợi ích: không có trạng thái "ẩn", dễ debug. Nhược điểm: rebuild có thể mất vài phút với tập hàng triệu phần tử — hãy đo trước khi đưa lên production.
RDB (snapshot): Redis serialise đồ thị HNSW cùng vector store vào file nhị phân. Restart nhanh hơn AOF rất nhiều vì không phải dựng lại đồ thị. Hãy dùng RDB cho các Vector Set lớn, kết hợp AOF nhỏ cho các data type khác nếu cần độ bền cao.
Replication: Master gửi stream command V* sang replica. Replica áp dụng tuần tự và giữ bản sao đồng bộ. Vì VSIM chỉ đọc, replica có thể chia tải đọc rất hiệu quả — pattern phổ biến là 1 master cho ghi, 3-5 replica cho VSIM.
Redis Cluster: Vector Set tuân theo hash slot như mọi key khác. Thiết kế key với hashtag (embeddings:memory:{user42}) để toàn bộ memory của một user nằm cùng slot — tránh cross-slot query.

12. So sánh với các vector engine khác

Vector Set không sinh ra trong chân không. Năm 2026, team engineering thường cân đo giữa Redis 8 Vector Set, pgvector, Milvus, Qdrant và Weaviate. Bảng dưới gom lại những khác biệt then chốt:

Tiêu chí	Redis 8 Vector Set	pgvector	Milvus / Qdrant
Kiểu hệ thống	In-memory KV + native vector	Extension cho PostgreSQL	Vector DB chuyên dụng
Latency top-10 trên 1M vector	<1 ms (RAM)	5-50 ms (tùy IVFFlat/HNSW)	1-5 ms
Quantization tích hợp	Q8 mặc định, BIN, NOQUANT	Hạn chế, chủ yếu qua halfvec	Có (PQ, SQ, BQ)
Hybrid filter	Inline trong HNSW traversal	Joinable với SQL WHERE	Inline, phong phú
Tích hợp caching	Cùng cluster với KV cache	Cần Redis riêng	Cần Redis riêng
Operational cost cho team nhỏ	Thấp — chỉ 1 cluster	Thấp nếu đã có Postgres	Trung bình — 1 stack riêng
Phù hợp nhất cho	Agent retrieval, semantic cache, short-term memory	Dữ liệu đã nằm trong Postgres, JOIN phức tạp	Kho vector rất lớn, truy vấn hình ảnh/âm thanh

Kết luận ngắn: Redis 8 Vector Set không cố gắng thay thế mọi vector DB. Nó đánh vào một sweet spot — retrieval latency cực thấp, nằm cùng nơi với cache key-value, tích hợp sâu với stack multi-agent đang dùng Redis. Nếu dự án của bạn đã có một cluster Redis hoạt động tốt, và nhu cầu vector hiện ở mức vài chục triệu phần tử, thêm Vector Set là nước cờ tiết kiệm nhất. Nếu kho vector vượt vài trăm triệu hoặc cần truy vấn cross-modal phức tạp, một vector DB chuyên dụng vẫn là lựa chọn đúng — và Vector Set có thể giữ vai trò cache tầng trên.

13. Migration từ RediSearch FT.VECTOR sang Vector Set

Nhiều team đang có RediSearch chạy ổn định với FT.CREATE ... VECTOR HNSW, và câu hỏi tự nhiên: có nên di cư sang Vector Set? Trả lời phụ thuộc vào ba yếu tố:

Nếu bạn chỉ dùng RediSearch cho vector, không dùng full-text: Migration có lợi rõ. Cú pháp gọn hơn, ít lệnh hơn, tính năng quantization đầy đủ hơn. Kế hoạch: viết một job dual-write (ghi vào cả FT và Vector Set) trong vài ngày, quan sát kết quả song song, rồi switch đọc khi đã tin tưởng.
Nếu bạn kết hợp vector với full-text tagging trong cùng một FT index: Hãy giữ RediSearch. Vector Set không làm full-text; nó chỉ làm vector similarity + JSON filter. Đừng ép nó làm cái nó không thiết kế cho.
Nếu bạn đang mới bắt đầu: Khả năng cao nên dùng Vector Set. Đó là lựa chọn có tương lai dài hạn vì nó nằm trong core của Redis, không phụ thuộc module.

Đừng quên đo bộ nhớ

Q8 mặc định có thể khiến Vector Set nhẹ hơn đáng kể so với FT.VECTOR float32, nhưng hãy đo ngay trên dữ liệu thật. VINFO trả ra kích thước thực tế của đồ thị và store. So sánh với FT.INFO bên cũ rồi nhân với số shard để tính nhu cầu RAM toàn cluster. Tiết kiệm bộ nhớ là lý do kỹ thuật lớn nhất cho migration, nên con số này cần chắc chắn trước khi quyết định.

14. Checklist trước khi đẩy Vector Set vào production

Gom lại các kinh nghiệm ở trên thành danh sách kiểm tra trước khi release cho đội engineering:

Đã quyết định dùng Q8, BIN hay NOQUANT — dựa trên kết quả đo recall trên ground truth thực tế, không phải theo mặc định hay trực giác.
Đã chọn M và EF_BUILD phù hợp với kích thước dataset dự kiến 6 tháng tới (không phải dataset hiện tại).
Đã thử VSIM trên replica thay vì trên master để chia tải đọc.
Đã kiểm tra thời gian restart worst-case sau AOF/RDB trên dataset đầy đủ — biết con số này bằng giây.
Đã chuẩn bị dashboard ClickHouse theo dõi latency, recall proxy (top_score), hit rate semantic cache.
Đã có cơ chế rebuild Vector Set khi model embedding thay đổi phiên bản — thường là dual-write sang key mới, cutover.
Đã shard theo tenant hoặc namespace nếu có multi-tenancy, tránh cross-tenant leak qua hybrid filter.
Đã đặt maxmemory policy phù hợp — Vector Set rất thân thiện với eviction vì mỗi phần tử là một entity hoàn chỉnh.

15. Tổng kết

Redis 8 Vector Set không phải một tính năng nhỏ. Nó là thông điệp kiến trúc: retrieval vector đã trở thành primitive đủ phổ biến để xứng đáng được đưa vào lõi của một hệ cache phổ dụng, không còn là đặc quyền của các vector DB chuyên biệt. Với HNSW nằm trong core, Q8 quantization mặc định, hybrid filter inline và độ trễ sub-milli, nó biến một cluster Redis sẵn có thành nền tảng retrieval năng suất cao cho multi-agent — mà không phải thêm một hệ thống nào.

Điểm đáng giá nhất về mặt vận hành là cách Vector Set hòa với phần còn lại của hệ sinh thái: persistence, replication, cluster, observability qua ClickHouse, semantic cache cho LLM, Redis Stream cho message bus, Sorted Set cho re-ranking. Mỗi mảnh đều đã có ở đó; Vector Set chỉ đóng nốt mảng cuối cùng. Với đội engineering đang xây agent AI trong năm 2026, câu hỏi không còn là "nên dùng vector DB nào" mà là "mảng nào trong stack AI hiện tại có thể nhẹ đi nếu đẩy vào Vector Set?". Và trong nhiều trường hợp, câu trả lời là: rất nhiều.

Nguồn tham khảo

Redis Documentation, Vector Sets — overview and data type — redis.io/docs/latest/develop/data-types/vector-sets
Redis Commands, VADD reference — redis.io/docs/latest/commands/vadd
Redis Commands, VSIM reference — redis.io/docs/latest/commands/vsim
Redis Vector Sets, Performance characteristics — redis.io/docs/latest/develop/data-types/vector-sets/performance
Redis GitHub, modules/vector-sets README (8.2.3) — github.com/redis/redis vector-sets README
Redis Blog, A guide to vector indexes in Redis — redis.io/blog/vector-indexes-in-redis
antirez, Vector Search and AI Patterns — redis.antirez.com vector-search-ai
Malkov & Yashunin, Efficient and robust approximate nearest neighbor search using Hierarchical Navigable Small World graphs, 2018 — arxiv.org/abs/1603.09320

#Multi-Agent #Vector Database #ClickHouse #Agent Memory #AI Architecture #redis #Redis 8 #Vector Set #HNSW #Quantization #Semantic Cache #Hybrid Filter

# Redis 8 Vector Sets 2026 - Kiến trúc Native Vector Search với HNSW, Quantization Q8/BIN và Hybrid Filter cho Multi-Agent AI

Trong gần một thập kỷ, Redis là đồng nghĩa với *cache key-value* siêu nhanh. Nhưng từ giữa năm 2025, cùng với bản phát hành chính thức của Redis 8, một "loại dữ liệu nguyên bản" mới đã âm thầm thay đổi vai trò của Redis trong kiến trúc AI: **Vector Set**. Đây không phải là một module bên ngoài như *RediSearch* ngày xưa, cũng không phải là một index phụ trợ — đó là một data type bậc nhất, được đặt cạnh STRING, HASH, STREAM và SORTED SET. Với các lệnh VADD/VSIM/VEMB, HNSW graph được cài vào tận lõi server, quantization int8 và binary mặc định, Vector Set biến một cụm Redis có sẵn thành tầng retrieval năng suất cao cho multi-agent — không cần thêm Milvus, không cần thêm pgvector, không phải chạy song song hai cluster. Bài viết này đi sâu vào kiến trúc bên trong của Vector Set, cách dùng nó làm "xương sống" cho pipeline agent retrieval, cách kết hợp với ClickHouse cho observability và các pattern production mà đội ngũ engineering nên biết năm 2026.

50K+VSIM queries/giây trên tập 3M vector 300 chiều (int8)

8xGiảm bộ nhớ so với float32 khi bật Q8 quantization mặc định

32xGiảm bộ nhớ khi bật BIN quantization (đổi lấy một phần recall)

<1msĐộ trễ end-to-end điển hình cho top-K retrieval trong agent pipeline

## 1. Vì sao Vector Set là một cột mốc kiến trúc cho Redis

Trước Redis 8, muốn tìm kiếm vector trong Redis ta phải dùng module *RediSearch* với lệnh `FT.CREATE ... VECTOR HNSW ...`. Cách làm này hoạt động tốt, nhưng có ba điểm đau đầu: nó là một module riêng có license không giống Redis core, nó tái sử dụng cú pháp FT dành cho full-text search (vốn khá phức tạp), và nó coi vector như một field bên trong hash/JSON — buộc client phải biết cấu trúc tài liệu. Với một hệ thống AI cần retrieval ở mọi ngóc ngách, những điều này đủ để khiến team phải nghĩ tới việc bê cả một vector database riêng vào stack.

Redis 8 đáp lại bằng một thiết kế khác hẳn: **Vector Set là một data type mới, độc lập, thuộc lõi Redis**. Không có module, không cần kích hoạt, không cần index phụ. Về mặt mental model, nó giống như một *SET* quen thuộc — tập các phần tử không trùng lặp — nhưng thay vì so sánh bằng chuỗi, các phần tử được liên kết với một vector nhiều chiều và tập hỗ trợ tìm kiếm theo độ tương đồng. Mọi lệnh V* (VADD, VSIM, VEMB, VCARD, VREM...) hoạt động ngay trên key của Vector Set, giống như LPUSH/LRANGE hoạt động trên LIST.

#### Một phép so sánh đơn giản

Với SET, ta có `SADD users:active alice bob` rồi `SMEMBERS users:active`. Với Vector Set, ta có `VADD embeddings:docs VALUES 1536 0.01 0.02 ... doc:42` rồi `VSIM embeddings:docs VALUES 1536 0.01 0.03 ... COUNT 10`. Không còn schema, không còn "field", không còn nghĩ tới chỉ mục. Vector Set *là* index.

## 2. Mô hình dữ liệu bên trong một Vector Set

Mặc dù nhìn từ ngoài rất đơn giản, bên trong một Vector Set là một cấu trúc khá tinh vi. Mỗi key chứa ba thành phần phối hợp với nhau:

```
graph TB
    VS["Vector Set  
key: embeddings:docs"] --> HNSW["HNSW Graph  
multi-layer navigable index"]
    VS --> Store["Quantized Vector Store  
int8 / binary / f32"]
    VS --> Attrs["Element Attributes  
JSON metadata cho hybrid filter"]
    HNSW --> L0["Layer 0  
tập đầy đủ các element"]
    HNSW --> L1["Layer 1  
~1/M element"]
    HNSW --> L2["Layer 2+  
càng lên càng thưa"]
    Store --> Q8["Q8: 1 byte/chiều  
default, 8x nhẹ hơn f32"]
    Store --> BIN["BIN: 1 bit/chiều  
32x nhẹ, hạ một phần recall"]
    Store --> NQ["NOQUANT: float32  
full precision"]
    Attrs --> Filt["VSIM ... FILTER  
biểu thức so sánh metadata"]
    style VS fill:#e94560,stroke:#fff,color:#fff
    style HNSW fill:#0f3460,stroke:#fff,color:#fff
    style Store fill:#0f3460,stroke:#fff,color:#fff
    style Attrs fill:#0f3460,stroke:#fff,color:#fff

```

Ba thành phần này được thiết kế để tối ưu cho workload AI: *HNSW graph* cho tìm kiếm k-NN tương đồng, *vector store lượng tử hóa* để giảm RAM, và *attribute store* để lọc metadata ngay trong lúc tìm. Khác với một số vector DB truyền thống phải gọi về "truy vấn hậu kiểm" — lấy top-K rồi lọc — Vector Set của Redis hỗ trợ filter expression được đánh giá *trong quá trình duyệt đồ thị*, tránh được hiện tượng "lọc xong còn 0 kết quả" khi điều kiện quá chặt.

## 3. HNSW nằm ở lõi — hiểu để điều chỉnh đúng

Redis 8 mở ra hai tham số then chốt của HNSW ngay trên VADD:

```bash
VADD embeddings:docs VALUES 1536 0.01 0.02 ... doc:42 M 32 EF 600
```

- **M** — số kết nối tối đa mỗi node có trong đồ thị. Mặc định 16. Tăng M sẽ cải thiện recall nhưng tăng bộ nhớ và thời gian chèn. Khoảng thực dụng: 16-64 cho hầu hết các workload; 64+ chỉ khi recall là yêu cầu khắt khe (pháp luật, y tế).
- **EF (build)** — kích thước danh sách candidate khi xây đồ thị. Mặc định 200. EF cao làm đồ thị "sạch" hơn, tìm kiếm sau này nhanh hơn ở cùng recall. Đổi lại thời gian VADD chậm đi. Khoảng thực dụng: 200-800.
- **EF (query)** — truyền qua `VSIM ... EF 400`, quyết định mức độ "tham lam" lúc tìm kiếm. Đây là nút vặn runtime chính để đánh đổi tốc độ và độ chính xác.

#### Quy tắc ngón cái

Nếu không chắc, bắt đầu với `M=16, EF_BUILD=200` cho giai đoạn ingest, và điều chỉnh `EF_QUERY` lúc runtime theo độ quan trọng của request. Với các bài toán retrieval đơn giản (FAQ, semantic cache), `EF=100` thường đủ. Với các agent cần recall cao (legal, medical, code search), nâng lên 400-800. Luôn đo recall thực tế trên một tập ground truth nhỏ trước khi quyết định.

## 4. Quantization — bí quyết để Redis phục vụ hàng chục triệu vector trong RAM

Redis 8 giải quyết bằng ba chế độ lượng tử hóa, chọn ngay lúc VADD:

| Chế độ | Bit mỗi chiều | Kích thước tương đối | Tác động recall | Khi nào dùng |
| --- | --- | --- | --- | --- |
| **Q8 (mặc định)** | 8 bit signed | 1x | Gần như không mất recall với embedding chuẩn | Hầu hết mọi trường hợp production — đây là lựa chọn "an toàn và tiết kiệm" |
| **NOQUANT** | 32 bit float | 4x | Không | Benchmark, debug, hoặc embedding được biết là nhạy cảm với sai số (e.g. distance rất gần nhau) |
| **BIN (binary)** | 1 bit mỗi chiều | 1/8x của Q8, 1/32x của float32 | Giảm recall rõ, có thể bù bằng re-ranking top-K với vector gốc | Tập dữ liệu rất lớn (>100M), latency cực thấp, kết hợp two-stage search |

#### Bẫy thường gặp với BIN

Nhiều team thử BIN lần đầu trên 1 triệu vector, thấy recall giảm 20% và kết luận "không dùng được". Vấn đề thường không nằm ở BIN mà ở chỗ *không có re-ranking*. Pattern đúng là: VSIM với COUNT = 200 trên Vector Set BIN để "lọc thô", rồi re-rank 200 ứng viên bằng cosine trên vector gốc full precision. Cách này giữ latency dưới 3 ms mà recall vẫn bám sát top-K của full precision search.

## 5. Bộ lệnh cốt lõi — từ VADD đến VSIM

Bộ lệnh V* của Redis 8 nhỏ gọn một cách có chủ ý. Các command quan trọng nhất gói lại như sau:

```bash
# Thêm một vector với metadata
VADD embeddings:docs VALUES 1536 0.12 -0.08 ... doc:42 \
    SETATTR '{"lang":"vi","type":"article","ts":1728345600}'

# Tìm top-10 tương đồng từ một vector truy vấn
VSIM embeddings:docs VALUES 1536 0.14 -0.05 ... COUNT 10 WITHSCORES

# Tìm tương đồng trực tiếp theo ELE (không cần truyền vector lại)
VSIM embeddings:docs ELE doc:42 COUNT 20

# Hybrid filter: chỉ lấy kết quả có lang=vi và type=article
VSIM embeddings:docs VALUES 1536 ... COUNT 10 \
    FILTER '.lang == "vi" && .type == "article"'

# Ràng buộc độ tham lam lúc query
VSIM embeddings:docs ELE doc:42 COUNT 10 EF 400

# Đọc lại vector đã lưu (dùng khi cần tự re-rank)
VEMB embeddings:docs doc:42

# Xóa phần tử và tự động cập nhật đồ thị
VREM embeddings:docs doc:42

# Thống kê nhanh
VCARD embeddings:docs          # số phần tử
VDIM embeddings:docs           # số chiều của vector trong set
VINFO embeddings:docs          # cấu hình M, EF, quantization
```
Ba điểm đáng chú ý về mặt API design. Thứ nhất, **VSIM cho phép truy vấn theo ELE** — tức "tìm những phần tử giống doc:42 nhất". Đây là primitive tuyệt vời cho recommend-similar và cho self-consistency giữa các agent (agent A đề xuất, agent B gọi VSIM ELE để kiểm tra có duplicate không). Thứ hai, **FILTER chạy inline** — biểu thức so sánh được Redis đánh giá trong lúc duyệt đồ thị HNSW, không phải hậu kiểm. Thứ ba, **VEMB trả về vector đã giải lượng tử**, cho phép team tự làm re-ranking phía client với full precision khi cần.

## 6. Mô hình luồng — VSIM threaded, VADD single-thread

Redis vốn nổi tiếng là single-threaded cho command execution. Với Vector Set, thiết kế này được nới một cách tinh tế: **VSIM được Redis chạy trên thread phụ mặc định**, trong khi VADD thì không. Lý do đơn giản nhưng quan trọng: VSIM là thao tác chỉ-đọc trên đồ thị HNSW đã ổn định — an toàn để chạy song song với các command khác, vì không có ghi. VADD thì khác: chèn một node mới đòi hỏi cập nhật nhiều cạnh trên đồ thị, và việc cho phép nhiều VADD song song trên cùng key sẽ mở ra cửa cho race condition khó gỡ.

```
graph LR
    Client1["Client: VSIM"] --> MainLoop["Main Redis loop"]
    Client2["Client: GET key"] --> MainLoop
    Client3["Client: VADD"] --> MainLoop
    MainLoop -->|"offload"| Worker1["Worker thread 1  
VSIM execution"]
    MainLoop -->|"offload"| Worker2["Worker thread 2  
VSIM execution"]
    MainLoop -->|"inline"| Inline["GET / VADD / LPUSH  
chạy trong main loop"]
    Worker1 --> Reply["Reply queue"]
    Worker2 --> Reply
    Inline --> Reply
    Reply --> MainLoop
    style MainLoop fill:#e94560,stroke:#fff,color:#fff
    style Worker1 fill:#4CAF50,stroke:#fff,color:#fff
    style Worker2 fill:#4CAF50,stroke:#fff,color:#fff

```

Tác động thực tế: một Redis node có thể xử lý ~50,000 VSIM mỗi giây trên tập 3 triệu vector 300 chiều, trong khi main loop vẫn sẵn sàng phục vụ GET/SET với độ trễ dưới 1 ms. Ngược lại, tốc độ VADD bị giới hạn ở mức vài nghìn insertion/giây trên một node — đủ cho hầu hết workload mà throughput đọc vượt trội throughput ghi, nhưng cần chú ý nếu pipeline ingest đòi hỏi bulk load. Với bulk load lớn, pattern đúng là **VADD có flag CAS** để chia việc cho worker thread, hoặc shard Vector Set thành nhiều key theo tenant/partition và ingest song song.

## 7. Kiến trúc multi-agent với Redis 8 Vector Set và ClickHouse

```
graph TB
    User["User request"] --> GW["LLM Gateway"]
    GW --> Plan["Planner Agent"]
    Plan --> TR["Tool Router  
VSIM embeddings:tools"]
    Plan --> MR["Memory Retriever  
VSIM embeddings:memory"]
    Plan --> CR["Code Search Agent  
VSIM embeddings:code"]
    TR --> Redis["Redis 8 Cluster  
Vector Sets"]
    MR --> Redis
    CR --> Redis
    Redis --> Exe["Executor Agent"]
    Exe --> Ans["Response"]
    Plan -.->|"retrieval traces"| CH["ClickHouse  
vector search analytics"]
    Exe -.->|"agent outputs"| CH
    Redis -.->|"cmd stats, EF, cache"| CH
    style Redis fill:#e94560,stroke:#fff,color:#fff
    style Ans fill:#4CAF50,stroke:#fff,color:#fff
    style CH fill:#f39c12,stroke:#fff,color:#fff

```

Mỗi Vector Set phục vụ một "tập tri thức" với đặc điểm tối ưu riêng:

| Vector Set | Nguồn embedding | Quantization | M / EF_BUILD | Pattern truy vấn |
| --- | --- | --- | --- | --- |
| `embeddings:tools` | Mô tả tool MCP (ngắn, ~200 token) | Q8 | 16 / 200 | VSIM top-5 với FILTER theo scope, recall ưu tiên hơn tốc độ |
| `embeddings:memory:{user}` | Conversation turn, note, bookmark | Q8 | 24 / 300 | VSIM top-20 với FILTER theo thời gian, re-rank theo recency |
| `embeddings:code` | Hàm, class, chunk file | BIN + re-rank bằng Q8 | 32 / 500 | VSIM top-200 BIN → re-rank top-20 bằng VEMB + cosine |
| `embeddings:cache:llm` | Prompt đã trả lời | Q8 | 16 / 200 | VSIM top-1 với threshold 0.92 cho semantic cache |

Điểm mạnh của cách tổ chức này là *mọi agent chỉ cần một TCP connection tới Redis* và truy vấn namespace khác nhau. Latency retrieval ở cuối chuỗi thường dưới 2 ms cho top-10, bao gồm cả FILTER hybrid. Khi cluster cần scale, ta shard theo key (Redis Cluster tự động hash slot) hoặc theo tenant (namespace `embeddings:memory:{user}` phân bố đều qua các master).

## 8. Hybrid filter — nơi Vector Set vượt xa vector DB truyền thống

Một trong những vấn đề đau đầu kinh điển của k-NN search là "sau khi lấy top-K thì áp filter mới biết không kết quả nào thỏa". Nhiều vector DB giải bằng cách tăng K lên rất lớn và lọc hậu kiểm, nhưng hiệu năng sụp đổ nhanh khi điều kiện lọc quá hẹp. Redis 8 Vector Set thiết kế filter theo hướng khác: **biểu thức FILTER được đánh giá trực tiếp trong vòng lặp HNSW**, một node chỉ được thêm vào candidate list khi nó vừa tương đồng cao vừa thỏa filter.

Cú pháp biểu thức rất gần gũi với JavaScript/JSON path:

```bash
# Metadata JSON được lưu qua SETATTR lúc VADD hoặc VSETATTR sau này
VSETATTR embeddings:docs doc:42 '{"lang":"vi","score":87,"tags":["ai","redis"]}'

# Lọc bằng biểu thức boolean
VSIM embeddings:docs ELE q:12345 COUNT 10 \
    FILTER '.lang == "vi" && .score &gt; 80 && contains(.tags, "redis")'

# So sánh số, so sánh chuỗi, kết hợp AND/OR/NOT
VSIM embeddings:docs VALUES 1536 ... COUNT 10 \
    FILTER '(.type == "article" || .type == "guide") && .ts &gt; 1728345600'
```
Ba lợi ích thực tế. Thứ nhất, *không cần pre-filter rồi re-query* — hầu hết business rules (multi-tenancy, date range, content type) được gom vào một call duy nhất. Thứ hai, *không bao giờ bị "zero result" do filter quá chặt* — engine sẽ tiếp tục duyệt đồ thị cho tới khi đủ K kết quả thỏa hoặc EF candidates cạn, đảm bảo recall tối đa có thể. Thứ ba, *filter không phá vỡ cache hit ratio của HNSW* vì nó gắn vào cùng pass duyệt.

#### Mẹo tối ưu

Khi filter rất chọn lọc (ví dụ `.tenant_id == 'acme-42'` và tenant này chỉ có 0.1% dữ liệu), hãy cân nhắc tách Vector Set theo tenant (`embeddings:docs:acme-42`). Cách này để HNSW chỉ phải duyệt đúng không gian cần thiết và thường nhanh hơn filter inline một bậc. Ngược lại, với filter ít chọn lọc (ngôn ngữ, ngày tháng rộng) thì inline filter gọn hơn và dễ bảo trì hơn.

## 9. Semantic cache cho LLM agent — use case "killer" của Vector Set

Trong số mọi ứng dụng, *semantic cache* có lẽ là trường hợp Vector Set mang lại ROI rõ nhất. Mô hình rất đơn giản: mỗi lần agent trả lời một prompt, ta tính embedding của prompt đó và lưu cặp *(embedding, response)* vào Vector Set. Khi có prompt mới tới, VSIM top-1; nếu độ tương đồng > threshold (ví dụ 0.93), trả luôn response đã cache. Không còn tốn token, không còn đợi Claude suy nghĩ.

```python
import redis
from openai import OpenAI

r = redis.Redis(host='redis-agent', port=6379, decode_responses=True)
ai = OpenAI()

SIM_THRESHOLD = 0.93
CACHE_KEY = "embeddings:cache:llm"

def get_embedding(text: str) -> list[float]:
    return ai.embeddings.create(
        model="text-embedding-3-small",
        input=text,
    ).data[0].embedding

def answer_with_cache(prompt: str, tenant: str) -> str:
    emb = get_embedding(prompt)
    # Tìm câu đã trả lời gần nhất trong tenant hiện tại
    pipe = r.pipeline()
    pipe.execute_command(
        "VSIM", CACHE_KEY, "VALUES", len(emb), *map(str, emb),
        "COUNT", 1, "WITHSCORES",
        "FILTER", f'.tenant == "{tenant}"'
    )
    hit = pipe.execute()[0]
    if hit and float(hit[1]) >= SIM_THRESHOLD:
        entry_id = hit[0]
        return r.hget(f"llm:answer:{entry_id}", "text")
    # Miss → gọi LLM thật
    response = ai.chat.completions.create(
        model="claude-opus-4-6",
        messages=[{"role": "user", "content": prompt}],
    ).choices[0].message.content
    # Ghi vào cache để lần sau tái sử dụng
    entry_id = f"hit:{hash(prompt)}"
    r.hset(f"llm:answer:{entry_id}", mapping={"text": response, "prompt": prompt})
    r.execute_command(
        "VADD", CACHE_KEY, "VALUES", len(emb), *map(str, emb), entry_id,
        "SETATTR", f'{{"tenant":"{tenant}","ts":{int(time.time())}}}'
    )
    return response

```
Trong workload thực tế — giả sử 30-40% request có câu hỏi gần tương đương (một điều rất phổ biến với chat-bot nội bộ, trợ lý customer service, code review bot) — semantic cache cắt giảm gần một phần ba chi phí LLM mà độ trễ trả lời hit giảm xuống còn vài mili-giây. Đây là một trong những cách rẻ nhất và an toàn nhất để tối ưu stack AI năm 2026, và Vector Set biến nó thành chuyện của 30 dòng code.

## 10. ClickHouse làm lớp observability cho Vector Set

Pipeline logging ngắn gọn: mỗi lần agent gọi VSIM, ghi một event vào Redis Stream; một consumer push batch vào ClickHouse qua Kafka Engine. Schema điển hình:

```sql
CREATE TABLE vsearch_events (
    ts              DateTime64(3),
    request_id      String,
    tenant_id       LowCardinality(String),
    vector_set      LowCardinality(String),  -- 'embeddings:tools', 'embeddings:memory'
    agent_id        LowCardinality(String),
    query_hash      UInt64,
    filter_expr     String,
    count_requested UInt16,
    count_returned  UInt16,
    top_score       Float32,
    latency_ms      UInt32,
    cache_hit       UInt8,
    ef_query        UInt16,
    quantization    LowCardinality(String),  -- 'Q8', 'BIN', 'NOQUANT'
    embedding_model LowCardinality(String)
)
ENGINE = MergeTree
PARTITION BY toYYYYMM(ts)
ORDER BY (tenant_id, vector_set, ts)
TTL ts + INTERVAL 60 DAY;
```
Với bảng này, hàng loạt câu hỏi quan trọng đều trả lời được trong vài trăm mili-giây ngay trên tỉ dòng dữ liệu. Recall theo vector set nào đang sụt trong 7 ngày qua? Filter nào đang dẫn tới count_returned < count_requested? Tenant nào gọi VSIM với EF cao bất thường? Độ trễ p99 của `embeddings:memory` có tăng sau khi scale lên 10M element không? Một AggregatingMergeTree materialized view kể lại các chỉ số này theo phút sẽ cho dashboard Grafana quét 30 ngày chỉ trong vài chục mili-giây.

#### Drift detection cho embedding

## 11. Persistence và replication — Vector Set chơi cùng AOF/RDB

- **AOF (Append Only File):** Mỗi VADD/VREM/VSETATTR được ghi lại dưới dạng command. Khi Redis restart, toàn bộ đồ thị HNSW được dựng lại từ các VADD tuần tự. Lợi ích: không có trạng thái "ẩn", dễ debug. Nhược điểm: rebuild có thể mất vài phút với tập hàng triệu phần tử — hãy đo trước khi đưa lên production.
- **RDB (snapshot):** Redis serialise đồ thị HNSW cùng vector store vào file nhị phân. Restart nhanh hơn AOF rất nhiều vì không phải dựng lại đồ thị. Hãy dùng RDB cho các Vector Set lớn, kết hợp AOF nhỏ cho các data type khác nếu cần độ bền cao.
- **Replication:** Master gửi stream command V* sang replica. Replica áp dụng tuần tự và giữ bản sao đồng bộ. Vì VSIM chỉ đọc, replica có thể chia tải đọc rất hiệu quả — pattern phổ biến là 1 master cho ghi, 3-5 replica cho VSIM.
- **Redis Cluster:** Vector Set tuân theo hash slot như mọi key khác. Thiết kế key với hashtag (`embeddings:memory:{user42}`) để toàn bộ memory của một user nằm cùng slot — tránh cross-slot query.

## 12. So sánh với các vector engine khác

| Tiêu chí | Redis 8 Vector Set | pgvector | Milvus / Qdrant |
| --- | --- | --- | --- |
| Kiểu hệ thống | In-memory KV + native vector | Extension cho PostgreSQL | Vector DB chuyên dụng |
| Latency top-10 trên 1M vector | <1 ms (RAM) | 5-50 ms (tùy IVFFlat/HNSW) | 1-5 ms |
| Quantization tích hợp | Q8 mặc định, BIN, NOQUANT | Hạn chế, chủ yếu qua halfvec | Có (PQ, SQ, BQ) |
| Hybrid filter | Inline trong HNSW traversal | Joinable với SQL WHERE | Inline, phong phú |
| Tích hợp caching | Cùng cluster với KV cache | Cần Redis riêng | Cần Redis riêng |
| Operational cost cho team nhỏ | Thấp — chỉ 1 cluster | Thấp nếu đã có Postgres | Trung bình — 1 stack riêng |
| Phù hợp nhất cho | Agent retrieval, semantic cache, short-term memory | Dữ liệu đã nằm trong Postgres, JOIN phức tạp | Kho vector rất lớn, truy vấn hình ảnh/âm thanh |

Kết luận ngắn: Redis 8 Vector Set không cố gắng thay thế mọi vector DB. Nó đánh vào một sweet spot — *retrieval latency cực thấp, nằm cùng nơi với cache key-value, tích hợp sâu với stack multi-agent đang dùng Redis*. Nếu dự án của bạn đã có một cluster Redis hoạt động tốt, và nhu cầu vector hiện ở mức vài chục triệu phần tử, thêm Vector Set là nước cờ tiết kiệm nhất. Nếu kho vector vượt vài trăm triệu hoặc cần truy vấn cross-modal phức tạp, một vector DB chuyên dụng vẫn là lựa chọn đúng — và Vector Set có thể giữ vai trò cache tầng trên.

## 13. Migration từ RediSearch FT.VECTOR sang Vector Set

Nhiều team đang có RediSearch chạy ổn định với `FT.CREATE ... VECTOR HNSW`, và câu hỏi tự nhiên: có nên di cư sang Vector Set? Trả lời phụ thuộc vào ba yếu tố:

- **Nếu bạn chỉ dùng RediSearch cho vector, không dùng full-text:** Migration có lợi rõ. Cú pháp gọn hơn, ít lệnh hơn, tính năng quantization đầy đủ hơn. Kế hoạch: viết một job dual-write (ghi vào cả FT và Vector Set) trong vài ngày, quan sát kết quả song song, rồi switch đọc khi đã tin tưởng.
- **Nếu bạn kết hợp vector với full-text tagging trong cùng một FT index:** Hãy giữ RediSearch. Vector Set không làm full-text; nó chỉ làm vector similarity + JSON filter. Đừng ép nó làm cái nó không thiết kế cho.
- **Nếu bạn đang mới bắt đầu:** Khả năng cao nên dùng Vector Set. Đó là lựa chọn có tương lai dài hạn vì nó nằm trong core của Redis, không phụ thuộc module.

#### Đừng quên đo bộ nhớ

Q8 mặc định có thể khiến Vector Set nhẹ hơn đáng kể so với FT.VECTOR float32, nhưng hãy đo ngay trên dữ liệu thật. `VINFO` trả ra kích thước thực tế của đồ thị và store. So sánh với `FT.INFO` bên cũ rồi nhân với số shard để tính nhu cầu RAM toàn cluster. Tiết kiệm bộ nhớ là lý do kỹ thuật lớn nhất cho migration, nên con số này cần chắc chắn trước khi quyết định.

## 14. Checklist trước khi đẩy Vector Set vào production

Gom lại các kinh nghiệm ở trên thành danh sách kiểm tra trước khi release cho đội engineering:

- Đã quyết định dùng Q8, BIN hay NOQUANT — dựa trên kết quả đo recall trên ground truth thực tế, không phải theo mặc định hay trực giác.
- Đã chọn M và EF_BUILD phù hợp với kích thước dataset dự kiến 6 tháng tới (không phải dataset hiện tại).
- Đã thử VSIM trên replica thay vì trên master để chia tải đọc.
- Đã kiểm tra thời gian restart worst-case sau AOF/RDB trên dataset đầy đủ — biết con số này bằng giây.
- Đã chuẩn bị dashboard ClickHouse theo dõi latency, recall proxy (top_score), hit rate semantic cache.
- Đã có cơ chế rebuild Vector Set khi model embedding thay đổi phiên bản — thường là dual-write sang key mới, cutover.
- Đã shard theo tenant hoặc namespace nếu có multi-tenancy, tránh cross-tenant leak qua hybrid filter.
- Đã đặt maxmemory policy phù hợp — Vector Set rất thân thiện với eviction vì mỗi phần tử là một entity hoàn chỉnh.

## 15. Tổng kết

Redis 8 Vector Set không phải một tính năng nhỏ. Nó là thông điệp kiến trúc: **retrieval vector đã trở thành primitive đủ phổ biến để xứng đáng được đưa vào lõi của một hệ cache phổ dụng, không còn là đặc quyền của các vector DB chuyên biệt**. Với HNSW nằm trong core, Q8 quantization mặc định, hybrid filter inline và độ trễ sub-milli, nó biến một cluster Redis sẵn có thành nền tảng retrieval năng suất cao cho multi-agent — mà không phải thêm một hệ thống nào.

## Nguồn tham khảo

- Redis Documentation, *Vector Sets — overview and data type* — [redis.io/docs/latest/develop/data-types/vector-sets](https://redis.io/docs/latest/develop/data-types/vector-sets/)
- Redis Commands, *VADD reference* — [redis.io/docs/latest/commands/vadd](https://redis.io/docs/latest/commands/vadd/)
- Redis Commands, *VSIM reference* — [redis.io/docs/latest/commands/vsim](https://redis.io/docs/latest/commands/vsim/)
- Redis Vector Sets, *Performance characteristics* — [redis.io/docs/latest/develop/data-types/vector-sets/performance](https://redis.io/docs/latest/develop/data-types/vector-sets/performance/)
- Redis GitHub, *modules/vector-sets README (8.2.3)* — [github.com/redis/redis vector-sets README](https://github.com/redis/redis/blob/8.2.3/modules/vector-sets/README.md)
- Redis Blog, *A guide to vector indexes in Redis* — [redis.io/blog/vector-indexes-in-redis](https://redis.io/blog/vector-indexes-in-redis/)
- antirez, *Vector Search and AI Patterns* — [redis.antirez.com vector-search-ai](https://redis.antirez.com/community/vector-search-ai.html)
- Malkov & Yashunin, *Efficient and robust approximate nearest neighbor search using Hierarchical Navigable Small World graphs*, 2018 — [arxiv.org/abs/1603.09320](https://arxiv.org/abs/1603.09320)

Hybrid Search & Reranking 2026 - Nâng cấp RAG Production với BM25, ColBERT, Cross-Encoder và Redis

Prompt Caching & Context Caching 2026 - Kiến trúc Tái sử dụng KV Cache Provider-level cho Claude, OpenAI, Gemini với Redis Edge và ClickHouse Analytics

Disclaimer: The opinions expressed in this blog are solely my own and do not reflect the views or opinions of my employer or any affiliated organizations. The content provided is for informational and educational purposes only and should not be taken as professional advice. While I strive to provide accurate and up-to-date information, I make no warranties or guarantees about the completeness, reliability, or accuracy of the content. Readers are encouraged to verify the information and seek independent advice as needed. I disclaim any liability for decisions or actions taken based on the content of this blog.