Mô hình

Định tuyến mọi request AI đến đúng nhóm model.

Giữ một API contract khi chuyển giữa model hosted cao cấp, model nhỏ nhanh hơn và deployment local tương thích OpenAI.

Router contract

Một format message. Nhiều provider.

Credential provider luôn nằm phía server.

Model không hỗ trợ trả lỗi API có kiểu rõ ràng.

Streaming chunk giữ shape tương thích OpenAI.

Usage event ghi token, provider, model, latency và chi phí.

OpenAI

Reasoning tổng quát nhanh, chat đa phương thức và khả năng tương thích ứng dụng rộng.

gpt-4ogpt-4o-minigpt-4-turboo1o3-mini

Anthropic

Reasoning dài, hành vi assistant an toàn hơn và workload orchestration cho agent.

claude-opus-4claude-sonnet-4claude-haiku-4

Google

Tác vụ đa phương thức latency thấp và workflow có context lớn.

gemini-2.0-flashgemini-2.5-pro

Mistral + Local

Triển khai theo khu vực, định tuyến model open-weight và backend local tương thích OpenAI.

mistral-largemistral-smallllama-3.1-70bqwen2.5-72b