Mô hình
Định tuyến mọi request AI đến đúng nhóm model.
Giữ một API contract khi chuyển giữa model hosted cao cấp, model nhỏ nhanh hơn và deployment local tương thích OpenAI.
Một format message. Nhiều provider.
Credential provider luôn nằm phía server.
Model không hỗ trợ trả lỗi API có kiểu rõ ràng.
Streaming chunk giữ shape tương thích OpenAI.
Usage event ghi token, provider, model, latency và chi phí.
Reasoning tổng quát nhanh, chat đa phương thức và khả năng tương thích ứng dụng rộng.
gpt-4ogpt-4o-minigpt-4-turboo1o3-mini
Reasoning dài, hành vi assistant an toàn hơn và workload orchestration cho agent.
claude-opus-4claude-sonnet-4claude-haiku-4
Tác vụ đa phương thức latency thấp và workflow có context lớn.
gemini-2.0-flashgemini-2.5-pro
Triển khai theo khu vực, định tuyến model open-weight và backend local tương thích OpenAI.
mistral-largemistral-smallllama-3.1-70bqwen2.5-72b
