产品介绍

最后更新：2026-04-24 · 预计阅读 5 分钟

TTToken（部署于 tttoken.xyz）是一个统一的 AI 模型聚合与分发网关。你只需要一个 API Key，就能在同一条 HTTP 接口下调用 OpenAI、Anthropic Claude、Google Gemini、xAI Grok 以及国内主流厂商的大语言模型与多模态模型。

💡 一句话概括

把 base_url 换成 https://tttoken.xyz/v1，把 api_key 换成你的 TTToken Key，原来的代码不动即可跑。

什么是 TTToken

TTToken 本质上是 new-api 的公共托管版本，在此基础上对模型、渠道、分组倍率与中转稳定性做了深度优化。无论你：

是 个人开发者：想用一个账号同时调用 GPT-4o、Claude Sonnet、Gemini 2.5 Pro；
是团队：需要统一计费、分组分权限、消费日志；
是 SaaS 产品：希望屏蔽底层厂商差异，对接一次即可随时切换底座；

都可以在 TTToken 上完成。

核心特性

三协议兼容

同时提供 OpenAI / Anthropic / Google GenAI 三套原生协议，互不干扰：

协议	Base URL	主要用途
OpenAI	`https://tttoken.xyz/v1`	Chat / Embeddings / Images / Audio / Rerank
Anthropic	`https://tttoken.xyz`	`/v1/messages` Claude 原生
Google	`https://tttoken.xyz/v1beta`	`/models/*:generateContent`

788+ 模型统一调用

内置超过 788 个模型 ID，覆盖：

OpenAI：GPT-4o / GPT-4.1 / GPT-5 / o1 / o3 / gpt-image-1 / whisper / tts
Anthropic：Claude 3.5 / 3.7 / 4 / 4.5 / Opus 系列
Google：Gemini 1.5 / 2.0 / 2.5 Pro / Flash / nano-banana
xAI：Grok 3 / Grok 4
国内：DeepSeek / Qwen / Kimi / GLM / Doubao / Hunyuan 等
图像/视频：Midjourney / Flux / Kling / Suno / Runway

完整列表参见模型列表。

真流式 & Thinking 块

所有支持流式的模型均透传原生 SSE / NDJSON，包括 Claude 的 thinking、OpenAI Responses 的 reasoning、以及 Gemini 的 thought 块。你在客户端看到的事件顺序和官方 API 一致。

Prompt Caching

Anthropic cache_control、OpenAI prompt_cache、Gemini cachedContent 三家缓存策略全部透传。命中缓存的部分按厂商官方折扣计费（通常 10%–25%）。

工具调用与结构化输出

原生支持 tools / tool_choice / response_format: json_schema / Claude 的 tool_use 块。跨渠道参数自动适配，详见 Function Calling。

架构总览

TTToken 在请求链路上只做三件事：鉴权、计费、路由。

┌──────────┐    ┌──────────────┐    ┌──────────────┐
│  客户端   │ ─► │ TTToken  │ ─► │ 上游厂商渠道   │
│ (SDK/HTTP)│    │  tttoken.xyz │    │ OpenAI/Claude │
└──────────┘    └──────┬───────┘    │ Gemini/...    │
                       │             └──────────────┘
                  鉴权 · 计费 · 分组 · 重试

无持久化存储（流式直接透传），请求体/响应体不会被保存到磁盘，只记录元信息（token 数、模型、状态码、耗时）用于计费与审计。

谁在使用

Cherry Studio / ChatBox / LobeChat / NextChat 等本地客户端用户
Claude Code / Cursor / Cline / Continue 等开发者工具
基于 LangChain / LlamaIndex / AutoGen 的 AI 应用团队

✅ 下一步

跟随快速开始用 5 分钟发出你的第一次请求。