Together AI API
Together AI API
Together AI API 是开源 LLM 推理云:跑 Llama、Mistral、Qwen 等开源模型,价格比 OpenAI 低很多,OpenAI 兼容 API。
比 OpenAI 便宜 5-10 倍(Llama 3.1 70B 约 $0.9/M)
模型质量上限取决于开源模型(Llama 3.1 405B 接近 GPT-4 但仍略弱)
together.ai 注册拿 API key。POST https://api.together.xyz/v1/chat/completions 带 model: "meta-llama/Llama-3.1-70B-Instruct-Turbo" + messages。
可用率 · 30 天窗口
关于这个 API
Together AI 是 2022 年创办的开源 LLM 推理服务公司,差异化定位是「开源模型的 OpenAI」——你想用 Llama 3.1 / Mistral / Qwen 这些开源大模型但又不想自己买 8 张 H100 跑,Together 帮你托管好。最大卖点:价格远低于闭源 LLM 5-10 倍(输入 token),且支持 fine-tune(OpenAI 不让 fine-tune GPT-4,Together 让你 fine-tune Llama 3.1 70B)。技术栈:自研推理优化(Flash-Attention、各种 quantization),加上批量推理,单 GPU 利用率高。API 故意做成 OpenAI 兼容(base_url 换掉 + 一行代码切换),让开发者 zero-friction 迁移。同类竞品:Groq(更便宜更快但模型选择少)、Fireworks AI、DeepInfra、Lepton AI。
你可以做什么
- 1想用 Llama 3.1 405B 但不想自己跑 GPU
- 2价格敏感场景(生成大量文本)
- 3OpenAI 价格涨太多想找替代
- 4需要 fine-tune 开源模型的企业
优劣对比
优点
- 比 OpenAI 便宜 5-10 倍(Llama 3.1 70B 约 $0.9/M)
- 支持 fine-tune(OpenAI 不支持 fine-tune 70B+)
- OpenAI 兼容 API(无缝切换)
注意事项
- 模型质量上限取决于开源模型(Llama 3.1 405B 接近 GPT-4 但仍略弱)
- function calling 等高级能力支持不如 OpenAI 成熟
示例请求
curl https://www.together.ai/<endpoint> \
-H "Authorization: Bearer $API_KEY"
# Some providers use X-Api-Key instead — verify in the docs.快速开始
together.ai 注册拿 API key。POST https://api.together.xyz/v1/chat/completions 带 model: "meta-llama/Llama-3.1-70B-Instruct-Turbo" + messages。
常见问题
Together vs Groq?+
Groq 用自研 LPU 推理快得变态 (Llama 70B 每秒 500+ tokens);Together 模型选择更广。
fine-tune 怎么用?+
POST /fine-tunes 提交训练数据(JSONL 格式),训练完拿到自己的 model ID 即可调用。
技术细节
- 认证方式
- api_key
- 计费
- paid
- 速率限制
- 默认 600 RPM;可申请提高
- 协议
- REST
- SDK
- python, javascript, typescript
- 响应时间
- 475 ms
- 上次巡检
- 2026/5/12 07:38:30