Together AI API

正常developer-tools

Together AI API 是开源 LLM 推理云：跑 Llama、Mistral、Qwen 等开源模型，价格比 OpenAI 低很多，OpenAI 兼容 API。

访问站点 ↗文档 ↗健康巡检 13 小时前

适合什么时候用

比 OpenAI 便宜 5-10 倍（Llama 3.1 70B 约 $0.9/M）

先注意什么

模型质量上限取决于开源模型（Llama 3.1 405B 接近 GPT-4 但仍略弱）

第一步先查

together.ai 注册拿 API key。POST https://api.together.xyz/v1/chat/completions 带 model: "meta-llama/Llama-3.1-70B-Instruct-Turbo" + messages。

认证

api_key

CORS

HTTPS

是

延迟

220 ms

协议

REST

计费

paid

可用率 · 30 天窗口

巡检: 30可用率: 100%平均延迟: 323ms

关于这个 API

Together AI 是 2022 年创办的开源 LLM 推理服务公司，差异化定位是「开源模型的 OpenAI」——你想用 Llama 3.1 / Mistral / Qwen 这些开源大模型但又不想自己买 8 张 H100 跑，Together 帮你托管好。最大卖点：价格远低于闭源 LLM 5-10 倍（输入 token），且支持 fine-tune（OpenAI 不让 fine-tune GPT-4，Together 让你 fine-tune Llama 3.1 70B）。技术栈：自研推理优化（Flash-Attention、各种 quantization），加上批量推理，单 GPU 利用率高。API 故意做成 OpenAI 兼容（base_url 换掉 + 一行代码切换），让开发者 zero-friction 迁移。同类竞品：Groq（更便宜更快但模型选择少）、Fireworks AI、DeepInfra、Lepton AI。

你可以做什么

1想用 Llama 3.1 405B 但不想自己跑 GPU
2价格敏感场景（生成大量文本）
3OpenAI 价格涨太多想找替代
4需要 fine-tune 开源模型的企业

优劣对比

优点

比 OpenAI 便宜 5-10 倍（Llama 3.1 70B 约 $0.9/M）
支持 fine-tune（OpenAI 不支持 fine-tune 70B+）
OpenAI 兼容 API（无缝切换）

注意事项

模型质量上限取决于开源模型（Llama 3.1 405B 接近 GPT-4 但仍略弱）
function calling 等高级能力支持不如 OpenAI 成熟

官方快速开始

在官方文档查看快速开始：docs.together.ai

快速开始

together.ai 注册拿 API key。POST https://api.together.xyz/v1/chat/completions 带 model: "meta-llama/Llama-3.1-70B-Instruct-Turbo" + messages。

常见问题

Together vs Groq？+

Groq 用自研 LPU 推理快得变态 (Llama 70B 每秒 500+ tokens)；Together 模型选择更广。

fine-tune 怎么用？+

POST /fine-tunes 提交训练数据（JSONL 格式），训练完拿到自己的 model ID 即可调用。

技术细节

CORS: ?HTTPS: Yes注册: ?开源: No

认证方式: api_key
计费: paid
速率限制: 默认 600 RPM；可申请提高
协议: REST
SDK: python, javascript, typescript
响应时间: 220 ms
上次巡检: 2026/6/26 06:24:22