Groq API
Groq API
Groq API 用自研 LPU(Language Processing Unit)芯片做开源 LLM 推理,速度比 GPU 快 10 倍(Llama 70B 每秒 500+ tokens)。
推理速度行业最快(Llama 70B 500+ tokens/sec vs GPU 30-100)
模型选择有限(主要 Llama、Mixtral 等开源)
console.groq.com 注册免费 API key。POST https://api.groq.com/openai/v1/chat/completions 带 model: "llama-3.1-70b-versatile" + messages。
可用率 · 30 天窗口
关于这个 API
Groq 是 2016 年创办的 AI 芯片公司(创始团队来自 Google TPU 早期),自研专为 LLM 推理设计的 LPU 芯片。和通用 GPU(NVIDIA H100)不同,LPU 牺牲训练能力换推理速度——deterministic、low-latency、高 throughput。当下 Llama 3.1 70B 在 Groq 跑能达到 500+ tokens/秒(同模型 H100 大约 50-100 tokens/秒)。这种速度差异让以前 LLM 没法实时做的事(如多步 AI agent reasoning、实时语音对话)变可行。API 是 OpenAI 兼容(换 base_url 就行),免费 tier 慷慨(30 RPM 也算够 demo),付费按 token 计费。劣势是模型 catalog 小(只能跑 Llama、Mixtral 等几个开源模型),且 rate limit 比 OpenAI 紧(LPU 产能有限)。
你可以做什么
- 1实时 chatbot(延迟敏感场景)
- 2AI agent 多步推理(每步快意味整体快)
- 3语音对话 AI(边说边回复)
- 4高 throughput 内容生成
优劣对比
优点
- 推理速度行业最快(Llama 70B 500+ tokens/sec vs GPU 30-100)
- OpenAI 兼容 API 切换 zero-cost
- 价格比 GPU-based 提供商低
注意事项
- 模型选择有限(主要 Llama、Mixtral 等开源)
- rate limit 紧(LPU 资源紧张)
- 无 fine-tune
示例请求
curl https://groq.com/<endpoint> \
-H "Authorization: Bearer $API_KEY"
# Some providers use X-Api-Key instead — verify in the docs.快速开始
console.groq.com 注册免费 API key。POST https://api.groq.com/openai/v1/chat/completions 带 model: "llama-3.1-70b-versatile" + messages。
常见问题
Groq vs Together AI?+
Groq 快得变态但模型少;Together 模型多但慢些。延迟敏感选 Groq,模型选择重要选 Together。
注意:Groq AI ≠ Grok(马斯克的)+
Groq 是 AI 芯片公司(2016 创办);Grok 是 Elon Musk 的 xAI LLM。名字相似但完全无关。
技术细节
- 认证方式
- api_key
- 计费
- paid
- 速率限制
- free tier 30 RPM;付费 tier 提升
- 协议
- REST
- SDK
- python, typescript, javascript
- 响应时间
- 73 ms
- 上次巡检
- 2026/5/12 07:37:38