Groq API

正常developer-tools

Groq API 用自研 LPU（Language Processing Unit）芯片做开源 LLM 推理，速度比 GPU 快 10 倍（Llama 70B 每秒 500+ tokens）。

访问站点 ↗文档 ↗健康巡检 9 小时前

适合什么时候用

推理速度行业最快（Llama 70B 500+ tokens/sec vs GPU 30-100）

先注意什么

模型选择有限（主要 Llama、Mixtral 等开源）

第一步先查

console.groq.com 注册免费 API key。POST https://api.groq.com/openai/v1/chat/completions 带 model: "llama-3.1-70b-versatile" + messages。

认证

api_key

CORS

HTTPS

是

延迟

73 ms

协议

REST

计费

paid

可用率 · 30 天窗口

巡检: 1可用率: 100%平均延迟: 73ms

关于这个 API

Groq 是 2016 年创办的 AI 芯片公司（创始团队来自 Google TPU 早期），自研专为 LLM 推理设计的 LPU 芯片。和通用 GPU（NVIDIA H100）不同，LPU 牺牲训练能力换推理速度——deterministic、low-latency、高 throughput。当下 Llama 3.1 70B 在 Groq 跑能达到 500+ tokens/秒（同模型 H100 大约 50-100 tokens/秒）。这种速度差异让以前 LLM 没法实时做的事（如多步 AI agent reasoning、实时语音对话）变可行。API 是 OpenAI 兼容（换 base_url 就行），免费 tier 慷慨（30 RPM 也算够 demo），付费按 token 计费。劣势是模型 catalog 小（只能跑 Llama、Mixtral 等几个开源模型），且 rate limit 比 OpenAI 紧（LPU 产能有限）。

你可以做什么

1实时 chatbot（延迟敏感场景）
2AI agent 多步推理（每步快意味整体快）
3语音对话 AI（边说边回复）
4高 throughput 内容生成

优劣对比

优点

推理速度行业最快（Llama 70B 500+ tokens/sec vs GPU 30-100）
OpenAI 兼容 API 切换 zero-cost
价格比 GPU-based 提供商低

注意事项

模型选择有限（主要 Llama、Mixtral 等开源）
rate limit 紧（LPU 资源紧张）
无 fine-tune

示例请求

通用模板 — 实际 endpoint 请查阅文档替换 <endpoint>。

curl https://groq.com/<endpoint> \
  -H "Authorization: Bearer $API_KEY"
# Some providers use X-Api-Key instead — verify in the docs.

快速开始

console.groq.com 注册免费 API key。POST https://api.groq.com/openai/v1/chat/completions 带 model: "llama-3.1-70b-versatile" + messages。

常见问题

Groq vs Together AI？+

Groq 快得变态但模型少；Together 模型多但慢些。延迟敏感选 Groq，模型选择重要选 Together。

注意：Groq AI ≠ Grok（马斯克的）+

Groq 是 AI 芯片公司（2016 创办）；Grok 是 Elon Musk 的 xAI LLM。名字相似但完全无关。

技术细节

CORS: ?HTTPS: Yes注册: ?开源: No

认证方式: api_key
计费: paid
速率限制: free tier 30 RPM；付费 tier 提升
协议: REST
SDK: python, typescript, javascript
响应时间: 73 ms
上次巡检: 2026/5/12 07:37:38