Groq API logo

Groq API

Groq API

Groq API 用自研 LPU(Language Processing Unit)芯片做开源 LLM 推理,速度比 GPU 快 10 倍(Llama 70B 每秒 500+ tokens)。

访问站点 ↗文档 ↗健康巡检 9 小时前
适合什么时候用

推理速度行业最快(Llama 70B 500+ tokens/sec vs GPU 30-100)

先注意什么

模型选择有限(主要 Llama、Mixtral 等开源)

第一步先查

console.groq.com 注册免费 API key。POST https://api.groq.com/openai/v1/chat/completions 带 model: "llama-3.1-70b-versatile" + messages。

认证
api_key
CORS
?
HTTPS
注册
?
延迟
73 ms
协议
REST
计费
paid

可用率 · 30 天窗口

巡检: 1可用率: 100%平均延迟: 73ms
01

关于这个 API

Groq 是 2016 年创办的 AI 芯片公司(创始团队来自 Google TPU 早期),自研专为 LLM 推理设计的 LPU 芯片。和通用 GPU(NVIDIA H100)不同,LPU 牺牲训练能力换推理速度——deterministic、low-latency、高 throughput。当下 Llama 3.1 70B 在 Groq 跑能达到 500+ tokens/秒(同模型 H100 大约 50-100 tokens/秒)。这种速度差异让以前 LLM 没法实时做的事(如多步 AI agent reasoning、实时语音对话)变可行。API 是 OpenAI 兼容(换 base_url 就行),免费 tier 慷慨(30 RPM 也算够 demo),付费按 token 计费。劣势是模型 catalog 小(只能跑 Llama、Mixtral 等几个开源模型),且 rate limit 比 OpenAI 紧(LPU 产能有限)。

02

你可以做什么

  • 1实时 chatbot(延迟敏感场景)
  • 2AI agent 多步推理(每步快意味整体快)
  • 3语音对话 AI(边说边回复)
  • 4高 throughput 内容生成
03

优劣对比

优点

  • 推理速度行业最快(Llama 70B 500+ tokens/sec vs GPU 30-100)
  • OpenAI 兼容 API 切换 zero-cost
  • 价格比 GPU-based 提供商低

注意事项

  • 模型选择有限(主要 Llama、Mixtral 等开源)
  • rate limit 紧(LPU 资源紧张)
  • 无 fine-tune
04

示例请求

通用模板 — 实际 endpoint 请查阅文档替换 <endpoint>。
curl https://groq.com/<endpoint> \
  -H "Authorization: Bearer $API_KEY"
# Some providers use X-Api-Key instead — verify in the docs.
05

快速开始

console.groq.com 注册免费 API key。POST https://api.groq.com/openai/v1/chat/completions 带 model: "llama-3.1-70b-versatile" + messages。

06

常见问题

Groq vs Together AI?+

Groq 快得变态但模型少;Together 模型多但慢些。延迟敏感选 Groq,模型选择重要选 Together。

注意:Groq AI ≠ Grok(马斯克的)+

Groq 是 AI 芯片公司(2016 创办);Grok 是 Elon Musk 的 xAI LLM。名字相似但完全无关。

07

技术细节

CORS: ?HTTPS: Yes注册: ?开源: No
认证方式
api_key
计费
paid
速率限制
free tier 30 RPM;付费 tier 提升
协议
REST
SDK
python, typescript, javascript
响应时间
73 ms
上次巡检
2026/5/12 07:37:38
08

标签