Claude Opus 4.7 vs GPT-5.5 vs Gemini 3.1 Pro:2026 年 5 月,开发者怎么选
2026 年 5 月,三大旗舰 LLM API 实战对比。真实价格、真实型号 ID、真实取舍。什么时候花钱用 Opus 4.7、什么时候 GPT-5.5 才赢、什么时候只能选 Gemini 3.1 Pro。
上面是文章摘要,下面进入正文深读。可以配合目录逐段阅读,不会丢掉上下文。
Claude Opus 4.7 vs GPT-5.5 vs Gemini 3.1 Pro:2026 年 5 月怎么选
如果你有 $500/月的 API 预算,面前三个旗舰模型,真正需要回答的问题是:每一刀花在哪里产出最多。Benchmark 表格别看了。有意思的答案取决于你在做什么。
过去六周我用三个模型都发过生产代码。下面是我会跟朋友说的话。
真实价格(2026 年 5 月,每百万 token)
| 模型 | 输入 | 输出 | 最适合 |
|---|---|---|---|
| Claude Opus 4.7 | $5 | $25 | 编程 Agent、多文件推理 |
| GPT-5.5 | $5 | $30 | 长上下文检索、数学 |
| Gemini 3.1 Pro | $2 / $4* | $12 / $18* | 批量、翻译、长文档总结 |
* Gemini 在输入超过 200K token 时翻倍。把一整个代码库塞进单次调用前先知道这一点。
定价比这篇文章过期得快。当前价位看本站 OpenAI、Anthropic 详情页,或者直接看官方控制台。
Opus 4.7 凭什么贵
Anthropic 在 2026 年 4 月 16 日发布 claude-opus-4-7。这个版本让我终于退役了 "默认用 Sonnet,难的升 Opus" 这条经验法则。对编程 agent 来说,Opus 4.7 现在是地板不是天花板。
具体说:如果你的 agent 需要打开五个文件、理解它们怎么互相调、规划一次重构、然后不需要你介入地执行完——Opus 是唯一能撑住几十轮不跑偏的模型。Sonnet 4.6 在窄任务(单文件编辑、范围清晰的问答)上还能用,能用就用。但任务一旦涉及 "先搞清楚架构",Opus 就是给你赚钱的那台。
让这件事变得划算的关键是 prompt cache。编程 agent 的 system prompt 巨大(工具定义、仓库摘要、编码规范、历史),而且跨调用完全一样。Anthropic 的缓存价让这部分在缓存 TTL 内首次之后基本免费读。不用缓存的话,一个长下午能花掉 $500。
# 最小可用的 cached system prompt 模式
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-opus-4-7",
max_tokens=4096,
system=[
{
"type": "text",
"text": LARGE_SYSTEM_PROMPT, # 80K token 的上下文
"cache_control": {"type": "ephemeral"},
}
],
messages=[{"role": "user", "content": user_question}],
)
cache_control 这块就是 $1/调用 vs 缓存预热后 10 美分/调用 的差距。
GPT-5.5 什么时候还是该选
GPT-5.5 比 Opus 4.7 早几周发布,output $30/M,是三家里最贵的。绝大多数团队不该默认用它。但有两个场景我愿意付溢价。
第一个是检索量大、要求结构化输出的任务。如果你在喂模型一段长而乱的上下文、让它抽出带稳定引用的类型化字段,GPT-5.5 在字段形状和源头归因的确定性上仍有优势。Opus 在仔细写 prompt 之后能追上,但 GPT-5.5 不太需要费心调 prompt 就乖。
第二个是硬数学。需要链式数值推理的任务——推导、证明、回答途中需要做 Wolfram-Alpha 那种工作——GPT-5.5 目前领先。不多。但领先。
"做个 chatbot"、"总结一份文档"、"写点营销文案"?别花 GPT-5.5 的钱。你在赞助研究,不是在获得产品价值。
Gemini 3.1 Pro 什么时候是唯一选择
Gemini 3.1 Pro 的价格才是它的卖点:200K token 以下 $2/$12,超过也才 $4/$18,相当于 Opus 的一半。所以问题变成:花一半钱,能干多少事。
事实证明能干不少,只要任务不需要深度推理。批量翻译:Gemini 3.1 是答案。长技术文档总结(尤其非英语):是答案。把一万条客服 ticket 分类:是答案。任何用 Opus 价格做你会不好意思开账单的任务。
天花板出现在任务需要模型"想"的时候。多步规划、Agent 工具调用、需要架构理解的代码——Gemini 落 Opus 一截,差距能感知。不是灾难性的,但足够让 Opus $25/M output 的那次调用替你省下的人工 review 时间远比这个价差值钱。
这对成本意味着什么
如果你不是只挑一个模型然后求神拜佛,诚实的经济学是这样的:
需要连贯性和代码质量的地方用 Opus 4.7,配合缓存。GPT-5.5 留给上面那两个特定场景。Gemini 3.1 Pro 兜底所有批量、分类、翻译、总结类任务。
上个月我合作的一个团队从 "全跑 Opus" 切到这种分级,月账单从 $4,200 降到 $1,400,产品质量没变。省下的钱几乎全来自把 RAG 批量和总结类任务交给 Gemini——本来就不需要前沿模型。
关于 benchmark
你在十几个网站能找到互相打架的排行榜,权重不同结论就不同。2026 年 5 月真正重要的信号是:哪个模型能撑住跨多文件的重构不丢线索。拿你自己的真实任务跑五次。不浪费你下午时间的那个就是该买的那个。
对大多数读到这里、在做代码相关产品的人,那就是 Opus 4.7 + 激进缓存。如果你做的是其他东西,答案没那么明确,稳妥的路是把你的 pipeline 设计成可以按任务切换模型,让账单告诉你什么在 work。
快速跳到对应段落
下一步
读完后可以继续回到工具目录,对比具体产品。
去看工具