⭐ 觉得好用?收藏备用,下次直接打开

56 个主流大模型 API 一站对照(13 家厂商):每条给 model ID(点击复制)API endpoint、上下文 / 输出 token 上限、输入 / 输出价格、视觉 / 工具调用 / Reasoning / Prompt Cache 能力、国内可达性。
⚠️ 数据快照:2026-01 · 价格 / 模型 ID 随时变化,下方每个厂商卡片有官方定价页直链可即时核实。

📋 厂商 / API endpoint 速查

OpenAI
需走代理 · OpenAI 兼容
定价 ↗

国内一律需代理;Azure OpenAI(global / 中国版)是企业可选合规通道。

Anthropic Claude
需走代理 · 专属 SDK
定价 ↗

专属 SDK;也提供 OpenAI-compatible 端点 /v1/chat/completions。AWS Bedrock / GCP Vertex 可走第三方接入。

Google Gemini
需走代理 · OpenAI 兼容
定价 ↗

AI Studio + Vertex AI 双套体系;OpenAI-compatible 端点位于 /v1beta/openai/。

xAI Grok
需走代理 · OpenAI 兼容
定价 ↗
Mistral AI
需走代理 · OpenAI 兼容
定价 ↗
Meta Llama
需走代理 · OpenAI 兼容
定价 ↗

Meta 不提供官方推理 API;下方价格为 Together AI 的托管价。本地部署成本另算。

DeepSeek 深度求索
国内直连 · OpenAI 兼容
定价 ↗

完全 OpenAI 兼容;夜间(00:30–08:30 北京)有阶梯折扣。

Qwen 通义千问 (阿里)
国内直连 · OpenAI 兼容
定价 ↗

百炼平台;与 Qwen 国际站 (dashscope-intl.aliyuncs.com) 价格不同。

智谱 GLM
国内直连 · OpenAI 兼容
定价 ↗

glm-4-flash 长期免费可用,做轻量任务首选。

Moonshot Kimi
国内直连 · OpenAI 兼容
定价 ↗
豆包 (字节火山方舟)
国内直连 · OpenAI 兼容
定价 ↗

调用前需在火山方舟创建"接入点",model 字段填接入点 ID 而非模型名。

百度文心 ERNIE
国内直连 · OpenAI 兼容
定价 ↗

千帆 v2 接口已支持 OpenAI 兼容格式(旧版需 access_token 流程)。

MiniMax
国内直连 · 专属 SDK
定价 ↗

🔎 模型对照

厂商
能力
GPT-5 🚩 旗舰 OpenAI 视觉 Cache 工具
上下文 400K
输出 128K
输入价 $1.25/1M
输出价 $10/1M
缓存命中价 $0.125/1M
发布 2025-08

OpenAI 当前旗舰 reasoning 模型,统一 GPT + o-series 路线。

GPT-5 mini OpenAI 视觉 Cache 工具
上下文 400K
输出 128K
输入价 $0.25/1M
输出价 $2/1M
缓存命中价 $0.025/1M
发布 2025-08

GPT-5 的缩小高性价比版本。

GPT-5 nano OpenAI 视觉 Cache 工具
上下文 400K
输出 128K
输入价 $0.05/1M
输出价 $0.4/1M
缓存命中价 $0.005/1M
发布 2025-08

极致便宜的 GPT-5 衍生型,分类 / 归一化 / 简单抽取场景。

GPT-4.1 OpenAI 视觉 Cache 工具
上下文 1M
输出 32K
输入价 $2/1M
输出价 $8/1M
缓存命中价 $0.5/1M
发布 2025-04

1M 上下文长文档专用;编码 / 工具调用稳定性高。

GPT-4.1 mini OpenAI 视觉 Cache 工具
上下文 1M
输出 32K
输入价 $0.4/1M
输出价 $1.6/1M
缓存命中价 $0.1/1M
发布 2025-04

4.1 系列的中端,长上下文 + 中等价格。

GPT-4.1 nano OpenAI 视觉 Cache 工具
上下文 1M
输出 32K
输入价 $0.1/1M
输出价 $0.4/1M
缓存命中价 $0.025/1M
发布 2025-04

极致便宜 + 1M 上下文,适合海量条目预处理。

GPT-4o 老款 OpenAI 视觉 音频 Cache 工具
上下文 128K
输出 16K
输入价 $2.5/1M
输出价 $10/1M
缓存命中价 $1.25/1M
发布 2024-05

上一代旗舰,多模态全 + Realtime API;新项目建议直接上 5 系列。

GPT-4o mini 老款 OpenAI 视觉 Cache 工具
上下文 128K
输出 16K
输入价 $0.15/1M
输出价 $0.6/1M
缓存命中价 $0.075/1M
发布 2024-07

已被 gpt-5-mini / nano 取代,仅老项目继续使用。

o3 OpenAI 视觉 推理 工具
上下文 200K
输出 100K
输入价 $2/1M
输出价 $8/1M
缓存命中价 $0.5/1M
发布 2025-04

专门的 reasoning 模型;GPT-5 发布后 o3 仍保留作为对比基线。

o4-mini OpenAI 视觉 推理 工具
上下文 200K
输出 100K
输入价 $1.1/1M
输出价 $4.4/1M
缓存命中价 $0.275/1M
发布 2025-04

低成本 reasoning,多数 agent 场景的性价比首选。

上下文 8K
输出 0K
输入价 $0.13/1M
输出价 免费/1M
发布 2024-01

语义检索 / RAG 索引主力,3072 维。

Claude Opus 4.7 🚩 旗舰 Claude 视觉 Cache 工具
上下文 200K
输出 64K
输入价 $15/1M
输出价 $75/1M
缓存命中价 $1.5/1M
发布 2026-01

Anthropic 当前旗舰;编码、长程任务、tool use 表现最强。

Claude Sonnet 4.6 🚩 旗舰 Claude 视觉 Cache 工具
上下文 200K
输出 64K
输入价 $3/1M
输出价 $15/1M
缓存命中价 $0.3/1M
发布 2025-11

主力性价比型号;性能接近 Opus,价格 1/5。

Claude Haiku 4.5 Claude 视觉 Cache 工具
上下文 200K
输出 64K
输入价 $1/1M
输出价 $5/1M
缓存命中价 $0.1/1M
发布 2025-10

Haiku 系列最新版,定位 GPT-5 nano / Gemini Flash 同档。

Claude Opus 4.1 老款 Claude 视觉 Cache 工具
上下文 200K
输出 32K
输入价 $15/1M
输出价 $75/1M
缓存命中价 $1.5/1M
发布 2025-08

4.7 上线前的旗舰;老项目固定 model ID 仍在使用。

Claude Sonnet 4.5 老款 Claude 视觉 Cache 工具
上下文 200K
输出 64K
输入价 $3/1M
输出价 $15/1M
缓存命中价 $0.3/1M
发布 2025-09

上一代 Sonnet;与 4.6 价格相同,能力略低。

Gemini 2.5 Pro 🚩 旗舰 Gemini 视觉 音频 推理 Cache 工具
上下文 1M
输出 64K
输入价 $1.25/1M
输出价 $10/1M
缓存命中价 $0.31/1M
发布 2025-03

原生多模态;超长上下文 + 视频/音频输入。>200K 输入价格阶梯上调到 $2.50。

Gemini 2.5 Flash Gemini 视觉 音频 Cache 工具
上下文 1M
输出 64K
输入价 $0.3/1M
输出价 $2.5/1M
缓存命中价 $0.075/1M
发布 2025-04

主力性价比型号;多模态 + 中等价格的最佳平衡。

Gemini 2.5 Flash-Lite Gemini 视觉 音频 Cache 工具
上下文 1M
输出 64K
输入价 $0.1/1M
输出价 $0.4/1M
缓存命中价 $0.025/1M
发布 2025-06

极致便宜的 Gemini 衍生型;分类 / 简单抽取场景。

Gemini 2.0 Flash 老款 Gemini 视觉 音频 工具
上下文 1M
输出 8K
输入价 $0.1/1M
输出价 $0.4/1M
发布 2024-12

上一代旗舰 Flash;新项目建议直接 2.5。

Grok 4 🚩 旗舰 Grok 视觉 推理 工具
上下文 256K
输出 64K
输入价 $3/1M
输出价 $15/1M
发布 2025-07

xAI 当前旗舰;带搜索集成,X / Twitter 实时信息接入。

Grok 3 老款 Grok 工具
上下文 128K
输出 32K
输入价 $3/1M
输出价 $15/1M
发布 2025-02

基础对话型号。

Grok 3 mini Grok 工具
上下文 128K
输出 32K
输入价 $0.3/1M
输出价 $0.5/1M
发布 2025-02

便宜的 reasoning lite,部分场景对标 o4-mini。

Mistral Large 2 Mistral 视觉 工具
上下文 128K
输出 8K
输入价 $2/1M
输出价 $6/1M
发布 2024-11

欧盟系旗舰,多语言 + 函数调用稳。

Mistral Medium 3 Mistral 视觉 工具
上下文 128K
输出 8K
输入价 $0.4/1M
输出价 $2/1M
发布 2025-05

主力性价比 Mistral,企业本地部署可选。

Mistral Small 3 Mistral 工具
上下文 128K
输出 8K
输入价 $0.1/1M
输出价 $0.3/1M
发布 2025-03

便宜小型号;24B 开源权重可本地。

Codestral 2501 Mistral 工具
上下文 256K
输出 8K
输入价 $0.3/1M
输出价 $0.9/1M
发布 2025-01

代码专用;fill-in-the-middle / 多语言代码补全。

Llama 4 Scout Llama 视觉 工具
上下文 10M
输出 8K
输入价 $0.18/1M
输出价 $0.59/1M
发布 2025-04

10M 上下文(开源破纪录);MoE 架构 17B 激活参数。

Llama 4 Maverick Llama 视觉 工具
上下文 1M
输出 8K
输入价 $0.27/1M
输出价 $0.85/1M
发布 2025-04

MoE 128 专家版本;多语言多模态。

Llama 3.3 70B Llama 工具
上下文 128K
输出 8K
输入价 $0.88/1M
输出价 $0.88/1M
发布 2024-12

上一代 Llama 性能最稳的开源型号;本地化首选。

Llama 3.1 405B 老款 Llama 工具
上下文 128K
输出 8K
输入价 $3.5/1M
输出价 $3.5/1M
发布 2024-07

405B 巨型开源;本地部署成本极高,多通过云推理。

DeepSeek-V3.2 🚩 旗舰 DeepSeek Cache 工具 国内直连
上下文 128K
输出 8K
输入价 ¥2/1M
输出价 ¥8/1M
缓存命中价 ¥0.5/1M
发布 2025-09

V3.2-Exp 引入 sparse attention,价格相比 V3 砍半。性价比之王。

DeepSeek-R1 DeepSeek 推理 Cache 工具 国内直连
上下文 64K
输出 32K
输入价 ¥4/1M
输出价 ¥16/1M
缓存命中价 ¥1/1M
发布 2025-01

R1 reasoning 模型,性能对标 o3 中端但价格 1/10。

Qwen3-Max 🚩 旗舰 Qwen 视觉 工具 国内直连
上下文 256K
输出 32K
输入价 ¥12/1M
输出价 ¥60/1M
发布 2025-09

阿里通义旗舰;支持 256K 长上下文。

Qwen Plus Qwen 视觉 Cache 工具 国内直连
上下文 128K
输出 8K
输入价 ¥0.8/1M
输出价 ¥2/1M
缓存命中价 ¥0.32/1M
发布 2025-04

主力性价比;ToB 业务首选。

Qwen Turbo Qwen 工具 国内直连
上下文 1M
输出 8K
输入价 ¥0.3/1M
输出价 ¥0.6/1M
发布 2025-02

1M 上下文 + 极低价;长文档批处理。

Qwen3-Coder Plus Qwen 工具 国内直连
上下文 1M
输出 32K
输入价 ¥4/1M
输出价 ¥16/1M
发布 2025-09

代码 / agent 专用;1M 上下文便于全仓库读懂。

Qwen-VL Max Qwen 视觉 工具 国内直连
上下文 32K
输出 8K
输入价 ¥3/1M
输出价 ¥9/1M
发布 2025-01

视觉理解专款,文档 / 截图 / 图表识别。

GLM-4.6 🚩 旗舰 GLM Cache 工具 国内直连
上下文 200K
输出 32K
输入价 ¥2/1M
输出价 ¥8/1M
缓存命中价 ¥0.5/1M
发布 2025-09

智谱当前旗舰;agent / coding 双优化。

GLM-4-Plus 老款 GLM 工具 国内直连
上下文 128K
输出 4K
输入价 ¥5/1M
输出价 ¥5/1M
发布 2024-09

老旗舰,部分政企客户合规通道仍在用。

GLM-4-Air GLM 工具 国内直连
上下文 128K
输出 4K
输入价 ¥0.5/1M
输出价 ¥0.5/1M
发布 2024-06

中端性价比;并发限额宽松。

GLM-4-Flash GLM 工具 国内直连
上下文 128K
输出 4K
输入价 免费/1M
输出价 免费/1M
发布 2024-08

免费可商用;速率限制 2 RPS / 1M TPM,原型 / 个人项目首选。

GLM-4V-Plus GLM 视觉 国内直连
上下文 16K
输出 4K
输入价 ¥4/1M
输出价 ¥4/1M
发布 2024-09

视觉 + 视频理解(支持视频帧序列)。

Kimi K2 🚩 旗舰 Kimi 推理 Cache 工具 国内直连
上下文 256K
输出 32K
输入价 ¥4/1M
输出价 ¥16/1M
缓存命中价 ¥1/1M
发布 2025-09

K2 reasoning 旗舰;MoE 1T 参数。

Moonshot v1 128K Kimi Cache 工具 国内直连
上下文 128K
输出 8K
输入价 ¥60/1M
输出价 ¥60/1M
缓存命中价 ¥6/1M
发布 2024-03

通用对话长上下文型号;价格偏高建议搭配 cache 用。

Moonshot v1 32K Kimi Cache 工具 国内直连
上下文 32K
输出 8K
输入价 ¥24/1M
输出价 ¥24/1M
缓存命中价 ¥2.4/1M
发布 2024-03

中等上下文 + 中等价格。

Moonshot v1 8K Kimi Cache 工具 国内直连
上下文 8K
输出 8K
输入价 ¥12/1M
输出价 ¥12/1M
缓存命中价 ¥1.2/1M
发布 2024-03

便宜的小上下文型号。

Moonshot v1 Vision 128K Kimi 视觉 工具 国内直连
上下文 128K
输出 8K
输入价 ¥60/1M
输出价 ¥60/1M
发布 2025-01

Kimi 视觉版本,128K 上下文。

Doubao 1.6 (Seed) 🚩 旗舰 豆包 视觉 Cache 工具 国内直连
上下文 256K
输出 16K
输入价 ¥0.8/1M
输出价 ¥8/1M
缓存命中价 ¥0.16/1M
发布 2025-06

豆包当前主力;多模态 + 长上下文 + 极低输入价。

Doubao 1.5 Pro 256K 老款 豆包 工具 国内直连
上下文 256K
输出 12K
输入价 ¥5/1M
输出价 ¥9/1M
发布 2025-01

上一代长文档 Pro。

Doubao 1.5 Pro 32K 豆包 视觉 工具 国内直连
上下文 32K
输出 12K
输入价 ¥0.8/1M
输出价 ¥2/1M
发布 2025-01

中等上下文 + 视觉版本。

Doubao 1.5 Lite 豆包 工具 国内直连
上下文 32K
输出 12K
输入价 ¥0.3/1M
输出价 ¥0.6/1M
发布 2025-01

便宜量大,分类 / 抽取首选。

ERNIE 4.5 Turbo 128K 🚩 旗舰 ERNIE 视觉 工具 国内直连
上下文 128K
输出 8K
输入价 ¥4/1M
输出价 ¥16/1M
发布 2025-04

文心 4.5 主力;输出能力比 4.0 提升明显。

ERNIE Speed 128K ERNIE 国内直连
上下文 128K
输出 8K
输入价 ¥0.4/1M
输出价 ¥0.8/1M
发布 2024-04

便宜的 ERNIE 衍生型;长文本批处理。

ERNIE Lite 8K ERNIE 国内直连
上下文 8K
输出 4K
输入价 免费/1M
输出价 免费/1M
发布 2024-03

免费可商用 lite 版本;速率受限。

abab6.5s MiniMax 工具 国内直连
上下文 245K
输出 8K
输入价 ¥1/1M
输出价 ¥1/1M
发布 2024-05

MiniMax 主力对话;245K 上下文性价比高。

大模型 API 一站速查——50+ 主流 LLM 按 13 家厂商整理(OpenAI / Anthropic / Google / xAI / Mistral / Meta / DeepSeek / Qwen / 智谱 / Kimi / 豆包 / 文心 / MiniMax)。每条给:

  • model ID(点击代码框直接复制)
  • API endpoint(厂商卡片里复制 base URL)
  • 上下文 / 输出 token 上限
  • 输入 / 输出 / Prompt Cache 命中三档价格(USD 海外 / CNY 国内)
  • 能力标签:视觉 · 音频 · 工具调用 · 推理 · Cache · 国内直连 · 旗舰
  • 快照日期 + 官方定价页直链

选型决策树(30 秒版)

你的需求推荐
国内合规 + 性价比之王DeepSeek V3.2(¥2/¥8)+ R1 兜底推理
国内合规 + 大厂稳定性Qwen Plus 主力 + Qwen Max 兜底高难任务
海外旗舰编程 / AgentClaude Opus 4.7(编码强)/ Sonnet 4.6 性价比
海外极致便宜跑量GPT-5 nano($0.05/$0.4)/ Gemini 2.5 Flash-Lite
1M+ 长文档 / 全仓代码理解Gemini 2.5 ProLlama 4 Scout 10M
视觉 / OCR / 截图理解Gemini 2.5 Pro / Claude Opus / Qwen-VL Max
搞推理(数学 / 算法)DeepSeek-R1 / o3 / Kimi K2
个人玩耍免费GLM-4-Flash(不限商用免费)/ ERNIE Lite

用法

  • 上方搜索框直接输 model ID(gpt-5)/ 中文(视觉 / 推理)/ 厂商名(claude
  • 「厂商」「能力」chips 多选过滤,组合”国内直连 + 视觉”等查询
  • 点 model ID 代码框 → 复制 ID(最高频操作)
  • 点厂商卡里的 base URL → 复制 endpoint URL
  • 点模型名 → 复制带锚点的页面 URL,方便分享给同事

校验

数据快照 = SNAPSHOT 字段(页面顶部显示)。每个厂商卡片右上角有「定价 ↗」直链到官方页,真要进预算前一定核实当前价格——大厂半年级别会有降价或新模型替换。

📍使用场景

  • 选模型 / 写预算立项要做 AI 功能,需要在多个模型间比性能和成本。一站对照上下文 / 输入价 / 输出价 / 缓存价,用「能力」chips 一键过滤"支持工具调用"或"支持视觉"的子集。
  • 国内合规接入公司禁止访问境外 API,按"国内直连"chips 筛出 DeepSeek / Qwen / GLM / Kimi / 豆包 / ERNIE / MiniMax,对比国内厂商之间的价格和能力差异。
  • 复制 model ID 写代码文档里 model 字段的字符串永远写错(claude-sonnet-4-6 还是 claude-3.5-sonnet-20240620?),点模型名上方的代码框直接复制,避免看错。
  • 排查 API 报错调用报 model not found / max_tokens exceeded 时,对照本表确认你用的 model ID 是否过期、context / output 上限是不是超了。
  • Prompt cache 成本测算评估"加缓存能省多少",对照「缓存命中价」一栏——Claude / OpenAI / DeepSeek / Gemini / 豆包 都有 prompt cache,命中价通常是输入价的 1/10。

常见问题

数据多久更新一次?我看到的价格还能信吗?

这是一份手工整理的快照,不是实时同步。模型 ID / endpoint / 上下文上限这些"结构性"信息变得慢,价格则每 3–6 个月可能调整一次(OpenAI 2024–2025 年降过 4 次价,Anthropic Sonnet 4 价格从 $3/$15 一直稳定)。用法:(1) 看趋势 / 选型时直接用本表;(2) 真要计入预算前,点厂商卡片里的"定价 ↗"链接到官方页核实当前数字;(3) 价格不太对的发反馈给我们更新。

国内能直接调用 OpenAI / Anthropic / Google API 吗?

默认不行。三家境外大厂的 API 域名(api.openai.com / api.anthropic.com / generativelanguage.googleapis.com)国内 DNS 多被劫持或解析到不可达 IP,HTTPS 握手会超时合规接入路径:(1) Azure OpenAI——OpenAI 模型在微软云上,包括 Azure 中国版(仅限企业实名);(2) AWS Bedrock——可调 Claude / Llama / Mistral;(3) GCP Vertex AI——可调 Gemini / Claude(部分区域);(4) 第三方代理 / OpenRouter——个人 / 小团队常用,注意合规风险;(5) 境外服务器中转——技术 ok 但合规复杂。纯国内合规需求 → 直接用 DeepSeek / Qwen / GLM / Kimi / 豆包 / ERNIE / MiniMax,效果在多数业务场景已够用。

model ID 一直在变(claude-3-5-sonnet-20240620、claude-sonnet-4-5、claude-sonnet-4-6 …)怎么办?

两个原则:(1) 生产代码用日期版本号(claude-sonnet-4-5-20250929、gpt-4o-2024-11-20),保证今天上线明天表现一致;(2) 实验 / 玩耍用别名(claude-sonnet-latest、gpt-4o),自动跟最新;但 API 客户端要做好 model 升级带来的回归测试。避坑:Anthropic 的 latest 别名是不带日期的版本号(如 claude-sonnet-4-6),不是字面 "latest"。OpenAI 的 -latest 后缀只有少数模型有(如 chatgpt-4o-latest),其余看 deprecation 日期主动迁移。

上下文 200K 是输入还是输入+输出?

绝大多数模型是"输入 + 输出 ≤ 200K"——你给的 prompt + 历史对话 + 模型最终回复全部塞进 200K 总额度。OpenAI 的 200K 模型只能输出 100K 左右,剩下 100K 给输入;Claude / Gemini 类似,需要在 system+user+history 之外预留输出空间。长上下文模型(1M)通常对输出有独立硬上限(如 8K 或 32K),不能用 1M 全部去输出。实操:先看本表的"输出"一栏决定单次最大产出;输入侧再用 tiktoken / tokenizer 按真实 token 计数(详见 llm-token 工具)。

Prompt cache 怎么用?真能省钱吗?

真能。三家旗舰都有但触发条件不同:(1) Anthropic — 在 messages 里给某段加 cache_control: {type: "ephemeral"} 标记,5 分钟 / 1 小时双 TTL,命中价 0.1×;(2) OpenAI — 自动缓存重复前缀(≥1024 tokens 触发),无需配置,命中价 0.5×(GPT-4o)/ 0.1×(GPT-5);(3) Gemini — 显式 createCachedContent + cachedContent 参数,最低 5 分钟 TTL;(4) DeepSeek — 自动 KV cache,命中价 0.25× 输入价;(5) 豆包 / GLM — 类 OpenAI 自动机制。适用场景:长 system prompt(>2K tokens)+ 大量短 user message 的对话型任务。不适用:每次都换 system prompt 的搜索 / 流水线任务。

国内厂商用人民币计价,海外用美元,怎么对比?

汇率口径上 1 USD ≈ 7 CNY 是最近两年常用换算但要意识到:海外 + 国内的"等价能力"不一样——DeepSeek-V3 输入 ¥2 / 1M tokens 大约等于 $0.28,比 GPT-5 mini ($0.25) 还便宜,性能也接近;Qwen-Plus ¥0.8 / 1M ≈ $0.11,比 GPT-5 nano ($0.05) 贵但比 mini 便宜。实操选型时不要光看绝对价:(1) 国内业务出海合规、上下文要求 1M+ → 海外旗舰;(2) 国内 ToB / 合规优先 → DeepSeek(性价比无敌)+ Qwen / GLM 兜底;(3) 极端便宜跑量 → GLM-4-Flash 或 ERNIE Lite 免费档够用。

OpenAI 兼容是什么意思?我能直接换 baseURL 调国产模型吗?

多数情况可以。"OpenAI 兼容"指厂商提供 /v1/chat/completions 端点,请求 / 响应格式都和 OpenAI 一致。只换两个东西:(1) OPENAI_API_KEY → 国产厂商的 key;(2) OPENAI_BASE_URL → 表中"endpoint"列对应 URL;(3) model → 对应国产 model ID。典型差异要测:(1) function calling / tool use —— 厂商实现质量参差,DeepSeek / Qwen 较好,部分小模型经常返回畸形 tool_calls;(2) structured output —— 严格 JSON schema 强制只有 OpenAI / Gemini / Anthropic 旗舰能保证;(3) 流式格式 —— 国产偶尔多 / 少几行 data: 包装;(4) Anthropic / Gemini 不是默认 OpenAI 兼容——Claude 提供 /v1/chat/completions 别名端点,Gemini 提供 /v1beta/openai/,但部分参数(如 tool_choice 行为)和 OpenAI 不完全一致。

推理(reasoning)模型和普通模型怎么选?

先看任务类型:(1) 数学 / 逻辑 / 代码 / 规划 → reasoning 模型(o3 / o4-mini / GPT-5 / Claude Opus 4.7 with thinking / DeepSeek-R1 / GLM-Zero / Kimi K2),它们会在响应前先内部"思考"几千 tokens;(2) 对话 / 文本生成 / RAG 抽取 / 简单分类 → 普通模型,更快更便宜。要注意:(1) reasoning 模型输出会先有一段不可见的思考 tokens,按"输出 token"计费,单次可达数千;(2) 延迟显著高——o3 单次响应 10–60 秒常见;(3) 不要在循环里 / Agent 高频调用 reasoning 模型,会爆账单;(4) GPT-5 / Claude 4.x 旗舰已经在内部融合了 reasoning + 常规模式,可通过参数(如 reasoning_effortthinking)按需开启。