大模型 API 速查 — 56 个主流模型一站对照（GPT-5/Claude/Gemini/DeepSeek/Qwen/Kimi/豆包）| 365工具箱

📋 厂商 / API endpoint 速查

OpenAI

需走代理 · OpenAI 兼容

定价 ↗

国内一律需代理；Azure OpenAI（global / 中国版）是企业可选合规通道。

Anthropic Claude

需走代理 · 专属 SDK

定价 ↗

专属 SDK；也提供 OpenAI-compatible 端点 /v1/chat/completions。AWS Bedrock / GCP Vertex 可走第三方接入。

Google Gemini

需走代理 · OpenAI 兼容

定价 ↗

AI Studio + Vertex AI 双套体系；OpenAI-compatible 端点位于 /v1beta/openai/。

xAI Grok

需走代理 · OpenAI 兼容

定价 ↗

Mistral AI

需走代理 · OpenAI 兼容

定价 ↗

Meta Llama

需走代理 · OpenAI 兼容

定价 ↗

Meta 不提供官方推理 API；下方价格为 Together AI 的托管价。本地部署成本另算。

DeepSeek 深度求索

国内直连 · OpenAI 兼容

定价 ↗

完全 OpenAI 兼容；夜间（00:30–08:30 北京）有阶梯折扣。

Qwen 通义千问 (阿里)

国内直连 · OpenAI 兼容

定价 ↗

百炼平台；与 Qwen 国际站 (dashscope-intl.aliyuncs.com) 价格不同。

智谱 GLM

国内直连 · OpenAI 兼容

定价 ↗

glm-4-flash 长期免费可用，做轻量任务首选。

Moonshot Kimi

国内直连 · OpenAI 兼容

定价 ↗

豆包 (字节火山方舟)

国内直连 · OpenAI 兼容

定价 ↗

调用前需在火山方舟创建"接入点"，model 字段填接入点 ID 而非模型名。

百度文心 ERNIE

国内直连 · OpenAI 兼容

定价 ↗

千帆 v2 接口已支持 OpenAI 兼容格式（旧版需 access_token 流程）。

MiniMax

国内直连 · 专属 SDK

定价 ↗

🔎 模型对照

厂商

能力

GPT-5 🚩 旗舰 OpenAI 视觉 Cache 工具

上下文 400K

输出 128K

输入价 $1.25/1M

输出价 $10/1M

缓存命中价 $0.125/1M

发布 2025-08

OpenAI 当前旗舰 reasoning 模型，统一 GPT + o-series 路线。

GPT-5 mini OpenAI 视觉 Cache 工具

上下文 400K

输出 128K

输入价 $0.25/1M

输出价 $2/1M

缓存命中价 $0.025/1M

发布 2025-08

GPT-5 的缩小高性价比版本。

GPT-5 nano OpenAI 视觉 Cache 工具

上下文 400K

输出 128K

输入价 $0.05/1M

输出价 $0.4/1M

缓存命中价 $0.005/1M

发布 2025-08

极致便宜的 GPT-5 衍生型，分类 / 归一化 / 简单抽取场景。

GPT-4.1 OpenAI 视觉 Cache 工具

上下文 1M

输出 32K

输入价 $2/1M

输出价 $8/1M

缓存命中价 $0.5/1M

发布 2025-04

1M 上下文长文档专用；编码 / 工具调用稳定性高。

GPT-4.1 mini OpenAI 视觉 Cache 工具

上下文 1M

输出 32K

输入价 $0.4/1M

输出价 $1.6/1M

缓存命中价 $0.1/1M

发布 2025-04

4.1 系列的中端，长上下文 + 中等价格。

GPT-4.1 nano OpenAI 视觉 Cache 工具

上下文 1M

输出 32K

输入价 $0.1/1M

输出价 $0.4/1M

缓存命中价 $0.025/1M

发布 2025-04

极致便宜 + 1M 上下文，适合海量条目预处理。

GPT-4o 老款 OpenAI 视觉音频 Cache 工具

上下文 128K

输出 16K

输入价 $2.5/1M

输出价 $10/1M

缓存命中价 $1.25/1M

发布 2024-05

上一代旗舰，多模态全 + Realtime API；新项目建议直接上 5 系列。

GPT-4o mini 老款 OpenAI 视觉 Cache 工具

上下文 128K

输出 16K

输入价 $0.15/1M

输出价 $0.6/1M

缓存命中价 $0.075/1M

发布 2024-07

已被 gpt-5-mini / nano 取代，仅老项目继续使用。

o3 OpenAI 视觉推理工具

上下文 200K

输出 100K

输入价 $2/1M

输出价 $8/1M

缓存命中价 $0.5/1M

发布 2025-04

专门的 reasoning 模型；GPT-5 发布后 o3 仍保留作为对比基线。

o4-mini OpenAI 视觉推理工具

上下文 200K

输出 100K

输入价 $1.1/1M

输出价 $4.4/1M

缓存命中价 $0.275/1M

发布 2025-04

低成本 reasoning，多数 agent 场景的性价比首选。

Embedding 3 large OpenAI

上下文 8K

输出 0K

输入价 $0.13/1M

输出价免费/1M

发布 2024-01

语义检索 / RAG 索引主力，3072 维。

Claude Opus 4.7 🚩 旗舰 Claude 视觉 Cache 工具

上下文 200K

输出 64K

输入价 $15/1M

输出价 $75/1M

缓存命中价 $1.5/1M

发布 2026-01

Anthropic 当前旗舰；编码、长程任务、tool use 表现最强。

Claude Sonnet 4.6 🚩 旗舰 Claude 视觉 Cache 工具

上下文 200K

输出 64K

输入价 $3/1M

输出价 $15/1M

缓存命中价 $0.3/1M

发布 2025-11

主力性价比型号；性能接近 Opus，价格 1/5。

Claude Haiku 4.5 Claude 视觉 Cache 工具

上下文 200K

输出 64K

输入价 $1/1M

输出价 $5/1M

缓存命中价 $0.1/1M

发布 2025-10

Haiku 系列最新版，定位 GPT-5 nano / Gemini Flash 同档。

Claude Opus 4.1 老款 Claude 视觉 Cache 工具

上下文 200K

输出 32K

输入价 $15/1M

输出价 $75/1M

缓存命中价 $1.5/1M

发布 2025-08

4.7 上线前的旗舰；老项目固定 model ID 仍在使用。

Claude Sonnet 4.5 老款 Claude 视觉 Cache 工具

上下文 200K

输出 64K

输入价 $3/1M

输出价 $15/1M

缓存命中价 $0.3/1M

发布 2025-09

上一代 Sonnet；与 4.6 价格相同，能力略低。

Gemini 2.5 Pro 🚩 旗舰 Gemini 视觉音频推理 Cache 工具

上下文 1M

输出 64K

输入价 $1.25/1M

输出价 $10/1M

缓存命中价 $0.31/1M

发布 2025-03

原生多模态；超长上下文 + 视频/音频输入。>200K 输入价格阶梯上调到 $2.50。

Gemini 2.5 Flash Gemini 视觉音频 Cache 工具

上下文 1M

输出 64K

输入价 $0.3/1M

输出价 $2.5/1M

缓存命中价 $0.075/1M

发布 2025-04

主力性价比型号；多模态 + 中等价格的最佳平衡。

Gemini 2.5 Flash-Lite Gemini 视觉音频 Cache 工具

上下文 1M

输出 64K

输入价 $0.1/1M

输出价 $0.4/1M

缓存命中价 $0.025/1M

发布 2025-06

极致便宜的 Gemini 衍生型；分类 / 简单抽取场景。

Gemini 2.0 Flash 老款 Gemini 视觉音频工具

上下文 1M

输出 8K

输入价 $0.1/1M

输出价 $0.4/1M

发布 2024-12

上一代旗舰 Flash；新项目建议直接 2.5。

Grok 4 🚩 旗舰 Grok 视觉推理工具

上下文 256K

输出 64K

输入价 $3/1M

输出价 $15/1M

发布 2025-07

xAI 当前旗舰；带搜索集成，X / Twitter 实时信息接入。

Grok 3 老款 Grok 工具

上下文 128K

输出 32K

输入价 $3/1M

输出价 $15/1M

发布 2025-02

基础对话型号。

Grok 3 mini Grok 工具

上下文 128K

输出 32K

输入价 $0.3/1M

输出价 $0.5/1M

发布 2025-02

便宜的 reasoning lite，部分场景对标 o4-mini。

Mistral Large 2 Mistral 视觉工具

上下文 128K

输出 8K

输入价 $2/1M

输出价 $6/1M

发布 2024-11

欧盟系旗舰，多语言 + 函数调用稳。

Mistral Medium 3 Mistral 视觉工具

上下文 128K

输出 8K

输入价 $0.4/1M

输出价 $2/1M

发布 2025-05

主力性价比 Mistral，企业本地部署可选。

Mistral Small 3 Mistral 工具

上下文 128K

输出 8K

输入价 $0.1/1M

输出价 $0.3/1M

发布 2025-03

便宜小型号；24B 开源权重可本地。

Codestral 2501 Mistral 工具

上下文 256K

输出 8K

输入价 $0.3/1M

输出价 $0.9/1M

发布 2025-01

代码专用；fill-in-the-middle / 多语言代码补全。

Llama 4 Scout Llama 视觉工具

上下文 10M

输出 8K

输入价 $0.18/1M

输出价 $0.59/1M

发布 2025-04

10M 上下文（开源破纪录）；MoE 架构 17B 激活参数。

Llama 4 Maverick Llama 视觉工具

上下文 1M

输出 8K

输入价 $0.27/1M

输出价 $0.85/1M

发布 2025-04

MoE 128 专家版本；多语言多模态。

Llama 3.3 70B Llama 工具

上下文 128K

输出 8K

输入价 $0.88/1M

输出价 $0.88/1M

发布 2024-12

上一代 Llama 性能最稳的开源型号；本地化首选。

Llama 3.1 405B 老款 Llama 工具

上下文 128K

输出 8K

输入价 $3.5/1M

输出价 $3.5/1M

发布 2024-07

405B 巨型开源；本地部署成本极高，多通过云推理。

DeepSeek-V3.2 🚩 旗舰 DeepSeek Cache 工具国内直连

上下文 128K

输出 8K

输入价 ¥2/1M

输出价 ¥8/1M

缓存命中价 ¥0.5/1M

发布 2025-09

V3.2-Exp 引入 sparse attention，价格相比 V3 砍半。性价比之王。

DeepSeek-R1 DeepSeek 推理 Cache 工具国内直连

上下文 64K

输出 32K

输入价 ¥4/1M

输出价 ¥16/1M

缓存命中价 ¥1/1M

发布 2025-01

R1 reasoning 模型，性能对标 o3 中端但价格 1/10。

Qwen3-Max 🚩 旗舰 Qwen 视觉工具国内直连

上下文 256K

输出 32K

输入价 ¥12/1M

输出价 ¥60/1M

发布 2025-09

阿里通义旗舰；支持 256K 长上下文。

Qwen Plus Qwen 视觉 Cache 工具国内直连

上下文 128K

输出 8K

输入价 ¥0.8/1M

输出价 ¥2/1M

缓存命中价 ¥0.32/1M

发布 2025-04

主力性价比；ToB 业务首选。

Qwen Turbo Qwen 工具国内直连

上下文 1M

输出 8K

输入价 ¥0.3/1M

输出价 ¥0.6/1M

发布 2025-02

1M 上下文 + 极低价；长文档批处理。

Qwen3-Coder Plus Qwen 工具国内直连

上下文 1M

输出 32K

输入价 ¥4/1M

输出价 ¥16/1M

发布 2025-09

代码 / agent 专用；1M 上下文便于全仓库读懂。

Qwen-VL Max Qwen 视觉工具国内直连

上下文 32K

输出 8K

输入价 ¥3/1M

输出价 ¥9/1M

发布 2025-01

视觉理解专款，文档 / 截图 / 图表识别。

GLM-4.6 🚩 旗舰 GLM Cache 工具国内直连

上下文 200K

输出 32K

输入价 ¥2/1M

输出价 ¥8/1M

缓存命中价 ¥0.5/1M

发布 2025-09

智谱当前旗舰；agent / coding 双优化。

GLM-4-Plus 老款 GLM 工具国内直连

上下文 128K

输出 4K

输入价 ¥5/1M

输出价 ¥5/1M

发布 2024-09

老旗舰，部分政企客户合规通道仍在用。

GLM-4-Air GLM 工具国内直连

上下文 128K

输出 4K

输入价 ¥0.5/1M

输出价 ¥0.5/1M

发布 2024-06

中端性价比；并发限额宽松。

GLM-4-Flash GLM 工具国内直连

上下文 128K

输出 4K

输入价免费/1M

输出价免费/1M

发布 2024-08

免费可商用；速率限制 2 RPS / 1M TPM，原型 / 个人项目首选。

GLM-4V-Plus GLM 视觉国内直连

上下文 16K

输出 4K

输入价 ¥4/1M

输出价 ¥4/1M

发布 2024-09

视觉 + 视频理解（支持视频帧序列）。

Kimi K2 🚩 旗舰 Kimi 推理 Cache 工具国内直连

上下文 256K

输出 32K

输入价 ¥4/1M

输出价 ¥16/1M

缓存命中价 ¥1/1M

发布 2025-09

K2 reasoning 旗舰；MoE 1T 参数。

Moonshot v1 128K Kimi Cache 工具国内直连

上下文 128K

输出 8K

输入价 ¥60/1M

输出价 ¥60/1M

缓存命中价 ¥6/1M

发布 2024-03

通用对话长上下文型号；价格偏高建议搭配 cache 用。

Moonshot v1 32K Kimi Cache 工具国内直连

上下文 32K

输出 8K

输入价 ¥24/1M

输出价 ¥24/1M

缓存命中价 ¥2.4/1M

发布 2024-03

中等上下文 + 中等价格。

Moonshot v1 8K Kimi Cache 工具国内直连

上下文 8K

输出 8K

输入价 ¥12/1M

输出价 ¥12/1M

缓存命中价 ¥1.2/1M

发布 2024-03

便宜的小上下文型号。

Moonshot v1 Vision 128K Kimi 视觉工具国内直连

上下文 128K

输出 8K

输入价 ¥60/1M

输出价 ¥60/1M

发布 2025-01

Kimi 视觉版本，128K 上下文。

Doubao 1.6 (Seed) 🚩 旗舰豆包视觉 Cache 工具国内直连

上下文 256K

输出 16K

输入价 ¥0.8/1M

输出价 ¥8/1M

缓存命中价 ¥0.16/1M

发布 2025-06

豆包当前主力；多模态 + 长上下文 + 极低输入价。

Doubao 1.5 Pro 256K 老款豆包工具国内直连

上下文 256K

输出 12K

输入价 ¥5/1M

输出价 ¥9/1M

发布 2025-01

上一代长文档 Pro。

Doubao 1.5 Pro 32K 豆包视觉工具国内直连

上下文 32K

输出 12K

输入价 ¥0.8/1M

输出价 ¥2/1M

发布 2025-01

中等上下文 + 视觉版本。

Doubao 1.5 Lite 豆包工具国内直连

上下文 32K

输出 12K

输入价 ¥0.3/1M

输出价 ¥0.6/1M

发布 2025-01

便宜量大，分类 / 抽取首选。

ERNIE 4.5 Turbo 128K 🚩 旗舰 ERNIE 视觉工具国内直连

上下文 128K

输出 8K

输入价 ¥4/1M

输出价 ¥16/1M

发布 2025-04

文心 4.5 主力；输出能力比 4.0 提升明显。

ERNIE Speed 128K ERNIE 国内直连

上下文 128K

输出 8K

输入价 ¥0.4/1M

输出价 ¥0.8/1M

发布 2024-04

便宜的 ERNIE 衍生型；长文本批处理。

ERNIE Lite 8K ERNIE 国内直连

上下文 8K

输出 4K

输入价免费/1M

输出价免费/1M

发布 2024-03

免费可商用 lite 版本；速率受限。

abab6.5s MiniMax 工具国内直连

上下文 245K

输出 8K

输入价 ¥1/1M

输出价 ¥1/1M

发布 2024-05

MiniMax 主力对话；245K 上下文性价比高。

大模型 API 一站速查——50+ 主流 LLM 按 13 家厂商整理（OpenAI / Anthropic / Google / xAI / Mistral / Meta / DeepSeek / Qwen / 智谱 / Kimi / 豆包 / 文心 / MiniMax）。每条给：

model ID（点击代码框直接复制）
API endpoint（厂商卡片里复制 base URL）
上下文 / 输出 token 上限
输入 / 输出 / Prompt Cache 命中三档价格（USD 海外 / CNY 国内）
能力标签：视觉 · 音频 · 工具调用 · 推理 · Cache · 国内直连 · 旗舰
快照日期 + 官方定价页直链

选型决策树（30 秒版）

你的需求	推荐
国内合规 + 性价比之王	DeepSeek V3.2（¥2/¥8）+ R1 兜底推理
国内合规 + 大厂稳定性	Qwen Plus 主力 + Qwen Max 兜底高难任务
海外旗舰编程 / Agent	Claude Opus 4.7（编码强）/ Sonnet 4.6 性价比
海外极致便宜跑量	GPT-5 nano（$0.05/$0.4）/ Gemini 2.5 Flash-Lite
1M+ 长文档 / 全仓代码理解	Gemini 2.5 Pro 或 Llama 4 Scout 10M
视觉 / OCR / 截图理解	Gemini 2.5 Pro / Claude Opus / Qwen-VL Max
搞推理（数学 / 算法）	DeepSeek-R1 / o3 / Kimi K2
个人玩耍免费	GLM-4-Flash（不限商用免费）/ ERNIE Lite

用法

上方搜索框直接输 model ID（gpt-5）/ 中文（视觉 / 推理）/ 厂商名（claude）
「厂商」「能力」chips 多选过滤，组合”国内直连 + 视觉”等查询
点 model ID 代码框 → 复制 ID（最高频操作）
点厂商卡里的 base URL → 复制 endpoint URL
点模型名 → 复制带锚点的页面 URL，方便分享给同事

校验

数据快照 = SNAPSHOT 字段（页面顶部显示）。每个厂商卡片右上角有「定价 ↗」直链到官方页，真要进预算前一定核实当前价格——大厂半年级别会有降价或新模型替换。

📍使用场景

选模型 / 写预算立项要做 AI 功能，需要在多个模型间比性能和成本。一站对照上下文 / 输入价 / 输出价 / 缓存价，用「能力」chips 一键过滤"支持工具调用"或"支持视觉"的子集。
国内合规接入公司禁止访问境外 API，按"国内直连"chips 筛出 DeepSeek / Qwen / GLM / Kimi / 豆包 / ERNIE / MiniMax，对比国内厂商之间的价格和能力差异。
复制 model ID 写代码文档里 model 字段的字符串永远写错（claude-sonnet-4-6 还是 claude-3.5-sonnet-20240620？），点模型名上方的代码框直接复制，避免看错。
排查 API 报错调用报 model not found / max_tokens exceeded 时，对照本表确认你用的 model ID 是否过期、context / output 上限是不是超了。
Prompt cache 成本测算评估"加缓存能省多少"，对照「缓存命中价」一栏——Claude / OpenAI / DeepSeek / Gemini / 豆包都有 prompt cache，命中价通常是输入价的 1/10。

❓常见问题

数据多久更新一次？我看到的价格还能信吗？

这是一份手工整理的快照，不是实时同步。模型 ID / endpoint / 上下文上限这些"结构性"信息变得慢，价格则每 3–6 个月可能调整一次（OpenAI 2024–2025 年降过 4 次价，Anthropic Sonnet 4 价格从 $3/$15 一直稳定）。用法：(1) 看趋势 / 选型时直接用本表；(2) 真要计入预算前，点厂商卡片里的"定价 ↗"链接到官方页核实当前数字；(3) 价格不太对的发反馈给我们更新。

国内能直接调用 OpenAI / Anthropic / Google API 吗？

默认不行。三家境外大厂的 API 域名（api.openai.com / api.anthropic.com / generativelanguage.googleapis.com）国内 DNS 多被劫持或解析到不可达 IP，HTTPS 握手会超时。合规接入路径：(1) Azure OpenAI——OpenAI 模型在微软云上，包括 Azure 中国版（仅限企业实名）；(2) AWS Bedrock——可调 Claude / Llama / Mistral；(3) GCP Vertex AI——可调 Gemini / Claude（部分区域）；(4) 第三方代理 / OpenRouter——个人 / 小团队常用，注意合规风险；(5) 境外服务器中转——技术 ok 但合规复杂。纯国内合规需求 → 直接用 DeepSeek / Qwen / GLM / Kimi / 豆包 / ERNIE / MiniMax，效果在多数业务场景已够用。

model ID 一直在变（claude-3-5-sonnet-20240620、claude-sonnet-4-5、claude-sonnet-4-6 …）怎么办？

两个原则：(1) 生产代码用日期版本号（claude-sonnet-4-5-20250929、gpt-4o-2024-11-20），保证今天上线明天表现一致；(2) 实验 / 玩耍用别名（claude-sonnet-latest、gpt-4o），自动跟最新；但 API 客户端要做好 model 升级带来的回归测试。避坑：Anthropic 的 latest 别名是不带日期的版本号（如 claude-sonnet-4-6），不是字面 "latest"。OpenAI 的 -latest 后缀只有少数模型有（如 chatgpt-4o-latest），其余看 deprecation 日期主动迁移。

上下文 200K 是输入还是输入+输出？

绝大多数模型是"输入 + 输出 ≤ 200K"——你给的 prompt + 历史对话 + 模型最终回复全部塞进 200K 总额度。OpenAI 的 200K 模型只能输出 100K 左右，剩下 100K 给输入；Claude / Gemini 类似，需要在 system+user+history 之外预留输出空间。长上下文模型（1M）通常对输出有独立硬上限（如 8K 或 32K），不能用 1M 全部去输出。实操：先看本表的"输出"一栏决定单次最大产出；输入侧再用 tiktoken / tokenizer 按真实 token 计数（详见 llm-token 工具）。

Prompt cache 怎么用？真能省钱吗？

真能。三家旗舰都有但触发条件不同：(1) Anthropic — 在 messages 里给某段加 cache_control: {type: "ephemeral"} 标记，5 分钟 / 1 小时双 TTL，命中价 0.1×；(2) OpenAI — 自动缓存重复前缀（≥1024 tokens 触发），无需配置，命中价 0.5×（GPT-4o）/ 0.1×（GPT-5）；(3) Gemini — 显式 createCachedContent + cachedContent 参数，最低 5 分钟 TTL；(4) DeepSeek — 自动 KV cache，命中价 0.25× 输入价；(5) 豆包 / GLM — 类 OpenAI 自动机制。适用场景：长 system prompt（>2K tokens）+ 大量短 user message 的对话型任务。不适用：每次都换 system prompt 的搜索 / 流水线任务。

国内厂商用人民币计价，海外用美元，怎么对比？

汇率口径上 1 USD ≈ 7 CNY 是最近两年常用换算。但要意识到：海外 + 国内的"等价能力"不一样——DeepSeek-V3 输入 ¥2 / 1M tokens 大约等于 $0.28，比 GPT-5 mini ($0.25) 还便宜，性能也接近；Qwen-Plus ¥0.8 / 1M ≈ $0.11，比 GPT-5 nano ($0.05) 贵但比 mini 便宜。实操选型时不要光看绝对价：(1) 国内业务出海合规、上下文要求 1M+ → 海外旗舰；(2) 国内 ToB / 合规优先 → DeepSeek（性价比无敌）+ Qwen / GLM 兜底；(3) 极端便宜跑量 → GLM-4-Flash 或 ERNIE Lite 免费档够用。

OpenAI 兼容是什么意思？我能直接换 baseURL 调国产模型吗？

多数情况可以。"OpenAI 兼容"指厂商提供 /v1/chat/completions 端点，请求 / 响应格式都和 OpenAI 一致。只换两个东西：(1) OPENAI_API_KEY → 国产厂商的 key；(2) OPENAI_BASE_URL → 表中"endpoint"列对应 URL；(3) model → 对应国产 model ID。典型差异要测：(1) function calling / tool use —— 厂商实现质量参差，DeepSeek / Qwen 较好，部分小模型经常返回畸形 tool_calls；(2) structured output —— 严格 JSON schema 强制只有 OpenAI / Gemini / Anthropic 旗舰能保证；(3) 流式格式 —— 国产偶尔多 / 少几行 data: 包装；(4) Anthropic / Gemini 不是默认 OpenAI 兼容——Claude 提供 /v1/chat/completions 别名端点，Gemini 提供 /v1beta/openai/，但部分参数（如 tool_choice 行为）和 OpenAI 不完全一致。

推理（reasoning）模型和普通模型怎么选？

先看任务类型：(1) 数学 / 逻辑 / 代码 / 规划 → reasoning 模型（o3 / o4-mini / GPT-5 / Claude Opus 4.7 with thinking / DeepSeek-R1 / GLM-Zero / Kimi K2），它们会在响应前先内部"思考"几千 tokens；(2) 对话 / 文本生成 / RAG 抽取 / 简单分类 → 普通模型，更快更便宜。要注意：(1) reasoning 模型输出会先有一段不可见的思考 tokens，按"输出 token"计费，单次可达数千；(2) 延迟显著高——o3 单次响应 10–60 秒常见；(3) 不要在循环里 / Agent 高频调用 reasoning 模型，会爆账单；(4) GPT-5 / Claude 4.x 旗舰已经在内部融合了 reasoning + 常规模式，可通过参数（如 reasoning_effort、thinking）按需开启。

📋 厂商 / API endpoint 速查

🔎 模型对照

选型决策树（30 秒版）

用法

校验

📍使用场景

❓常见问题

🔧相关工具

📚延伸阅读