国内一律需代理;Azure OpenAI(global / 中国版)是企业可选合规通道。
56 个主流大模型 API 一站对照(13 家厂商):每条给 model ID(点击复制)、API endpoint、上下文 / 输出 token 上限、输入 / 输出价格、视觉 / 工具调用 / Reasoning / Prompt Cache 能力、国内可达性。
⚠️ 数据快照:2026-01 · 价格 / 模型 ID 随时变化,下方每个厂商卡片有官方定价页直链可即时核实。
国内一律需代理;Azure OpenAI(global / 中国版)是企业可选合规通道。
专属 SDK;也提供 OpenAI-compatible 端点 /v1/chat/completions。AWS Bedrock / GCP Vertex 可走第三方接入。
AI Studio + Vertex AI 双套体系;OpenAI-compatible 端点位于 /v1beta/openai/。
Meta 不提供官方推理 API;下方价格为 Together AI 的托管价。本地部署成本另算。
完全 OpenAI 兼容;夜间(00:30–08:30 北京)有阶梯折扣。
百炼平台;与 Qwen 国际站 (dashscope-intl.aliyuncs.com) 价格不同。
glm-4-flash 长期免费可用,做轻量任务首选。
调用前需在火山方舟创建"接入点",model 字段填接入点 ID 而非模型名。
千帆 v2 接口已支持 OpenAI 兼容格式(旧版需 access_token 流程)。
OpenAI 当前旗舰 reasoning 模型,统一 GPT + o-series 路线。
GPT-5 的缩小高性价比版本。
极致便宜的 GPT-5 衍生型,分类 / 归一化 / 简单抽取场景。
1M 上下文长文档专用;编码 / 工具调用稳定性高。
4.1 系列的中端,长上下文 + 中等价格。
极致便宜 + 1M 上下文,适合海量条目预处理。
上一代旗舰,多模态全 + Realtime API;新项目建议直接上 5 系列。
已被 gpt-5-mini / nano 取代,仅老项目继续使用。
专门的 reasoning 模型;GPT-5 发布后 o3 仍保留作为对比基线。
低成本 reasoning,多数 agent 场景的性价比首选。
语义检索 / RAG 索引主力,3072 维。
Anthropic 当前旗舰;编码、长程任务、tool use 表现最强。
主力性价比型号;性能接近 Opus,价格 1/5。
Haiku 系列最新版,定位 GPT-5 nano / Gemini Flash 同档。
4.7 上线前的旗舰;老项目固定 model ID 仍在使用。
上一代 Sonnet;与 4.6 价格相同,能力略低。
原生多模态;超长上下文 + 视频/音频输入。>200K 输入价格阶梯上调到 $2.50。
主力性价比型号;多模态 + 中等价格的最佳平衡。
极致便宜的 Gemini 衍生型;分类 / 简单抽取场景。
上一代旗舰 Flash;新项目建议直接 2.5。
xAI 当前旗舰;带搜索集成,X / Twitter 实时信息接入。
基础对话型号。
便宜的 reasoning lite,部分场景对标 o4-mini。
欧盟系旗舰,多语言 + 函数调用稳。
主力性价比 Mistral,企业本地部署可选。
便宜小型号;24B 开源权重可本地。
代码专用;fill-in-the-middle / 多语言代码补全。
10M 上下文(开源破纪录);MoE 架构 17B 激活参数。
MoE 128 专家版本;多语言多模态。
上一代 Llama 性能最稳的开源型号;本地化首选。
405B 巨型开源;本地部署成本极高,多通过云推理。
V3.2-Exp 引入 sparse attention,价格相比 V3 砍半。性价比之王。
R1 reasoning 模型,性能对标 o3 中端但价格 1/10。
阿里通义旗舰;支持 256K 长上下文。
主力性价比;ToB 业务首选。
1M 上下文 + 极低价;长文档批处理。
代码 / agent 专用;1M 上下文便于全仓库读懂。
视觉理解专款,文档 / 截图 / 图表识别。
智谱当前旗舰;agent / coding 双优化。
老旗舰,部分政企客户合规通道仍在用。
中端性价比;并发限额宽松。
免费可商用;速率限制 2 RPS / 1M TPM,原型 / 个人项目首选。
视觉 + 视频理解(支持视频帧序列)。
K2 reasoning 旗舰;MoE 1T 参数。
通用对话长上下文型号;价格偏高建议搭配 cache 用。
中等上下文 + 中等价格。
便宜的小上下文型号。
Kimi 视觉版本,128K 上下文。
豆包当前主力;多模态 + 长上下文 + 极低输入价。
上一代长文档 Pro。
中等上下文 + 视觉版本。
便宜量大,分类 / 抽取首选。
文心 4.5 主力;输出能力比 4.0 提升明显。
便宜的 ERNIE 衍生型;长文本批处理。
免费可商用 lite 版本;速率受限。
MiniMax 主力对话;245K 上下文性价比高。
大模型 API 一站速查——50+ 主流 LLM 按 13 家厂商整理(OpenAI / Anthropic / Google / xAI / Mistral / Meta / DeepSeek / Qwen / 智谱 / Kimi / 豆包 / 文心 / MiniMax)。每条给:
| 你的需求 | 推荐 |
|---|---|
| 国内合规 + 性价比之王 | DeepSeek V3.2(¥2/¥8)+ R1 兜底推理 |
| 国内合规 + 大厂稳定性 | Qwen Plus 主力 + Qwen Max 兜底高难任务 |
| 海外旗舰编程 / Agent | Claude Opus 4.7(编码强)/ Sonnet 4.6 性价比 |
| 海外极致便宜跑量 | GPT-5 nano($0.05/$0.4)/ Gemini 2.5 Flash-Lite |
| 1M+ 长文档 / 全仓代码理解 | Gemini 2.5 Pro 或 Llama 4 Scout 10M |
| 视觉 / OCR / 截图理解 | Gemini 2.5 Pro / Claude Opus / Qwen-VL Max |
| 搞推理(数学 / 算法) | DeepSeek-R1 / o3 / Kimi K2 |
| 个人玩耍免费 | GLM-4-Flash(不限商用免费)/ ERNIE Lite |
gpt-5)/ 中文(视觉 / 推理)/ 厂商名(claude)数据快照 = SNAPSHOT 字段(页面顶部显示)。每个厂商卡片右上角有「定价 ↗」直链到官方页,真要进预算前一定核实当前价格——大厂半年级别会有降价或新模型替换。
这是一份手工整理的快照,不是实时同步。模型 ID / endpoint / 上下文上限这些"结构性"信息变得慢,价格则每 3–6 个月可能调整一次(OpenAI 2024–2025 年降过 4 次价,Anthropic Sonnet 4 价格从 $3/$15 一直稳定)。用法:(1) 看趋势 / 选型时直接用本表;(2) 真要计入预算前,点厂商卡片里的"定价 ↗"链接到官方页核实当前数字;(3) 价格不太对的发反馈给我们更新。
默认不行。三家境外大厂的 API 域名(api.openai.com / api.anthropic.com / generativelanguage.googleapis.com)国内 DNS 多被劫持或解析到不可达 IP,HTTPS 握手会超时。合规接入路径:(1) Azure OpenAI——OpenAI 模型在微软云上,包括 Azure 中国版(仅限企业实名);(2) AWS Bedrock——可调 Claude / Llama / Mistral;(3) GCP Vertex AI——可调 Gemini / Claude(部分区域);(4) 第三方代理 / OpenRouter——个人 / 小团队常用,注意合规风险;(5) 境外服务器中转——技术 ok 但合规复杂。纯国内合规需求 → 直接用 DeepSeek / Qwen / GLM / Kimi / 豆包 / ERNIE / MiniMax,效果在多数业务场景已够用。
两个原则:(1) 生产代码用日期版本号(claude-sonnet-4-5-20250929、gpt-4o-2024-11-20),保证今天上线明天表现一致;(2) 实验 / 玩耍用别名(claude-sonnet-latest、gpt-4o),自动跟最新;但 API 客户端要做好 model 升级带来的回归测试。避坑:Anthropic 的 latest 别名是不带日期的版本号(如 claude-sonnet-4-6),不是字面 "latest"。OpenAI 的 -latest 后缀只有少数模型有(如 chatgpt-4o-latest),其余看 deprecation 日期主动迁移。
绝大多数模型是"输入 + 输出 ≤ 200K"——你给的 prompt + 历史对话 + 模型最终回复全部塞进 200K 总额度。OpenAI 的 200K 模型只能输出 100K 左右,剩下 100K 给输入;Claude / Gemini 类似,需要在 system+user+history 之外预留输出空间。长上下文模型(1M)通常对输出有独立硬上限(如 8K 或 32K),不能用 1M 全部去输出。实操:先看本表的"输出"一栏决定单次最大产出;输入侧再用 tiktoken / tokenizer 按真实 token 计数(详见 llm-token 工具)。
真能。三家旗舰都有但触发条件不同:(1) Anthropic — 在 messages 里给某段加 cache_control: {type: "ephemeral"} 标记,5 分钟 / 1 小时双 TTL,命中价 0.1×;(2) OpenAI — 自动缓存重复前缀(≥1024 tokens 触发),无需配置,命中价 0.5×(GPT-4o)/ 0.1×(GPT-5);(3) Gemini — 显式 createCachedContent + cachedContent 参数,最低 5 分钟 TTL;(4) DeepSeek — 自动 KV cache,命中价 0.25× 输入价;(5) 豆包 / GLM — 类 OpenAI 自动机制。适用场景:长 system prompt(>2K tokens)+ 大量短 user message 的对话型任务。不适用:每次都换 system prompt 的搜索 / 流水线任务。
汇率口径上 1 USD ≈ 7 CNY 是最近两年常用换算。但要意识到:海外 + 国内的"等价能力"不一样——DeepSeek-V3 输入 ¥2 / 1M tokens 大约等于 $0.28,比 GPT-5 mini ($0.25) 还便宜,性能也接近;Qwen-Plus ¥0.8 / 1M ≈ $0.11,比 GPT-5 nano ($0.05) 贵但比 mini 便宜。实操选型时不要光看绝对价:(1) 国内业务出海合规、上下文要求 1M+ → 海外旗舰;(2) 国内 ToB / 合规优先 → DeepSeek(性价比无敌)+ Qwen / GLM 兜底;(3) 极端便宜跑量 → GLM-4-Flash 或 ERNIE Lite 免费档够用。
多数情况可以。"OpenAI 兼容"指厂商提供 /v1/chat/completions 端点,请求 / 响应格式都和 OpenAI 一致。只换两个东西:(1) OPENAI_API_KEY → 国产厂商的 key;(2) OPENAI_BASE_URL → 表中"endpoint"列对应 URL;(3) model → 对应国产 model ID。典型差异要测:(1) function calling / tool use —— 厂商实现质量参差,DeepSeek / Qwen 较好,部分小模型经常返回畸形 tool_calls;(2) structured output —— 严格 JSON schema 强制只有 OpenAI / Gemini / Anthropic 旗舰能保证;(3) 流式格式 —— 国产偶尔多 / 少几行 data: 包装;(4) Anthropic / Gemini 不是默认 OpenAI 兼容——Claude 提供 /v1/chat/completions 别名端点,Gemini 提供 /v1beta/openai/,但部分参数(如 tool_choice 行为)和 OpenAI 不完全一致。
先看任务类型:(1) 数学 / 逻辑 / 代码 / 规划 → reasoning 模型(o3 / o4-mini / GPT-5 / Claude Opus 4.7 with thinking / DeepSeek-R1 / GLM-Zero / Kimi K2),它们会在响应前先内部"思考"几千 tokens;(2) 对话 / 文本生成 / RAG 抽取 / 简单分类 → 普通模型,更快更便宜。要注意:(1) reasoning 模型输出会先有一段不可见的思考 tokens,按"输出 token"计费,单次可达数千;(2) 延迟显著高——o3 单次响应 10–60 秒常见;(3) 不要在循环里 / Agent 高频调用 reasoning 模型,会爆账单;(4) GPT-5 / Claude 4.x 旗舰已经在内部融合了 reasoning + 常规模式,可通过参数(如 reasoning_effort、thinking)按需开启。