
LLM 定价指南 —— 对比 500+ 个 AI 模型
横向对比 OpenAI、Anthropic、Google、Meta、xAI、Mistral 等厂商 500+ 个模型的 LLM 与多媒体 API 定价,按 token、图像和视频成本逐一拆解。
AI 支出会很快变得昂贵:美国企业目前在 AI 上的月均花费已达 $85,500。 我的核心结论很简单:纸面上最便宜的模型,一旦把输出长度、上下文大小、重试、工具费用和套餐限制都算进去,未必是成本最低的选择。
如果让我从这份指南里做选择,我会先看四件事:
- 单价: 按 token、图像或视频秒数计费
- 限制: RPM、TPM、上下文窗口和套餐上限
- 模态: 文本、图像、音频、视频和视觉支持
- 每个成品输出的成本: 而不只是标价
本文对比了 APIMart、OpenAI、Anthropic、Google AI、Meta、xAI、Mistral、Cohere、Runway、Stability AI、Black Forest Labs** 以及** Kling AI。
有几个清晰的规律值得注意:
- 文本定价差异极大。 OpenAI 的价格从 $0.05 到 $30.00 per 1M input tokens 不等。
- 输出往往比输入贵得多。 在某些情况下,输出的价格是输入的 4 到 6 倍。
- 长上下文会改变账单。 OpenAI 在 270,000 tokens 之后加价,Google 则在 200,000 tokens 以上调整费率。
- 批处理任务能降低成本。 OpenAI、Anthropic 和 Mistral 对异步处理均给出 50% 折扣。
- 视频成本会因重试而累加。 便宜的每秒费率仍可能变成每个成品片段高得多的成本。
- 统一计费对使用多种格式的团队很重要。 APIMart 主打的就是一个 API、一张发票覆盖 500+ 个模型。
如果你想要简短版: 高流量文本用预算型模型、生产应用用中端模型、只有在输出质量能改变业务结果时才用旗舰模型、在为最终渲染付费之前先用低分辨率打草稿视频。
LLM Token 和 API 价格是什么?(新手友好)
快速对比

| 厂商 | 主要优势 | 需注意 | 最适合 |
|---|---|---|---|
| APIMart | 一个 API 覆盖文本、图像、视频和音频的 500+ 个模型 | 使用成本仍随用量增长 | 想要统一计费设置的团队 |
| OpenAI | 模型覆盖面广,token 定价清晰并提供成本建议 | 顶级模型很快变贵 | 通用文本、图像、音频、视频 |
| Anthropic | 在编程和长上下文方面表现强 | 输出费率高 | 智能体、编程、长提示 |
| Google AI | 低成本的 Flash 选项和大上下文 | 超过 200K tokens 后费率更高 | 高流量文本和多模态应用 |
| Meta | 托管或自托管的 Llama 定价极低 | 定价和限制取决于托管方 | 有托管条件、注重成本的团队 |
| xAI | 输入与输出定价之间的差距更小 | 工具调用会增加额外费用 | 长回复和工具调用类应用 |
| Mistral | token 价格低、有批处理折扣 | 部分工具需额外付费 | 实用型文本、编程、欧盟本地使用 |
| Cohere | 非常适合 RAG、嵌入和重排序 | 不太适合媒体生成 | 搜索、检索、知识库 |
| Runway | 视频优先平台,积分计算清晰 | 重试会推高成品成本 | 视频创作和编辑 |
| Stability AI | 图像定价低,配有编辑工具 | 覆盖范围比文本厂商窄 | 高流量图像和音频工作 |
| Black Forest Labs | 按尺寸细分的精细图像定价 | 成本随重试和参考图上升 | 图像生成和编辑 |
| Kling AI | 低成本的短视频生成 | 片段长度和并发有限制 | 短视频 |
所以在逐行对比价格之前,我会先问一个问题:我花钱最多的是什么——token、图像、秒数,还是重试?
1. APIMart

APIMart 采用按量付费计费,没有月度最低消费,也没有隐藏费用。价格随模态变化,因此文本、图像、视频和音频的计费方式各不相同。
单位定价
价格因模态而异,如下表所示。
| 模态 | 计费单位 | 示例模型 | APIMart 价格 |
|---|---|---|---|
| 文本 | Per 1M tokens | Qwen2.5-VL-72B | $20.00 |
| 图像 | 每次调用 | GPT Image 2 | $0.006 |
| 图像 | 每次调用 | Wan 2.7 Image | $0.0216 |
| 视频 | 每秒 | Sora 2 | $0.08 |
| 视频 | 每秒 | Kling V3 (720p) | $0.0672 |
图像生成成本会因质量档位不同而大幅变化。例如,一张 1024×1024 的 GPT-Image-2-Official 调用在 Low 质量下约 $0.00488,Medium 下 $0.04232,High 下 $0.16872。这个差距会很快累加。如果不需要顶级输出,使用较低档位可以降低每次调用的花费。
包含的限制
默认账户带有 RPM 和 TPM 限制。企业账户可申请更高吞吐量的通道。
模型覆盖
APIMart 通过一个 API 支持文本、图像、视频和音频模型,其中包括 GPT-5、Claude、Sora 2、Midjourney 和 Kling V3 等模型。
成本与产出
这里的主要优势是跨模态的合并计费。你不必再为文本、图像和视频分别处理账单,而是获得一套统一设置,使支出控制更容易。
接下来,本指南将对比各大厂商在文本、图像和视频模型上的定价结构。
2. OpenAI

OpenAI 对文本采用按 token 付费的定价模式,而且模型之间的差距非常大。
截至 2026 年 6 月,价格从 GPT-5 nano 的 $0.05 per 1M input tokens 一直到 GPT-5.5 Pro 的 $30.00 per 1M input tokens [3][5]。读懂 OpenAI 定价最简单的方法是按模型档位来看,因为输入、输出和缓存 token 的费率在不同模型之间可能差别很大。
单位定价
| 模型 | Input (per 1M) | Cached Input | Output (per 1M) |
|---|---|---|---|
| GPT-5.5 Pro | $30.00 | - | $180.00 |
| GPT-5.5 (Standard) | $5.00 | $0.50 | $30.00 |
| GPT-5.4 | $2.50 | $0.25 | $15.00 |
| GPT-5.4 mini | $0.75 | $0.075 | $4.50 |
| GPT-5.4 nano | $0.20 | $0.02 | $1.25 |
| GPT-5 nano | $0.05 | $0.005 | $0.40 |
在 OpenAI 的各个模型中,输出 token 的成本是输入 token 的 4 到 6 倍 [6]。当你的应用产生长回答、摘要或智能体式响应时,这一点影响很大。OpenAI 还提供 Batch 和 Flex 档位,对所有模型统一给出 50% 折扣,因此 GPT-5.5 的输入价格从 $5.00 降到 $2.50 per 1M tokens [5]。
当长上下文使用触发加价定价时,成本会再次攀升。
包含的限制
一旦总上下文超过 270,000 tokens,OpenAI 会将输入和输出费率都翻倍 [3][5]。如果你在处理长文档审阅或多轮智能体循环,滚动摘要是保持在这条线以下的最简单方法之一。
OpenAI 在图像、音频和视频模型上也采用同样的定价设置。
模型覆盖
OpenAI 对图像、音频和视频生成分别定价。Sora-2 生成 720p 视频的价格为 $0.10 per second,而 Sora-2-pro 在 1080p 下按标准费率为 $0.70 per second [5]。
其他媒体:
- 图像定价范围为 $2.50 到 $8.00 per 1M tokens
- Whisper 转录费用为 $0.006 per minute
- TTS(tts-1)费用为 $0.015 per 1,000 characters [3][4]
成本与产出
降低支出最快的方法之一很简单:把价值较低的工作交给更便宜的模型。处理 10,000 张客服工单,用 GPT-4.1 约 $16,用 GPT-4.1 mini 约 $3.20,用 GPT-4.1 nano 约 $0.80 [4]。
3. Anthropic

Anthropic 将其 Claude API 产品线分成四个定价档位:前沿/研究(Claude Fable 5 / Mythos 5)、旗舰(Claude Opus 4.5–4.8)、中端(Claude Sonnet 4.5–4.6)和预算(Claude Haiku 4.5)[9][10]。规律很清晰。随着档位上升,你会得到更强的推理深度和更好的输出,但账单也随之快速攀升。对大多数买家来说,选择归结为:Haiku 是低成本选项,Sonnet 是中间地带,而 Opus/Fable 是为更重的任务而生的。
单位定价
在当前的分档产品线中,Anthropic 将输出 token 的定价设为输入费率的 5 倍 [7][6]。下方价格以美元每 100 万 token 计 [13][15]。
| 模型 | Input (per 1M) | Cache Read (per 1M) | Output (per 1M) |
|---|---|---|---|
| Claude Fable 5 / Mythos 5 | $10.00 | $1.00 | $50.00 |
| Claude Opus 4.8 | $5.00 | $0.50 | $25.00 |
| Claude Sonnet 4.6 | $3.00 | $0.30 | $15.00 |
| Claude Haiku 4.5 | $1.00 | $0.10 | $5.00 |
当你反复复用同一前缀时,提示缓存可以削减成本。缓存写入在 5 分钟 TTL 下的成本为基础输入费率的 1.25 倍,1 小时 TTL 下为 2 倍。缓存读取的成本为标准输入的 10%。在实践中,同一前缀被使用 四次或以上 后,缓存才开始变得划算 [3][9][12]。
包含的限制
Anthropic 当前的大多数旗舰和中端模型——包括 Fable 5、Mythos 5、Opus 4.6–4.8 和 Sonnet 4.6——在标准定价下都配有 100 万 token 的上下文窗口 [9][11]。Claude Haiku 4.5 最高支持 200,000 tokens。速率限制采用分档设置,从 Tier 1 到 Enterprise,RPM 和 TPM 上限按套餐设定 [13][15]。
模型覆盖
Anthropic 模型处理文本和视觉输入,而 Computer Use 会增加额外的 token 开销。部分附加功能单独计费:
- Web search 费用为 $10 per 1,000 searches
- Managed Agents 费用为 $0.08 per active session-hour,另加 token 费用
Batch API 对具有 24 小时周转 的异步任务将 token 成本削减 50% [8][9][11]。
成本与产出
这里定价变得很实用:哪个档位在重复任务、长上下文工作和智能体流程中保持划算?
在 Claude Opus 4.8 上进行一小时的编程会话,使用 50,000 input tokens,其中 40,000 为缓存读取、15,000 output tokens,成本约 $0.525,其中包含 $0.08 的智能体会话费 [9][12]。这能让你对 Anthropic 定价在实际使用中的表现有个不错的了解,而不只是看定价表。
对于编程助手和多步智能体这类生产任务,Claude Sonnet 4.6 往往在成本和能力之间提供最佳平衡 [6][3]。
接下来,对比 Google AI 在 Gemini 文本和多模态模型上的定价。
4. Google AI

Google 根据你选择的模型和上下文窗口大小来定价。有一条定价规则马上就很关键:如果你想避开更高费率,就要让提示保持在 200,000 tokens 以下 [14][3]。
单位定价
| 模型 | Input (per 1M) | Output (per 1M) | Context Window |
|---|---|---|---|
| Gemini 3.1 Pro (≤200K) | $2.00 | $12.00 | 1M–2M |
| Gemini 3.1 Pro (>200K) | $4.00 | $18.00 | 1M–2M |
| Gemini 2.5 Pro (≤200K) | $1.25 | $10.00 | 2M |
| Gemini 3.5 Flash | $1.50 | $9.00 | 1M |
| Gemini 3 Flash | $0.50 | $3.00 | 1M |
| Gemini 2.5 Flash | $0.30 | $2.50 | 1M |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | 1M |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | 1M |
| Gemini 3 4B | $0.04 | $0.08 | 131K |
图像生成方面,Imagen 4 Fast 起价为 $0.01–$0.02 per image,而 Imagen 4 Ultra 为 $0.06 per image。Veo 3.1 视频按秒计费。Standard 在 720p 和 1080p 下为 $0.40 per second,Light 为 $0.05–$0.08 per second [17]。
包含的限制
模型价格只是故事的一部分。吞吐量限制和数据设置会大幅改变你的总支出。
Google 的主要取舍相当清晰:一边是低模型定价,另一边是吞吐量限制加上数据限制。在 Google AI Studio 中,免费档大约给你 15 RPM、免费 token,以及用于产品改进的数据用途。付费档跃升至约 1,000–2,000 RPM,关闭产品改进数据用途,并增加上下文缓存和 Batch API。企业套餐则增加预置吞吐量、批量折扣和合规功能 [17][18]。
上下文缓存是这里最大的成本杠杆之一。写入缓存是免费的,而从缓存读取的成本为标准输入费率的 25% [18]。
模型覆盖
Google 的产品线横跨文本、多模态、图像和视频模型。它还支持图像输入,起价为 $0.0025 per image [3]。
成本与产出
对于聊天机器人、摘要和分类,Gemini 2.5 Flash 或 Gemini 3.1 Flash-Lite 通常最合理。它们更便宜,且很适合许多日常工作负载。把 Gemini 3.1 Pro 留给需要更大上下文窗口的场景,并使用滚动摘要来保持在 200,000-token 的临界值以下 [3][6]。
还有一个值得注意的简单价格角度。在 $2.00 per 1M input tokens 下,对于标准长度的提示,Gemini 3.1 Pro 比 GPT-5.5($5.00)和 Claude Opus 4.8($5.00)等旗舰模型更便宜 [2]。
接下来,对比 Meta 的定价和模型覆盖。
5. Meta
Meta 的运作方式与上述闭源模型厂商略有不同。它的 Llama 模型是开放权重的,因此你的成本取决于你在哪里托管或访问它们。在实践中,这意味着完全相同的模型在不同厂商之间可能有非常不同的定价。例如,Llama 3.3 70B 曾被列到低至 $0.10 per 1M input tokens。Meta 也不发布第一方 API 价格表,这就是为什么价格在各托管方之间波动如此之大 [1][19][20]。
单位定价
当前定价集中在 Llama 4 Scout 和 Llama 4 Maverick [21][22]。
| 模型 | Input (per 1M) | Output (per 1M) | Context Window |
|---|---|---|---|
| Llama 4 Scout | $0.08 – $0.17 | $0.15 – $0.66 | Up to 10,000,000 tokens |
| Llama 4 Maverick | $0.15 – $0.24 | $0.60 – $0.97 | 1,000,000 tokens |
| Llama 3.3 70B | $0.10 – $0.72 | $0.32 – $0.72 | 128K – 131K tokens |
| Llama 3.2 1B Instruct | $0.01 – $0.02 | $0.01 – $0.02 | 60K – 131K tokens |
| Llama 3.1 405B Instruct | $0.90 – $3.00 | $0.90 – $3.00 | 128K – 131K tokens |
那个低廉的标价在纸面上看起来很棒。但只有当托管方的上下文限制和吞吐量上限与你的工作负载匹配时,它才真正有用。
包含的限制
Meta 没有一个统一的标准套餐带有共享速率限制或内置免费档。托管方各自设定自己的吞吐量限制、上下文上限和缓存规则。所以如果你计划用 Llama 4 Scout 做长上下文工作,先检查托管方的上下文上限,而不要假设你能拿到全部宣传的范围。
模型覆盖
Llama 4 Scout 和 Llama 4 Maverick 都支持文本和视觉输入,并在主流厂商上支持工具调用和 JSON 模式 [21][22]。较旧的选项也仍有用武之地。Llama 3.2 11B Vision 仍能处理视觉密集型任务,而 Llama 3.2 1B Instruct 面向边缘部署,那里低延迟和精简的算力使用最为重要 [21][22]。
成本与产出
如果你在运行带长提示的高流量任务,Scout 尤为突出。一个带 40K 输入 和 8K 输出 token 的编程任务成本约 $0.005 每个任务,折算下来大约每美元 200 个任务。同样的任务在 GPT-5.5 上成本约 $0.44,即每美元仅 2.3 个任务 [6]。
对于面向客户的用途或多模态工作,Llama 4 Maverick 通常是更好的匹配。它的基准跑分高于 GPT-4o,而输入定价却便宜得多:$0.15/M input 对比 $2.50/M input [6]。它在输入与输出定价之间较小的差距,也让它很适合你预期会有较长回复的场景。
接下来,对比 xAI 的定价和模型覆盖。
6. xAI

xAI 把输入和输出定价保持在低位,这在回复变长时很有帮助。Grok 4.3 收费为 $1.25 per 1 million input tokens 和 $2.50 per 1 million output tokens。当模型给你写回大量内容时,这 2 倍的差距就很重要 [6][24]。
单位定价
| 模型 | Input (per 1M) | Cached Input | Output (per 1M) | Context Window |
|---|---|---|---|---|
| Grok 4.3 (Flagship) | $1.25 | $0.20 | $2.50 | 1M tokens |
| Grok 4.20 (Reasoning) | $1.25 | $0.20 | $2.50 | 2M tokens |
| Grok Build 0.1 (Coding) | $1.00 | $0.20 | $2.00 | 256K tokens |
| Grok 4.1 Fast (Budget) | $0.20 | $0.05 | $0.50 | 2M tokens |
图像工作方面,Grok Imagine 1.5 Edit 每次调用 $0.01875 [23]。通过 Imagine API 的视频生成根据分辨率从 $0.08 到 $0.25 per second 不等 [24]。
包含的限制
xAI 采用按量付费计费,配有基于用量的速率限制。企业套餐可增加自定义速率限制和专用基础设施 [25][26]。
有一点要留意:工具使用可能很快累加。搜索和代码执行单独计费,所以低 token 价格并不总意味着低最终账单。Web Search、X Search 和 Code Execution 各自的成本为 $5.00 per 1,000 calls [24]。
如果你的任务不急,Batch API 可以为 24 小时内处理的任务削减 20% 到 50% 的成本 [24]。
模型覆盖
xAI 覆盖文本、图像和视频用例 [24][16]。Grok 4.20 为更快的工具使用而生,而 Grok Build 0.1 面向编程密集型工作 [6][2]。
成本与产出
对于一个带 40K input tokens 和 8K output tokens 的标准编程任务,Grok 4.3 成本约 $0.07 每个任务。折算下来大约每美元 14 个任务 [6]。
接下来,本指南将对比另一家厂商的定价结构,或者你也可以使用统一 LLM API 通过单一集成访问这些模型。
7. Mistral AI

Mistral Large 3 的成本为 $0.50 per 1M input tokens 和 $1.50 per 1M output tokens。这让它处于低价旗舰阵营。标题费率看起来很有竞争力,但一旦把工具费用和 Mistral 的计费档位算进去,最终账单可能会变化。
以下是当前的产品线。
单位定价
| 模型 | Input (per 1M) | Cached Input | Output (per 1M) |
|---|---|---|---|
| Mistral Large 3 (Flagship) | $0.50 | $0.05 | $1.50 |
| Mistral Medium 3.5 (Balanced) | $1.50 | - | $7.50 |
| Mistral Small 4 (Efficient) | $0.10 | $0.01 | $0.30 |
| Magistral Medium (Reasoning) | $2.00 | - | $5.00 |
| Codestral (Coding) | $0.30 | $0.03 | $0.90 |
| Devstral 2 (Coding) | $0.40 | $0.04 | $2.00 |
| Pixtral Large (Multimodal) | $2.00 | - | $6.00 |
Mistral 还对 OCR 单独收费 $4.00 per 1,000 pages、嵌入 $0.10 per 1M tokens,以及网络搜索加代码执行 $30 per 1,000 calls [27]。
包含的限制
Mistral 采用按量付费计费,配有四个速率限制档位,分别在累计花费达 $20、$100 和 $500 时开启 [31]。Team 套餐带有 $50 每月 的最低承诺 [27]。
这里有两个能快速降低成本的杠杆:
当你运行高流量或异步工作负载时,这些定价规则最为重要。
模型覆盖
Mistral 覆盖文本、推理、编程、多模态和边缘用例。Codestral 支持中间填充(FIM),使它非常适合 IDE 工作流。Ministral 系列——3B、8B 和 14B——面向低成本或设备端部署 [30][32]。
Mistral 还免费提供欧盟托管端点以及符合 GDPR 的数据处理 [29][31]。
成本与产出
对于实体抽取、分类和摘要这类高流量实用型工作,Mistral Small 4 是最强的匹配 [28][31]。如果你需要更强的推理能力但仍想要低 token 定价,Mistral Large 3 更合理 [28][31]。
对于推理密集型任务,Magistral Medium 的成本为 $5.00 per 1M output tokens,在输出上比 OpenAI 的 o3 便宜 37% [29]。
接下来,对比 Cohere 在企业文本和检索工作负载上的定价。
8. Cohere

Cohere 主要为检索和企业搜索而构建。它的定价体现了这一点:为文本密集型检索工作提供低成本选项,为多模态或更苛刻的任务提供更高价的模型。
单位定价
Cohere 将其产品线分为三类:低成本检索模型、企业多模态模型,以及用于嵌入和重排序的独立工具。
| 模型 | Input (per 1M) | Output (per 1M) | Context Window |
|---|---|---|---|
| Command R7B | $0.0375 | $0.15 | 128K |
| Command R | $0.15 | $0.60 | 128K |
| Command R+ | $2.50 | $10.00 | 128K |
| Command A (Multimodal) | $2.50 | $10.00 | 256K |
| Aya Expanse (8B/32B) | $0.50 | $1.50 | 128K |
| Embed v3 | $0.10 | - | - |
| Rerank v3 | $2.00 | - | - |
Rerank 使用搜索单元计费:一次查询加最多 100 个文档。如果文本块超过 500 tokens,则单独计数 [33][35]。
包含的限制
Cohere 提供免费试用密钥用于测试,上限为每月 1,000 次调用和 20 RPM [37]。生产密钥采用按量付费定价,标准模型最高 500 RPM。计费在月底或余额达到 $250 时进行 [33][37]。
Cohere 的部分顶级模型在全面投入生产使用前需要销售审批,包括 Command A+、A Reasoning 和 A Vision。在获批之前,自助访问保持在试用式限制 [37]。
如果你的团队需要专用吞吐量,Cohere 还提供 Model Vault。价格从一个 Embed 4 Small 实例的 $2,500 per month 起 [33]。
模型覆盖
Cohere 适合以文本为先的企业工作流,而非媒体生成。
公司将其产品线围绕文本、检索和企业搜索,而非图像或视频生成。主要例外是 Command A,它支持图像输入和多模态任务。它还带有 256,000-token 的上下文窗口,是 Cohere 产品线中最大的 [34][36]。
Aya Expanse 支持 49 种语言,使它成为全球部署的可靠之选 [37]。
成本与产出
如果你在构建 RAG 流水线,Cohere 的低输入定价是最大的吸引力。这类工作流通常消耗的输入 token 远多于输出 token,所以 Command R 在 $0.15 per 1M input tokens 有助于让文档密集型提示不至于太贵。
一个简单的例子让差距一目了然:在 Command R 上运行 100,000 次客服聊天机器人交互,每月成本约 $123,而同样的量在 Command R+ 上大约为每月 $2,050 [39]。
对于纯粹的大规模分类和摘要,Command R7B 是产品线中成本最低的选项 [34][38]。
一个实用的思考方式:
- 用 Command R7B 做高流量分类和摘要。
- 用 Command R 做 RAG 和聊天机器人。
- 仅在你需要额外的模型能力时才用 Command R+。
接下来,对比 Runway 的定价,或探索电影级 AI 视频生成的替代方案。
9. Runway

Runway 围绕视频构建,因此它的定价与生成或编辑的秒数挂钩。它对视频和图像工作采用积分制。你可以通过订阅或以 $0.01 per credit 购买充值包获得积分,最低 $10。API 积分单独计费。主要要留意的是积分消耗如何因模型而异。
单位定价
| 模型 | API Rate (Credits/sec) | USD Cost/sec |
|---|---|---|
| Gen-4.5 (Flagship) | 12 /sec | $0.12 |
| Gen-4 Video | 12 /sec | $0.12 |
| Gen-4 Turbo | 5 /sec | $0.05 |
| Aleph 2.0 (Video Editing) | 28 /sec | $0.28 |
| Act-Two (Animation) | 5 /sec | $0.05 |
| Gen-4 Image (1080p) | 8 /img | $0.08 |
包含的限制
在年付套餐上 [40][43],Runway 包含以下每月积分上限:
| 套餐 | Monthly Cost (Annual) | Credits/Month | Rollover |
|---|---|---|---|
| Free | $0 | 125 (one-time) | None |
| Standard | $12 | 625 | None |
| Pro | $28 | 2,250 | None |
| Max | $76 | 9,500 | 1 month |
Free 套餐带水印,且不允许商用。付费套餐移除这两项限制 [40][44]。Standard 和 Pro 的积分不结转,未使用的积分在下个计费日的 24 小时内过期 [40][43][46]。只有 Max 给你一个月的结转 [40][43][46]。
模型覆盖
Runway 覆盖文本转视频、图像转视频、视频编辑、文本转图像、图像转图像,以及音频和后期处理工具 [42]。这个范围让它比只做生成的工具触及更广。但价格本身并不能说明全部。输出质量会改变你实际最终支付的费用。
成本与产出
这里事情比初看起来更贵。重试会很快累加。大多数成品片段需要 3 到 5 次生成,这将 Gen-4.5 推高到大约 每个成品秒 $0.50 到 $0.80 [43][44][47]。
一种常见的控制支出方式是用 Gen-4 Turbo 在 $0.05/sec 做粗剪草稿和概念测试,然后转到 Gen-4.5 在 $0.12/sec 做最终渲染 [41][45]。如果你在还在琢磨运动、构图或时机时不想烧掉高级积分,这个设置就很合理。
低档套餐还有一个硬上限。Standard 的 625 积分 每月只够大约 52 秒的 Gen-4.5 视频 [40][44]。这足够做几个精修片段,但撑不起稳定的生产工作流。
或者,你可以探索 MiniMax Hailuo 2.3 来做高一致性的视频生成。接下来,对比 Stability AI 的图像和视频定价。
10. Stability AI

Stability AI 在图像和音频工作流中表现突出,那里按资产计价往往比月度套餐更重要。它采用积分制,1 credit = $0.01。新用户获得 25 个免费积分,足够大约 3 次旗舰生成 或 8 张 SD 3.5 Large 图像。API 访问还包含商业使用权 [48]。
以下是按服务的定价。
单位定价
| 服务 | Credits | USD |
|---|---|---|
| Stable Image Ultra | 8 | $0.08 |
| Stable Diffusion 3.5 Large | 6.5 | $0.065 |
| Stable Diffusion 3.5 Large Turbo | 4 | $0.04 |
| Stable Image Core | 3 | $0.03 |
| Stable Diffusion 3.5 Flash | 2.5 | $0.025 |
| SDXL 1.0 | From 0.9 | From $0.009 |
| Replace Background & Relight | 8 | $0.08 |
| Erase / Inpaint / Remove Background | 5 | $0.05 |
| Creative Upscaler (to 4K) | 60 | $0.60 |
| Fast Upscaler | 2 | $0.02 |
| Stable Fast 3D | 10 | $0.10 |
| Stable Audio 3.0 (up to 6 min) | 26 | $0.26 |
包含的限制
API 定价为按量付费,为高流量团队提供定制定价和批量折扣 [49]。
模型覆盖
Stability AI 覆盖文本转图像、图像编辑、3D 资产生成和音频生成 [48]。用大白话说,它是为生产工作而生的。你可以生成图像、编辑它们、把资产转成 3D 输出,还能制作音频片段,而无需在一堆工具之间来回切换。
编辑套件包括外扩绘制、背景替换、重打光和风格迁移 [48]。Stable Fast 3D 处理 3D 资产生成,而 Stable Audio 3.0 支持长达六分钟的音频片段 [48]。所以这里更少关乎聊天,更多关乎把媒体工作做完。
这种定价差距在你大规模工作时最为明显,尤其是在编辑和放大任务上。
成本与产出
Creative Upscaler 每张图像的成本为 60 积分($0.60)。这是 Fast Upscaler 价格的 30 倍,后者为 2 积分($0.02)。所以如果你的主要目标只是简单提升分辨率,Fast Upscaler 是成本更低的选择 [48]。
Stable Image Core 折算下来约为 每月 $30 生成 1,000 张图像 [48]。而如果你用 SD 3.5 Large 扩展到 每月 10,000 张图像,成本落在约 $650 [48]。
你也可以使用其他高性能模型来生成和编辑图像。接下来,对比 Black Forest Labs 的图像定价。
11. Black Forest Labs

Black Forest Labs 是图像生成方面一个方便的定价基准,因为账单会随输出尺寸以及是否使用参考图而变化。它的系统基于积分,1 credit = $0.01。FLUX.2 定价与百万像素挂钩,参考图另外计费。有一点要留意:每张图像和每张参考图都会向上取整到下一个百万像素,基于 1,024 × 1,024 px。
单位定价
FLUX.2 产品线分为四档:Max、Pro、Klein 和 Flex。每一档在图像质量、速度和价格之间做出不同的取舍。
| 模型 | 1st MP (Base) | Add'l MP | Ref. Image (per MP) | Generation Mode |
|---|---|---|---|---|
| FLUX.2 [max] | $0.07 | $0.03 | $0.03 | Text-to-Image / Edit |
| FLUX.2 [pro] (Text-to-Image) | $0.03 | $0.015 | $0.015 | Text-to-Image |
| FLUX.2 [pro] (Edit) | $0.045 | $0.015 | $0.015 | Image Editing |
| FLUX.2 [klein] 9B | $0.015 | $0.002 | $0.002 | Text-to-Image / Edit |
| FLUX.2 [klein] 4B | $0.014 | $0.001 | $0.001 | Text-to-Image / Edit |
| FLUX.2 [flex] | $0.05 | $0.05 | $0.05 | Text-to-Image / Edit |
较旧的 FLUX1.1 和 FLUX.1 模型则采用统一的每图定价。
| 模型 | Price per Image | 说明 |
|---|---|---|
| FLUX1.1 [pro] | $0.04 | 标准高速生成 |
| FLUX1.1 [pro] Ultra | $0.06 | 超高分辨率 |
| FLUX1.1 [pro] Raw | $0.06 | 真实抓拍摄影美学 |
| FLUX.1 Kontext [max] | $0.08 | 最高质量的上下文内编辑 |
| FLUX.1 Kontext [pro] | $0.04 | 商用就绪的上下文内编辑 |
| FLUX.1 Fill [pro] | $0.05 | 定向图像修复 |
| FLUX.1 [schnell] | $0.003 | 为极致速度而蒸馏 |
包含的限制
API 访问为按量付费,但 Black Forest Labs 也有带每月图像上限的订阅档位 [50]。
| 套餐 | Monthly Limit | Key Features |
|---|---|---|
| Builder | 10,000 images/month | Klein models, 10 users, fine-tuning rights |
| Platform | 100,000 images/month | Klein 9B + Dev models, 10 users |
| Professional | 100,000 images/month | Dev models, 3 domains, 10 users |
| Enterprise | Custom | All models, custom volume, API and weights access |
模型覆盖
Black Forest Labs 以图像生成和编辑为中心。FLUX.2 模型支持最高 4 MP 的输出尺寸,超过部分会自动缩放 [50]。如果速度最重要,FLUX.2 [klein] 4B 以亚秒级推理脱颖而出,使它非常适合近实时用例 [52]。
编辑工作方面,产品线还有几个清晰的选项。FLUX.1 Fill [pro] 以 $0.05 per image 处理定向修复,而 FLUX.1 Kontext [pro] 定价为 $0.04 per image,用于商用就绪的上下文内编辑 [51]。
成本与产出
一张成品 4 MP FLUX.2 [max] 图像的成本约为 $0.30,一旦把生成、放大和两次重试都算进去。参考图按相同的每百万像素费率单独计费 [50][51]。如果你在做概念美术或早期原型设计,FLUX.2 [klein] 4B 在 $0.014 per image 是在转向最终渲染之前测试想法的低成本方式 [50]。
接下来:Kling AI 视频定价。
12. Kling AI

Kling AI 将定价分成两条线:网页应用使用积分,而 API 按秒计费。在 API 侧,成本随片段长度、分辨率以及你是否开启同步音频而变化。
单位定价
对于标准无声视频,价格从 $0.0672/sec at 720p 起,最高到 $0.0896/sec at 1080p。Kling V3 Omni 处理文本加图像输入以及视频转视频工作流,成本为 $0.1792/sec at 1080p。
| 配置 | Resolution | Price/Sec | Est. 10s Clip Cost |
|---|---|---|---|
| Kling V3 – Silent | 720p | $0.0672 | $0.67 |
| Kling V3 – Silent | 1080p | $0.0896 | $0.90 |
| Kling V3 – With Audio | 1080p | $0.1120 | $1.12 |
| Kling V3 Omni (Ref) | 1080p | $0.1792 | $1.79 |
| Kling V3 – Silent | 4K | $0.4286 | $4.29 |
所以没错,Kling 在视频 API 中处于较低价的一侧。
包含的限制
Kling 将网页应用和 API 定价分开,这意味着你在挑选套餐前需要两者都查。API 费率只是这道数学题的一部分。积分和并发对你能推进多少工作有很大影响。
免费档带有每天 66 个积分,这些积分每 24 小时重置一次,不结转。付费套餐从 Standard 的 $6.99/month 660 积分 起,最高到 Ultra 的 $180/month 26,000 积分。如果你为 Ultra 按年付费,实际费率会降低 34% [54]。
对于 API 用户,标准并发上限为 10 个并行任务。试用档账户只有 3 个。如果你想批量渲染而不是一个个等片段,这个差距可能很关键。
模型覆盖
Kling V3 和 Kling V3 Omni 支持长达 15 秒 的片段,使它们适合电影级和叙事类工作。V2.6 将片段长度上限设为 10 秒,并增加同步音频。V2.5 Turbo 比 Master 档大约便宜 30%。
成本与产出
一种常见的控制支出方式是先用 720p 无声模式 打草稿,仅在最终渲染时才升到 1080p 或 4K。这种做法有帮助,因为许多用户需要 2–4 次生成尝试 才能得到可用的片段,而这会推高成品视频的成本 [53]。
预付资源包可以将实际单价削减 10% 到 30%,具体取决于套餐大小 [53]。
接下来,按单价、套餐限制、模态覆盖和每输出成本对这些模型进行对比。
按对比维度拆解定价
下方表格将前面逐家厂商的细节浓缩为四个购买过滤器:单价、套餐限制、模态覆盖和输出成本。
文本、图像和视频 API 的单位定价
| 模型 | 厂商 | Input ($/1M tokens) | Output ($/1M tokens) | 档位 |
|---|---|---|---|---|
| GPT-5 Nano | OpenAI | $0.05 | $0.40 | Budget |
| Gemini 2.5 Pro | $1.25 | $10.00 | Mid-range | |
| GPT-5.5 | OpenAI | $5.00 | $30.00 | Premium |
图像生成方面,FLUX.1 [schnell] 是低成本基准,为 $0.003 per image,而 Stable Image Ultra 处于高端,为 $0.08 per image。视频方面,Kling V3 在 720p 下为 $0.0672/sec 处于低端,Veo 3.1 在高端为 $0.40/sec。
原始费率很重要。但在实践中,套餐限制往往决定你实际花多少。
订阅和平台套餐中包含的限制
在每月低于约 500 万输入 token 时,$20 的聊天套餐对休闲使用可能胜过 API 计费。
| 厂商 | 套餐 | Monthly Price | Included Usage | Key Limits | Team Plan |
|---|---|---|---|---|---|
| OpenAI | ChatGPT Plus | $20 | Capped (dynamic) | Dynamic message caps; no API access | Yes |
| Anthropic | Claude Pro | $20 | Capped (dynamic) | Usage limits vary by demand; no API access | Yes |
| Gemini Advanced | $20 | Capped (dynamic) | Tied to Google One; no API access | Yes (Workspace) |
推理模型还带来一个变数:隐藏的推理 token 按输出费率计费,这可能把总成本推高 2 到 7 倍。[3]
按模态划分的模型覆盖
只有当模型的模态匹配任务时,定价才有意义。
| 厂商 | Text | Multimodal Input | Image Gen | Vision | Video Gen | API Access |
|---|---|---|---|---|---|---|
| APIMart | ✓ | ✓ | ✓ | - | ✓ | Unified API |
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | Direct |
| ✓ | ✓ | ✓ | ✓ | ✓ | Direct | |
| Anthropic | ✓ | ✓ | ✗ | ✓ | ✗ | Direct |
| Meta | ✓ | ✓ | ✗ | ✓ | ✗ | Unified/Hosted |
| Mistral AI | ✓ | ✓ | ✗ | ✓ | ✗ | Direct |
| Stability AI | ✗ | ✗ | ✓ | ✗ | ✓ | Direct |
如果一个便宜的模型无法处理你需要的格式,它就算不上划算。例如,纯文本厂商在你的工作流依赖图像或视频输出时帮不上什么忙。
按常见用例划分的成本与产出
这些是团队一旦进入生产往往会切身感受到的成本。
文本工作负载(每 1M output tokens):
| 用例 | 模型 | Output Cost | 档位 | 关键取舍 |
|---|---|---|---|---|
| 高流量聊天机器人 | GPT-5 Nano | $0.40 | Budget | 推理深度较低 |
| 文档抽取 | Gemini Flash Lite | $0.30 | Budget | 创意写作受限 |
| 代码生成 | Gemini 2.5 Pro | $10.00 | Mid-range | 超过 200K 上下文加价 [3] |
| 智能体工作流 | Claude Sonnet 4.6 | $15.00 | Mid-range | 需要提示缓存才有 ROI [3] |
| 复杂推理 | Claude Opus 4.8 | $25.00 | Premium | 成本高;延迟较慢 |
视频工作负载(每 10 秒片段):
| 用例 | 模型 | Output Cost | 档位 | 关键取舍 |
|---|---|---|---|---|
| 短视频(草稿) | Kling V3 | ~$0.67 | Budget | 720p;限于 15 秒片段 |
| 短视频(成品) | Sora 2 | $1.00 | Mid-range | 质量与成本均衡 |
| 电影级视频 | Veo 3.1 | $4.00 | Premium | 最高质量;最高支出 |
简单版是这样:每 token 或每秒的价格只是故事的一部分。更大的因素往往是你_如何_使用模型。一个整天运行的聊天机器人、一条文档流水线,以及一间视频工作室,在纸面上看起来可能很便宜,一旦输出量上来就会很快变贵。
一条实用的经验法则:批处理对能容忍 24 小时周转的工作负载,在 OpenAI、Anthropic 和 Mistral 上削减 50% 的成本。[3] 对于视频,以较低分辨率打草稿、仅升级最终渲染,是控制每输出支出最可靠的方式。
优缺点
下方表格把取舍浓缩到通常真正驱动决策的部分:成本、模态和工作负载匹配度。如果你在厂商之间做选择,这给你一个简短版,不必回头翻遍每个定价章节。
| 主体 | 优点 | 缺点 | 最适合 |
|---|---|---|---|
| APIMart | 一个 API 下 500+ 个模型;文本、图像和视频一张发票 | 基于用量的定价意味着成本随输出量上升 | 想要统一多模态访问的团队 |
| OpenAI | token 计费清晰 | 旗舰模型昂贵 | 通用文本工作负载 |
| Anthropic | 提示缓存降低重复工作成本 | 顶级模型输出费率高 | 编程和长上下文工作流 |
| Google AI | Flash-Lite 便宜 | Pro 在超过 200K tokens 后变贵 | 高流量文本和长上下文工作负载 |
| Meta (Llama) | 若能自托管则成本低 | 无第一方 API 意味着你要自己处理托管和正常运行时间 | 有自托管能力、对成本敏感的工作负载 |
| xAI (Grok) | 有竞争力的中端定价 | 模型阵容较小 | 实时网络和社交数据应用 |
| Mistral AI | 低成本小模型和多语言覆盖 | 多模态功能较少 | 多语言文本应用 |
| Cohere | Embed、Rerank 和 Command R7B 适合 RAG | Command R+ 相对其档位偏贵 | 检索增强生成和知识库 |
| Stability AI | 图像生成价格极低 | 仅图像的范围限制了更广的工作流 | 高流量图像生成 |
| Kling AI | 低成本短视频 | 基础定价限于 15 秒视频 | 短视频生成 |
一个简单的解读方式:
- 如果你想要一个 API 覆盖多种模型类型,APIMart 脱颖而出。
- 如果你最在意纯文本使用和直接的计费,OpenAI 或 Google AI 可能更容易上手。
- 如果你的工作偏向编程、长提示或重复上下文,Anthropic 会很合理。
- 如果你在压低成本且能自己运行,Meta (Llama) 很难忽视。
- 如果你的技术栈围绕 RAG 构建,Cohere 有一套与之高度契合的工具。
对于图像密集型用途,Stability AI 是低成本之选。对于短视频片段,Kling AI 让入门成本保持在低位,尽管基础套餐仍绑定在 15 秒输出。
结论
看完上面的定价拆解,最好的模型既不是最贵的那个,也不是最便宜的那个。而是最契合你的工作负载、模态和用量的那个。
高流量、低复杂度的任务应当尽量跑在你能接受的最低成本模型上。
随着复杂度上升,支出应当只有在输出配得上时才上升。中端模型很适合那些需要稳定性能而又不想要顶级价签的生产应用。
一旦进入高级推理或媒体生成,每输出成本就开始比原始 token 定价更重要。当质量对结果有直接影响时,旗舰模型才有意义。而对于视频,定价的运作方式不同:像 WAN 2.7、Sora 2($0.08/sec)和 Kling V3($0.0672/sec at 720p)这样的 API 按秒计费,而非按 token。
对于同时使用文本、图像和视频模型的团队,APIMart 通过单一 API 提供对 500+ 个模型 的访问。这意味着多模态工作可以放在一个 API 和一张发票之下。
常见问题
我如何估算每输出的总成本?
根据模型的计费方式估算总成本。
对于文本模型,定价通常按输入 token 和输出 token 每 100 万 token 划分。输出 token 往往更贵,所以你预期的回复长度对总支出影响最大。
对于非文本用例,图像模型通常按调用计价,而视频模型按生成的秒数计价。
一个简单的估算成本的方法是:
- 用 token 计数器测量提示的量
- 查看模型每个计费单位的费率
- 将该费率应用到你预期的用量
这能在你扩大任何规模之前给你一个实用的成本估算。
提示缓存何时能省钱?
当你的应用一次又一次地发送相同的提示前缀时,提示缓存会削减成本。这通常意味着长系统指令、大文档集,或在许多请求间复用的共享对话历史。
你不必每次都为完整输入 token 价格付费,而是为重复的部分付更少的钱。在许多情况下,这能将输入成本降低 50% 到 90%。
当量很高且上下文大体保持不变时,这效果最好。客服聊天机器人就是一个好例子:机器人可能在数千次聊天中复用相同的规则、品牌信息和帮助文档。
当上下文一直变化时,它就不太合适。如果你的应用在每次请求时都从头重写提示,能缓存的重复文本就少,节省也会很快下降。
我该用订阅还是 API 定价?
对大多数开发者和企业来说,API 定价更合理。有了按量付费计费,你为使用的 token 付费——没有月度最低消费、没有意外费用,流量清淡时也没有固定收费压在头上。你的成本随用量变动,这往往比固定的定期账单更合适。
APIMart 给你一个 API,连接到 500+ 个 AI 模型,定价按 token 清晰透明,并随着用量上升自动给出批量折扣。
Related Blog Posts
去模型市场挑选你想要的模型
在 APIMart 模型市场尝试聊天、图像和视频模型,用统一 API 快速体验模型能力。