LLM 定价指南 —— 对比 500+ 个 AI 模型

横向对比 OpenAI、Anthropic、Google、Meta、xAI、Mistral 等厂商 500+ 个模型的 LLM 与多媒体 API 定价，按 token、图像和视频成本逐一拆解。

模型解读

AI 支出会很快变得昂贵：美国企业目前在 AI 上的月均花费已达 $85,500。 我的核心结论很简单：纸面上最便宜的模型，一旦把输出长度、上下文大小、重试、工具费用和套餐限制都算进去，未必是成本最低的选择。

如果让我从这份指南里做选择，我会先看四件事：

单价： 按 token、图像或视频秒数计费
限制： RPM、TPM、上下文窗口和套餐上限
模态： 文本、图像、音频、视频和视觉支持
每个成品输出的成本： 而不只是标价

本文对比了 APIMart、OpenAI、Anthropic、Google AI、Meta、xAI、Mistral、Cohere、Runway、Stability AI、Black Forest Labs** 以及** Kling AI。

有几个清晰的规律值得注意：

文本定价差异极大。 OpenAI 的价格从 $0.05 到 $30.00 per 1M input tokens 不等。
输出往往比输入贵得多。 在某些情况下，输出的价格是输入的 4 到 6 倍。
长上下文会改变账单。 OpenAI 在 270,000 tokens 之后加价，Google 则在 200,000 tokens 以上调整费率。
批处理任务能降低成本。 OpenAI、Anthropic 和 Mistral 对异步处理均给出 50% 折扣。
视频成本会因重试而累加。 便宜的每秒费率仍可能变成每个成品片段高得多的成本。
统一计费对使用多种格式的团队很重要。 APIMart 主打的就是一个 API、一张发票覆盖 500+ 个模型。

如果你想要简短版： 高流量文本用预算型模型、生产应用用中端模型、只有在输出质量能改变业务结果时才用旗舰模型、在为最终渲染付费之前先用低分辨率打草稿视频。

LLM Token 和 API 价格是什么？（新手友好）

快速对比

厂商	主要优势	需注意	最适合
APIMart	一个 API 覆盖文本、图像、视频和音频的 500+ 个模型	使用成本仍随用量增长	想要统一计费设置的团队
OpenAI	模型覆盖面广，token 定价清晰并提供成本建议	顶级模型很快变贵	通用文本、图像、音频、视频
Anthropic	在编程和长上下文方面表现强	输出费率高	智能体、编程、长提示
Google AI	低成本的 Flash 选项和大上下文	超过 200K tokens 后费率更高	高流量文本和多模态应用
Meta	托管或自托管的 Llama 定价极低	定价和限制取决于托管方	有托管条件、注重成本的团队
xAI	输入与输出定价之间的差距更小	工具调用会增加额外费用	长回复和工具调用类应用
Mistral	token 价格低、有批处理折扣	部分工具需额外付费	实用型文本、编程、欧盟本地使用
Cohere	非常适合 RAG、嵌入和重排序	不太适合媒体生成	搜索、检索、知识库
Runway	视频优先平台，积分计算清晰	重试会推高成品成本	视频创作和编辑
Stability AI	图像定价低，配有编辑工具	覆盖范围比文本厂商窄	高流量图像和音频工作
Black Forest Labs	按尺寸细分的精细图像定价	成本随重试和参考图上升	图像生成和编辑
Kling AI	低成本的短视频生成	片段长度和并发有限制	短视频

所以在逐行对比价格之前，我会先问一个问题：我花钱最多的是什么——token、图像、秒数，还是重试？

1. APIMart

GccAi

APIMart 采用按量付费计费，没有月度最低消费，也没有隐藏费用。价格随模态变化，因此文本、图像、视频和音频的计费方式各不相同。

单位定价

价格因模态而异，如下表所示。

模态	计费单位	示例模型	APIMart 价格
文本	Per 1M tokens	Qwen2.5-VL-72B	$20.00
图像	每次调用	GPT Image 2	$0.006
图像	每次调用	Wan 2.7 Image	$0.0216
视频	每秒	Sora 2	$0.08
视频	每秒	Kling V3 (720p)	$0.0672

图像生成成本会因质量档位不同而大幅变化。例如，一张 1024×1024 的 GPT-Image-2-Official 调用在 Low 质量下约 $0.00488，Medium 下 $0.04232，High 下 $0.16872。这个差距会很快累加。如果不需要顶级输出，使用较低档位可以降低每次调用的花费。

包含的限制

默认账户带有 RPM 和 TPM 限制。企业账户可申请更高吞吐量的通道。

模型覆盖

APIMart 通过一个 API 支持文本、图像、视频和音频模型，其中包括 GPT-5、Claude、Sora 2、Midjourney 和 Kling V3 等模型。

成本与产出

这里的主要优势是跨模态的合并计费。你不必再为文本、图像和视频分别处理账单，而是获得一套统一设置，使支出控制更容易。

接下来，本指南将对比各大厂商在文本、图像和视频模型上的定价结构。

2. OpenAI

OpenAI

OpenAI 对文本采用按 token 付费的定价模式，而且模型之间的差距非常大。

截至 2026 年 6 月，价格从 GPT-5 nano 的 $0.05 per 1M input tokens 一直到 GPT-5.5 Pro 的 $30.00 per 1M input tokens ^[3]^[5]。读懂 OpenAI 定价最简单的方法是按模型档位来看，因为输入、输出和缓存 token 的费率在不同模型之间可能差别很大。

单位定价

模型	Input (per 1M)	Cached Input	Output (per 1M)
GPT-5.5 Pro	$30.00	-	$180.00
GPT-5.5 (Standard)	$5.00	$0.50	$30.00
GPT-5.4	$2.50	$0.25	$15.00
GPT-5.4 mini	$0.75	$0.075	$4.50
GPT-5.4 nano	$0.20	$0.02	$1.25
GPT-5 nano	$0.05	$0.005	$0.40

在 OpenAI 的各个模型中，输出 token 的成本是输入 token 的 4 到 6 倍 ^[6]。当你的应用产生长回答、摘要或智能体式响应时，这一点影响很大。OpenAI 还提供 Batch 和 Flex 档位，对所有模型统一给出 50% 折扣，因此 GPT-5.5 的输入价格从 $5.00 降到 $2.50 per 1M tokens ^[5]。

当长上下文使用触发加价定价时，成本会再次攀升。

包含的限制

一旦总上下文超过 270,000 tokens，OpenAI 会将输入和输出费率都翻倍 ^[3]^[5]。如果你在处理长文档审阅或多轮智能体循环，滚动摘要是保持在这条线以下的最简单方法之一。

OpenAI 在图像、音频和视频模型上也采用同样的定价设置。

模型覆盖

OpenAI 对图像、音频和视频生成分别定价。Sora-2 生成 720p 视频的价格为 $0.10 per second，而 Sora-2-pro 在 1080p 下按标准费率为 $0.70 per second ^[5]。

其他媒体：

图像定价范围为 $2.50 到 $8.00 per 1M tokens
Whisper 转录费用为 $0.006 per minute
TTS（tts-1）费用为 $0.015 per 1,000 characters ^[3]^[4]

成本与产出

降低支出最快的方法之一很简单：把价值较低的工作交给更便宜的模型。处理 10,000 张客服工单，用 GPT-4.1 约 $16，用 GPT-4.1 mini 约 $3.20，用 GPT-4.1 nano 约 $0.80 ^[4]。

3. Anthropic

Anthropic

Anthropic 将其 Claude API 产品线分成四个定价档位：前沿/研究（Claude Fable 5 / Mythos 5）、旗舰（Claude Opus 4.5–4.8）、中端（Claude Sonnet 4.5–4.6）和预算（Claude Haiku 4.5）^[9]^[10]。规律很清晰。随着档位上升，你会得到更强的推理深度和更好的输出，但账单也随之快速攀升。对大多数买家来说，选择归结为：Haiku 是低成本选项，Sonnet 是中间地带，而 Opus/Fable 是为更重的任务而生的。

单位定价

在当前的分档产品线中，Anthropic 将输出 token 的定价设为输入费率的 5 倍 ^[7]^[6]。下方价格以美元每 100 万 token 计 ^[13]^[15]。

模型	Input (per 1M)	Cache Read (per 1M)	Output (per 1M)
Claude Fable 5 / Mythos 5	$10.00	$1.00	$50.00
Claude Opus 4.8	$5.00	$0.50	$25.00
Claude Sonnet 4.6	$3.00	$0.30	$15.00
Claude Haiku 4.5	$1.00	$0.10	$5.00

当你反复复用同一前缀时，提示缓存可以削减成本。缓存写入在 5 分钟 TTL 下的成本为基础输入费率的 1.25 倍，1 小时 TTL 下为 2 倍。缓存读取的成本为标准输入的 10%。在实践中，同一前缀被使用 四次或以上 后，缓存才开始变得划算 ^[3]^[9]^[12]。

包含的限制

Anthropic 当前的大多数旗舰和中端模型——包括 Fable 5、Mythos 5、Opus 4.6–4.8 和 Sonnet 4.6——在标准定价下都配有 100 万 token 的上下文窗口 ^[9]^[11]。Claude Haiku 4.5 最高支持 200,000 tokens。速率限制采用分档设置，从 Tier 1 到 Enterprise，RPM 和 TPM 上限按套餐设定 ^[13]^[15]。

模型覆盖

Anthropic 模型处理文本和视觉输入，而 Computer Use 会增加额外的 token 开销。部分附加功能单独计费：

Web search 费用为 $10 per 1,000 searches
Managed Agents 费用为 $0.08 per active session-hour，另加 token 费用

Batch API 对具有 24 小时周转 的异步任务将 token 成本削减 50% ^[8]^[9]^[11]。

成本与产出

这里定价变得很实用：哪个档位在重复任务、长上下文工作和智能体流程中保持划算？

在 Claude Opus 4.8 上进行一小时的编程会话，使用 50,000 input tokens，其中 40,000 为缓存读取、15,000 output tokens，成本约 $0.525，其中包含 $0.08 的智能体会话费 ^[9]^[12]。这能让你对 Anthropic 定价在实际使用中的表现有个不错的了解，而不只是看定价表。

对于编程助手和多步智能体这类生产任务，Claude Sonnet 4.6 往往在成本和能力之间提供最佳平衡 ^[6]^[3]。

接下来，对比 Google AI 在 Gemini 文本和多模态模型上的定价。

4. Google AI

Google AI

Google 根据你选择的模型和上下文窗口大小来定价。有一条定价规则马上就很关键：如果你想避开更高费率，就要让提示保持在 200,000 tokens 以下 ^[14]^[3]。

单位定价

模型	Input (per 1M)	Output (per 1M)	Context Window
Gemini 3.1 Pro (≤200K)	$2.00	$12.00	1M–2M
Gemini 3.1 Pro (>200K)	$4.00	$18.00	1M–2M
Gemini 2.5 Pro (≤200K)	$1.25	$10.00	2M
Gemini 3.5 Flash	$1.50	$9.00	1M
Gemini 3 Flash	$0.50	$3.00	1M
Gemini 2.5 Flash	$0.30	$2.50	1M
Gemini 3.1 Flash-Lite	$0.25	$1.50	1M
Gemini 2.5 Flash-Lite	$0.10	$0.40	1M
Gemini 3 4B	$0.04	$0.08	131K

图像生成方面，Imagen 4 Fast 起价为 $0.01–$0.02 per image，而 Imagen 4 Ultra 为 $0.06 per image。Veo 3.1 视频按秒计费。Standard 在 720p 和 1080p 下为 $0.40 per second，Light 为 $0.05–$0.08 per second ^[17]。

包含的限制

模型价格只是故事的一部分。吞吐量限制和数据设置会大幅改变你的总支出。

Google 的主要取舍相当清晰：一边是低模型定价，另一边是吞吐量限制加上数据限制。在 Google AI Studio 中，免费档大约给你 15 RPM、免费 token，以及用于产品改进的数据用途。付费档跃升至约 1,000–2,000 RPM，关闭产品改进数据用途，并增加上下文缓存和 Batch API。企业套餐则增加预置吞吐量、批量折扣和合规功能 ^[17]^[18]。

上下文缓存是这里最大的成本杠杆之一。写入缓存是免费的，而从缓存读取的成本为标准输入费率的 25% ^[18]。

模型覆盖

Google 的产品线横跨文本、多模态、图像和视频模型。它还支持图像输入，起价为 $0.0025 per image ^[3]。

成本与产出

对于聊天机器人、摘要和分类，Gemini 2.5 Flash 或 Gemini 3.1 Flash-Lite 通常最合理。它们更便宜，且很适合许多日常工作负载。把 Gemini 3.1 Pro 留给需要更大上下文窗口的场景，并使用滚动摘要来保持在 200,000-token 的临界值以下 ^[3]^[6]。

还有一个值得注意的简单价格角度。在 $2.00 per 1M input tokens 下，对于标准长度的提示，Gemini 3.1 Pro 比 GPT-5.5（$5.00）和 Claude Opus 4.8（$5.00）等旗舰模型更便宜 ^[2]。

接下来，对比 Meta 的定价和模型覆盖。

5. Meta

Meta 的运作方式与上述闭源模型厂商略有不同。它的 Llama 模型是开放权重的，因此你的成本取决于你在哪里托管或访问它们。在实践中，这意味着完全相同的模型在不同厂商之间可能有非常不同的定价。例如，Llama 3.3 70B 曾被列到低至 $0.10 per 1M input tokens。Meta 也不发布第一方 API 价格表，这就是为什么价格在各托管方之间波动如此之大 ^[1]^[19]^[20]。

单位定价

当前定价集中在 Llama 4 Scout 和 Llama 4 Maverick ^[21]^[22]。

模型	Input (per 1M)	Output (per 1M)	Context Window
Llama 4 Scout	$0.08 – $0.17	$0.15 – $0.66	Up to 10,000,000 tokens
Llama 4 Maverick	$0.15 – $0.24	$0.60 – $0.97	1,000,000 tokens
Llama 3.3 70B	$0.10 – $0.72	$0.32 – $0.72	128K – 131K tokens
Llama 3.2 1B Instruct	$0.01 – $0.02	$0.01 – $0.02	60K – 131K tokens
Llama 3.1 405B Instruct	$0.90 – $3.00	$0.90 – $3.00	128K – 131K tokens

那个低廉的标价在纸面上看起来很棒。但只有当托管方的上下文限制和吞吐量上限与你的工作负载匹配时，它才真正有用。

包含的限制

Meta 没有一个统一的标准套餐带有共享速率限制或内置免费档。托管方各自设定自己的吞吐量限制、上下文上限和缓存规则。所以如果你计划用 Llama 4 Scout 做长上下文工作，先检查托管方的上下文上限，而不要假设你能拿到全部宣传的范围。

模型覆盖

Llama 4 Scout 和 Llama 4 Maverick 都支持文本和视觉输入，并在主流厂商上支持工具调用和 JSON 模式 ^[21]^[22]。较旧的选项也仍有用武之地。Llama 3.2 11B Vision 仍能处理视觉密集型任务，而 Llama 3.2 1B Instruct 面向边缘部署，那里低延迟和精简的算力使用最为重要 ^[21]^[22]。

成本与产出

如果你在运行带长提示的高流量任务，Scout 尤为突出。一个带 40K 输入 和 8K 输出 token 的编程任务成本约 $0.005 每个任务，折算下来大约每美元 200 个任务。同样的任务在 GPT-5.5 上成本约 $0.44，即每美元仅 2.3 个任务 ^[6]。

对于面向客户的用途或多模态工作，Llama 4 Maverick 通常是更好的匹配。它的基准跑分高于 GPT-4o，而输入定价却便宜得多：$0.15/M input 对比 $2.50/M input ^[6]。它在输入与输出定价之间较小的差距，也让它很适合你预期会有较长回复的场景。

接下来，对比 xAI 的定价和模型覆盖。

6. xAI

xAI

xAI 把输入和输出定价保持在低位，这在回复变长时很有帮助。Grok 4.3 收费为 $1.25 per 1 million input tokens 和 $2.50 per 1 million output tokens。当模型给你写回大量内容时，这 2 倍的差距就很重要 ^[6]^[24]。

单位定价

模型	Input (per 1M)	Cached Input	Output (per 1M)	Context Window
Grok 4.3 (Flagship)	$1.25	$0.20	$2.50	1M tokens
Grok 4.20 (Reasoning)	$1.25	$0.20	$2.50	2M tokens
Grok Build 0.1 (Coding)	$1.00	$0.20	$2.00	256K tokens
Grok 4.1 Fast (Budget)	$0.20	$0.05	$0.50	2M tokens

图像工作方面，Grok Imagine 1.5 Edit 每次调用 $0.01875 ^[23]。通过 Imagine API 的视频生成根据分辨率从 $0.08 到 $0.25 per second 不等 ^[24]。

包含的限制

xAI 采用按量付费计费，配有基于用量的速率限制。企业套餐可增加自定义速率限制和专用基础设施 ^[25]^[26]。

有一点要留意：工具使用可能很快累加。搜索和代码执行单独计费，所以低 token 价格并不总意味着低最终账单。Web Search、X Search 和 Code Execution 各自的成本为 $5.00 per 1,000 calls ^[24]。

如果你的任务不急，Batch API 可以为 24 小时内处理的任务削减 20% 到 50% 的成本 ^[24]。

模型覆盖

xAI 覆盖文本、图像和视频用例 ^[24]^[16]。Grok 4.20 为更快的工具使用而生，而 Grok Build 0.1 面向编程密集型工作 ^[6]^[2]。

成本与产出

对于一个带 40K input tokens 和 8K output tokens 的标准编程任务，Grok 4.3 成本约 $0.07 每个任务。折算下来大约每美元 14 个任务 ^[6]。

接下来，本指南将对比另一家厂商的定价结构，或者你也可以使用统一 LLM API 通过单一集成访问这些模型。

7. Mistral AI

Mistral AI

Mistral Large 3 的成本为 $0.50 per 1M input tokens 和 $1.50 per 1M output tokens。这让它处于低价旗舰阵营。标题费率看起来很有竞争力，但一旦把工具费用和 Mistral 的计费档位算进去，最终账单可能会变化。

以下是当前的产品线。

单位定价

模型	Input (per 1M)	Cached Input	Output (per 1M)
Mistral Large 3 (Flagship)	$0.50	$0.05	$1.50
Mistral Medium 3.5 (Balanced)	$1.50	-	$7.50
Mistral Small 4 (Efficient)	$0.10	$0.01	$0.30
Magistral Medium (Reasoning)	$2.00	-	$5.00
Codestral (Coding)	$0.30	$0.03	$0.90
Devstral 2 (Coding)	$0.40	$0.04	$2.00
Pixtral Large (Multimodal)	$2.00	-	$6.00

Mistral 还对 OCR 单独收费 $4.00 per 1,000 pages、嵌入 $0.10 per 1M tokens，以及网络搜索加代码执行 $30 per 1,000 calls ^[27]。

包含的限制

Mistral 采用按量付费计费，配有四个速率限制档位，分别在累计花费达 $20、$100 和 $500 时开启 ^[31]。Team 套餐带有 $50 每月 的最低承诺 ^[27]。

这里有两个能快速降低成本的杠杆：

Batch API 对异步任务将所有模型价格降低 50% ^[27]^[31]。
当共享前缀至少 64 tokens 长时，提示缓存可将缓存 token 成本降低最多 90% ^[31]。

当你运行高流量或异步工作负载时，这些定价规则最为重要。

模型覆盖

Mistral 覆盖文本、推理、编程、多模态和边缘用例。Codestral 支持中间填充（FIM），使它非常适合 IDE 工作流。Ministral 系列——3B、8B 和 14B——面向低成本或设备端部署 ^[30]^[32]。

Mistral 还免费提供欧盟托管端点以及符合 GDPR 的数据处理 ^[29]^[31]。

成本与产出

对于实体抽取、分类和摘要这类高流量实用型工作，Mistral Small 4 是最强的匹配 ^[28]^[31]。如果你需要更强的推理能力但仍想要低 token 定价，Mistral Large 3 更合理 ^[28]^[31]。

对于推理密集型任务，Magistral Medium 的成本为 $5.00 per 1M output tokens，在输出上比 OpenAI 的 o3 便宜 37% ^[29]。

接下来，对比 Cohere 在企业文本和检索工作负载上的定价。

8. Cohere

Cohere

Cohere 主要为检索和企业搜索而构建。它的定价体现了这一点：为文本密集型检索工作提供低成本选项，为多模态或更苛刻的任务提供更高价的模型。

单位定价

Cohere 将其产品线分为三类：低成本检索模型、企业多模态模型，以及用于嵌入和重排序的独立工具。

模型	Input (per 1M)	Output (per 1M)	Context Window
Command R7B	$0.0375	$0.15	128K
Command R	$0.15	$0.60	128K
Command R+	$2.50	$10.00	128K
Command A (Multimodal)	$2.50	$10.00	256K
Aya Expanse (8B/32B)	$0.50	$1.50	128K
Embed v3	$0.10	-	-
Rerank v3	$2.00	-	-

Rerank 使用搜索单元计费：一次查询加最多 100 个文档。如果文本块超过 500 tokens，则单独计数 ^[33]^[35]。

包含的限制

Cohere 提供免费试用密钥用于测试，上限为每月 1,000 次调用和 20 RPM ^[37]。生产密钥采用按量付费定价，标准模型最高 500 RPM。计费在月底或余额达到 $250 时进行 ^[33]^[37]。

Cohere 的部分顶级模型在全面投入生产使用前需要销售审批，包括 Command A+、A Reasoning 和 A Vision。在获批之前，自助访问保持在试用式限制 ^[37]。

如果你的团队需要专用吞吐量，Cohere 还提供 Model Vault。价格从一个 Embed 4 Small 实例的 $2,500 per month 起 ^[33]。

模型覆盖

Cohere 适合以文本为先的企业工作流，而非媒体生成。

公司将其产品线围绕文本、检索和企业搜索，而非图像或视频生成。主要例外是 Command A，它支持图像输入和多模态任务。它还带有 256,000-token 的上下文窗口，是 Cohere 产品线中最大的 ^[34]^[36]。

Aya Expanse 支持 49 种语言，使它成为全球部署的可靠之选 ^[37]。

成本与产出

如果你在构建 RAG 流水线，Cohere 的低输入定价是最大的吸引力。这类工作流通常消耗的输入 token 远多于输出 token，所以 Command R 在 $0.15 per 1M input tokens 有助于让文档密集型提示不至于太贵。

一个简单的例子让差距一目了然：在 Command R 上运行 100,000 次客服聊天机器人交互，每月成本约 $123，而同样的量在 Command R+ 上大约为每月 $2,050 ^[39]。

对于纯粹的大规模分类和摘要，Command R7B 是产品线中成本最低的选项 ^[34]^[38]。

一个实用的思考方式：

用 Command R7B 做高流量分类和摘要。
用 Command R 做 RAG 和聊天机器人。
仅在你需要额外的模型能力时才用 Command R+。

接下来，对比 Runway 的定价，或探索电影级 AI 视频生成的替代方案。

9. Runway

Runway

Runway 围绕视频构建，因此它的定价与生成或编辑的秒数挂钩。它对视频和图像工作采用积分制。你可以通过订阅或以 $0.01 per credit 购买充值包获得积分，最低 $10。API 积分单独计费。主要要留意的是积分消耗如何因模型而异。

单位定价

模型	API Rate (Credits/sec)	USD Cost/sec
Gen-4.5 (Flagship)	12 /sec	$0.12
Gen-4 Video	12 /sec	$0.12
Gen-4 Turbo	5 /sec	$0.05
Aleph 2.0 (Video Editing)	28 /sec	$0.28
Act-Two (Animation)	5 /sec	$0.05
Gen-4 Image (1080p)	8 /img	$0.08

包含的限制

在年付套餐上 ^[40]^[43]，Runway 包含以下每月积分上限：

套餐	Monthly Cost (Annual)	Credits/Month	Rollover
Free	$0	125 (one-time)	None
Standard	$12	625	None
Pro	$28	2,250	None
Max	$76	9,500	1 month

Free 套餐带水印，且不允许商用。付费套餐移除这两项限制 ^[40]^[44]。Standard 和 Pro 的积分不结转，未使用的积分在下个计费日的 24 小时内过期 ^[40]^[43]^[46]。只有 Max 给你一个月的结转 ^[40]^[43]^[46]。

模型覆盖

Runway 覆盖文本转视频、图像转视频、视频编辑、文本转图像、图像转图像，以及音频和后期处理工具 ^[42]。这个范围让它比只做生成的工具触及更广。但价格本身并不能说明全部。输出质量会改变你实际最终支付的费用。

成本与产出

这里事情比初看起来更贵。重试会很快累加。大多数成品片段需要 3 到 5 次生成，这将 Gen-4.5 推高到大约 每个成品秒 $0.50 到 $0.80 ^[43]^[44]^[47]。

一种常见的控制支出方式是用 Gen-4 Turbo 在 $0.05/sec 做粗剪草稿和概念测试，然后转到 Gen-4.5 在 $0.12/sec 做最终渲染 ^[41]^[45]。如果你在还在琢磨运动、构图或时机时不想烧掉高级积分，这个设置就很合理。

低档套餐还有一个硬上限。Standard 的 625 积分 每月只够大约 52 秒的 Gen-4.5 视频 ^[40]^[44]。这足够做几个精修片段，但撑不起稳定的生产工作流。

或者，你可以探索 MiniMax Hailuo 2.3 来做高一致性的视频生成。接下来，对比 Stability AI 的图像和视频定价。

10. Stability AI

Stability AI

Stability AI 在图像和音频工作流中表现突出，那里按资产计价往往比月度套餐更重要。它采用积分制，1 credit = $0.01。新用户获得 25 个免费积分，足够大约 3 次旗舰生成 或 8 张 SD 3.5 Large 图像。API 访问还包含商业使用权 ^[48]。

以下是按服务的定价。

单位定价

服务	Credits	USD
Stable Image Ultra	8	$0.08
Stable Diffusion 3.5 Large	6.5	$0.065
Stable Diffusion 3.5 Large Turbo	4	$0.04
Stable Image Core	3	$0.03
Stable Diffusion 3.5 Flash	2.5	$0.025
SDXL 1.0	From 0.9	From $0.009
Replace Background & Relight	8	$0.08
Erase / Inpaint / Remove Background	5	$0.05
Creative Upscaler (to 4K)	60	$0.60
Fast Upscaler	2	$0.02
Stable Fast 3D	10	$0.10
Stable Audio 3.0 (up to 6 min)	26	$0.26

包含的限制

API 定价为按量付费，为高流量团队提供定制定价和批量折扣 ^[49]。

模型覆盖

Stability AI 覆盖文本转图像、图像编辑、3D 资产生成和音频生成 ^[48]。用大白话说，它是为生产工作而生的。你可以生成图像、编辑它们、把资产转成 3D 输出，还能制作音频片段，而无需在一堆工具之间来回切换。

编辑套件包括外扩绘制、背景替换、重打光和风格迁移 ^[48]。Stable Fast 3D 处理 3D 资产生成，而 Stable Audio 3.0 支持长达六分钟的音频片段 ^[48]。所以这里更少关乎聊天，更多关乎把媒体工作做完。

这种定价差距在你大规模工作时最为明显，尤其是在编辑和放大任务上。

成本与产出

Creative Upscaler 每张图像的成本为 60 积分（$0.60）。这是 Fast Upscaler 价格的 30 倍，后者为 2 积分（$0.02）。所以如果你的主要目标只是简单提升分辨率，Fast Upscaler 是成本更低的选择 ^[48]。

Stable Image Core 折算下来约为 每月 $30 生成 1,000 张图像 ^[48]。而如果你用 SD 3.5 Large 扩展到 每月 10,000 张图像，成本落在约 $650 ^[48]。

你也可以使用其他高性能模型来生成和编辑图像。接下来，对比 Black Forest Labs 的图像定价。

11. Black Forest Labs

Black Forest Labs

Black Forest Labs 是图像生成方面一个方便的定价基准，因为账单会随输出尺寸以及是否使用参考图而变化。它的系统基于积分，1 credit = $0.01。FLUX.2 定价与百万像素挂钩，参考图另外计费。有一点要留意：每张图像和每张参考图都会向上取整到下一个百万像素，基于 1,024 × 1,024 px。

单位定价

FLUX.2 产品线分为四档：Max、Pro、Klein 和 Flex。每一档在图像质量、速度和价格之间做出不同的取舍。

模型	1st MP (Base)	Add'l MP	Ref. Image (per MP)	Generation Mode
FLUX.2 [max]	$0.07	$0.03	$0.03	Text-to-Image / Edit
FLUX.2 [pro] (Text-to-Image)	$0.03	$0.015	$0.015	Text-to-Image
FLUX.2 [pro] (Edit)	$0.045	$0.015	$0.015	Image Editing
FLUX.2 [klein] 9B	$0.015	$0.002	$0.002	Text-to-Image / Edit
FLUX.2 [klein] 4B	$0.014	$0.001	$0.001	Text-to-Image / Edit
FLUX.2 [flex]	$0.05	$0.05	$0.05	Text-to-Image / Edit

较旧的 FLUX1.1 和 FLUX.1 模型则采用统一的每图定价。

模型	Price per Image	说明
FLUX1.1 [pro]	$0.04	标准高速生成
FLUX1.1 [pro] Ultra	$0.06	超高分辨率
FLUX1.1 [pro] Raw	$0.06	真实抓拍摄影美学
FLUX.1 Kontext [max]	$0.08	最高质量的上下文内编辑
FLUX.1 Kontext [pro]	$0.04	商用就绪的上下文内编辑
FLUX.1 Fill [pro]	$0.05	定向图像修复
FLUX.1 [schnell]	$0.003	为极致速度而蒸馏

包含的限制

API 访问为按量付费，但 Black Forest Labs 也有带每月图像上限的订阅档位 ^[50]。

套餐	Monthly Limit	Key Features
Builder	10,000 images/month	Klein models, 10 users, fine-tuning rights
Platform	100,000 images/month	Klein 9B + Dev models, 10 users
Professional	100,000 images/month	Dev models, 3 domains, 10 users
Enterprise	Custom	All models, custom volume, API and weights access

模型覆盖

Black Forest Labs 以图像生成和编辑为中心。FLUX.2 模型支持最高 4 MP 的输出尺寸，超过部分会自动缩放 ^[50]。如果速度最重要，FLUX.2 [klein] 4B 以亚秒级推理脱颖而出，使它非常适合近实时用例 ^[52]。

编辑工作方面，产品线还有几个清晰的选项。FLUX.1 Fill [pro] 以 $0.05 per image 处理定向修复，而 FLUX.1 Kontext [pro] 定价为 $0.04 per image，用于商用就绪的上下文内编辑 ^[51]。

成本与产出

一张成品 4 MP FLUX.2 [max] 图像的成本约为 $0.30，一旦把生成、放大和两次重试都算进去。参考图按相同的每百万像素费率单独计费 ^[50]^[51]。如果你在做概念美术或早期原型设计，FLUX.2 [klein] 4B 在 $0.014 per image 是在转向最终渲染之前测试想法的低成本方式 ^[50]。

接下来：Kling AI 视频定价。

12. Kling AI

Kling AI

Kling AI 将定价分成两条线：网页应用使用积分，而 API 按秒计费。在 API 侧，成本随片段长度、分辨率以及你是否开启同步音频而变化。

单位定价

对于标准无声视频，价格从 $0.0672/sec at 720p 起，最高到 $0.0896/sec at 1080p。Kling V3 Omni 处理文本加图像输入以及视频转视频工作流，成本为 $0.1792/sec at 1080p。

配置	Resolution	Price/Sec	Est. 10s Clip Cost
Kling V3 – Silent	720p	$0.0672	$0.67
Kling V3 – Silent	1080p	$0.0896	$0.90
Kling V3 – With Audio	1080p	$0.1120	$1.12
Kling V3 Omni (Ref)	1080p	$0.1792	$1.79
Kling V3 – Silent	4K	$0.4286	$4.29

所以没错，Kling 在视频 API 中处于较低价的一侧。

包含的限制

Kling 将网页应用和 API 定价分开，这意味着你在挑选套餐前需要两者都查。API 费率只是这道数学题的一部分。积分和并发对你能推进多少工作有很大影响。

免费档带有每天 66 个积分，这些积分每 24 小时重置一次，不结转。付费套餐从 Standard 的 $6.99/month 660 积分 起，最高到 Ultra 的 $180/month 26,000 积分。如果你为 Ultra 按年付费，实际费率会降低 34% ^[54]。

对于 API 用户，标准并发上限为 10 个并行任务。试用档账户只有 3 个。如果你想批量渲染而不是一个个等片段，这个差距可能很关键。

模型覆盖

Kling V3 和 Kling V3 Omni 支持长达 15 秒 的片段，使它们适合电影级和叙事类工作。V2.6 将片段长度上限设为 10 秒，并增加同步音频。V2.5 Turbo 比 Master 档大约便宜 30%。

成本与产出

一种常见的控制支出方式是先用 720p 无声模式 打草稿，仅在最终渲染时才升到 1080p 或 4K。这种做法有帮助，因为许多用户需要 2–4 次生成尝试 才能得到可用的片段，而这会推高成品视频的成本 ^[53]。

预付资源包可以将实际单价削减 10% 到 30%，具体取决于套餐大小 ^[53]。

接下来，按单价、套餐限制、模态覆盖和每输出成本对这些模型进行对比。

按对比维度拆解定价

下方表格将前面逐家厂商的细节浓缩为四个购买过滤器：单价、套餐限制、模态覆盖和输出成本。

文本、图像和视频 API 的单位定价

模型	厂商	Input ($/1M tokens)	Output ($/1M tokens)	档位
GPT-5 Nano	OpenAI	$0.05	$0.40	Budget
Gemini 2.5 Pro	Google	$1.25	$10.00	Mid-range
GPT-5.5	OpenAI	$5.00	$30.00	Premium

图像生成方面，FLUX.1 [schnell] 是低成本基准，为 $0.003 per image，而 Stable Image Ultra 处于高端，为 $0.08 per image。视频方面，Kling V3 在 720p 下为 $0.0672/sec 处于低端，Veo 3.1 在高端为 $0.40/sec。

原始费率很重要。但在实践中，套餐限制往往决定你实际花多少。

订阅和平台套餐中包含的限制

在每月低于约 500 万输入 token 时，$20 的聊天套餐对休闲使用可能胜过 API 计费。

厂商	套餐	Monthly Price	Included Usage	Key Limits	Team Plan
OpenAI	ChatGPT Plus	$20	Capped (dynamic)	Dynamic message caps; no API access	Yes
Anthropic	Claude Pro	$20	Capped (dynamic)	Usage limits vary by demand; no API access	Yes
Google	Gemini Advanced	$20	Capped (dynamic)	Tied to Google One; no API access	Yes (Workspace)

推理模型还带来一个变数：隐藏的推理 token 按输出费率计费，这可能把总成本推高 2 到 7 倍。^[3]

按模态划分的模型覆盖

只有当模型的模态匹配任务时，定价才有意义。

厂商	Text	Multimodal Input	Image Gen	Vision	Video Gen	API Access
APIMart	✓	✓	✓	-	✓	Unified API
OpenAI	✓	✓	✓	✓	✓	Direct
Google	✓	✓	✓	✓	✓	Direct
Anthropic	✓	✓	✗	✓	✗	Direct
Meta	✓	✓	✗	✓	✗	Unified/Hosted
Mistral AI	✓	✓	✗	✓	✗	Direct
Stability AI	✗	✗	✓	✗	✓	Direct

如果一个便宜的模型无法处理你需要的格式，它就算不上划算。例如，纯文本厂商在你的工作流依赖图像或视频输出时帮不上什么忙。

按常见用例划分的成本与产出

这些是团队一旦进入生产往往会切身感受到的成本。

文本工作负载（每 1M output tokens）：

用例	模型	Output Cost	档位	关键取舍
高流量聊天机器人	GPT-5 Nano	$0.40	Budget	推理深度较低
文档抽取	Gemini Flash Lite	$0.30	Budget	创意写作受限
代码生成	Gemini 2.5 Pro	$10.00	Mid-range	超过 200K 上下文加价 ^[3]
智能体工作流	Claude Sonnet 4.6	$15.00	Mid-range	需要提示缓存才有 ROI ^[3]
复杂推理	Claude Opus 4.8	$25.00	Premium	成本高；延迟较慢

视频工作负载（每 10 秒片段）：

用例	模型	Output Cost	档位	关键取舍
短视频（草稿）	Kling V3	~$0.67	Budget	720p；限于 15 秒片段
短视频（成品）	Sora 2	$1.00	Mid-range	质量与成本均衡
电影级视频	Veo 3.1	$4.00	Premium	最高质量；最高支出

简单版是这样：每 token 或每秒的价格只是故事的一部分。更大的因素往往是你_如何_使用模型。一个整天运行的聊天机器人、一条文档流水线，以及一间视频工作室，在纸面上看起来可能很便宜，一旦输出量上来就会很快变贵。

一条实用的经验法则：批处理对能容忍 24 小时周转的工作负载，在 OpenAI、Anthropic 和 Mistral 上削减 50% 的成本。^[3] 对于视频，以较低分辨率打草稿、仅升级最终渲染，是控制每输出支出最可靠的方式。

优缺点

下方表格把取舍浓缩到通常真正驱动决策的部分：成本、模态和工作负载匹配度。如果你在厂商之间做选择，这给你一个简短版，不必回头翻遍每个定价章节。

主体	优点	缺点	最适合
APIMart	一个 API 下 500+ 个模型；文本、图像和视频一张发票	基于用量的定价意味着成本随输出量上升	想要统一多模态访问的团队
OpenAI	token 计费清晰	旗舰模型昂贵	通用文本工作负载
Anthropic	提示缓存降低重复工作成本	顶级模型输出费率高	编程和长上下文工作流
Google AI	Flash-Lite 便宜	Pro 在超过 200K tokens 后变贵	高流量文本和长上下文工作负载
Meta (Llama)	若能自托管则成本低	无第一方 API 意味着你要自己处理托管和正常运行时间	有自托管能力、对成本敏感的工作负载
xAI (Grok)	有竞争力的中端定价	模型阵容较小	实时网络和社交数据应用
Mistral AI	低成本小模型和多语言覆盖	多模态功能较少	多语言文本应用
Cohere	Embed、Rerank 和 Command R7B 适合 RAG	Command R+ 相对其档位偏贵	检索增强生成和知识库
Stability AI	图像生成价格极低	仅图像的范围限制了更广的工作流	高流量图像生成
Kling AI	低成本短视频	基础定价限于 15 秒视频	短视频生成

一个简单的解读方式：

如果你想要一个 API 覆盖多种模型类型，APIMart 脱颖而出。
如果你最在意纯文本使用和直接的计费，OpenAI 或 Google AI 可能更容易上手。
如果你的工作偏向编程、长提示或重复上下文，Anthropic 会很合理。
如果你在压低成本且能自己运行，Meta (Llama) 很难忽视。
如果你的技术栈围绕 RAG 构建，Cohere 有一套与之高度契合的工具。

对于图像密集型用途，Stability AI 是低成本之选。对于短视频片段，Kling AI 让入门成本保持在低位，尽管基础套餐仍绑定在 15 秒输出。

结论

看完上面的定价拆解，最好的模型既不是最贵的那个，也不是最便宜的那个。而是最契合你的工作负载、模态和用量的那个。

高流量、低复杂度的任务应当尽量跑在你能接受的最低成本模型上。

随着复杂度上升，支出应当只有在输出配得上时才上升。中端模型很适合那些需要稳定性能而又不想要顶级价签的生产应用。

一旦进入高级推理或媒体生成，每输出成本就开始比原始 token 定价更重要。当质量对结果有直接影响时，旗舰模型才有意义。而对于视频，定价的运作方式不同：像 WAN 2.7、Sora 2（$0.08/sec）和 Kling V3（$0.0672/sec at 720p）这样的 API 按秒计费，而非按 token。

对于同时使用文本、图像和视频模型的团队，APIMart 通过单一 API 提供对 500+ 个模型 的访问。这意味着多模态工作可以放在一个 API 和一张发票之下。

常见问题

我如何估算每输出的总成本？

根据模型的计费方式估算总成本。

对于文本模型，定价通常按输入 token 和输出 token 每 100 万 token 划分。输出 token 往往更贵，所以你预期的回复长度对总支出影响最大。

对于非文本用例，图像模型通常按调用计价，而视频模型按生成的秒数计价。

一个简单的估算成本的方法是：

用 token 计数器测量提示的量
查看模型每个计费单位的费率
将该费率应用到你预期的用量

这能在你扩大任何规模之前给你一个实用的成本估算。

提示缓存何时能省钱？

当你的应用一次又一次地发送相同的提示前缀时，提示缓存会削减成本。这通常意味着长系统指令、大文档集，或在许多请求间复用的共享对话历史。

你不必每次都为完整输入 token 价格付费，而是为重复的部分付更少的钱。在许多情况下，这能将输入成本降低 50% 到 90%。

当量很高且上下文大体保持不变时，这效果最好。客服聊天机器人就是一个好例子：机器人可能在数千次聊天中复用相同的规则、品牌信息和帮助文档。

当上下文一直变化时，它就不太合适。如果你的应用在每次请求时都从头重写提示，能缓存的重复文本就少，节省也会很快下降。

我该用订阅还是 API 定价？

对大多数开发者和企业来说，API 定价更合理。有了按量付费计费，你为使用的 token 付费——没有月度最低消费、没有意外费用，流量清淡时也没有固定收费压在头上。你的成本随用量变动，这往往比固定的定期账单更合适。

APIMart 给你一个 API，连接到 500+ 个 AI 模型，定价按 token 清晰透明，并随着用量上升自动给出批量折扣。

Choosing the Right AI API for Your Next Project

看完就试试

去模型市场挑选你想要的模型

在 APIMart 模型市场尝试聊天、图像和视频模型，用统一 API 快速体验模型能力。

聊天模型图像模型视频模型

进入模型市场

LLM 定价指南 —— 对比 500+ 个 AI 模型

LLM Token 和 API 价格是什么？（新手友好）

快速对比

1. APIMart

单位定价

包含的限制

模型覆盖

成本与产出

2. OpenAI

单位定价

包含的限制

模型覆盖

成本与产出

3. Anthropic

单位定价

包含的限制

模型覆盖

成本与产出

4. Google AI

单位定价

包含的限制

模型覆盖

成本与产出

5. Meta

单位定价

包含的限制

模型覆盖

成本与产出

6. xAI

单位定价

包含的限制

模型覆盖

成本与产出

7. Mistral AI

单位定价

包含的限制

模型覆盖

成本与产出

8. Cohere

单位定价

包含的限制

模型覆盖

成本与产出

9. Runway

单位定价

包含的限制

模型覆盖

成本与产出

10. Stability AI

单位定价

包含的限制

模型覆盖

成本与产出

11. Black Forest Labs

单位定价

包含的限制

模型覆盖

成本与产出

12. Kling AI

单位定价

包含的限制

模型覆盖

成本与产出

按对比维度拆解定价

文本、图像和视频 API 的单位定价

订阅和平台套餐中包含的限制

按模态划分的模型覆盖

按常见用例划分的成本与产出

优缺点

结论

常见问题

我如何估算每输出的总成本？

提示缓存何时能省钱？

我该用订阅还是 API 定价？

Related Blog Posts

去模型市场挑选你想要的模型