Vidu MoE API 指南：专家混合视频模型

面向开发者的 Vidu MoE（Vidu Q3）视频 API 指南：模型档位、请求结构、参数、定价，以及 APIMart 上的异步提交-轮询-下载工作流。

教程

如果要用一句话总结： Vidu MoE 是一个面向短视频的 API，适合需要 1–16 秒片段、最高 1080p、24 fps、异步交付，以及在一次请求中可选音频的团队。

如果你在判断它是否适合生产，简短的答案是：当你能处理异步任务、为重试预留预算，并为每个阶段选择正确的模型档位时，它最有效。 我会用 viduq3-turbo 做预览，用 viduq3-pro 做最终输出。大多数任务在 720p 下约 60–120 秒、1080p 下约 90–180 秒完成，高峰等待时间可达约 4 分钟。

下面是最关键的内容：

输入模式： 文生视频、单图动画、Grok Imagine Video 替代方案、双帧首尾视频，以及多图参考输入
片段上限： 1 到 16 秒
输出： 最高 1080p，24 fps
音频： 可在同一次请求中开启
图像参考： 在更广的模型功能集中最多 7 张图像
主要 API 规则： 如果你发送图像 URL，不要发送 aspect_ratio
交付： 异步，带 task_id、轮询或回调
定价示例： Pro 约为 5 秒 $0.60 和 12 秒 $1.44
预算现实： 每条通过的片段需规划 2–3 次尝试

有几个细节很突出。该 API 使用一个简单的 JSON 请求，包含 model、prompt 和可选的媒体输入。模型选择很直接：turbo 用于更低成本的测试，pro 用于更高端的渲染。Seed 控制有助于你在重试间让输出保持大致相似的方向，尽管不是逐一精确匹配。

如果我为一个产品团队评估它，我会聚焦三个问题：

我的应用能否干净地处理异步处理？
我需要纯提示词生成、图像主导的控制，还是首/尾帧控制？
算上重试后我的预算是否仍然成立，而不仅是首次成本？

快速对比

项目	需要了解的
最适合	营销片段、产品视频、讲解、广告变体
模型选择	`viduq3-turbo`、`viduq3-pro`、`viduq3`
输入控制	仅提示词、1 张图、2 张图，或参考主导的生成
延迟	通常 1–3 分钟，高峰时有时更久
分辨率	`540p`、`720p`、`1080p`
音频	请求内支持
工作流契合	能等几分钟并在完成后存储文件的团队
注意事项	会过期的输出 URL、重试成本，以及参数组合错误导致的请求错误

所以在你读完整份指南之前，要点很简单：当你想要多种输入模式、内置音频，并通过在 turbo 和 pro 之间切换来控制成本时，Vidu MoE 很适合基于 API 的短视频生成。 其余的就归结为请求设置、状态处理，以及挑选与你工作流匹配的输入方式。

Vidu MoE API 概览与核心能力

Vidu MoE

在 API 层面，Vidu MoE 映射到一小组模型名称、工作流和输出字段。

Vidu MoE 在 API 中以 viduq3-mix 出现，即均衡的 Q3 模型。viduq3-turbo 偏向速度，而 viduq3-pro 偏向更多细节。

专家混合（Mixture-of-Experts）在视频生成中意味着什么

专家混合把生成过程的不同部分分派给专门的组件。在实践中，这有助于运动、场景构图和遵循提示词。

Q3 系列也支持智能场景切换和智能镜头切换 ^[2]^[4]。这在多镜头序列中最重要，那里如果模型丢失了对场景的把握，连续性会很快崩塌。

支持的工作流：文生视频、图生视频和参考引导生成

从这里开始，主要差别取决于你发送的输入类型。

viduq3-mix 支持四种工作流：

文生视频，仅从提示词
图生视频，从一张起始图
参考生视频，从 1 到 7 张图像，用于外观和风格一致性
首尾生视频，从定义过渡的两帧

提示词最多支持 5,000 字符 ^[3]^[4]。viduq3-mix 不支持 Subjects 实体库。

输入与输出一览

工作流	典型输入字段	返回字段
文生视频	`model`、`prompt`、`duration`、`aspect_ratio`、`audio`	`task_id`、`state`、`credits`、`video_url`
图生视频	`model`、`images`（1 张起始帧）、`prompt`、`audio`	`task_id`、`state`、`credits`、`video_url`
参考生视频	`model`、`images`（1–7 张）、`prompt`、`audio`	`task_id`、`state`、`credits`、`video_url`
首尾生视频	`model`、`images`（2 帧）、`prompt`、`resolution`	`task_id`、`state`、`credits`、`video_url`

每个任务返回一个 task_id 和 state，最终的 video_url 在处理完成后可用。

Q3 视频以 24 fps 运行，支持 1 到 16 秒的时长（与 Sora 2 能力相当），并提供 540p、720p 或 1080p 输出 ^[2]。图像输入每个文件限制为 50 MB ^[4]^[1]。

这些工作流选项决定了你接下来发送的负载，下一节会把它拆解为认证和请求格式。

认证、请求结构与 APIMart 设置

GccAi

要生成 Vidu MoE 视频，你需要发送一个经过认证的 JSON 请求。请求体取决于输入模式：纯文本、单图或多图。

获取 API 凭证并设置请求头

从 APIMart API Key Management 页面生成你的 API 密钥 ^[6]。把它保存为 APIMART_API_KEY，然后在运行时用 Python 的 os.environ.get("APIMART_API_KEY") 或 Node.js 的 process.env.APIMART_API_KEY 加载。

每个请求都要带上这些请求头：

Authorization: Bearer YOUR_API_KEY
Content-Type: application/json

视频生成任务的最小请求负载

Vidu Q3（MoE）生成的标准 APIMart 端点是 https://api.apimart.ai/v1/videos/generations ^[6]。API 根据 image_urls 判断模式：

0 个 URL = 文生视频
1 个 URL = 图生视频
2 个 URL = 首尾帧

下面是核心字段及其使用时机 ^[6]：

参数	必填	默认	说明
`model`	是	-	`viduq3-pro`、`viduq3-turbo` 或 `viduq3`
`prompt`	条件性	-	文生视频必填；最多 2,000 字符
`image_urls`	条件性	-	图生视频（1 个 URL）或首尾帧（2 个 URL）必填
`duration`	否	5 sec	范围：1–16 秒
`resolution`	否	`720p`	选项：`540p`、`720p`、`1080p`
`aspect_ratio`	否	`16:9`	仅文生视频；提供 `image_urls` 时省略
`audio`	否	`true`	设为 `false` 生成无声视频
`seed`	否	-	整数，从 `-1` 到 `2^32-1`，用于可复现性

这里有一个容易犯的错误：不要在带 image_urls 时发送 aspect_ratio。当你包含图像时，API 会从源图像中提取画面比例。如果你仍然发送 aspect_ratio，请求会返回 400 错误。

一旦负载设置好，你就可以提交任务并开始轮询结果。

示例 API 调用与响应模式

文生视频请求示例：

curl -X POST https://api.apimart.ai/v1/videos/generations \
  -H "Authorization: Bearer $APIMART_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "viduq3-turbo",
    "prompt": "A product shot of a glass perfume bottle on a marble surface, camera slowly zooms in, soft studio lighting",
    "duration": 5,
    "resolution": "720p",
    "aspect_ratio": "16:9",
    "audio": false
  }'

成功提交会返回一个 task_id 和 submitted 状态 ^[6]：

{
  "code": 200,
  "data": [{
    "status": "submitted",
    "task_id": "task_xxxxxxxxxx"
  }]
}

该 API 异步运行。这意味着第一个响应只告诉你任务已被接受。使用 task_id 轮询 “Get Task Status” 端点。当任务完成时，响应会包含 MP4 链接，通常有效期为 7 天 ^[6]。

一个简单的轮询节奏就很好用：

前 5 分钟每 5 秒轮询一次
之后每分钟轮询一次
持续轮询，直到状态为 completed

到那时，下载并存储返回的视频链接。

接下来，调整时长、分辨率、画面比例和参考输入，以控制最终视频。对于需要不同电影风格的项目，你也可以对比 Kling V3 的能力来做高端视频生成。

生成工作流、参数与输出控制

端到端流程：提交、监控、获取并存储结果

提交任务后，最大的生产决策很简单：用回调还是轮询状态。多数情况下，callback_url 是生产环境的更优选择。轮询可行，但应当作为你的备用方案。使用回调时，API 会把最终状态发送到你的端点。如果投递失败，它最多重试三次 ^[3]。

任务随后会沿着一条固定的状态路径推进：created → queueing → processing → success 或 failed ^[3]^[4]。如果某个任务落到 failed，响应会包含一个错误码。记录该码并在工作流中处理它，这样你的团队就能更快地发现规律并修复问题。

当状态变为 success 时，立即下载输出并保存到持久存储。这一步很重要，因为 API 托管的 URL 可能会过期 ^[9]。

影响构图、运动、时长和一致性的关键参数

一旦任务开始运行，几个参数会决定结果的样子、它在多次运行间保持多稳，以及你花多少额度。

参数	控制什么	视觉 / 质量影响	成本影响
`seed`	随机化	用相同的 seed 配相同的 prompt，可复现相似的运动和构图	无直接成本影响 ^[3]^[6]
`off_peak`	任务调度	无视觉影响；把低优先级任务路由到非高峰处理	可降低额度消耗；可能延迟完成达 48 小时 ^[11]
`audio_type`	声音层	选择 `Speech_only`、`Sound-effect_only` 或 `All`（类似 kling-v2-6 中的音频支持）	标准音频选项无额外费用 ^[1]^[4]
`is_rec`	AI 提示词增强	当手动提示产生不一致结果时，改善提示词-图像对齐	每个任务多花 10 额度 ^[1]

有一个参数从一开始就值得追踪：seed。如果你得到一个喜欢的运动模式，记下那个整数并保留它。然后，当你之后调整提示词时，可以复用相同的 seed 来保住相似的整体构图，而不必从头开始。

何时仅用提示词、用图像参考，或两者并用

这些输入模式让你在速度和控制之间权衡。挑选与你视觉方向锁定程度相匹配的那个。

仅提示词（文生视频）： 最适合在视觉素材定稿前的早期构思、风格测试和场景实验。使用 viduq3-turbo 在 540p 或 720p 下保持较低的迭代成本，或将其与 WAN 2.6 这类高一致性替代方案对比 ^[7]。
单图（图生视频）： 最适合当你想让某个具体物体动起来时，比如产品照片、角色插画或品牌视觉。这非常适合电商和营销工作。
双图（首尾帧）： 最适合当过渡需要落在一个设定结果上时，比如产品转到某个角度，或角色进入某个特定姿势 ^[5]。

如果手动提示给你的结果参差不齐，开启 is_rec: true。API 会从你的图像生成一个优化后的提示词，这能帮助图像-提示词对齐，但每个任务会增加 10 额度 ^[1]。

性能、定价与真实集成场景

如何评估延迟、可靠性和每条视频成本

在你锁定请求格式之后，接下来要看的是速度、价格和任务成功率。这是一个异步工作流，所以你的应用应当提交任务、存储 task_id，并随后通过轮询或回调取回最终的 MP4 ^[3]^[6]。

任务通常沿一条简单路径推进：排队、完成或失败。当任务失败时，额度往往会自动退还 ^[3]^[10]。这在生产中很重要，因为重试是流程的一部分，而非某种边缘情况。

在周转时间方面，720p 生成通常在 60–120 秒内完成。对于 1080p，预计更像 90–180 秒。非高峰时段排队时间常为 15–30 秒，而高峰 p95 延迟可拉长到约 4 分钟 ^[7]。所以，是的，它在生产中可以很好地工作——但前提是你的系统被构建得能干净地处理异步完成。

在定价上，Pro 费率使 5 秒片段为 $0.60，12 秒片段为 $1.44 ^[10]。在实践中，大多数团队应当为每个通过的资产规划 2–3 次尝试。这使一条可用片段的最终成本落在 $1.20–$4.32 区间，取决于时长 ^[10]。如果你处于测试模式，viduq3-turbo 约为 Pro 的一半价格，更适合快速迭代。Pro 最好留给最终渲染 ^[10]。

用量档位	月度视频数	平均时长	基础月度成本（USD）
轻量	50	12s	$72.00
中等	200	12s	$288.00
重度	500	12s	$720.00

这些数字仅涵盖基础生成。它们不包括重试。如果你的团队预期多次生成——大多数团队都会——把总额乘以 2–3，得到一个更贴近日常生产的预算。

用例：营销视频、教育片段和电商产品画面

一旦成本和等待时间清楚了，下一步就是为你需要交付的资产挑选正确的输入模式。最佳选择主要取决于一件事：你已经掌握了多少视觉控制。

场景	推荐输入类型	输出预期	操作说明
营销创意	参考生视频	跨片段保持一致的品牌头像或吉祥物	把角色和背景参考一起传入，以获得视觉一致性。
电商画面	图生视频	一致的产品外观	从一张高质量的目录图开始；输出质量跟随输入帧。
教育片段	首尾帧	状态之间的平滑过渡	提供一张起始图和一张结束图来引导运动。
社交媒体广告	文生视频	竖版（9:16）或方形（1:1）片段	用简短的竖版或方形提示词制作快速广告变体。

一个简单的思考方式：

如果品牌一致性重要，用参考生视频
如果源图像已经够好，用图生视频
如果你需要两个状态之间的运动，用首尾帧
如果你想要大量快速的广告变体，用文生视频，或考虑用 MiniMax Hailuo 2.3 获得高一致性的专业输出。

对于想削减剪辑时间的团队，原生音频对工作流的改变最大。原生音频省去了单独的音源采集和剪辑工作 ^[8]，对于想从单次生成就拿到成片的团队，这能去掉额外的后期步骤。这正是该模型最有用的地方：当目标是接近一个可交付资产，而无需让文件经过冗长的交接链时。

结论：如何判断 Vidu MoE 是否契合你的生产工作流

当你需要最长 12–16 秒的短片段、多种输入模式，以及异步 API 设置中的原生音频时，Vidu MoE 就很有意义。seed 参数可以帮助让重复任务保持大致相同的方向，但你不应期待相同的输入产出逐位匹配的输出 ^[6]^[10]。失败的任务也往往会触发自动额度退还 ^[3]^[10]。

这适合那些规模化制作短视频、能为结果等几分钟、并在预算中为重试留出空间的团队。如果这听起来像你的工作流，APIMart 给你一种干净的方式，通过一个 API 界面来运行营销创意、产品画面和讲解内容。

常见问题

我应该先用哪个 Vidu MoE 模型？

对大多数开发者来说，viduq3-turbo 是最佳的起点。它给你最快的生成速度、强劲的性价比，以及音画同步和智能场景切换等高级功能。

如果你想要最完整的功能集，选 viduq3-pro。它包含分镜生成和最高质量的音画对齐。两个模型都支持 1 到 16 秒的视频和最高 1080p 的分辨率。

我该如何处理失败或延迟的视频任务？

在你的异步工作流中使用 task ID。

对于耗时较长的任务，要么时不时轮询状态 API，要么设置一个回调 URL，以便任务进入终态时收到通知。

如果任务失败，检查回调或状态响应中的错误详情。

为了生产稳定性，轮询时使用指数退避，以免撞上速率限制。

运行超过 48 小时的非高峰任务会被自动取消，积分会退还。

哪种输入模式提供最多的控制？

**多帧生成（Multi-Frame Generation）**让你对视频如何从一个时刻过渡到下一个时刻拥有最多控制。你不必依赖单个提示词或双帧设置，而是可以规划出最多 9 个关键帧的序列。

那份额外的控制很重要。对于每次过渡，你都可以添加一张特定图像和一个自定义提示词，这样视觉故事就会逐帧沿着你想要的路径展开。

要使用它，把你的图像和提示词通过 image_settings 数组发送到 multiframe 端点。

看完就试试

去模型市场挑选你想要的模型

在 APIMart 模型市场尝试聊天、图像和视频模型，用统一 API 快速体验模型能力。

聊天模型图像模型视频模型

进入模型市场