
Vidu MoE API ガイド:Mixture-of-Experts 動画
Vidu MoE(Vidu Q3)動画 API の開発者ガイド。APIMart におけるモデル階層、リクエスト構造、パラメータ、料金、非同期の submit-poll-download ワークフローを解説します。
一言でまとめるなら: Vidu MoE は、1〜16 秒のクリップ、最大 1080p、24 fps、非同期配信、そして 1 回のリクエストでオプションの音声を必要とするチームのためのショート動画 API です。
本番投入への適合性を判断したいなら、結論はこうです。非同期ジョブを扱える体制があり、リトライ分の予算を見込み、各工程に適したモデル階層を選べる場合に最も効果を発揮します。 私ならプレビューには viduq3-turbo を、最終出力には viduq3-pro を使います。多くのジョブは 720p で約 60〜120 秒、1080p で約 90〜180 秒で完了し、ピーク時の待ち時間は約 4 分に達することもあります。
最も重要なポイントは次のとおりです。
- 入力モード: text-to-video、1 枚画像のアニメーション化、Grok Imagine Video の代替手段、2 フレームの開始/終了動画、複数画像の参照入力
- クリップの制限: 1〜16 秒
- 出力: 最大 1080p、24 fps
- 音声: 同じリクエスト内でオンにできる
- 画像参照: より広いモデル機能セットでは最大 7 枚
- 主要な API ルール: 画像 URL を送る場合は
aspect_ratioを 送らない - 配信:
task_idを用いた非同期、ポーリング、またはコールバック - 料金の例: Pro は 5 秒で約 $0.60、12 秒で $1.44
- 予算の現実: 承認済みクリップ 1 本につき 2〜3 回の試行を見込む
いくつかの細部が際立っています。この API は model、prompt、そしてオプションのメディア入力を持つシンプルな JSON リクエストを使います。モデル選択は明快で、低コストのテストには turbo、ハイエンドのレンダリングには pro という具合です。シード制御は、完全一致ではないものの、リトライをまたいで出力を似た方向に保つのに役立ちます。
これをプロダクトチーム向けに評価するなら、私は次の 3 つの問いに集中します。
- 自分のアプリは非同期処理をきれいに扱えるか?
- プロンプトのみの生成、画像主導の制御、開始/終了フレーム制御のどれが必要か?
- 初回コストだけでなく、リトライ後も予算は成り立つか?
クイック比較
| 項目 | 知っておくべきこと |
|---|---|
| 最適な用途 | マーケティングクリップ、製品動画、解説動画、広告バリエーション |
| モデルの選択肢 | viduq3-turbo、viduq3-pro、viduq3 |
| 入力制御 | プロンプトのみ、画像 1 枚、画像 2 枚、または参照主導の生成 |
| レイテンシ | 通常 1〜3 分、ピーク時はさらに長くなることも |
| 解像度 | 540p、720p、1080p |
| 音声 | リクエスト内でサポート |
| ワークフロー適合性 | 数分待てて、完了後にファイルを保存できるチーム |
| 注意点 | 期限切れする出力 URL、リトライコスト、不正なパラメータ組み合わせによるリクエストエラー |
完全なガイドを読む前に、要点はシンプルです。Vidu MoE は、複数の入力モード、組み込みの音声、そして turbo と pro の切り替えによるコスト制御を求める、API ベースのショート動画生成に適しています。 残りは、リクエストの設定、ステータス処理、そして自分のワークフローに合う入力方法の選択に尽きます。
Vidu MoE API の概要と中核機能

API レベルでは、Vidu MoE は少数のモデル名、ワークフロー、出力フィールドに対応します。
Vidu MoE は API 上では、バランス型の Q3 モデルである viduq3-mix として現れます。viduq3-turbo は速度寄り、viduq3-pro はより細部寄りです。
動画生成における Mixture-of-Experts の意味
Mixture-of-experts は、生成プロセスの異なる部分を専門化したコンポーネントへ振り分けます。実際には、これがモーション、シーン構成、プロンプトへの忠実度に役立ちます。
Q3 シリーズはまた、インテリジェントなシーン切り替えとインテリジェントなカメラ切り替えをサポートします [2][4]。これは、モデルがシーンを見失うと連続性が一気に崩れかねないマルチショットのシーケンスで最も重要になります。
サポートされるワークフロー:Text-to-Video、Image-to-Video、参照ガイド付き生成
ここから先、主な違いは送る入力タイプに帰着します。
viduq3-mix は 4 つのワークフローをサポートします。
- Text-to-Video — プロンプトのみから
- Image-to-Video — 1 枚の開始画像から
- Reference-to-Video — 外見とスタイルの一貫性のための 1〜7 枚の画像から
- Start-End to Video — 遷移を定義する 2 フレームから
プロンプトは最大 5,000 文字をサポートします [3][4]。viduq3-mix は Subjects エンティティライブラリをサポートしません。
入力と出力の一覧
| ワークフロー | 代表的な入力フィールド | 返されるフィールド |
|---|---|---|
| Text-to-Video | model、prompt、duration、aspect_ratio、audio | task_id、state、credits、video_url |
| Image-to-Video | model、images(開始フレーム 1 枚)、prompt、audio | task_id、state、credits、video_url |
| Reference-to-Video | model、images(1〜7 枚)、prompt、audio | task_id、state、credits、video_url |
| Start-End to Video | model、images(2 フレーム)、prompt、resolution | task_id、state、credits、video_url |
各ジョブは task_id と state を返し、最終的な video_url は処理完了後に利用可能になります。
Q3 の動画は 24 fps で動作し、1〜16 秒の長さをサポートし(Sora 2 の機能に匹敵)、540p、720p、1080p の出力を提供します [2]。画像入力は 1 ファイルあたり 50 MB に制限されています [4][1]。
これらのワークフローの選択肢が、次に送るペイロードを形作ります。続くセクションでは、それを認証とリクエスト形式に分解して解説します。
認証、リクエスト構造、APIMart のセットアップ

Vidu MoE 動画を生成するには、認証済みの JSON リクエストを送る必要があります。リクエストボディは入力モードによって異なります。テキストのみ、単一画像、複数画像のいずれかです。
API 認証情報の取得とリクエストヘッダーの設定
APIMart API キー管理ページから API キーを生成します [6]。それを APIMART_API_KEY として保存し、実行時に Python では os.environ.get("APIMART_API_KEY")、Node.js では process.env.APIMART_API_KEY で読み込みます。
すべてのリクエストに次のヘッダーを含めます。
Authorization: Bearer YOUR_API_KEYContent-Type: application/json
動画生成ジョブの最小リクエストペイロード
Vidu Q3(MoE)生成用の標準 APIMart エンドポイントは https://api.apimart.ai/v1/videos/generations です [6]。API は image_urls からモードを判定します。
- URL
0個 = text-to-video - URL
1個 = image-to-video - URL
2個 = first-to-last frame
中核となるフィールドと、それぞれの使用タイミングは次のとおりです [6]。
| パラメータ | 必須 | デフォルト | 備考 |
|---|---|---|---|
model | はい | - | viduq3-pro、viduq3-turbo、または viduq3 |
prompt | 条件付き | - | text-to-video には必須。最大 2,000 文字 |
image_urls | 条件付き | - | image-to-video(URL 1 個)または first-to-last frame(URL 2 個)に必須 |
duration | いいえ | 5 秒 | 範囲:1〜16 秒 |
resolution | いいえ | 720p | 選択肢:540p、720p、1080p |
aspect_ratio | いいえ | 16:9 | text-to-video のみ。image_urls を渡す場合は省略 |
audio | いいえ | true | 無音動画にするには false に設定 |
seed | いいえ | - | 再現性のための -1 から 2^32-1 までの整数 |
ここでよくあるミスが 1 つあります。aspect_ratio を image_urls と一緒に 送らないでください。画像を含めると、API はソース画像からアスペクト比を取得します。それでも aspect_ratio を送ると、リクエストは 400 エラーを返します。
ペイロードが設定できたら、ジョブを送信し、結果のポーリングを開始できます。
API 呼び出しの例とレスポンスパターン
text-to-video リクエストの例:
curl -X POST https://api.apimart.ai/v1/videos/generations \
-H "Authorization: Bearer $APIMART_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "viduq3-turbo",
"prompt": "A product shot of a glass perfume bottle on a marble surface, camera slowly zooms in, soft studio lighting",
"duration": 5,
"resolution": "720p",
"aspect_ratio": "16:9",
"audio": false
}'
送信が成功すると、task_id と submitted ステータスが返されます [6]。
{
"code": 200,
"data": [{
"status": "submitted",
"task_id": "task_xxxxxxxxxx"
}]
}
API は非同期で動作します。つまり、最初のレスポンスはジョブが受理されたことを伝えるだけです。task_id を使って「Get Task Status」エンドポイントをポーリングします。ジョブが完了すると、レスポンスには MP4 リンクが含まれ、通常は 7 日間有効です [6]。
シンプルなポーリングのリズムがうまく機能します。
- 最初の 5 分間は 5 秒ごとにポーリング
- その後は 1 分ごとにポーリング
- ステータスが
completedになるまでポーリングを続ける
その時点で、返された動画リンクをダウンロードして保存します。
次に、duration、resolution、aspect ratio、参照入力を調整して、最終的な動画を制御します。異なるシネマティックスタイルを必要とするプロジェクトでは、ハイエンドの動画生成のために Kling V3 の機能を比較することもできます。
生成ワークフロー、パラメータ、出力制御
エンドツーエンドのフロー:送信、監視、取得、結果の保存
ジョブを送信した後、大きな本番の判断はシンプルです。コールバックを使うか、ステータスをポーリングするかです。ほとんどの場合、本番では callback_url の方が良い選択肢です。ポーリングも機能しますが、それはバックアッププランにすべきです。コールバックを使うと、API は最終ステータスをあなたのエンドポイントに送ります。配信が失敗した場合、最大 3 回までリトライします [3]。
ジョブはその後、固定のステータス経路をたどります。created → queueing → processing → success または failed です [3][4]。タスクが failed に至った場合、レスポンスにはエラーコードが含まれます。そのコードをログに記録し、ワークフロー内で処理しておくと、チームがパターンを把握し、問題をより早く修正できます。
ステータスが success になったら、すぐに出力をダウンロードして耐久性のあるストレージに保存します。API がホストする URL は期限切れになることがあるため、このステップは重要です [9]。
構成、モーション、長さ、一貫性に影響する主要パラメータ
ジョブが動き出すと、いくつかのパラメータが、結果の見え方、実行ごとの安定度、消費するクレジット数を形作ります。
| パラメータ | 制御内容 | 視覚 / 品質への効果 | コストへの影響 |
|---|---|---|---|
seed | ランダム化 | 同じプロンプトで同じシードを再利用すると、似たモーションと構成を再現できる | 直接的なコスト影響なし [3][6] |
off_peak | ジョブのスケジューリング | 視覚的な影響なし。優先度の低いジョブをオフピーク処理に振り分ける | クレジット消費を抑えられる。完了が最大 48 時間遅れることがある [11] |
audio_type | サウンドレイヤー | Speech_only、Sound-effect_only、All から選択(kling-v2-6 の音声サポートに類似) | 標準的な音声オプションに追加料金なし [1][4] |
is_rec | AI プロンプト強化 | 手動プロンプトが不安定な結果を生む場合に、プロンプトと画像の整合性を改善 | タスクごとに 10 クレジットの追加コスト [1] |
最初から追跡しておく価値があるパラメータが 1 つあります。seed です。気に入ったモーションパターンが得られたら、その整数を記録して保持しておきましょう。そうすれば、後でプロンプトを調整するときに、同じシードを再利用して、ゼロからやり直すのではなく、似た全体構成を保てます。
プロンプトのみ、画像参照、その両方をいつ使うか
これらの入力モードでは、速度と制御を引き換えにできます。自分の視覚的な方向性がどれだけ固まっているかに合うものを選びましょう。
- プロンプトのみ(text-to-video): ビジュアル素材が確定する前の初期アイデア出し、スタイルテスト、シーン実験に最適。
viduq3-turboを 540p または 720p で使ってイテレーションコストを抑えるか、高い一貫性の代替として WAN 2.6 と比較しましょう [7]。 - 単一画像(image-to-video): 製品写真、キャラクターイラスト、ブランドビジュアルなど、特定のものをアニメーション化したいときに最適。EC やマーケティング業務に強く適合します。
- 2 枚画像(first-to-last frame): 製品が特定の角度に回転する、キャラクターが定義されたポーズに移行するなど、遷移が決まった結果に着地する必要があるときに最適です [5]。
手動プロンプトでムラのある結果になる場合は、is_rec: true をオンにします。API があなたの画像から最適化されたプロンプトを生成し、画像とプロンプトの整合性に役立ちますが、タスクごとに 10 クレジットが加算されます [1]。
パフォーマンス、料金、実際の統合シナリオ

レイテンシ、信頼性、動画あたりのコストを評価する方法
リクエスト形式を固めたら、次に見るべきは速度、価格、ジョブの成功率です。これは非同期ワークフローなので、アプリはジョブを送信し、task_id を保存し、後でポーリングまたはコールバックを通じて最終的な MP4 を取得すべきです [3][6]。
ジョブは通常、シンプルな経路をたどります。queued、complete、または failed です。ジョブが失敗すると、クレジットは多くの場合自動的に返金されます [3][10]。これは本番で重要です。リトライは例外的なケースではなく、プロセスの一部だからです。
ターンアラウンドタイムについては、720p の生成は通常 60〜120 秒で完了します。1080p では 90〜180 秒程度を見込んでください。キュー時間はオフピーク時には 15〜30 秒であることが多く、ピーク時の p95 レイテンシは約 4 分まで延びることがあります [7]。というわけで、本番でも十分に機能します。ただし、非同期完了をきれいに扱えるようにシステムが設計されている場合に限ります。
料金については、Pro のレートで 5 秒のクリップが $0.60、12 秒のクリップが $1.44 です [10]。実際には、ほとんどのチームは 承認済みアセット 1 本につき 2〜3 回の試行を見込むべきです。これにより、使用可能なクリップ 1 本の最終コストは、長さに応じて $1.20〜$4.32 の範囲になります [10]。テストモードであれば、viduq3-turbo は Pro の約半額で、高速なイテレーションにより理にかなっています。Pro は最終レンダリングに取っておく方が良いでしょう [10]。
| ボリューム階層 | 月間動画数 | 平均の長さ | 基本月額コスト(USD) |
|---|---|---|---|
| Light | 50 | 12s | $72.00 |
| Medium | 200 | 12s | $288.00 |
| Heavy | 500 | 12s | $720.00 |
これらの数字は基本生成のみをカバーしています。リトライは 含まれていません。チームが複数回のパスを見込むなら(そしてほとんどがそうです)、日々の本番に近い予算にするには、合計を 2〜3 倍してください。
ユースケース:マーケティング動画、教育クリップ、EC 商品ビジュアル
コストと待ち時間が明確になったら、次のステップは、出荷したいアセットに適した入力モードを選ぶことです。最善の選択は、ほぼ 1 つのことに帰着します。自分がすでにどれだけの視覚的制御を持っているかです。
| シナリオ | 推奨される入力タイプ | 出力への期待 | 運用上の注意 |
|---|---|---|---|
| マーケティングクリエイティブ | Reference-to-Video | クリップ間で一貫したブランドアバターやマスコット | キャラクターと背景の参照を一緒に渡して視覚的な一貫性を確保。 |
| EC ビジュアル | Image-to-Video | 一貫した製品の外見 | 高品質なカタログ画像 1 枚から開始。出力品質は入力フレームに連動。 |
| 教育クリップ | First-Last Frame | 状態間のスムーズな遷移 | 開始画像と終了画像を提供してモーションをガイド。 |
| ソーシャルメディア広告 | Text-to-Video | 縦型(9:16)または正方形(1:1)のクリップ | 短い縦型または正方形のプロンプトを使って広告バリエーションを高速に生成。 |
シンプルな考え方は次のとおりです。
- ブランドの一貫性が重要なら、Reference-to-Video を使う
- ソース画像がすでに良く見えるなら、Image-to-Video を使う
- 2 つの状態間のモーションが必要なら、First-Last Frame を使う
- 広告バリエーションを大量に高速で作りたいなら、Text-to-Video を使うか、高い一貫性のプロフェッショナルな出力のために MiniMax Hailuo 2.3 を検討する。
編集時間を削りたいチームにとって、ワークフローを最も変えるのはネイティブ音声です。ネイティブ音声は、別途のソーシングと編集作業を削減し [8]、1 回の生成パスで完成したクリップを得たいチームにとって、追加のポストプロダクション工程を取り除けます。そこがこのモデルが最も役立つ場面です。長いハンドオフの連鎖にファイルを通すことなく、出荷可能なアセットに近づけることが目標のときです。
結論:Vidu MoE が自分の本番ワークフローに合うかどうかの判断方法
Vidu MoE は、最大 12〜16 秒のショートクリップ、複数の入力モード、そして非同期 API 構成でのネイティブ音声が必要なときに意味があります。seed パラメータは、繰り返しのジョブをおおよそ同じ方向に保つのに役立ちますが、同一の入力がビット単位で一致する出力を生むとは期待すべきではありません [6][10]。失敗したジョブも、自動的なクレジット返金を引き起こす傾向があります [3][10]。
これは、ショート動画を大規模に制作し、結果まで数分待つことができ、リトライ分の予算に余裕があるチームに適しています。それがあなたのワークフローに当てはまるなら、APIMart は、マーケティングクリエイティブ、製品ビジュアル、解説コンテンツを 1 つの API サーフェスで実行するクリーンな方法を提供します。
よくある質問
最初にどの Vidu MoE モデルを使うべきですか?
ほとんどの開発者にとって、viduq3-turbo が最適な出発点です。最速の生成速度、優れた価格対性能比、そしてオーディオビジュアル同期やインテリジェントなシーン切り替えといった高度な機能を提供します。
最も充実した機能セットが欲しいなら、viduq3-pro を選びましょう。ストーリーボード生成と最高品質のオーディオビジュアル整合を備えています。どちらのモデルも 1〜16 秒の動画と最大 1080p の解像度をサポートします。
失敗した、または遅延した動画ジョブはどう扱うべきですか?
非同期ワークフローでタスク ID を使います。
時間がかかるジョブには、ステータス API を時々ポーリングするか、コールバック URL を設定して、タスクが終端状態に達したときに通知を受け取れるようにします。
ジョブが失敗した場合は、コールバックまたはステータスのレスポンスでエラーの詳細を確認します。
本番の安定性のために、ポーリング時には指数バックオフを使い、レート制限にぶつからないようにします。
48 時間を超えて実行されるオフピークのタスクは自動的にキャンセルされ、ポイントは返金されます。
最も制御性が高い入力モードはどれですか?
マルチフレーム生成は、動画がある瞬間から次の瞬間へどう動くかを最も細かく制御できます。1 つのプロンプトや 2 フレーム構成に頼る代わりに、最大 9 つのキーフレームのシーケンスを描き出せます。
その追加の制御は重要です。各遷移ごとに、特定の画像とカスタムプロンプトを追加できるため、視覚的なストーリーがフレームごとに、あなたの望む道筋をたどります。
使用するには、画像とプロンプトを image_settings 配列に入れてマルチフレームエンドポイントに送ります。