Apimart
Vidu MoE API ガイド:Mixture-of-Experts 動画

Vidu MoE API ガイド:Mixture-of-Experts 動画

Vidu MoE(Vidu Q3)動画 API の開発者ガイド。APIMart におけるモデル階層、リクエスト構造、パラメータ、料金、非同期の submit-poll-download ワークフローを解説します。

チュートリアル

一言でまとめるなら: Vidu MoE は、1〜16 秒のクリップ、最大 1080p、24 fps、非同期配信、そして 1 回のリクエストでオプションの音声を必要とするチームのためのショート動画 API です。

本番投入への適合性を判断したいなら、結論はこうです。非同期ジョブを扱える体制があり、リトライ分の予算を見込み、各工程に適したモデル階層を選べる場合に最も効果を発揮します。 私ならプレビューには viduq3-turbo 、最終出力には viduq3-pro 使います。多くのジョブは 720p で約 60〜120 秒1080p で約 90〜180 秒で完了し、ピーク時の待ち時間は約 4 分に達することもあります。

最も重要なポイントは次のとおりです。

  • 入力モード: text-to-video、1 枚画像のアニメーション化、Grok Imagine Video の代替手段、2 フレームの開始/終了動画、複数画像の参照入力
  • クリップの制限: 1〜16 秒
  • 出力: 最大 1080p24 fps
  • 音声: 同じリクエスト内でオンにできる
  • 画像参照: より広いモデル機能セットでは最大 7 枚
  • 主要な API ルール: 画像 URL を送る場合は aspect_ratio送らない
  • 配信: task_id を用いた非同期、ポーリング、またはコールバック
  • 料金の例: Pro は 5 秒で約 $0.6012 秒で $1.44
  • 予算の現実: 承認済みクリップ 1 本につき 2〜3 回の試行を見込む

いくつかの細部が際立っています。この API は modelprompt、そしてオプションのメディア入力を持つシンプルな JSON リクエストを使います。モデル選択は明快で、低コストのテストには turbo、ハイエンドのレンダリングには pro という具合です。シード制御は、完全一致ではないものの、リトライをまたいで出力を似た方向に保つのに役立ちます。

これをプロダクトチーム向けに評価するなら、私は次の 3 つの問いに集中します。

  1. 自分のアプリは非同期処理をきれいに扱えるか?
  2. プロンプトのみの生成、画像主導の制御、開始/終了フレーム制御のどれが必要か?
  3. 初回コストだけでなく、リトライ後も予算は成り立つか?

クイック比較

項目知っておくべきこと
最適な用途マーケティングクリップ、製品動画、解説動画、広告バリエーション
モデルの選択肢viduq3-turboviduq3-providuq3
入力制御プロンプトのみ、画像 1 枚、画像 2 枚、または参照主導の生成
レイテンシ通常 1〜3 分、ピーク時はさらに長くなることも
解像度540p720p1080p
音声リクエスト内でサポート
ワークフロー適合性数分待てて、完了後にファイルを保存できるチーム
注意点期限切れする出力 URL、リトライコスト、不正なパラメータ組み合わせによるリクエストエラー

完全なガイドを読む前に、要点はシンプルです。Vidu MoE は、複数の入力モード、組み込みの音声、そして turbo と pro の切り替えによるコスト制御を求める、API ベースのショート動画生成に適しています。 残りは、リクエストの設定、ステータス処理、そして自分のワークフローに合う入力方法の選択に尽きます。

Vidu MoE API の概要と中核機能

Vidu MoE

API レベルでは、Vidu MoE は少数のモデル名、ワークフロー、出力フィールドに対応します。

Vidu MoE は API 上では、バランス型の Q3 モデルである viduq3-mix として現れます。viduq3-turbo は速度寄り、viduq3-pro はより細部寄りです。

動画生成における Mixture-of-Experts の意味

Mixture-of-experts は、生成プロセスの異なる部分を専門化したコンポーネントへ振り分けます。実際には、これがモーション、シーン構成、プロンプトへの忠実度に役立ちます。

Q3 シリーズはまた、インテリジェントなシーン切り替えとインテリジェントなカメラ切り替えをサポートします [2][4]。これは、モデルがシーンを見失うと連続性が一気に崩れかねないマルチショットのシーケンスで最も重要になります。

サポートされるワークフロー:Text-to-Video、Image-to-Video、参照ガイド付き生成

ここから先、主な違いは送る入力タイプに帰着します。

viduq3-mix は 4 つのワークフローをサポートします。

  • Text-to-Video — プロンプトのみから
  • Image-to-Video — 1 枚の開始画像から
  • Reference-to-Video — 外見とスタイルの一貫性のための 1〜7 枚の画像から
  • Start-End to Video — 遷移を定義する 2 フレームから

プロンプトは最大 5,000 文字をサポートします [3][4]viduq3-mix は Subjects エンティティライブラリをサポートしません。

入力と出力の一覧

ワークフロー代表的な入力フィールド返されるフィールド
Text-to-Videomodelpromptdurationaspect_ratioaudiotask_idstatecreditsvideo_url
Image-to-Videomodelimages(開始フレーム 1 枚)、promptaudiotask_idstatecreditsvideo_url
Reference-to-Videomodelimages(1〜7 枚)、promptaudiotask_idstatecreditsvideo_url
Start-End to Videomodelimages(2 フレーム)、promptresolutiontask_idstatecreditsvideo_url

各ジョブは task_idstate を返し、最終的な video_url は処理完了後に利用可能になります。

Q3 の動画は 24 fps で動作し、1〜16 秒の長さをサポートし(Sora 2 の機能に匹敵)、540p、720p、1080p の出力を提供します [2]。画像入力は 1 ファイルあたり 50 MB に制限されています [4][1]

これらのワークフローの選択肢が、次に送るペイロードを形作ります。続くセクションでは、それを認証とリクエスト形式に分解して解説します。

認証、リクエスト構造、APIMart のセットアップ

GccAi

Vidu MoE 動画を生成するには、認証済みの JSON リクエストを送る必要があります。リクエストボディは入力モードによって異なります。テキストのみ、単一画像、複数画像のいずれかです。

API 認証情報の取得とリクエストヘッダーの設定

APIMart API キー管理ページから API キーを生成します [6]。それを APIMART_API_KEY として保存し、実行時に Python では os.environ.get("APIMART_API_KEY")、Node.js では process.env.APIMART_API_KEY で読み込みます。

すべてのリクエストに次のヘッダーを含めます。

  • Authorization: Bearer YOUR_API_KEY
  • Content-Type: application/json

動画生成ジョブの最小リクエストペイロード

Vidu Q3(MoE)生成用の標準 APIMart エンドポイントは https://api.apimart.ai/v1/videos/generations です [6]。API は image_urls からモードを判定します。

  • URL 0 個 = text-to-video
  • URL 1 個 = image-to-video
  • URL 2 個 = first-to-last frame

中核となるフィールドと、それぞれの使用タイミングは次のとおりです [6]

パラメータ必須デフォルト備考
modelはい-viduq3-providuq3-turbo、または viduq3
prompt条件付き-text-to-video には必須。最大 2,000 文字
image_urls条件付き-image-to-video(URL 1 個)または first-to-last frame(URL 2 個)に必須
durationいいえ5 秒範囲:1〜16 秒
resolutionいいえ720p選択肢:540p720p1080p
aspect_ratioいいえ16:9text-to-video のみ。image_urls を渡す場合は省略
audioいいえtrue無音動画にするには false に設定
seedいいえ-再現性のための -1 から 2^32-1 までの整数

ここでよくあるミスが 1 つあります。aspect_ratioimage_urls と一緒に 送らないでください。画像を含めると、API はソース画像からアスペクト比を取得します。それでも aspect_ratio を送ると、リクエストは 400 エラーを返します。

ペイロードが設定できたら、ジョブを送信し、結果のポーリングを開始できます。

API 呼び出しの例とレスポンスパターン

text-to-video リクエストの例:

curl -X POST https://api.apimart.ai/v1/videos/generations \
  -H "Authorization: Bearer $APIMART_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "viduq3-turbo",
    "prompt": "A product shot of a glass perfume bottle on a marble surface, camera slowly zooms in, soft studio lighting",
    "duration": 5,
    "resolution": "720p",
    "aspect_ratio": "16:9",
    "audio": false
  }'

送信が成功すると、task_idsubmitted ステータスが返されます [6]

{
  "code": 200,
  "data": [{
    "status": "submitted",
    "task_id": "task_xxxxxxxxxx"
  }]
}

API は非同期で動作します。つまり、最初のレスポンスはジョブが受理されたことを伝えるだけです。task_id を使って「Get Task Status」エンドポイントをポーリングします。ジョブが完了すると、レスポンスには MP4 リンクが含まれ、通常は 7 日間有効です [6]

シンプルなポーリングのリズムがうまく機能します。

  • 最初の 5 分間は 5 秒ごとにポーリング
  • その後は 1 分ごとにポーリング
  • ステータスが completed になるまでポーリングを続ける

その時点で、返された動画リンクをダウンロードして保存します。

次に、duration、resolution、aspect ratio、参照入力を調整して、最終的な動画を制御します。異なるシネマティックスタイルを必要とするプロジェクトでは、ハイエンドの動画生成のために Kling V3 の機能を比較することもできます。

生成ワークフロー、パラメータ、出力制御

エンドツーエンドのフロー:送信、監視、取得、結果の保存

ジョブを送信した後、大きな本番の判断はシンプルです。コールバックを使うか、ステータスをポーリングするかです。ほとんどの場合、本番では callback_url の方が良い選択肢です。ポーリングも機能しますが、それはバックアッププランにすべきです。コールバックを使うと、API は最終ステータスをあなたのエンドポイントに送ります。配信が失敗した場合、最大 3 回までリトライします [3]

ジョブはその後、固定のステータス経路をたどります。createdqueueingprocessingsuccess または failed です [3][4]。タスクが failed に至った場合、レスポンスにはエラーコードが含まれます。そのコードをログに記録し、ワークフロー内で処理しておくと、チームがパターンを把握し、問題をより早く修正できます。

ステータスが success になったら、すぐに出力をダウンロードして耐久性のあるストレージに保存します。API がホストする URL は期限切れになることがあるため、このステップは重要です [9]

構成、モーション、長さ、一貫性に影響する主要パラメータ

ジョブが動き出すと、いくつかのパラメータが、結果の見え方、実行ごとの安定度、消費するクレジット数を形作ります。

パラメータ制御内容視覚 / 品質への効果コストへの影響
seedランダム化同じプロンプトで同じシードを再利用すると、似たモーションと構成を再現できる直接的なコスト影響なし [3][6]
off_peakジョブのスケジューリング視覚的な影響なし。優先度の低いジョブをオフピーク処理に振り分けるクレジット消費を抑えられる。完了が最大 48 時間遅れることがある [11]
audio_typeサウンドレイヤーSpeech_onlySound-effect_onlyAll から選択(kling-v2-6 の音声サポートに類似)標準的な音声オプションに追加料金なし [1][4]
is_recAI プロンプト強化手動プロンプトが不安定な結果を生む場合に、プロンプトと画像の整合性を改善タスクごとに 10 クレジットの追加コスト [1]

最初から追跡しておく価値があるパラメータが 1 つあります。seed です。気に入ったモーションパターンが得られたら、その整数を記録して保持しておきましょう。そうすれば、後でプロンプトを調整するときに、同じシードを再利用して、ゼロからやり直すのではなく、似た全体構成を保てます。

プロンプトのみ、画像参照、その両方をいつ使うか

これらの入力モードでは、速度と制御を引き換えにできます。自分の視覚的な方向性がどれだけ固まっているかに合うものを選びましょう。

  • プロンプトのみ(text-to-video): ビジュアル素材が確定する前の初期アイデア出し、スタイルテスト、シーン実験に最適。viduq3-turbo を 540p または 720p で使ってイテレーションコストを抑えるか、高い一貫性の代替として WAN 2.6 と比較しましょう [7]
  • 単一画像(image-to-video): 製品写真、キャラクターイラスト、ブランドビジュアルなど、特定のものをアニメーション化したいときに最適。EC やマーケティング業務に強く適合します。
  • 2 枚画像(first-to-last frame): 製品が特定の角度に回転する、キャラクターが定義されたポーズに移行するなど、遷移が決まった結果に着地する必要があるときに最適です [5]

手動プロンプトでムラのある結果になる場合は、is_rec: true をオンにします。API があなたの画像から最適化されたプロンプトを生成し、画像とプロンプトの整合性に役立ちますが、タスクごとに 10 クレジットが加算されます [1]

パフォーマンス、料金、実際の統合シナリオ

Vidu MoE API: Model Tiers, Pricing & Performance at a Glance
Vidu MoE API:モデル階層、料金、パフォーマンスの一覧

レイテンシ、信頼性、動画あたりのコストを評価する方法

リクエスト形式を固めたら、次に見るべきは速度、価格、ジョブの成功率です。これは非同期ワークフローなので、アプリはジョブを送信し、task_id を保存し、後でポーリングまたはコールバックを通じて最終的な MP4 を取得すべきです [3][6]

ジョブは通常、シンプルな経路をたどります。queued、complete、または failed です。ジョブが失敗すると、クレジットは多くの場合自動的に返金されます [3][10]。これは本番で重要です。リトライは例外的なケースではなく、プロセスの一部だからです。

ターンアラウンドタイムについては、720p の生成は通常 60〜120 秒で完了します。1080p では 90〜180 秒程度を見込んでください。キュー時間はオフピーク時には 15〜30 秒であることが多く、ピーク時の p95 レイテンシは約 4 分まで延びることがあります [7]。というわけで、本番でも十分に機能します。ただし、非同期完了をきれいに扱えるようにシステムが設計されている場合に限ります。

料金については、Pro のレートで 5 秒のクリップが $0.6012 秒のクリップが $1.44 です [10]。実際には、ほとんどのチームは 承認済みアセット 1 本につき 2〜3 回の試行を見込むべきです。これにより、使用可能なクリップ 1 本の最終コストは、長さに応じて $1.20〜$4.32 の範囲になります [10]。テストモードであれば、viduq3-turbo は Pro の約半額で、高速なイテレーションにより理にかなっています。Pro は最終レンダリングに取っておく方が良いでしょう [10]

ボリューム階層月間動画数平均の長さ基本月額コスト(USD)
Light5012s$72.00
Medium20012s$288.00
Heavy50012s$720.00

これらの数字は基本生成のみをカバーしています。リトライは 含まれていません。チームが複数回のパスを見込むなら(そしてほとんどがそうです)、日々の本番に近い予算にするには、合計を 2〜3 倍してください。

ユースケース:マーケティング動画、教育クリップ、EC 商品ビジュアル

コストと待ち時間が明確になったら、次のステップは、出荷したいアセットに適した入力モードを選ぶことです。最善の選択は、ほぼ 1 つのことに帰着します。自分がすでにどれだけの視覚的制御を持っているかです。

シナリオ推奨される入力タイプ出力への期待運用上の注意
マーケティングクリエイティブReference-to-Videoクリップ間で一貫したブランドアバターやマスコットキャラクターと背景の参照を一緒に渡して視覚的な一貫性を確保。
EC ビジュアルImage-to-Video一貫した製品の外見高品質なカタログ画像 1 枚から開始。出力品質は入力フレームに連動。
教育クリップFirst-Last Frame状態間のスムーズな遷移開始画像と終了画像を提供してモーションをガイド。
ソーシャルメディア広告Text-to-Video縦型(9:16)または正方形(1:1)のクリップ短い縦型または正方形のプロンプトを使って広告バリエーションを高速に生成。

シンプルな考え方は次のとおりです。

  • ブランドの一貫性が重要なら、Reference-to-Video を使う
  • ソース画像がすでに良く見えるなら、Image-to-Video を使う
  • 2 つの状態間のモーションが必要なら、First-Last Frame を使う
  • 広告バリエーションを大量に高速で作りたいなら、Text-to-Video を使うか、高い一貫性のプロフェッショナルな出力のために MiniMax Hailuo 2.3 を検討する。

編集時間を削りたいチームにとって、ワークフローを最も変えるのはネイティブ音声です。ネイティブ音声は、別途のソーシングと編集作業を削減し [8]、1 回の生成パスで完成したクリップを得たいチームにとって、追加のポストプロダクション工程を取り除けます。そこがこのモデルが最も役立つ場面です。長いハンドオフの連鎖にファイルを通すことなく、出荷可能なアセットに近づけることが目標のときです。

結論:Vidu MoE が自分の本番ワークフローに合うかどうかの判断方法

Vidu MoE は、最大 12〜16 秒のショートクリップ、複数の入力モード、そして非同期 API 構成でのネイティブ音声が必要なときに意味があります。seed パラメータは、繰り返しのジョブをおおよそ同じ方向に保つのに役立ちますが、同一の入力がビット単位で一致する出力を生むとは期待すべきではありません [6][10]。失敗したジョブも、自動的なクレジット返金を引き起こす傾向があります [3][10]

これは、ショート動画を大規模に制作し、結果まで数分待つことができ、リトライ分の予算に余裕があるチームに適しています。それがあなたのワークフローに当てはまるなら、APIMart は、マーケティングクリエイティブ、製品ビジュアル、解説コンテンツを 1 つの API サーフェスで実行するクリーンな方法を提供します。

よくある質問

最初にどの Vidu MoE モデルを使うべきですか?

ほとんどの開発者にとって、viduq3-turbo が最適な出発点です。最速の生成速度、優れた価格対性能比、そしてオーディオビジュアル同期やインテリジェントなシーン切り替えといった高度な機能を提供します。

最も充実した機能セットが欲しいなら、viduq3-pro を選びましょう。ストーリーボード生成と最高品質のオーディオビジュアル整合を備えています。どちらのモデルも 1〜16 秒の動画と最大 1080p の解像度をサポートします。

失敗した、または遅延した動画ジョブはどう扱うべきですか?

非同期ワークフローでタスク ID を使います。

時間がかかるジョブには、ステータス API を時々ポーリングするか、コールバック URL を設定して、タスクが終端状態に達したときに通知を受け取れるようにします。

ジョブが失敗した場合は、コールバックまたはステータスのレスポンスでエラーの詳細を確認します。

本番の安定性のために、ポーリング時には指数バックオフを使い、レート制限にぶつからないようにします。

48 時間を超えて実行されるオフピークのタスクは自動的にキャンセルされ、ポイントは返金されます。

最も制御性が高い入力モードはどれですか?

マルチフレーム生成は、動画がある瞬間から次の瞬間へどう動くかを最も細かく制御できます。1 つのプロンプトや 2 フレーム構成に頼る代わりに、最大 9 つのキーフレームのシーケンスを描き出せます。

その追加の制御は重要です。各遷移ごとに、特定の画像とカスタムプロンプトを追加できるため、視覚的なストーリーがフレームごとに、あなたの望む道筋をたどります。

使用するには、画像とプロンプトを image_settings 配列に入れてマルチフレームエンドポイントに送ります。