
MiniMax Hailuo 03 API:1080p 動画生成
MiniMax Hailuo 03 API で 1080p AI 動画を構築:テキスト・画像から動画、非同期ジョブ、$0.08/秒の料金、開発者向け本番運用のヒントを解説します。
API で 1080p AI 動画を作りたい場合、主な制限はシンプルです:最大 5 秒のクリップ、非同期ジョブ処理、そして $0.08/秒のコストです。 私なら Hailuo 03 を、GPU を動かさずにテキストから動画、または画像から動画が必要なアプリ向けのショートフォーム動画モデルとして扱います。
平たく言うと、この記事は次のとおりです:
- できること: 1080p の MP4 動画を生成します
- 入力タイプ: テキストプロンプト、画像から動画、最初と最後のフレーム、被写体リファレンス
- クリップ制限: 1080p で 5 秒
- 料金: 5 秒の 1080p クリップあたり $0.40
- API フロー: ジョブを送信し、
task_idをポーリングするかcallback_urlを使用します - プロンプト制御:
[Pan left]や[Zoom in]のような括弧付きのカメラの動き - ファイル処理: 最終動画 URL は 24 時間で失効します
- 画像ルール: 20 MB 未満、アスペクト比は 2:5 から 5:2 の間
- 信頼性の注記: 記事は 99.9% のアップタイム SLA を引用しています
最も重要なのはこれです:単なるプロンプトではなく、バックエンドのロジックが必要です。 つまり、非同期のステータスチェックの処理、MP4 のすぐの保存、429 と 5xx でのリトライ、そして 5 秒より長いものが必要な場合のクリップのつなぎ合わせです。
私がこれをセットアップするなら、まず低解像度でプロンプトをテストし、動きの表現を固めてから、支出を抑えるために最終実行でのみ 1080p に移行します。
視聴:MiniMax 動画生成の自動化
中核機能と 1080p 出力オプション
最初のリクエストを送る前に、Hailuo 03 の入力モード、動き制御、出力制限をはっきりさせておきましょう。
対応入力:テキストプロンプト、画像、動き指示
Hailuo 03 は 4 つの入力モードに対応しています:テキストから動画、画像から動画 (I2V)、最初と最後のフレーム動画、被写体リファレンス動画 [2]。
動き制御では、[Pan left, Pedestal up] のように、1 つの括弧付き指示の中で最大 3 つのカメラの動きを組み合わせられます [3]。これにより、追加のメタデータなしでフレーミングとシーンの動きをガイドするシンプルな方法が得られます。
これらのモードは、次のセクションで扱うリクエストフィールドと対応しています。
開発者が確認すべき 1080p 出力仕様
1080p 出力は 5 秒クリップに制限されています。より長いシーケンスが必要な場合は、複数のクリップを生成してバックエンドでつなぎ合わせます。音声統合が必要なプロジェクトでは、代替として Google の Veo 3.1 を検討してください。
その制限は、リクエスト設定とバックエンドの組み立てロジックの両方を形作るはずです。
Hailuo 03 の仕様
| 仕様 | 詳細 |
|---|---|
| 入力モード | テキストから動画、画像から動画、最初と最後のフレーム動画、被写体リファレンス動画 |
| 動き制御 | 括弧付き指示あたり最大 3 つのカメラの動き |
| 最大クリップ長 | 5 秒 |
| 出力解像度 | 1080p |
APIMart で MiniMax Hailuo 03 API を呼び出す方法


Hailuo 03 が何を作れるかを見たので、次はそれをアプリに接続するときです。
認証、ベース URL、ヘッダー
APIMart へのすべてのリクエストは、Authorization ヘッダーに Bearer トークンを使い、Content-Type: application/json を併用します。1 つの APIMart API キーがすべてのリクエストを処理します。
POST https://api.apimart.ai/v1/videos/generations
Authorization: Bearer YOUR_API_KEY
Content-Type: application/json
テキストから動画・画像から動画のリクエスト例
毎回、同じエンドポイントと同じ認証設定を使います。変わるのは、プロンプト、解像度、再生時間、入力 URL です。
model フィールドは Hailuo 03 を指します。resolution は出力品質を制御します。そして 1080p が欲しい場合、duration は 5 でなければなりません。
テキストから動画のリクエスト:
{
"model": "MiniMax-Hailuo-03",
"prompt": "A product designer sketching at a sunlit desk, [Pan left, Zoom in], cinematic depth of field",
"resolution": "1080p",
"duration": 5,
"prompt_optimizer": true
}
画像から動画のリクエスト:
{
"model": "MiniMax-Hailuo-03",
"prompt": "The product rotates slowly on a white surface, [Orbit right]",
"resolution": "1080p",
"duration": 5,
"first_frame_image": "https://your-storage.com/product-shot.jpg",
"prompt_optimizer": true
}
画像から動画では、まず画像をアップロードし、返された URL を first_frame_image に使います。画像は 20 MB 未満で、そのアスペクト比は 2:5 から 5:2 の間に収まる必要があります。その範囲を外れると、API は 400 エラーを返します。生成前にプロンプトを洗練させたい場合は、prompt_optimizer を true に設定します。
非同期レスポンス、ジョブステータス、最終動画 URL
動画生成は非同期で実行されるため、アプリはステータスをポーリングするか、コールバックを使う必要があります。
「タスクを送信した後、成功または失敗するまで task_id を使ってそのステータスをポーリングします。」 - MiniMax API ドキュメント [2]
このエンドポイントを 15~30 秒ごとにポーリングします:
GET https://api.apimart.ai/v1/tasks/{task_id}
status フィールドはいくつかの段階を経て進みます:
| ステータス | 意味 |
|---|---|
submitted / Preparing | リクエスト受信、初期化中 |
queued / Queueing | GPU リソースを待機中 |
processing | 動画をアクティブにレンダリング中 |
completed / Success | 完了 - 動画 URL が利用可能 |
failed / Fail | エラー発生;error_message を確認 |
ステータスが completed に達すると、レスポンスに最終的な MP4 URL が含まれます。リンクは 24 時間で失効するため、MP4 はすぐにダウンロードしてください [4]。
多数のジョブを処理している場合は、ポーリングの代わりに最初のリクエストで callback_url を渡します。ジョブが終了するとサーバーが POST コールバックを受け取り、3 秒以内にチャレンジ値を返す必要があります [3]。
ジョブフローを設定したら、次は本番向けに品質とコストを詰めることです。別のシネマティックな動画スタイルには Kling V3 も検討するとよいでしょう。
1080P ワークロードのパラメータ、パフォーマンス、料金
本番で重要となる品質制御
リクエスト形式が決まったら、次のステップは出力品質・速度・支出のチューニングです。ほとんどの 1080P ジョブでは、3 つの設定が作業の大半を担います:resolution、duration、prompt_optimizer。
prompt_optimizer はプロンプトを書き換えて、動きと構図をより明確にします [1][3]。ほとんどの本番ケースでは、オンのままにするのが最善です。ただし、プロンプトをブランド用語や正確な表現に忠実に保つ必要がある場合は、保持したい言葉をシステムが書き換えないよう false に設定します [3]。
fast_pretreatment を使ってプロンプト準備時間を削減することもできます。トレードオフは、出力品質のわずかな低下です [1][3]。
カメラの動きについては、動きの指示を括弧付きコマンドでプロンプトに直接入れます。例として [Pan left] や [Zoom in] があります。1 つのプロンプトで最大 3 つまでこれらのコマンドを使えます [3][5]。
レイテンシと USD でのコスト計画
これらの制御を整えたら、コストの大半はクリップの長さに帰着します。生成は非同期で実行されるため、送信してポーリングするフローを計画してください。バックエンドが自動で結果を取得するようにしたい場合は、callback_url を使ってジョブ完了時に通知を受け取ります [4]。
$0.08/秒で、5 秒の 1080P クリップは $0.40 のコストです。
無駄を減らすシンプルな方法の 1 つは、まず 768P でプロンプトをテストし、プロンプトの挙動とカメラの動きが正しく見えたら 1080P に切り替えることです [1][6]。
統合パターンと次のステップ
マーケティング・製品・教育アプリ向けのバックエンドワークフロー
リクエスト処理とジョブステータスを設定したら、次は Hailuo 03 を実際の製品フローに組み込むことです。中核となるジョブフローはアプリの種類を問わず同じです。変わるのは、プロンプトのスタイル、送る入力、そしてクリップが果たすべき役割です。
マーケティング広告クリップにはテキストから動画を使います。プロンプトは短く直接的に保ち、[Pan left] や [Tracking shot] のようなカメラの合図を含めます。製品ビジュアルには画像から動画を使い、製品ショットをリファレンス画像として渡します。教育向けの解説には、長いクリップが必要なとき 768P が実用的な選択になることが多いです。
スケール時のストレージ、配信、使用量トラッキング
レンダリングが終わったら、配信とトラッキングのためにファイルを永続ストレージに移します。各 MP4 をすぐにダウンロードして、配信用に自分のシステムに保存します。信頼性のために、429 と 5xx のレスポンスに指数バックオフを追加します。大量に処理する場合は、ポーリングの代わりに callback_url を使います。すべての動画ジョブにわたって使用量を一箇所で追跡します。そのセットアップは、ボリュームが増えても配信を安定させるのに役立ちます。
結論:開発者向けの要点
ユースケースに合った正しい入力タイプでジョブを送信し、非同期フローを注意深く処理し、出力をすぐに保存する —— そこから先を構築していきます。
よくある質問
1080p 動画の生成には通常どのくらいかかりますか?
高品質な 1080p 動画の生成には通常 1 分 38 秒から 5 分かかりますが、ジョブによっては 30~90 秒で完了するものもあります。
正確なタイミングは 2 つのことに左右されます:プロンプトの複雑さと、希望する動画の長さです。生成は非同期で実行されるため、アプリは完了するまでタスクステータスをポーリングすべきです。
5 秒より長い動画を作る最善の方法は何ですか?
MiniMax Hailuo API で 5 秒より長い動画を作るには、より低い解像度を使います。
1080p は、モデルのバージョンによって 5 秒または 6 秒のクリップのみをサポートします。768p は最大 10 秒までのクリップをサポートします。
そのため 10 秒の動画が欲しい場合は、次のように設定します:
resolutionを768pdurationを10
API リクエストでは、実際の考え方としてこのようになります:解像度に 768p、再生時間に 10 を使います。
prompt_optimizer をオフにすべきなのはいつですか?
動画出力をより厳密に制御したいときは prompt_optimizer をオフにします。デフォルトでは、システムは結果を改善するために説明を書き換えます。
プロンプトを書いたとおりに正確に使いたい場合は、特にすでに微調整済みで何も変えたくない場合は、オフに切り替えてください。