
Seedance 4.0の使い方:ステップバイステップガイド
テキスト・画像・音声からシネマティックなAI動画を生成するSeedance 4.0の使い方と、APIMartの統合APIでワークフロー全体を自動化する方法を解説します。
Seedance 4.0は、ByteDanceの先進的なAI動画作成プラットフォームです。テキスト、画像、音声、動画を入力として、わずか30〜90秒でシネマティックな品質の動画を生成できます。同期音声付きの2K解像度で最長15秒のクリップに対応しており、SNS、マーケティング、教育、ストーリーテリングに最適です。知っておくべきポイントは以下のとおりです。
- 主な機能:1つのプロジェクトで最大9枚の画像、3本の動画クリップ、3つの音声ファイルを処理可能。16:9、9:16、1:1のアスペクト比に対応。
- コスト:APIを利用すれば8〜10秒の動画1本あたり$1未満、プランは月額$17.90から。
- 使いやすさ:Webブラウザからアクセス可能でダウンロード不要。テキストから動画、画像から動画、マルチモーダルの各ワークフローを提供。
- API連携:APIMartとシームレスに連携し、自動化パイプラインを構築可能。
まずはメールアドレスで登録し、無料プランを試して、直感的なインターフェースで動画を作成しましょう。最良の結果を得るには、明確なプロンプトを作成し、参照アセットにタグを付け、解像度やモーションの強さといった技術設定を最適化します。広告でもレッスンでも短編映画でも、Seedance 4.0は制作プロセスをシンプルにします。
Seedance 4.0を始める

アカウント登録とアクセス
Seedance 4.0を始めるのは簡単です。メールアドレス、Googleアカウント、またはDiscordアカウントを使って登録できます [1]。登録すると確認メールが届くので、メール内のリンクをクリックするだけでアカウントが有効化され、無料のスタータークレジットを利用できるようになります [1]。認証時のトラブルを避けるため、一時的なメールではなく普段使っているメインのメールアドレスを使用してください [9]。
設定時には地域として米国(United States)を選択しましょう。これにより請求がUSDで処理され、アカウントに正しい利用規約が適用されます [9]。認証が完了すれば、無料プランではクレジットカードを登録することなく、すぐに最初の動画作成に取りかかれます [8]。
後でアップグレードする場合、支払いはStripeを通じて安全に処理され、米国の主要なクレジットカードおよびデビットカードすべてに対応しています [11]。有料プランに切り替える前に、最初の1週間で無料プランを試し、自分の典型的なワークフローにどれくらいのクレジットが必要かを把握しておくとよいでしょう [9]。
アカウントの準備が整ったら、Seedance 4.0の使いやすいブラウザインターフェースを探索してみましょう。
インターフェースの概要
Seedance 4.0は完全にWebブラウザ上で動作するため、何かをダウンロードしたりインストールしたりする必要はありません [6]。最良の体験を得るには、視認性と操作性に優れたノートパソコンまたはデスクトップの使用をおすすめします [9]。
インターフェースは5つの主要なセクションに分かれています。
| エリア | 位置 | 用途 |
|---|---|---|
| ナビゲーションバー | 上部 | ダッシュボード、作成、ギャラリー、APIツール、請求にアクセス [1] |
| 生成パネル | 左 | モード選択、プロンプト入力(最大800文字)、ファイルのアップロード [1][6] |
| 設定パネル | 右 | 解像度、長さ、アスペクト比、モーションの強さを調整 [1] |
| プレビューウィンドウ | 中央 | 進行中の生成を確認し、完成したクリップを再生 [1] |
| 履歴サイドバー | 下部 | 過去の作成物にすばやくアクセス [1] |
作業の大半が行われるのが生成パネルです。ここでは、テキストから動画、画像から動画、_マルチモーダル_の3つのモードから選択できます。モードを選んだら、プロンプトを入力し、参照ファイルをアップロードできます。特筆すべき機能が**@参照システム**で、アップロードした各アセットに自動でタグを付けます(例:@image1、@video1)。これらのタグはプロンプト内で直接使用でき、特定のキャラクターの外見やモーションパスをAIに指示できます [1][10]。このシステムは、複雑なマルチモーダルワークフローを管理するのに特に役立ちます。
右側の設定パネルでは、生成前に出力を細かく調整できます。アスペクト比には注意しましょう。TikTokやInstagram Reelsには9:16、YouTubeには16:9、Instagramの投稿には1:1を使用します。後からアスペクト比を変更すると品質が低下する場合があります [1]。解像度は720pから4Kまで選択できます。初心者には1080pが最適なことが多いでしょう。高い画質と速い生成時間のバランスが取れているためです [1]。
視聴:Seedanceの全ワークフロー解説(1080p)
Seedance 4.0のステップバイステップ・ワークフロー
Seedance 4.0の3つの主要なワークフローを探索することから始めましょう。テキスト、画像、音声のいずれを扱う場合でも、これらのワークフローは魅力的な動画を簡単に作成できるよう設計されています。それぞれの仕組みは次のとおりです。
テキストから動画のワークフロー
まずテキストから動画を選択し、短いプロンプト(最大800文字)を入力します [6]。優れた結果を得るには、よく練られたプロンプトが不可欠です。次の構成を試してみましょう。[被写体] + [アクション] + [環境] + [カメラの動き] + [スタイル/照明] [1][10]。例えば、_「日差しの差し込むカフェでバリスタがラテアートを注ぐ、ゆっくりとしたドリーイン、シネマティックな暖色トーン」_といった具合です。
明瞭さのために、「dolly in」「pan left」「rack focus」「orbit」といった正確なカメラ指示を使いましょう。動きの乱れを避けるためワンアクションの原則を守り、各クリップは1つの主要なアクションだけに集中させます [10]。出力設定を済ませたら、生成をクリックします。通常、動画は30〜90秒で完成します [1][6]。
準備ができたら、次のワークフローに進んで他の入力オプションを探索しましょう。
画像から動画のワークフロー
画像をアニメーション化するには、ファイル(JPG、PNG、WEBP)をアップロードし、画像をどう動かすかを記述したモーションプロンプトを入力します [1]。@参照システムを使って役割を指定しましょう。例:「クリップ全体を通じてキャラクターの外見には@image1を参照」 [12][14]。これにより、AIが指示を正確に踏襲します。
キャラクターを中心とした動画では、シンプルな背景や透過背景のミドルショットのポートレートが最適です。透過PNGは被写体に焦点を保てるため特に効果的です [10]。キャラクターが頭を振り向くなどの複雑な動きをする必要がある場合は、異なる角度から撮影した2〜4枚の画像をアップロードして一貫性を保ち、顔のブレ(face drift)を防ぎましょう [10]。
より良い結果を得るために、モーションの強さを微調整しましょう。
| モーションの強さ | 適した用途 | 効果 |
|---|---|---|
| 0〜25% | ポートレート、商品撮影 | 控えめで最小限の動き |
| 30〜50% | 標準的なシーン、風景 | 滑らかで自然な動き |
| 60〜80% | アクションシーン、スポーツ | エネルギッシュでダイナミックな動き |
| 90〜100% | 実験的な用途 | カオスまたは誇張された動き |
「平凡なSeedanceの出力と、息をのむようなシネマティッククリップの違いは、たいていモデル自体ではありません。AIへの語りかけ方を知っているかどうかなのです。」- Pixo [10]
この手法に慣れたら、次は音声統合のワークフローを試してみましょう。
音声対応の動画ワークフロー
このワークフローは音声と動画の作成を組み合わせ、セリフ、効果音、音楽を完璧に同期させます。利用するには、マルチモーダルモードに切り替え、最大3つの音声ファイル(MP3またはWAV)をアップロードします。プロンプト内で各ファイルを参照するには@audio1構文を使い、その役割を明確に定義します。例えば、「@audio1はバックグラウンドミュージック。重低音のビートに合わせてカメラズームを揃える」 [12]。
セリフやリップシンクには、プロンプト内でダブルクォートに囲んだ発話を含めます(「The man said: 'Welcome home'」)。これによりAIが表情や口の動きを合わせられます [2]。正確な同期を確保するため、音声クリップは15秒未満に抑えましょう [7]。
「Seedance 4.0のおかげで、毎日ユニークなコンテンツを作成できています。ネイティブの音声同期は画期的です。トーキングヘッド動画のために後処理でリップシンクを編集する必要がもうありません。」- James Wilson、ソーシャルメディアマネージャー [8]
APIMartの統合AI APIでSeedance 4.0を使う


Seedance 4.0のワークフローに慣れたら、次はAPIMartのAPIと組み合わせて、完全に自動化された動画パイプラインを構築しましょう。
APIMartの概要と対応モデル
APIMartは、単一のRESTインターフェースを通じて500を超えるAIモデルへのアクセスをシンプルにします。動画生成については、doubao-seedance-2.0(標準)とdoubao-seedance-2.0-fastを含むDoubao Seedanceスイート一式に対応しています。その他の高性能なオプションには、テキストから動画を生成するGrok Imagine Videoなどがあります。また、キャラクター中心のクリップに特化した「Face」バリアントもあります [15][16]。すべての動画生成処理は、1つのエンドポイントhttps://api.apimart.ai/v1/videos/generationsで扱われます。
このAPIは非同期タスクパターンを採用しています。POSTリクエストを送信すると、レスポンスとしてtask_idが返されます。その後、GETリクエストでステータスをポーリングし、最終的な動画URLを取得します [15][17]。動画URLは24時間後に期限切れになる点に注意し、速やかにダウンロードするようにしてください。
「開発者として、クリーンなAPIと速いレスポンスタイムを高く評価しています。Doubao Seedance 2.0は私たちのパイプラインにシームレスに統合できます。」- Alex Wang、フルスタックエンジニア [18]
このシームレスな統合が、次のステップであるコスト管理と適切なモデル選択へとつながります。
料金とモデル選択
適切なモデルを選ぶには、品質、速度、コストを天秤にかける必要があります。標準のdoubao-seedance-2.0モデルは生成動画1秒あたり約**$0.10**、より高速なdoubao-seedance-2.0-fastは約**$0.081です [7]。例えば、5秒の1080pクリップは約$0.93**、10秒のクリップは約**$1.97になります [17]。動画リファレンス(Video-to-Video)を使う場合は、標準のテキストから動画生成の$6.40**に対し、100万トークンあたり約$3.90と料金が低くなります [17]。
コストを節約するヒントがあります。480pや720pといった低い解像度で開発とテストを行い、最終的な本番レンダリングのときだけ1080pに切り替えましょう [17]。これは反復作業の過程で大きな違いを生みます。
| モデル | 速度 | 1秒あたりのコスト | 適した用途 |
|---|---|---|---|
doubao-seedance-2.0 | 標準(30〜120秒) | 約$0.10 | 高品質な最終レンダリング |
doubao-seedance-2.0-fast | より高速 | 約$0.081 | 迅速なプロトタイピング、下書き |
| Video-to-Video(全モデル) | 場合による | 約$3.90/100万トークン | 既存映像の再利用 |
それでは、マルチモーダル入力に対応したAPIコールの構成方法を見ていきましょう。
マルチモーダルAPIコールの構成
すべてのAPIリクエストには、認可ヘッダーにBearerトークンが必要です(Authorization: Bearer YOUR_API_KEY)[15]。1回のコールで、3つの参照配列に分けて最大12個のマルチモーダル入力を組み合わせて含めることができます。image_urls(最大9枚の画像)、video_urls(最大3本のクリップ)、audio_urls(最大3つのファイル)です [1][19]。
テキスト+画像のリクエストでは、プロンプトとimage_urls配列を含めます。入力画像のアスペクト比に合わせるには、sizeをadaptiveに設定します [15][17]。音声同期動画を作成するには、音声ファイルをaudio_urlsに追加し、generate_audio: trueを有効にしてAI生成音声を動画と同期させます [15][2]。また、image_with_rolesパラメータを使ってクリップの開始状態と終了状態を定義し、first_frameとlast_frameを指定することもできます [15][3]。クリップをつなげたい場合は、return_last_frame: trueを設定して最終フレームの画像を取得し、それを次のリクエストの開始点として使用できます [15][17]。
出力オプションには、480pから1080pまでの解像度と、16:9、9:16、1:1、4:3、3:4、21:9、adaptiveといったアスペクト比があります。クリップの長さは4〜15秒(デフォルト:5秒)の範囲です [15]。
マーケティング、教育、エンターテインメントにおける実践的な活用例
APIコールが設定され、モデルの準備が整ったら、Seedance 4.0が実際のシナリオでどのように輝くかを見てみましょう。マーケティングキャンペーン、教育ツール、ストーリーテリングのプロジェクトのいずれにおいても、このプラットフォームはそれぞれに最適化されたソリューションを提供します。
マーケティングでの応用
Seedance 4.0は、9:16、16:9、1:1といったフォーマットのSNS広告を作成する上で画期的なツールです [1][4]。
商品広告に役立つ確実な公式は次のとおりです。被写体 + アクション + シーン + カメラ + スタイル + 音声 + 制約条件 [12]。例えば、_「スキンケアボトル(@Image1)が大理石のカウンターの上でゆっくり回転、マクロレンズ、柔らかなスタジオ照明、心地よいスパ音楽 - 画面上にテキストなし、ウォーターマークなし」といった具合です。高品質な参照画像を含め、「安定した商品の形状」_を指定することで、商品が一目で認識できる状態を保てます [12][13]。
米国の視聴者に響くコンテンツにするには、価格(「$24.99」)や_「Shop Now」の行動喚起などの要素をシーンに直接組み込みましょう [12]。UGC(ユーザー生成コンテンツ)風の広告には、「スマートフォンで撮影」「自然光」「UGCクリエイター」_といったプロンプトを使います [20]。プロトタイピングは常に480pで始め、最終的な本番制作のときだけ720pや1080pにアップグレードしましょう [20][4]。
「Seedance 2.0は計算式を変えます……ストーリーボードのように読めるプロンプトを入力すれば、音声付きで本物の撮影のように見えるクリップが返ってきます。」- Paul Grisel、VIDEOAI.ME創業者 [20]
教育コンテンツの作成
特に30〜60秒の短いレッスンの場合、8〜15秒のクリップに分割し、CapCutやAdobe Premiereといったツールで結合しましょう [1][5][4]。各セグメントは、導入、実演、結論など、1つの概念に集中させることができます。_「lens switch」_というキーワードを使えば、滑らかなアングル転換を作り出せます [21]。
図表、グラフ、講師のポートレートといったビジュアルが重要な場合は、画像から動画モードから始めて、AIが元素材に忠実に従うようにしましょう [5][12]。レッスンシリーズ全体で一貫性を保つには、@参照システムを使って「バーチャル教師」の外見を固定します [1][3][21]。化学反応や機械の動作など、細部まで描写が必要な実演には、テキストや緻密なビジュアルを鮮明に保つために2K解像度を選びましょう [1][21]。
ここではインクルーシブであることが不可欠です。_「多様なキャラクター」「自然な表情」「リアルな人体のプロポーション」_を指定するプロンプトは、幅広い視聴者にとって親しみやすく、歓迎されるコンテンツに仕上げてくれます [12][20]。
これらの手法は、さらに没入感のあるストーリーテリングの機会への土台となります。
エンターテインメントとストーリーテリング
一貫性はキャラクター主導の物語の屋台骨であり、Seedance 4.0はキャラクターごとに2〜4枚の参照画像を使うことでこれを実現します。正面図、斜め45度のアングル、透過背景の上半身ポートレートを組み合わせるのが最適です [10]。@参照システムはシーンをまたいでキャラクターの外見を統一し、透過背景は環境内の余計な要素ではなくキャラクターにモデルが集中できるようにします。
シネマティックな結果を得るには、カメラ指示をプロンプトに直接組み込みましょう。さらに高度な制御には、シネマティックAI動画生成ツールがハイエンド制作向けの専用パラメータを提供しています。「85mmレンズ」「浅い被写界深度」「dolly-in」「rack focus」といったフレーズを使えば、プロが演出したような印象のクリップを作れます [1][12]。シーンにセリフが含まれる場合は、ダブルクォートで囲むことで(例:「She says, 'Remember this moment'」)、自動リップシンクを有効化できます [2]。
「迅速なプロトタイピングに最適です。Seedance 4.0でゲーム環境のAI動画モックアップを数分で作成しています。2.0から4.0への進化は、品質の大きな飛躍です。」- Marcus Thompson、ゲーム開発者 [8]
Seedance 4.0ワークフローの最適化とトラブルシューティング
プロンプトの改善テクニック
出力の品質は、プロンプトの構成の良し悪しに大きく左右されます。確実なアプローチは6ステップの公式です。被写体、アクション、環境、カメラの動き、スタイル/照明、制約条件です。プロンプトは50〜80語を目安にしましょう。30語未満だとありきたりな結果になりがちで、100語を超えると細部が見落とされることが多くなります [10]。
最初の20〜30語に重点を置きましょう。結果を形作る上で最も重みを持つためです。明瞭さのために、被写体と主要なアクションから始めます [12]。照明の描写には細心の注意を払いましょう。_「ゴールデンアワー」「リムライト」「ネオンに照らされた」_といったフレーズは、視覚的な品質を劇的に高めてくれます [22]。
「照明は、あらゆるSeedance 2.0プロンプトにおいて最もレバレッジの高い単一の要素です。」- Pixo Blog [10]
プロンプトには肯定的な表現を使いましょう。例えば、_「no blur」ではなく「sharp edges」_と言います。モデルは否定表現を扱うのが苦手なことが多いため、望まないものではなく望むものを描写するほうが効果的です [12]。
技術パラメータの調整
プロンプトを改善した後は、技術パラメータを調整することで出力をさらに向上させられます。調整すべき2つの主要な要素は解像度とモーションの強さです。まずは480pでプロトタイピングして動きと構図を確定し、その後、より高い品質のために720pまたは2Kで最終出力をレンダリングしましょう [20]。Fastバリアントは5秒の720pクリップを約35秒で生成し、Proバリアントは2〜2.5倍の時間がかかるものの、明らかな品質向上をもたらします [23]。
モーションの強さは、デフォルト設定の0.7がほとんどのシナリオでうまく機能します。ただし、ニーズに応じて調整しましょう。
- 顔の歪みを避けるため、ポートレート中心のクリップには**20〜30%**を使います。
- ダイナミックな動きのある広い風景シーンには**40〜60%**を選びます。
- 被写体の鮮明さよりもダイナミックな動きが重要な場合には、0.85を超える値を使いましょう [23]。
| パラメータ | 最適な設定 | 備考 |
|---|---|---|
| 解像度 | 1080pまたは2K(最終) | クレジット節約のため480pでプロトタイピング [20][1] |
| モーションの強さ(ポートレート) | 20〜30% | 顔の歪みを防ぐ [1] |
| モーションの強さ(風景) | 40〜60% | 自然な動きを可能にする [1] |
| プロンプトの長さ | 50〜80語 | 指示の見落としを避ける [10] |
技術設定を微調整したら、次のステップは生成中に発生する問題のトラブルシューティングです。
よくある問題のトラブルシューティング
生成上の問題の多くは、過度に複雑なプロンプト、矛盾するカメラ指示、参照入力の欠如といったよくある原因に起因します。これらの問題を診断・解決するための簡単なガイドは次のとおりです。
| 問題 | 考えられる原因 | 修正ステップ |
|---|---|---|
| キャラクター/顔のブレ | キャラクターが多すぎる、または参照画像がない | @Image1で上半身のポートレートにタグ付け、キャラクターは最大2人に制限 [10][3] |
| 歪んだ人体/手足 | モーションの強さが高すぎる | モーションの強さを20〜30%に下げて再生成 [1][5] |
| カメラのガタつき/ブレ | 矛盾するカメラの動き、または曖昧な指示 | ショットごとに1つの具体的な動きに絞る(例:「slow dolly-in」)[10][5] |
| 指示が無視される | プロンプトが100語を超えている | 50〜80語に削減し、最初の文で主要な被写体を優先する [10][12] |
| 不要なウォーターマークや音楽 | モデルのデフォルト動作 | プロンプトの末尾に_「 - No music, No logo, no text on screen」_を加える [20][1] |
| アスペクト比の誤り | 構図の表現と比率設定の不一致 | 構図の用語を比率に合わせる(例:9:16には_「centered frame」_)[20] |
結果を改善するには、カメラのアングル、照明、モーションの強さなど、一度に1つの変数だけを調整しましょう。このステップバイステップのアプローチにより、何がうまくいって何がうまくいかないかを特定しやすくなります [22][20]。これらのトラブルシューティングのコツを、先ほどの最適化戦略と組み合わせることで、Seedance 4.0で一貫した高品質の結果を得られます。
まとめと重要ポイント
Seedance 4.0は、統合されたマルチモーダルアーキテクチャによって、強力な動画AIツールとして際立っています。テキスト、画像、音声、動画を一度のパスで処理することで、複数のツールを切り替える手間を解消します。VBenchで被写体の一貫性96.1%、動きの滑らかさ97.4%というベンチマークスコアを記録しており [24]、さまざまなワークフローで信頼できるパフォーマンスを発揮します。
APIMartの統合AI APIと組み合わせると、Seedance 4.0は米国のユーザー向けに動画生成をシンプルにします。5秒の1080pクリップで約$0.93から始まる従量課金モデルは、地域による制限なく柔軟性を提供します。厳しいスケジュールで作業するチームにとって、Fastモデルティアは高品質なレンダリングに踏み切る前のすばやいプロトタイピングを可能にし、迅速な反復に最適です。
Seedance 4.0を最大限に活用するには、次のベストプラクティスに従いましょう。
- プロンプトは30〜100語と簡潔に保つ。
- 参照アセットにタグを付けるには
@システムを使う。 - アスペクト比を入力ファイルに合わせる。
- 1つのクリップを次のクリップに直接送り込んで長いシーケンスを作るには、
return_last_frameを有効にする。
これらの習慣は制作を効率化し、シームレスな出力を確保するのに役立ちます。
マーケティング動画、教育コンテンツ、物語のいずれを制作する場合でも、ワークフローは一貫しています。明確なプロンプトから始め、すばやくプロトタイプを作り、パラメータを調整し、結果が期待に応えたらレンダリングを完成させます。この反復的なプロセスにより、Seedance 4.0は経験レベルを問わず、クリエイターにとって使いやすく効率的なものになっています。
よくある質問(FAQ)
複数のクリップで同じキャラクターの一貫性を保つにはどうすればよいですか?
Seedance 4.0でキャラクターの一貫性を保つには、すべてのプロンプトで**@Image1**とラベル付けした同じ高品質な参照画像を使い続けましょう。キャラクターの描写には正確で一貫した言葉遣いを使い、照明、スタイル、カメラアングルの統一を維持します。キャラクターの顔がはっきり見える状態を保ち、急な頭の動きを避け、すべてのクリップを1つのセッション内で生成して連続性を確保しましょう。
動画品質をすばやく向上させるために、まず変更すべき設定は何ですか?
Seedance 4.0で動画品質を向上させるには、右側のパネルで以下の重要な設定を調整しましょう。
- 解像度:鮮明さとパフォーマンスのバランスを取るため、1080pを選びます。
- アスペクト比:プラットフォームの要件に合わせます(例:横長動画には16:9、縦型フォーマットには9:16)。
- モーションの強さ:過度にダイナミックな動きを防ぐため、ノーマルまたはミディアムに設定します。
一度に1つの設定を調整して、動画に最も適したものを見つけましょう。
15秒のクリップを複数つなげて、より長い動画シーケンスにするにはどうすればよいですか?
Seedance 4.0で長い動画を作るには、2つの主要なツールを活用できます。
- マルチショット機能:15秒の枠内で複数の「ビート」を細分化した詳細なプロンプトを作成できます。例えば、次のように構成します。「0〜5秒:[説明]、5〜10秒:[説明]」。
- シームレス拡張機能:既存のクリップをアップロードし、対話的なコマンドを使ってシーケンスを前方または後方に拡張します。このツールは、動画全体を通じて照明とキャラクターの同一性が一貫した状態を保ちます。