
如何使用 Seedance 4.0:手把手完整教程
学习如何使用 Seedance 4.0 通过文本、图像和音频生成电影级 AI 视频,并借助 APIMart 统一 API 实现整个工作流的自动化。
Seedance 4.0 是 ByteDance(字节跳动)推出的先进 AI 视频创作平台。它能让你仅用 30–90 秒,就借助文本、图像、音频或视频输入生成电影级画质的视频。平台支持生成最长 15 秒、2K 分辨率并带同步音频的片段,非常适合社交媒体、营销、教育和讲故事等场景。以下是你需要了解的要点:
- 核心功能:单个项目中可处理多达 9 张图像、3 段视频片段和 3 个音频文件。支持 16:9、9:16 和 1:1 的画面比例。
- 费用:通过其 API 生成一段 8–10 秒的视频不到 $1,套餐起价为 $17.90/月。
- 易用性:通过网页浏览器即可访问,无需下载。提供文本生成视频、图像生成视频和多模态三种工作流。
- API 集成:可与 APIMart 无缝配合,构建自动化流水线。
开始时,用你的邮箱注册,体验免费套餐,并使用直观的界面来创建视频。为获得最佳效果,请撰写清晰的提示词、标记参考素材,并优化分辨率和运动强度等技术设置。无论你是制作广告、课程还是短片,Seedance 4.0 都能让整个过程变得简单。
开始使用 Seedance 4.0

账户设置与访问
上手 Seedance 4.0 非常简单。你可以使用邮箱地址、Google 账户或 Discord 账户进行注册 [1]。注册后,你会收到一封验证邮件——只需点击邮件中的链接即可激活账户,并获取免费的入门额度 [1]。请务必使用你的主邮箱地址,而不是临时邮箱,以免验证时出现问题 [9]。
设置时,请将地区选为美国。这能确保你的账单以美元结算,并应用正确的服务条款 [9]。完成验证后,你无需在免费套餐中添加信用卡,即可立即开始创建你的第一个视频 [8]。
如果你之后决定升级,付款会通过 Stripe 安全处理,它接受所有主流的美国信用卡和借记卡 [11]。建议你在第一周先体验免费套餐,了解你的常规工作流大约需要多少额度,再决定是否升级到付费套餐 [9]。
账户搭建并运行起来后,你就可以开始探索 Seedance 4.0 友好易用的浏览器界面了。
界面概览
Seedance 4.0 完全在网页浏览器中运行,无需下载或安装任何东西 [6]。为获得最佳体验,请使用笔记本电脑或台式机,因为这些设备能提供更好的视野和操控性 [9]。
界面分为五个主要区域:
| 区域 | 位置 | 用途 |
|---|---|---|
| 导航栏 | 顶部 | 访问仪表盘、创建、画廊、API 工具和账单 [1] |
| 生成面板 | 左侧 | 选择模式、输入提示词(最多 800 字符)并上传文件 [1][6] |
| 设置面板 | 右侧 | 调整分辨率、时长、画面比例和运动强度 [1] |
| 预览窗口 | 中央 | 查看正在生成的内容并播放已完成的片段 [1] |
| 历史侧边栏 | 底部 | 快速访问你之前的作品 [1] |
生成面板 是你大部分工作发生的地方。在这里,你可以在三种模式之间选择——文本生成视频、图像生成视频 和 多模态。选定模式后,你就可以输入提示词并上传任何参考文件。一项亮点功能是 @ 引用系统,它会自动为每个上传的素材打上标签(例如 @image1、@video1)。这些标签可直接用于提示词中,以引导 AI 呈现特定的角色外观或运动路径 [1][10]。该系统对于管理复杂的多模态工作流尤其有用。
在右侧,设置面板 让你在生成前对输出进行精细调整。请留意画面比例——TikTok 或 Instagram Reels 用 9:16,YouTube 用 16:9,Instagram 帖子用 1:1——因为事后更改比例会降低画质 [1]。你还可以选择从 720p 到 4K 的分辨率。对于新手来说,1080p 通常是最佳选择,因为它在高画质与较快的生成速度之间取得了平衡 [1]。
观看:完整的 Seedance 工作流演示(1080p)
Seedance 4.0 工作流分步指南
通过探索 Seedance 4.0 的三大主要工作流来开始上手。无论你使用的是文本、图像还是音频,这些工作流都旨在帮助你轻松创作出令人惊艳的视频。以下是每种工作流的运作方式:
文本生成视频工作流
首先选择 文本生成视频,输入一段简短的提示词(最多 800 字符)[6]。一段精心撰写的提示词对于优秀的效果至关重要。试试这个结构:[主体] + [动作] + [环境] + [镜头运动] + [风格/光照] [1][10]。例如:"一位咖啡师在阳光洒落的咖啡馆里拉花,镜头缓慢推近,电影感的暖色调。"
使用精确的镜头指令,如 "推近(dolly in)"、"向左横摇(pan left)"、"焦点转移(rack focus)" 或 "环绕(orbit)",以保证清晰度。遵循 单一动作原则,避免运动失真——每个片段应只聚焦于一个主要动作 [10]。设置好输出偏好后,点击 生成。你的视频通常会在 30–90 秒内准备就绪 [1][6]。
准备好后,继续进入下一个工作流,探索其他输入方式。
图像生成视频工作流
要让一张图像动起来,请上传你的文件(JPG、PNG 或 WEBP),并提供一段描述图像应如何运动的 运动提示词 [1]。使用 @ 引用系统来指定角色,例如:"在整个片段中参考 @image1 作为角色的外观" [12][14]。这能确保 AI 准确遵循你的引导。
对于以角色为主的视频,采用简洁或透明背景的中景人像效果最佳。透明 PNG 尤其有用,因为它们能让画面焦点集中在主体上 [10]。如果角色需要做出复杂的动作,比如转头,请上传 2–4 张不同角度的图像,以保持一致性并避免面部漂移 [10]。
精细调整运动强度以获得更好的效果:
| 运动强度 | 适用场景 | 效果 |
|---|---|---|
| 0–25% | 人像、产品镜头 | 细微、最小幅度的运动 |
| 30–50% | 标准场景、风景 | 流畅、自然的运动 |
| 60–80% | 动作场景、运动 | 充满活力、动感的运动 |
| 90–100% | 实验性 | 混乱或夸张的运动 |
"一段平庸的 Seedance 输出与一段令人叹为观止的电影级片段之间的差距,通常不在于模型本身,而在于你是否懂得如何与它对话。" - Pixo [10]
熟练掌握这种方法后,可以尝试下一个工作流,了解音频集成。
音频感知视频工作流
这个工作流将音频与视频创作结合在一起,完美同步对白、音效和音乐。要使用它,请切换到 多模态 模式,并上传最多 3 个音频文件(MP3 或 WAV)。在提示词中使用 @audio1 语法来引用每个文件,并清楚地定义它们的角色——例如:"@audio1 是背景音乐;让镜头变焦与厚重的低音节拍对齐" [12]。
对于对白或口型同步,请在提示词中用双引号包含台词("那个男人说:'欢迎回家'"),这样 AI 就能匹配面部表情和嘴部动作 [2]。将音频片段控制在 15 秒以内,以确保精确同步 [7]。
"Seedance 4.0 帮助我每天创作出独特的内容。原生音频同步是一个颠覆性的功能——再也不用为口播视频做后期口型同步剪辑了。" - James Wilson,社交媒体经理 [8]
通过 APIMart 的统一 AI API 使用 Seedance 4.0


一旦你掌握了 Seedance 4.0 的工作流,就该将它与 APIMart 的 API 配合起来,构建完全自动化的视频流水线了。
APIMart 概览与支持的模型
APIMart 通过单一 REST 接口简化了对 500 多个 AI 模型的访问。在视频生成方面,它支持完整的 Doubao Seedance 系列,包括 doubao-seedance-2.0(标准版)和 doubao-seedance-2.0-fast。其他高性能选项还包括用于文本生成视频的 Grok Imagine Video。此外还有专为以角色为主的片段量身打造的专门 "Face" 变体 [15][16]。所有视频生成流程都通过同一个端点处理:https://api.apimart.ai/v1/videos/generations。
该 API 采用 异步任务模式。当你发送一个 POST 请求时,会在响应中得到一个 task_id。然后你通过 GET 请求轮询状态,以获取最终的视频 URL [15][17]。请记住,视频 URL 会在 24 小时后过期,所以务必及时下载。
"作为一名开发者,我很欣赏简洁的 API 和快速的响应时间。Doubao Seedance 2.0 无缝地集成进了我们的流水线。" - Alex Wang,全栈工程师 [18]
这种无缝集成将我们引向下一步:管理成本并选择合适的模型。
定价与模型选择
选择合适的模型需要权衡画质、速度和成本。标准的 doubao-seedance-2.0 模型每秒生成视频的费用约为 $0.10,而更快的 doubao-seedance-2.0-fast 约为每秒 $0.081 [7]。举例来说,一段 5 秒的 1080p 片段大约花费 $0.93,而一段 10 秒的片段约为 $1.97 [17]。如果你使用视频参考(视频生成视频),计费费率会更低——约为 每百万 token $3.90,相比之下标准的文本生成视频为 $6.40 [17]。
这里有一个省钱的小贴士:在 480p 或 720p 等较低分辨率下进行开发和测试,仅在最终成片渲染时才切换到 1080p [17]。这在反复迭代的过程中能带来很大的差别。
| 模型 | 速度 | 每秒成本 | 适用场景 |
|---|---|---|---|
doubao-seedance-2.0 | 标准(30–120 秒) | ~$0.10 | 高质量的最终成片 |
doubao-seedance-2.0-fast | 更快 | ~$0.081 | 快速原型、草稿 |
| 视频生成视频(任意模型) | 不定 | ~$3.90/百万 token | 复用已有素材 |
现在,让我们来看看如何为多模态输入构建你的 API 调用。
构建多模态 API 调用
每个 API 请求都需要在授权头中携带 Bearer Token(Authorization: Bearer YOUR_API_KEY)[15]。你可以在单次调用中包含多达 12 个组合的多模态输入,分布在三个参考数组中:image_urls(最多 9 张图像)、video_urls(最多 3 段片段)和 audio_urls(最多 3 个文件)[1][19]。
对于文本加图像的请求,请在提示词之外附上 image_urls 数组。将 size 设为 adaptive,以匹配你输入图像的画面比例 [15][17]。要创建 音频同步视频,请将音频文件添加到 audio_urls,并启用 generate_audio: true,让 AI 生成的音频与视频同步 [15][2]。你还可以使用 image_with_roles 参数来定义片段的起始和结束状态,以指定 first_frame 和 last_frame [15][3]。如果你想将多个片段串联起来,可设置 return_last_frame: true 来获取最后一帧的图像,然后将其用作下一个请求的起点 [15][17]。
输出选项包括从 480p 到 1080p 的分辨率,以及 16:9、9:16、1:1、4:3、3:4、21:9 和 adaptive 等画面比例。片段时长介于 4 至 15 秒(默认:5 秒)[15]。
营销、教育和娱乐领域的实际应用案例
一旦你的 API 调用搭建完毕、模型准备就绪,就该看看 Seedance 4.0 如何在真实场景中大放异彩了。无论是营销活动、教育工具还是讲故事项目,这个平台都能为每种场景提供量身定制的解决方案。
营销应用
Seedance 4.0 是制作 9:16、16:9 和 1:1 等格式社交媒体广告的颠覆性工具 [1][4]。
这里有一个可靠的产品广告公式:主体 + 动作 + 场景 + 镜头 + 风格 + 音频 + 约束 [12]。例如:"一瓶护肤品(@Image1)在大理石台面上缓缓旋转,微距镜头,柔和的影棚光照,舒缓的水疗音乐——画面无文字、无水印。" 附上一张高质量的参考图像并指定 "产品形状稳定",可确保产品始终一眼就能辨认 [12][13]。
为了让内容引起美国受众的共鸣,可将价格("$24.99")和 "立即购买(Shop Now)" 的行动号召等细节直接融入场景中 [12]。对于用户生成内容(UGC)风格的广告,可使用诸如 "用智能手机拍摄"、"自然光照" 和 "UGC 创作者" 之类的提示词 [20]。始终从 480p 开始制作原型,仅在最终成片时才升级到 720p 或 1080p [20][4]。
"Seedance 2.0 改变了整个算法……你输入一段读起来像分镜脚本的提示词,得到的却是一段看起来像真实拍摄、还带声音的片段。" - Paul Grisel,VIDEOAI.ME 创始人 [20]
教育内容创作
对于碎片化的课程,尤其是那些 时长 30–60 秒 的内容,可将它们拆分为 8–15 秒的片段,再用 CapCut 或 Adobe Premiere 等工具合并起来 [1][5][4]。每个片段可以聚焦于单个概念,比如开场介绍、演示或总结。使用 "镜头切换(lens switch)" 关键词来创造流畅的角度过渡 [21]。
当图表、图示或讲师人像等视觉元素是关键时,请从 图像生成视频模式 开始,以确保 AI 紧贴源素材 [5][12]。为了在一整个系列课程中保持一致性,请使用 @ 引用系统锁定 "虚拟教师" 的外观 [1][3][21]。对于需要精细细节的演示——比如化学反应或机械过程——请选择 2K 分辨率,让文字和复杂的视觉效果保持锐利清晰 [1][21]。
包容性在这里至关重要。指定 "多元化的角色"、"自然的面部表情" 和 "逼真的人体比例" 等提示词,可以让内容对广泛的受众更具亲和力和吸引力 [12][20]。
这些技巧为更具沉浸感的故事讲述机会奠定了基础。
娱乐与故事讲述
一致性是角色驱动故事的支柱,Seedance 4.0 通过 每个角色使用 2–4 张参考图像 来确保这一点。混合使用正面视图、四分之三角度以及透明背景的半身人像效果最佳 [10]。@ 引用系统能让角色外观在各个场景中保持统一,而透明背景则有助于模型聚焦于角色本身,而非环境中的干扰因素。
为获得电影级效果,请将镜头指令直接嵌入你的提示词中。如需更高级的控制,电影级 AI 视频生成 工具为高端制作提供了专门的参数。使用诸如 "85mm 镜头"、"浅景深"、"推近(dolly-in)" 或 "焦点转移(rack focus)" 之类的措辞,来打造看起来由专业导演执导的片段 [1][12]。如果你的场景包含对白,请用双引号将其括起来(例如,"她说:'记住这一刻'"),以激活 自动口型同步 [2]。
"非常适合快速原型制作。我在几分钟内就用 Seedance 4.0 AI 视频制作出了游戏环境的样片。从 2.0 到 4.0 的飞跃是一次巨大的质量提升。" - Marcus Thompson,游戏开发者 [8]
优化与排查 Seedance 4.0 工作流
提示词优化技巧
你输出的质量在很大程度上取决于你提示词的结构有多好。一个可靠的方法是 6 步公式:主体、动作、环境、镜头运动、风格/光照 和 约束。提示词长度应力争控制在 50–80 个词——短于 30 个词往往会产生泛泛的结果,而超过 100 个词的提示词常常会导致一些细节被忽略 [10]。
请把重点放在前 20–30 个词上,因为它们在塑造结果时占据最大的分量。先从主体和主要动作开始,以保证清晰度 [12]。密切关注光照描述——"黄金时刻(golden hour)"、"轮廓光(rim lighting)" 或 "霓虹光照(neon-lit)" 等措辞能显著提升视觉质量 [22]。
"光照是任何 Seedance 2.0 提示词中杠杆作用最强的单一元素。" - Pixo Blog [10]
在提示词中使用肯定式的语言。例如,用 "锐利的边缘" 而不是 "无模糊"。模型往往难以处理否定式表达,因此最好描述你想要什么,而不是你不想要什么 [12]。
技术参数调优
优化提示词之后,调整技术参数能进一步改善输出。两个值得调整的关键因素是 分辨率 和 运动强度。先在 480p 下制作原型,敲定运动和构图;然后在 720p 或 2K 下渲染最终输出,以获得更好的质量 [20]。Fast 变体生成一段 5 秒的 720p 片段约需 35 秒,而 Pro 变体所需时间是其 2–2.5 倍,但能带来显著的质量提升 [23]。
至于运动强度,默认设置 0.7 适用于大多数场景。不过,可根据你的需求进行调整:
- 对于以人像为主的片段,使用 20–30%,以避免面部失真。
- 对于带有动感运动的宽幅风景场景,选择 40–60%。
- 将 0.85 以上的数值留给那些动感运动比主体清晰度更重要的情况 [23]。
| 参数 | 优化设置 | 备注 |
|---|---|---|
| 分辨率 | 1080p 或 2K(最终成片) | 在 480p 制作原型以节省额度 [20][1] |
| 运动强度(人像) | 20–30% | 防止面部失真 [1] |
| 运动强度(风景) | 40–60% | 实现自然的运动 [1] |
| 提示词长度 | 50–80 个词 | 避免指令被忽略 [10] |
技术设置精细调整完毕后,下一步就是排查生成过程中出现的任何问题。
常见问题排查
大多数生成问题都源于一些常见原因,比如提示词过于复杂、镜头指令相互冲突,或缺少参考输入。下面是诊断和修复这些问题的快速指南:
| 问题 | 可能原因 | 纠正步骤 |
|---|---|---|
| 角色/面部漂移 | 角色过多或缺少参考图像 | 用 @Image1 标记一张半身人像;最多限制为 2 个角色 [10][3] |
| 扭曲的肢体/身体 | 运动强度设置过高 | 将运动强度降至 20–30% 并重新生成 [1][5] |
| 抖动/晃动的镜头 | 镜头运动相互冲突或指令含糊 | 每个镜头只坚持使用一个具体的运动(例如 "缓慢推近(slow dolly-in)")[10][5] |
| 指令被忽略 | 提示词超过 100 个词 | 精简到 50–80 个词,并在第一句话中优先呈现关键主体 [10][12] |
| 不需要的水印或音乐 | 模型的默认行为 | 在提示词末尾加上 " - No music, No logo, no text on screen" [20][1] |
| 画面比例不正确 | 构图措辞与比例设置不匹配 | 让构图术语与比例对齐(例如,9:16 用 "居中构图")[20] |
要优化你的结果,请一次只调整一个变量——无论是镜头角度、光照还是运动强度。这种循序渐进的方法能让你更容易识别出哪些有效、哪些无效 [22][20]。将这些排查技巧与前面的优化策略结合起来,你就能用 Seedance 4.0 获得稳定、高质量的结果。
结论与核心要点
凭借其统一的多模态架构,Seedance 4.0 脱颖而出,成为一款强大的视频 AI 工具。通过在单次处理中同时处理文本、图像、音频和视频,它免去了在多个工具之间来回切换的麻烦。它在 VBench 上的基准测试中取得了主体一致性 96.1% 和运动流畅度 97.4% 的成绩 [24],在各种工作流中都能交付可靠的表现。
当与 APIMart 的统一 AI API 配合使用时,Seedance 4.0 为美国用户简化了视频生成。其 按需付费模式,一段 5 秒的 1080p 片段起价约为 $0.93,提供了无地区限制的灵活性。对于赶进度的团队,Fast 模型档位允许在投入高质量渲染之前快速制作原型,使其成为快速迭代的理想之选。
要充分发挥 Seedance 4.0 的潜力,请遵循以下最佳实践:
- 保持提示词简洁,控制在 30–100 个词之间。
- 使用
@系统来标记参考素材。 - 让你的画面比例与输入文件相匹配。
- 启用
return_last_frame,通过将一个片段直接接续到下一个,来创建更长的序列。
这些习惯有助于精简制作流程,并确保输出无缝衔接。
无论你是在制作营销视频、教育内容还是叙事作品,工作流都保持一致:从一段清晰的提示词开始,快速制作原型,调整参数,并在结果符合预期后完成最终渲染。这种迭代过程让 Seedance 4.0 对创作者来说既易于上手又高效,无论他们的经验水平如何。
常见问题
如何在多个片段之间保持同一个角色的一致性?
要在 Seedance 4.0 中保持角色一致性,请在所有提示词中始终使用同一张标记为 @Image1 的高质量参考图像。在角色描述中使用精确且一致的措辞,并在光照、风格和镜头角度上保持统一。确保角色的面部始终清晰可见,避免快速的头部动作,并在单次会话中生成所有片段,以确保连贯性。
我应该先更改哪些设置才能快速提升视频质量?
要在 Seedance 4.0 中提升视频质量,请在右侧面板中调整这些关键设置:
- 分辨率:选择 1080p,在锐利度和性能之间取得平衡。
- 画面比例:与你平台的要求对齐(例如,横版视频用 16:9,竖版格式用 9:16)。
- 运动强度:设为常规或中等,以防止过于剧烈的运动。
一次只调整一个设置,看看什么最适合你的视频。
我如何把几段 15 秒的片段拼成一个更长的视频序列?
要在 Seedance 4.0 中制作更长的视频,你可以利用两个关键工具:
- 多镜头功能:它允许你撰写一段详细的提示词,将 15 秒时间框架内的多个 "节拍" 拆分开来。例如,你可以这样组织:“0–5 秒:[描述],5–10 秒:[描述]。”
- 无缝扩展功能:上传你已有的片段,并使用对话式指令向前或向后延展序列。这个工具能确保光照和角色身份在整个视频中保持一致。