统一的多模态输入
在一个工作流里使用文本、图像、视频与音频进行创作。
Seedance 2.0 自研之初就面向多模态视频创作。它不再只靠文本提示,而是在一次生成里融合文本、图像、视频和音频输入——让创作者有更多方式去塑造动作、构图、场景走向与整体品质。无论是产品演示、电影级短片还是社媒短视频,多模态流程都能让你的创意意图从输入一路贯穿到最终渲染。
- 用文本提示掌控场景走向
- 用图像参考指导视觉风格
- 用视频与音频输入获得更丰富的控制

上传图片、视频片段或音频,分享你的想法。最多支持 9 张图片、3 段视频、3 段音频输入。

用自然语言描述想要的画面、运镜、光线与音频——Seedance 2.0 能够理解细致的创作指令。

点击「生成」,几秒内收到高保真、带同步音频的 AI 视频。下载、分享或继续调优。
一位白胡子老钟表匠掉落了一只闪着金光的怀表。在极慢动作中,怀表落在木地板上却没有破碎,齿轮和弹簧反而向上飞散,无缝化作一群闪着金光的蜂鸟飞向窗外。电影级光线,空气中的尘埃,浓烈的情感氛围。
Seedance 2.0 将多模态输入、原生音画生成、更丰富的创作控制与更强的复杂动作表现整合进同一个工作流。
在一个工作流里使用文本、图像、视频与音频进行创作。
Seedance 2.0 自研之初就面向多模态视频创作。它不再只靠文本提示,而是在一次生成里融合文本、图像、视频和音频输入——让创作者有更多方式去塑造动作、构图、场景走向与整体品质。无论是产品演示、电影级短片还是社媒短视频,多模态流程都能让你的创意意图从输入一路贯穿到最终渲染。
视频与音频同时生成,输出更完整。
Seedance 2.0 为音画同步生成而设计,而不是只输出无声视频。声音——包括对白、环境声、音乐提示和音效——是生成过程本身的一部分,而非后期的另一道工序。这让 Seedance 2.0 更适合需要准确口型的台词场景、环境氛围、节奏化剪辑,以及整段更具沉浸感的音画体验。
用更丰富的参考指导运动、光线、构图与镜头语言。
Seedance 2.0 通过参考驱动的生成方式,让创作者拥有导演级掌控力。文本、图像、音频与视频参考协同工作,能更顺畅地引导表演、场景情绪、视觉节奏、光线风格与镜头运动,走向更有意图的结果。对于需要匹配特定风格、保持品牌一致或在多个镜头间复现同一种电影感的创作者而言尤为重要。
更稳地处理快动作、动态移动与交互。
Seedance 2.0 专为其他 AI 视频工具容易崩坏的复杂动作场景而打造。它能更稳定、更连贯地处理快速身体运动、多主体交互、车辆、动作戏以及体力要求高的编排。无论是武术、体育素材、舞蹈序列还是动感的跟拍镜头,Seedance 2.0 都能在整段画面中保持动作可信度。
创作者如何评价这个模型——以及如何在 Rita 上真正交付作品。
为主动导演的创作者而生,而不仅仅是提示词工程师
关于 Seedance 2.0 能力与可用性的常见问题。
Seedance 2.0 是字节跳动研发的多模态 AI 视频模型,用于创作电影级、参考驱动的视频输出。它在同一个统一工作流中支持文本、图像、视频与音频输入,在 Rita 平台上向免费与付费用户开放。
你可以在 Rita 平台体验 Seedance 2.0——无需绑定信用卡即可开始。注册后选择 Seedance 2.0,上传参考图或写下一条提示词,点击生成即可创作你的第一条 AI 视频。
是的。Seedance 2.0 由字节跳动研发,延续了他们在多模态 AI、视频合成与音频生成技术上的长期研究,是当前他们最先进的视频生成模型。
Seedance 2.0 支持文本提示驱动场景、图像参考提供视觉引导、视频片段传递动作与风格参考、音频输入进行声音驱动生成。所有输入可在同一次生成中自由组合,带来最大程度的创作掌控。
可以。Seedance 2.0 支持原生音画生成——声音(包括对白、环境声、音乐提示与音效)是与视频同步生成的,而非后期添加,从而实现更准确的口型同步与更自然的音画协同。
非常适合。Seedance 2.0 在多镜头序列上表现突出,能提供更完整的场景结构、更顺滑的转场以及跨镜头的角色一致性,非常适合短片、广告与需要完整叙事弧线的社媒内容。
相较于 OpenAI 的 Sora 2 和 Google 的 Veo 3.1,Seedance 2.0 的多模态输入支持更全面——文本、图像、视频与音频可在同一工作流中组合,原生音画协同生成,并在涉及快动作、多主体交互、高强度编排的复杂动作场景中表现更强。
Seedance 2.0 在多模态输入、叙事工作流与全模态下的原生音画生成上更进一步。Seedance 1.5 Pro 则更专注于扎实的基础画质、带细腻面部细节的表现型特写,以及故事优先的短视频生成。两者都已在 Rita 平台上线。
Seedance 2.0 非常适合对单一文生视频工具不满足的内容创作者、社媒营销人、产品团队、导演与叙事型创作者。尤其适合使用多模态参考、需要原生音频、或产出多镜头剧情序列并保持角色一致与电影级质感的创作者。