柠檬清香

豆包“王炸”，字节版Sora来了，有多厉害？

2024-12-24

破局多主体互动和一致性难题

据火山引擎介绍，豆包视频生成模型基于 DiT 架构，通过高效的DiT融合计算单元，让视频在大动态与运镜中自由切换，拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。

基于此，全新设计的扩散模型训练方法攻克了多镜头切换的一致性难题，在镜头切换时可同时保持主体、风格、氛围的一性。

这被称为是这次豆包视频生成模型“独树一帜的技术创新”。

网易科技了解到，此前经过剪映、即梦AI等业务场景打磨，豆包视频生成模型已经具备专业级光影布局和色彩调和。不仅如此，深度优化的Transformer结构，则大幅提升了豆包视频生成的泛化能力，支持3D动画、2D动画、国画、黑白、厚涂等多种风格，适配电影、电视、电脑、手机等各种设备的比例，适用于电商营销、动画教育、城市文旅、微剧本等企业场景，也能为专业创作者和艺术家们提供创作辅助。

这样的泛化能力，正是当下，豆包视频生成模型的想象空间，出手ToC，剑指ToB。

最新文章

南京一凯迪拉克销售涉嫌私收客户购车款“跑路”，有人转账26万却无法提车！

阅读10373

哈萨克斯坦称将与坠毁客机制造商合作调查飞机失事原因

阅读16192

乌方获10亿美元俄被冻资产收益克宫回应：将采取法律行动

阅读18537

中方批菲防长涉华言论出格荒唐：对此坚决反对并予以强烈谴责

阅读15281

狼来了！理想汽车不再是一家车企李想官宣做基座模型，造硅基家人

阅读13478