力压OpenAI谷歌，快手掏出最强视频大模型，可灵2.0一句话搞定特效

人脑网
作者陈骏达
编辑心缘

人脑网4月15日报道，就在刚刚，可灵AI面向全球正式发布可灵2.0视频生成模型及可图2.0图像生成模型，继续大幅领先业内前沿模型。可灵2.0在文生视频领域较OpenAI Sora实现367%的胜负比，在图生视频领域较谷歌Veo2实现了182%的胜负比。

与可灵1.6相比，可灵2.0模型在动态质量、语义响应、画面美学等维度有明显进步。在下方案例中，可灵2.0准确呈现了日光从清晨到正午再到傍晚的变化，还使用了延时摄影的风格。

▲右侧为可灵2.0

可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显着提升，色彩和光影更为高级，情绪表达更具感染力，并新增了60余种风格化效果。

在本次2.0模型迭代中，可灵AI还正式发布AI视频生成的全新交互理念Multi-modal Visual Language（MVL），让用户能够利用图像参考、视频片段等多模态信息，将脑海中的复杂创意直接高效地传达给AI，或是对视频、图像等多模内容进行编辑。

用户可以将视频、图片等作为元素上传，并直接将其嵌入至提示词中。这些元素能在画面内以合乎逻辑的方式组合，进一步提升画面的可控性。

可灵2.0系列模型发布即上线，用户现在已经可以在可灵AI官网和App内免费体验其生成效果。

体验链接：

https://klingai.com/cn/

一、告别慢动作画面，可灵2.0语义响应、动态质量与美学全面升级

快手高级副总裁、社区科学线负责人盖坤介绍，自去年6月发布以来，可灵AI已累计完成超20次迭代。截至目前，可灵AI全球用户规模突破2200万，过去的10个月里，其月活用户量增长25倍，累计生成超过1.68亿个视频及3.44亿张图片。

然而，现有的视频生成模型仍存在语义遵循能力差、动态质量不佳等问题，妨碍了创作者表达、控制生成结果的能力。可灵AI全系模型进行的本次升级，正是为了解决这些问题。

据快手副总裁、可灵AI负责人张迪介绍，可灵2.0的升级主要有三方面：语义响应、动态质量与画面美学。

升级后的可灵2.0可以更准确地反映人物表情、动作的变化，动作的丰富度、真实性有明显提升。在下方案例中，可灵2.0为准确描绘了提示词中“手锤桌子起身”的效果，而可灵1.6并没有完全还原。

可灵2.0也告别了视频生成模型的通病——运动速度不合理。在下方马飞速奔驰的画面中，可灵2.0的生成结果不再是慢动作，镜头表现更加真实。可灵团队还对其生成画面的复杂动作、动作幅度进行优化。

生成大片感的画面对可灵2.0来说也不是问题。下方这一画面中，无论是人物奔跑的动作，还是后方爆炸的效果，都十分逼真，角色演绎生动。

可灵2.0对时间的理解能力提升，能帮助创作者生成更连贯、更具有故事性、延续性的画面。

图像生成模型可图2.0的升级同样是在指令遵循方面。下方这一案例的提示词中具有“伺服电机”、“机械女神”、“壁画”、“拉斐尔《雅典学院》的古典平衡感”等诸多要素，可图2.0的生成结果很好地还原了相关要素，

可图2.0能更好地展现提示词中对于色彩、光影的表述，对人物情绪的呈现更具感染力。下方4张图片均为可图2.0的生成结果，若未经提示，或许许多人都会认为这是某部电影的截图。

二、打造人与AI交互全新语言，画面元素定制化更容易了

张迪在发布会现场分享了可灵2.0和可图2.0能力升级背后的技术创新。

可灵团队为可灵2.0采用了全新设计的DiT架构，这提升了其视觉、文本模态的信息融合能力。全新设计的VAE架构则使复杂动态场景下画面的过度更顺畅，质感更自然。同时，可灵团队还首次系统性研究了视频生成DiT架构的Scaling Law特性。

在模型训练、推理策略方面，可灵2.0在后训练阶段利用了强化学习技术，这提升了其对复杂运动场景、主体交互的生成能力，也强化对运镜语言、构图术语等专业表达的理解与响应能力。

张迪透露，目前可灵平台上高达85%的视频生成任务为图生视频任务。由此看来，更强的生图能力也成为创作者所需工具。

此次可图2.0的技术创新包括全新升级的文本表征处理链路、全面升级的数据体系和多样性以及全新的提示词工程和去噪策略。

升级后的可图2.0会深度思考用户的提示词，其逐步自适应的Diffusion去噪策略，可以优化出图细节，提升图像质量。

面向视觉创作者，可灵还推出了视频、图像多模态编辑能力，这些能力基于可灵提出的视觉生成交互理念Multi-modal Visual Language（MVL）。

盖坤介绍，可灵团队发现，文字不足以向模型准确描述复杂动作、复杂表情等内容，可灵希望定义一种人与AI交互的全新语言，让模型能更好地理解人的想象力。

利用MVL技术，创作者可以利用视频、图像、文字等多模态信息，定义画面内人物的长相、着装、表情以及画面背景等。

在这一过程中，文本扮演了语义骨架的作用，多模态描述子（MMW）能嵌入这一骨架，扩展描述的完备性、准确性。未来，可灵还计划支持文本+MMW动作描述文件，画面角色的运动轨迹也能完全可控。

结语：基础大模型+创作工具全栈升级，快手要打造全球第一AI视频应用

本次可灵AI 2.0的升级，不仅包括基础大模型的能力提升，还有面向创作者日常生产流程的全栈工具优化，盖坤称，可灵AI的愿景是“让每个人都能用AI讲出好故事”。

日前，在快手2025财年电话会议上，快手集团高管也分享了类似的观点，快手认为AI对其发展至关重要，将给予坚定、长期的投入，可灵会在技术升级的同时，进行全球市场和品牌运营活动。快手的目标是，将可灵打造为营收规模世界第一的AI视频应用。

主题测试文章，只做测试使用。发布者：人脑网，转转请注明出处：https://www.rennao.com.cn/6100.html

力压OpenAI谷歌，快手掏出最强视频大模型，可灵2.0一句话搞定特效

发表回复

联系我们

400-800-8888

力压OpenAI谷歌，快手掏出最强视频大模型，可灵2.0一句话搞定特效

相关推荐

深圳机器人公司宣布宣亿元融资，普华资本领投

骁龙8至尊小平板！拯救者Y700四代配置曝光

AI眼镜黑马海外爆红，聚齐苹果谷歌大牛，公开“节制创新”方法论

2210元用上满血DeepSeek手机，真我GT7搭3nm旗舰芯，10小时抖音还有一半电

雷军投的江苏创企，把灵巧手造到洗衣机上！对话创始人

发表回复

联系我们

400-800-8888