人脑网
作者 陈骏达
编辑 心缘
人脑网4月15日报道,就在刚刚,可灵AI面向全球正式发布可灵2.0视频生成模型及可图2.0图像生成模型,继续大幅领先业内前沿模型。可灵2.0在文生视频领域较OpenAI Sora实现367%的胜负比,在图生视频领域较谷歌Veo2实现了182%的胜负比。
与可灵1.6相比,可灵2.0模型在动态质量、语义响应、画面美学等维度有明显进步。在下方案例中,可灵2.0准确呈现了日光从清晨到正午再到傍晚的变化,还使用了延时摄影的风格。
▲右侧为可灵2.0
可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显着提升,色彩和光影更为高级,情绪表达更具感染力,并新增了60余种风格化效果。
在本次2.0模型迭代中,可灵AI还正式发布AI视频生成的全新交互理念Multi-modal Visual Language(MVL),让用户能够利用图像参考、视频片段等多模态信息,将脑海中的复杂创意直接高效地传达给AI,或是对视频、图像等多模内容进行编辑。
用户可以将视频、图片等作为元素上传,并直接将其嵌入至提示词中。这些元素能在画面内以合乎逻辑的方式组合,进一步提升画面的可控性。
可灵2.0系列模型发布即上线,用户现在已经可以在可灵AI官网和App内免费体验其生成效果。
体验链接:
https://klingai.com/cn/
一、告别慢动作画面,可灵2.0语义响应、动态质量与美学全面升级
快手高级副总裁、社区科学线负责人盖坤介绍,自去年6月发布以来,可灵AI已累计完成超20次迭代。截至目前,可灵AI全球用户规模突破2200万,过去的10个月里,其月活用户量增长25倍,累计生成超过1.68亿个视频及3.44亿张图片。
然而,现有的视频生成模型仍存在语义遵循能力差、动态质量不佳等问题,妨碍了创作者表达、控制生成结果的能力。可灵AI全系模型进行的本次升级,正是为了解决这些问题。
据快手副总裁、可灵AI负责人张迪介绍,可灵2.0的升级主要有三方面:语义响应、动态质量与画面美学。
升级后的可灵2.0可以更准确地反映人物表情、动作的变化,动作的丰富度、真实性有明显提升。在下方案例中,可灵2.0为准确描绘了提示词中“手锤桌子起身”的效果,而可灵1.6并没有完全还原。
可灵2.0也告别了视频生成模型的通病——运动速度不合理。在下方马飞速奔驰的画面中,可灵2.0的生成结果不再是慢动作,镜头表现更加真实。可灵团队还对其生成画面的复杂动作、动作幅度进行优化。
生成大片感的画面对可灵2.0来说也不是问题。下方这一画面中,无论是人物奔跑的动作,还是后方爆炸的效果,都十分逼真,角色演绎生动。
可灵2.0对时间的理解能力提升,能帮助创作者生成更连贯、更具有故事性、延续性的画面。
图像生成模型可图2.0的升级同样是在指令遵循方面。下方这一案例的提示词中具有“伺服电机”、“机械女神”、“壁画”、“拉斐尔《雅典学院》的古典平衡感”等诸多要素,可图2.0的生成结果很好地还原了相关要素,
可图2.0能更好地展现提示词中对于色彩、光影的表述,对人物情绪的呈现更具感染力。下方4张图片均为可图2.0的生成结果,若未经提示,或许许多人都会认为这是某部电影的截图。
二、打造人与AI交互全新语言,画面元素定制化更容易了
张迪在发布会现场分享了可灵2.0和可图2.0能力升级背后的技术创新。
可灵团队为可灵2.0采用了全新设计的DiT架构,这提升了其视觉、文本模态的信息融合能力。全新设计的VAE架构则使复杂动态场景下画面的过度更顺畅,质感更自然。同时,可灵团队还首次系统性研究了视频生成DiT架构的Scaling Law特性。
在模型训练、推理策略方面,可灵2.0在后训练阶段利用了强化学习技术,这提升了其对复杂运动场景、主体交互的生成能力,也强化对运镜语言、构图术语等专业表达的理解与响应能力。
张迪透露,目前可灵平台上高达85%的视频生成任务为图生视频任务。由此看来,更强的生图能力也成为创作者所需工具。
此次可图2.0的技术创新包括全新升级的文本表征处理链路、全面升级的数据体系和多样性以及全新的提示词工程和去噪策略。
升级后的可图2.0会深度思考用户的提示词,其逐步自适应的Diffusion去噪策略,可以优化出图细节,提升图像质量。
面向视觉创作者,可灵还推出了视频、图像多模态编辑能力,这些能力基于可灵提出的视觉生成交互理念Multi-modal Visual Language(MVL)。
盖坤介绍,可灵团队发现,文字不足以向模型准确描述复杂动作、复杂表情等内容,可灵希望定义一种人与AI交互的全新语言,让模型能更好地理解人的想象力。
利用MVL技术,创作者可以利用视频、图像、文字等多模态信息,定义画面内人物的长相、着装、表情以及画面背景等。
在这一过程中,文本扮演了语义骨架的作用,多模态描述子(MMW)能嵌入这一骨架,扩展描述的完备性、准确性。未来,可灵还计划支持文本+MMW动作描述文件,画面角色的运动轨迹也能完全可控。
结语:基础大模型+创作工具全栈升级,快手要打造全球第一AI视频应用
本次可灵AI 2.0的升级,不仅包括基础大模型的能力提升,还有面向创作者日常生产流程的全栈工具优化,盖坤称,可灵AI的愿景是“让每个人都能用AI讲出好故事”。
日前,在快手2025财年电话会议上,快手集团高管也分享了类似的观点,快手认为AI对其发展至关重要,将给予坚定、长期的投入,可灵会在技术升级的同时,进行全球市场和品牌运营活动。快手的目标是,将可灵打造为营收规模世界第一的AI视频应用。
主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/6100.html