可灵AI正式迈入3.0时代:全链路影视级生成模型全球上线,支持智能分镜、图生视频+主体参考与多语种音画同出
SmartHey2月5日消息,可灵AI正式全球上线3.0系列模型,目前正面向黑金会员开放使用,预计将于近期全量上线。此次发布的可灵视频3.0、可灵视频3.0 Omni,以及可灵图片3.0、可灵图片3.0 Omni模型,全面覆盖图片生成、视频生成、智能编辑与专业后期等影视级全流程创作环节,标志着AI已深度融入影视与创意内容的核心生产体系,可灵AI正式进入以‘系统化调度’为特征的3.0时代。
All-in-One统一架构:多模态输入输出一体化,实现原生创作闭环
可灵3.0系列模型基于All-in-One产品与技术理念构建,打造了业内首个高度统一的多模态视频模型体系。它并非功能堆砌,而是通过统一底层架构,将影像理解、生成与编辑深度融合为连续、可调控的创作流,首次在单一模型内完成从意图输入到成片输出的完整闭环。
创作者可自由组合文字、图片、音频与视频作为输入源,并直接获得符合影视标准的专业级输出结果,彻底告别跨工具切换、多步骤拼接的传统工作流。
围绕创作者最关注的稳定性与表达力,可灵3.0在多个关键技术维度实现系统性突破:行业长期存在的‘角色一致性’难题取得实质性进展——依托视频主体上传、音色绑定,以及全球首创的‘图生视频+主体参考’技术,人物形象、动作逻辑、口型同步及品牌标识在复杂镜头运动与多语言场景下均保持高度稳定,视觉风格与角色特征全程统一。
在叙事能力上,模型支持最长15秒连续视频生成,并内置智能分镜引擎与自定义镜头控制系统,创作者可直观编排景别、运镜节奏与情绪递进,让每一帧画面承载明确叙事意图,真正赋予AI镜头语言的表达张力。
|
可灵视频3.0 智能分镜 |
音画协同能力亦全面跃升至影视工业标准:视频3.0与视频3.0 Omni均支持原生音画同出,兼容中、英、日、韩、西五国语言及粤语、四川话、东北口音、北京口音等多种方言,人物口型、微表情与情绪演绎自然流畅,画面真实感与表演感染力显著增强;图片模块则支持2K/4K超清直出,并新增分镜图与系列组图功能,使静态画面本身具备完整的起承转合叙事能力。
从单点生成到系统化调度,可灵3.0不仅是模型参数的升级,更是创作范式的进化——它将原本依赖导演、摄影、美术、配音等多岗位协作、反复打磨的高门槛制作流程,浓缩为更直接、更可控、更具表现力的一体化创作体验,让更多创作者得以用接近专业制片的方式完成影像表达。
可灵视频3.0:电影级叙事引擎,精准掌控镜头语言
全新智能分镜系统如同一位‘AI导演’,可深度解析文本脚本中的时空关系与情绪线索,自动调度机位、景别与转场逻辑。无论是标准对话场景的‘正反打’构图,还是跨时空、跨视角的复杂蒙太奇转场,均可一键生成,大幅降低人工修正与重拍成本。
|
可灵视频3.0 全球首创“图生视频 + 主体参考”技术 |
依托全球首创的‘图生视频+主体参考’技术,创作者可对画面中特定主体(如主角、标志性道具或场景元素)进行二次锚定。无论镜头如何推拉摇移、缩放旋转,其外观特征、动作逻辑与空间关系始终保持高度一致,有效攻克行业长期存在的‘主体崩坏’顽疾。同时,模型支持最高15秒超长连贯生成,并适配多语种与地方口音,实现情绪饱满、声画严丝合缝的表演级输出,使AI真正成为可理解、可调度、可信赖的智能创作伙伴。
可灵视频3.0 Omni:全能参考体系,达成极致一致性
Omni版本进一步强化角色一致性与指令响应精度。创作者仅需上传少量参考素材(如人像图、语音片段),模型即可原生提取并绑定该主体的视觉特征与声纹特性;借助特征解耦技术,同一角色、道具或环境可在不同场景中自由复用,确保‘同一张脸、同一种声音、一贯的气质’贯穿全片。
|
可灵视频3.0 Omni自定义分镜 |
该版本不仅显著减少画面畸变与文字渲染异常,更结合灵活的分镜控制能力,使生成内容达到影视行业‘开箱即用’的交付标准,相当于为创作者配备了一支随时待命、高度可控的‘数字演员团队’与‘虚拟摄制组’。
可灵图片3.0系列:强化静态叙事,支撑专业视觉资产生产
可灵图片3.0及可灵图片3.0 Omni聚焦于提升静态图像的叙事密度与专业适配性,致力于用单帧画面讲述完整故事。模型可深度解析提示词中的视听要素,精准把控构图逻辑、光影层次与镜头视角,高度契合影视分镜设计、概念设定、广告主视觉等专业需求。
新版本支持2K/4K超高清图像直出,并创新引入‘系列组图’生成功能——在保障单图质量的同时,确保多图之间在风格基调、光影逻辑、细节质感与角色特征上高度统一,全面满足影视、游戏、广告等领域对视觉资产精度与一致性的严苛要求。
三次跃迁完成:AI从工具升级为‘下一代创作接口’
可灵AI 3.0实现了从‘可用’到‘可控’,再到‘专业调度’的三次关键跃迁。自2024年6月发布全球首个面向用户的DiT视频生成模型起,可灵推动行业迈入AI视频‘可用时代’;2.0阶段持续提升生成质量与交互体验,实现‘好用’进化;而基于All-in-One理念构建的3.0系列,则在O1与2.6模型基础上,深度融合Multi-modal Visual Language(MVL)交互范式,完成向‘专业调度’的系统性跨越。
通过智能分镜、图生视频+主体参考、多语种音画同出等核心能力,模型不再停留于被动响应指令,而是主动理解创作意图,并对镜头节奏、角色关系、视听结构进行系统级协同调度。创作者可在单一界面内完成分镜组织、主体锚定与叙事推进,可灵AI由此完成从‘单点生成工具’向‘内容创意者下一代创作接口’的关键进化。
在影视与广告领域,创作者可快速验证创意可行性;在游戏开发与虚拟制作中,稳定的角色资产生成能力显著加速数字人、场景资产与动画资源的工业化构建。公开数据显示,截至2025年12月,可灵AI已服务超6000万创作者、生成超6亿个视频,覆盖3万多家企业客户,年化收入运行率达2.4亿美元。
可灵3.0系列模型的发布,标志着AI已从辅助工具升维为具备导演思维的创作协作者。属于每个人的‘导演时代’,已然到来。



