正在当前的视觉大模子范畴,图像分歧性编纂一直是一个焦点挑和。AI生图有创意但难编纂,次要是由于大模子对图片的理解是扁平的,是一堆像素点慎密耦合正在一路,而不克不及像人一样出图中物体的远近、遮挡等物理关系。因而,让大模子生图和编纂就像抽卡“开盲盒”:好比你想把画里的猫往左挪10厘米,但AI完全不晓得猫左挪后空出来的布景会有什么,只能再从头生成一次,猫和布景全都变了样。这种“牵一发而动”的随机性,让AI画图正在押求极致精准的贸易告白设想、UI界面设想、影视后期处置等专业范畴,一直只能做为一种参考,而无法实正代替专业东西。
Qwen-Image-Layered 的呈现,意味着视觉大模子从“像素预测”转向“布局沉组”。千问团队自研了一种全新的RGBA-VAE编码,正在保守的RGB图像中引入代表通明度图层的“Alpha通道”,让模子有了图层的概念;同时新模子采用了立异的VLD-MMDiT架构,共同奇特的“图层级3D编码”,让AI从动“脑补”被遮挡部门的布景纹理,实现对图层和空间的更深切理解和生成。据领会,为锻炼这种能力,千问团队从海量的专业Photoshop(PSD)文件中提取实正在图层逻辑,让AI从出生起就具有专业设想师的“分层思维”。
据领会,Qwen-Image-Layered已正在魔搭社区和HuggingFace开源,开辟者和企业可免费下载商用。截至目前,阿里已开源近400个千问模子,全球下载量冲破7亿次,衍生模子数超18万个,通义大模子已办事超100万家客户,正在中国企业级大模子挪用市场中通义位居第一,是中国企业选择最多的大模子。
业内人士指出,千问新模子将为创意财产带来本色性变化。AI生图不再是古板一块,而成为一个活生生的、可无限调整的素材库;图片编纂也不再需要复杂精细的人工抠图,而是AI原生地实现了“内正在可编纂性”,设想师、动画和影视制做人员可正在连结布景或从体完全不变的前提下,对特定图层的构件进行位移、缩放或沉绘,显著提拔数字内容创做的出产效率。
12月22日,阿里开源全新图像生成模子Qwen-Image-Layered,千问新模子采用自研立异架构,可将图片“拆解”成多个图层,完全处理AI生图的分歧性难题,加快大模子正在专业设想范畴的现实落地。Qwen-Image-Layered打破了支流视觉大模子的“扁平式思维”,模子通过“分层”和“补全”成立起对现实世界更精确的“物理式理解”,让AI从平面的“看图措辞”迈向实正在的“空间沉构”。![]()
扫二维码用手机看
黑龙江U乐国际·集团食品股份有限公司
全国统一客服热线:18903658751
地址:哈尔滨南岗区红旗满族乡科技园区
地址:双城经济技术开发区娃哈哈路6号
地址:黑龙江萝北县宝泉岭二九0公路一号
地址:黑龙江省延寿县工业园区北泰山路5号
公众号二维码