智东西(公众号:zhidxcom)
作者 | 程茜
编辑 | 心缘

智东西3月4日消息,今天,大模型独角兽智谱发布首个支持生成汉字的开源文生图模型——CogView4

该模型有60亿参数,支持原生中(zhong)文输(shu)入和(he)中(zhong)文文本到图像生成(cheng)。其主要(yao)更(geng)新在(zai)于,CogView4可以理解中英(ying)文双(shuang)语提(ti)示词(ci)(ci),且将(jiang)中英(ying)文字符(fu)融入(ru)图(tu)像之中,并支持上(shang)百(bai)字复杂提(ti)示词(ci)(ci)输入(ru)。

与CogView3-Plus-3B相比,CogView4的提示词长度上限从224 Tokens增加到了1024 Tokens

智谱2025开源年第一枪!60亿参数文生图模型亮相,达到SOTA

CogView4在文生图基(ji)准测试(shi)DPG-Bench中综合评分(fen)排名第(di)一。

目前,CogView4-6B-0304版本已经开源(yuan),将于3月13日上线智谱清言(chatglm.cn)。

这(zhei)也是是首个遵循Apache 2.0协(xie)议的图像生成模型,后续(xu)智谱会陆(lu)续(xu)增加ControlNet、ComfyUI等生态支持,并即将推出全套的微调工具包(bao)。

智谱2025开源年第一枪!60亿参数文生图模型亮相,达到SOTA

GitHub地址:

//github.com/THUDM/CogView4/blob/main/README_zh.md

一、中英文海报原图直出,上百字提示词精准理解

CogView4支持中(zhong)英(ying)双(shuang)语提(ti)示词输(shu)入(ru),擅(shan)长理解和遵循(xun)中(zhong)文提(ti)示词,能根据用户(hu)需求将中(zhong)英(ying)文字(zi)符融入(ru)生成(cheng)的图像中(zhong)。

如下(xia)图所示的“无敌炒面(mian)”海报(bao):

智谱2025开源年第一枪!60亿参数文生图模型亮相,达到SOTA

还能根据图像风格变(bian)换字体:

智谱2025开源年第一枪!60亿参数文生图模型亮相,达到SOTA

英文和数字(zi)也可以与画面内容自(zi)然融合(he):

智谱2025开源年第一枪!60亿参数文生图模型亮相,达到SOTA

CogView4可(ke)以为古(gu)诗词(ci)制作插图,根据诗句意境描绘出对应的画面:

如下图的提示(shi)词是:野径(jing)云(yun)俱黑,江船(chuan)火(huo)独明(ming)。黑云(yun)、船(chuan)、灯光、野径(jing),这些主要(yao)元素都呈现了(le)出来。

智谱2025开源年第一枪!60亿参数文生图模型亮相,达到SOTA

此外,CogView4支(zhi)持超长(zhang)提(ti)示词生成(cheng)(cheng)四(si)格(ge)漫画(hua),或者超长(zhang)且复杂的提(ti)示词生成(cheng)(cheng)更为精细的画(hua)面。

下方生成的四格漫画(hua)其提示词(ci)近700个(ge)字,包含漫画(hua)的主要(yao)人物、四段(duan)剧情等。

智谱2025开源年第一枪!60亿参数文生图模型亮相,达到SOTA

如(ru)果用户(hu)对画面细(xi)节要求高,也可以通过完整(zheng)的(de)表述将画面的(de)每一个细(xi)节都概(gai)括到位,如(ru):

一幅超现实微距摄影或3D数字艺术,画面左边是一半的蒲公英花冠。花冠的半边超微距特写占据了整个画面,极致细节,种子上缀满晶莹剔透的水滴,如梦如幻。蒲公英的花梗细小,花冠的细丝纤细透明,每一根上都附着着微小的水珠,折射出周围的光线,形成无数微小的光斑,营造出梦幻而精致的视觉体验。景深效果,淡紫色背景并灰色渐变,使背景呈现出柔和的模糊渐变,增强画面纵深感。带有微微的冷色调光晕,使画面更加宁静而神秘。画面光效极为细腻,每一颗水珠都像微型镜头一般,折射出世界的微观景象,增强了精密与梦幻的氛围。高动态范围(HDR)光影效果,确保水滴的透明度、反射和折射层次丰富,极具视觉吸引力。

智谱2025开源年第一枪!60亿参数文生图模型亮相,达到SOTA

二、DPG-Bench基准测试排名第一,中文文字准确率评测超快手可图

在文本到图像生成的DPG-Bench基(ji)准(zhun)测试中,CogView4综合评分排名第一,在开源文生图模型中达到SOTA。DPG-Bench主要关(guan)注模(mo)型在(zai)复杂(za)语义(yi)对齐和指令(ling)跟随能(neng)力(li)方面的表现。

智谱2025开源年第一枪!60亿参数文生图模型亮相,达到SOTA

在Geneval基准测试中(zhong),CogView4综合评分为0.73,排(pai)名第二(er)。

智谱2025开源年第一枪!60亿参数文生图模型亮相,达到SOTA

在用于开放式(shi)世界(jie)组合式(shi)文本到(dao)图(tu)像生(sheng)成的综合基准(zhun)T2I-CompBench中,CogView4综合评(ping)分0.7786,排名第二。

智谱2025开源年第一枪!60亿参数文生图模型亮相,达到SOTA

中文文字准(zhun)确率评(ping)测中,其结果(guo)显(xian)示(shi),CogView4表现效果(guo)好于(yu)国产开(kai)源绘画模(mo)型快手可图。

智谱2025开源年第一枪!60亿参数文生图模型亮相,达到SOTA

三、擅长理解中文,支持任意分辨率

CogView4的(de)技术优势体现(xian)在两个方(fang)面:

首先,支持中英双语提示词输入,擅(shan)长理解和遵循中文提(ti)示词,是首(shou)个(ge)能(neng)够在画面中生成汉(han)字的(de)开(kai)源文生图模(mo)型。

CogView4将文(wen)(wen)本(ben)编码器从纯英文(wen)(wen)的T5 encoder换为具备(bei)双(shuang)语能(neng)力(li)的GLM-4 encoder,并通过中英双(shuang)语图文(wen)(wen)对进行训(xun)练,使CogView4模型具备(bei)双(shuang)语提示词输入能(neng)力(li)。

其次,该模型支持输入任意长度提示词,能生成范围内任意分辨率图像。CogView4模型(xing)实现了任意长度的文本(ben)描述(caption)和(he)任意分辨率图像的混合训(xun)练范(fan)式。

图像位置编码CogView4采用二维旋转位置编码(2D RoPE)来建模图像的位置信息,并通过内(nei)插位置编码的方式支(zhi)持不同(tong)分辨(bian)率的图像生成任(ren)务(wu)。

扩散生成建模模型采用Flow-matching方案(an)进(jin)行(xing)扩散(san)生成建(jian)模,并结合(he)参数化的线性动(dong)态(tai)噪声规(gui)划,以适应不同分(fen)辨率图像的信(xin)噪比需求。

DiT模型架(jia)构(gou)上,CogView4延续上一代(dai)的Share-param DiT架构,并为文(wen)本和图像模态分别(bie)设计独立的自适应LayerNorm层(ceng),以(yi)实现模态间的高效(xiao)适配。

CogView4采用多阶段训(xun)练策略,包括基(ji)础分辨(bian)率训(xun)练(lian)、泛(fan)分辨(bian)率训(xun)练(lian)、高(gao)质(zhi)量数据微(wei)调以(yi)及(ji)人类偏好(hao)对(dui)齐训(xun)练(lian)。这种分阶段(duan)训(xun)练(lian)方式不仅覆盖了广泛(fan)的图像分布(bu),还(hai)确保生成(cheng)的图像具有高(gao)美感(gan)并符合(he)人类偏好(hao)。

训练框架优化,从文本(ben)角度(du)CogView4突破了(le)传统固定Token长(zhang)度(du)的限制,允许(xu)更高的Token上(shang)限,并显著减少(shao)了(le)训(xun)练过程中的文本(ben)Token冗(rong)余(yu)。

当训练(lian)caption的平均长度(du)在200-300 Token时,与固(gu)定512 Tokens的传统(tong)方案相(xiang)比(bi),CogView4减少了约50%的Tokens冗(rong)余,并在模型递进训练(lian)阶(jie)段实现了5%-30%的效率提升(sheng)。

结语:智谱开源年启动,全面拥抱AI普惠

此前,智谱预告(gao)2025年将是其开(kai)源(yuan)年,要陆续开(kai)源(yuan)基(ji)础模(mo)型(xing)(xing)、推理模(mo)型(xing)(xing)、多模(mo)态模(mo)型(xing)(xing)、Agent模(mo)型(xing)(xing)等(deng),并将这(zhei)(zhei)些模(mo)型(xing)(xing)全部开(kai)放源(yuan)代码,CogView4正是这(zhei)(zhei)一(yi)系列(lie)的第一(yi)个开(kai)源(yuan)模(mo)型(xing)(xing)。

这(zhei)也是近日智(zhi)谱完成一笔超(chao)10亿元战略融(rong)资以来,其最新动向。智(zhi)谱GLM系列大模型已在金融(rong)、医疗、教(jiao)育等多个(ge)行业得(de)到广泛应用(yong)。智(zhi)谱从2019年(nian)成立就定下了实(shi)现AGI的愿景(jing),并(bing)拥抱(bao)开源,致力(li)于AI普惠。