智谱2025开源年第一枪！60亿参数文生图模型亮相，达到SOTA

智东西（公众号：zhidxcom）
作者 | 程茜
编辑 | 心缘

智东西3月4日消息，今天，大模型独角兽智谱发布首个支持生成汉字的开源文生图模型——CogView4。

该模型有60亿参数，支持原生中(zhong)文输(shu)入和(he)中(zhong)文文本到图像生成(cheng)。其主要(yao)更(geng)新在(zai)于，CogView4可以理解中英(ying)文双(shuang)语提(ti)示词(ci)(ci)，且将(jiang)中英(ying)文字符(fu)融入(ru)图(tu)像之中，并支持上(shang)百(bai)字复杂提(ti)示词(ci)(ci)输入(ru)。

与CogView3-Plus-3B相比，CogView4的提示词长度上限从224 Tokens增加到了1024 Tokens。

智谱2025开源年第一枪！60亿参数文生图模型亮相，达到SOTA

CogView4在文生图基(ji)准测试(shi)DPG-Bench中综合评分(fen)排名第(di)一。

目前，CogView4-6B-0304版本已经开源(yuan)，将于3月13日上线智谱清言（chatglm.cn）。

这(zhei)也是是首个遵循Apache 2.0协(xie)议的图像生成模型，后续(xu)智谱会陆(lu)续(xu)增加ControlNet、ComfyUI等生态支持，并即将推出全套的微调工具包(bao)。

智谱2025开源年第一枪！60亿参数文生图模型亮相，达到SOTA

GitHub地址：

//github.com/THUDM/CogView4/blob/main/README_zh.md

一、中英文海报原图直出，上百字提示词精准理解

CogView4支持中(zhong)英(ying)双(shuang)语提(ti)示词输(shu)入(ru)，擅(shan)长理解和遵循(xun)中(zhong)文提(ti)示词，能根据用户(hu)需求将中(zhong)英(ying)文字(zi)符融入(ru)生成(cheng)的图像中(zhong)。

如下(xia)图所示的“无敌炒面(mian)”海报(bao)：

智谱2025开源年第一枪！60亿参数文生图模型亮相，达到SOTA

还能根据图像风格变(bian)换字体：

智谱2025开源年第一枪！60亿参数文生图模型亮相，达到SOTA

英文和数字(zi)也可以与画面内容自(zi)然融合(he)：

智谱2025开源年第一枪！60亿参数文生图模型亮相，达到SOTA

CogView4可(ke)以为古(gu)诗词(ci)制作插图，根据诗句意境描绘出对应的画面：

如下图的提示(shi)词是：野径(jing)云(yun)俱黑，江船(chuan)火(huo)独明(ming)。黑云(yun)、船(chuan)、灯光、野径(jing)，这些主要(yao)元素都呈现了(le)出来。

智谱2025开源年第一枪！60亿参数文生图模型亮相，达到SOTA

此外，CogView4支(zhi)持超长(zhang)提(ti)示词生成(cheng)(cheng)四(si)格(ge)漫画(hua)，或者超长(zhang)且复杂的提(ti)示词生成(cheng)(cheng)更为精细的画(hua)面。

下方生成的四格漫画(hua)其提示词(ci)近700个(ge)字，包含漫画(hua)的主要(yao)人物、四段(duan)剧情等。

智谱2025开源年第一枪！60亿参数文生图模型亮相，达到SOTA

如(ru)果用户(hu)对画面细(xi)节要求高，也可以通过完整(zheng)的(de)表述将画面的(de)每一个细(xi)节都概(gai)括到位，如(ru)：

一幅超现实微距摄影或3D数字艺术，画面左边是一半的蒲公英花冠。花冠的半边超微距特写占据了整个画面，极致细节，种子上缀满晶莹剔透的水滴，如梦如幻。蒲公英的花梗细小，花冠的细丝纤细透明，每一根上都附着着微小的水珠，折射出周围的光线，形成无数微小的光斑，营造出梦幻而精致的视觉体验。景深效果，淡紫色背景并灰色渐变，使背景呈现出柔和的模糊渐变，增强画面纵深感。带有微微的冷色调光晕，使画面更加宁静而神秘。画面光效极为细腻，每一颗水珠都像微型镜头一般，折射出世界的微观景象，增强了精密与梦幻的氛围。高动态范围（HDR）光影效果，确保水滴的透明度、反射和折射层次丰富，极具视觉吸引力。

智谱2025开源年第一枪！60亿参数文生图模型亮相，达到SOTA

二、DPG-Bench基准测试排名第一，中文文字准确率评测超快手可图

在文本到图像生成的DPG-Bench基(ji)准(zhun)测试中，CogView4综合评分排名第一，在开源文生图模型中达到SOTA。DPG-Bench主要关(guan)注模(mo)型在(zai)复杂(za)语义(yi)对齐和指令(ling)跟随能(neng)力(li)方面的表现。

智谱2025开源年第一枪！60亿参数文生图模型亮相，达到SOTA

在Geneval基准测试中(zhong)，CogView4综合评分为0.73，排(pai)名第二(er)。

智谱2025开源年第一枪！60亿参数文生图模型亮相，达到SOTA

在用于开放式(shi)世界(jie)组合式(shi)文本到(dao)图(tu)像生(sheng)成的综合基准(zhun)T2I-CompBench中，CogView4综合评(ping)分0.7786，排名第二。

中文文字准(zhun)确率评(ping)测中，其结果(guo)显(xian)示(shi)，CogView4表现效果(guo)好于(yu)国产开(kai)源绘画模(mo)型快手可图。

三、擅长理解中文，支持任意分辨率

CogView4的(de)技术优势体现(xian)在两个方(fang)面：

首先，支持中英双语提示词输入，擅(shan)长理解和遵循中文提(ti)示词，是首(shou)个(ge)能(neng)够在画面中生成汉(han)字的(de)开(kai)源文生图模(mo)型。

CogView4将文(wen)(wen)本(ben)编码器从纯英文(wen)(wen)的T5 encoder换为具备(bei)双(shuang)语能(neng)力(li)的GLM-4 encoder，并通过中英双(shuang)语图文(wen)(wen)对进行训(xun)练，使CogView4模型具备(bei)双(shuang)语提示词输入能(neng)力(li)。

其次，该模型支持输入任意长度提示词，能生成范围内任意分辨率图像。CogView4模型(xing)实现了任意长度的文本(ben)描述（caption）和(he)任意分辨率图像的混合训(xun)练范(fan)式。

图像位置编码CogView4采用二维旋转位置编码（2D RoPE）来建模图像的位置信息，并通过内(nei)插位置编码的方式支(zhi)持不同(tong)分辨(bian)率的图像生成任(ren)务(wu)。

扩散生成建模模型采用Flow-matching方案(an)进(jin)行(xing)扩散(san)生成建(jian)模，并结合(he)参数化的线性动(dong)态(tai)噪声规(gui)划，以适应不同分(fen)辨率图像的信(xin)噪比需求。

在DiT模型架(jia)构(gou)上，CogView4延续上一代(dai)的Share-param DiT架构，并为文(wen)本和图像模态分别(bie)设计独立的自适应LayerNorm层(ceng)，以(yi)实现模态间的高效(xiao)适配。

CogView4采用多阶段训(xun)练策略，包括基(ji)础分辨(bian)率训(xun)练(lian)、泛(fan)分辨(bian)率训(xun)练(lian)、高(gao)质(zhi)量数据微(wei)调以(yi)及(ji)人类偏好(hao)对(dui)齐训(xun)练(lian)。这种分阶段(duan)训(xun)练(lian)方式不仅覆盖了广泛(fan)的图像分布(bu)，还(hai)确保生成(cheng)的图像具有高(gao)美感(gan)并符合(he)人类偏好(hao)。

训练框架优化，从文本(ben)角度(du)CogView4突破了(le)传统固定Token长(zhang)度(du)的限制，允许(xu)更高的Token上(shang)限，并显著减少(shao)了(le)训(xun)练过程中的文本(ben)Token冗(rong)余(yu)。

当训练(lian)caption的平均长度(du)在200-300 Token时，与固(gu)定512 Tokens的传统(tong)方案相(xiang)比(bi)，CogView4减少了约50%的Tokens冗(rong)余，并在模型递进训练(lian)阶(jie)段实现了5%-30%的效率提升(sheng)。

结语：智谱开源年启动，全面拥抱AI普惠

此前，智谱预告(gao)2025年将是其开(kai)源(yuan)年，要陆续开(kai)源(yuan)基(ji)础模(mo)型(xing)(xing)、推理模(mo)型(xing)(xing)、多模(mo)态模(mo)型(xing)(xing)、Agent模(mo)型(xing)(xing)等(deng)，并将这(zhei)(zhei)些模(mo)型(xing)(xing)全部开(kai)放源(yuan)代码，CogView4正是这(zhei)(zhei)一(yi)系列(lie)的第一(yi)个开(kai)源(yuan)模(mo)型(xing)(xing)。

这(zhei)也是近日智(zhi)谱完成一笔超(chao)10亿元战略融(rong)资以来，其最新动向。智(zhi)谱GLM系列大模型已在金融(rong)、医疗、教(jiao)育等多个(ge)行业得(de)到广泛应用(yong)。智(zhi)谱从2019年(nian)成立就定下了实(shi)现AGI的愿景(jing)，并(bing)拥抱(bao)开源，致力(li)于AI普惠。

国产成人亚洲精品狼色在线,亚洲成色www久久网站,强制高潮(h)调教,大伊香蕉在线精品视频75,日本无码少妇成人久久丫

一、中英文海报原图直出，上百字提示词精准理解

二、DPG-Bench基准测试排名第一，中文文字准确率评测超快手可图

三、擅长理解中文，支持任意分辨率

结语：智谱开源年启动，全面拥抱AI普惠

相关推荐