智东西(公众号:zhidxcom)
作者 | 李水青
编辑 | 漠影
智(zhi)东西(xi)9月(yue)30日报道(dao),国庆前夕,全球AI竞赛迎来一波小高潮,国产大模型纷(fen)纷(fen)放大招(zhao)。
今天下午,智谱AI正式发布新一代大模型GLM-4.6,就在昨晚,DeepSeek也宣布推出DeepSeek-V3.2-Exp实验版模型。两家国产大模型领军企业在国庆假期毫不放松,加班加点推进技术迭代。而在大洋彼岸,Claude Sonnet 4.5同期发布,谷歌Gemini 3.0也预计将在10月迎(ying)战,全(quan)球大模型(xing)竞争(zheng)进入白热化阶段。
作为智谱GLM系列的最新版本,GLM-4.6在真实编程、长上下文处理、推理能力、信息搜索、写作能力与智能体应用等多个方面实现全面提升,整体性能超越DeepSeek-V3.2-Exp。这也是新晋“国内最强Coding模型”,据称能使用户仅用1/7的价格即享(xiang)受到接近(jin)Claude Sonnet 4的(de)代码(ma)能力。
智东西第一时间对GLM-4.6进行了实测体验,发现其编程能力表现惊艳,在代码质量和实现效果上相比GLM-4.5大幅提升,并可与Claude Sonnet 4.5、GPT-5媲美;同时在文本理解、逻辑、记忆、检索、智能体调用等方面都有明显体验提(ti)升(sheng)。
目前,GLM-4.6已上线智谱MaaS平台bigmodel.cn,即将在Hugging Face、ModelScope同步开源。寒武纪、摩尔线程等国(guo)(guo)产AI芯片厂商在第(di)一时间完成适配,标志着国(guo)(guo)产大(da)模(mo)型与国(guo)(guo)产芯片的(de)协同(tong)发展正在加速推进。
体验地址:
//chat.z.ai
技术报告地址:
//z.ai/blog/glm-4.6
一、GLM-4.6横扫八大权威测评,编程能力创新高,token消耗节省三成
按照(zhao)惯例,我们先来看看GLM-4.6的测评(ping)成绩。
在AIME 25、GPQA、LCB v6、HLE、SWE-Bench Verified等8大权威基准测试中,GLM-4.6在大部分权威榜单表现赶超了DeepSeek-V3.2-Exp、Claude Sonnet 4等顶尖模型,稳居国产模型首位。

这(zhei)些成(cheng)绩(ji)来(lai)之不易。GLM-4.6的(de)上(shang)(shang)一代(dai)模型GLM-4.5最初发布于7月28日,首次在单个模型中实现将推理、编码和智能(neng)体能(neng)力(li)原生融合。GLM-4.5在代(dai)码能(neng)力(li)上(shang)(shang)的(de)突(tu)出表(biao)现,让智谱(pu)MaaS平(ping)台的(de)API商业化(hua)实现了10倍(bei)以上(shang)(shang)增长。
GLM-4.6在这一基础上实现全面跃升,不仅在代码能力上创新高,在长上下文处理、推理能力、信息检索、文本生成及智能体应用等方面均实现显著升级,整体性能已超越DeepSeek昨日发布的DeepSeek-V3.2-Exp。
这些提升也体现在真实编程评测中,GLM-4.6同样实现(xian)了全面超(chao)越。
为了测试模型在实际编程任务中的能力,智谱在Claude Code环境下进行了74个真实场景编程(cheng)任(ren)务(wu)测试。结果显(xian)示,GLM-4.6实(shi)测超过Claude Sonnet 4,也优于其他国产模型。

在平均token消耗上,GLM-4.6比GLM-4.5节省30%以上,为同类模型最低。

为确(que)保透(tou)明(ming)性与(yu)可信度,智谱已公开全部(bu)测试题目与(yu)Agent轨迹(ji),供业(ye)界验(yan)证与(yu)复(fu)现。
链接:
//huggingface.co/datasets/zai-org/CC-Bench-trajectories
二、实测编程惊艳,胜任复杂交互任务,媲美Claude、GPT-5
智东西着重对GLM-4.6的编程能力进行了体验,发现其不仅相比GLM-4.5大幅提升,能够实现更加复杂的编程任务,完成度更高,且在多个任务中的代码生成质量及预览效果达(da)到与Claude Sonnet 4.5、GPT-5媲美的水(shui)准(zhun)。
首先我们还是尝试了“旋转六边形弹跳球模拟”。体验发现,GLM-4.6能够较准确模拟旋转容器的作用、质量对碰撞的影响、能量守恒现象及动量传递效果,并且提供了调整旋转速度、控制重力和摩擦力等控制选项。
输入:模(mo)拟一个(ge)旋转(zhuan)六(liu)边形内(nei)弹跳球(qiu),有(you)两个(ge)球(qiu)体积相(xiang)同,球(qiu)a的质量是球(qiu)b的2倍。
GLM-4.6输出:

当(dang)我(wo)们将同(tong)一(yi)提示词发(fa)送(song)给GLM-4.5,输出(chu)效果如下,弹球弹出(chu)了六边形边界,模拟效果不如GLM-4.6,且没有更多的控制选项(xiang)。从(cong)这一(yi)例(li)子我(wo)们可以直观看到GLM-4.6相比(bi)于GLM-4.5的代际提升。

GLM-4.6与今日最新发布Claude Sonnet 4.5相比如何呢?如(ru)下(xia)图所(suo)示(shi),这是X平(ping)台用户“提示(shi)词(ci)”展示(shi)的(de)(de)一个让(rang)他“惊叹”的(de)(de)例子(zi)——一次(ci)性(xing)创建交互(hu)式(shi)太阳(yang)系。这位用户称,在GPT-5尝试相同的(de)(de)提示(shi)没有得到有效(xiao)代码,GLM-4.6是否能(neng)胜任?

如下图所示,即便输入非常简单的提示词,GLM-4.6也能理解抽象词“交互式”和天文概念“太阳系”的含义,并进行比较准确的模拟。该(gai)控制台(tai)模拟了太阳系行星的位置和(he)运转,支持(chi)拖动查看3D模型,并且支持(chi)调(diao)整运行速(su)度(du)和(he)行星大小等变(bian)量,看起来丝毫不逊色于Claude Sonnet 4.5。
输入:创建(jian)一个交互式太阳系的模拟。
GLM-4.6输出:

GLM-4.6在SVG动画生成的例题中,也实现了超过GPT-5的理解和编程能力。如下图所示,一位X平台用户用GPT-5去生成“水豚骑自行车”的SVG动画,然而动画中却没有准确生成出水豚,令这(zhei)位用户怀疑(yi):GPT-5好像只(zhi)会生成训练数据中出现过(guo)的内(nei)容,或许因为水豚没出现过(guo)所以不能生成。
我们让GLM-4.6尝试做(zuo)了同一道题,发(fa)现其(qi)快速生(sheng)成(cheng)了一个准确逼真的(de)动画——动画版(ban)水(shui)豚的(de)形态接(jie)近真实世界(jie)的(de)水(shui)豚,且水(shui)豚是坐在自行车座位上手扶着车把骑行的(de),生(sheng)成(cheng)较准确。
输入:SVG,水豚(tun)骑自(zi)行车的(de)动(dong)画。
GLM-4.6输出:

交互式游戏更加考验大模型的编程能力。当我们让GLM-4.6生成一个简单的3D射击游戏,GLM-4.6快(kuai)速生成了(le)一个736行(xing)代码的程序,预览(lan)就(jiu)是一个具备(bei)三维立体感的空(kong)间,点(dian)击鼠(shu)标就(jiu)可以射击移动物体,并且具有击中奖励效(xiao)果和计分机(ji)制。
输入:用(yong)Three.JS做一个简单的(de)3D射击游戏。
GLM-4.6输出:

GLM-4.6在全栈开发方面实现了增强的前端设计、GitHub集成、更长的上下文等升级,我们也尝试了一下。我们要求GLM-4.6生成“速度型集群和力量型相互作用演化”的模拟,这将考察GLM-4.6在前端开发、物理模拟、状态管理、系统架构、抽象建模、简化复杂度、工具链使用等多重能力。
如下图所示,GLM-4.6完成了一步实现,不仅模拟出速度型种群快速被力量型种群消灭的物理规律,还通过模块化的控制板,给出了模拟控制、参数设置、种群A和B的动态指标等发展情况,前端视觉效果已经非常美观,可以说“内外兼修”。
输入:有两个种(zhong)(zhong)群(qun),种(zhong)(zhong)群(qun)a注重(zhong)力量的(de)(de)发展(zhan),种(zhong)(zhong)群(qun)b注重(zhong)速度的(de)(de)发展(zhan),请模拟(ni)一下两个种(zhong)(zhong)群(qun)之(zhi)间的(de)(de)相(xiang)互作用并给出(chu)说(shuo)明。需要(yao)以(yi)“小球”的(de)(de)形态模拟(ni)出(chu)可视化的(de)(de)状态。
输出:

除了(le)(le)体(ti)验(yan)GLM-4.6的代(dai)码能(neng)力(li),我们还通过AI PPT制作这(zhei)一功能(neng),验(yan)证了(le)(le)GLM-4.6在文本理(li)解、智能(neng)体(ti)调用、检索(suo)及多模态方面的能(neng)力(li)。
通过多(duo)轮(lun)对话,我(wo)们直观感受(shou)到GLM-4.6的(de)“手眼并用”能(neng)力更灵了(le)(le)。其不(bu)仅准确(que)理解(jie)了(le)(le)生成需求,并围绕主(zhu)题(ti)(ti)进行了(le)(le)准确(que)的(de)检索和(he)信(xin)息提(ti)炼,文本和(he)图片内容都紧扣(kou)主(zhu)题(ti)(ti),同(tong)时(shi)多(duo)轮(lun)对话指令遵循准确(que)。
输入:
第一轮:制作(zuo)一份关于 “当代(dai)年(nian)轻人新(xin)型社交方式(shi)” 的(de)(de)PPT。请生成一个4页的(de)(de)PPT大(da)纲,涵盖“搭子社交”、“MBTI社交”、“全职儿女(nv)”和“追(zhui)星社交”四个话题(ti)。
第二轮:全职儿女更偏(pian)向家(jia)庭关系,请将(jiang)这(zhei)一页替换为关于“City Walk中的社交属(shu)性”的内容,并保持与其他页面相同的格式和深(shen)度。
第三轮:画面(mian)有点单调,增加(jia)一些(xie)时尚视觉(jue)元(yuan)素。在4张PPT中分别(bie)添加(jia)一些(xie)相关的(de)配(pei)图。
输出:




总的来说,我们发现GLM-4.6相比于GLM-4.5虽然在名称上仅仅迭代了0.1代,但实测效果却有非常直观的提升,并且在一些案例中比GPT-5、Claude Sonnet 4.5效果更好。国产大模型的迭代速度十分惊人,这与我们昨日实测DeepSeek新模型时的感受是一致的。
三、国产芯片立刻适配,国产之光降价提质,AI惠及更多人
GLM-4.6发布的(de)同时(shi),国产AI芯(xin)片厂商迅速响应。寒武(wu)纪与摩(mo)尔线(xian)程几乎在第一时(shi)间完成对(dui)GLM-4.6的(de)适配,国产大模型与国产芯(xin)片协(xie)同效(xiao)率(lv)正超出我(wo)们的(de)想象(xiang)。
GLM-4.6已在寒武纪领先的国产芯片上实现FP8+Int4混合量化部署,这是首次在国产芯片投产的FP8+Int4模型芯片一体解决方案,在(zai)保持精度(du)不变(bian)的前(qian)提(ti)下,大(da)幅降低推理(li)成本(ben),为国(guo)产芯片(pian)在(zai)大(da)模(mo)型(xing)本(ben)地化运行上开创了可行路径。
与此同时,摩尔线程基于vLLM推理框架完成了对GLM-4.6的适配,新一代GPU可在原生FP8精度下稳定运行模型,充分验证了MUSA架构及全功(gong)能GPU在生态兼容性和快速适配能力方面的优(you)势。
GLM-4.6和寒武纪、摩尔线程国产芯片的组合,即将通过智谱MaaS平台正(zheng)式面向大众和企业提供(gong)服务。未来(lai),国产(chan)原(yuan)创GLM大模(mo)型与国产(chan)芯片(pian)将(jiang)联合推动在模(mo)型训(xun)练(lian)和推理(li)环节(jie)的性能与效率优化。
这一协同效应不仅体现在技术层面,更直接惠及终端用户。
随着GLM-4.6发布,智谱同步升级GLM Coding Plan,推出最低20元包月畅玩套餐,让用户以1/7价格享受到Claude的9/10智商。同时其推出GLM Coding Plan企业版套餐,为企业(ye)级用户(hu)提供兼(jian)具安全、成本效益(yi)与国际顶尖性能的(de)编码解决方案。
此前订阅GLM Coding Plan包月套餐的用户自动升级至GLM-4.6,新增图像识别与搜索(suo)能力,支持(chi)Claude Code、Roo Code、Kilo Code、Cline等(deng)10+主流编程工具。智谱还面(mian)向高(gao)频重度开发者(zhe)提供(gong)GLM Coding Max,是(shi)Claude Max (20x) plan三倍(bei)用量。
可以看到,国产大模型“提质降价”趋势更(geng)(geng)(geng)(geng)加明显,有望推动大(da)模型技术更(geng)(geng)(geng)(geng)快普及,让(rang)更(geng)(geng)(geng)(geng)多开发者和企业能够以更(geng)(geng)(geng)(geng)低成本享受到顶尖的AI能力。
结语:模型提质降价背后,架构升级与国产芯协同加速
从GLM-4.5到GLM-4.6,智谱AI在(zai)短短两个月(yue)内(nei)实现显著跃进,展现出强劲的(de)技术迭代能力(li)。在(zai)模型提质(zhi)的(de)同时,价格持(chi)续下(xia)探,让大(da)模型成为广大(da)开发者和企业触(chu)手可及的(de)工具。这不仅是单纯的(de)性能提升(sheng),更是国产大(da)模型整(zheng)体技术架构加速(su)升(sheng)级的(de)缩影。
国(guo)产(chan)(chan)大模(mo)型(xing)与国(guo)产(chan)(chan)芯片(pian)的(de)深度(du)协(xie)同正在构(gou)建更加自(zi)(zi)主可控的(de)AI技术生态。寒武纪与摩尔(er)线程(cheng)完(wan)成对GLM-4.6的(de)适(shi)配,以及(ji)DeepSeek与华为、寒武纪等AI芯片(pian)的(de)适(shi)配,标志着国(guo)产(chan)(chan)AI芯片(pian)与前沿(yan)大模(mo)型(xing)已具备协(xie)同迭代的(de)能力(li),为构(gou)建自(zi)(zi)主AI基础设施奠定坚实基础。