智东西(公众号:zhidxcom)
作者 |  程茜
编辑 |  云鹏

智东西9月5日消息,刚刚,大模型独角兽月之暗面发布Kimi K2-0905,目前,Kimi应用和网页版中的K2模型已(yi)全(quan)量升级到Kimi K2-0905。

该模型的核心升级点为Agentic Coding能力增强、支持256K上下文、API支持高达60-100Token/s的输出速度、支持Claude Code

为了(le)(le)测(ce)试Kimi K2-0905的性能,智东西对比了(le)(le)其与Kimi K2-0711在生(sheng)成个人网站上的表现(xian)。

提示词:开发一个美观的个人网站,使用Bootstrap作为前端框架,直接输出相关代码。

下图左上是Kimi K2-0711生(sheng)成(cheng)的(de)结(jie)果、左下是Kimi K1.5的(de)生(sheng)成(cheng)结(jie)果,右侧均(jun)为(wei)Kimi K2-0905的(de)结(jie)果。

可以看出,网(wang)站整(zheng)体的(de)(de)美观度(du)以及整(zheng)体风格的(de)(de)一(yi)致性相比前(qian)代(dai)模型都有了一(yi)定(ding)提升,且包(bao)含的(de)(de)信息(xi)更(geng)加完善。

Kimi K2新模型来了!多项测试超Claude、审美超前代,免费可用

▲左上(shang)为Kimi K2-0711生(sheng)成、左下Kimi K1.5生(sheng)成、中和(he)右为Kimi K2-0905生(sheng)成

在考察真实软件工程任务的基准测试中,Kimi K2-0905多项表现超过Claude Sonnet 4,其(qi)中在用于(yu)评估大模型(xing)在软(ruan)件开(kai)发(fa)任务上(shang)能力(li)的(de)SWE-benchVerified、评估模型(xing)在实际软(ruan)件开(kai)发(fa)工(gong)程中综合能力(li)的(de)SWE-Dev表现略逊色于(yu)Claude Sonnet 4。

,该模型总参数10000亿,激活(huo)参数320亿。2天前,月(yue)之暗面就公开(kai)了Kimi K2-0905的一些细节,其基于基础模型构建,增强了编(bian)程能力,仍不具(ju)备思(si)考或视觉,但保留了颇受(shou)欢(huan)迎(ying)的Kimi K2-0711模型的个性和风(feng)格。

目前,Kimi开放平台已上架kimi-k2-0905-preview模型API,且定价(jia)与(yu)上(shang)一(yi)代一(yi)致,计费(fei)方案为每百万输(shu)入tokens/4元(yuan),每百万输(shu)出tokens/16元(yuan)。

月之暗面(mian)的官宣文章中提到,目前,AI编程工具Cursor、Windsurf、Trae、Cline、RooCode、Kilo Code等(deng)已内置或接入了(le)Kimi K2模型,国内外(wai)云服务(wu)厂商均(jun)部署了(le)Kimi K2模型。

Kimi K2新模型来了!多项测试超Claude、审美超前代,免费可用

论文地址(zhi)://arxiv.org/abs/2507.20534

Hugging Face地址://huggingface.co/moonshotai/Kimi-K2-Instruct-0905

GitHub地址(zhi)://github.com/moonshotai/kimi-K2

一、真实软件工程任务能力升级,多项测试超Claude

Kimi K2-0905具体能力提升主要(yao)有(you)以下四点:

Agentic Coding能力提升(sheng),在公开基准测试(shi)和真实的(de)编程任务中均展现出(chu)更好的(de)性(xing)能;

前端编程体验升级(ji):提升了前端代码的美(mei)观(guan)度和实(shi)用性;

扩展(zhan)上(shang)下文长度:从128K升级到256K,为(wei)复杂长线任务提供更好的支持;

提供高速(su)版API:支持高(gao)达(da)60-100Token/s的输出速度(du)。

在侧重考察真实软(ruan)件工程任务的(de)(de)SWE-bench Verified等基准测试,新版Kimi K2模型的(de)(de)表(biao)现如下:

Kimi K2新模型来了!多项测试超Claude、审美超前代,免费可用

Kimi开放平台已上架kimi-k2-0905-preview模型API

上(shang)下文升级(ji)到256K;Token Enforcer保证toolcall 100%格式(shi)正(zheng)确;完全兼容Anthropic API、支持(chi)WebSearch Tool,提供更(geng)好的K2+Claude Code使(shi)用体(ti)验;支持(chi)全自动Context Caching,有助于节省(sheng)Input Token;定价与之(zhi)前的0711版相同;速(su)度达60-100 Token/s的高(gao)速(su)版API(kimi-k2-turbo-preview)已同步升级(ji)新(xin)模型(xing)。

二、拆解需求、规划步骤、实战演练都能应对

智东西还考察了Kimi K2-0905拆解需求、规划步骤、代码落地的能力。

提示词:写一个工具,输入一段英文文本(可能包含标点、大小写、空格),输出以下统计结果:①总单词数(忽略标点,大小写视为同一单词,如Hello和hello算一个);②出现频率最高的3个单词及频次(若频次相同,按字母序排序);③文本中最长的句子(以. ! ?为句末标志,若多个最长句,输出第一个)

Kimi K2新模型来了!多项测试超Claude、审美超前代,免费可用

这(zhei)一工具(ju)拆分了(le)统计(ji)总单(dan)词数、频率最(zui)高3个(ge)单(dan)词、最(zui)长句子(zi)的需求。

第二个是在具体的图书馆场景中,智东西要求其开发一个简易的图书馆借阅管理系统

提示词为:设计一个图书馆借阅系统的核心功能,需支持:①书籍入库(记录书籍ID、书名、作者、库存数量);②读者借阅(记录读者ID、借阅书籍ID、借阅日期,需判断书籍是否有库存);③读者还书(记录还书日期,需判断是否超期,假设借阅期限为30天,超期按1元/天计算罚款);④查询功能(按书名查询书籍库存,按读者ID查询未还书籍及是否超期)

Kimi K2-0905生成(cheng)的系(xi)统界面中,明确包含了书(shu)籍(ji)入库、读者借阅(yue)、读者还书(shu)、查询库存、查询未还书(shu)籍(ji)的模块。

Kimi K2新模型来了!多项测试超Claude、审美超前代,免费可用

值得注意的是,智能文本统计工具和(he)图书馆借阅系(xi)统生成(cheng)整体风格相似,均为蓝白配色。

结语:AI编程或应对复杂编程挑战

当下,越(yue)来越(yue)多的开发(fa)者使用AI工具更高效便捷编写代码(ma)(ma)(ma),具体用例包(bao)括自动补全代码(ma)(ma)(ma)行、修复(fu)代码(ma)(ma)(ma)错误(wu)和测(ce)试代码(ma)(ma)(ma)等(deng)。

Kimi K2在Agentic Coding能(neng)(neng)力(li)方(fang)面(mian)的提升,意味着其模型(xing)在面(mian)对复杂编程任务时,能(neng)(neng)够更高效、自主地(di)理解需(xu)求、规划步骤(zhou)并生成高质(zhi)量代码,以应(ying)对更多真实编程场景。