智东西(公众号:zhidxcom)
作者 | 程茜
编辑 | 云鹏
智东西9月5日消息,刚刚,大模型独角兽月之暗面发布Kimi K2-0905,目前,Kimi应用和网页版中的K2模型已(yi)全(quan)量升级到Kimi K2-0905。
该模型的核心升级点为Agentic Coding能力增强、支持256K上下文、API支持高达60-100Token/s的输出速度、支持Claude Code。
为了(le)(le)测(ce)试Kimi K2-0905的性能,智东西对比了(le)(le)其与Kimi K2-0711在生(sheng)成个人网站上的表现(xian)。
提示词:开发一个美观的个人网站,使用Bootstrap作为前端框架,直接输出相关代码。
下图左上是Kimi K2-0711生(sheng)成(cheng)的(de)结(jie)果、左下是Kimi K1.5的(de)生(sheng)成(cheng)结(jie)果,右侧均(jun)为(wei)Kimi K2-0905的(de)结(jie)果。
可以看出,网(wang)站整(zheng)体的(de)(de)美观度(du)以及整(zheng)体风格的(de)(de)一(yi)致性相比前(qian)代(dai)模型都有了一(yi)定(ding)提升,且包(bao)含的(de)(de)信息(xi)更(geng)加完善。

▲左上(shang)为Kimi K2-0711生(sheng)成、左下Kimi K1.5生(sheng)成、中和(he)右为Kimi K2-0905生(sheng)成
在考察真实软件工程任务的基准测试中,Kimi K2-0905多项表现超过Claude Sonnet 4,其(qi)中在用于(yu)评估大模型(xing)在软(ruan)件开(kai)发(fa)任务上(shang)能力(li)的(de)SWE-benchVerified、评估模型(xing)在实际软(ruan)件开(kai)发(fa)工(gong)程中综合能力(li)的(de)SWE-Dev表现略逊色于(yu)Claude Sonnet 4。
,该模型总参数10000亿,激活(huo)参数320亿。2天前,月(yue)之暗面就公开(kai)了Kimi K2-0905的一些细节,其基于基础模型构建,增强了编(bian)程能力,仍不具(ju)备思(si)考或视觉,但保留了颇受(shou)欢(huan)迎(ying)的Kimi K2-0711模型的个性和风(feng)格。
目前,Kimi开放平台已上架kimi-k2-0905-preview模型API,且定价(jia)与(yu)上(shang)一(yi)代一(yi)致,计费(fei)方案为每百万输(shu)入tokens/4元(yuan),每百万输(shu)出tokens/16元(yuan)。
月之暗面(mian)的官宣文章中提到,目前,AI编程工具Cursor、Windsurf、Trae、Cline、RooCode、Kilo Code等(deng)已内置或接入了(le)Kimi K2模型,国内外(wai)云服务(wu)厂商均(jun)部署了(le)Kimi K2模型。

论文地址(zhi)://arxiv.org/abs/2507.20534
Hugging Face地址://huggingface.co/moonshotai/Kimi-K2-Instruct-0905
GitHub地址(zhi)://github.com/moonshotai/kimi-K2
一、真实软件工程任务能力升级,多项测试超Claude
Kimi K2-0905具体能力提升主要(yao)有(you)以下四点:
Agentic Coding能力提升(sheng),在公开基准测试(shi)和真实的(de)编程任务中均展现出(chu)更好的(de)性(xing)能;
前端编程体验升级(ji):提升了前端代码的美(mei)观(guan)度和实(shi)用性;
扩展(zhan)上(shang)下文长度:从128K升级到256K,为(wei)复杂长线任务提供更好的支持;
提供高速(su)版API:支持高(gao)达(da)60-100Token/s的输出速度(du)。
在侧重考察真实软(ruan)件工程任务的(de)(de)SWE-bench Verified等基准测试,新版Kimi K2模型的(de)(de)表(biao)现如下:

Kimi开放平台已上架kimi-k2-0905-preview模型API:
上(shang)下文升级(ji)到256K;Token Enforcer保证toolcall 100%格式(shi)正(zheng)确;完全兼容Anthropic API、支持(chi)WebSearch Tool,提供更(geng)好的K2+Claude Code使(shi)用体(ti)验;支持(chi)全自动Context Caching,有助于节省(sheng)Input Token;定价与之(zhi)前的0711版相同;速(su)度达60-100 Token/s的高(gao)速(su)版API(kimi-k2-turbo-preview)已同步升级(ji)新(xin)模型(xing)。
二、拆解需求、规划步骤、实战演练都能应对
智东西还考察了Kimi K2-0905拆解需求、规划步骤、代码落地的能力。
提示词:写一个工具,输入一段英文文本(可能包含标点、大小写、空格),输出以下统计结果:①总单词数(忽略标点,大小写视为同一单词,如Hello和hello算一个);②出现频率最高的3个单词及频次(若频次相同,按字母序排序);③文本中最长的句子(以. ! ?为句末标志,若多个最长句,输出第一个)。

这(zhei)一工具(ju)拆分了(le)统计(ji)总单(dan)词数、频率最(zui)高3个(ge)单(dan)词、最(zui)长句子(zi)的需求。
第二个是在具体的图书馆场景中,智东西要求其开发一个简易的图书馆借阅管理系统。
提示词为:设计一个图书馆借阅系统的核心功能,需支持:①书籍入库(记录书籍ID、书名、作者、库存数量);②读者借阅(记录读者ID、借阅书籍ID、借阅日期,需判断书籍是否有库存);③读者还书(记录还书日期,需判断是否超期,假设借阅期限为30天,超期按1元/天计算罚款);④查询功能(按书名查询书籍库存,按读者ID查询未还书籍及是否超期)。
Kimi K2-0905生成(cheng)的系(xi)统界面中,明确包含了书(shu)籍(ji)入库、读者借阅(yue)、读者还书(shu)、查询库存、查询未还书(shu)籍(ji)的模块。

值得注意的是,智能文本统计工具和(he)图书馆借阅系(xi)统生成(cheng)整体风格相似,均为蓝白配色。
结语:AI编程或应对复杂编程挑战
当下,越(yue)来越(yue)多的开发(fa)者使用AI工具更高效便捷编写代码(ma)(ma)(ma),具体用例包(bao)括自动补全代码(ma)(ma)(ma)行、修复(fu)代码(ma)(ma)(ma)错误(wu)和测(ce)试代码(ma)(ma)(ma)等(deng)。
Kimi K2在Agentic Coding能(neng)(neng)力(li)方(fang)面(mian)的提升,意味着其模型(xing)在面(mian)对复杂编程任务时,能(neng)(neng)够更高效、自主地(di)理解需(xu)求、规划步骤(zhou)并生成高质(zhi)量代码,以应(ying)对更多真实编程场景。