智东西(公众号:zhidxcom)
作者 | 李水青
编辑 | 心缘
智东西10月15日报道,今日,阿里通义千问团队推出其最强视觉语言模型系列Qwen3-VL的4B与8B版本,两个尺寸均提供Instruct与Thinking版本,在几十项权威基准测评中超越Gemini 2.5 Flash Lite、GPT-5 Nano等同级别顶尖模型。

▲阿(a)里千问团队公(gong)告截图(图源:X平台)
这两个新版本模型实现了以下关键目标:
1、资源门槛更低:尺寸缩减显著降低VRAM的占用。现在,开发者可以在更广泛的硬件设备上部署和运行模型。
2、核心能力不减配:在缩减尺寸的同时,其完整保留了Qwen3-VL的全部核心功能。
3、基准性能优秀:在STEM、VQA、OCR、视频理解及Agent任务等多个权威基准上,其表现不仅超越了Gemini 2.5 Flash Lite和GPT-5 Nano,在许多场景下甚至能与阿里半年前的旗舰模型Qwen2.5-VL-72B相媲美。
如下图(tu)所示,在多(duo)模(mo)态性能方面,Qwen3-VL-8B Instruct在MIABench、OCRBench、SUNRGBD、ERQA、VideoMMMU、ScreenSpot等(deng)30项(xiang)权威(wei)基准(zhun)测评中取得SOTA(行业最佳(jia))成绩,超(chao)越了Gemini 2.5 Flash Lite、GPT-5 Nano以及Qwen2.5-VL-72B等(deng)顶(ding)尖模(mo)型。

▲Qwen3-VL-8B Instruct与Qwen3-VL-4B Instruct基准测评情况(图源:Qwen)
Qwen3-VL-4B Instruct也展现出优秀的(de)多模态性(xing)能(neng),以更少的(de)参数量,在STEM、VQA、OCR、视频理解及Agent任务等测评中,能(neng)与Gemini 2.5 Flash Lite、GPT-5 Nano对打。
在纯文(wen)本表现上(shang),如下图(tu)所示(shi),Qwen3-VL-8B Instruct和Qwen3-VL-4B Instruct也(ye)相比Qwen3-4B Instruct-2507和Qwen3-8B Non-Thinking有整(zheng)体提(ti)高。

▲Qwen3-VL-8B Instruct与Qwen3-VL-4B Instruct基准测评情况(图源(yuan):Qwen)
在多模态性能方(fang)面,Qwen3-VL-8B Thinking取得了MathVision、MMStar、HallusionBench、MM-MT-Bench、CountBench等(deng)23项(xiang)权威基准测评的(de)SOTA,超越Gemini 2.5 Flash Lite、GPT-5 Nano高版本以及其他同等(deng)级(ji)顶尖开源模型。Qwen3-VL-4B Thinking同样(yang)表(biao)现出“以小敌大”的(de)成绩(ji)。

▲Qwen3-VL-8B Thinking与Qwen3-VL-4B Thinking基准测评情况(图源(yuan):Qwen)
在纯文(wen)本表现上,Qwen3-VL-8B Thinking和Qwen3-VL-4B Thinking相比于Qwen3-4BThinking-2507和Qwen3-8B Thinking有整体提高。

▲Qwen3-VL-8B Thinking与Qwen3-VL-4B Thinking基准测评情况(图源:Qwen)
该模型一经发(fa)布,就在外(wai)网引(yin)起了不(bu)少开(kai)发(fa)者(zhe)关注。不(bu)少人对此表示一直在等这个,有(you)人称:“终(zhong)于,我在16GB的Mac上可以用了。”也有(you)不(bu)少人开(kai)始(shi)催更Qwen3-Max及(ji)其他更多(duo)版(ban)本模型了。


▲外网用户(hu)对新版本Qwen3-VL的评论(图源:X平台)
自(zi)9月24日阿里开源Qwen3-VL系列以(yi)来,作(zuo)为Qwen系列中最(zui)强的视觉语言模(mo)型(xing),该模(mo)型(xing)在全球AI开源社区中快速收获认(ren)可。()
在9月底的Chatbot Arena子榜单Vision Arena中,Qwen3-VL位居第二,是视觉理解领域中的全球开源冠军;同时,Qwen3-VL还斩获纯文本赛道(Text Arena)的开源第一(全球第8),成为首个揽获纯文本和视觉两大领域同时开源第一的大模型。 
▲在Vision Arena中Qwen3-VL位居第二(图源:Qwen)
并且,Qwen3-VL还在(zai)全球(qiu)知名的大模(mo)型(xing)API三方聚合平台OpenRouter图像(xiang)处理(li)榜单上以48%的市(shi)场份额跃升(sheng)至全球(qiu)第一。

▲Qwen3-VL在OpenRouter图像处理榜单上(shang)表现(图源(yuan):OpenRouter)
近期(qi),阿里还推出Qwen3-VL Cookbook(使用(yong)(yong)(yong)指南),涵盖图像思维、计算机(ji)使用(yong)(yong)(yong)Agent、多模态变成、3D定位、空(kong)间推理、视频理解(jie)等(deng)多种多模态用(yong)(yong)(yong)例,助(zhu)用(yong)(yong)(yong)户高效上(shang)手和深度(du)应(ying)用(yong)(yong)(yong)。
模型地址:
//modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b
体验地址:
chat.qwen.ai (在模型列表选择Qwen3-VL系列模型)
Cookbook地址:
//github.com/QwenLM/Qwen3-VL/tree/main/cookbooks
来源(yuan):X平(ping)台、Hugging Face、通义(yi)千(qian)问(wen)Qwen公众号