仅4B！阿里千问最强视觉模型新开源，网友：我的16GB Mac有救了

智东西（公众号：zhidxcom）
作者 | 李水青
编辑 | 心缘

智东西10月15日报道，今日，阿里通义千问团队推出其最强视觉语言模型系列Qwen3-VL的4B与8B版本，两个尺寸均提供Instruct与Thinking版本，在几十项权威基准测评中超越Gemini 2.5 Flash Lite、GPT-5 Nano等同级别顶尖模型。

▲阿(a)里千问团队公(gong)告截图（图源：X平台）

这两个新版本模型实现了以下关键目标:

1、资源门槛更低：尺寸缩减显著降低VRAM的占用。现在，开发者可以在更广泛的硬件设备上部署和运行模型。

2、核心能力不减配：在缩减尺寸的同时，其完整保留了Qwen3-VL的全部核心功能。

3、基准性能优秀：在STEM、VQA、OCR、视频理解及Agent任务等多个权威基准上，其表现不仅超越了Gemini 2.5 Flash Lite和GPT-5 Nano，在许多场景下甚至能与阿里半年前的旗舰模型Qwen2.5-VL-72B相媲美。

如下图(tu)所示，在多(duo)模(mo)态性能方面，Qwen3-VL-8B Instruct在MIABench、OCRBench、SUNRGBD、ERQA、VideoMMMU、ScreenSpot等(deng)30项(xiang)权威(wei)基准(zhun)测评中取得SOTA（行业最佳(jia)）成绩，超(chao)越了Gemini 2.5 Flash Lite、GPT-5 Nano以及Qwen2.5-VL-72B等(deng)顶(ding)尖模(mo)型。

仅4B！阿里千问最强视觉模型新开源，网友：我的16GB Mac有救了

▲Qwen3-VL-8B Instruct与Qwen3-VL-4B Instruct基准测评情况（图源：Qwen）

Qwen3-VL-4B Instruct也展现出优秀的(de)多模态性(xing)能(neng)，以更少的(de)参数量，在STEM、VQA、OCR、视频理解及Agent任务等测评中，能(neng)与Gemini 2.5 Flash Lite、GPT-5 Nano对打。

在纯文(wen)本表现上(shang)，如下图(tu)所示(shi)，Qwen3-VL-8B Instruct和Qwen3-VL-4B Instruct也(ye)相比Qwen3-4B Instruct-2507和Qwen3-8B Non-Thinking有整(zheng)体提(ti)高。

仅4B！阿里千问最强视觉模型新开源，网友：我的16GB Mac有救了

▲Qwen3-VL-8B Instruct与Qwen3-VL-4B Instruct基准测评情况（图源(yuan)：Qwen）

在多模态性能方(fang)面，Qwen3-VL-8B Thinking取得了MathVision、MMStar、HallusionBench、MM-MT-Bench、CountBench等(deng)23项(xiang)权威基准测评的(de)SOTA，超越Gemini 2.5 Flash Lite、GPT-5 Nano高版本以及其他同等(deng)级(ji)顶尖开源模型。Qwen3-VL-4B Thinking同样(yang)表(biao)现出“以小敌大”的(de)成绩(ji)。

仅4B！阿里千问最强视觉模型新开源，网友：我的16GB Mac有救了

▲Qwen3-VL-8B Thinking与Qwen3-VL-4B Thinking基准测评情况（图源(yuan)：Qwen）

在纯文(wen)本表现上，Qwen3-VL-8B Thinking和Qwen3-VL-4B Thinking相比于Qwen3-4BThinking-2507和Qwen3-8B Thinking有整体提高。

仅4B！阿里千问最强视觉模型新开源，网友：我的16GB Mac有救了

▲Qwen3-VL-8B Thinking与Qwen3-VL-4B Thinking基准测评情况（图源：Qwen）

该模型一经发(fa)布，就在外(wai)网引(yin)起了不(bu)少开(kai)发(fa)者(zhe)关注。不(bu)少人对此表示一直在等这个，有(you)人称：“终(zhong)于，我在16GB的Mac上可以用了。”也有(you)不(bu)少人开(kai)始(shi)催更Qwen3-Max及(ji)其他更多(duo)版(ban)本模型了。

仅4B！阿里千问最强视觉模型新开源，网友：我的16GB Mac有救了

▲外网用户(hu)对新版本Qwen3-VL的评论（图源：X平台）

自(zi)9月24日阿里开源Qwen3-VL系列以(yi)来，作(zuo)为Qwen系列中最(zui)强的视觉语言模(mo)型(xing)，该模(mo)型(xing)在全球AI开源社区中快速收获认(ren)可。（）

在9月底的Chatbot Arena子榜单Vision Arena中，Qwen3-VL位居第二，是视觉理解领域中的全球开源冠军；同时，Qwen3-VL还斩获纯文本赛道（Text Arena）的开源第一（全球第8），成为首个揽获纯文本和视觉两大领域同时开源第一的大模型。仅4B！阿里千问最强视觉模型新开源，网友：我的16GB Mac有救了

▲在Vision Arena中Qwen3-VL位居第二（图源：Qwen）

并且，Qwen3-VL还在(zai)全球(qiu)知名的大模(mo)型(xing)API三方聚合平台OpenRouter图像(xiang)处理(li)榜单上以48%的市(shi)场份额跃升(sheng)至全球(qiu)第一。

仅4B！阿里千问最强视觉模型新开源，网友：我的16GB Mac有救了

▲Qwen3-VL在OpenRouter图像处理榜单上(shang)表现（图源(yuan)：OpenRouter）

近期(qi)，阿里还推出Qwen3-VL Cookbook（使用(yong)(yong)(yong)指南），涵盖图像思维、计算机(ji)使用(yong)(yong)(yong)Agent、多模态变成、3D定位、空(kong)间推理、视频理解(jie)等(deng)多种多模态用(yong)(yong)(yong)例，助(zhu)用(yong)(yong)(yong)户高效上(shang)手和深度(du)应(ying)用(yong)(yong)(yong)。

模型地址：
//modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b
体验地址：
chat.qwen.ai (在模型列表选择Qwen3-VL系列模型)
Cookbook地址：
//github.com/QwenLM/Qwen3-VL/tree/main/cookbooks

来源(yuan)：X平(ping)台、Hugging Face、通义(yi)千(qian)问(wen)Qwen公众号

国产成人亚洲精品狼色在线,亚洲成色www久久网站,强制高潮(h)调教,大伊香蕉在线精品视频75,日本无码少妇成人久久丫

相关推荐