
#AI大模型 阿里最新开源了有一个顶尖的思考模型,完全免费使用。www.lksr.net {alertInfo}
{getToc} $title={文章目录}
本文由人工编写审核,非AI生成内容,请放心观看!
## 阿里开源模型 Qwen3-235B-A22B-Thinking-2507
阿里又又又开源了!
阿里通义千问团队正式推出 Qwen3-235B-A22B 推理模型的升级版本:Qwen3-235B-A22B-Thinking-2507。
该模型拥有235B参数,激活参数为22B,支持256K上下文,在编程、数学、知识、推理、人类偏好对齐等多项能力测评中得分比肩Gemini-2.5 pro、o4-mini等顶尖闭源模型,大幅超越DeepSeek-R1等开源模型,创下全球开源模型SOTA(最佳性能表现)。
目前,Qwen3-235B-A22B-Thinking-2507已在魔搭社区、Hugging Face开源,采用极宽松的Apache2.0开源协议,人人均可免费下载商用。用户也可以通过QwenChat体验该模型。
尝试地址:chat.qwen.ai
Qwen3-235B-A22B 非思考模式的更新版本,名为Qwen3-235B-A22B-Instruct-2507,具有以下关键改进:
- 显著提升了通用能力,包括指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用。
- 大幅增加了多语言长尾知识的覆盖范围。
- 更好地符合用户在主观和开放式任务中的偏好,能够提供更有帮助的响应和更高质量的文本生成。
- 增强了对256K 长上下文的理解能力。
注意:该模型仅支持非思考模式,并且不会在其输出中生成 <think></think> 块。同时,不再需要指定 enable_thinking=False 。{alertSucc}
更多的具体模型对比结果:
阿里本月还开源了 ,Qwen3-235B 非思考 、Qwen3-Coder 。 Qwen系列大模型已经发展成了一个大的系列,包括大语言模型,图像模型,音频模型,多模态等等。
模型亮点
知识能力测试SuperGPQA和推理能力测试HMMT25 获取最高分
Deepseek-V3-0324 | GPT-4o-0327 | Claude Opus 4 非思考 | Kimi K2 | Qwen3-235B-A22B 非思考 | Qwen3-235B-A22B-Instruct-2507 | |
---|---|---|---|---|---|---|
知识 | ||||||
MMLU-Pro | 81.2 | 79.8 | 86.6 | 81.1 | 75.2 | 83.0 |
MMLU-Redux | 90.4 | 91.3 | 94.2 | 92.7 | 89.2 | 93.1 |
GPQA | 68.4 | 66.9 | 74.9 | 75.1 | 62.9 | 77.5 |
SuperGPQA | 57.3 | 51.0 | 56.5 | 57.2 | 48.2 | 62.6 |
SimpleQA | 27.2 | 40.3 | 22.8 | 31.0 | 12.2 | 54.3 |
CSimpleQA | 71.1 | 60.2 | 68.0 | 74.5 | 60.8 | 84.3 |
推理 | ||||||
AIME25 | 46.6 | 26.7 | 33.9 | 49.5 | 24.7 | 70.3 |
HMMT25 | 27.5 | 7.9 | 15.9 | 38.8 | 10.0 | 55.4 |
ARC-AGI | 9.0 | 8.8 | 30.3 | 13.3 | 4.3 | 41.8 |
ZebraLogic | 83.4 | 52.6 | - | 89.0 | 37.7 | 95.0 |
LiveBench 20241125 | 66.9 | 63.7 | 74.6 | 76.4 | 62.5 | 75.4 |
编程 | ||||||
LiveCodeBench v6 (25.02-25.05) | 45.2 | 35.8 | 44.6 | 48.9 | 32.9 | 51.8 |
MultiPL-E | 82.2 | 82.7 | 88.5 | 85.7 | 79.3 | 87.9 |
Aider-Polyglot | 55.1 | 45.3 | 70.7 | 59.0 | 59.6 | 57.3 |
对齐 | ||||||
IFEval | 82.3 | 83.9 | 87.4 | 89.8 | 83.2 | 88.7 |
Arena-Hard v2* | 45.6 | 61.9 | 51.5 | 66.1 | 52.0 | 79.2 |
Creative Writing v3 | 81.6 | 84.9 | 83.8 | 88.1 | 80.4 | 87.5 |
WritingBench | 74.5 | 75.5 | 79.2 | 86.2 | 77.0 | 85.2 |
代理 | ||||||
BFCL-v3 | 64.7 | 66.5 | 60.1 | 65.2 | 68.0 | 70.9 |
TAU-Retail | 49.6 | 60.3# | 81.4 | 70.7 | 65.2 | 71.3 |
TAU-Airline | 32.0 | 42.8# | 59.6 | 53.5 | 32.0 | 44.0 |
多语言能力 | ||||||
MultiIF | 66.5 | 70.4 | - | 76.2 | 70.2 | 77.5 |
MMLU-ProX | 75.8 | 76.2 | - | 74.5 | 73.2 | 79.4 |
INCLUDE | 80.1 | 82.1 | - | 76.9 | 75.6 | 79.5 |
PolyMATH | 32.2 | 25.5 | 30.0 | 44.8 | 27.0 | 50.2 |
## 免费使用
阿里全面提供,全面开发的免费使用!
包括:
访问地址:chat.qwen.ai
最新阿里云宣布通义灵码上线Qwen3-Coder,免费使用不限量 {alertSuccess}
版权声明:感谢您的阅读,资源整理自网络,如果您发现任何侵权行为,请联系 理科生网 管理人员,管理员将及时删除侵权内容。否则均为 理科生网 原创内容,转载时请务必以超链接(而非纯文本链接)标注来源于理科生网及本文完整链接,感谢!{alertInfo}