AI云市场工具站

191 1595 7237

苍梧阿里通义千问Qwen3-Max-Thinking推理模型数学竞赛满分,力压GPT-5!

来源:网络采集
时间:2025-11-10
浏览:1

2025年11月04日,阿里巴巴集团正式上线了升级至全新版本的人工智能推理模型Qwen3-Max-Thinking。这可不是一般的模型,它在一场激烈的“数学大比拼”中脱颖而出,直接把两大数学竞赛的满分收入囊中,难道这不是AI推理模型的一次重大突破吗?

要知道,美国邀请数学考试(AIME)和哈佛 - 麻省理工数学锦标赛(HMMT)那可都是数学竞赛里的“硬骨头”,难度超高,专门考察选手在算术、代数、数论和概率等多个领域的解题能力。就好比在高手如林的武林大会上,能在这两个赛场都拿到满分,那实力杠杠的。和那些在竞赛中表现平平的模型相比,Qwen3-Max-Thinking简直就是“学霸中的学霸”。

体验地址:通义千问官网(在官网左上角找到Qwen_Chat即可)

竞赛实力:满分夺冠,彰显推理能力

AIME和HMMT可不是随便哪个模型都能挑战成功的。位于圣荷西的AI软件公司Intuition Labs就说了,高分的数学推理测试对于评估AI模型的推理和问题解决技能那是相当重要。这些竞赛就像是AI模型进步路上的“试金石”,谁能在上面取得好成绩,谁就能在开发更强推理模型的竞争中占据有利地位。

而Qwen3-Max-Thinking这次可真是出尽了风头,它成为在这两个竞赛中都拿到100%准确率的AI推理模型。这就好比在一场的数学考试中,其他选手都在苦苦挣扎,而它却轻松拿到了满分,这实力差距一目了然。

模型背景:升级迭代,参数超万亿

Qwen3-Max-Thinking是阿里巴巴AI与云计算部门推出的Qwen3-Max系列里的最新版本。这个系列的发展那也是相当迅速,原始的Qwen3在4月就推出了,到了9月底,Qwen3-Max就正式上线了。而且Qwen3-Max-Thinking这个升级版可不简单,它具备超过1万亿个参数,这庞大的参数就像是一个巨大的知识宝库,为它的强大能力提供了坚实的基础。

阿里云在发布会上还透露,Qwen3-Max在国内外的竞争对手中表现十分突出。像Anthropic的Claude Opus4、DeepSeek的V3.1、xAI的Grok4以及OpenAI的GPT - 5Pro这些知名模型,在和Qwen3-Max的较量中都稍逊一筹。

金融实战:加密货币交易,投资回报惊人

除了在数学竞赛中大放异彩,Qwen3-Max-Thinking在金融领域也有着出色的表现。在一项涉及真实市场的实验中,它和五个美国和的AI系统在加密货币交易上展开了一场激烈的对决。

在两周的时间里,Qwen3-Max实现了22.3%的投资回报,这成绩相当不错。而其他模型的表现就有点不尽人意了,特别是OpenAI的GPT - 5,竟然遭遇了62.7%的损失。这就好比在投资市场上,别人都在亏钱,而Qwen3-Max却能稳稳地赚钱,这投资眼光和能力真是让人佩服。

开放使用:持续改进,未来可期

目前,Qwen3-Max-Thinking已经通过Qwen聊天机器人的网页版本和阿里云的API平台向个人用户开放了。这意味着广大用户都有机会体验到这个强大模型带来的便利。

Qwen团队的研究员林俊扬还在社交媒体上透露,他们并没有满足于现有的成绩,仍在继续改进这一新推理模型。毕竟科技的发展永无止境,只有不断进步,才能在这个竞争激烈的AI领域站稳脚跟。这也让我们对Qwen3-Max-Thinking的未来充满了期待,说不定它还会给我们带来更多的惊喜呢。