阿里发布万亿参数旗舰推理模型Qwen3-Max-Thinking,性能媲美GPT-5.2与Gemini 3 Pro
1月26日,阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking,创下多项权威评测全球新纪录,综合性能比肩GPT-5.2、Gemini 3 Pro,成为当前国内最接近国际顶尖水平的大语言模型。
该模型总参数规模超万亿,依托更大规模的强化学习后训练,并融合多项原创性推理优化技术,实现推理能力的跨越式提升。在MMLU、GPQA、HumanEval、AIME 2024等关键基准测试中,Qwen3-Max-Thinking全面超越GPT-5.2、Claude Opus 4.5及Gemini 3 Pro,刷新多项世界纪录,显著拓展了AI系统在复杂逻辑推理、多步问题求解与专业领域任务上的能力边界。
Qwen3-Max-Thinking还深度强化了原生Agent能力,支持模型在执行过程中自主规划、实时调用外部工具并同步进行链式思考,实现“边用边想、边想边用”的类专业人士工作流。其回答更贴合用户意图,响应更智能、更连贯;同时,幻觉率显著降低,为落地金融分析、科研辅助、工程诊断等高可靠性场景提供了坚实基础。
