阿里 Qwen2.5-Max 超越 DeepSeek V3，登顶大模型性能榜单

arca3579 · 发表于 2025-2-8 17:10:32

惠米出海，勇闯四海，服务全球华人！马上登录，广交惠友，邂逅商机！

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 arca3579 于 2025-2-8 17:13 编辑

阿里 Qwen2.5-Max 超越 DeepSeek V3，登顶大模型性能榜单

近日，大模型领域迎来重大突破。
2 月 4 日，全球知名的三方基准测试平台 Chatbot Arena 公布最新大模型盲测榜单，阿里云通义团队发布的 Qwen2.5-Max 表现惊艳，超越 DeepSeek V3、o1-mini 和 Claude-3.5-Sonnet 等众多强劲对手，以 1332 分的成绩位列全球第七，同时摘得非推理类中国大模型桂冠。
Chatbot Arena 由 LMSYS Org 推出，集成了 190 多种模型，采用匿名组队、用户盲测的方式，依据真实对话体验进行投票，其榜单被公认为业界最公正、权威的大模型竞技场。
在这场激烈的 “比武” 中，Qwen2.5-Max 脱颖而出，尤其在数学和编程单项能力上拔得头筹，硬提示方面也位居第二。
Qwen2.5-Max 是阿里云通义团队于 1 月 29 日发布的最新 MoE 模型，采用超大规模 MoE（混合专家）架构，基于超 20 万亿 token 的预训练数据和精心设计的后训练方案打造。
这一独特架构能在处理海量数据时，动态分配计算资源，各 “专家模块” 各司其职，大幅提升运行效率与性能。
在 LiveBench、LiveCodeBench、GPQA-Diamond 及 MMLU-Pro 等主流基准测试中，Qwen2.5-Max 不仅比肩 Claude-3.5-Sonnet，还几乎全面超越 GPT-4o、DeepSeek-V3 及 Llama-3.1-405B。
其多轮对话能力与 DeepSeek-R1 并列第一，长文本处理（不低于 500 tokens）排行第三，超过 o1-preview。
在复杂提示词任务中，与 o1-preview 并列第二，若仅限英文则能排到第一。
该模型发布后，迅速在海内外大模型社区引发热议。
官方推文盛赞以 Qwen2.5-Max 为代表的中国大模型正加速追赶国际先进水平；从业者们惊叹于其强大性能，更有兴奋者预言，Qwen2.5-Max 有望在未来取代硅谷众多普通模型。
目前，企业可在阿里云百炼调用 Qwen2.5-Max 模型的 API，开发者也能在 Qwen Chat 平台免费体验。
这一模型的问世，不仅为国内大模型市场注入新活力，激励同行加大研发投入，推动行业创新发展；在国际舞台上，也提升了中国人工智能领域的竞争力，让世界看到中国大模型的崛起之势。未来，随着技术的持续优化与应用场景的拓展，Qwen2.5-Max 有望在更多领域发挥关键作用，助力各行业智能化升级。
https://www.tongyi.aliyun.com

惠米Talk

值班时间

官方抖音号

在线QQ群/微信

本站电子邮局