|
本帖最后由 arca3579 于 2025-2-8 17:13 编辑
阿里 Qwen2.5-Max 超越 DeepSeek V3,登顶大模型性能榜单
近日,大模型领域迎来重大突破。
2 月 4 日,全球知名的三方基准测试平台 Chatbot Arena 公布最新大模型盲测榜单,阿里云通义团队发布的 Qwen2.5-Max 表现惊艳,超越 DeepSeek V3、o1-mini 和 Claude-3.5-Sonnet 等众多强劲对手,以 1332 分的成绩位列全球第七,同时摘得非推理类中国大模型桂冠。
Chatbot Arena 由 LMSYS Org 推出,集成了 190 多种模型,采用匿名组队、用户盲测的方式,依据真实对话体验进行投票,其榜单被公认为业界最公正、权威的大模型竞技场。
在这场激烈的 “比武” 中,Qwen2.5-Max 脱颖而出,尤其在数学和编程单项能力上拔得头筹,硬提示方面也位居第二。
Qwen2.5-Max 是阿里云通义团队于 1 月 29 日发布的最新 MoE 模型,采用超大规模 MoE(混合专家)架构,基于超 20 万亿 token 的预训练数据和精心设计的后训练方案打造。
这一独特架构能在处理海量数据时,动态分配计算资源,各 “专家模块” 各司其职,大幅提升运行效率与性能。
在 LiveBench、LiveCodeBench、GPQA-Diamond 及 MMLU-Pro 等主流基准测试中,Qwen2.5-Max 不仅比肩 Claude-3.5-Sonnet,还几乎全面超越 GPT-4o、DeepSeek-V3 及 Llama-3.1-405B。
其多轮对话能力与 DeepSeek-R1 并列第一,长文本处理(不低于 500 tokens)排行第三,超过 o1-preview。
在复杂提示词任务中,与 o1-preview 并列第二,若仅限英文则能排到第一。
该模型发布后,迅速在海内外大模型社区引发热议。
官方推文盛赞以 Qwen2.5-Max 为代表的中国大模型正加速追赶国际先进水平;从业者们惊叹于其强大性能,更有兴奋者预言,Qwen2.5-Max 有望在未来取代硅谷众多普通模型。
目前,企业可在阿里云百炼调用 Qwen2.5-Max 模型的 API,开发者也能在 Qwen Chat 平台免费体验。
这一模型的问世,不仅为国内大模型市场注入新活力,激励同行加大研发投入,推动行业创新发展;在国际舞台上,也提升了中国人工智能领域的竞争力,让世界看到中国大模型的崛起之势。未来,随着技术的持续优化与应用场景的拓展,Qwen2.5-Max 有望在更多领域发挥关键作用,助力各行业智能化升级。
https://www.tongyi.aliyun.com
|
|