手机动态码快速登录

手机号快速注册登录

微信登录

微信扫一扫,快速登录

QQ登录

只需一步,快速开始

返回列表 发新帖
收起左侧

阿里 Qwen2.5-Max 超越 DeepSeek V3,登顶大模型性能榜单

[复制链接]
发表于 2025-2-8 17:10:32 |显示全部楼层 | 阅读模式 IP:- 上海普陀区

惠米出海,勇闯四海,服务全球华人!马上登录,广交惠友,邂逅商机!

您需要 登录 才可以下载或查看,没有账号?立即注册 手机动态码快速登录 微信登录

x
本帖最后由 arca3579 于 2025-2-8 17:13 编辑

阿里 Qwen2.5-Max 超越 DeepSeek V3,登顶大模型性能榜单

近日,大模型领域迎来重大突破。
2 月 4 日,全球知名的三方基准测试平台 Chatbot Arena 公布最新大模型盲测榜单,阿里云通义团队发布的 Qwen2.5-Max 表现惊艳,超越 DeepSeek V3、o1-mini 和 Claude-3.5-Sonnet 等众多强劲对手,以 1332 分的成绩位列全球第七,同时摘得非推理类中国大模型桂冠。
Chatbot Arena 由 LMSYS Org 推出,集成了 190 多种模型,采用匿名组队、用户盲测的方式,依据真实对话体验进行投票,其榜单被公认为业界最公正、权威的大模型竞技场。
在这场激烈的 “比武” 中,Qwen2.5-Max 脱颖而出,尤其在数学和编程单项能力上拔得头筹,硬提示方面也位居第二。
Qwen2.5-Max 是阿里云通义团队于 1 月 29 日发布的最新 MoE 模型,采用超大规模 MoE(混合专家)架构,基于超 20 万亿 token 的预训练数据和精心设计的后训练方案打造。
这一独特架构能在处理海量数据时,动态分配计算资源,各 “专家模块” 各司其职,大幅提升运行效率与性能。
在 LiveBench、LiveCodeBench、GPQA-Diamond 及 MMLU-Pro 等主流基准测试中,Qwen2.5-Max 不仅比肩 Claude-3.5-Sonnet,还几乎全面超越 GPT-4o、DeepSeek-V3 及 Llama-3.1-405B。
其多轮对话能力与 DeepSeek-R1 并列第一,长文本处理(不低于 500 tokens)排行第三,超过 o1-preview。
在复杂提示词任务中,与 o1-preview 并列第二,若仅限英文则能排到第一。
该模型发布后,迅速在海内外大模型社区引发热议。
官方推文盛赞以 Qwen2.5-Max 为代表的中国大模型正加速追赶国际先进水平;从业者们惊叹于其强大性能,更有兴奋者预言,Qwen2.5-Max 有望在未来取代硅谷众多普通模型。
目前,企业可在阿里云百炼调用 Qwen2.5-Max 模型的 API,开发者也能在 Qwen Chat 平台免费体验。
这一模型的问世,不仅为国内大模型市场注入新活力,激励同行加大研发投入,推动行业创新发展;在国际舞台上,也提升了中国人工智能领域的竞争力,让世界看到中国大模型的崛起之势。未来,随着技术的持续优化与应用场景的拓展,Qwen2.5-Max 有望在更多领域发挥关键作用,助力各行业智能化升级。
https://www.tongyi.aliyun.com





本帖被以下淘专辑推荐:

【惠米出海,勇闯四海,服务全球华人】惠米Talk,华人出海第一社交论坛https://www.huimitalk.com
惠米talk社交论坛,助力成就出海梦想!X

惠米Talk邀您快速入驻

惠米出海Talk社交论坛携手各地华人商会,诚邀会员企业入驻,助力成就出海梦想,共创辉煌未来!惠米出海,勇闯四海!...

立即入驻点击查看
嗨!您好:
欢迎来到惠米Talk社交论坛。
我是AI机器人
很高兴能够为您服务!
如果已经注册请【立即登录】
还没有账号请立即注册

更多主题

帮助中心
免责声明
使用教程
商务合作
服务支持
商会入驻
企业入驻
活动预约
关于我们
关于我们
友情链接
联系我们
关注我们
官方圈子
官方论坛
官方推文
快速回复 返回顶部 返回列表