发米下载:值得大家信赖的游戏下载站!
发布时间:2025-03-07 08:02:03来源:发米下载作者:zhoucl
阿里巴巴云推出了一种新的以推理为中心的AI模型,该模型尽管大小的一小部分,但仍设法与更大的竞争对手的性能相匹配。
这家中国科技巨头最新产品的云计算部门的挑战表明,在AI世界中,更大的观念总是更好。
该模型被称为QWQ-32B,建立在阿里巴巴的QWEN2。5-32B基金会上,并使用325亿个参数,同时提供了与DeepSeek R1相当的性能,后者具有671亿个参数。
大卫对巨人的成就使注意力AI研究人员和开发人员全球.
阿里巴巴的Qwen团队在公告中说:“这种显着的结果强调了RL的有效性,该QWEN团队在公告中说道。博客文章今天。
根据该公司的说法,QWQ-32B尤其是在数学推理和编码任务中发挥的。 
阿里巴巴在公告推文中写道:“我们发现RL培训可以不断提高性能,尤其是在数学和编码方面,并且我们观察到RL的连续缩放可以帮助中型模型实现竞争性能,以针对巨大的MOE模型。”
根据内部基准的结果,它在GPQA(研究生级的科学推理测试)上得分65.2%,AIME(高级数学)的得分为50%,在Math-500上获得了令人印象深刻的90.6%,这涵盖了广泛的数学问题。
AI社区的热情回应。 “绝对喜欢它!”著名的数据科学家和AI研究人员Vaibhav Srivastav,而Julien Chaumond,CTO在Huggin Face说该模型“改变一切”。
当然,也有一些有趣的模因。
此外,Ollama和Groq宣布,他们对该模型实施了支持,这意味着用户现在可以对开源代理进行编程,并在第三方应用程序上使用此模型,并通过Groq的基础架构实现创纪录的推理速度。
这种效率增长标志着该行业的潜在转变,趋势已经朝着不断发展的模型趋于发展。 QWQ-32B相反,对DeepSeek R1采用了类似的方法,这表明巧妙的训练技术在AI性能方面可能与RAW参数计数一样重要。
QWQ-32B确实有局限性。它有时会在语言混合中挣扎,并可能陷入影响其效率的递归推理循环。
此外,与其他中国AI模型一样,它符合当地的监管要求,这些要求可能会限制对政治敏感的主题的反应,并且具有有限的32K令牌上下文窗口。
与许多先进的AI系统(尤其是来自美国和西方国家)不同的AI系统不同,该系统是在付费墙后面运作的,QWQ-32B可作为Apache 2.0许可证的开源软件提供。 
该新闻稿是阿里巴巴一月的启动QWEN 2.5-MAX,该公司声称“几乎全面胜过竞争对手”。 
早些时候发布的是在农历新年庆祝活动中,强调了中国科技公司在迅速发展的AI景观中面临的竞争压力。
中国模型在AI行业状态的影响是,在先前关于该主题的声明中,唐纳德·特朗普总统将其表现描述为对硅谷的“唤醒电话”,但将其视为“机会而不是威胁”。
当DeepSeek R1发布时,引发了显着下降 在股票市场,但QWQ-32B并未以相同的方式影响投资者。
纳斯达克总体下降,主要是出于政治原因而不是归因于阿里巴巴的影响力。
尽管如此,阿里巴巴仍然将此版本视为开始。 
该公司在博客文章中说:“这标志着Qwen在扩展强化学习以增强推理能力方面的第一步。”
“我们相信,将更强大的基础模型与由缩放计算资源提供动力的RL相结合将使我们更接近实现人工通用情报(AGI)。”
编辑塞巴斯蒂亚·辛克莱(Sebastiaan Sinclair)
五行币最新2024好消息?五行币骗局揭秘
OK Vnturs合伙人Jff Rn主持Aptos princ圆桌论坛 聚焦亚太地区Wb3发展潜力
最安全的柴犬币商城下载 最好的加密货币交易APP安卓榜单
美媒:宾夕法尼亚州一个县缺少数千张选票
数据突破 | 波场TRON账户总数突破2.7亿
币圈品牌营销只能靠复制别人的成功吗?
Anthropic CEO:人工智能最早可能在2026年达到“人类水平”
马斯克领导的政府效率部(D.O.G.E)官方X账号已上线
某用户内盘阶段购买 1645 万枚 ELIZA,获利 112 万美元