近日,中国人民大学STILL项目团队、北京智源研究院团队、九章云极DataCanvas联合发布了大模型慢思考推理系列研究成果:在DataCanvas Alaya NeW智算操作系统上完成初步复现类R1推理模型,并向外界完整开源了强化学习与监督微调的训练代码与训练数据。进一步,创新性提出使用代码工具来增强模型推理性能,在AIME 2024数学推理测试中超越DeepSeek-R1的模型性能。
该研究成果发布在知名技术社区GitHub后,引发了广泛关注。
自DeepSeek-R1技术报告公布后,慢思考推理模型的复现仍然面临训练细节缺失、超参数调试复杂等共性难题,九章云极DataCanvas联合团队通过AI基础设施深度融合实现突破。研究开源了该模型在DataCanvas Alaya NeW智算操作系统上完成的强化学习与监督微调全过程完整训练日志、训练数据及容器化部署方案,为当前大多数的复杂推理大模型复现提供了从理论到实践的完整闭环支持。
值得关注的是,DeepSeek以及蒸馏模型在推理过程中无法调用外部代码工具。针对这一问题,该研究结果介绍了九章云极新的工具增强推理模型STILL-3-Tool-32B在AIME 2024基准测试上的领先表现。研究结果显示,该模型在AIME 2024基准测试中取得了81.70%准确率(采样),超越了DeepSeek-R1满血版,以15.56%的显著优势超越其基座训练模型,与OpenAI o3-mini持平,并超越OpenAI o1。
研究结果显示,DataCanvas Alaya NeW智算操作系统在开源工具链与基座模型适配、算法与算力协同、逻辑推理与多步决策等复杂任务框架方面表现出明显优势。业界人员表示,这一成果不仅验证了九章云极在大模型慢思考推理、强化学习训练框架方面的深厚积累,也为开源模型复现提供了新的思路和方法。
在业界看来,完整复现DeepSeek-R1模型存在较高技术门槛,但也为此带来较大研究契机。此前包括HuggingFace、伯克利大学、上海交大等机构均有相关复现研究,九章云极凭借强大的技术储备和人才储备,通过长期深耕,系统掌握大模型慢思考推理技术。同时,九章云极注重技术的开源与产品化,致力于让普通开发者像拼乐高积木一样快速搭建出类R1性能的推理模型,实现了 "低成本高回报" 的技术跃迁。
据悉,该相关研究成果已形成论文《An Empirical Study on Eliciting and Improving R1-like Reasoning Models》,已在全球科研人员前沿成果预印版论文网站arXiv发表。
-
九章云极发布新AI慢思考模型,开放性技术路径赋能复杂推理近日,中国人民大学STILL项目团队、北京智源研究院团队、九章云极DataCanvas联合发布了大模型慢思考推理系列研究成果:在DataCanvas Alaya NeW智算操作系统上完2025-03-13
-
长三角一体化示范区“3·15”国际消费者权益日纪念活动在书香门地集团举行3月12日,“三地共筑满意消费 六方共创放心环境”长三角一体化示范区“3·15”国际消费者权益日纪念活动在书香门地集团举行。书香门地集团受聘成为“示范区消费2025-03-13
-
全力推进"AI+",浪潮软件赋能数字社会创新发展济南2025年3月12日 /美通社/ -- 国产大模型DeepSeek的发布加快了AI工程化应用的进程,支持开发者本地化部署与深度定制,为行业大模型普惠应用提供了创新路径,各行各2025-03-13
-
中宏保险总部新职场启用 开启高质量可持续发展新篇章上海2025年3月12日 /美通社/ -- 3月12日,中宏人寿保险有限公司(以下简称为"中宏保险")正式宣布总部新职场启用。作为顺应行业转型变革、谋求长远发展的战略性决策,中2025-03-13
-
长虹厨卫焕新升级,开启健康生活“虹”利时代在国家“以旧换新”政策加码下,消费升级正在加速推动,而厨卫行业也正经历着深刻变革。消费者不再仅仅满足于产品的基本功能,对绿色环保、健康、品质的追求愈发强烈2025-03-13