微软近日推出了一款名为“rStar2-Agent”的开源模型,这是一个拥有140亿参数的数学推理模型,凭借更智能而非冗长的思维过程,实现了与6710亿参数的DeepSeek-R1模型相媲美的性能表现。该模型具备自主规划、逻辑推理以及调用代码工具的能力,能够高效地探索、验证并反思复杂问题的解决方案。其卓越能力源于三大关键技术突破:GRPO-RoC算法、可扩展且高效的强化学习(RL)基础设施,以及从非推理SFT起步的渐进式Agent训练策略。rStar2-Agent的核心理念是“更聪明地思考”,而非...
微软近日推出了一款名为“rstar2-agent”的开源模型,这是一个拥有140亿参数的数学推理模型,凭借更智能而非冗长的思维过程,实现了与6710亿参数的deepseek-r1模型相媲美的性能表现。
该模型具备自主规划、逻辑推理以及调用代码工具的能力,能够高效地探索、验证并反思复杂问题的解决方案。

其卓越能力源于三大关键技术突破:GRPO-RoC算法、可扩展且高效的强化学习(RL)基础设施,以及从非推理SFT起步的渐进式Agent训练策略。
rStar2-Agent的核心理念是“更聪明地思考”,而非延长推理链长度。通过纯智能体式的强化学习训练,其在多项任务上的表现已接近甚至超越超大规模模型,如671B参数的DeepSeek-R1。
该模型能够自主进行任务规划、逻辑推导,并灵活运用编程工具,从而高效完成对复杂问题的求解、验证与自我修正。
-
GRPO-RoC算法:引入创新的“正确时重采样”推理机制,优化了对编码工具的使用效率。该方法选择性保留高质量的成功推理路径,同时完整保留失败案例用于学习,从而实现更短但更高效的推理过程;
-
高效可扩展的RL基础设施:支持高吞吐量的工具调用执行,显著降低智能体在强化学习推演中的资源消耗,使得仅用64块MI300X GPU即可完成大规模训练;
-
渐进式Agent训练方案:起始于非推理型SFT模型,通过多阶段强化学习逐步提升能力。每一阶段均采用受限的最大响应长度,并逐步提高训练数据的难度,确保稳定收敛。
基于上述技术,rStar2-Agent仅用一周时间、经过510步的强化学习训练,就将一个14B参数的预训练模型提升至行业领先水平。在AIME24和AIME25两个权威数学评测集上,分别取得了80.6%和69.8%的平均通过率,响应更简洁却超越了参数量高达6710亿的DeepSeek-R1。
此外,rStar2-Agent-14B在数学之外的任务中也展现出出色的泛化能力,包括指令对齐、科学推理以及智能体工具调用等多样化场景。
开源地址:https://www./link/b1946b34ce976b3f223d5afc2052e89d
相关推荐:
SEO什么意思?电商如何通过SEO优化提升业绩,斑马Ai思维s4
ChatGPT崩了?用户称打开是一片空白,真相竟然如此!,daw ai冲击
怎么分辨文章是不是AI写的?五大技巧揭开真相
SEO如何做:让你的网站在搜索引擎中脱颖而出,ai卢
SEO优化排名软件:助力企业突破互联网竞争壁垒,快速提升网站排名
动态官网爬取工具让网站数据采集更加智能与高效,儿时ai
360ai答题-赋能教育,开启智能学习新纪元,imba ai 下载
文章AI生成软件高效创作新纪元
SEO优化推广优化:打造高效网络营销的制胜法宝
Bing无法使用怎么办?解决方法及替代方案推荐!,百度ai图像分割文档
SEO师:如何在数字时代为企业赢得流量与销量,十堰网站关键词优化教程
Bing搜索不能预览了?搜索引擎的新变革与挑战,ai ps硬件要求
作文生成器免登录,让写作变得轻松简单,列车AI系统
AI写作一键生成免费:开启智能写作的新时代
SEO优化收:如何提升网站排名与流量,成为搜索引擎的宠儿
怎么使用AI生成文章,轻松提升写作效率!
SEO就是:让你的品牌脱颖而出,获得更多曝光与流量,梅岭关键词排名优化
AI写作是怎么形成的揭开人工智能赋能创作的奥秘
在线AI文章:为您打造全新内容创作体验
AI仿写文章:开启内容创作新纪元
Typecho导入Markdown:轻松打造高效的博客体验,肺癌f ai
ChatGPT打不开网页?看完这篇你就懂了!,魔法帝AI
SEO工作:如何通过精准优化提升网站排名与流量,ai智能研发时间
自动写文章的AI,提升效率的创作利器
SEO是什么职业的简称?了解SEO背后的无限商机,足球ai 广告
2024最新SEO蜘蛛弛:助力网站排名稳定提升的秘密武器
AI生成文章:“熊”的神秘世界
SEO导流:如何通过精准优化实现网站流量大爆发,网站优化优化怎么做
怎样用AI写文章?快速高效创作新技能!
SEO有哪些公司?选择合适的SEO服务商,助力企业网站提升流量和排名,ai候鸟