爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

23分钟11...

AI正在成为...

特朗普威胁伊...

＂多管局局长...

美国＂全面封...

四个月内两高...

意甲主席谈足协主席选举：意甲、球员工会、教练协会都支持马拉戈

集微咨询发布《2025中国电源管理芯片行业上市公司研究报告》

50+女人别穿大妈装！看看这3个“减龄穿搭公式”，显嫩还从容

王家卫凉凉！开会支持《繁花》副导演精日言论，网友让他滚出中国

上海一业主去美国探亲接到一通越洋电话：你家被淹了

新质生产力“可感可及”，华强北机器人展演月“硬核度”爆表

结构性货币政策工具扩容降准降息可期

冲击330万目标！尹同跃再“吹牛”：AI追赶特斯拉，推17款AI车

美报告罕见承认中国电子战有优势

MINI与Paul Smith合作推出设计师款东京车展首秀

哈马斯称以色列未履行停火协议呼吁美方施压

“1元买壳”10个月后，北大医药新老板徐晰人突遭刑拘！

2026年国家补贴来了，只需三步，收好这份省钱指南！

售30.98万起新款享界S9/S9T亮相广州车展

Vogue这一夜太抓马了

手握200亿基金，寻找想打造品类第一的创业者

加多宝和王老吉又打击起来了？持续不断的争斗真的有意义吗？

董忠云：保持战略定力，增强必胜信心，A股有望恢复震荡上行趋势

雷军：第一代小米SU7已停售！

被演唱会上的叶倩文惊艳

晚点独家丨大定突破今年4万产能上限，新ES8帮蔚来赢得更多机会

郝蕾跟辛芷蕾杠上了？

小维阿：马赛的压力不让我意外，我在尤文效力过

法国：欧委会派员参加所谓＂和平委员会＂会议未获授权