爆点资讯

当我们训练人工智能写代码或解数学题时，就像教小孩做作业一样，需要给它很多练习题。但问题来了：有些题目太简单，AI一下就会了；有些题目太难，AI怎么也学不会。更麻烦的是，按照传统方法，不管题目难易，我们都给每道题分配同样的练习时间和次数。这就像让学霸和学渣都花同样时间做同一套题——既浪费了学霸的时间，也帮不到学渣。

来自伊利诺伊大学香槟分校、微软研究院和阿姆斯特丹大学的研究团队，在2025年10月发表了一项名为"Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training"的研究。这项研究就像给AI学习装上了"智能调节器"，让它能够根据题目难度自动分配练习时间，既不浪费计算资源，又能确保每道题都学得扎实。

研究团队的核心发现是：当前主流的AI训练方法GRPO（组相对策略优化）存在一个严重问题——当AI对某道题的所有尝试都得到相同结果时（要么全对要么全错），系统就收不到有用的学习信号，就像老师看到学生交上来的作业要么全是满分要么全是零分，无法判断学生的真实水平。

为了解决这个问

AI让机器写代码变得更聪明：伊利诺伊大学团队破解训练瓶颈新方法

台湾一古宅所...

小个子秋季穿...

瑞银：中国出...

澳足协批准米...

雪道已开，S...

2025自主...

71岁上海爷叔网恋＂小姑娘＂转30万约会遭对方持刀勒索

《罚罪2》40集：彭局弘市长判刑20年

致态 TiPlus 7100s 固态硬盘发布：长江存储新一代颗粒，659 元起

高市早苗要和中国打时间差或赶在特朗普访华前访美

潮汕三兄弟造“电驴”，9个月狂揽148亿

长城汽车10月销售新车14.31万辆同比增长22.5%

谁是真汇源？

记者：弗里克听说自己的明夏离队传闻后说“又是胡说八道”

曝娜扎被抢休息室，刘亦菲聊天监听，后台大瓜!

上海交大突破：AI精准学习人类审美偏好

女单黯淡女双坚挺，金花2025交7冠答卷

美国中央司令部透露对伊朗动武全部武器装备清单

赵本山：从家喻户晓到一夜消失

陈冰挺孕肚陪男友逛街，陈牧驰一脸络腮胡

幸福！孙杨张豆豆自曝结婚3年育有一娃

大衣+阔腿裤：今年冬天最经典搭配，松弛又时髦！

同样是星二代，为什么她路人缘那么好？

珠海收获2金！广东省无人机应用技术职业技能大赛结果揭晓

女子卷入前夫780余万巨债诉讼9年均被判＂夫妻共债＂

小米通报与“大熊”合作处理结果：辞退涉事经办人员

具身智能开启汽车产业万亿新赛道

杨家玉夺全运第2金！马拉松竞走混合接力：北京一队刷PB夺冠

C罗再谈曼联：架构出错阿莫林无法创奇迹，为此难过希望尽快复兴

乌克兰代表团抵达日内瓦与英法德官员举行会谈