关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro1708人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

徐帆带徐朵参加活动,徐朵发文回应质疑

无处不风景love 浏览 3481

智己LS8官图发布:5米车长增程动力 理想L8怕了吗

大李说车 浏览 3404

未来四川舰、福建舰如何打配合 专家解读

环球网资讯 浏览 4207

央视披露解放军实战演练"斩首"行动画面

北京日报 浏览 3207

再创历史新高!2025年粮食产量达14298亿斤

央视财经 浏览 3460

10月25日车圈早报:赵长江发文离开比亚迪

车市红点 浏览 4539

世体:巴萨已获得1C许可证,主席大选日将开放诺坎普北看台

懂球帝 浏览 2685

飞天茅台4年下跌近50%,白酒寒冬结束的信号是什么?

郭施亮 浏览 4345

汕头火灾致12人遇难 幸存家属讲述逃生细节

红星新闻 浏览 21017

2026款大众迈腾上市 售价17.99-24.69万元

车质网 浏览 3289

002931,董事会提前换届! “人形机器人第一股”实控人进驻

证券时报e公司 浏览 693

特朗普:泰柬同意全面停火

国际在线 浏览 3662

贾永婕说小S越来越像大S,两人早已融为一体,过度消费大S惹争议

萌神木木 浏览 4420

白宫黑手伸进委总统卧室!一场践踏国际规则的“黑夜绑架”

国是直通车 浏览 3667

海港0-2町田,傅欢乌龙,海港全场1射正,相马勇纪破门

懂球帝 浏览 4115

委内瑞拉防长:特朗普封锁加勒比海域是“妄想”

每日经济新闻 浏览 3822

伊姐十一热推:电视剧《入青云》;电视剧《宴遇永安》......

伊周潮流 浏览 3770

美国人羡慕哭了!花一辆美国新车的钱 在中国能买五辆电车

快科技 浏览 1479

世体:阿尔马达引发多家俱乐部争抢,本菲卡已对他表达兴趣

懂球帝 浏览 3619

E句话|“我只眼神给出去”?黑白颠周媛账号被封

仙女事件簿 浏览 3303

李小龙妻子琳达晚年透露:丈夫其实很怕一种对手

南书房 浏览 4298
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1