关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro1709人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

世上没有免费的豆包

光子星球 浏览 1298

高端海鲜“老炮儿”,开始扎堆做小火锅

餐饮老板内参 浏览 2886

中国女足近11次对澳大利亚未尝胜绩,但在亚洲杯还没输过对方

懂球帝 浏览 2536

狠!他要同时对战宁德时代与比亚迪

华商韬略 浏览 3516

多基金公司接到股债恒定ETF系统改造要求 新产品最快或于11月上报

财联社 浏览 4976

拯救“衰老”,这么护肤才有效率!

时尚COSMO 浏览 2924

医生+教师“王炸”组合IPO!海圣医疗为千家医院供货年入3亿

野马财经 浏览 4398

锋寻生物完成近6000万元种子轮及天使轮融资,加速体内CAR-T疗法临床转化 | 融资首发

钛媒体APP 浏览 4311

预计一季度上市 尚界高颜值轿跑Z7预告图发布

网易汽车 浏览 3558

何时结束战事 美以不同调:一个急于退场一个还想硬刚

环球网资讯 浏览 2500

一颗卫星“掉链”,为何让全球航天界紧张?

上游新闻 浏览 3807

特拉维夫多处建筑遭袭 相关区域实施严格管制

环球网资讯 浏览 2798

特朗普对中国加征100%关税意欲何为 专家:捞谈判筹码

红星新闻 浏览 8034

博主成功拆解苹果 iPhone Air,刮去背板涂层打造“透明版”机型

IT之家 浏览 4565

泽连斯基:若不能及时获得资金 将大幅削减无人机生产

每日经济新闻 浏览 14447

iX3的“弟弟”来了,BMW iX1测试伪装曝光,2027年登场

ams车评网 浏览 4742

久尔杰维奇谈击败沙特U21:本想争取更多进球;赢球最重要

懂球帝 浏览 570

内娱小白花,公然模仿某巨星却被全网夸爆?

Yuki女人故事 浏览 2485

特瓦斯:大多数联赛都在苦苦挣扎,我好奇为何人们这么想阻止海外赛

懂球帝 浏览 4481

缅甸政府军突袭KK园区 查获30套星链设备

红星新闻 浏览 9770

“这件大衣”今年冬天又火了,怎么搭都高级!

LinkFashion 浏览 3931
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1