关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro1710人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美联储降息25基点 仍预计明年降息一次

华尔街见闻官方 浏览 3886

中佛罗里达大学破解仿真优化难题:让计算机在噪声中找到最优解

科技行者 浏览 3571

VNU University of Science:精准调控技术提升机器人执行能力

科技行者 浏览 3392

药品存在被污染可能,印度最大药企一仿制药被暂停进口,用于治疗阿尔茨海默

红星资本局 浏览 3405

S妈现身大S雕像揭幕仪式,S家人穿黑衣现身,纪念碑刻着“S”字样

素素娱乐 浏览 3455

吉利银河星耀6全球上市 限时置换价6.88万起

网易汽车 浏览 4357

向太怒骂范冰冰经纪人,众星力捧向佐的《封神》,她却耍大牌

不八卦会死星人 浏览 4570

小马、文远回港上市 但自动驾驶还没赢家

虎嗅APP 浏览 4417

护肤品牌菲洛嘉宣布关闭天猫旗舰店,公司经营策略调整,化妆品市场正快速变化

红星资本局 浏览 3582

短剧版《小巷人家》,为什么难成下一部《父母爱情》?

仙女事件簿 浏览 3878

威少:梦想打橄榄球的我从未想过能有如今成就,希望我能激励到其他人

懂球帝 浏览 3728

神预测,热乎乎的最新诺奖得主电影神作来了

幕味儿 浏览 4624

新款红旗HS5曝光,内外设计大改,或推插混车型,半年内上市!

车讯简报 浏览 3436

全新前脸/三种座椅布局可选 第三代豪越L内外饰曝光

网易汽车 浏览 4461

埃迪-豪7次面对伯恩茅斯场均积分0.7分,仅比对阵曼城、红军更多

直播吧 浏览 5294

尤文啃下硬骨头 斯帕莱蒂拿到“最重要的胜利”

体坛周报 浏览 3891

今年冬天流行的“露袜”穿法,时髦又减龄!

LinkFashion 浏览 3831

温州85后接棒,百亿企业大“换血”

中国企业家杂志 浏览 4336

聂卫平告别仪式:兰莉娅变化大

古希腊掌管松饼的神 浏览 3502

港媒:香港武打明星梁小龙离世,享年77岁

界面新闻 浏览 3483

什么?!你告诉我佘诗曼已经50岁了

时尚COSMO 浏览 4168
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1