关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro1100人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

不管人情世故那一套!东风日产法务贴脸开大,直接点了友商的名

小李车评李建红 浏览 72

抖音团购:巨大流量“困扰”线下商家

电厂 浏览 19409

1月全球新能源:插混爆发,问界M7差点全球前三

汽车公社 浏览 12323

因场地积水严重,欧协联里耶卡vs布拉格斯巴达比赛被迫延期

懂球帝 浏览 914

五季以来,第一个退出《再见爱人》的嘉宾出现了

仙女事件簿 浏览 823

2024开运怎么穿?6个颜色任选一个迎好运!

日系志Yumi 浏览 13265

万斯一句话让印度裔美国人炸锅 遭铺天盖地批评后回应

鲁中晨报 浏览 6189

问界某车主在4s店门口拉白色横幅:等车100天,开车60天变老款!

火山诗话 浏览 11095

智己LS9开启预售,33.69万元起颠覆大六座市场

林林Go 浏览 667

约基奇穆雷同30+三双历史首次:掘金夺冠概率升至82% 斯波怎调整

颜小白的篮球梦 浏览 16414

全明星级别+首轮选秀权?公牛对拉文要价现在已大幅降低

懂球帝 浏览 11101

瓦格纳集团车队调转方向返回营地 最新情况!

环球网资讯 浏览 15388

对中国经济,美国心态为何异常复杂

环球时报国际 浏览 12756

特斯拉成简配“鲶鱼”,中国品牌如何应对?

百姓评车 浏览 725

理想L6预告图曝光!定位5座SUV,售价有望下探至25万元

汽车网评 浏览 12702

队报:加尔蒂未来的结果可能在几日内正式公布

直播吧 浏览 16228

NBA战报:勇士主场105-141惨败鹈鹕,库里仅15分

懂球帝 浏览 12885

​中年女人要想穿出女神范,选择时尚单品时,注重展现气质美

静儿时尚达人 浏览 11321

全球首个太空AI诞生,H100在轨炼出!马斯克爆赞

新智元 浏览 92

机长与乘务长互殴事件最新进展,涉事两人被终身停飞

趣看热点 浏览 690792

纽卡官宣米兰王牌加盟!总价7千万签5年 薪水翻3倍

我爱英超 浏览 15872
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1