关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro4860人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

梅西创造完成美职联50球最快纪录，此前由约瑟夫和伊布保持

懂球帝浏览 4505

小鹏机器人首秀摔了此前因步态太拟真被疑＂真人套壳＂

澎湃新闻浏览 9476

曼奇尼自曝若阿莫林下课其可执教曼联！失业一年，在法国遇到拉爵

罗米的曼联博客浏览 4588

精彩推荐

18G冲浪的瑞幸，成了多少品牌网速的“绊脚石”？

财经无忌浏览 3488

TA：曼联今夏额外借贷1.05亿镑用于引援，目前总债务6.37亿镑

直播吧浏览 5279

原来最适合亚洲人的单品之一，是它

黎贝卡的异想世界浏览 3986

＂胖兵照＂浏览量超过3000万数据显示美军肥胖率超20%

红星新闻浏览 9649

恰20：今天我们运气不错，我们要努力达到我们应得的位置

懂球帝浏览 4304

告别羽毛球自由，中产迷上匹克球

虎嗅APP 浏览 4564

2025国产公交车1-11月出口：宇通6512辆，比亚迪第2，厦门金龙第6

小鹏财经浏览 3532

全红婵换新发型！在老家摘草莓好惬意

无处不风景love 浏览 3589

今日热点：文淇工作室已取证；碧梨又破纪录了……

伊周潮流浏览 3576

光伏“卖铲人”去年净利腰斩

网易财经浏览 2942

“吹哨人”，最高奖励100万！

中国基金报浏览 3657

笑星冯淬帆离世

萌神木木浏览 3632

舍伍德：大家都想看枪手掉链子，但我真希望他们赢得英超冠军

懂球帝浏览 3907

媒体：美＂自由计划＂1天即停信号变得格外微妙

央视新闻客户端浏览 14783

追觅汽车三款SUV车型外观亮相：星际T08、T08L和D09

IT之家浏览 3247

朝鲜晚上举行盛大阅兵式现场画面披露

央视新闻客户端浏览 3532

万科三季度净利润亏损160.69亿，深铁今年第十次“输血”

财视传播浏览 4427

当人类把经验与想象力交给机器人，具身智能如何承载新内容？

刺猬公社浏览 3437

中国小伙赴越南＂赚快钱＂失联疑遭拐卖刺伤司机后被捕

封面新闻浏览 16192

男子将热水器钢管通电致妻子触电身亡女儿向法院求情

红星新闻浏览 11443

U17世界杯吉祥物灵感来自前国足主帅米卢，米卢：感谢这个创意

懂球帝浏览 4420

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1