关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro4857人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

TA:世界杯赛场是姆巴佩的福地,他将成为世界杯史上最佳球员

懂球帝 浏览 105

将于四季度上市 东风日产新款天籁亮相

车质网 浏览 4144

官方:亚美尼亚和格鲁吉亚将联合举办2029年U20世界杯

懂球帝 浏览 1537

“弯刀裤”今年秋冬爆火,怎么搭都时髦!

LinkFashion 浏览 3734

王楚钦抵达海口参加亚洲杯,不愧是穿搭博主

可乐谈情感 浏览 3439

央视披露:"哪吒"造车3年亏183亿 多地国资投资难追回

新京报政事儿 浏览 33962

大众帕萨特裸车价11.85万起!网友:这还考虑啥?

汽车网评 浏览 3841

赵少康称"很多人想退党" 黄建豪:应给郑丽文时间调整

海峡导报社 浏览 9254

大众2026年新车规划曝光,纯电/插混/增程都有,你最期待哪款?

爱买车 浏览 3342

贾国龙道歉后100天,西贝能否唤回消费者?

懂财帝 浏览 3595

维权女车主“赢”特斯拉

电动知家 浏览 5320

特朗普暗示谈判如有进展 或改变打击伊朗决定

上观新闻 浏览 1926

绿色+棕色、蓝色+棕色,这3组配色高级又好看!

LinkFashion 浏览 3538

钠电池将迎规模化量产 多家上市公司抢先布局

证券时报 浏览 576

一个入局晚了的数据标注创业者,3个月亏了20万

刺猬公社 浏览 3011

王家卫持续被扒

萌神木木 浏览 4445

波士顿动力人形机器人亮相CES 拟2028年进厂造车

网易汽车 浏览 3656

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者 浏览 4392

伊姐十一热推:电影《江南:在爱开始的地方等你》;电视剧《围猎》......

伊周潮流 浏览 3848

谷歌推迟安卓设备上谷歌Assistant向Gemini的迁移计划

IT之家 浏览 3885

俄称91架乌无人机袭击普京官邸 乌方驳斥:“纯属捏造”

环球网资讯 浏览 3656
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1