关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro4860人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

18G冲浪的瑞幸,成了多少品牌网速的“绊脚石”?

财经无忌 浏览 3488

TA:曼联今夏额外借贷1.05亿镑用于引援,目前总债务6.37亿镑

直播吧 浏览 5279

原来最适合亚洲人的单品之一,是它

黎贝卡的异想世界 浏览 3986

"胖兵照"浏览量超过3000万 数据显示美军肥胖率超20%

红星新闻 浏览 9649

恰20:今天我们运气不错,我们要努力达到我们应得的位置

懂球帝 浏览 4304

告别羽毛球自由,中产迷上匹克球

虎嗅APP 浏览 4564

2025国产公交车1-11月出口:宇通6512辆,比亚迪第2,厦门金龙第6

小鹏财经 浏览 3532

全红婵换新发型!在老家摘草莓好惬意

无处不风景love 浏览 3589

今日热点:文淇工作室已取证;碧梨又破纪录了……

伊周潮流 浏览 3576

光伏“卖铲人”去年净利腰斩

网易财经 浏览 2942

“吹哨人”,最高奖励100万!

中国基金报 浏览 3657

笑星冯淬帆离世

萌神木木 浏览 3632

舍伍德:大家都想看枪手掉链子,但我真希望他们赢得英超冠军

懂球帝 浏览 3907

媒体:美"自由计划"1天即停 信号变得格外微妙

央视新闻客户端 浏览 14783

追觅汽车三款SUV车型外观亮相:星际T08、T08L和D09

IT之家 浏览 3247

朝鲜晚上举行盛大阅兵式 现场画面披露

央视新闻客户端 浏览 3532

万科三季度净利润亏损160.69亿,深铁今年第十次“输血”

财视传播 浏览 4427

当人类把经验与想象力交给机器人,具身智能如何承载新内容?

刺猬公社 浏览 3437

中国小伙赴越南"赚快钱"失联 疑遭拐卖刺伤司机后被捕

封面新闻 浏览 16192

男子将热水器钢管通电致妻子触电身亡 女儿向法院求情

红星新闻 浏览 11443

U17世界杯吉祥物灵感来自前国足主帅米卢,米卢:感谢这个创意

懂球帝 浏览 4420
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1