关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技4653人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

你看不起的零跑,终于打响第一枪!

象视汽车 浏览 4432

河北农村老人挨冻,取暖费为何贵上万

深蓝财经 浏览 2957

苹果的大屏可折叠 iPad 可能因开发问题而延期到 2029 年

威锋网 浏览 4475

最新“施工图”预示,真正的风口藏在这5个“强国”中

BT财经 浏览 2673

谷歌翻译加入文本翻译AI模型,有快速与进阶模式可选

IT之家 浏览 4502

伊朗外长:伊朗做好了应对一切可能的准备

环球网资讯 浏览 3424

迪丽热巴:从流量到实力,她还能走多远?

伊周潮流 浏览 3941

男子夜钓遭枪击 家属:4人当场逃跑 伤者走回家后倒地

封面新闻 浏览 10083

美联储主席鲍威尔回应遭刑事调查:将继续履行职责

国际金融报 浏览 3529

睡衣穿对了,连躺平都带着高级感

时尚COSMO 浏览 2888

《逐玉》注水风波升级!315评论区沦陷

萌神木木 浏览 2715

春天别总傻傻穿一身黑,看看这些日常穿搭,高级舒适又优雅

静儿时尚达人 浏览 1295

特朗普"朋友"1.3亿美元捐款到账 还不够美军发1天工资

红星新闻 浏览 8989

48岁袁泉素颜逛商场被拍,口罩遮半脸仍一眼认出

小徐讲八卦 浏览 3789

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro 浏览 1711

将于东京车展首发 全新丰田卡罗拉官图曝光

车质网 浏览 4563

卡塔尔首相与法国总统举行会谈 重点讨论加沙局势

上观新闻 浏览 4578

贡多齐:尤文目前的状态并不理想,我们有足够的实力击败他们

懂球帝 浏览 4488

E句话| 路行退出《再见爱人》?

仙女事件簿 浏览 4192

奔驰A级车延至2028年,新车型同步推进

MOTO 浏览 5283

孙艺珍最新生图撞脸老公玄彬,43岁显出老态,剪短发装嫩太违和

萌神木木 浏览 4659
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1