关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技4654人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

死磕影像十一年:vivo探索另一种可能

远川研究所 浏览 4540

太阳报:曼联考虑在非洲杯期间让小将谢伊-莱西进入一线队

懂球帝 浏览 4459

TIGIT的转机还会出现吗?

钛媒体APP 浏览 3934

宝马将采取油电并存策略,董事会成员高乐称“内燃机永不会消失”

IT之家 浏览 5409

法兰克福左后卫布朗:我们依靠整体防守萨拉赫,而不是我单防

懂球帝 浏览 4541

美航母调往中东 特朗普:拭目以待

扬子晚报 浏览 3547

中俄关系为何不结盟?结伴不结盟好处更多

浏览 8328

互黑式宣发:赵丽颖、黄晓明互动

孟一宜 浏览 3621

美航母大火持续超30小时后被扑灭 600多人无床可睡

环球网资讯 浏览 125901

包贝尔老婆包文婧自曝,给儿子穿二手旧衣服

韩小娱 浏览 2103

安徽小伙辍学卖馒头,今年已赚13亿

创业家 浏览 3697

拒绝被ARM偷家!苏姿丰祭出杀手锏:2nm Venice处理器剑指1200亿AI蓝海

快科技 浏览 1331

智元机器人公布面向机器人的人工智能策略训练专利

财闻 浏览 2626

又有一批A股龙头进军商业航天了!

君临财富 浏览 3564

英国教授来中国考察被震撼:堪称人类史上最伟大功绩

环球时报国际 浏览 70617

荣耀“既Pro又Air”新机设计线稿首曝

IT之家 浏览 3584

纯纯诈骗剧,浪费了一票女神

独立鱼 浏览 4390

牛弹琴:欧洲大怒 多支军队兵发格陵兰抗衡美国吞并

现代快报 浏览 3546

美媒:报告称,东南亚成美国电子垃圾倾倒场

环球网资讯 浏览 4493

Jacob Elordi 最新电影造型,好像鬼!

下水道男孩 浏览 4458

特朗普高喊和平,以色列悄悄磨刀:巴勒斯坦的血腥噩梦结束了?

宋鸿兵 浏览 4525
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1