关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技4652人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

TA:尤文逐渐展现出斯帕莱蒂所期望的风格,形成了独特的打法

懂球帝 浏览 3387

文班亚马:我真的不在乎个人荣誉,若拿到DPOY说明我帮到球队了

懂球帝 浏览 4441

快告诉家里老人!手机这个功能不用时要关闭→

大象新闻 浏览 3664

【官宣】罗马尼亚国脚、中场球员斯坦丘加盟大连英博

体坛周报 浏览 3312

阿莫林:在曼联我学会了承受压力,这让我对未来更有信心

懂球帝 浏览 4349

日本平台征集"批评中国"视频每条180元 日本网民炸锅

极目新闻 浏览 14910

冬天“半身裙”最丑的3种穿法!

Yuki女人故事 浏览 4102

猛龙109-97逆转老鹰,英格拉姆20分,巴雷特19+5+4

懂球帝 浏览 4195

美团紧急发文

大象新闻 浏览 4411

4岁女童车内睡觉失踪超24小时 镇长:确实太蹊跷了

上游新闻 浏览 10338

高通CEO安蒙播客访谈:移动DNA也能做好数据中心

科技行者 浏览 3543

亚历山大20分,火箭末节哑火!雷霆111-91大胜20分迎5连胜

全景体育V 浏览 3554

冲着唐嫣去看《爱情没有神话》,却被演反派的冯绍峰吸引了

温柔娱公子 浏览 4643

桑乔替补登场又被换下,埃梅里:这不是惩罚,而是战术决定

懂球帝 浏览 4398

百万粉丝博主“稚晖君”在账号发介绍公司机器人视频,引发监管问询!公司紧急回应

红星资本局 浏览 3527

每体:老佛爷想立即解雇阿隆索,但身边人士说服他不让其下课

懂球帝 浏览 3861

牛弹琴:美国人大吃一惊 特朗普牵涉到了战争罪行

现代快报 浏览 17210

全运男篮决赛对阵:广东vs浙江争冠 周琦率四川vs辽宁争季军

醉卧浮生 浏览 4409

五十岁女性别总穿卫衣!这3种上衣显贵又洋气,轻松穿出无龄感

静儿时尚达人 浏览 4385

获“全优大满贯”腾势N9创中保研测试历史最高评级

汽车维基 浏览 3401

建设周期长且成本高昂,欧盟多国重拾核能挑战巨大

环球网资讯 浏览 2503
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1