关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技838人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

【中超】恩里克2球迪力穆拉提世界波 梅州1比4玉昆

体坛周报 浏览 836

卫报:曼苏尔和芬威集团的第三大股东曾成立一家联合投资公司

懂球帝 浏览 738

美媒披露:国务院要求各使馆保持缄默

环球网资讯 浏览 15437

牛弹琴:美菲又在南海挑衅 中国军舰一句话回应

大象新闻 浏览 73959

聚焦2025中国国际数字经济博览会·记者观察|释放数据价值,“乘”出产业转型新动能

纵览新闻 浏览 965

马斯克与迪士尼CEO发生争执后,特斯拉车载Disney+应用被隐藏

IT之家 浏览 12527

拉亚离队前先续约?小蜜蜂总监解释:更快完成转会,同时给我们留余地

直播吧 浏览 14434

兰博基尼 CEO 温科尔曼称至少十年内不会放弃内燃机

IT之家 浏览 898

连马斯克都盯上了这块“肥肉”

汽车公社 浏览 601

建立互信和实现共赢,解读国有车企高层为何密集拜会任正非?

百姓评车 浏览 1554

鸿蒙智行10月交付新车68216台 创单月交付量新高

网易汽车 浏览 745

岁月不败美人!贾静雯、杨谨华、林心如,她们的40岁比20岁更美

LinkFashion 浏览 797

凯斯因病退赛,小米辣放弃泼天富贵,压力娃登场即可稳拿百万巨奖

网球之家 浏览 714

朱珠一家旅游!女儿为妈妈补妆 对奶嘴有瘾惹争议

叶公子 浏览 14284

2-2!英超疯狂之战:1-2落后 10人曼联压哨绝平 0分变1分

叶青足球世界 浏览 687

美股开盘三大指数涨跌不一 英伟达跌近2%

证券时报 浏览 595

谢林汉姆:雅克松经验丰富,切尔西不应该放他离开

懂球帝 浏览 1008

乌方:可能会在两个月内接收首批F-16战机

环球网 浏览 15602

阿里影业MSCI ESG评级跃升至A级 为中国电影娱乐行业最高评级

北京商报 浏览 11084

小米汽车首款SUV曝光 800V平台 似保时捷Macan EV

车矩阵更懂车 浏览 13165

嫦娥五号顺利完成第一次轨道修正,正按照计划继续方向月球

趣看热点 浏览 25641
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1