爆点资讯

当下主流的视觉语言模型（Vision-Language Models, VLM），通常都采用这样一种设计思路：将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌，但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高，不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO，试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题：如果不依赖预训练的视觉编码器，能否构建出与顶级模块化 VLM 相媲美的原生统一架构？

图丨相关论文（来源：arXiv）

在传统方法中，视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型，这些编码器虽然在视觉理解上表现出色，但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是，视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系，后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂，还需要大量的对齐数据来弥合两个模态之间的鸿沟。

高效训练新标杆！华人开源原生VLM-NEO，以少数据追平顶级模型

中国球员连续...

记者问美防长...

如何成为华为...

碰瓷营销还是...

媒体：菲载3...

每天干十几个...

汪峰演唱会遭遇“掉链子”

直播|| 降温天的居家幸福感，是它们给的

文化符号当“弹药” 美伊将信息战带入新阶段

死磕影像十一年：vivo探索另一种可能

太阳报：曼联考虑在非洲杯期间让小将谢伊-莱西进入一线队

TIGIT的转机还会出现吗？

宝马将采取油电并存策略，董事会成员高乐称“内燃机永不会消失”

法兰克福左后卫布朗：我们依靠整体防守萨拉赫，而不是我单防

美航母调往中东特朗普：拭目以待

中俄关系为何不结盟？结伴不结盟好处更多

互黑式宣发：赵丽颖、黄晓明互动

美航母大火持续超30小时后被扑灭 600多人无床可睡

包贝尔老婆包文婧自曝，给儿子穿二手旧衣服

安徽小伙辍学卖馒头，今年已赚13亿

拒绝被ARM偷家！苏姿丰祭出杀手锏：2nm Venice处理器剑指1200亿AI蓝海

智元机器人公布面向机器人的人工智能策略训练专利

又有一批A股龙头进军商业航天了！

英国教授来中国考察被震撼：堪称人类史上最伟大功绩

荣耀“既Pro又Air”新机设计线稿首曝

纯纯诈骗剧，浪费了一票女神

牛弹琴：欧洲大怒多支军队兵发格陵兰抗衡美国吞并

美媒：报告称，东南亚成美国电子垃圾倾倒场

Jacob Elordi 最新电影造型，好像鬼！

特朗普高喊和平，以色列悄悄磨刀：巴勒斯坦的血腥噩梦结束了？