关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4657人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普称美将管理委直至安全过渡

新华社 浏览 2905

接到立案通知后,股民以为完了,5个月后一算账,7000人账面翻倍

壹只灰鸽子 浏览 4093

半两财经|首款eSIM手机发售 国内运营商加速“无卡化”

北青网-北京青年报 浏览 4486

五粮液第三季度营收、净利润同比分别下降52.66%、65.62%

红星资本局 浏览 4544

“批评是工作的一部分”:前里尔球员卡巴耶谈其在巴黎圣日耳曼的处境

绿茵情报局 浏览 1949

她一夜爆火,成了年度互联网嘴替

Yuki女人故事 浏览 758

专家:演习5个区域形成"三面围岛"之势 传递明确信号

环球时报 浏览 25092

3万月薪急招董秘!安徽五粮液大商要港股IPO?95后海归接棒,一天卖酒30万瓶

时代周报 浏览 3517

张维伊把婚房订成三人间,董璇直接傻了眼

烟云过眼 浏览 4910

A股继续走牛有底气

IPO日报 浏览 3514

亏损超2亿?《用武之地》票房崩塌,我感慨:这块金字招牌算砸了

靠谱电影君 浏览 3683

WCBA全明星正赛投票结果&首发球员名单出炉,杨力维当选票王

懂球帝 浏览 2613

《飞驰人生3》,那个装逼对抗资本的少年,终成背后的资本

诗与星空 浏览 2934

辽京:当一个妈妈开始写作

时尚COSMO 浏览 3905

何超莲评论区沦陷!跟窦骁结婚后态度变化大,遭讨伐骗婚功利心重

萌神木木 浏览 4548

中俄关系为何不结盟?结伴不结盟好处更多

浏览 8332

阿斯:西班牙希望亚马尔与皇马之间关系能正常,别影响世界杯

懂球帝 浏览 3504

武夷山小旅行:走!去山野间,煮一壶茶

黎贝卡的异想世界 浏览 590

曝保时捷正在重新设计718 EV跑车,“反向”适配燃油动力

IT之家 浏览 3953

从“AI猪食”到“大模型旅鼠”,2025年度热词背后的新商机

吴晓波频道 浏览 3944

U23亚洲杯8强出炉 1/4决赛对阵:国足第2出线战上届亚军 避开日韩

我爱英超 浏览 3611
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1