关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4655人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

500亿!刚刚,梁文锋再一次震惊世界!

功夫财经 浏览 114

蓝色系下装看着清爽不闷,裤子、裙子都凉快,随便穿都不出错

静儿时尚达人 浏览 550

暴涨的白银有色,白银竟是地名!股民懵逼

财通社 浏览 3449

抢占本土聊天机器人市场,印度AI企业Sarvam推出Indus应用

IT之家 浏览 2879

澎湃OS优化进展公布,小米15手机相机体验等问题已修复

IT之家 浏览 3855

北约秘书长吕特:理解特朗普对许多北约盟友感到失望

参考消息 浏览 60087

"失联风波"过后 画家范曾首度公开露面:近期喜得独子

澎湃新闻 浏览 20452

《小城大事》大结局:李秋萍和杜涛的缘,在月海续写上且圆满

肆季娱乐 浏览 3601

从“提效”到“稳进”:2026直播电商进入精耕细作时代

惊蛰研究所 浏览 3457

王楚钦横扫帕尔采访!太久没打直呼生疏,亲承中国是最好办赛环境

篮球资讯达人 浏览 3325

冬季穿衣不用太复杂!内搭选高领、外套选简约款,大方又耐看

静儿时尚达人 浏览 2942

黄金白银暴跌,让媒体都想不出标题了

深蓝财经 浏览 3292

徐尚:徐彬能去欧洲我们肯定大力支持,李昊杨希去留再议

懂球帝 浏览 3490

A股公司老总被抓宣布离婚 80后前妻分9.24亿紧急接班

每日经济新闻 浏览 9544

唐嫣罗晋恩爱人设崩塌了!夫妻常年两地分居,全靠女方一家带娃

萌神木木 浏览 4721

车企研发:小米车门锁在某些看不见的地方省去了成本

第一财经 浏览 8840

或将于2027年发布 宝马iX3 M测试谍照曝光

车质网 浏览 3683

37岁的赵丽颖“消失”5个月后一反常态?

小椰的奶奶 浏览 4581

vivo S50系列手机侧边外观图公布,全系航空铝金属中框

IT之家 浏览 4187

售37.99万起 岚图泰山上市首月完成5000台交付

网易汽车 浏览 3700

微软CEO纳德拉:能源成本将决定哪些国家能在人工智能竞赛中胜出

IT之家 浏览 3446
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1