关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4654人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

记者:NBA正考虑取消伦纳德与快船的合同使其成为自由球员

懂球帝 浏览 2896

45岁潘玮柏好福气!34岁老婆宣云温柔又独立

体育小柚 浏览 4205

i60首月销量破万 广汽埃安全系月销量达40066辆

网易汽车 浏览 3667

京东工业港股上市首日平收,收报14港元/股,为刘强东第六家上市公司

红星资本局 浏览 3856

巴基斯坦与沙特阿拉伯签军事协议 多国受震动

环球网资讯 浏览 5389

河南有强奸前科老人猥亵幼女获刑2年 受害人家属发声

极目新闻 浏览 9698

满配华为全家桶 岚图追光L将上市

网易汽车 浏览 3989

沙特,一部活色生香的《一千零一夜》

时尚COSMO 浏览 4552

詹俊:阿莫林换人值得肯定,冬窗应该留下齐尔克泽

懂球帝 浏览 3547

两人涉嫌切割小区23部电梯钢绳被拘 原物管称被迫退场

红星新闻 浏览 7747

18亿大并购,光模块独角兽,打响量产第一枪!

飞鲸投研 浏览 1907

或叫欧拉5?欧拉全新SUV要来了!

车叫兽 浏览 5330

全智贤给了韩娱4年,归来还是0人能打?

时尚COSMO 浏览 5095

全新宝马X5更新归来!起售价下探至不足60万,轴距超3米1,很亲民

小史谈车 浏览 3359

这些才是适合普通人的穿搭!多穿基础款和半身裙,简约又得体

静儿时尚达人 浏览 4273

林子祥和学生结婚,78岁开演唱会,依然一票难求

犀利辣椒 浏览 4400

一个长城战略下,哈弗重塑命名体系

帮宁工作室 浏览 4487

实测 Kimi K2.5 新版本,一键让一群 AI 来给我打工。

差评XPIN 浏览 3332

限量3000台 广汽本田新飞度焕新价6.68万

网易汽车 浏览 3554

阿维塔求变:抱紧华为、告别个性走向大众

经济观察报 浏览 4021

斯塔默告诉特朗普:对北约盟国加征关税 错了

新京报 浏览 8033
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1