关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元969人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

谭咏麟与陈百祥现身瑞士,72岁高龄挑战高山滑雪

扒虾侃娱 浏览 19694

汽车之家通过港交所上市聆讯 预计募资超10亿美元

财联社 浏览 26326

媒体:美军进驻芬兰基地 俄北方舰队受严重威胁

环球网资讯 浏览 13087

理发店主阻拦城管撕广告 冲突中被1名胖城管咬伤手指

大风新闻 浏览 1865

新风格 全新宝马M3纯电版新测试谍照曝光

车质网 浏览 795

啃下数百万骑手社保的“硬骨头”,美团花了五年

雪豹财经社 浏览 734

2025 年最强太阳耀斑爆发,引发非洲和欧洲多地无线电中断

IT之家 浏览 605

冬天避开花花绿绿!试试低饱和度的搭配 简约高级耐看

静儿时尚达人 浏览 13413

固态电池量产提速!超千万新能源车主,竟成被割的 “老韭菜”?

数字财经智库 浏览 1634

高市早苗再有新动作日本准备拥有核武 中俄要早做准备

头条爆料007 浏览 42327

OpenAI ChatGPT自动切换严格模型处理情感话题,用户却不知情

IT之家 浏览 1516

第138届广交会10月15日开幕,约3600家企业首亮相,首设智慧医疗专区

红星资本局 浏览 1018

广东大胜西班牙球队1喜3忧!二老老寒腿,张昊无球权,张皓嘉辣眼

篮球资讯达人 浏览 966

女人年纪大了,不管你差不差钱,都要注重自己的形象打扮自己

静儿时尚达人 浏览 12612

​柳岩香港随拍照片曝光 穿白色印花裙赏夜景

蜜蜂会穿搭 浏览 14978

理想汽车2024春季发布会3月1日举行

IT之家 浏览 12369

月销破2万辆 极狐年销翻番在望 摸到准一线门槛

乐逗汽车 浏览 711

《阿凡达3》票房预估214亿,195分钟一刀不剪,力争影史第一

娱乐圈笔娱君 浏览 208

国乒梦之队!大满贯首日6战全胜,王曼昱惊险,樊振东陈梦横扫

天涯沦落人 浏览 11750

给渔船装Wi-Fi,85后“海归”干出一个IPO!

野马财经 浏览 10771

我国新能源汽车产量达到2000万辆

工信微报 浏览 15526
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1