关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者4368人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

阿劳霍:我非常喜欢场上的维尼修斯,场外的事情我不在意

懂球帝 浏览 4471

Perplexity Comet浏览器iOS版发布,AI驱动超厉害!

IT之家 浏览 2637

轮圈选择丰富/金标开放选装 新一代SU7更多细节

网易汽车 浏览 3339

特朗普开价10亿美元招募 被指试图用新机构替代联合国

极目新闻 浏览 7982

新能源大三排SUV的猎杀时刻开始了

汽车公社 浏览 3565

“芭蕾运动鞋”越来越流行,全世界的时髦女人都在穿

LinkFashion 浏览 1728

云迹科技通过IPO备案:营收2.5亿估值41亿 腾讯阿里沸点是股东

雷递 浏览 5062

总投资52亿元:国内首个海上回收复用火箭基地顺利开工

IT之家 浏览 3636

懂穿搭的女人,把“卫衣”收进衣柜,这3件单品才是时髦密码

静儿时尚达人 浏览 4611

信用卡分期年终鏖战 银行让利潮下的“生存密码”

北京商报 浏览 4069

加沙地带民防部门:以军袭击一车辆 同一家庭9人死亡

央视新闻客户端 浏览 4630

第100台设备落地!胜科纳米与赛默飞共铸二十年“双向成就”

爱集微 浏览 4391

123-120!里夫斯44+11,詹姆斯连续上双纪录终结,湖人绝杀猛龙

全景体育V 浏览 3926

买黄金,要大变了!

深蓝财经 浏览 4315

2025年度榜单|| 真金白银票选出来的“真爱”,今天破价1.6折!

黎贝卡的异想世界 浏览 3434

这几件衣服太火了,谁穿谁好看

LinkFashion 浏览 4156

18亿大并购,光模块独角兽,打响量产第一枪!

飞鲸投研 浏览 1907

《长安二十四计》惊天逆转:虎贲竟是好人?

宇林网络 浏览 3998

赵樱子回应与张康乐绯闻:我提过人一个名字吗?

韩小娱 浏览 4391

巴西前国脚埃默松-莱昂:内马尔无法成为任何人的榜样

懂球帝 浏览 4587

这些才是最适合普通人的造型!不用穿大牌、不老套,真实自然

静儿时尚达人 浏览 1701
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1