关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者4366人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

制裁重启 伊朗军方:已准备好应对任何威胁

极目新闻 浏览 5115

张继科与女友张蕊被拍 被传隐婚生子?

达达哥 浏览 4010

宇树们的生死时速

阿尔法工场 浏览 105

宁波84-79逆转江苏取4连胜,杰克逊29+6,庞峥麟25分5板7助

懂球帝 浏览 3611

坎宁安:骑士想要偷走一场胜利,我们没让他们得逞

懂球帝 浏览 1383

追觅俞浩内部放狠话:造车PK理想,手机跟华为小米三分天下;TP-Link芯片事业部全员解散;马斯克用亲信管理AI公司引发冲突丨雷峰早报

雷峰网 浏览 5148

王涵 : 从资本市场视角看四中全会公报——提振信心,后市可期

首席经济学家论坛 浏览 4659

记者:NBA正考虑取消伦纳德与快船的合同使其成为自由球员

懂球帝 浏览 2896

格林伍德2025年联赛打进22球法甲最多,为2018年后马赛首人

懂球帝 浏览 3889

宏和科技一季报利润大增354%!AI驱动电子布狂飙背后,300倍PE能否持续?

时代周报 浏览 1771

詹姆斯谈保罗退役:希望他能好好享受最后的赛季,他已无遗憾

懂球帝 浏览 4071

韩国人终于把自己的“国运”给彻底玩没了

浏览 27865

票房从57.7亿跌到1.28亿,我感慨:这块金字招牌算是砸了

靠谱电影君 浏览 4046

麒麟信安与智慧眼达成战略合作 共推AI+操作系统融合应用

财闻 浏览 4732

每3辆出口摩托就有1辆“重庆造”:“摩都”走向世界了!丨这座城市有点东西

国是直通车 浏览 5127

1-8月酒饮料茶行业利润增速19.9%,白酒行业迎来困境反转了吗?

郭施亮 浏览 5126

进博面对面|爱茉莉太平洋许达仁:深耕中国,本土创新是制胜关键

中国商报 浏览 4386

Uber无人驾驶出租车Robotaxi在CES 2026首秀

IT之家 浏览 3596

买 CPU 送 PS5?实测英特尔第三代 Ultra ,核显强得不像话

爱范儿 浏览 3283

胡塞武装发出警告 以色列承认索马里兰搅动红海棋局

上观新闻 浏览 3745

大S去世细节曝光 泡温泉致病情恶化

素素娱乐 浏览 3307
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1