关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者4407人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

辽粤会师全运会半决赛!杨鸣:广东占天时地利人和

体坛周报 浏览 4413

回归哈弗H序列 实拍哈弗H6L

太平洋汽车 浏览 4506

初夏穿衣千万别发愁,看看这些日常穿搭,减龄舒适又显身材

静儿时尚达人 浏览 1214

独家对话旺仔小乔“榜一大哥”:一场直播曾打赏7万元,让自己别为她难过而改名“别难过”

红星新闻 浏览 4965

利物浦已遭遇英超四连败,上次顶级联赛五连败还是1953年

懂球帝 浏览 4433

《寒战1994》票房大爆,四位演员被赞,演技才是真正的颜值滤镜

娱乐圈笔娱君 浏览 1309

银行长期限存款“退场”背后

北京商报 浏览 4328

深夜,全线崩跌!发生了什么?

券商中国 浏览 4018

新赛季首周精彩纷呈!波兰终夺联合杯,萨巴梅总同享22!

网球之家 浏览 3608

郑恺&李沁,向你发出“网”友申请

时尚COSMO 浏览 1257

消失5个月后泰禾黄其森“归来”

地产深度报道 浏览 3587

伊朗:国内各政治力量立场一致 敌对势力不要误判

国际在线 浏览 1501

双11的「阳谋」,李佳琦都没躲过

豹变 浏览 4198

俄称控制一城镇 乌称击退多次进攻

环球网资讯 浏览 3468

比阔腿裤还时髦?今年夏天一定要有“这条裤子”,减龄又松弛

LinkFashion 浏览 1484

习惯一身黑的穿搭?其实换一种穿衣思路更高级,养眼又有活力

静儿时尚达人 浏览 1308

通过民间借贷获取大额回报,利用职务便利低买高卖房产......农行冯建龙被开除党籍

财通社 浏览 3380

奥迪A5L Sportback限定版上市 售33.49万元

车质网 浏览 3122

美最新两种无人战斗机完成首飞 空战新时代正加速到来

澎湃新闻 浏览 8510

记者:佛罗伦萨球员不满基恩500万高薪,后者态度也存在问题

懂球帝 浏览 4062

NBA战报:活塞122-117步行者取NBA12连胜,西亚卡姆24分

懂球帝 浏览 4104
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1