关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者4406人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

新一轮货币宽松到来

泽平宏观展望 浏览 3563

日本开年密集外交搞了不少小动作 引发地区国家警惕

澎湃新闻 浏览 7889

“窝囊”35年没人理!直到遇66岁迟蓬才大火

苏子Vlog一 浏览 3663

十五五规划建议共15个部分61条 分三大板块

界面新闻 浏览 6858

商务部公告附件首次改为wps格式,金山办公的信创未来该咋看?

江瀚视野 浏览 4591

美军高官称希望韩建核潜艇对抗中国 还引了句"蜘蛛侠"

澎湃新闻 浏览 45757

维拉已放弃买断桑乔!曼联若解约多特或引进,只会免费签约不给钱

罗米的曼联博客 浏览 4371

今年秋天的卫衣,放松穿最好看!

LinkFashion 浏览 4836

华语新作闪耀,梁咏琪、高捷等众星即将亮相厦门

幕味儿 浏览 4400

美方拟禁止中国航司飞越俄罗斯领空 中国航司联名回复

澎湃新闻 浏览 8523

荷兰限制与美国情报共享:我们的情报被政治化了

澎湃新闻 浏览 9969

在特斯拉model Y和小米 YU7里二选一,怎么选?

蜗牛车志V 浏览 3519

西方14国发布联合声明 有乌克兰参与但没有美国

新民晚报 浏览 10153

特朗普宣布延长对伊朗停火

CCTV国际时讯 浏览 1718

米体:普利希奇将接受医疗检查,阿莱格里和米兰对美国队不满

懂球帝 浏览 4672

男子去理发结果给店家投40多万 自称不好意思拒绝别人

极目新闻 浏览 9209

汪小菲接俩娃回北京过春节!玥儿和奶奶逛公园

地理三体说 浏览 3486

智驾双雄:大湾区杀出全球智驾新势力

21世纪经济报道 浏览 3464

弗里克:很不满意拉菲尼亚受伤;还没和特尔施特根聊过

懂球帝 浏览 3331

“多巴胺风”又又又火了!这样穿时髦又减龄

LinkFashion 浏览 3299

库里南也绷不住了!四年销量崩一半:中国土豪为什么不爱劳斯了?

少数派报告Report 浏览 3444
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1