关闭广告

NYU研究揭示：模型宽度与能力非线性相关

科技行者4406人阅读

当我们使用ChatGPT或其他大语言模型时，可能很少想过这样一个问题：这些模型内部那些看似强大的组件，真的在高效地工作吗？就像一家大公司虽然员工众多，但可能存在大量的"摸鱼"现象一样，人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究，就像给大语言模型做了一次"内部审计"，专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究（论文编号：arXiv:2510.00537v1），首次系统性地揭示了一个令人意外的现象：当我们让这些网络变得更宽时，新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房，老板以为增加更多的炉灶就能提高出菜效率，但实际情况却是新增的炉灶大多数时间都在闲置，真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具"，发现了大语言模型中存在的这种"不对称浪费"现象，这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络，为什么它如此重要？

阅读全文

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

阿Sa闪婚原因曝光，曾冻卵计划40多岁生小孩

萌神木木浏览 1519

RMC：姆巴佩找到外部专家以检查膝伤，他有望3月中旬回归

懂球帝浏览 2770

回归哈弗H序列实拍哈弗H6L

太平洋汽车浏览 4504

精彩推荐

新一轮货币宽松到来

泽平宏观展望浏览 3563

日本开年密集外交搞了不少小动作引发地区国家警惕

澎湃新闻浏览 7889

“窝囊”35年没人理！直到遇66岁迟蓬才大火

苏子Vlog一浏览 3663

十五五规划建议共15个部分61条分三大板块

界面新闻浏览 6858

商务部公告附件首次改为wps格式，金山办公的信创未来该咋看？

江瀚视野浏览 4591

美军高官称希望韩建核潜艇对抗中国还引了句＂蜘蛛侠＂

澎湃新闻浏览 45757

维拉已放弃买断桑乔！曼联若解约多特或引进，只会免费签约不给钱

罗米的曼联博客浏览 4371

今年秋天的卫衣，放松穿最好看！

LinkFashion 浏览 4836

华语新作闪耀，梁咏琪、高捷等众星即将亮相厦门

幕味儿浏览 4400

美方拟禁止中国航司飞越俄罗斯领空中国航司联名回复

澎湃新闻浏览 8523

荷兰限制与美国情报共享：我们的情报被政治化了

澎湃新闻浏览 9969

在特斯拉model Y和小米 YU7里二选一，怎么选？

蜗牛车志V 浏览 3519

西方14国发布联合声明有乌克兰参与但没有美国

新民晚报浏览 10153

特朗普宣布延长对伊朗停火

CCTV国际时讯浏览 1718

米体：普利希奇将接受医疗检查，阿莱格里和米兰对美国队不满

懂球帝浏览 4672

男子去理发结果给店家投40多万自称不好意思拒绝别人

极目新闻浏览 9209

汪小菲接俩娃回北京过春节！玥儿和奶奶逛公园

地理三体说浏览 3486

智驾双雄：大湾区杀出全球智驾新势力

21世纪经济报道浏览 3464

弗里克：很不满意拉菲尼亚受伤；还没和特尔施特根聊过

懂球帝浏览 3331

“多巴胺风”又又又火了！这样穿时髦又减龄

LinkFashion 浏览 3299

库里南也绷不住了！四年销量崩一半：中国土豪为什么不爱劳斯了？

少数派报告Report 浏览 3444

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1