关闭广告

NYU研究揭示：模型宽度与能力非线性相关

科技行者4408人阅读

当我们使用ChatGPT或其他大语言模型时，可能很少想过这样一个问题：这些模型内部那些看似强大的组件，真的在高效地工作吗？就像一家大公司虽然员工众多，但可能存在大量的"摸鱼"现象一样，人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究，就像给大语言模型做了一次"内部审计"，专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究（论文编号：arXiv:2510.00537v1），首次系统性地揭示了一个令人意外的现象：当我们让这些网络变得更宽时，新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房，老板以为增加更多的炉灶就能提高出菜效率，但实际情况却是新增的炉灶大多数时间都在闲置，真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具"，发现了大语言模型中存在的这种"不对称浪费"现象，这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络，为什么它如此重要？

阅读全文

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

孙红雷和妻子王骏迪逛街，比老婆矮显娇小

八怪娱浏览 3632

媒体：伊朗战争或成美国第一次不敢打接触战的战争

澎湃新闻浏览 1945

刚刚，锂电闯出一只独角兽，横扫订单170亿！

飞鲸投研浏览 4738

精彩推荐

乌武装部队总参谋部通报：乌俄一天交战近250次

环球网资讯浏览 4288

进口车大崩盘，出口车三连冠！中国汽车反杀外国车

象视汽车浏览 2810

曾经拯救过无数个学生狗的360doc，倒下了。。。

差评XPIN 浏览 3373

网红坠机起火身亡村民：我们赶到时人还绑在飞机上

封面新闻浏览 38529

美方在公海海域扣押悬挂俄罗斯国旗的油轮外交部回应

澎湃新闻浏览 14388

关键时刻委少将为美军＂敞开大门＂美压制委军手段披露

澎湃新闻浏览 7646

今年冬天最流行的大衣“高阶穿搭”，太时髦了！

LinkFashion 浏览 4181

22岁女医学生遭前男友杀害临终遗言：我没有对不起你

大风新闻浏览 13736

建设周期长且成本高昂，欧盟多国重拾核能挑战巨大

环球网资讯浏览 2506

美股爆发AI恐慌性抛售英伟达市值一夜蒸发超8000亿元

每日经济新闻浏览 5830

可折叠iPhone来了却可能买不到？分析师预警发布初期将严重缺货

环球网资讯浏览 3874

汉坦病毒聚集性感染专家锁定能＂人传人＂的安第斯病毒

上观新闻浏览 14041

消失的1.8%，你的钱会发生什么

米筐投资浏览 2481

四足机器人首次同时「思考+走路」，北大提出链式推理MobileVLA-R1

新智元浏览 3992

蔚来艰难求盈利

北京商报浏览 4064

储能内卷的标准样本：黑马果下科技，究竟是如何速成的？

赶碳号浏览 3593

或于2026年推出比亚迪大汉谍照曝光

车质网浏览 3845

以色列宣布：将扣押的数百名活动人士驱逐出境

环球时报国际浏览 4688

欧洲各国在格陵兰岛凑出一个排兵力丹麦驻军大幅增加

上游新闻浏览 13073

以军称已有87万巴勒斯坦人从加沙城撤离

环球网资讯浏览 4606

杨紫新剧邀林志玲演上海名媛，两人11年前亲吻

小邵说剧浏览 3470

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1