关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者799人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

魔术后卫富尔茨赛季报销确诊为左膝十字韧带撕裂

趣看热点 浏览 25635

一笑随歌李沁陈哲远短短37秒吻戏床戏都上尺度了

陈意小可爱 浏览 1069

噩耗!江苏豪门大佬去世,“父子内斗”落幕

侃见财经 浏览 15634

孙燕姿妹妹再补刀!曝姐妹决裂真相 过往言论被扒

文艺圈娱乐号 浏览 12998

最牛退休女工,靠卖易拉罐,纳税100亿

创业家 浏览 1003

全新H车标 本田发布"Honda 0"系列纯电动概念车

网易汽车 浏览 12709

巴黎人报:出于保险,恩里克半场就换下了努诺-门德斯

懂球帝 浏览 388

《17号音乐仓库》治好了我的假期综合症

八卦三缺一 浏览 12450

反对马斯克 1 万亿美元薪酬方案,多个活动组织将举行抗议行动

IT之家 浏览 601

迪马:佛罗伦萨想租借30岁罗马前锋贝洛蒂,球员已同意加盟

直播吧 浏览 12482

蔚来乐道汽车迎 11 万台新车交付,距离 10 万台里程碑仅 13 天

IT之家 浏览 759

阿里1688:今年用户侧投入将是去年的3倍

网易科技频道 浏览 11959

为什么没邀请Meta参加白宫AI峰会?政府官员的回答“太扎心”

财联社 浏览 18148

美国务院报告痛批政府搞砸阿富汗撤军 白宫不服

看看新闻Knews 浏览 15771

限量555台 蔚来新ET5T暗影套装限定车型售31.6万

网易汽车 浏览 996

女县委书记与3万民众跳健身操 申报大世界基尼斯纪录

极目新闻 浏览 80546

国内降价日本涨价,比亚迪到底是怎么盘算的?

二师兄玩车 浏览 12073

以军与哈马斯继续交战 加沙死亡人数已超2.23万人

环球网资讯 浏览 12779

国家外汇管理局副局长刘斌:研究长期限、多品种、小币种等外汇市场发展问题|2025外滩年会

国际金融报 浏览 889

360万克六选错队?三分23中5太铁 33岁亚一控失球权已完全迷失

颜小白的篮球梦 浏览 1019

运满满冷运完成B轮数亿元融资 平台冷藏车注册量超27万

网易科技报道 浏览 16280
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1