关闭广告

港科大广州校区突破大模型训练瓶颈:让AI学习像数学考试高效

科技行者3307人阅读


这项由香港科技大学广州校区xLeaF实验室团队完成的研究于2026年2月发表在预印本平台,论文编号为arXiv:2601.23000v1。研究团队提出了一种名为Mano的全新优化器,能够大幅提升大型语言模型的训练效率,同时显著降低计算成本和内存消耗。

训练大型语言模型就像是在教授一个拥有数千亿个参数的超级大脑学习语言,这个过程需要消耗巨额的计算资源和电力。现有的训练方法就好比让学生用最笨拙的方式学习数学——要么只看到局部信息而忽视整体结构,要么过度追求完美而丢失了重要细节。当前最流行的AdamW优化器就像一个只会逐个检查每道题目的老师,完全忽略了题目之间的内在联系和整体规律。而另一种叫做Muon的优化器虽然能够统一处理所有维度的信息,但在这个过程中却丢失了宝贵的曲率信息,就像为了保持答题速度一致而忽略了题目的难易程度。

研究团队从一个全新的角度来思考这个问题。他们发现,传统的流形优化方法虽然在数学理论上很优美,但在实际的大模型训练中表现很差,这让很多研究者对这类方法失去了信心。然而,港科大的研究团队没有放弃,而是创新性地改造了这些方法。

他们的核心洞察是这样的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

审美倒退30年?舒淇却被全网夸爆了

Yuki女人故事 浏览 1681

别克至境L7:新能源赛道,没有人能靠旧身份活下去

AutoBusiness 浏览 5454

侯晓楠喊出积极拥抱IP,但阅文很难成为下一个泡泡玛特

蓝鲸新闻 浏览 5142

1.2亿辆车被召回,超半数源于监管调查,车企自查缺陷就这么难?

DearAuto 浏览 4374

美乌总统再度激烈争吵 特朗普爆粗口还把地图给扔了

扬子晚报 浏览 10355

死了么APP征集新中文名

扬子晚报 浏览 3493

齐溪自曝二胎是女儿,二胎已经满一岁了,41岁生二胎原因好暖心

扒虾侃娱 浏览 4558

“天后前夫”欠债10年后,爆了4颗雷,离了2次婚

大猫财经Pro 浏览 3807

小米汽车直播间遭网暴,仅剩一家门店直播,雷军抖音账号半个月掉粉30万

红星资本局 浏览 4624

保时捷纯电卡宴即将首发,PPE平台打造

车评网 浏览 3489

新增1.2T发动机 新款Tata Punch官图发布

车质网 浏览 3487

55岁郑丽文当选国民党主席 其被视为"非典型国民党人"

中国青年报 浏览 8184

倪妮告秦雯和王家卫!?

八卦疯叔 浏览 4338

挪威王室不太平:王储妃深陷爱泼斯坦丑闻 其子涉强奸

澎湃新闻 浏览 103734

曝古二家人被骚扰!90多岁外婆被人找上门,难怪放录音重锤王家卫

萌神木木 浏览 4431

新款腾势Z9GT申报图曝光 续航大增/似推单电机版本

网易汽车 浏览 3526

“豆腐靴”火了! 比马丁靴还好看, 早冬必穿!

Yuki女人故事 浏览 3552

媒体:美国盯上铜、银、煤炭等矿产 下一步或加税

澎湃新闻 浏览 9044

美媒:未与以及时协商 内塔尼亚胡对特朗普感到愤怒

环球网资讯 浏览 58098

汕头火灾致12人遇难 幸存家属讲述逃生细节

红星新闻 浏览 21022

姆巴佩全新"吹笛子"庆祝动作亮相 称小时候曾学过长笛

红星新闻 浏览 11978
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1