关闭广告

港科大广州校区突破大模型训练瓶颈:让AI学习像数学考试高效

科技行者3302人阅读


这项由香港科技大学广州校区xLeaF实验室团队完成的研究于2026年2月发表在预印本平台,论文编号为arXiv:2601.23000v1。研究团队提出了一种名为Mano的全新优化器,能够大幅提升大型语言模型的训练效率,同时显著降低计算成本和内存消耗。

训练大型语言模型就像是在教授一个拥有数千亿个参数的超级大脑学习语言,这个过程需要消耗巨额的计算资源和电力。现有的训练方法就好比让学生用最笨拙的方式学习数学——要么只看到局部信息而忽视整体结构,要么过度追求完美而丢失了重要细节。当前最流行的AdamW优化器就像一个只会逐个检查每道题目的老师,完全忽略了题目之间的内在联系和整体规律。而另一种叫做Muon的优化器虽然能够统一处理所有维度的信息,但在这个过程中却丢失了宝贵的曲率信息,就像为了保持答题速度一致而忽略了题目的难易程度。

研究团队从一个全新的角度来思考这个问题。他们发现,传统的流形优化方法虽然在数学理论上很优美,但在实际的大模型训练中表现很差,这让很多研究者对这类方法失去了信心。然而,港科大的研究团队没有放弃,而是创新性地改造了这些方法。

他们的核心洞察是这样的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

“霸凌”周迅的奚美娟,现在付出代价了?

除夕烟火灿烂 浏览 3982

起底Plaud不融资却卖100万台的秘密

虎嗅APP 浏览 4220

编码新未来!WAVE2025泛互全球领航者大会即将启幕

霞光社 浏览 4487

三星被曝2026年发新款折叠屏手机,屏幕超7英寸、护照式设计,叫板苹果

智东西 浏览 3881

郑丽文就任国民党主席 曾喊"让台湾人自豪说是中国人"

环球时报新闻 浏览 15373

霍伊伦德离开曼联后10场8球!曝阿莫林找到原因,向球员提一要求

罗米的曼联博客 浏览 4638

美国安局利用境外品牌手机 网攻中国国家授时中心

央视新闻 浏览 8258

2天票房3亿,看完《疯狂动物城2》,我想说:好莱坞大片赌对了

娱乐圈笔娱君 浏览 4099

最时髦的单品,难道不是背肌吗?

时尚COSMO 浏览 3556

双电机还不够?三电机都来了 新款阿维塔12申报图曝光

网易汽车 浏览 3620

美伊停火仅剩两天特朗普称将谈判 伊朗:不属实

国际在线 浏览 1673

中邮基金换帅!权益规模下降,中邮核心成长混合为何业绩垫底?

Daily每日财报 浏览 3865

成都天府国际空港综合保税区通过验收

央视财经 浏览 3530

纳瓦罗收获个人中网首胜

体坛周报 浏览 5086

随着蓉城0-2爆冷,海港0-2完败,亚冠最新积分榜:中超领头羊垫底

侃球熊弟 浏览 4561

凑齐“56789”!问界独占鸿蒙智行7成销量,“5界”如何共扛百万辆目标?

时代周报 浏览 3326

花费498万买进"百强县"榜单被通报 辽宁海城官方回应

中国新闻周刊 浏览 7351

擦碰中国海警艇 揭秘菲律宾“拍照打卡”式炒作套路

环球网资讯 浏览 8376

89天交付3万!蔚来新ES8单骑救主

科技丛林 浏览 3701

孔蒂:上赛季我们的夺冠出乎意料,这赛季的目标是全力卫冕

懂球帝 浏览 4017

手握200亿基金,寻找想打造品类第一的创业者

创业家 浏览 4448
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1