关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者4388人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美报告罕见承认中国电子战有优势

北京日报 浏览 2789

YouTube服务出现“宕机”:正在修复中

界面新闻 浏览 8184

CBA疯狂一夜!争冠形势大乱:北京送广东首败,助攻广厦升至第一

侃球熊弟 浏览 3741

姚晨怒批倍速看剧:观众不该背锅

小白趣味屋 浏览 3535

记者:在不用参与训练时,B费也会在场边观看以给予队友鼓励

懂球帝 浏览 4353

拼多多一季度净利跌逾一成:管理层称业绩波动在所难免,将联合全球知名IP深度共创

澎湃新闻 浏览 732

三全食品:前瞻性布局即时零售业务 与淘宝、美团、京东等各大平台深化合作

证券时报 浏览 3317

台积电被特朗普「盯上」了

36氪财经 浏览 4491

岚图卢放:打破百年成见 重构豪华轿车价值标准

网易汽车 浏览 3825

星际彗星 3I / ATLAS 亮度异常激增,科学家困惑不解

IT之家 浏览 4312

阿根廷3-0阿尔及利亚!梅西淡定,全队与其庆祝,现场球迷狂欢!

篮球资讯达人 浏览 96

阿根廷晋级世青赛决赛,梅西:挺进决赛啦,恭喜所有人

懂球帝 浏览 4498

强奸大嫂凶手出狱后去大嫂家 大嫂吓得穿内衣跑出求救

澎湃新闻 浏览 5491

全球第二,欣旺达,再冲固态电池!

飞鲸投研 浏览 4574

朱江明和费翔一起发零跑车皇!增程配80度大电池,“全身名牌”登场

车东西 浏览 4208

暗指北控?琼斯吐槽:这比赛也太难看了,这些球员都是谁找的

懂球帝 浏览 3442

女子乘二等座买到"单人座":空间较宽敞 旁边能放行李

极目新闻 浏览 7931

趁换代前“捡漏”30万豪华中型SUV之选

网易汽车 浏览 5465

萨顿:枪手踢得很不错,失利会让他们变得更加强大

懂球帝 浏览 1672

2028年4月投产 全新宝马iX6效果图曝光

车质网 浏览 1398

豆包手机最高被炒至1.29万元 日租费高达1600元

极目新闻 浏览 34223
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1