关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者625人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

成都车展实拍坦克500,这家伙肯定能卖爆?

车业杂谈 浏览 20541

辱骂西蒙尼的球迷:我没说种族歧视的话,也没提马岛战争

懂球帝 浏览 1641

新思科技计划收购Ansys,交易总价值约350亿美元

界面新闻 浏览 12455

萨里:我们没给罗马太多机会,但随后自己阵脚大乱

直播吧 浏览 1659

孙怡方否认与滕光正恋情传闻:朋友同行看演唱会

网易娱乐 浏览 16018

英媒:美国得州将在边境热门越境点部署特种部队

参考消息 浏览 18892

这颜值你给打几分?仰望U7车型官图发布

天天汽车 浏览 12698

跌到“买房送黄金”的杭州楼市,与阿里裁员有多大关系?

财经十一人官方 浏览 16793

罗体:国米会尝试从米兰挖走即将年满16岁的卡马尔达

懂球帝 浏览 12020

“因你不同”,多色凡尔赛C5X亮相成都车展

汽车头条APP 浏览 20455

白鹿baby不和风波升级!恩怨越扒越多于正也下场

叶公子 浏览 16644

4家银行被罚380万元!这类行为被整顿

中国基金报 浏览 19376

章子怡任中戏表演系考官 考试现场轻松活泼

网易娱乐 浏览 19409

哈马斯高层在多哈遇袭后首次现身

政知新媒体 浏览 1636

奥尼尔:大帝是我&大梦的结合 我看得上的内线只有他&文班&约基奇

直播吧 浏览 10897

强势搜证提告娱记!大S疑化解危机 葛斯齐改口辩解

娱乐团长 浏览 15622

iPhone手机半夜“自动给陌生人打电话” 苹果客服回应

极目新闻 浏览 12080

埃尔多安指责以色列违反加沙停火协议

新华社 浏览 859

“合肥系”国资出手,投入超29亿元现金,要拿下显示屏巨头控制权!

每日经济新闻 浏览 649

新能源车卖得好不好,全看吹的姿势好不好?

蓝鲸财经 浏览 16663

从2499到3299:Rokid还要收割几次信任?

蓝鲸新闻 浏览 1568
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1