关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11176人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

县委原书记收金矿俩老板送的1800万 退赃500万又要回来

上游新闻 浏览 75472

采用中置双出排气,新款长安UNI-V申报图曝光

天天汽车 浏览 12341

李霄鹏:国安周中亚冠很辛苦,球迷应该理解球员,对他们宽容一些

懂球帝 浏览 839

张馨予登杂志封面超美!穿深V婚纱大秀傲人身材

闲聊小神龙 浏览 16748

AI智能再突破,谁是全息虚拟现实技术的真龙头?

资本百科 浏览 12338

虞书欣近况曝光!充钱偷看事业占卜被发现,火速摘灯牌隐身

萌神木木 浏览 1023

杜兰特在文班亚马头顶干拔得分

OnFire 浏览 13257

加沙停火草案被美国一票否决 中国大使发出"灵魂三问"

每日经济新闻 浏览 11901

张钹院士:大模型存在难以逾越的天花板,必须建立可解释AI理论

澎湃新闻 浏览 13508

远洋集团陷巨额亏损 员工:2大股东曾派调查组评估家底

红星新闻 浏览 88282

用AI补完遗憾,披头士将发行最后一曲

36氪 浏览 16568

高清大图!单兵综合演练又见新机枪出镜

环球网资讯 浏览 19095

刷爆历史!掘金双核无敌:约基奇32+21+10总决赛首人穆雷30+三双

醉卧浮生 浏览 16641

进博面对面|爱茉莉太平洋许达仁:深耕中国,本土创新是制胜关键

中国商报 浏览 719

全运会男足U20半决赛对阵:广东vs上海,湖北vs山东

懂球帝 浏览 683

电池技术取得重要突破,新能源车续航里程有望翻倍

环球网资讯 浏览 1047

铁威马推出雷电5移动固态硬盘盒D1 SSD Pro

IT之家 浏览 94

美媒:拜登批准乌军用美供武器打击俄本土

环球网资讯 浏览 11285

全智贤近况曝光!44岁了放弃谍战剧去拍偶像剧,资源降级遭群嘲

萌神木木 浏览 687

清洗6人+重启2归化!国足新帅变阵,承诺进18强赛,防韩国踢假球

侃球熊弟 浏览 12321

表现不稳,世体:巴萨对巴尔德和孔德当前展现的水平感到担忧

懂球帝 浏览 544
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1