关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro1739人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美军动用新型武器:山寨伊朗的

观察者网 浏览 2740

辛杰上任9个月辞去万科董事长职务 深铁系黄力平接任

每日经济新闻 浏览 8206

“装了周杰伦”的机器狗?巨星传奇把6000台卖给了谁?

野马财经 浏览 4249

伊姐周日热推:综艺《向往的生活-戏如人生》;电视剧《狸猫书生第二季》......

伊周潮流 浏览 3893

陈匡怡怒斥台媒毁人名节,自曝写了遗书

萌神木木 浏览 3067

王菲女儿李嫣疑恋爱!与帅气男生现身机场

二妹扯娱 浏览 3586

记者:弗里克听说自己的明夏离队传闻后说“又是胡说八道”

懂球帝 浏览 4262

见好就收?年末基金“攻守战”,基金经理操作不一

券商中国 浏览 4020

“爆冷”又如何?陈法拉的人生本就是一场逆袭大戏

时尚COSMO 浏览 1702

刚说完"很快结束" 特朗普改口:美国要赢得"终极胜利"

参考消息 浏览 30819

瑟洛特:这是哈兰德职业生涯中最重要的舞台,他表现非常出色

懂球帝 浏览 107

宁德时代再出手!1月内从弃控到增资,深度绑定富临精工磷酸铁锂版图

时代周报 浏览 3320

媒体:美国对台军售 本质是在加重中华人民共和国负担

新民周刊 浏览 9421

风云T9L全解析:“理工男”的浪漫情怀该如何表达?

汽湃 浏览 1421

神舟二十号飞船推迟返回 疑似遭空间微小碎片撞击

极目新闻 浏览 9307

“万元定价”已成新趋势?人形机器人也打起了价格战

澎湃新闻 浏览 4548

第六代RAV4荣放双擎精英版上市限时焕新价15.18万元

网易汽车 浏览 2856

A股:再刷新历史纪录!

小白读财经 浏览 5284

北约下周军演 将模拟可能动用核武器场景

界面新闻 浏览 4641

推广中奖名单-更新至2025年12月19日推广

黎贝卡的异想世界 浏览 3567

阿卡进四强上轮电子设备没收却再惹争议,生产商:这又不是类固醇

网球之家 浏览 3324
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1