关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro1738人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

后瑞幸时代,挪瓦咖啡凭什么冲击行业第二?

有数DataVision 浏览 3800

当一个57岁的女人,决定从零开始

Yuki女人故事 浏览 3572

今年春夏一定要有“这件衣服”,高级又气质!

LinkFashion 浏览 1661

詹姆斯坐骨神经痛进展:湖人计划让他11月中旬复出 将耐心康复

醉卧浮生 浏览 4616

零件细节曝光 新款奔驰S级将于2026年推出

车质网 浏览 3428

或命名为T1T 奇瑞全尺寸SUV谍照曝光

车质网 浏览 3451

伊称3天内完成核协议草案 美最大核动力航母进入地中海

环球网资讯 浏览 2893

多国领导人到访 朝鲜迎来外交潮

上观新闻 浏览 4498

周柏豪相隔7年回港开唱!揭见面会惊喜

TVB资讯台 浏览 3497

高市早苗斗不过中国邀6国反华 马克龙拆台打退堂鼓

基斯默默 浏览 13798

丰田新款Land Cruiser FJ最新消息曝光

乐选爱车 浏览 3690

新角色?詹姆斯复出后或成湖人老三 变身加强版追梦更利好紫金军

罗说NBA 浏览 4448

男子收1300万元拆迁款后被控敲诈勒索获刑 终审无罪

极目新闻 浏览 8518

媒体:在21世纪20年代 美国总统要向外派出"总督大人"

新民周刊 浏览 7087

港女最爱的国产单品,赢了特斯拉?

新周刊 浏览 4030

许绍雄离世,她说,老豆我很想你!但我不会再哭

振华观史 浏览 4485

19岁中国女孩被困缅甸 交20万赎金园区仍未放人

界面新闻 浏览 34092

突破LLM遗忘瓶颈,谷歌「嵌套学习」让AI像人脑一样持续进化

机器之心Pro 浏览 4370

新赛季首周精彩纷呈!波兰终夺联合杯,萨巴梅总同享22!

网球之家 浏览 3607

红果年度男演员排名出炉,刘萧旭碾压登顶

洲洲影视娱评 浏览 3555

复婚无望!baby黄晓明陪小海绵零交流

八卦王者 浏览 1644
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1