关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro1740人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

2025年,记住她们的名字!

时尚COSMO 浏览 2896

夸克“C计划”浮出水面,AI超级应用卡位战升级

华夏时报 浏览 4449

傅利叶:未来1-2年将脑机接口引入机器人康复训练,提升治疗效率

澎湃新闻 浏览 3336

娃哈哈精密机械公司启动解散清算,员工称已收到终止劳动合同通知

红星资本局 浏览 2860

何小鹏“扒皮”验真身 国产人形机器人“摊牌了”

汽势传媒 浏览 4335

相恋6年"军官女友"收60余万后消失 警方证实其已落网

红星新闻 浏览 21478

"75后"冯长军 升任东风汽车集团董事、总经理

网易汽车 浏览 4781

印度商人:有中国就不怕美国加税 中印本应并肩作战

澎湃新闻 浏览 9393

北京现代EO 羿欧将于10月16日正式开启预售

车质网 浏览 4681

有偶像包袱别演戏!《沉默的荣耀》于和伟干饭,打脸多少假吃演员

娱乐圈笔娱君 浏览 4592

网恋1个月怀孕 45岁女子被61岁男友拉黑:他出轨别人

极目新闻 浏览 10384

罗马诺:鲍勃转会富勒姆谈判进最后阶段,曼城坚持要3500万镑

懂球帝 浏览 3399

何猷亨大方公开恋情,与女友牵手跨年,脸贴脸高调撒糖好甜蜜

扒虾侃娱 浏览 3524

360万克六选错队?三分23中5太铁 33岁亚一控失球权已完全迷失

颜小白的篮球梦 浏览 4735

注射后48小时有知觉,6人重新行走!巴西科学家破解脊髓损伤难题

DeepTech深科技 浏览 3225

泽连斯基称将启动对乌军的改革:前线人员大幅涨薪

上观新闻 浏览 1286

星纪魅族前美女副总裁,转投小米公关部

财通社 浏览 2775

小个子秋季穿搭指南!7件单品穿出大长腿,显高10cm

Yuki女人故事 浏览 6809

今日热点:许光汉否认和周子瑜恋情;郝熠然与诚实一口终止合作……

伊周潮流 浏览 1656

朱光耀:中美AI实力对比,中国具备三项优势

上观新闻 浏览 3770

四门四座焕新升级 第五代宏光MINIEV内饰图曝光

网易汽车 浏览 2883
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1