爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

002290...

法尔克：对没...

央视发文悼念...

小米雷军回应...

预售22.9...

鲁媒：洛佩斯...

朱亚文评价白宇，只字不提演技，却一针见血

剑南春丨曼联客场2-2热刺，德利赫特读秒绝平，姆伯莫建功

拼多多“千亿扶持”落地半年，“包邮区”持续扩大，更多地区享受便利网购服务

2025年，记住她们的名字！

夸克“C计划”浮出水面，AI超级应用卡位战升级

傅利叶：未来1-2年将脑机接口引入机器人康复训练，提升治疗效率

娃哈哈精密机械公司启动解散清算，员工称已收到终止劳动合同通知

何小鹏“扒皮”验真身国产人形机器人“摊牌了”

相恋6年＂军官女友＂收60余万后消失警方证实其已落网

＂75后＂冯长军升任东风汽车集团董事、总经理

印度商人：有中国就不怕美国加税中印本应并肩作战

北京现代EO 羿欧将于10月16日正式开启预售

有偶像包袱别演戏！《沉默的荣耀》于和伟干饭，打脸多少假吃演员

网恋1个月怀孕 45岁女子被61岁男友拉黑：他出轨别人

罗马诺：鲍勃转会富勒姆谈判进最后阶段，曼城坚持要3500万镑

何猷亨大方公开恋情，与女友牵手跨年，脸贴脸高调撒糖好甜蜜

360万克六选错队？三分23中5太铁 33岁亚一控失球权已完全迷失

注射后48小时有知觉，6人重新行走！巴西科学家破解脊髓损伤难题

泽连斯基称将启动对乌军的改革：前线人员大幅涨薪

星纪魅族前美女副总裁，转投小米公关部

小个子秋季穿搭指南！7件单品穿出大长腿，显高10cm

今日热点：许光汉否认和周子瑜恋情；郝熠然与诚实一口终止合作……

朱光耀：中美AI实力对比，中国具备三项优势

四门四座焕新升级第五代宏光MINIEV内饰图曝光