爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

哈马斯代表团...

看完《阿凡达...

谢霆锋跟着遭...

2026年4...

上海业主十一...

最近很火的发...

今年秋天最美搭配：西装+半裙，减龄又气质！

NVIDIA显卡真变砖了！买了一张RTX 5080：收到却是真砖块

日本球迷惊呆：中国队4场1球进了4强？刘建宏：我们愿一直苟着？

后瑞幸时代，挪瓦咖啡凭什么冲击行业第二？

当一个57岁的女人，决定从零开始

今年春夏一定要有“这件衣服”，高级又气质！

詹姆斯坐骨神经痛进展：湖人计划让他11月中旬复出将耐心康复

零件细节曝光新款奔驰S级将于2026年推出

或命名为T1T 奇瑞全尺寸SUV谍照曝光

伊称3天内完成核协议草案美最大核动力航母进入地中海

多国领导人到访朝鲜迎来外交潮

周柏豪相隔7年回港开唱！揭见面会惊喜

高市早苗斗不过中国邀6国反华马克龙拆台打退堂鼓

丰田新款Land Cruiser FJ最新消息曝光

新角色？詹姆斯复出后或成湖人老三变身加强版追梦更利好紫金军

男子收1300万元拆迁款后被控敲诈勒索获刑终审无罪

媒体：在21世纪20年代美国总统要向外派出＂总督大人＂

港女最爱的国产单品，赢了特斯拉？

许绍雄离世，她说，老豆我很想你！但我不会再哭

19岁中国女孩被困缅甸交20万赎金园区仍未放人

突破LLM遗忘瓶颈，谷歌「嵌套学习」让AI像人脑一样持续进化

新赛季首周精彩纷呈！波兰终夺联合杯，萨巴梅总同享22！

红果年度男演员排名出炉，刘萧旭碾压登顶

复婚无望！baby黄晓明陪小海绵零交流