分论坛八:语音大模型
分论坛日程
| 时间 | 报告人 | 单位 | 报告题目 | |
| 14:30-15:00 | 陶建华 | 清华大学 | 基于大模型的音频生成与鉴别 | |
| 15:00-15:30 | 钱彦旻 | 上海交通大学 | 听觉认知与计算声学的最新进展 | |
| 15:30-16:00 | 谢磊 | 西北工业大学 | 语音与音乐生成大模型技术进展 | |
| 16:00-16:15 | 场间休息 | |||
| 16:45-17:15 | 张家俊 | 中国科学院自动化研究所 | 端到端语音共情大模型的开源实践 | |
| 17:15-17:45 | 徐进 | 阿里巴巴通义实验室 | 从Qwen-Audio到Qwen-Omni: 音频大模型到全模态大模型的技术探索 | |
主席简介

赵洲(浙江大学)
个人简介:(建议不超300字)
赵洲,浙江大学计算机学院教授、博士生导师、国家青年人才、科技部2030重点研发计划青年科学家,主持国家自然科学基金联合基金重点、浙江省杰青等项目。主要研究方向为自然语言理解、计算机视觉计算和生成式模型,在国际期刊TPAMI和会议NeurIPS,ICML,ICLR,CVPR等上发表100余篇论文,谷歌学术引用2万+,相关技术被应用于微软、字节、Stability AI、华为等公司,获2022年度教育部科技进步一等奖、2023年度上海市科学技术一等奖、2024年度人工智能学会科技进步一等奖、2021年度中国电子学会科技进步一等奖、2022年浙江大学竺可桢学院十佳专业导师,连续4年(2021-2024)入选“全球前2%顶尖科学家榜单”,连续2年(2023-2024)入选“中国高被引学者”,指导的多位学生获华为天才少年奖和浙江大学竺可桢奖学金。
讲者简介
01 基于大模型的音频生成与鉴别

陶建华(清华大学)
个人简介:陶建华,清华大学自动化系长聘教授,北京信息科学与技术国家研究中心副主任,国家杰出青年基金获得者,国家级领军人才,享受国务院政府特殊津贴,连续多年被爱思唯尔评为全球Top2%顶尖科学家。主要从事多源信息融合、模式识别、大数据处理等方向,在IEEE TPAMI、IEEE TAFFC、IEEE TASLP、AAAI、IJCAI、ICASSP等国内外主要期刊或会议上发表论文300余篇,先后负责国家重点研发计划项目、国家自然科学基金重点项目、国家863重点项目、国家发改委项目等20余项重点科研任务。研究成果大量应用于百度、阿里、腾讯、华为等企业,并在公安部、网信办等发挥重要作用,成果获2022年中国人工智能学会吴文俊技术发明特等奖、2021年和2024年中国电子学会技术发明一等奖、2018年中国电子学会技术进步一等奖,并多次在国内外学术会议上获奖。连目前担任中国人工智能学会会士和常务理事、中国计算机学会会士等,并担任TAC、TASLP、Speech Communication、计算机研究与发展等多个主要国内外期刊编委,同时担任Interspeech、ACII、IEEE ICSP、IEEE MLSP等会议大会主席或程序委员会主席。
报告摘要:报告通过分析近几年国际上在音频生成与鉴别方面的最新技术进展,并进一步阐述基于大模型的音频生成与鉴别技术,包括:时不变编码音频离散表征、开放词汇指令音频生成、指令微调音频鉴别和局部篡改音频鉴别等,进而分析存在挑战及未来趋势。
02 听觉认知与计算声学的最新进展

钱彦旻(上海交通大学)
个人简介:上海交通大学计算机科学与工程系特聘教授,博士生导师。清华大学博士,英国剑桥大学工程系博士后。教育部长江学者,国家优秀青年基金、吴文俊人工智能自然科学奖一等奖(第一完成人)获得者。现为IEEE高级会员、ISCA会员,同时也是国际开源项目Kaldi语音识别工具包的13位创始成员之一。担任InterSpeech, ISCSLP等国际会议的领域主席和TPC委员;IEEE T-ASLP, IEEE J-STSP, IEEE SPL, ICASSP, InterSpeech等期刊和国际会议审稿人。有10余年从事智能语音及语言处理、人机交互、模式识别及机器学习的研究和产业化工作经验。在本领域的一流国际期刊和会议上发表学术论文近300篇,Google Scholar引用总数17000余次,申请100余项中美专利,合作撰写和翻译多本外文书籍。4次获得领域内国际权威期刊和会议的最优论文奖,6次带队获得国际评测冠军。作为负责人和主要参与者参加了包括国家自然科学基金、国家脑科学计划、国家重点研发计划、国防JKW、国家863、英国EPSRC等多个项目。目前的研究领域包括:语音识别和语音翻译,说话人和语种识别,语音抗噪与分离,音乐生成和理解,语音情感感知,多模态和跨模态信息处理,自然语言理解,深度学习建模,多媒体信号处理等。
报告摘要:以语音交互为代表的听觉技术的发展是目前研究的热点和重点,但在实际技术应用中还存在诸多困难与挑战。本报告将先简要介绍上海交通大学听觉认知与计算声学实验室及其重点研究方向,然后围绕实验室近期在语音交互和听觉认知,以及鲁棒声信号处理两个方面的最近研究进展与突破,做深入介绍和讨论。
03 语音与音乐生成大模型技术进展

谢磊(西北工业大学)
个人简介:西北工业大学教授/博导,音频语音与语言处理实验室(ASLP@NPU)负责人,长期从事音频语音处理技术方面的研究工作。曾在比利时布鲁塞尔自由大学、香港城市大学和香港中文大学工作,获得教育部新世纪优秀人才支持计划,陕西省青年科技新星、全球前2%顶尖科学家(斯坦福大学&Elsevier)、H-index 58, 华为云AI名师等荣誉。在音频语音相关领域发表论文400余篇。多次获得学术会议最佳论文奖和国际评测冠军。众多研究成果在产业界落地应用。担任国际语音通信协会ISCA中文口语语言处理兴趣组(SIG-CSLP)副主席、IEEE语音和语言技术委员会(IEEE SLTC)委员、中国计算机学会语音听觉与对话专委会常务委员、IEEE/ACM Transactions on Audio, Speech and Language Processing和IEEE Signal Processing Letters高级领域编委(SAE)等。
报告摘要:报告简介:本次报告将聚焦语音与音乐生成大模型的最新研究进展。首先,将介绍基于语言模型的语音识别、语音合成与语音增强技术,重点探讨语音合成在风格化生成与可控性调节方面的最新突破。随后,报告将分享一个开源语音理解大模型的构建过程,并基于该模型,介绍如何实现具备情感共鸣能力的语音对话系统。在音乐生成部分,我们将讨论基于扩散模型的全曲生成技术,展示音乐美学评估数据集的构建方法与应用,以及音乐结构化标注模型。最后,报告将对未来语音与音乐生成技术的发展趋势进行展望,探讨未来方向和潜在机遇。
04 端到端语音共情大模型的开源实践

张家俊(中国科学院自动化研究所)
个人简介:张家俊,中国科学院自动化研究所研究员、博士生导师,中国科学院大学岗位教授。主要研究方向为自然语言处理、多语言多模态大模型,获得国家优秀青年科学基金资助,入选中国科协首届青年人才托举工程、中国科学院青年创新促进会优秀会员和北京智源青年科学家,主持科技创新2030一“新一代人工智能”重大项目。出版学术专著2部、译著1部,获得北京市科学技术奖一等奖、首届祖冲之奖年度突出成果奖等。担任中国中文信息学会理事和机器翻译与多语言信息处理专委会副主任。担任Artificial Intelligence、IEEE/ACM T-ASLP和《自动化学报》等期刊的编委,担任ACL-2026的程序委员会共同主席。
报告摘要: GPT-4o等大模型展现出卓越的语音共情对话能力,情智兼备的协同共进不断推动通用人工智能(AGI)的前沿发展。但是,这些模型虽然具备强大能力,但由于其技术体系完全闭源,极大地限制了学术界和产业界对于情智兼备大模型,尤其是共情交互能力的深入研究与持续创新。过去一年,学术界与工业界相继提出了多种语音共情交互方法,其中不少工作开放了模型参数,或开源了微调代码,为推动语音共情交互技术的发展发挥了重要作用。然而,从“可完全复现”的角度来看,当前的开源并不彻底,尚无法让研究者全面了解这些模型如何逐步构建与训练成功。该报告将介绍我们在端到端语音共情大模型上的全透明开源实践。
05 从Qwen-Audio到Qwen-Omni: 音频大模型到全模态大模型的技术探索

徐进(阿里巴巴通义实验室)
个人简介:徐进是阿里巴巴通义千问语音方向负责人, 致力于通用音频理解,音视频理解,实时音视频交互,大规模语音合成,通用音频合成以及围绕音频的全模态交互模型研究及其应用,负责项目包括Qwen-Omni, Qwen-Audio, Qwen-ASR, Qwen-TTS。他本科毕业于北京邮电大学,博士毕业于清华大学交叉信息研究院。他在ICLR、ICML、NeurIPS、KDD等国际人工智能顶级会议上发表论文数十篇,谷歌学术引用量11000+。
报告摘要: 近年来,语音和全模态交互大模型已经逐渐成为整个领域最为关注的研究问题之一。阿里千问基座系列模型从QwenAudio到Qwen-Omni一系列模型,进行持续助力领域繁荣,受到了国内外学术界以及工业界的广泛关注。本报告围绕阿里千问基座音频基座系列模型为主线,介绍从Qwen-Audio基座语音大模型到Qwen-Omni系列全模态大模型的技术探索,思考和重要结论,并介绍基于最强的Qwen3-Omni衍生了一系列专有模型,包括Qwen3-ASR-Flash, Qwen3-TTS-Flash和Qwen3-LiveTranslate-Flash等。