分论坛十三：语音大模型

分论坛日程

时间	报告人	单位	报告题目
14:00 - 14:45	贾磊	百度	百度跨模态大模型的语音问答系统
14:45 - 15:30	张仕良	阿里巴巴	通义语音团队在音频理解、生成和音频多模态大模型的探索
15:30 - 15:45	茶歇
15:45 - 16:30	雪巍	香港科技大学	生成式音频大模型：扩展创意及交互的新边界
16:30 - 17:15	王育军	小米	用大模型重塑人机声音交互
17:15 - 18:00	孔常青	科大讯飞	讯飞语音技术最新进展

主席简介

sub-forum-invited

俞凯（上海交通大学）

个人简介：俞凯，上海交通大学计算机系特聘教授、智能人机交互研究所所长，思必驰公司联合创始人、首席科学家。国家“万人计划”科技创新领军人才，NSFC优青。长期从事对话式人工智能的研究和产业化工作。现任中国计算机学会理事、语音对话及听觉专委会主任，中文信息学会理事、语音信息专委会副主任，中国人工智能产业发展联盟学术和知识产权组组长，全国信标委用户界面分委会委员。

讲者简介

01 百度跨模态大模型的语音问答系统

sub-forum-invited

贾磊（百度）

个人简介：贾磊，男，1975年生人，2003年中科院自动化所获得博士学位，现任百度语音首席架构师。2010年加入百度，组建了百度语音团队，主导负责了百度内部语音搜索、语音输入法、小度音箱等一系列语音技术和产品的研发。贾磊2014年获得北京市科技进步二等奖、2015年获得全国劳模称号、2018年获得中国专利银奖、2018年和2019年贾磊两次获得电子学会一等奖、2021年获得中国国家技术发明二等奖、2022年获得人工智能学会特等奖。

演讲概要：本报告结合百度内部产品需求，详细剖析了跨模态大模型所需要解决的一系列工业和技术挑战。详细介绍了百度跨模态大模型的关键核心技术，尤其在模态间整合、端到端训练和成本速度优化方面，提出了自己的观点和见解，展示了跨模态大模型在语音问答等领域的技术产品提升的无限潜力。

02 通义语音团队在音频理解、生成和音频多模态大模型的探索

sub-forum-invited

张仕良（阿里巴巴通义实验室）

个人简介：张仕良 2017年博士毕业于中国科学技术大学。目前是阿里巴巴通义实验室资深算法专家，语音识别和基础技术方向负责人。研究曾提出DFSMN、Paraformer、SenseVoice、CosyVoice等模型，相关研究在语音领域国际期刊和会议发表超过60篇论文，十多项授权专利。研发技术被广泛应用于阿里巴巴语音实验室提供的语音API服务。DFSMN、FunASR、FunClip、SenseVocie、CosyVoice等开源项目的主要参与者。

演讲概要：本次报告主要介绍通义语音实验室最新的音频理解、音频生成和音频多模态大模型上的探索进展以及开源工作。包括音频理解大模型SenseVoice、音频生成大模型CosyVoice、语音翻译大模型Gummy以及音频多模态大模型MinMo。

03 生成式音频大模型：扩展创意及交互的新边界

sub-forum-invited

雪巍（香港科技大学）

个人简介：雪巍是香港科技大学艺术及机器创造学部及香港生成式人工智能研发中心助理教授。本科及博士分别毕业于华中科技大学及中科院自动化所。曾任帝国理工学院玛丽居里学者及助理研究员、京东AI Lab高级研究员，香港浸会大学助理教授。研究兴趣为语音与音乐智能，包括多模态基础模型、AI音乐生成、语音增强与分离、房间声学以及语音和音频事件识别等。获港府及内地多项研究资助，香港艺术科技、生成式AI重大研究专项的音频方向子课题负责人。

演讲概要：音乐和语音不仅是人类创造力的直接体现，也是情感表达及交互的关键途径。生成式音频技术包括歌声合成、歌曲创作、语音合成等，通过人机音频共创和交互，可以不断扩展人类创意和交互的可能性。本文将介绍香港科技大学在音频基础大模型的研究进展，包括：创造包含数百个虚拟歌手的人工智能合唱团；训练迅速学习不同音色的歌唱大模型，甚至可以从简单的说话录音学习歌声；实现跨语种语音合成和翻译大模型，快速学习每个人的音色并翻译成不同语种的个性化音频。

04 用大模型重塑人机声音交互

sub-forum-invited

王育军（小米）

个人简介：现任小米集团声学语音技术总监。先后在学术界和工业界从事声学语音方向20年。主要研究方向包括声音的感知，理解，生成与展现。2017年加入小米，组建声学语音团队，建立交互声学语音技术体系，将语音理解、语音生成，拾音降噪，声学测量，空间音频，声音感知技术应用在小米手机AIoT平台79个设备品类，5312个智能终端上，日均提供语音服务12.6亿次。团队先后获得多项国际声学语音挑战赛冠军，在国际行业会议上发表论文53篇。

演讲概要：声音是人与人，人与自然交互的重要模态之一。
小米有世界上最大的声音交互设备生态。在此之上，小米的声学语音团队每天为用户提供超过十亿声音交互的服务。这些交互都遵循声音信息承载，传递，转换的大模型编解码范式。
在一直坚持探索声音基础模型的建设基础上，语音识别，语音合成以及声音的还原或降噪算法以大模型新范式，更好地服务用户。本次演讲分享以下两点：
1.小米的声音交互场景和声音交互技术
2.小米声音技术的大模型的演进

05 讯飞语音技术最新进展

sub-forum-invited

孔常青（科大讯飞AI研究院）

个人简介：2015年6月毕业于中国科学技术大学，长期从事人工智能相关技术的研发和产品化工作，主要研究方向包括语音识别、语音唤醒以及自然语言处理等方向。先后带队参与语音识别算法优化、语音识别后处理算法优化、多语种语音识别系统研发、办公认知大模型研发等公司级重点项目，积累了丰富的核心技术研究、产品化和平台化的工作经验，并推动了多项成果在产品中落地，产生了良好的经济和社会效益。工作期间共申请发明专利63项，已授权12项。

演讲概要：以2023年为分界点，人工智能的发展分为大小模型两种技术路线，语音领域也是一样。作为已被广泛应用的智能语音技术，它的通用性更高，大小模型技术对于现在和未来的落地应用都非常重要，本报告将介绍讯飞最新语音技术进展，包含我们在语音大模型、语音同传等场景的持续探索。