分论坛一:大模型的理论基础
分论坛日程
| 时间 | 报告人 | 单位 | 报告题目 | |
| 08:30 - 09:10 | 袁洋 | 清华大学 | 基于拓扑斯理论的大规模软件辅助生成框架 | |
| 09:10 - 09:50 | 黄雷 | 北京航天航空大学 | 大模型下的深度学习基础理论机遇与挑战 | |
| 09:50 - 10:30 | 孔令鹏 | 香港大学 | 扩散语言模型 | |
| 10:30 - 10:40 | 场间休息 | |||
| 10:40 - 11:20 | 李帅 | 上海交通大学 | 扩散模型采样过程及训练动态分析 | |
| 11:20 - 12:00 | 刘勇 | 中国人民大学 | 大模型推理机制分析 | |
主席简介

刘勇(中国人民大学)
个人简介:刘勇,中国人民大学,长聘副教授,博士生导师,国家级高层次青年人才。长期从事机器学习基础理论研究,共发表论文100余篇,其中以第一作者/通讯作者发表顶级期刊和会议论文近60篇,涵盖机器学习领域顶级期刊Nature Communications、JMLR、IEEE TPAMI、Artificial Intelligence和顶级会议ICML、NeurIPS等。主持国家自然科学面上/基金青年、北京市交叉融通重点、科技部重点研发课题等项目。
讲者简介
01 基于拓扑斯理论的大规模软件辅助生成框架

袁洋(清华大学)
个人简介:清华大学交叉信息研究院、人工智能学院副教授。2012年毕业于北京大学计算机系,2018年获得美国康奈尔大学计算机博士学位,师从Robert Kleinberg教授。他于2018-2019年前往麻省理工学院大数据科学学院(MIFODS)做博士后。袁洋的主要研究方向是智能医疗、AI基础理论、应用范畴论,在NeurIPS,ICLR,ICML等计算机和人工智能领域顶级会议上发表论文三十余篇。曾获得福布斯中国2019年30 Under 30、2019年北京智源青年科学家等荣誉。
演讲概要:随着大语言模型编程能力的持续提升,面向编程辅助的智能体系统迅速发展,并在实际开发中展现出显著成效。Cursor、Claude Code、Base44 等代表性工具已吸引大量开发者用户。然而,当前系统仍面临两大关键挑战:其一,难以高效生成具备完整架构与高一致性的超大规模软件系统;其二,交互模式多依赖“黑盒式”对话,用户在生成过程的细节控制上缺乏透明性与干预能力,代码的调整与优化往往依赖模型的迭代重生成,而非结构化引导。本报告尝试从范畴论与拓扑斯理论的角度出发,探索如何将这些数学基础应用于辅助编程系统的架构与交互设计,以突破现有瓶颈。我们提出的框架在类型编译器的帮助下,能够支持一次性并行生成数万行、并以较高概率一次编译通过的软件系统。更重要的是,该框架为用户(包括非专业编程背景者)提供了可解释、可干预的生成路径,实现前后端代码的协同构建与细粒度控制,从而在提升生成效率的同时增强系统的透明性与可控性。
02 大模型下的深度学习基础理论机遇与挑战

黄雷(北京航空航天大学)
个人简介:黄雷,北京航空航天大学人工智能学院副教授,博士生导师。其本科和博士均毕业于北京航空航天大学,师从李未院士,曾在美国密歇根大学访学。其研究主要集中在深度神经网络基础模块与架构、训练技术,以及多模态大模型,在人工智能领域顶级会议和期刊发表论文40余篇,曾以一作兼通讯作者身份获CVPR 2020最佳论文提名奖。主持科技创新2030新一代人工智能重大项目(旗舰项目)课题、国自然面上和青年基金,获小米青年学者和智源学者等荣誉。
演讲概要:深度神经网络的万能近似能力与先进训练技术推动了深度学习的爆发式发展,并孕育以及规范化了大模型基础架构和训练方式,在Scaling-law的指导下,使得数据量、参数量和算力的 Scale 成为了大模型效果的主导因素,这大大限制了资源受限研究团队对大模型的研究。本报告首先从深度神经网络模型表达和训练优化的角度分析了目前基于Transformer架构的设计机理。然后着重强调了深度神经网络中普遍使用的 Normalization 层在模型表达能力、内部表征操控、以及训练动态性优化等方面的作用,这为构建高效的小尺寸大模型架构、设计内存高效的优化器等方面的研究提供了潜在思路。
03 扩散语言模型

孔令鹏(香港大学)
个人简介:孔令鹏,香港大学计算机科学系助理教授、博士生导师,香港大学NLP实验室联合主管,卡内基梅隆大学博士,师从ACL Fellow Noah A. Smith。曾任谷歌DeepMind研究科学家。主要研究领域为自然语言处理与机器学习,专注于生成模型及模型架构等基础研究。在ICLR、ICML、ACL等人工智能顶级会议发表论文70余篇,谷歌学术引用8000余次,曾获ACL及EACL杰出论文奖。代表成果包括扩散语言模型Dream和字节级大语言模型EvaByte。主持或参与国家自然科学基金委与研究资助局联合科研资助基金、香港创新科技基金等项目。担任ICLR、NeurIPS、ICML等顶级会议(高级)领域主席及TMLR期刊执行编辑。
演讲概要:本报告探讨自回归大语言模型(LLMs)的替代方案,特别关注离散扩散模型。报告涵盖了非自回归方法在文本生成、推理和规划任务方面的最新进展。讨论的关键发展包括重参数化离散扩散模型(RDMs),以及离散扩散在复杂推理任务如数独和象棋中的应用。报告还研究了序列到序列文本扩散模型,以及用于思维链推理的新型思想扩散(DoTs)框架。这些非自回归方法展示了具有竞争力的性能,同时相比传统自回归模型,在并行处理和灵活生成模式方面提供新的可能。
04 扩散模型采样过程及训练动态分析
李帅(上海交通大学)
个人简介:李帅是上海交通大学人工智能学院长聘副教授、约翰·霍普克罗夫特计算机科学中心副主任、上海创智学院全时导师,研究强化学习理论与方法、扩散模型与大模型分析,迄今发表论文90+篇,包含上海交通大学首篇机器学习理论顶会COLT等,其中第一/通讯作者发表CCF-A类论文40+篇。担任ICML、NeurIPS、ACL等会议领域主席与高级程序委员会委员,多次受邀于AAMAS和IJCAI给出关于在线学习的教程。主持国自然面上基金、青年基金。曾获得AAAI-IAAI Deployed Application Award(2025)、上海市扬帆人才计划、上海徐汇光启人才、华为火花奖、香港政府外展合作奖、谷歌博士奖学金、国际SAT竞赛并行求解赛道铜牌、腾讯优秀导师奖等。
演讲概要:近年来,扩散模型的采样速度与生成质量显著提升,在多个领域均表现出优异性能。然而,针对扩散模型的理论分析与设计空间仍有待深入探索。本报告从扩散模型的两大核心部分采样过程与训练动态入手,重点分析如何提升模型的采样与训练效率。在采样复杂度方面,本报告系统梳理了不同模型的特性,明确阐释了基于流的模型为何相较以往方法具有更优表现;在训练动态方面,本报告结合实际数据特征进行建模,以降低估计误差并改善优化景观。
05 大模型推理机制分析

刘勇(中国人民大学)
个人简介:刘勇,中国人民大学,长聘副教授,博士生导师,国家级高层次青年人才。长期从事机器学习基础理论研究,共发表论文100余篇,其中以第一作者/通讯作者发表顶级期刊和会议论文近60篇,涵盖机器学习领域顶级期刊Nature Communications、JMLR、IEEE TPAMI、Artificial Intelligence和顶级会议ICML、NeurIPS等。主持国家自然科学面上/基金青年、北京市交叉融通重点、科技部重点研发课题等项目。
演讲概要:近年来,大模型推理算法在效率与性能方面实现显著突破,推理速度与准确率得以大幅提升。但算法创新的热潮背后,对大模型推理内在机制的系统性探究仍显不足,致使其推理能力的认知存在诸多盲区。本报告从 “外部慢思考” 与 “内部慢思考” 双维度切入,着重剖析大模型外部推理的能力边界,以及长思维链对内部推理机制的影响,旨在为后续推理算法的优化设计夯实理论基础,突破技术桎梏,推动大模型推理能力实现新的跨越。