讲习班日程

讲习班日程

时间 题目 讲者
09:00 - 10:30 深度思考模型带来的AI基础设施挑战与机遇 章明星
10:30 - 12:00 扩散语言模型 孔令鹏
14:00 - 15:30 能力密度牵引下的大模型高效计算方法 韩旭
15:30 - 17:00 迈向更深度与更稳健的检索与自动研究 陆垚杰

01 深度思考模型带来的AI基础设施挑战与机遇

workshop-invited

章明星(清华大学)

摘要:深度思考类模型在显著提升推理能力和多步逻辑处理能力的同时,也使得输出长度大幅增长。这一趋势直接导致模型在训练与推理两个阶段的计算和资源消耗急剧上升,给现有的AI基础设施带来了前所未有的挑战。在算力紧张和成本敏感的背景下,如何提升计算资源的使用效率,已成为业界关注的核心议题。讲座内容将系统梳理当前业界主流的优化策略,并围绕以下三个维度展开深入探讨:如何更高效地利用现有GPU算力、如何挖掘算力优化以外的新突破口、以及如何通过算法与系统的协同设计推动整体性能的跃升。同时,也将探讨下一步可能的优化路径。

一、 引言:从“堆参数”到“深度思考”的范式转变

本部分介绍AI发展的趋势正从单纯扩大模型参数量,转向通过更长推理链提升智能的深度思考模型 。这种转变虽然带来了性能提升,但也对现有AI基础设施构成了前所未有的压力 。

二、 深度思考模型的兴起及其基础设施挑战

本部分以Kimi K1.5、DeepSeek R1等模型为例,说明长上下文和长输出特性是其成功的关键,同时也导致了计算、存储和带宽资源的爆炸性消耗 。报告将分别从训练和推理两个阶段剖析其核心挑战 。

三、 训练阶段:高效基础设施设计与优化

本部分探讨为支持深度思考模型训练而设计的先进基础设施方案。主要介绍通过综合多种并行策略(如序列并行、专家并行)与创新的流水线技术(如DualPipe),以解决超大模型和长序列训练中的GPU资源瓶颈 。

四、 推理阶段:“以存换算”与异构协同的架构创新

本部分聚焦于推理阶段的优化,核心思想是通过海量内存换取计算量减少 。将重点介绍以KV Cache为中心的Mooncake分离式架构,以及KTransformers等框架中利用CPU/GPU协同处理的异构计算方案 。

五、 未来展望:新兴稀疏注意力机制与系统适配

本部分展望了为解决长上下文难题而兴起的稀疏注意力机制,是未来的重要发展方向 。将简要介绍MoBA(混合块注意力)和NSA(原生稀疏注意力)等前沿算法,并强调其与硬件系统的协同设计是释放潜力的关键 。

讲者介绍:章明星,清华大学助理教授,主要从事内存系统研究,开源项目Mooncake和KTransforemers发起人。相关成果在OSDI、SOSP、ASPLOS、HPCA、EuroSys 等国际顶级会议和期刊上发表论文三十余篇,包括FAST最佳论文,SIGSOFT杰出论文,和国内高校首篇OSDI。曾获得ChinaSys新星和优博奖,IEEE TCSC优博,入选中国科协青年人才托举计划,科技部重点研发项目课题负责人。曾任深信服首席算法技术专家,创新研究院院长,相关孵化产品应用于数万家客户。

02 扩散语言模型

workshop-invited

孔令鹏(香港大学)

摘要:本报告探讨自回归大语言模型(LLMs)的替代方案,特别关注离散扩散模型。报告涵盖了非自回归方法在文本生成、推理和规划任务方面的最新进展。讨论的关键发展包括重参数化离散扩散模型(RDMs),以及离散扩散在复杂推理任务如数独和象棋中的应用。报告还研究了序列到序列文本扩散模型,以及用于思维链推理的新型思想扩散(DoTs)框架。这些非自回归方法展示了具有竞争力的性能,同时相比传统自回归模型,在并行处理和灵活生成模式方面提供新的可能。

第一部分:引言——对主流自回归模型的反思

本部分首先简要介绍当前大语言模型领域占主导地位的自回归(Autoregressive, AR)模型的工作原理,即逐词生成文本。接着,通过展示其在需要长远规划和复杂推理的任务(如PPT中提到的规划任务)中的局限性,指出这类模型的“短视”问题。这为后续探讨替代方案——非自回归模型——的必要性奠定了基础。

第二部分:核心概念——非自回归模型与离散扩散

作为对自回归模型局限性的回应,讲座的核心转向介绍非自回归(Non-autoregressive)模型,它们可以并行生成文本,而非逐词生成。本部分将重点讲解其中的一个重要分支——扩散模型(Diffusion Models),特别是为适应文本这种离散数据而设计的离散扩散模型(Discrete Diffusion)。讲座会解释扩散模型从原始数据(文本)逐步加噪,再学习从噪声中恢复出原始数据的基本思想。

第三部分:技术深入——离散扩散模型的机制与改进

这一部分将深入探讨离散扩散模型的具体技术细节。内容会涵盖其前向(加噪)和后向(去噪)过程的数学原理、模型的训练目标,以及一个关键的改进模型——可重参数化离散扩散模型(RDMs)。通过引入RDMs等技术,模型能够更有效地进行训练和解码,修复普通扩散模型在生成过程中可能卡住的问题,从而显著提升生成文本的质量,使其在某些任务上能与自回归模型媲美。

第四部分:应用与案例研究——扩散模型在复杂任务中的表现

本部分通过一系列丰富的案例,展示了离散扩散模型在解决复杂任务方面的强大潜力。这些应用场景包括:规划与推理:在路径规划、算24游戏(Countdown Game)和数独(Sudoku)等任务中,扩散模型展现了超越自回归模型的全局规划和约束求解能力。策略博弈:通过在国际象棋中的应用(Implicit Search),展示了扩散模型如何进行多步“隐式”推演,实现高效的决策。代码生成:以 Dream-Coder 7B 和 DreamOn 模型为例,展示了扩散模型在代码填充和生成任务中的灵活性和强大性能,特别是如何超越固定尺寸生成的限制。

第五部分:前沿探索——“思维扩散”与未来展望

最后,讲座将展望该领域的未来发展方向。重点介绍一个名为“思维扩散”(Diffusion of Thoughts, DoTs)的前沿概念。该方法将扩散模型应用于模拟人类的逐步推理过程(Chain-of-Thought),使模型能够在推理路径上进行迭代和自我修正,从而提升在复杂问题上的解决能力。此外,还会简要提及如 EvaByte 这样的下一代字节级(Tokenization-Free)模型,预示着语言模型发展的下一个可能方向。

讲者简介:孔令鹏,香港大学计算机科学系助理教授、博士生导师,香港大学NLP实验室联合主管,卡内基梅隆大学博士,师从ACL Fellow Noah A. Smith。曾任谷歌DeepMind研究科学家。主要研究领域为自然语言处理与机器学习,专注于生成模型及模型架构等基础研究。在ICLR、ICML、ACL等人工智能顶级会议发表论文70余篇,谷歌学术引用8000余次,曾获ACL及EACL杰出论文奖。代表成果包括扩散语言模型Dream和字节级大语言模型EvaByte。主持或参与国家自然科学基金委与研究资助局联合科研资助基金、香港创新科技基金等项目。担任ICLR、NeurIPS、ICML等顶级会议(高级)领域主席及TMLR期刊执行编辑。

03 能力密度牵引下的大模型高效计算方法

workshop-invited

韩旭(清华大学)

摘要:随着大模型规模与数据量的持续扩张,模型能力提升与资源消耗之间的瓶颈日益突出,传统单一堆叠参数和数据的模式已难以为继,亟需探索更为高效的大模型技术。本报告围绕提升大模型的能力密度这一关键目标展开,以期在单位计算成本下实现最大的模型智能。围绕上述目标,报告将探讨三个核心技术方向:一是训练数据的精细化过滤,通过构建层级化质量过滤与合成,摒弃低效冗余数据,通过数据知识密度的提升来促进模型能力密度的提升。二是模型架构的稀疏化重构,通过对注意力层与前馈层的组件进行稀疏化重构,在模型能力不显著下降的条件下,大幅减少模型计算存储开销。三是进行训推框架的算法优化,通过对分布式训练、推理算法的深度优化,结合底层算子级优化操作,大幅提升模型的训练和推理效率。

第一部分:大模型架构的稀疏化重构

本部分介绍如何通过重塑模型内部结构,实现计算效率提升。本部分将重点介绍当前在原生稀疏注意力和细粒度混合专家模型上的最新进展,深入探讨如何在持续扩大模型总参数规模的同时,利用其内生稀疏计算特性,有效控制训练与推理过程中的实际计算量,并解析影响模型稀疏度的关键要素,从而在保持核心任务性能的同时,构建更为高效的大模型架构。

第二部分:大模型训推框架效率优化

本部分介绍如何软硬协同地提升大模型计算效率。本部分在介绍分布式训练与推理的基础算法之上,进一步探讨面向长上下文场景的高效算法设计,并特别关注在强化学习等训推一体化场景中的独特优化策略,探讨如何在保证模型训练质量与推理精度的前提下,显著提升数据吞吐、降低计算延迟,实现计算资源效用的最大化。

第三部分:提升大模型能力密度的新方向

本部分将展望异于当前主流技术路线的潜力方向,探讨可能重塑大模型计算模式的理念,包括线性模型、非自回归模型等新技术路径,分析这些技术演进将如何有利于提升模型能力密度,并评估其在未来智能技术发展中的前景。

讲者介绍:韩旭,清华大学计算机系助理研究员,研究方向为自然语言处理、知识工程、大模型、智能计算系统,在国际学术会议及期刊发表论文数十篇,Google Scholar他引1.4万余次,曾获教育部自然科学奖一等奖、世界互联网大会领先科技奖等奖项,曾入选博士后创新人才支持计划、中国计算机学会(CCF)优博激励计划、清华大学优秀博士后、《麻省理工科技评论》中国区“35岁以下科技创新35人”榜单等荣誉。创建大模型开源社区OpenBMB,开源MiniCPM系列端侧大模型,系列模型累计已有1300万余下载量、2万余GitHub星标,多次登顶GitHub与HuggingFace的Trending榜单,是国内外最具代表性的端侧大模型之一。

04 迈向更深度与更稳健的检索与自动研究

workshop-invited

陆垚杰(中国科学院软件研究所)

摘要:随着大语言模型与检索增强生成技术的不断发展,信息检索和自动研究正在迈向更加深度化、智能化与鲁棒化的新阶段。未来的搜索系统不仅需要精准地定位海量信息,更要能够理解复杂语境、整合多源知识、并支持跨领域的推理与探索。本报告将系统回顾相关技术,探讨如何构建面向开放问题的鲁棒检索与自动研究系统。本报告还将分析当前方法在可解释性、偏差控制与抗干扰能力上的挑战,并提出迈向更可信赖、更可扩展的未来检索和自动研究的思考与展望。

第一部分:大模型驱动的搜索(LLM4Search)

本部分介绍大模型如何重塑传统的信息检索范式。一方面,借助大模型的语义理解与生成能力,增强传统信息检索流程,通过改进查询理解、文档表示和数据扩充提升检索效果;另一方面,随着大模型本身成为检索的核心基座,其直接承担了文档索引、向量编码和重排序等关键任务。

第二部分:深度搜索(Deep Search)

本部分系统梳理了深度搜索的核心思想与技术进展。面对复杂任务和大规模知识空间,深度搜索通过结合规划推理、动态记忆与多跳检索,实现了从“被动查询”到“主动探索”的能力跃升。本部分将重点分析推理、记忆与检索的融合机制,归纳当前系统的挑战,并展望发展方向。

第三部分:深度研究 (Deep Research)

本部分阐述深度研究的概念与实现路径。Deep Research 旨在推动大模型从“知识问答”走向“知识研究”,通过事实检索、证据组织、结论验证与洞察生成,构建系统化的研究闭环。其核心目标是让系统能够自主组织与验证所获取的知识,从而具备“发现事实—组织证据—验证结论—生成洞察”的研究能力。

讲者介绍:陆垚杰,中国科学院软件研究所副研究员,博士毕业于中国科学院大学。主要研究方向为大模型在预训练、后训练与推理阶段的知识机制与知识增强。近年来在 Artificial Intelligence (AIJ)、ACL、AAAI、ICLR、ICML、NeurIPS 等国际顶级会议和期刊发表论文五十余篇。学术服务方面,多次担任 ACL、EMNLP、ICLR、AAAI 等国际会议的审稿人和领域主席。主持和参与多项国家级、部委级科研项目、企业合作项目。曾获中国科学院院长特别奖,并入选中国中文信息学会优秀博士论文。

会议组织

讲习班主席:

肖桐(东北大学)、 刘康(中科院自动化所)、 林鸿宇(中科院软件所)