特邀报告

大模型的极限理论:解读智能涌现现象

invited

报告讲者：徐宗本院士（西安交通大学、鹏城实验室/琶洲实验室（黄埔））

报告时间：11月29日 10:40-11:20

报告题目：大模型的极限理论:解读智能涌现现象

报告摘要：以大模型为特征的生成式人工智能近年来迅猛发展，正深刻影响并变革着科学技术的研究范式与工业革命进程。按照流行的认识,大模型的能力之所以强大源自它可能存在的智能涌现(Intelligent Emergence)。然而,什么是智能涌现? 是什么要素摧生了智能涌现?大模型在什么情况下才会出现智能涌现? 对这些问题充满着疑惑和争论。本报告提出一个数学框架和数学理论来对此加以解析。我们的核心思想是: 利用三元随机函数ℰ(N, P, ∂ℓ)来度量大模型泛化性, 利用 ℰ(N, P, ∂ℓ)的极限行为/极限速度 (N→∞, P→∞, ∂ℓ→0)来度量大模型的尺度变化律(Scaling Law),并以此为基础来解译智能涌现，这里N 是用以训练大模型的数据规模, P是模型尺寸(包含参数个数), ∂ℓ是训练损失达到极小的程度。我们定义“极限架构”这一无穷维系统概念,说明大模型智能涌现的新特征/新行为即是该极限架构的特征和行为(其泛化能力由ℰ(∞, ∞,0)度量)。我们提出ℰ(N, P, ∂ℓ)- ℰ(∞, ∞,0)的标准误差分解, 即将其分解为权值误差ℰ(N, P, ∂ℓ)- ℰ(N, P, 0)，架构误差ℰ(N, P, 0)- ℰ(N, ∞, 0)和样本误差ℰ(N, ∞, 0)- ℰ(∞, ∞,0)之和, 然后分别应用随机逼近工具、非线性$\text{Lipschitz}$算子工具, 无限维$\text{Bayes}$估计工具来对这些误差进行估计。最终,我们获得了大模型泛化误差的如下极限速度估计:
∣ℰ(N, P, ∂ℓ)- ℰ(∞, ∞,0)
$\le\beta(N,P)^{\frac{1}{‖∂\ell‖^2}}{+\mathcal{O}(\ (Lip\left(T\right))}^P)\vee\mathcal{O}\left(e^{-m\left(A\right)\ln{P}}\right)+{\mathcal{O}(N}^{-\frac{\alpha+\kappa}{2\alpha+2\kappa+d}})$
其中，$\beta\left(N,P\right)<1$（随$N,P$趋于无穷趋于$1$），$Lip\left(T\right),m(A)$分别是大模型基块的$\text{Lip}$数和$\text{Dahlquits}$数，$\alpha$是真解的光滑性程度,$\kappa$是与网络架构组装方式相关的常数,$d$是数据的维数。
根据这一估计, 我们发现: 1）大模型泛化性能与模型规模的尺度率在亚指数率与指数律之间；2）大模型泛化性能与训练数据规模的尺度率为亚指数率；3）当大模型的权值最优设定,而且其基块满足$Lip\left(T\right)<1$或$m\left(A\right)>0$时，模型规模、训练数据规模趋于无穷将导致大模型出现智能涌现。
对于线性大模型情形, 我们进而应用大维随机矩阵理论详细刻画了大模型的极限行为, 导出了模型尺寸与训练数据规模的最优配置律，展现了大模型完全不同于小模型的统计学习规律。最后, 我们提出与本研究直接关联的系列公开问题。

个人简介：徐宗本，中国科学院院士，数学家、信号与信息处理专家、西安交通大学教授。主要从事智能信息处理、机器学习、数据建模基础理论研究。曾提出稀疏信息处理的L(1/2)正则化理论,为稀疏微波成像提供了重要基础；发现并证明机器学习的“徐-罗奇”定理, 解决了神经网络与模拟演化计算中的一些困难问题,为非欧氏框架下机器学习与非线性分析提供了普遍的数量推演准则; 提出基于视觉认知的数据建模新原理与新方法，形成了聚类分析、判别分析、隐变量分析等系列数据挖掘核心算法, 并广泛应用于科学与工程领域。曾获国家自然科学二等奖、国家科技进步二等奖、陕西省最高科技奖; 国际IAITQM 理查德.普莱斯(Richard Price)数据科学奖;中国陈嘉庚信息技术科学奖、华罗庚数学奖、苏步青应用数学奖；曾在2010年世界数学家大会上作45分钟特邀报告。
曾任西安交通大学副校长。现任鹏城国家实验室广州基地/琶洲实验室（黄埔）主任、陕西国家应用数学中心主任、大数据算法与分析技术国家工程实验室主任。是国家大数据专家咨询委员会委员、国家新一代人工智能战略咨询委员会委员。

藏语语言智能

invited

报告讲者：尼玛扎西院士（西藏大学）

报告时间：11月29日 11:20-12:00

报告题目：藏语语言智能

报告摘要：藏语语言智能是通过自然语言智能处理方法与技术，对藏语文本、语音和图像等多模态数据进行处理、理解和生成的技术，是藏语智能研究的重要内容。目前已有许多藏语语言智能领域的研究和应用，但是在机器翻译、语音处理和文字识别等方面仍然存在许多痛点问题有待进一步解决。报告介绍了相关研究项目在领域数据不平衡条件下的多模态藏汉机器翻译、藏语多方言语音识别、多场景藏文多风格字体文字识别等方面的研究进展及成果。同时简要介绍了藏语大模型的研究情况。

个人简介：尼玛扎西，中国工程院院士，西藏大学教授，长期从事语言智能和自然语言处理研究与工程实践。主持国家重点研发计划重点专项、新一代人工智能国家科技重大专项等科研课题30余项，在计算机藏文编码和计算语言学理论方法以及藏文古籍文献数字化、藏语自然语言处理、计算机操作系统和移动操作系统藏文处理等技术研究和应用领域取得系列系统性成果。获国家科技进步奖二等奖、全国创新争先奖状、西藏自治区科学技术奖杰出贡献奖、何梁何利基金科学与技术创新奖和西藏自治区科学技术奖一等奖等十余项科技奖励。

让算力更加容易更加便宜

invited

报告讲者：熊焰总裁（北京产权交易所）

报告时间：11月29日 14:10-14:40

报告题目：让算力更加容易更加便宜

报告摘要：
一、人工智能的尽头是算力
算力是人工智能革命的主动力、前置条件和关键制约。大模型的问题是能效比太低，供给侧现有能源系统无法支撑这样的算力需求，需求侧关键是要形成有规模的经济需求，重点是如何降低算力成本。
算力成本高企的原因主要是由于美国打破了国际合作的格局，中国在硬件、软件方面的差距非常明显。电力占了算力成本的1/3，发挥中国的绿电优势，把算力成本降下来是关键，其中提高算力中心的使用效率是核心问题。
二、中美博弈的上甘岭
为了限制中国算力，美国可以说是无所不用其极，中国奋起抗争，突破算力瓶颈。
三、算力交易平台呼之欲出
如何用技术手段为更容易使用算力创造条件，通过竞争和透明降低算力价格。算力交易已经成为刚需，要跨过算力交易平台的门槛，要掌握MLOPS技术、算力调度技术，理解小b和c端的需求，提供互联网产品服务，成为国产算力的使用通道。算力交易平台既不是供给方，也不是需求方，也不是第三方中介机构，是构建交易环境的中立第四方。算力交易平台的客户定位要为数以百万计的小B和数以千万计的C端学习者开发者服务。算力自由的愿景是让算力像电力一样便捷、自由地使用。

个人简介：熊焰，中国电子商会元宇宙专委会理事长、北京信息协会元宇宙工委会理事长、元宇宙碳中和研究院院长、国富资本董事长、算力自由创始人、哈工大北京校友会会长。
曾任北京金融资产交易所董事长、总裁，中国银行间市场交易商协会副秘书长，兼任中国并购公会副会长，中国股权投资基金协会副会长，中国财富管理50人论坛联席总干事，亚杰商会会长等。
曾历任哈尔滨工业大学团委书记、副教授，团中央高新技术产业中心主任，中关村百校信息园有限公司总裁、中关村技术产权交易所总裁，北京环境交易所董事长、中国技术交易所董事长。北京产权交易所党委书记、董事长。
拥有三十多年企业管理和市场运作经验；长期从事国有产权、金融资产交易管理工作，国内要素交易所专家；专注于数字产业、碳中和、商业航天领域投资与研究。著有《资本盛宴》、《低碳之路》、《低碳转型路线图》、《中国流》、《元宇宙与碳中和》等专著。

AI时代的智能云技术挑战

invited

报告讲者：杨振华部长（华为技术有限公司）

报告时间：11月29日 14:40-15:10

报告题目：AI时代的智能云技术挑战

报告摘要：在人工智能技术迅猛发展的当下，AI大模型等技术不断重塑各行业的格局，云计算作为AI时代的算力基座和使能平台，需要面向AI负载构建更加智能化的云计算技术能力。本次报告将概括介绍华为云计算业务、团队局部以及华为云创新实验室，总结并分享面向未来AI时代的智能云技术挑战。

个人简介：杨振华，华为云计算技术创新部部长，华为云资深技术专家，曾任华为下诺夫哥罗德研究所所长。目前负责华为云创新研发竞争力构建，带领团队从AI系统、计算网络、存储、数据库、媒体、具身智能等技术方向突破创新。

具身智能-感知（P），想象（I），执行（E）PIE方案与具身大模型探索

invited

报告讲者：卢策吾教授（上海交通大学）

报告时间：11月29日 15:10-15:40

报告题目：具身智能-感知（P），想象（I），执行（E）PIE方案与具身大模型探索

报告摘要：该讲座介绍讲者具身智能PIE方案。P（Perception）介绍讲者机器人全感知与交互感知工作。I（Imagination），介绍讲者的物理世界概念驱动仿真推理框架。E（Execution）介绍讲座通用元操作技能设想与工作。基于上述三个模块，介绍具身PIE大模型探索与初步成果。最后介绍具身认知智能工作，如何验证脑神经行为与身体行为稳定隐射关系。

个人简介：卢策吾，上海交通大学教授，长江学者特聘教授，科学探索奖获得者，2016年获海外高层次青年引进人才，2018年被《麻省理工科技评论》评为35位35岁以下中国科技精英（MIT TR35），2019年获求是杰出青年学者，2020年获上海市科技进步特等奖（第三完成人），2022年获教育部青年科学奖，IROS最佳论文之一（6/3579），2023年获机器人顶会RSS最佳系统论文提名奖（共四项），科学探索奖。以通讯作者或第一作者在《自然》，《自然·机器智能》，TPAMI等高水平期刊和会议发表论文100多篇；担任Sicence正刊，Nature子刊，Cell子刊等期刊审稿人，NeurIPS，CVPR，ICCV ，ECCV，IROS ，ICRA领域主席。研究兴趣包括具身智能，计算机视觉。

Vidu视频大模型创新及应用

invited

报告讲者：朱军教授（清华大学）

报告时间：11月29日 15:40-16:10

报告题目：Vidu视频大模型创新及应用

报告摘要：Vidu于4月27日正式发布，是首个全面对标Sora的视频大模型，能够高效生成高一致性、强动态性、符合物理规律的视频片段。Vidu是构建在团队提出的首个将扩散模型与Transformer融合的架构U-ViT之上。本报告将介绍Vidu视频大模型的底层技术原理、3D与4D内容生成以及基于Vidu的视频创作等最新进展。Vidu的在线版本：https://www.vidu.studio/

个人简介：朱军，清华大学计算机系博世人工智能冠名教授、AAAI/IEEE Fellow、清华大学人工智能研究院副院长，曾任卡内基梅隆大学兼职教授。主要从事机器学习研究，发表CCF A类会议/期刊论文百余篇，谷歌学术引用3.6万余次；担任国际著名期刊IEEE TPAMI的副主编，担任ICML、NeurIPS、ICLR等（资深）领域主席20余次；曾获中国科协求是杰出青年奖、科学探索奖、陈嘉庚青年科技奖、中国计算机学会自然科学一等奖、吴文俊人工智能自然科学一等奖、ICLR国际会议杰出论文奖等，入选国家级高层次人才计划、IEEE AI 10 to Watch等。

中国电信星辰大模型研发与应用实践

invited

报告讲者：孙皓博士（中国电信）

报告时间：11月29日 16:30-17:00

报告题目：中国电信星辰大模型研发与应用实践

报告摘要：在人工智能技术迅猛发展的当下，大模型的发展趋势呈现出多元化特点，正在不断重塑各行业的技术生态。中国电信研发的星辰基础大模型体系，实现了语义、语音、视觉和多模态大模型的全栈自主可控，在基础能力创新、开源共享和产业落地等方面均取得了较大突破。本报告将分享在星辰基础大模型研发过程中的思考、探索与实践，以及对未来研究的展望。

个人简介：孙皓，中国电信人工智能研究院院长助理，主要研究方向为预训练基础模型、多模态理解与生成和计算机视觉。牵头打造中国电信10000+星河算法仓和星辰基础大模型，实现大模型全栈自主可控和规模商用。主持承担多项国家重大专项课题及任务，担任多所高校研究生企业导师，带领团队获得二十余项国际AI竞赛冠亚军。

长期记忆，AI 自进化的基石

invited

报告讲者：姜迅副总裁（盛大AI）

报告时间：11月29日 17:00-17:30

报告题目：长期记忆，AI 自进化的基石

报告摘要：Compared to the large-scale data used to train LLMs, self-evolution may rely on limited data or interactions. Inspired by the columnar organization of the human cerebral cortex, we hypothesize that AI models could develop emergent cognitive capabilities and construct internal representational models through iterative interactions with their environment. To achieve this, we propose equipping models with Long-Term Memory (LTM) to store and manage processed real-world interaction data. LTM enables the representation of long-tail individual data in statistical models and facilitates self-evolution by supporting diverse experiences across various environments and agents. We examine the role of LTM as a key mechanism for enabling lifelong learning in AI systems, allowing models to continually evolve based on accumulated interactions and experiences. We classify various approaches for constructing personalized models using LTM data and discuss how models enhanced by LTM can achieve self-evolution through interaction with their environments. Based on LTM, our multi-agent framework, OMNE, achieved first place on the GAIA benchmark.

个人简介：Xun returned to Shanda Group in October 2023 as a Vice President, building and leading an AI team. Beyond founding the AI team, Jiangxun is responsible for strategy, technical architecture, and ecosystem development.
Prior to rejoining Shanda Group, he served as the Dean of the Data Research Institute at CloudWalk Technology (云从科技), where he played a pivotal role in the company’s journey from startup to its public on the Science and Technology Innovation Board (STAR Market) in China. Earlier in his career, Jiangxun co-founded Suzhou Medical Cloud Health, served as the Vice President of Ping An Health, was a Senior Director at Shengda Innovation Institute, and held the position of Technical Director at Alibaba’s Data Platform. Jiangxun is an alumnus of Zhejiang University, where he laid the educational foundation for his distinguished career in technology and innovation.