分论坛十三:大模型与智能体
分论坛日程
| 时间 | 报告人 | 单位 | 报告题目 | |
| 14:30 - 15:00 | 东昱晓 | 清华大学 | AgentRL:智能体基座大模型的强化扩展框架与算法 | |
| 15:00 - 15:30 | 魏忠钰 | 复旦大学 | 大模型智能体驱动的社会模拟中的关键问题研究 | |
| 15:30 - 16:00 | 陈思衡 | 上海交通大学 | 学术大师是如何炼成的 | |
| 16:00 - 16:30 | 王琰 | 腾讯AI Lab | 冥想盆范式: 让LLM握住操纵记忆和解码的魔杖 | |
| 16:30 - 17:30 | 杨雪 | 阿里巴巴国际商业集团 | ComfyUI-Copilot: 智能体系统协作的多层控制机制研究 | |
| 17:30-18:00 | 程鹏宇 | 阿里巴巴夸克大模型团队团 | 深度搜索智能体的自我博弈演进方法 | |
主席简介

王龙跃(阿里巴巴国际商业集团)
个人简介:阿里国际担任高级算法专家,多语言大模型与应用负责人。曾就职于腾讯人工智能实验室。于2018年获得都柏林城市大学博士学位,被欧洲机器翻译学会授予2018年最佳博士论文奖。主要从事大模型、智能体、机器翻译、多模态等方向的研发工作,在Nature Communications、TPAMI、ICML、ACL等国际期刊和会议上发表论文六十余篇,曾获ACMMM2024最佳论文提名,累计申请专利五十项。总引用6000次。在WMT等国际学术比赛中获得11项冠军。担任IEEE 高级会员、ACL领域主席。

钱忱(上海交通大学)
个人简介:钱忱,上海交通大学人工智能学院副教授,博士生导师,2021 年获得清华大学工学博士学位,研究方向包括大语言模型、自主智能体、多智能体系统。曾在清华大学博士后流动站和腾讯人工智能平台部从事研究工作,并入选清华大学“水木学者”和腾讯“技术大咖”人才计划。主持中国博士后面上项目、国家资助博士后研究人员计划、腾讯犀牛鸟专项研究等,成果发表于 NeurIPS、ICLR、ACL、SIGIR 等人工智能相关领域的国际顶级会议上,并担任领域主席或审稿人。主导研发的多智能体系统 ChatDev 率先将大模型协作应用于自主任务解决,是大模型智能体领域的代表性工作之一;该成果曾多日位列 GitHub Trending 榜首,累计获得超过两万次星标关注与三千次分支复刻,全球相关推文和视频阅读量超五十万次,并被英伟达评为五大面向企业应用的典型智能体框架。
讲者简介
01 AgentRL:智能体基座大模型的强化扩展框架与算法

东昱晓(清华大学)
个人简介:东昱晓,清华大学计算机系副教授,研究方向为基础大模型、智能体、数据挖掘,曾工作于脸书人工智能和微软总部研究院。学术成果应用于多个大模型产品和系统,获WWW22、WWW19、WSDM15、ECML-PKDD22最佳论文或候选,多篇KDD、WWW文章为当年会议最高引用工作。入选2024年清华大学“清韵烛光-我最喜爱的教师”(每两年10位),获2022 ACM SIGKDD青年科学家奖。
演讲概要:基础大模型在意图理解、深度推理、目标规划等方面展现出强大的泛化能力,为智能体的研究和应用提供了通用模型基座。报告将分享我们在基座大模型智能体强化学习方向的探索。在训练框架层面,提出多轮、多任务智能体强化学习框架AgentRL,支持异步高效训练,实现异构环境的可扩展强化学习(RL Scaling);在基础能力层面,设计面向测试时扩展的强化学习算法T1及视觉专家模型CogVLM,提升智能体基座模型的推理与多模态感知能力;在应用场景层面,构建手机智能体MobileRL和上网智能体WebRL,提升大模型在复杂智能体任务中的交互能力。相关工作应用于多个大模型和智能体产品等。
02 大模型智能体驱动的社会模拟中的关键问题研究

魏忠钰(复旦大学)
个人简介:魏忠钰,复旦大学大数据学院副教授、博士生导师、数据智能与社会计算(Fudan DISC)课题组负责人,上海创智学院全时导师,香港中文大学博士。主要研究领域包括多模态大模型和社会模拟,在ICML、ICLR、ACL等国际期刊会议发表学术论文100余篇,代表成果包括图文混合的多步推理大模型Volcano和国内首个开源社会媒体仿真框架HISim。担任ACL 2023,EMNLP 2024,NAACL 2025和AACL 2025高级领域主席(SAC),担任YSSNLP 2019,CCAC 2023和NLPCC 2024程序委员会主席。担任CCF 自然语言处理专委会副秘书长,CIPS情感计算专委会秘书长,曾任CIPS青工委执委会副主任,获得CIPS社会媒体处理专委会新锐奖,上海市启明星计划,CCF自然语言处理专委会新锐学者奖,上海市青年教师教学比赛优秀奖,入选“AI100青年先锋”榜单。
演讲概要:传统的社会科学研究通过问卷调查和行为实验等方法来研究社会现象。对于人类实验员的依赖,使得传统实验方法在可扩展性、成本控制和伦理风险规避等方面存在局限性。随着大模型技术的发展,学术界也见证了generative agents,oasis,socioverse,onesim等社会模拟器的出现。使用大模型进行大规模社会模拟存在个体模拟准确度不够、模拟效率低的挑战。本次报告将引出大模型社会模拟中的一些关键问题,并介绍报告人课题组的相关工作。
03 学术大师是如何炼成的

陈思衡(上海交通大学)
个人简介:陈思衡,上海交通大学人工智能学院副教授、博导,美国卡内基梅隆大学(CMU)博士,入选国家级人才计划青年项目,曾就职于美国UBER ATG自动驾驶部门。承担了基金委原创探索项目、面上项目,科技部人工智能2030重大项目课题,上海市科委人工智能专项等科研项目。研究聚焦多智能体系统,在Nature Communications, Nature Computational Science, Cell Patterns, T-PAMI, NeurIPS, ICML, ICLR, CVPR等期刊和会议上发表了百余篇论文, 谷歌引用1万余次。曾获得IEEE信号处理协会最佳青年作者论文奖,ASME结构检测协会最佳论文Runner-Up奖,2018 GlobalSIP会议最佳论文奖,三菱电机实验室总统奖等。
演讲概要:本报告聚焦人工智能驱动下的科研范式革命,重点呈现SciMaster——旨在实现“搜读算做写”全流程闭环的通用科研智能体。报告将展示 SciMaster 在人工智能、理论物理等前沿领域的最新突破与实践成果,揭示其如何加速科研发现、生成创新假设、优化实验流程,并整合跨学科知识。与此同时,报告探讨科研智能体在提升科研效率、推动协作创新、建设开放科学生态中的巨大潜力,为科研智能体助力科学探索提供全新视角与实践指南,引领科研智能化的未来潮流。
04 冥想盆范式: 让LLM握住操纵记忆和解码的魔杖

王琰(腾讯AI Lab)
个人简介:腾讯AI Lab专家研究员。前米哈游LLM团队(上海)负责人。曾获ACL 2021杰出论文奖,IEEE Trans on Games 2025最佳论文提名。做出过Temp-Lora、Block-Attention、HPD(哈利波特角色扮演对话)、Contrastive Search、Copy is All You Need等一系列业界知名工作,并在SIGIR2022, IJCAI 2022和 IJCAI 2025开展RAG和Role-Play相关Tutorial。他开发的游戏解说及角色对话agents已在王者荣耀和三角洲行动等游戏中大规模应用。目前他及他的团队正致力于探索拥有无限长记忆的下一代基座模型架构。
演讲概要:在《哈利·波特》的世界里,邓布利多使用冥想盆来存储、回顾以及分享海量记忆。而在当前的LLM领域,我们虽然拥有了强大的“冥想盆”——成熟的数据库与检索系统,但模型自身却仿佛缺少一根能够自如操作的“魔杖”,只能被动地接受人类通过所谓的上下文工程为其手动设计的输入文本作为其全部记忆。 本报告的核心思想正是为LLM装配上这根缺失的魔杖,赋予其前所未有的自主性。这根魔杖的魔力体现在两个关键层面: 第一,操纵记忆的魔杖: 我们将探讨一种全新的状态化语言模型(StateLM)。它不再是被动的信息接收者,而是通过一个内置的推理循环和一套记忆管理工具集(如动态索引、上下文修剪、笔记记录等),学会了主动管理自身的上下文。这种范式让模型得以从固定上下文窗口的“架构牢笼”中解放出来,能够自主决定“记住什么”、“遗忘什么”,实现对记忆的动态、高效掌控。 第二,操纵解码的魔杖: 拥有了记忆,我们进一步将魔杖的控制力延伸至模型的生成过程。传统的LLM依赖于人工设定的、静态的超参数(如温度和top-p)来控制生成文本的风格,这使得“端到端”的理念名不副实。我们将介绍一种创新的参数化解码机制,让LLM在生成每个token时都能自主预测并调整解码策略,摆脱对人工调参的依赖,实现真正端到端的、风格可控的文本生成。 通过将记忆和解码的控制权交还模型,“冥想盆范式”将推动LLM从被动的预测器,向能够管理自身状态的通用AGI实体演进。
05 ComfyUI-Copilot: 智能体系统协作多层控制机制的探索与实践

杨雪(阿里巴巴国际商业集团)
个人简介:博士,现任职于阿里巴巴国际商业集团,研究聚焦于大语言模型与多智能体系统,致力于探索智能体在生成式系统中的结构化控制、上下文优化与协作范式创新。
演讲概要:当前基于大语言模型(LLM)的多智能体系统在复杂任务场景中面临显著的协作瓶颈:子 Agent 与工具的调用难以精准对齐,多 Agent 间存在循环调用与误差传递,上下文易在高维交互中超限失效。本文提出一种基于 MCP的智能体—系统协作框架,以 ComfyUI-Copilot 为实验载体,构建出智能体在系统级工作流中的多层控制机制。与传统仅限语言交互的智能体体系不同,ComfyUI-Copilot 通过 MCP 将智能体的推理意图结构化映射为系统可执行指令,实现了从语义层到系统层的连续控制。系统由 Master、Parameter、Debug、Rewrite 与 Link 五类 Agent 构成,各智能体在任务分解、错误修复、参数调优与图结构重构等方面形成分工协同。研究提出“协作上下文工程(Collaborative Context Engineering)”机制,通过上下文裁剪、状态绑定与指纹追踪确保多智能体推理间的信息一致性与执行稳定性。实验表明,该框架在复杂视觉工作流的自动生成的调试与修复任务中显著提升了任务成功率与调用可控性。
06 深度搜索智能体的自我博弈演进方法

程鹏宇(阿里巴巴夸克大模型团队)
个人简介:阿里巴巴夸克基座大模型团队强化学习负责人,原Kimi月之暗面RL & Agent团队成员,腾讯AI实验室及混元大模型团队高级研究员,腾讯技术大咖。于杜克大学电子计算机工程系和清华大学数学系分别获得博士和学士学位。现任ACL 2025程序委员会领域主席,多次担任ICML/ICLR/NeurIPS等顶级会议审稿人。
演讲概要:基于可验证奖励的强化学习(RLVR)已成为训练大型语言模型智能体的主流技术。然而,传统RLVR高度依赖于精心设计的任务查询和相应的真实答案来提供准确奖励,这需要大量人工努力,阻碍了强化学习的扩展进程,尤其在智能体场景下。尽管最近一些工作探索了任务合成方法,但合成智能体任务的难度难以控制,无法为强化学习训练提供有效的优势。为实现更有效的智能体训练,我们探索了面向深度搜索智能体的自博弈训练方法。在这种方法中,LLM利用多轮搜索引擎调用,既充当任务提出者又充当问题解决者。任务提出者旨在生成具有明确定义的真实答案且任务难度逐步增加的深度搜索问题。问题解决者则尝试处理生成的搜索查询并预测正确的真实答案。为确保每个提出的搜索查询具有准确的真实答案,我们收集出题者轨迹中的所有搜索结果作为外部知识,然后进行检索增强生成(RAG),以测试在提供所有必要搜索文档的情况下,所提出的查询是否能被正确回答。在我们的搜索自博弈(SSP) 框架内,提出者和解决者通过竞争与合作共同进化其智能体能力。大量实验结果表明,在从零开始和持续强化学习训练设置下,SSP能够在没有任何监督的情况下,显著且一致地提升搜索智能体在各种基准测试上的性能。