分论坛五:大模型深度推理

分论坛日程

时间 报告人 单位 报告题目
14:30 - 15:10 郭琦鹏 上海人工智能实验室 深度推理在科学场景中的进展与挑战
15:10 - 15:50 蒋勇 阿里通义实验室 通义DeepResearch:从聊天机器人到自主智能体
15:50 - 16:30 王玮 美团LongCat团队 LongCat-Flash-Thinking:面向高效推理的深度思考模型
16:30 - 16:40 场间休息
16:40 - 17:20 章明星 清华大学 价值工程视角下的模型推理优化
17:20 - 18:00 张倬胜 上海交通大学 大模型智能体推理机制分析:从表层推理到言行合一

主席简介

sub-forum-invited

桂韬(复旦大学)

个人简介:桂韬,复旦大学副研究员、博导,国家级青年人才。研究领域为自然语言处理与大模型。曾获钱伟长中文信息处理科学技术奖一等奖、NeurIPS2023大模型对齐最佳论文奖,入选第七届中国科协青年人才托举工程、上海市启明星计划、NLPCC青年新锐奖。

sub-forum-invited

陈科海(哈尔滨工业大学(深圳))

个人简介:陈科海,哈尔滨工业大学(深圳)计算机学院/计算与智能研究院教授,博士生导师,国家级青年人才。2024年获“钱伟长中文信息处理科学技术奖”科技进步一等奖,2022年获北京市科技进步二等奖,2020年获中国中文信息学会“优秀博士学位论文”奖,主要研究方向为大语言模型、自然语言处理、智能体、多模态等,在ACL、NeurIPS、AAAI、IJCAI、ICLR等国际会议和期刊发表论文90余篇。曾担任自然语言处理国际会议ACL、EMNLP、NAACL等(高级)领域主席、人工智能国际会议AAAI、IJCAI资深程序委员和IJCNLP-AACL-2023研讨会主席。在研主持多项国家、省市级科研项目。

讲者简介

01 深度推理在科学场景中的进展与挑战

sub-forum-invited

郭琦鹏(上海人工智能实验室)

个人简介:上海人工智能实验室青年科学家,研究方向是大模型、文本生成、信息抽取。博士毕业于复旦大学,曾任亚马逊云科技上海人工智能研究院应用科学家,在法国国家信息与自动化研究所举办的WebNLG 2020信息描述比赛中带队斩获第一名,在ACL、EMNLP、AISTATS、AAAI等会议上发表50多篇学术论文,引用超5500次,并担任EACL、ARR的Senior Area Chair。参与研发书生(InternLM、Intern-S1)系列大模型,负责InternLM3、Intern-S1的文本预训练。

演讲概要:近期具备深度推理能力的大模型在以数学和代码为代表的任务场景中取得了显著效果,已经可以求解数学和编程领域奥赛级别的题目。出色的推理能力吸引了越来越多科研工作者在自己的研究领域尝试使用大模型。本次分享主要介绍上海人工智能实验室近期发布的科学多模态大模型Intern-S1,我们在科学领域实现深度推理的技术经验,以及深度推理技术在复杂科学场景中面临的挑战。

02 通义DeepResearch:从聊天机器人到自主式智能体

sub-forum-invited

蒋勇(阿里巴巴通义实验室)

个人简介:阿里巴巴通义实验室高级算法专家,博士毕业于中国科学院大学和上海科技大学,加州大学伯克利分校访问学者,从事大模型相关的技术研发。目前在国际顶级会议ACL/EMNLP/NAACL/ICLR等发表50多篇论文,在多个国际比赛摘取20个子赛道的冠军,并连续获得SemEval 2022、SemEval 2023最佳系统论文奖、ACL 2023杰出论文奖、NLPCC 2024杰出论文奖,曾任ACL Rolling Review、IJCAI的领域主席,当前研究方向包括DeepResearch和Agent相关技术。

演讲概要:本报告聚焦于 “如何训练一个深度研究智能体(deep research agent)” 这一核心问题,探索构建具备自主研究能力的智能系统的路径与方法。自主研究智能体需模拟人类研究者的核心能力,包括任务拆解、信息检索、逻辑推理、结果合成及迭代优化等,而实现这一目标的关键在于解决 “如何高效获取外部知识”“如何平衡内部推理与外部探索”“高效agent数据生产”“agentic RL” 等核心技术挑战。报告相关内容包括团队在deep research上的近期工作:https://github.com/Alibaba-NLP/DeepResearch。

03 LongCat-Flash-Thinking:面向高效推理的深度思考模型

sub-forum-invited

王玮(美团LongCat团队)

个人简介:王玮,美团LongCat团队深度思考模型负责人,研究方向包括大模型、自然语言理解等。相关研究工作在ACL、EMNLP、ICLR、AAAI等会议上发表论文30余篇,引用超7000次。曾任阿里巴巴达摩院算法专家,带队在SQuAD、GLUE、CLUE、VQA等领域内知名benchmark上取得第一名。参与美团LongCat系列模型研发,负责其中LongCat-Flash-Thinking模型。

演讲概要:深度思考模型近期在数学、代码等可验证领域取得了显著进展,但其超长输出的特点造成了模型训练和推理时的低效,也对进一步的推理时扩展带来了挑战。本次分享主要介绍美团LongCat团队近期开源的LongCat-Flash-Thinking在该领域的实践,通过全流程的算法&工程联合设计,探索高效的深度思考模型的训练和推理,与此同时,保持了头部开源模型的表现。

04 价值工程视角下的模型推理优化

sub-forum-invited

章明星(清华大学)

个人简介:清华大学副教授,主要从事内存系统研究,开源项目 Mooncake 和 KTransforemers 发起人。相关成果在 OSDI、SOSP、ASPLOS、HPCA、EuroSys 等国际顶级会议和期刊上发表论文三十余篇,包括 FAST 最佳论文,SIGSOFT 杰出论文,和国内高校首篇 OSDI。曾获得奥林帕斯百万大奖、ChinaSys 新星和优博奖,IEEE TCSC 优博,入选中国科协青年人才托举计划,科技部重点研发项目课题负责人。曾任深信服首席算法技术专家,创新研究院院长,相关孵化产品应用于数万家客户。

演讲概要:随着传统以同构 GPU 为中心的推理架构逐渐逼近瓶颈,我们从“价值工程”的视角出发,通过设计异构硬件协同系统,将不同计算任务与最具性价比的硬件资源匹配,以实现成本与效率的极致优化 。在这一思路下,我们和月之暗面一同推出了开源推理架构 Mooncake,它采用以 KVCache 为中心的架构,通过 P/D 分离设计,“以存换算”等手段将计算密集与访存密集的环节解耦,成功助力 Kimi、阿里、蚂蚁、讯飞等线上业务大幅提升吞吐能力。同时,我们和趋境科技一同开发了 KTransformers 系统,专门针对 DeepSeek 等稀疏大模型进行 CPU/GPU 异构推理,通过将部分负载卸载至 CPU,显著降低了前沿大模型的本地部署门槛 。这两个核心项目均已在 KVCache.AI 开源,并获得了社区与业界的广泛应用和支持,我们希望通过开源共建的方式,共同推动大模型推理成本的降低 。

05 大模型智能体推理机制分析:从表层推理到言行合一

sub-forum-invited

张倬胜(上海交通大学)

个人简介:张倬胜,上海交通大学长聘教轨助理教授、博导。研究方向为自然语言处理、AI智能体与安全。入选中国中文信息学会优博、ACM SIGAI优博、全球AI华人百强学术新星、世界人工智能大会云帆奖璀璨明星、斯坦福大学全球前2%顶尖科学家年度榜单。在TPAMI,Nature Communications,ICLR,ICML,ACL等顶级期刊和会议上发表论文80篇,Google Scholar被引8800次,GitHub星标2万余次。获得2024世界人工智能大会青年优秀论文奖,3篇论文(ICLR/AAAI)入选Paper Digest最具影响力论文。主持国家自然科学基金青年项目、中国计算机学会项目、中国中文信息学会项目,参与国家重点研发项目。研究成果获评上海市科技进步一等奖。

演讲概要:近年来大模型智能体应用快速拓展,但两类核心问题制约其可靠性:一是复杂、域外任务中,其行为源于深度推理还是机械记忆?二是推理过程与执行行为是否脱节,能否 “言行合一”? 本报告将针对上述两个问题展开讨论。一方面,通过Agent-ScanKit 探测框架,以视觉、文本、结构引导三种对抗扰动,量化大模型智能体的记忆与推理贡献,发现多数模型更像训练知识 “检索器”,机械记忆远大于推理,导致泛化能力弱;另一方面,提出推理- 执行一致性诊断方法,区分 “推理对但执行错” 与 “执行对但推理错” 两类偏差,揭示智能体逻辑与行为匹配的普遍缺陷。