分论坛九:世界模型与空间智能
分论坛日程
| 时间 | 报告人 | 单位 | 报告题目 | |
| 9:00 - 9:40 | 穆亚东 | 北京大学 | 多模态视觉生成技术的前沿进展 | |
| 9:40 - 10:20 | 苏航 | 清华大学 | 跨越虚实鸿沟:基座模型驱动的具身智能泛化之路 | |
| 10:20 - 10:40 | 场间休息 | |||
| 10:40 - 11:20 | 谢晋 | 南京大学 | 大规模三维场景重建与生成 | |
| 11:20 - 12:00 | 靳潇杰 | 北京交通大学 | 视觉世界模型:从视觉到世界知识 | |
主席简介
左旺孟(哈尔滨工业大学)
个人简介:左旺孟,哈尔滨工业大学计算学部教授。主要从事底层视觉、视觉生成、视觉理解和多模态学习等方面的研究。在CVPR/ICCV/ECCV/NeurIPS/ICLR等顶级会议和IEEE T-PAMI、IJCV及IEEE Trans.等期刊上发表论文200余篇。曾任CVPR、ICCV、ECCV等会议领域主席,现任IEEE T-PAMI、T-IP、中国科学-信息科学和自动化学报等期刊编委。
讲者简介
01 多模态视觉生成技术的前沿进展

穆亚东(北京大学)
个人简介:穆亚东,北京大学长聘副教授、博雅青年学者、北京智源学者,新闻出版智能媒体技术重点实验室副主任,主要研究领域为计算机视觉和机器人学,入选国家级青年人才计划,在国际主流会议和期刊发表论文130余篇,其中包括中国计算机学会论文推荐列表A类会议和T-PAMI等ACM/IEEE汇刊论文超过90篇。获得陕西省自然科学一等奖、国际会议SIGIR最佳论文提名奖、北京大学京东方奖教金、杨王院士奖教金等。担任多媒体领域旗舰期刊IEEE Transactions on Multimedia编委,10余次担任人工智能领域核心会议(如CVPR、ICCV、ECCV)的组委会成员或领域主席。
演讲概要:多模态大模型是人工智能领域近期的研究热点之一,通过融合视觉、语言、动作等模态数据,正在向具身智能和通用智能方向演进。本报告重点探讨了其架构设计、核心要素及前沿应用场景,特别是讲者所负责的实验室在多模态生成式大模型方面的近期研究进展,包括视觉语言大模型LaVIT系列、金字塔流匹配模型pyramid-flow、三维数据和场景生成模型DiffGS和InstructLayout、以及在多模态tokenization、生成内容可控性方面的一些研究进展等。
02 跨越虚实鸿沟:基座模型驱动的具身智能泛化之路
苏航(清华大学)
个人简介:苏航,清华大学计算机系副研究员,入选国家“万人计划”青年拔尖人才,主要研究鲁棒机器学习和具身决策等相关领域,发表CCF推荐A类会议和期刊论文100余篇,谷歌学术论文引用15000余次,受邀担任人工智能领域顶级期刊IEEE TPAMI和Artificial Intelligence的编委,IEEE生成式大模型安全工作组主席,获得吴文俊人工智能自然科学一等奖,ICME铂金最佳论文、MICCAI青年学者奖和AVSS最佳论文等多个学术奖项,曾率队在NeurIPS2017对抗攻防等多个国际学术比赛中获得冠军。现任中国图像图形学会青工委执委、曾任VALSE执行AC委员会主席,NeurIPS21的领域主席(Area Chair)、AAAI22 Workshop Co-Chair等。
演讲概要:泛化能力不足是制约具身智能走出实验室、适应复杂真实环境的核心瓶颈。随着基础模型(Foundation Models)在语言与视觉领域取得突破,构建面向具身智能的基座模型,已成为推动其跨任务、跨平台迁移的关键路径。本报告围绕该主线,提出一套以数据驱动、能力演化为导向的系统性策略,依托“真实数据—仿真数据—视频数据”三类数据,分阶段推进具身基础模型在泛化能力上的逐步跃升。首先,我们从高质量的真实机器人数据出发,融合物理先验与跨本体的多模态扩散模型预训练,构建了统一的动作空间模型;在双臂操作任务中,该模型展现出强鲁棒性与良好的迁移性能,显著提升了对真实物理环境的适应能力与控制一致性。在此基础上,我们引入中等规模的仿真数据,基于 ManiBox 框架,提出边界框引导的策略蒸馏技术,有效缓解了仿真到现实(Sim2Real)的迁移鸿沟。最后,我们探索大规模、低结构的视频数据在弱监督场景下的潜力,设计融合扩散模型预训练与掩码动作建模机制的视频动作模型,推动从视觉输入到具身控制的跨模态知识迁移,进一步增强了模型的感知泛化能力与跨平台部署灵活性。总体来看,这一从“高质量小规模”到“低质量大规模”的数据演化路径,为具身基座模型能力的分层跃迁提供了系统支撑,进一步为其向通用化与工业化方向演进奠定了理论基础与技术路径。
03 大规模三维场景重建与生成

谢晋(南京大学)
个人简介:谢晋,南京大学智能科学与技术学院教授,博士生导师,江苏特聘教授,国家海外高层次青年人才。研究方向为三维计算机视觉及其在自动驾驶和机器人中的应用,已在 TPAMI、CVPR、ICCV、ECCV、NeurIPS、ICML等期刊和会议上发表论文70余篇,指导学生获得中国模式识别与计算机视觉大会PRCV 2020 最佳学生论文奖和亚洲模式识别大会ACPR 2021最佳论文奖。曾担任ACPR 2017专刊主席,CVPR、ICCV、AAAI和IJCAI等会议领域主席或高级程序委员会委员多次。
演讲概要:近年来,三维场景重建与生成已广泛应用于自动驾驶、机器人、虚拟现实等领域。然而,如何从视频序列有效地重建与生成大规模复杂三维场景仍旧是一个挑战性问题。针对上述问题,本报告将围绕三维场景表示模型 3D Gaussian Splatting和视觉几何基础模型VGGT,重点介绍面向自动驾驶的单目视频3D重建、4D场景生成与新视角合成等方面的工作。
04 视觉世界模型:从视觉到世界知识

靳潇杰(北京交通大学)
个人简介:靳潇杰,北京交通大学计算机学院教授、博导,国家海外优青获得者。曾任字节跳动美国研究院创始成员和技术负责人。近年来主要从事多模态智能,世界模型等方向研究,已发表论文60 余篇,引用超5600次,开发的算法被著名深度学习框架Keras等集成。曾获PREMIA 最佳学生论文奖,以及包括ImageNet冠军在内的多个顶级国际学术竞赛冠军,研究成果被福布斯等国内外知名媒体报道。担任NeurIPS, CVPR, IEEE Trans等会议/期刊领域主席,Workshop组织者和Guest Editor等。主持开发二十余项成果在字节跳动旗舰产品中商业化应用,日服务用户数千万。
演讲概要:让人工智能具备理解和预测真实世界的能力,是通往通用智能的重要目标。世界模型(World Model)通过在内部构建可模拟的“世界”,使智能体能够在想象中学习、推理与规划。视觉世界模型(Visual World Model)进一步关注如何直接从视频等高维视觉流中提炼物理、因果与策略知识,实现从“视觉感知”到“世界理解”的跃迁。 本报告将介绍我们在这一方向上的探索——一种以视觉为核心的世界理解路径:让模型从观察中自发习得规则与策略,在生成、推理与规划任务中展现出接近人类的知识获取与泛化能力,为具身智能与通用世界模型的发展奠定基础。