分论坛七:多模态大模型
分论坛日程
| 时间 | 报告人 | 单位 | 报告题目 | |
| 8:30 - 9:10 | 东昱晓 | 清华大学 | MobileRL:智能体基座大模型的多模态能力提升探索 | |
| 9:10 - 9:50 | 陈静静 | 复旦大学 | 生成式视觉内容鉴别与溯源 | |
| 9:50 - 10:30 | 王腾飞 | 腾讯混元 | 混元3D生成大模型:技术探索与应用实践 | |
| 10:30 - 10:40 | 场间休息 | |||
| 10:40 - 11:20 | 吴震 | 南京大学 | 多模态大模型的几何感知与幻觉消除探究 | |
| 11:20 - 12:00 | 陈驰 | 清华大学 | MiniCPM-V:迈向高效端侧多模态大模型 | |
主席简介

李丕绩(南京航空航天大学)
个人简介:李丕绩,南京航空航天大学人工智能学院教授,博士生导师,智能科学技术系主任,南航长空学者,中国商飞大飞机创新谷客座科学家。香港中文大学博士,曾任腾讯AI Lab自然语言处理中心高级研究员。研究方向包括大模型、具身智能等。曾经在相关领域顶级会议如ACL、EMNLP、SIGIR等发表学术论文100余篇。多次受邀担任ACL、AAAI、IJCAI等会议的资深领域主席。在工业界工作期间负责了多个语言理解、文本生成和智能对话相关重要项目的算法研发和产品发布,有丰富的科研落地实践经验。主持或参与国家自然科学基金、基础研究计划、CCF-百度松果基金、CCF-腾讯犀牛鸟基金(优秀项目)、CCF-智谱大模型基金等项目,获CCF-NLP青年新锐学者奖等荣誉。
讲者简介
01 MobileRL:智能体基座大模型的多模态能力提升探索

东昱晓(清华大学)
个人简介:东昱晓,清华大学计算机系副教授,研究方向为基础大模型、智能体、数据挖掘,曾工作于脸书人工智能和微软总部研究院。学术成果应用于多个大模型产品和系统,获WWW22、WWW19、WSDM15、ECML-PKDD22最佳论文或候选,多篇KDD、WWW文章为当年会议最高引用工作。入选2024年清华大学“清韵烛光-我最喜爱的教师”(每两年10位),获2022 ACM SIGKDD青年科学家奖。
演讲概要:基础大模型在意图理解、深度推理、目标规划等方面展现出强大的泛化能力,为智能体的研究和应用提供了通用模型基座。报告将分享我们在基座大模型智能体强化学习方向的探索。在训练框架层面,提出多轮、多任务智能体强化学习框架,支持异步高效训练,实现异构环境的可扩展强化学习(RL Scaling);在基础能力层面,设计面向测试时扩展的强化学习算法及视觉专家模型CogVLM,提升智能体基座模型的推理与多模态感知能力;在应用场景层面,构建手机智能体MobileRL和上网智能体WebRL,提升大模型在复杂智能体任务中的交互能力。相关工作应用于多个大模型和智能体产品等。
02 生成式视觉内容鉴别与溯源

陈静静(复旦大学)
个人简介:陈静静,复旦大学机器人与先进制造创新学院副教授。主要研究领域为多媒体内容分析、计算机视觉、生成式人工智能安全等。主持/参与了包括国家自然科学基金、科技部科技部2020年“科技创新2030-新一代人工智能”重大项目、上海市行动创新计划等多项科研项目。在 ACM Multimedia, CVPR, ICCV,AAAI,ICMR,IEEE TIP,IEEE TMM等重要国际会议、期刊上发表论文 100 余篇,先后获得了2023年度IEEE “ICME新星奖提名奖”,ACM SIGMM 新星奖等。担任多个国际知名期刊审稿人、国际会议组织委员会成员、领域主席等。
演讲概要:近年来,生成式人工智能(AIGC)技术的飞速发展极大地推动了视觉内容的生产效率,但也带来了深度伪造、虚假信息传播等安全风险。尤其是在图像和视频等多模态场景中,由扩散模型等生成的视觉内容在质量上已接近真实数据,给传统的鉴别方法带来巨大挑战。本报告围绕生成式视觉内容的真实性鉴别与来源溯源两个关键问题展开,介绍我们在高质量伪造内容检测数据集构建、具有强泛化能力的伪造检测方法设计、以及模型溯源与归因机制探索等方面的研究工作。最后,我们将讨论生成内容治理的未来方向与面临的挑战。
03 混元3D生成大模型:技术探索与应用实践

王腾飞(腾讯)
个人简介:腾讯高级研究员,博士毕业于香港科技大学,研究方向为生成式人工智能与图形学。加入腾讯后,负责混元3D场景生成及世界模型的前沿探索与大模型研发。加入腾讯前,曾在微软亚洲研究院、上海人工智能实验室等研究机构工作,在CVPR、ICCV、SIGGRAPH等会议上发表论文20余篇,谷歌学术引用量 2500余次,部分工作获评ICCV和ECCV最有影响力论文。
演讲概要:随着大模型在文本与2D图像领域不断取得突破,人工智能生成内容正迅速迈向三维空间,成为下一代数字内容生产的关键驱动力。3D生成大模型正在重塑游戏、影视、元宇宙、虚拟仿真及工业设计等领域的内容创作流程,将其从传统高成本、长周期、强专业依赖的模式,转变为高效、普惠、智能化的创意实现过程。本次报告将分享混元3D团队在3D生成大模型方面的技术探索与研发布局,涵盖3D资产生成、3D场景构建与3D AI管线等核心内容。首先,我们将系统介绍混元3D在物体生成方面的突破,包括几何生成与纹理生成模型的关键技术路径与最新进展。接着,报告将阐述如何将AI生成的3D资产无缝接入图形学创作管线与游戏开发工作流,实现工业化应用落地。此外,我们还将分享团队在3D世界生成方面的前沿思考与初步探索,展示从物体级生成迈向场景级构建的技术跨越与实现效果。最后,本报告将对3D内容生成大模型的未来发展趋势进行展望,并探讨其发展过程中面临的开放性挑战与潜在的社会影响。
04 多模态大模型的几何感知与幻觉消除探究

吴震(南京大学)
个人简介: 吴震,南京大学人工智能学院助理教授、特聘研究员,博士生导师,中文信息学会青年工作委员会委员,中国计算机学会自然语言处理专委会执行委员。研究方向为个性化交互和多模态计算,在国际顶级人工智能会议上发表高质量学术论文四十余篇,入选2024年江苏省青年科技人才托举工程,获2023年江苏省人工智能学会科学技术奖,主持、参与国家自然科学基金项目多项。
演讲概要:近年来,多模态大模型在视觉-语言融合理解方面取得了显著进展,但其基础感知能力与生成可靠性仍存在明显缺陷。视觉几何感知是多模态任务中的核心基础能力,本报告首先介绍几何感知评测基础GePBench,系统刻画多模态大模型在几何形状识别、空间关系理解与结构感知等方面的基础能力。结果表明,现在主流模型的几何感知能力存在显著的提升空间。在此基础上,针对感知不足带来的幻觉问题,报告介绍高效低成本的幻觉消除方案。
05 MiniCPM-V:迈向高效端侧多模态大模型

陈驰(清华大学)
个人简介:陈驰,清华大学基础模型研究中心研究员,本科与博士均毕业于清华大学计算机系,主要研究方向为多模态对齐与多模态大模型。近年来,围绕多模态大语言模型,在多模态预训练、视觉定位、模型融合与适配等方面开展多项研究。在ACL、EMNLP、CVPR、ICCV等人工智能顶级国际会议发表论文20余篇,其中以第一作者或通讯作者身份发表11篇。担任ACL、ICLR、CVPR等国际会议审稿人。曾获清华大学计算机系优秀毕业生等荣誉,并入选中国中文信息学会“博士学位论文激励计划”。
演讲概要:MiniCPM-V 和 MiniCPM-o 系列致力于实现“轻量级、高性能”的高效端侧多模态大模型。通过模型结构、训练方法、数据构造等方面的创新技术,最新的 MiniCPM-V 4.5 以 8B 参数量实现了超越GPT-4o-latest的视觉理解能力,并具备业界领先的高帧率视频理解与长视频理解能力;MiniCPM-o 在视频、语音、文本的全模态实时流式交互方面,实现了持平 GPT-4o-202405 的能力水平。本报告将介绍 MiniCPM-V 和 MiniCPM-o 的相关设计思路与技术探索。