分论坛七:具身智能与机器人

分论坛日程

时间 报告人 单位 报告题目
09:00 - 09:40 李高峰 浙江大学 敏捷遥机器人系统:从遥操作迈向全自主操作的新征程
(Agile Telerobotic Systems: Bridging the Gap From Teleoperation to Autonomous Roboic Manipulation)
09:40 - 10:20 齐立哲 复旦大学 仿生技能机器人技术与应用
10:20 - 10:40 茶歇
10:40 - 11:10 黄相如 西湖大学 图形数据在具身智能中的应用
11:10 - 11:40 陈涛 复旦大学 以人为中心的具身理解和生成大模型研究
11:40 - 12:10 杨言超 香港大学 An Information-Theoretic and Generative Approach to Embodied AI

主席简介

sub-forum-invited

付彦伟(复旦大学)

个人简介:付彦伟,博士,复旦大学大数据学院教授,博士生导师,CCF高级会员,上海高校特聘教授 (即东方学者)、18年青千。2014年获得伦敦大学玛丽皇后学院博士学位,2015.01-2016.07,在美国匹兹堡迪士尼研究院任博士后研究员。付博士发表高水平论文150多篇:在计算机视觉与模式识别顶级期刊IEEE TPAMI发表通讯作者/第一作者论文15篇,论文曾获得IEEE ICME 2019最佳论文,获得美国发明专利9项、中国专利20多项,曾获国家自然科学二等奖、教育部自然科学一等奖、上海技术进步一等奖等。研究方向侧重于基于迁移学习的多个任务,如手眼协同的机械臂抓取、小样本学习;3D /4D物体的建模;神经网络稀疏化学习、图像编辑及修复等。

讲者简介

01 敏捷遥机器人系统:从遥操作迈向全自主操作的新征程
(Agile Telerobotic Systems: Bridging the Gap From Teleoperation to Autonomous Roboic Manipulation)

sub-forum-invited

李高峰(浙江大学)

个人简介:李高峰,百人计划研究员(一类),博士生导师,国家级海外引进优秀博士后,浙江大学启真优秀青年学者。分别于2013年、2018年于南开大学获工学学士和工学博士学位。博士期间以联合培养博士身份赴美国德州农工大学学习。博士毕业后在意大利技术研究院(IIT)从事博士后研究。主要研究方向为李群与机器人学、遥机器人系统等,在T-ASE、T-Mech等机器人领域旗舰期刊和会议发表30篇余学术论文(一作/通讯论文21篇)。担任中国留德计算机学会(GCI)智能机器人青年专委会委员、人形机器人领域国际顶刊IJHR的首席客座编辑、国际会议IEEE RO-MAN 2024的程序委员会委员、《机器人》青年编委。曾获恰佩克第九届年度杰出青年学者奖、《机器人》2022-2023年度优秀审稿专家奖、天津市优秀博士学位论文等荣誉。

演讲概要:类人操作能力是机器人学者孜孜以求的目标。然而,由于与物理世界交互的复杂性,机器人操作仍是机器人领域十分具有挑战性的难题。基于敏捷遥机器人系统实现人类技能向机器人技能的迁移,是有望大幅提升机器人自主操作水平的可行路线。但现有的遥机器人系统普遍存在敏捷性差、力反馈不准、自由度低等问题。报告人长期从事李群与机器人学、遥机器人系统、机器人操作、触觉感知等方面的工作,从机械设计、感知、算法等各个层面保障遥机器人系统“捕捉的到,运动的快,反馈的准”。本次报告将围绕ARTs(Agile Robotic Tele-systems) Lab在“人-机-环境”紧耦合的敏捷遥机器人系统方面的工作,介绍各种敏捷遥操作任务与技能学习方法,推动机器人操作从遥操作向全自主操作进化的进程。

02 仿生技能机器人技术与应用

sub-forum-invited

齐立哲(复旦大学)

个人简介:齐立哲,复旦大学研究员、博士生导师,中国机电一体化技术应用协会理事会理事、中国自动化学会制造技术专业委员会委员。主要从事机器人自主规划、柔性控制以及技能型智能工艺机器人等领域的科研工作,近五年主持国家重点研发计划项目、国防科技创新特区项目等科研项目10多项,发表学术论文50余篇、授权发明专利59项;获上海市技术发明奖一等奖、中国发明协会发明创新奖一等奖等科技奖项8项,相关成果已在高铁、航空航天、酿酒等领域实现产业化应用。

演讲概要:面对全球制造业的智能化转型,机器人化智能制造装备已然成为推动高质量发展的新引擎。然而,在工业复杂场景与高精度作业要求下,如何赋予机器人“大国工匠”般的专业技能,仍是制约工业机器人发展的难题。本演讲将阐述感知-交互-发育一体化的机器人仿生技能学习技术,及其在智能制造中的典型应用案例。为提升机器人在复杂环境下的感知与操作能力,以及推动工业机器人向更高端发展提供了新路径。

03 图形数据在具身智能中的应用

sub-forum-invited

黄相如(西湖大学)

个人简介: 黄相如博士于2020年获得德州大学奥斯汀分校计算机科学博士学位,师从黄其兴教授。之后,他以博士后的身份加入麻省理工学院计算机科学与人工智能实验室(CSAIL),与Justin Solomon教授一起工作。他的研究工作主要关注图形数据的低成本生产及其在3D AIGC,具身智能中的应用。他发表了超过15篇顶级学术论文。他从2024年起担任西湖大学工学院助理教授职位。

演讲概要: 三维图形数据可以为建模三维物理世界提供精准性,然而由于三维图形数据的稀缺以及虚实差异,导致图形数据在大模型训练中的应用有限。我们通过两个方面的研究理解图形数据应该如何在大模型训练中得到应用:1)通过图形数据提升视频生成模型的可控性;2)设计新的三维表示形式,解决图形数据在重渲染时的虚实差异问题,同时保留图形数据的可重光照,可形变等优秀属性。

04 以人为中心的具身理解和生成大模型研究

sub-forum-invited

陈涛(复旦大学)

个人简介:陈涛,复旦大学信息科学与工程学院教授,博士生导师,院长助理, IEEE Senior Member,入选上海市以及国家高层次青年人才计划。他的主要研究领域包括资源高效的机器视觉和多模态大模型压缩,以及这些理论在具身智能机器人、无人驾驶等端侧视觉的应用。他先后主持国家自然科学面上、联合基金项目,承担科技创新2030新一代人工智能重大专项子课题、上海市人工智能重大专项的子课题以及校企联合实验室项目。迄今为止,他已经在各类国际学术期刊和会议如IEEE T-PAMI/T-IP/IJCV/CVPR上发表高水平论文150余篇,含5篇ESI高被引用论文和热点论文,申请国际PCT专利10多项,带领团队获得2022年ECCV自动驾驶挑战赛季军,2023年ICCV三维室内密集场景理解冠军,部分成果已经成功应用华为、中兴、小米等国内龙头企业的终端产品中。

演讲概要:大语言模型的语义理解和泛化能力给视觉场景的理解和生成带来了新的机遇,但同时不管是隐式还是显示的三维生成均对场景的复杂采样和训练数据具有较强依赖性,带来了计算和数据资源的高昂成本。本报告因此从如何利用大模型以及自然语言知识角度出发,分享课题组近几年在数据高效的人体目标生成和具身场景理解研究成果,包括:1)数据高效的三维人物以及场景生成和重建,2)上下文环境引导的三维场景具身理解和任务规划,以及在人形机器人等相关领域的应用。最后,报告也会探讨该领域未来的发展趋势和挑战。

05 An Information-Theoretic and Generative Approach to Embodied AI

sub-forum-invited

杨言超(香港大学)

个人简介:Yanchao Yang is an Assistant Professor at HKU with the Department of Electrical and Electronic Engineering and the HKU Musketeers Foundation Institute of Data Science (HKU-IDS). He does research in Embodied AI and is interested in self-/semi-supervised techniques that allow embodied agents to learn at low-annotation regimes. His long-term goal is to design learning algorithms that enable embodied agents to continuously build scene representations and acquire interaction skills through active perception with multimodal signals. His recent effort is to develop efficient mutual information estimators and automate the learning of perception, compositional scene representation, and interaction policy for embodied intelligence in the open world, namely, InfoBodied AI.

演讲概要:Embodied AI strives to create agents capable of learning and tackling complex tasks involving physical interactions, with potential applications in many areas, such as housekeeping, caregiving, and logistics. Such agents must be able to perceive their environment, construct scene representations, and carry out reasoning and actions to accomplish task-specific goals. However, existing learning approaches rely on human annotations or unrealistic simulations, leading to generalization problems in the real world. Thus, it is crucial to equip embodied agents with the ability to autonomously learn from real-world data, minimizing reliance on human supervision and enabling adaptability to new tasks. We propose that the key to autonomous learning of embodied agents is the mutual correlations in the unlabeled data. Moreover, current policy learning pradiams lack a mechanism to generalize to different tasks. In this presentation, we will talk about how we can leverage mutual information to facilitate label-efficient embodied learning as well as a generative framework that utilizes optimization-oriented inductive bias for generalizable policy generation.