分论坛九:多模态大模型

分论坛日程

时间 报告人 单位 报告题目
14:00 - 14:40 刘禹良 华中科技大学 缓解多模态大模型增大输入分辨率的后遗症
14:40 - 15:20 叶翰嘉 南京大学 基于大语言模型的CLIP零样本分类
15:20 - 15:40 茶歇
15:40 - 16:20 武宇 武汉大学 细粒度跨媒体可控生成:安全与挑战
16:20 - 17:00 张宇伦 上海交通大学 扩散模型与大语言模型轻量化

主席简介

sub-forum-invited

常晓军(中国科学技术大学)

个人简介:常晓军,中国科学技术大学讲席教授,国家高层次人才,澳大利亚研究理事会青年研究奖获得者。主要从事多模态学习、计算机视觉和绿色人工智能及其在社会公益方面的应用。主持包括澳大利亚研究理事会科研基金、企业联合基金(Linkage Program)等国家级项目十余项。相关科研成果发表在T-PAMI、TIP等国际顶级期刊和CCF A类会议上150多篇,论文的Google Scholar引用次数18000余次,其中21篇入选ESI高被引/热点论文。2019年至2023年连续入选科睿唯安高被引学者。担任IEEE TCSVT、IEEE TNNLS、ACM TOMM等国际顶级期刊的副主编和CCF A类会议的领域主席(Area Chair)。

讲者简介

01 缓解多模态大模型增大输入分辨率的后遗症

sub-forum-invited

刘禹良(华中科技大学)

个人简介:刘禹良,华中科技大学人工智能与自动化学院,研究员。湖北省A类楚才。研究大方向为人工智能,主要聚焦在文字图像智能领域。主持青基1项,担任2项国家重点研发计划子课题负责人,在IEEE TPAMI、IJCV、TIP、CVPR、ICDAR等期刊会议发表论文40余篇,一作及通讯学术论文20余篇。担任国际顶会高级程序委员会委员,中国图象图形学报编委,CSIG优博。担任CCF-CV、CSIG文档图像分析与识别专委会、CSIG-MV、CAAI-智能服务委员会委员。曾获2项互联网+金奖。

演讲概要:本报告探讨了在多模态大模型中增大输入分辨率时可能引发的性能瓶颈与资源消耗问题。随着输入分辨率的提高,模型的计算复杂度和显存需求呈指数级增长,同时高分辨率数据可能引发语义冗余、跨模态不一致等问题,导致性能下降。本报告从优化计算资源、提升模型效率、保持跨模态一致性三个方面提出了相应的缓解策略,包括自适应分辨率调整、显著区域优先编码、分层特征融合等技术手段。实验结果表明,这些方法有效降低了模型计算负担,并在高分辨率输入下显著提升了多模态任务的表现。

02 基于大语言模型的CLIP零样本分类

sub-forum-invited

叶翰嘉(南京大学)

个人简介:叶翰嘉现任南京大学人工智能学院副教授,在南京大学机器学习与数据挖掘研究所 (LAMDA)从事学术研究工作,研究方向包括表示学习、预训练模型复用等领域。叶翰嘉在人工智能领域发表《IEEE Trans. PAMI》等学术论文50余篇,受邀担任国际重要会议ICML/ CVPR/ IJCAI领域主席/高级程序委员会成员、国际重要会议SDM Tutorial/ Doctoral Forum主席、中国计算机学会高级会员;作为核心成员参与“新一代人工智能”重大项目,主持国家自然科学基金面上项目,获中国计算机学会优秀博士学位论文奖、江苏省计算机学会青年科技奖。

演讲概要:近年来,以CLIP为代表的视觉-语言多模态预训练模型广受关注,并在图像分类等任务上展现出强大的零样本泛化性能,仅通过类别的文本描述,即可对图像进行准确分类。本报告探讨CLIP这类多模态模型中,视觉和语言模态特征表示的差异对模型能力的影响,以及如何利用大语言模型进一步提升CLIP的零样本分类能力并降低开销。首先,利用大语言模型作为领域专家提供对类别语义的描述,构建样本在模态之间的相对表示,无需进一步训练即可增强CLIP的零样本、小样本分类能力;面向多个存在领域差异的CLIP模型,大语言模型可辅助构建模型库中CLIP模型的表示,给定新任务的文本描述,即可轻量化选择出在当前任务上具有最优零样本分类能力的模型,从而充分利用模型库中模型的多样化知识。

03 细粒度跨媒体可控生成:安全与挑战

sub-forum-invited

武宇(武汉大学)

个人简介:武宇,教授,博士生导师,国家海外优青获得者。2015年在上海交通大学获得学士学位,2021年在悉尼科技大学获得博士学位,2021-2022年在普林斯顿大学从事博士后研究。曾主持科技部2030重大项目课题,国自然面上等项目。主要从事跨模态机器学习相关的研究。近5年,在TPAMI、CVPR、NeurIPS等CCF A类期刊会议上发表论文40余篇。曾获2020年谷歌博士奖研金(Google PhD Fellowship)、2024年AAAI学术新星奖(New Faculty Award)。长期担任CVPR、NeurIPS、ICCV等人工智能顶会的领域主席,并受邀担任CVPR 2023大会的主要组织者、大会Workshop主席。

演讲概要:多模态生成式大模型已经成为当前研究热点,各种生成基座模型层出不穷。本次报告重点关注如何通过轨迹控制实现在多模态基座模型上的无需训练的、可控、可定制生成方案,进一步提升生成模板的颗粒度,丰富多模态生成模型的下游应用。此外,针对多模态生成模型的滥用问题,本报告也将讨论如何进一步保障生成大模型的隐私与安全,加入生成水印,避免数据泄露与信息安全隐患。

04 扩散模型与大语言模型轻量化

sub-forum-invited

张宇伦(上海交通大学)

个人简介:张宇伦,上海交通大学长聘教轨副教授,博士生导师,入选国家海外高层次青年人才、上海市海外高层次青年人才。主要研究方向是计算机视觉和机器学习,具体包括图像/视频复原与合成,生物医学图像分析,模型压缩,计算成像,多模态计算,大语言模型等。在计算机视觉,机器学习,多媒体等领域的顶级国际期刊和会议上发表学术论文100余篇。论文Google学术引用21000余次,一作论文单篇最高引用5300余次。获得2015年IEEE VCIP最佳学生论文奖,2019年IEEE ICCV RLQ Workshop最佳论文奖,全球AI华人新星百强(2021年),连续4年入选斯坦福“全球前2%顶尖科学家”榜单(2021-2024年)。近年来担任CVPR, ICCV, ECCV, ICLR, NeurIPS, ICML, ACM MM, IJCAI等会议领域主席。

演讲概要:近年来,扩散模型和多模态大语言模型在图像生成和多模态计算等方面取得了突破性进展。然而,模型的庞大规模和高计算成本使得它们在资源受限的设备上难以部署。本次报告聚焦于大模型轻量化,特别是在扩散模型和多模态模型中的应用。我们将探讨扩散模型的轻量化策略,包括通过单步生成、蒸馏、剪枝等方法实现端测的高效文生图/文生视频生成,以及多模态大模型的轻量化技术,如低秩适应(LoRA)技术等。通过这些优化方法,我们可以在资源受限设备(如移动设备)上实现高质量内容的快速生成,显著降低推理延迟和资源需求,从而推动这些先进技术的广泛应用。