分论坛二:大模型安全与对齐
分论坛日程
| 时间 | 报告人 | 单位 | 报告题目 | |
| 08:30 - 09:10 | 王希廷 | 人民大学 | 面向通用大模型的评测与对齐 | |
| 09:10 - 09:50 | 郭尚伟 | 重庆大学 | 模型供应链安全 | |
| 09:50 - 10:30 | 潘旭东 | 复旦大学 | 前沿AI系统安全测评与治理 | |
| 10:30 - 10:45 | 场间休息 | |||
| 10:45 - 11:15 | Ruoxi Jia | Virginia Tech | Adversarial Déjà Vu: Jailbreak Dictionary Learning for Stronger Generalization to Unseen Attacks | |
| 11:15 - 11:55 | 陶嘉羚 | 阿里安全 | 迈向更安全的智能时代 | |
主席简介

邱寒(清华大学)
个人简介:邱寒,清华大学网研院副教授、博导。博士毕业于法国巴黎高等电信大学,研究方向为机器学习安全与可解释性。主持国家重点研发计划课题、自然科学基金青年项目、CCF-蚂蚁金服科研基金等科研项目,在人工智能和安全领域顶会顶刊发表50余篇论文,获ACL 2024杰出论文奖、2022年IEEE智能计算专委会数据安全青年研究奖、2023年IEEE可扩展计算专委会早期职业成就奖、2023-2025年入选斯坦福大学全球Top2%科学家榜单,担任ACL、NeurIPS、ICLR等顶会的领域主席。
讲者简介
01 前沿AI系统安全测评与治理

潘旭东(复旦大学/上海创智学院)
个人简介:研究方向为AI安全与治理,近年来围绕大模型安全合规评估、前沿AI风险治理等开展前瞻研究,率先揭示多种大模型重大安全风险,得到OpenAI、Google、Anthropic、百度等国内外AI龙头企业高度关注,获美国福布斯、英国独立报、LiveScience等媒体报道,受邀与图灵奖得主Bengio、Hinton等共同签署《AI安全国际对话上海共识》,成果产业化应用于百度、阿里和华为等,入选上海市“晨光计划”、世界人工智能大会云帆奖等,主持国家重点研发计划课题、国自然青年项目等。
演讲概要:近年来,随着图、文、音视频生成的多模态大模型持续落地,内容安全风险尤为严峻,急需自动化程度高、覆盖面广和靶向性强的动态安全评测与防护技术;与此同时,基础大模型通过工具调用、推理编排等与真实世界自主交互,若无法尽早发现其具备危险红线能力,将带来不可估量的灾难性风险。本报告将围绕内容安全和行为安全两大核心议题,分享团队近年来在前沿AI系统安全评测与治理方面的研究进展和思考。
02 模型供应链安全

郭尚伟(重庆大学)
个人简介:郭尚伟,重庆大学副教授,博导,先后在香港浸会大学和新加坡南洋理工大学从事研究工作。主要从事人工智能系统安全与隐私保护相关研究。在TPAMI、TIFS和ICML、CVPR、ICLR、AsiaCCS、Euro S&P等国际高水平期刊和会议发表论文60余篇;担任MUST2023 Program Co-Chiar和多个期刊客座编辑。主持包括国家重点研发项目子课题、国家自然科学基金重点项目课题、面上、青年项目等多个国家级和省部级纵向项目。
演讲概要:大模型是引领新一轮科技革命和产业变革的基础性和战略性技术。以预训练模型为核心的模型供应链涉及到数据供应商、工具链供应商等多个实体,由于模型供应链存在供应链路长、参与方众多等特点,保障用户和训练数据隐私、预训练模型及其下游应用的可靠性存在诸多挑战。本次报告围绕模型供应链中模型训练、发布和部署中存在的隐私与安全难题,深度挖掘并识别模型供应链安全风险,增强数据与模型抗攻击能力,提升人工智能应用可靠性。
03 面向通用大模型的评测与对齐

王希廷(中国人民大学)
个人简介:王希廷,中国人民大学高瓴人工智能学院副教授,博士生导师,入选北京市人才计划青年项目。王希廷曾任微软亚洲研究院首席研究员,于清华大学获得学士及博士学位,研究领域为大模型解释与对齐,获CCF自然科学二等奖,2篇论文入选IEEE TVCG(CCF-A)封面论文。研究成果落地支付宝百灵大模型、微软必应搜索、Outlook及MSN,影响上亿用户,年收入增益上亿元。担任AAAI领域主席、Visual Informatics (Q1)青年编委。担任过IEEE VIS(CCF-A)组委会档案主席、IJCAI领域主席。
演讲概要:大模型展现出在广泛任务上的通用性,但其通用性来源机制和控制方法仍有待深入理解。本报告尝试借鉴认知科学中研究人类通用智能的范式,初步探索大模型通用性的来源及其可控机制,主要包括两个方面:在评测层面,借鉴心理学理论,通过价值观及测度论分析模型的任务泛化模式,探索对人工智能通用性进行科学量化评估的方式;在对齐层面,提出价值观的神经元级控制对齐方法,通过干预关键功能模块的激活模式探索不依赖特定任务的强泛化性控制方法,例如跨情境的价值观控制方法。
04 Adversarial Déjà Vu: Jailbreak Dictionary Learning for Stronger Generalization to Unseen Attacks

贾若溪(Virginia Tech)
个人简介:贾若溪是弗吉尼亚理工大学布拉德利电气与计算机工程系的助理教授。她在加州大学伯克利分校获得电气工程与计算机科学博士学位,并在该校完成博士后研究,此前取得了北京大学学士学位。她的研究涵盖机器学习、安全、隐私以及信息物理系统,近期主要聚焦于构建负责任人工智能的理论基础与实用算法。她的研究成果已直接影响金融机构与科技公司,她的工作也曾被《纽约时报》、《MIT科技评论》和《WIRED》杂志等媒体报道。她的研究在顶级机器学习会议上屡获认可,包括 ICLR 2024 年度优秀论文荣誉提名和 ACL 2024 年度最佳社会影响论文奖。她曾获得美国国家科学基金会(NSF)青年学者奖(CAREER Award)、早期学者影响力奖、院长杰出新进助理教授奖,以及多项来自领先科技公司的科研奖项。
演讲概要:Large language models remain vulnerable to jailbreak attacks that bypass safety guardrails to elicit harmful outputs. Defending against novel jailbreaks represents a critical challenge in AI safety. Adversarial training—designed to make models robust against worst-case perturbations—has been the dominant paradigm for adversarial robustness. However, due to optimization challenges and difficulties in defining realistic threat models, adversarial training methods often fail on newly developed jailbreaks in practice. This talk discusses a new paradigm for improving robustness against unseen jailbreaks, centered on the Adversarial Déjà Vu hypothesis: novel jailbreaks are not fundamentally new, but largely recombinations of adversarial skills from previous attacks. Guided by this insight, we will present a data synthesis and training pipeline which substantially improves robustness to unseen attacks, including multi-turn jailbreaks, while maintaining low over-refusal rates.
05 迈向更安全的智能时代

陶嘉羚(阿里巴巴集团安全部)
个人简介:陶嘉羚,毕业于清华大学,获本硕学位。现任阿里巴巴集团安全部高级算法专家,负责大模型评测能力建设与内生安全研究工作,在人工智能和安全方面有十年从业经验。
演讲概要:介绍阿里巴巴集团面向人工智能发展的安全体系,包括安全评估、模型机理研究、深度混合防御。