分论坛二:大模型安全与对齐
分论坛日程
时间 | 报告人 | 单位 | 报告题目 | |
09:00 - 09:25 | 虎嵩林 | 中科院信工所 | 大模型安全:现状与挑战 | |
09:25 - 09:50 | 张倬胜 | 上海交通大学 | 多模态智能体安全与对齐 | |
09:50 - 10:15 | 熊德意 | 天津大学 | 多语言大模型与价值对齐 | |
10:15 - 10:40 | 王奕森 | 北京大学 | 测试时间对齐 | |
10:40 - 10:50 | 茶歇 | |||
10:50 - 11:15 | 王岚君 | 天津大学 | 跨模态生成模型鲁棒性缺陷模式挖掘 | |
11:15 - 11:35 | 李栋 | 华为诺亚方舟实验室 | 面向大语言模型的强化学习优化研究与实践 | |
11:35 - 11:55 | 阎栋 | 百川智能 | Learn to reason : from alignment to exploration | |
11:55 - 12:15 | 许皓天 | 小红书 | Reasoning is all you need |
主席简介
杨耀东(北京大学)
个人简介:杨耀东博士,北京大学人工智能研究院研究员(博雅学者)、人工智能安全与治理中心执行主任。人社部海外高层次人才、国家级高层次青年人才项目获得者。研究方向为智能体安全交互与价值对齐,科研领域涵盖强化学习、AI对齐、多智能体学习、具身智能。发表AI领域顶会顶刊论文一百余篇,谷歌引用六千余次,曾获ICCV’23最佳论文奖入围、CoRL’20最佳系统论文奖、AAMAS’21最具前瞻性论文奖、WAIC’22云帆奖璀璨明星、ACM SIGAI China新星奖。带领国内团队研发多智能体强化学习算法首登Nature Machine Intelligence,主导Baichuan2、鹏城脑海33B、香港HKGAI大模型安全对齐工作。
讲者简介
01 大模型安全:现状与挑战
虎嵩林(中科院信工所)
个人简介:中国科学院信息工程研究所研究员,中国科学院特聘(核心)研究员、中国科学院大学岗位教授。主要研究方向为内容安全、大数据智能处理、大模型安全等,在包括ACL、AAAI、EMNLP、SIGMOD、VLDB、IJCAI、DAC等会议和国内外期刊上发表学术论文百余篇;应用上聚焦知识增强的内容安全,承建多个国家级重大工程。获中国专利奖、北京市科技进步奖等多项科技奖励。
演讲概要:生成式人工智能大模型正在成为驱动新质生产力发展的新动能、人类探索未知的新工具,在显著提升AI模型通用理解和生成能力,赋能新时代发展的同时,也带来了前所未有的安全风险。报告将首先简介大模型的能力及其安全风险;然后概述其风险成因、研究现状以及我们所面临的严峻挑战;介绍团队开发的Galexy(星河)大模型安全平台,以及其应用。并在报告最后分享对于大模型安全领域未来的反思和展望。
02 多模态智能体安全与对齐
张倬胜(上海交通大学)
个人简介:张倬胜,上海交通大学长聘教轨助理教授、博士生导师。研究方向为自然语言处理、大模型推理与安全,代表成果包括Auto-CoT自动思维链推理、Auto-GUI多模态智能体、R-Judge智能体安全测评。在TPAMI, ICLR, ICML, ACL, AAAI等顶级期刊和会议上发表论文70余篇,Google Scholar被引超过5000次,开源成果获得超过1.5万GitHub星标。主持国家自然科学基金、计算机学会、中文信息学会多个基金项目。入选中国中文信息学会优博、ACM SIGAI优博、全球AI华人百强学术新星、世界人工智能大会云帆奖璀璨明星、青年优秀论文奖。
演讲概要:随着大模型的飞速发展,构建具备环境交互、规划决策和工具操控能力的AI智能体逐渐成为现实,并在系统操控、软件开发、科学探索等方面展现出应用前景。然而,智能体在为现实生活提供便利的同时,也面临着多样化的安全挑战。本报告将介绍大模型智能体的发展现状,并以图形用户界面(GUI)智能体为例,展示“用户-模型-环境”三方交互中的安全风险,尤其是来自环境侧的劫持攻击。最后,探讨智能体安全对齐策略。
03 多语言大模型与价值对齐
熊德意(天津大学)
个人简介:熊德意,天津大学智能与计算学部教授、博士生导师,自然语言处理实验室负责人,天津市“一带一路”联合实验室语言智能与技术中外联合研究中心主任。主要研究方向为自然语言处理,特别专注于大语言模型、机器翻译、AI对齐、AI for Science等方向的研究。在IEEE TPAMI、AI、AAAI、ACL等国际著名期刊和会议上发表论文180余篇,出版中英文专著各一部,受理/授权发明专利30余项,参与编制大模型相关标准多项。建立了省部级科技创新合作平台,承担国家级、省部级及社会委托科研项目20余项。获得北京市科学技术奖二等奖、COLING 2024杰出论文奖等奖项。领导研制了全球首个甲基化DNA预训练模型、支持43种自然语言和16种编程语言的伏羲传语多语言大模型、大模型通用基准测试平台OpenEval等。担任IALP 2012&2021程序委员会共同主席,CWMT 2017程序委员会共同主席,NeurIPS、ACL、EMNLP、NAACL、COLING、AACL等多个知名国际会议的(高级)领域主席、赞助主席、演示主席等,TACL及CL执行主编,ACM TALLIP副主编,Data in Brief栏目主编等。
演讲概要:全球现存语言数千种,决定了大模型的多语言化发展是必然趋势。但是,语言的差异性、数据分布的不均衡性、文化价值观的多元性,对多语言大模型构建及价值对齐带来了巨大挑战。针对以上问题,本报告将探讨多语言大模型的数据采集、架构设计与预训练后训练技术,分析多语言大模型内部工作机理,探索多语言大模型多元价值观对齐方法,并对未来发展方向进行展望。
04 测试时间对齐
王奕森(北京大学)
个人简介:王奕森,北京大学助理教授,博士生导师。主要研究方向为机器学习理论和算法,目前重点关注大模型的理论、安全等。已发表机器学习三大顶会ICML/NeurIPS/ICLR文章50余篇,多篇被选为Oral或Spotlight,获ECML 2021最佳机器学习论文奖、ICML 2024 Workshop最佳论文奖、ICML 2021 Workshop最佳论文银奖、CVPR 2021竞赛第一等,研究成果被麻省理工科技评论(MIT Technology Review)和中央电视台(CCTV)专题报道。主持基金委“下一代人工智能”重大研究计划项目、科技创新2030“新一代人工智能”重大项目课题。
演讲概要:大型语言模型在某些情况下具备纯粹通过自我校正提升能力的潜力,即通过自我审查来修正先前的回答。然而,目前尚不清楚这一能力如何产生。本次报告中从上下文学习的视角理论分析自我校正,表明在LLMs能给予相对准确的自我评估作为奖励时,它们能够在上下文中进行对齐。值得注意的是,我们的理论构建超越了关于线性Transformer的简化理论,揭示了现实Transformer设计中多头注意力、MLP模块在自我校正中的关键作用。
05 跨模态生成模型鲁棒性缺陷模式挖掘
王岚君(天津大学)
个人简介:王岚君,天津大学新媒体与传播学院研究员,博士生导师,研究方向为可信人工智能,主要关注智能传播领域相关应用场景。加入天津大学前,她曾任IBM中国研究院高级主任研究员、华为云技术专家。她曾作为华为云模型可信负责人,参与建立首个人工智能云服务安全标准,该成果载入2021年华为公司企业年报。此外,她已发表高水平论文50余篇,拥有授权专利30余。
演讲概要:随着DALLE-2、Midjourney、Sable Diffusion等成熟的商业模型不断问世,跨模态视觉内容生成技术为内容创作提供了新机遇,但也带来了生成内容安全的挑战。本报告从系统性的回顾针对跨模态图像生成模型的对抗攻击方法出发,揭示跨模态图像生成模型鲁棒性缺陷的三种模式,展示缺陷模式带来的内容生成风险,以及在相应风险防范措施上的思考。
06 面向大语言模型的强化学习优化研究与实践
李栋(华为诺亚方舟实验室)
个人简介:李栋,博士毕业于中国科学院自动化研究所,毕业后加入华为诺亚方舟实验室,主要从事强化学习研究及其在语言大模型、自动驾驶等方面的落地应用工作。当前主要工作涉及语言大模型RLHF对齐优化、端侧设备App Agent操控等方面。率领团队主导开发的盘古大模型RLHF在终端、华为云、ICT等业务获得广泛应用。在NeurIPS、ICML、ICLR等国际会议上发表论文二十余篇。
演讲概要:近年来,随着OpenAI ChatGPT的发布,大语言模型受到了AI领域广泛关注,近期的O1又将大语言模型的推理能力迈上了新的高度,在大语言模型的优化过程中,强化学习发挥关键作用。在本次报告中,将简要介绍强化学习在大语言模型对齐中的发展,在此基础上,探讨多种强化学习对齐方法的影响与选择。最后,介绍华为诺亚方舟实验室在大语言模型RLHF方面相关的研究与业务实践。
07 Learn to reason : from alignment to exploration
阎栋(百川智能)
个人简介:博士毕业于清华大学计算机系。历任Intel中国研究员、清华大学计算机系博士后、启元实验室机器智能基础前沿决策方向负责人。2023年加入百川智能,现任百川智能研究负责人。主要从事决策算法和系统方面的研究。在算法方面,提出了通过奖励分配机制连接无模型和基于模型的强化学习算法的求解框架。在ICLR、ICML、IJCAI、AAAI、JMLR、Pattern Recognition等会议/期刊发表论文十余篇。带领团队基于RLHF增强的大语言模型Baichuan3,在4月份的Superclue评测中荣获国内第一。
演讲概要:OpenAI o1的发布给大语言模型的发展带来的新的方向。在本次讲座中,我们首先回顾Alignment技术的最后一步,Reinforcement Learning with Human Feedback在过去两年中的发展。在此基础上探讨,传统强化社区发展的技术(比如MCTS)如何应对推理空间组合爆炸所带来的挑战。最后,介绍Baichuan智能从减少安全风险和疑难杂症解析两个维度将推理能力落地医疗场景的业务实践。
08 Reasoning is all you need
许皓天(小红书)
个人简介:硕士毕业于清华大学电子系。毕业后,主要在阿里、抖音、小红书等公司工作。工作内容涉及内容安全、风险舆情、大模型内生安全以及模型推理能力增强等方向。在ACL/EACL、ICLR、TASLP、ICASSP等会议/期刊发表多篇论文。主导研发的基于能量模型的MCTS树搜索,在多个数学benchmark上取得显著提升。
演讲概要:随着openai发布o1,test-time-scaling给社区带来了新的技术探索方向。我们将从pretraining、alignment、inference-time-scaling等几个角度探讨小红书在这些方面上的探索成果和思考。