分论坛四:大模型搜索与推荐

分论坛日程

时间 报告人 单位 报告题目
08:55 - 09:00 窦志成 中国人民大学 主持人开场
学术界报告
09:00 - 09:35 张敏 清华大学 大模型推荐系统评价与基于大模型的推荐评价
09:35 - 10:10 徐君 中国人民大学 大模型生成内容对检索无偏性的挑战
10:10 - 10:45 冯福利 中国科学技术大学 大模型驱动的个性化内容生成与推荐
10:45 - 10:55 茶歇
工业界报告
10:55 - 11:30 毛航宇 快手 快意系列大模型以及在检索增强场景下的应用
11:30 - 12:05 王亮 微软亚洲研究院 从长文本语言模型看检索增强的未来

主席简介

sub-forum-invited

窦志成(中国人民大学高瓴人工智能学院)

个人简介:窦志成,教授,博导,中国人民大学高瓴人工智能学院副院长,中国计算机学会大数据专家委员会秘书长,中国中文信息学会理事、信息检索专委会副主任。主要研究方向为智能信息检索、大模型、检索增强的大模型、大模型赋能的检索等,曾获教育部自然科学奖一等奖、国际信息检索大会(SIGIR 2013)最佳论文提名奖,WWW 2023亮点论文奖,亚洲信息检索大会(AIRS 2012)最佳论文奖,全国信息检索学术会议(CCIR 2018、CCIR 2021)最佳论文奖。担任SIGIR 2019的程序委员会主席(短文),信息检索评测会议NTCIR-16程序委员会主席等职务。

讲者简介

01 大模型推荐系统评价与基于大模型的推荐评价
(LLM for Rec Evaluation and LLM as Rec Evaluator)

sub-forum-invited

张敏(清华大学)

个人简介:张敏,清华大学计算机系教授,国家高层次人才。主要研究领域为信息搜索与推荐、用户分析与建模。担任ACM出版指导委员会委员,国际顶级期刊ACM TOIS主编,ACM Multimedia 2025大会主席,以及CHIIR24、RecSys23、CIKM23、WSDM17等大会程序主席。获大川人才基金,IBM Global Faculty Award,中国高校计算机专业优秀教师奖励,北京科学技术一等奖,中国中文信息学会科学技术一等奖,SIGIR24时间检验奖、WSDM22大会最佳论文等。主持多项国家重点项目课题,并长期与国内外多个企业进行多项科研合作。

演讲概要:大语言模型与推荐系统的结合已经成为个性化推荐的重要发展趋势。报告围绕评价这一核心问题,介绍我们在两个相对角度的研究工作新进展:一是以用户为中心基于意图的大模型评估,二是以大模型为评价器对个性化推荐解释的评价。值得一提的是,这两个相对角度的评价工作均与人工评价呈现出很高的一致性。通过报告探讨大模型在个性化推荐中的优缺点,并对相关未来发展方向进行讨论。

02 大模型生成内容对检索无偏性的挑战

sub-forum-invited

徐君(中国人民大学)

个人简介:徐君,中国人民大学高瓴人工智能学院教授。主要研究领域包括互联网搜索与推荐。在国内外学术期刊和会议发表论文100余篇,获SIGIR 2019时间检验提名奖、SIGIR 2024最佳论文提名奖、SIGIR-AP 2023最佳论文奖、CCIR 22最佳论文等奖励。主持多项国家重点项目课题,长期与企业进行科研合作,多项研究成果在企业的商业系统中获得应用。

演讲概要:随着大模型的广泛使用,互联网上不断涌现大量人工智能生成的内容,给信息检索带来了新的问题:检索的内容不再完全由人创作产生,还可能源于模型自动生成。围绕这一问题,报告首先验证了基于预训练的神经检索模型偏好大模型生成内容的现象,称为“源偏差”。进一步,报告从因果推断的角度分析了源偏差的成因,并从检索侧和大语言模型侧分别提出了纠偏方案。最后,报告展望在大模型时代可信检索的发展方向。

03 大模型驱动的个性化内容生成与推荐

sub-forum-invited

冯福利(中国科学技术大学)

个人简介:冯福利,中国科学技术大学特任教授,入选国家青年人才计划。研究领域:信息检索、数据挖掘、机器学习、因果推断等,承担推荐算法合规、监管相关国家级项目,发表国内外顶级会议和期刊论文近100篇,谷歌学术引用12000余次,研究成果在多家公司的商业系统应用。曾获SIGIR 2021最佳论文提名奖、WWW 2018最佳演示论文奖。

演讲概要:报告围绕“如何利用大模型供给满足用户个性化需求的内容”展开,主要介绍三方面内容:模型提示自动优化、模型输出自动评价、兴趣驱动的模型个性化。针对模型提示,介绍高效、鲁棒的大语言模型提示自动优化;针对模型输出,介绍基于因果推理的幻觉自动检测;针对模型个性化,介绍兴趣感知的扩散模型和智能体优化。此外,报告展望生成式大模型时代用户个性化信息获取相关的发展方向。

04 快意系列大模型以及在检索增强场景下的应用

sub-forum-invited

毛航宇(快手)

个人简介:毛航宇,快意大模型知识增强研发负责人,同时兼任智能交互团队负责人。在ICLR及NeurIPS, ICML等CCF-A/B类会议和期刊上发表论文30余篇,申请国际、国内专利十余项,相关研究在企业场景落地并产生较大效益。本人和所带领的团队曾获全球数字经济大会“人工智能大模型-场景应用典型案例”、国际人工智能会议NeurIPS强化学习竞赛冠军、中国计算机学会“多智能体研究优秀博士论文奖”、华为“创新先锋总裁奖一等奖”。

演讲概要:「快意」是快手公司独立自主研发的一系列大模型,包括不同规模的语言大模型以及支持图文和视频理解的多模态大模型,全面专业的评测结果表明,「快意」大模型在中文领域达到了行业领先水平。此外,除了优异的通用技术底座能力,「快意」大模型也通过检索增强等技术,在AI小快、飞船等业务场景产生了重要的业务价值。

05 从长文本语言模型看检索增强的未来

sub-forum-invited

王亮(微软亚洲研究院)

个人简介:王亮,现任微软亚洲研究院自然语言计算组高级研究员。主要研究方向为信息检索、问答系统和基础模型的增强。2014年和2017年分别获得北京大学学士和硕士学位。目前已在ACL、EMNLP、NAACL、AAAI、ICLR等自然语言处理和机器学习领域会议发表论文30余篇,曾担任多个国际会议和期刊的程序委员会委员。主导开发并开源的E5系列的文本向量模型获得了广泛关注,累计下载次数达数百万,并在微软内部产品线上得到应用。

演讲概要:针对大语言模型存在幻觉生成以及难以动态更新参数化知识的问题,检索增强被视为一种解决方案,并在实践中得到广泛应用。然而,检索增强系统的实现复杂度较高,往往需要多个模块协同工作,且容易产生错误的传导。本报告将从长文本语言模型的角度出发,探讨其与检索增强的互补性,以及长文本模型在数据、训练、推理和评测中的技术挑战。