NLG专委会真知学生论坛(GenTalk第6期)生成技术相关研究
NLG专委会真知学生论坛由中文信息学会自然语言生成与智能写作专委会主办,每月举办一次,每次邀请三名左右语言生成和智能写作领域优秀的研究生,跟大家分享他们的最新成果以及领域的最新进展。
本次有幸邀请到的四位优秀博士生为黄斐(清华大学)、高佳慧(香港大学)、龚恒(哈尔滨工业大学)和迟泽闻(北京理工大学),就主题“生成技术相关研究”为大家带来最新成果以及相关经验的报告和分享。
会议信息
会议时间:2023年5月28日(星期日)09:00(北京时间)
腾讯会议:161-142-095
直播平台:哔哩哔哩(http://live.bilibili.com/24629092)
主办机构:中文信息学会自然语言生成与智能写作专委会
会议日程
时间 | 报告 | 主持人 |
09:00-09:10 | 清华大学黄民烈教授致辞 | 高扬 |
09:10-09:50 |
报告嘉宾:黄斐(清华大学) 报告题目:又快又好的文本生成新范式:非自回归生成模型 |
宋伊萍 |
09:50-10:30 |
报告嘉宾:高佳慧(香港大学) 报告题目:零样本学习下的高质量数据生成 |
宋伊萍 |
10:30-11:10 |
报告嘉宾:龚恒(哈尔滨工业大学) 报告题目:面向结构化数据的文本生成技术研究 |
高莘 |
11:10-11:50 |
报告嘉宾:迟泽闻(北京理工大学) 报告题目:基于预训练语言模型的跨语言迁移学习 |
高莘 |
报告一:又快又好的文本生成新范式:非自回归生成模型
嘉宾: 黄斐
时间: 09:10~09:50
单位: 清华大学
摘要:当前的主流语言模型均采用了从左到右逐词生成的自回归生成方式,但这种方式依赖于迭代的预测过程,因此显著拖慢了生成速度。近年来,一种新的生成范式,非自回归生成模型,受到了学界的广泛关注。这类模型采用了并行预测整个句子的方式,不仅大幅加速了生成过程,同时还能克服自回归建模中存在的各类问题。本报告将从非自回归模型的基本原理入手,逐步揭示该模型存在的挑战与相应的改进方法。最终,本报告将展示当前非自回归模型所达到的最好效果:在经过大规模预训练后,非自回归模型在五个生成任务中超越了等参数量的预训练自回归模型,并取得了17倍生成速度提升,实现了又快又好的文本生成。
黄斐: 清华大学CoAI(交互式人工智能)博士生,导师为黄民烈教授,研究方向为自然语言生成、非自回归文本生成。以第一作者、共同一作身份在ICML、ACL、EMNLP、TACL等顶级国际会议或期刊上发表多篇论文。
报告二:零样本学习下的高质量数据生成
嘉宾: 高佳慧
时间: 09:50~10:30
单位: 香港大学
摘要:近来,越来越多的研究开始探索大型预训练语言模型(PLM)在零样本学习中的潜力。基于数据生成的零样本学习新范式已经取得了显著的效果。在这种范式中,PLM合成的数据作为知识的载体,以训练一个特定任务模型,该模型的参数比PLM少几个数量级,从而实现相比Prompting-based零样本学习更高的性能和效率。然而,该方法的主要障碍在于,PLM合成的数据通常包含大量低质量的样本。在这种数据上训练模型将大大影响任务特定模型的性能,使其在部署时不可靠。过去的方法主要通过使用启发式指标(如置信度)过滤合成的数据或使用人类专家的帮助来改善数据,但这或需要进行过多的手动调整、或依赖昂贵的成本。本报告将首先回顾基于数据生成的零样本学习新范式,并进一步介绍一种新颖的噪声鲁棒性re-weighting框架,用于自动构建高质量的合成数据集。该框架具有自动学习样本权重的能力,以指示数据质量,而无需任何人工注释。本报告也将介绍这一框架在理论和实验分析中的有效性。基于高质量数据,我们可以更有效地训练任务模型,并在部署时获得更可靠的结果。
高佳慧: 香港大学在读博士生,导师孔令鹏教授。她的研究方向为预训练语言模型、文本生成和视觉-文本跨模态学习。博士期间,她在ICLR、EMNLP、ICML、AAAI等国际顶级机器学习会议、自然语言处理会议上发表了多篇学术论文,其中以第一作者、共同一作身份发表多篇spotlight及oral论文。
报告三:面向结构化数据的文本生成技术研究
嘉宾: 龚恒
时间: 10:30~11:10
单位: 哈尔滨工业大学
摘要:生活中存在着大量的结构化数据,面向结构化数据的文本生成任务作为自然语言生成任务的一个分支,旨在通过计算机自动地分析结构化数据并生成准确连贯的文本描述。本次分享将围绕该任务所需要的两项核心能力:内容规划能力和表层实现能力展开。首先介绍近年来该任务上的典型方法,然后介绍我们在多维度结构信息建模、数值关系建模和数值推理等方面的工作。
龚恒: 哈尔滨工业大学社会计算与信息检索研究中心18级博士生。研究方向为数据到文本生成。已在AAAI、EMNLP、COLING等会议上发表论文,授权发明专利2项,参与国家重点研发计划和国家自然科学基金等多个项目。
报告四:基于预训练语言模型的跨语言迁移学习
嘉宾: 迟泽闻
时间: 11:10~11:50
单位: 北京理工大学
摘要:随着预训练技术的发展,自然语言处理模型能力飞速提升。互联网大数据时代为如ChatGPT等自监督预训练模型奠定了基础。然而,这同时也带来的新的挑战——低资源语言处理。先进的模型在利用高资源语言的大数据的同时,也通常只服务于高资源语言。近年来,跨语言迁移学习技术在低资源语言处理上不断取得突破。这类方法通过迁移学习技术,将知识从英语等高资源语言迁移到其它低资源语言。本报告介绍基于预训练语言模型的跨语言迁移学习技术,分别介绍面向文本分类、抽取式问答等语言理解的,与面向文本摘要等语言生成的跨语言迁移学习方法。最后,介绍一种跨语言迁移学习的全新范式——可插拔跨语言迁移模块。
迟泽闻:北京理工大学博士生,研究方向为跨语言迁移学习。以第一作者身份在ACL、EMNLP、NAACL、AAAI、TASLP等顶级国际会议、期刊上发表多篇论文;曾获NLPCC最佳学生论文、ICKG最佳学生论文、微软学者提名。
主持人介绍
宋伊萍,国防科技大学副教授。主要研究方向包括对话系统、低资源文本生成、图表示学习等。在自然语言处理领域发表ACL, AAAI, IJCAI, SIGIR等学术论文二十余篇, 谷歌学术引用一千余次。获评国防科技大学青年英才称号,获ACM China 北京分会优秀博士论文。担任自然语言处理国际顶级学术会议ACL-23领域主席,担任人工智能顶级学术会议AAAI-23高级程序委员会委员。
高莘,目前在山东大学担任助理教授。主要研究方向为自然语言处理。已在领域国际顶级会议ACL, WWW, AAAI, EMNLP, IJCAI, SIGIR等发表文章30余篇。获得了中国电子学会科学技术奖科技进步三等奖。目前任中国中文信息学会青年工作委员会委员、信息检索专委会通讯委员。近年来担任了国际顶级会议ACL的领域主席和IJCAI 高级程序委员会委员。
本次专委会主题讲坛组织者
NLG专委会秘书处:冯骁骋(哈尔滨工业大学)、李丕绩(南京航空航天大学)、高扬(北京理工大学)
NLG专委会学生工作组:姜晓彤(苏州大学)、朱坤(哈尔滨工业大学)