专委首页 >> 领域动态

NLG专委会真知论坛(GenTalk第4期)长序列文本生成圆满结束!

  2022年8月31日下午2点,NLG专委会真知论坛(GenTalk第4期)长序列文本生成于线上正式召开。真知论坛由中国中文信息学会自然语言生成与智能写作专委会主办,每月举办一次,每次邀请2-3名左右自然语言生成和智能写作领域的资深专家,就某一主题与大家分享最新的成果以及领域进展。

  本次真知论坛由微软亚洲研究院自然语言计算组主管研究员张星星和北京理工大学计算机学院副教授高扬担任主持,有幸邀请到的两位资深专家为微软的主管研究员刘洋博士和中国人民大学高瓴人工智能学院长聘副教授严睿,就主题“长序列文本生成”为大家带来最新成果以及相关经验的报告和分享。

  首先,高扬老师介绍了真知论坛的基本情况以及本次论坛的主题和报告嘉宾,邀请各位参会的老师和同学加入到真知论坛的讨论中,并宣布本次论坛正式开始。

  第一场报告由张星星主持,由刘洋进行。报告围绕对话摘要这个摘要生成子任务展开,首先讲解了该任务的动机以及核心难点。随着语音识别系统的发展和远程工作需求的增加,越来越多的对话被记录,如会议记录、采访和辩论。这些对话作为密集的信息媒介,为用户对他们的快速阅读带来了挑战;同时,与新闻或学术论文这些独白语料相比,对话文本上的摘要数据集相对匮乏。针对上述挑战,刘洋博士介绍了他们最近提出的涵盖不同对话类型的多个对话摘要数据集DialogSum、MediaSum和QMSum;然后讲解了处理长对话的预训练模型DialogLM;最后讨论构造一个真实世界的对话/会议摘要系统中的开放问题和未来方向。

微软亚洲研究院自然语言计算组主管研究员张星星博士主持

微软主管研究员刘洋博士进行报告

  第二场报告由高扬主持,由严睿进行。报告主题是抽象式文本生成。严老师首先介绍了如何生成特定模式的摘要,讲述了他们提出的基于模式的摘要生成研究工作的任务定义和具体模型。然后,严老师讲解了针对科研论文的相关工作章节生成。最后,严老师总结了相关工作章节生成的研究进展,即把目标论文信息引入到科研论文的相关工作章节生成的过程,自动指标和人工评估指标肯定了模型效果。

北京理工大学计算机学院副教授高扬主持

中国人民大学高瓴人工智能学院长聘副教授严睿进行报告

  最后的Panel环节由两位主持人和两位嘉宾共同参与,各位老师就如何构建可控的预训练语言模型、长文本预训练语言模型的落地和长文本预训练语言模型的效率和性能的问题发表了自己的看法,并对长文本的评价问题的挑战和未来发展方向进行了讨论。

会议视频回放

      • Gentalk第四期