专委首页 >> 领域动态

NLG专委会真知论坛(GenTalk第5期)“如何进一步提升文本生成质量”圆满结束!

  2022年11月10日下午18点30分,NLG专委会真知学生论坛(GenTalk第5期)“如何进一步提升文本生成的质量”于线上正式召开。真知论坛由中文信息学会自然语言生成与智能写作专委会主办,每月举办一次,每次邀请三名左右语言生成和智能写作领域优秀的研究生,跟大家分享他们的最新成果以及领域的最新进展。

  本次真知论坛由南京航空航天大学计算机科学与技术学院/人工智能学院教授李丕绩和哈尔滨工业大学计算学部社会计算与信息检索研究中心副教授冯骁骋担任主持,有幸邀请到的三位优秀研究生为顾宇轩(哈尔滨工业大学)、李华阳(奈良先端大)和苏熠暄(剑桥大学),就主题“如何进一步提升文本生成的质量?”为大家带来最新成果以及相关经验的报告和分享。

  首先,李丕绩老师介绍了真知论坛的基本情况以及本次论坛的主题和报告嘉宾,邀请各位参会的老师和同学加入到真知论坛的讨论中,并宣布本次论坛正式开始。

  第一场报告由李丕绩主持,由顾宇轩进行。报告围绕如何用小模块来控制大模型生成具有特定属性的文本展开讲解。首先尝试对现有的方法简单梳理并归纳为三种主要技术路线:加权解码、多目标优化和提示学习。之后从分布的角度将现有方法进行统一并针对多属性控制时多信号互干扰问题进行分析,最终提出在属性空间中通过样本搜索策略解决该问题的优化方法。

哈尔滨工业大学社会计算与信息检索研究中心顾宇轩进行报告

  第二场报告由冯骁骋主持,由李华阳进行。报告围绕使用神经网络模型去拟合真实数据分布和n-gram模型预测分布之间的残差来实现神经网络模型和n-gram模型的结合展开。首先分析了基于神经网络的语言模型的优缺点以及结合n-gram 语言模型的原因,然后详细讲述了工作是如何结合神经网络模型和n-gram模型的,并使用实验证明,该方法在三个典型的语言任务上(语言模型,机器翻译,文本摘要)相比于纯神经网络模型都能得到稳定的提高。

哈尔滨工业大学计算学部社会计算与信息检索研究中心副教授冯骁骋主持

奈良先端大李华阳进行报告

  第三场报告由冯骁骋主持,由苏熠暄进行。报告主题是对比搜索(Contrastive Search)——当前最优的文本生成算法。报告首先介绍了传统的生成方法如贪心搜索(Greedy Search)或集束搜索(Beam Search)经常会导致模型退化(Model Degeneration)的问题。其他方法如Top-K采样或核采样(Nucleus Sampling)则经常会导致语义信息不一致的问题。然后详细讲述了他们团队在NeurIPS 2022中最新提出的对比搜索(Contrastive Search)算法和生成结果。最后展示了该方法取得的成果:已在16种语言下得到了广泛的验证,并且已经部署在腾讯AI Lab商业产品(Effidit)以及Huggingface Transformers平台库中。

剑桥大学苏熠暄博士进行报告

会议视频回放

      • Gentalk第五期