专委首页 >> 技术评测

第一届自然语言生成与智能写作技术评测

任务一:面向事实一致性的生成评测

任务介绍

      随着深度神经网络文本生成模型、预训练语言模型的迅速发展,自然语言生成的可读性和流畅性不断提升。然而,自动生成的文本中经常出现不符合输入的错误事实。这个问题被称为“自然语言生成的事实一致性问题”,以自动摘要任务为例,以下描述一个具体的样例:

      输入:研究机构此前曾发布报告称2013年长期黄金牛市或将终结,下调黄金3个月、6个月和12个月价格预估分别至1825美元、1805美元、1800美元。近日,大宗商品分析师Damien Courvalin的研究报告进一步预期国际金价到2018年或跌至1200美元/盎。理由是除了实际利率之外,黄金与各货币之间的联动同样影响着黄金价格,不过,三个月黄金价格预估仍然看涨。

      参考摘要:近涨远跌,金价2018年或跌至1200美元/盎

 

      这是取自LCSTS数据集[2]的一个样例,对输入的文本,算法需要得出精简的摘要结果。

      接下来,我们看两个由自然语言生成算法得到的结果:

      结果A(事实一致):研究机构预计国际金价近涨远跌

      结果B(事实不一致):分析师:金价2018年或跌至1800美元

      可以看到,结果A正确,结果B粗看似乎也比较流畅,但事实和原文表达的内容存在事实偏差(“1800美元”vs“1200美元”)。

 

      目前常用于评估自然语言生成效果的BLEU或ROUGE等指标,其思路均为计算生成文本与参考答案的字面匹配度。然而对结果A和结果B计算与参考摘要的字面匹配度,反而错误的结果B可以获得更高的分数,针对这个问题,我们设计和发起了本比赛。

      本评测任务以事实一致性为核心,将提供三个对事实一致性有较高要求的典型生成任务:文案生成[1]、摘要生成[2]和问题生成[3],结合文本流畅性和事实一致性两项指标,综合评估参赛系统的效果。

 

赛程安排

阶段

时间

说明

开启报名

2021.8.3

报名阶段开始

热身阶段

2021.8.22~2021.9.21

发布训练集、开发集

正式赛

2021.9.22~2021.10.21

发布训练集1,开启在线实时榜单

正式赛-最终测试提交

2021.10.22~2021.10.23

发布训练集2,选手提交最终结果

正式赛-人工评估

2021.10.24~2021.11.6

人工评估top10队伍并确定最终排名

评测会议

2021.11.7

在评测研讨会上发布比赛结果

      本任务依百度开放数据平台——千言平台开展。为确保比赛公平性,正式赛将分为3个阶段开展:

      🔹 阶段1:开放测试集1,参赛队伍可在测试集1上优化模型效果,提交结果到千言平台后,会在线给出结果并更新实时榜单1;

      🔹 阶段2:最终测试提交开放测试集2,参赛队伍计算测试集2上的结果并提交到千言平台;

      🔹 阶段3:人工评估,以阶段2的自动评测结果为准,排名前10的队伍进入人工评估阶段,为避免自动评估指标本身的评估偏差,将以人工评估为依据确认和公布最终排名。

 

参赛奖励

      面向事实一致性的生成评测比赛的最终获奖团队将获得:

      🔹 丰厚奖金:第一名20000人民币、第二名10000人民币、第三名5000人民币。

      🔹 荣誉证书:获奖团队将由赛事主办方颁发权威获奖证书。

 

      同时,参赛者也将获得以下福利:

      🔹 学习交流机会:在赛事群中与参赛者、组织者深入交流;

      🔹 前沿学习资料:获取自然语言生成事实准确性提升方法和评估指标的前沿进展学习材料。

      🔹 精美礼品&参赛证明:正式报名参赛并提交最终结果的队伍每位成员将获得千言数据集精美的定制周边一份,并发放参赛证明。

 

比赛组织

      🔹 指导单位:中国中文信息学会

      🔹 主办单位:中国中文信息学会自然语言生成与智能写作专委会(筹)

      🔹 承办单位:清华大学哈尔滨工业大学(深圳)百度

      🔹 评测委员会:黄民烈(清华大学), 户保田(哈尔滨工业大学(深圳))、肖欣延(百度)

      🔹 报名及竞赛详情链接:https://aistudio.baidu.com/aistudio/competition/detail/105

 

参考文献

[1]  Zhihong Shao, Minlie Huang, Jiangtao Wen, Wenfei Xu, Xiaoyan Zhu. 2019. Long and Diverse Text Generation with Planning-based Hierarchical Variational Model. In Proceedings of EMNLP 2019.

[2]  Baotian Hu, Qingcai Chen, Fangze Zhu. 2015. LCSTS: A Large Scale Chinese Short Text Summarization Dataset. In Proceedings of EMNLP 2015.

[3]  Wei He, Kai Liu, Jing Liu, Yajuan Lyu, Shiqi Zhao, Xinyan Xiao, Yuan Liu, Yizhong Wang, Hua Wu, Qiaoqiao She, Xuan Liu, Tian Wu, Haifeng Wang. 2019. DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications. In Proceedings of ACL 2018 MRQA Workshop.