专委首页 >> 技术评测

第一届自然语言生成与智能写作技术评测大纲

2021年11月19日~11月20日,苏州

评测网站: http://nlg.cipsc.org.cn/evaluation.html

      “第一届自然语言生成与智能写作大会”将于2021年11月19-20日在江苏省苏州市举行,会议组织单位为中国中文信息学会自然语言生成与智能写作专业委员会(筹),承办单位为苏州大学。自然语言生成与智能写作大会从今年起组织技术评测,为中文自然语言生成和智能写作研发团队提供测试相关技术、算法和系统的平台。

 

      评测任务时间表

      任务征集截止时间:2021年10月20日

      整体评测时间(拟):2021年10月21日—2021年11月10日

      评测结果发布(网站):2021年11月15日

      第一届自然语言生成与智能写作大会评测研讨会:2021年11月20日

 

      评测任务范围

      包括但不限于以下主题:自然语言生成基础任务(人机对话、自动问答、自动文摘、图片/视频描述)、智能写作相关任务(文案生成、新闻写作、自动作文、作文批改、作文评分、文本校对)。

 

      已征集到评测(按报名时间先后排序)

标题 单位 联系人 报名方式
 文本生成一致性评测  清华、哈工大(深圳)、百度  肖欣延

 电邮报名

 https://aistudio.baidu.com/aistudio/

 competition/detail/105/0/introduction

 图像描述生成评价方法评测  青海师大、中央民大  李琳

 电邮报名

 meetingqhnu At sohu.com

 故事生成技术评测  清华  黄民烈

 电邮报名

 j-guan19 At mails.tsinghua.edu.cn

 中文句法错误检测技术评测  北语  饶高琦

 电邮报名

 raogaoqi At blcu.edu.cn

 

      1 文本生成一致性评测

      简介:评测任务

      我们计划使用三个任务数据集测试参赛系统的生成能力,包括文案生成、摘要生成和问题生成:(1)文案生成根据结构化的商品信息生成合适的广告文案;(2)摘要生成是为输入文档生成简洁且包含关键信息的简洁文本;(3)问题生成则是根据给定段落以及答案生成适合的问题。显然,这三个任务对生成结果的事实一致性均有较高要求。

      评测指标

      事实一致性指标:由于任务1的输入有明确的事实数据,所以采用专门的评估指标,对任务2、3采用通用的评估指标,具体如下:

      a)  对任务1,采用PARENT指标,同时将生成的句子和参考文本、输入表格信息比较,在兼顾参考答案的同时,评价生成内容是否忠于输入表格的信息

      b)  对任务2、3,利用提前构建的文本蕴含模型,通过衡量参考答案与文本生成结果的蕴含关系,作为衡量事实一致性的通用评估指标

      文本流畅性指标:使用BLEU-4,基于参考答案和预测结果,计算n-gram的匹配度。

 

      2 图像描述生成评价方法评测

      本共享任务邀请参与者提交一个或多个面向图像描述生成任务的自动评测算法,算法的目标是使自动评测方法给出的分数与人工评测的分数尽可能一致。我们将为参与者提供研究所需数据集,并采用客观的评价指标结果作为提交算法的最终成绩。

      任务描述:提出面向图像描述生成任务的评测方法,利用该方法对自动生成的图像描述进行打分,并使自动评测结果尽量接近于人工评测结果。数据集(数据截取自公开数据集):数据集包括以下三部分内容:(1)自动生成的图像描述文本集合;(2)人工撰写的图像描述文本集合;(3)文本集(1)的人工评分集;

      提交结果:请参与者提交以下材料:(1)提出的自动评测算法的相关技术文档;(2)提出的自动评测算法在我们提供的测试集上的评分结果。

      评价指标: 我们将通过衡量参与者提出的自动评测方法与人工评测方法之间的相关性来评价自动评测算法的好坏,评价指标将采用Kendall协调系数(Kendall Correlation)。

 

      3 故事生成技术评测

      故事生成是指给机器⼀些故事相关的信息,让机器生成一个故事。故事生成是自然语⾔处理和⼈工智能领域的重要前沿课题,对于提升机器对语⾔的理解能力、生成能力等具有重要价值,近年来受到学术界和工业界的⼴泛关注。

      然而一般的故事生成任务,给定的输⼊信息很少,导致输出可以⼗分多样,造成了自动评价的困难性。因此本任务给定了一个无序的情节序列作为输⼊,要求机器能够合理地利用这些情节,产生一个自然、流畅、有趣味性的长故事。

      本任务增大了输⼊的信息量,从而很好地缩减了输出的空间,不仅给自动评价提供了便利,⽽且也能更好地检验模型生成的可控性,同时还对模型进⾏情节规划的能力提出了更高的要求。数据来源于从⽹上爬取的中文故事,情节序列利⽤ RAKE 算法从故事中抽取得到,每个故事⾄多抽取8个情节,每个情节不超过8个词。

 

      4 中文句法错误检测技术评测

      作文错误自动批改是对外汉语教学走向智能化过程中的重要环节。汉语中介语作文错误自动批改技术评测(Chinese grammatical error diagnosis,CGED)是目前对汉语作为第二语言自动批改领域持续时间最长的技术评测。

      我们模仿CoNLL评测的通行做法,将汉语水平考试(HSK)原始数据中精细的错误分类归并为四类:字符串冗余(R)、字符串缺失(M)、字符串错误(S)和语序错误(W)。评测任务要求参加评测的系统输入中介语句子(群),其中包含有一个或多个错误的错误。参赛系统应判断该输入是否包含错误,并识别错误类型,标记出其在句子中的位置和范围。

      评测在假阳性评价的基础上,从四个方面以精确率、召回率和F1值对系统性能进行评价:

      1.侦测层(Detective-level):对段落单元是否包含错误做二分判断。

      2.识别层(Identification-level):本层子任务为多分类问题,即给出错误点的错误类型。

      3.定位层(Position-level):对错误点的位置和覆盖范围进行判断。

      4.修正层(Correction-level):参赛系统被要求提交针对错误字符串(S)和字符串缺失(M)两种错误类型的修正答案。系统可以决定提交最多3个可能答案。