第二届自然语言生成与智能写作技术评测 —— 面向藏语文本标题生成任务
1.任务背景
文本标题生成是自然语言生成研究的一个重要方向,近年来受到学术界和工业界的广泛关注。文本标题生成旨在生成能够概括或评价文本主要内容的简短、连贯且信息丰富的标题。针对标题生成的研究有助于阅读者快速获取文本主要内容和主旨,也可以避免标题缺失或者题不对文对读者的误导。通过本共享任务,我们希望能够吸引更多研究者和开发者关注藏语文本生成研究。通过针对藏语文本标题生成研究,进一步推动藏语生成理论和实践问题的研究水平。
本任务得到中国中文信息学会自然语言生成专业委员会(筹)支持,将在第二届中国自然语言生成大会(NLGIW2023)召开研讨会,并在大会上对获奖团队颁奖。
2.任务介绍
本任务给定藏语文本作为模型输入,要求参与者设计实现藏语文本标题生成模型,使模型根据输入文本生成包含文本主要内容和主旨且自然流畅的藏语标题。
3.数据集简介
数据为csv格式,包括标题和文本两列,每一行对应一个样本。示例如下:
标题 | 文本 | |
藏语 | སློབ་འབྲིང་བོད་སྐད་ཡིག་སྦྱོང་བ་འི་སྤྲོ་བ་སྐྱེད་བསྲིང་བྱ་ཐབས་སྐོར་མདོ་ཙམ་གླེང་བ། | སློབ་ཁྲིད་ཡག་པོ་བྱས་ཏེ་ཤེས་ལྡན་མི་སྣ་གང་མང་ཞིག་གསོ་སྐྱོང་བྱ་རྒྱུ་ནི་དགེ་བ་འི་བཤེས་གཉེན་ཚོ་འི་འགན་འཁྲི་དོར་མེད་ཅིག་ཡིན་ལ་ལས་འགན་དེ་སྒྲུབ་པ་འི་བརྒྱུད་རིམ་ནང་སློབ་སྦྱོང་བྱེད་འདོད་ཀྱི་སྤྲོ་བ་སྐྱེད་བསྲིང་བྱེད་རྒྱུ་ནི་ལས་འགན་དེ་ལེགས་འགྲུབ་ཡོང་བ་འི་སྔོན་འགྲོ་འི་ཆ་རྐྱེན་ཞིག་ཀྱང་རེད།གལ་སྲིད་རྦུང་བྱའི་ཡོན་ཏན་ལ་སྤྲོ་བ་སྐྱེད་གྱུར་ན་རིག་ཚན་གང་ཞིག་རྦུངས་ཀྱང་ཚེགས་མེད་དུ་ཤེས་ཐུབ་ཅིང་དེ་ཡང་རང་ཉིད་ཀྱི་ལོ་འགའི་སློབ་ཁྲིད་ཀྱི་ཉམས་མྱོང་བརྒྱུད་ཤེས་གསལ།དེང་སྐབས་སློབ་མ་ཁག་གཅིག་བོད་སྐད་ཡིག་རྦུང་འདོད་ཀྱི་སྤྲོ་བ་དེ་ཙམ་ཆེན་པོ་མེད་ལ་ཧུར་བརྩོན་རང་བཞིན་ཡང་ཆེན་པོ་མེད་པ་ར་བརྟེན་སློབ་སྦྱོང་གི་རྦུངས་འབྲས་ཀྱང་ཚད་ངེས་ཅན་ཞིག་དང་བློ་ཡིད་འཚིམ་པ་ཞིག་ཐོབ་ཀྱི་མེད། |
汉语 | 谈谈学习中学藏语感兴趣的培养举措 | 搞好教学,培养更多的人才,是一个良师义不容辞的责任,在完成这项任务的过程中培养学习兴趣也是完成这项任务的前提条件。如果对所学的知识感兴趣,那就很容易地学到任何一门课程。然而通过自己几年的教学经验,认识到当前一些学生对学习藏语言文字的兴趣不高,积极性也不高,因而学习成绩也就不一定很理想。 |
数据集下载地址:https://github.com/daixiang518/npl-202305.git
4.评测指标
本任务采用ROUGE-1, ROUGE-2和ROUGE-L作为评价指标衡量生成标题和标准答案之间的相似性。
5.时间安排
时间 | 说明 | |
报名注册 | 5月8日 | 发布共享任务说明,接受参与者报名 |
发布训练集 | 5月10日 | 发布训练数据集 |
发布测试集 | 6月25日 | 发布测试数据集 |
提交结果 | 7月1日 | 提交测试数据集结果和技术报告 |
评测会议 | 7月23日 | 发布任务最终结果,并进行颁奖和研讨 |
6.发起单位
发起单位:青海师范大学、中央民族大学
指导单位:中国中文信息学会自然语言生成与智能写作专业委员会(筹)
李琳,青海师范大学
赵小兵,中央民族大学
报名参赛联系方式:2054325206@qq.com
7. 反作弊声明
(1) 参与者禁止注册多账户报名,经发现将取消成绩并严肃处理。
(2) 参与者禁止在指定考核技术能力的范围外利用规则漏洞或技术漏洞等不良途径提高成绩排名,经发现将取消成绩并严肃处理。
(3) 可以接触到赛题相关数据的人员,其提交结果将不计入排行榜及评奖。
8. 交流平台通过邮箱报名后,主办方建立技术讨论群(微信群),供选手讨论、沟通,主办方也将安排工作人员定期在群内答疑,且后续的相关活动信息均会在群内发布。