一个面向中文古诗词理解难易度的人工标注数据集

首页 > 人文社科 > 中文研究 > 2020年7期 > 一个面向中文古诗词理解难易度的人工标注数据集

一个面向中文古诗词理解难易度的人工标注数据集

刘磊1，2 何苯1，2 孙乐2

1.中国科学院大学计算机科学与技术学院；2.中国科学院软件研究所中文信息处理实验室

生成PDF 清样下载

复制成功

摘要: 向读者推荐阅读难度合适的古诗词有助于提升读者的诗词鉴赏能力。现阶段，围绕古诗词可读性自动化分析的相关研究的突出局限之一是缺乏大规模高质量的数据集。针对该问题，该文研究面向古诗词可读性自动化分析的数据集构建。该文作者对外开放了包含1 915篇古诗词的标注阅读理解难度的数据集（1）。该文首先将数据集划分成易中难三级，构建数据集APRD；然后进一步细化标注，构建六级分类数据集APRD+。抽取教材中的诗词组成标准集，以年级为标准难度级别，计算标准集与APRD、APRD+之间的Spearman相关性，Spearman系数分别为0.786与0.804，表明该数据集标记结果与标准集具有较高一致性。该文提取了字频、注释数等古诗词特征，采用SVM、随机森林等算法进行了初步古诗词阅读理解难易度分类测试。文内提出的古诗词可读性数据集与实验结果可作为后续研究的测试基准。

关键词: 中文古诗词；可读性分析；

DOI:

基金资助:

查看本期封面目录

中文研究

ISSN：3007-9896

所属期次： 2020.7

提示文字！

注：我们将于1~7个工作日告知您审稿结果，请耐心等待；

您也可以在官网首页点击“查看投稿进度”输入文章题目，查询稿件实时进程。

为你推荐

学术共建

	在线客服
	客服电话：400-188-5008
	客服邮箱：service@ccnpub.com
	投诉举报：feedback@ccnpub.com