请选择 目标期刊

中文矛盾语块数据集构建和边界识别研究 下载:28 浏览:306

李博涵 姜姗 刘畅 于东 《当代中文学刊》 2020年7期

摘要:
文本矛盾是自然语言理解的一项基础性问题。目前的研究大多针对矛盾识别任务,而深入文本内部探究矛盾产生原因的工作较少,且缺乏专门的中文矛盾数据集。该文在前人矛盾研究基础上,提出矛盾语块的概念,将其划分为7种类型,并根据标注规范构建了包含16 224条数据的中文矛盾语块(CCB)数据集。基于此数据集,利用序列标注及抽取式阅读理解类模型开展矛盾语块边界识别实验,以检验模型对矛盾内部语义信息的理解能力,结果显示阅读理解类模型在该任务上的性能优于序列标注模型。该文通过三个角度对影响语块边界识别的因素进行分析,为文本矛盾后续研究工作提供可靠的数据集和基线模型。

一种基于平衡二叉树的CDP数据备份及重构方法 下载:60 浏览:352

李毅飞1 杨进2 《数据与科学》 2019年5期

摘要:
当前较为流行的块级持续数据保护(CDP)系统在远程恢复备份数据的过程中,在数据重构时需要遍历所有元数据记录,从而造成了巨大时间浪费。针对上述现有方法存在的问题,为加快恢复速度,本文提出了一种基于平衡二叉树的备份数据及重构方法,此方法在备份过程中通过平衡二叉树对元数据记录进行处理,并通过位图文件来标记某个数据块是否发生过变化。在数据重构时通过平衡二叉树与位图文件处理后的元数据记录,可快速定位数据重构时刻数据块变化的位置,避免了遍历所有元数据记录,从而降低了数据重构时间。
[1/1]
在线客服::点击联系客服
联系电话::400-188-5008
客服邮箱::service@ccnpub.com
投诉举报::feedback@ccnpub.com
人工客服

工作时间(9:00-18:00)
官方公众号

科技成果·全球共享