世纪中文出版社

基于BERT的古文断句研究与应用

俞敬松1 魏一1 张永伟2

生成PDF 清样下载

复制成功

摘要:

古汉语与现代汉语在句法、用词等方面存在巨大的差异。古文句与句之间通常缺少分隔和标点符号，现代读者难以理解。人工断句有助于缓解上述困境，但需要丰富的专业知识，耗时耗力。计算机自动断句有助于加速对古文的准确理解，从而促进古籍研究以及中华文化的弘扬。除自动断句，该文还尝试了自动标点任务。该方案自行预训练古汉语BERT(Bidirectional Encoder Representations from Transformers)模型，并针对具体任务进行微调适配。实验表明，该方案优于目前深度学习中的主流序列切割BiLSTM+CRF模型，在单一文本类别和复合文本类别测试集上的F1值分别达到89.97%和91.67%。更重要的是，模型表现出了很强的泛化能力，未参与任何训练的《道藏》测试集上的F1值依然可达到88.76%。自动标点任务仅使用少量较为粗糙的带标点文本训练集时F1值为70.40%，较BiLSTM+CRF模型提升12.15%。两任务结果均达到当前最佳，相关代码和模型已经开源发布。

关键词: 自动断句；自动标点；BERT；微调；

DOI:

基金资助:

查看本期封面目录

中文研究

ISSN：3007-9896

所属期次： 2019.8

为你推荐

学术共建