请选择 目标期刊

基于BERT的古文断句研究与应用 下载:40 浏览:212

俞敬松1 魏一1 张永伟2 《中文研究》 2019年8期

摘要:
古汉语与现代汉语在句法、用词等方面存在巨大的差异。古文句与句之间通常缺少分隔和标点符号,现代读者难以理解。人工断句有助于缓解上述困境,但需要丰富的专业知识,耗时耗力。计算机自动断句有助于加速对古文的准确理解,从而促进古籍研究以及中华文化的弘扬。除自动断句,该文还尝试了自动标点任务。该方案自行预训练古汉语BERT(Bidirectional Encoder Representations from Transformers)模型,并针对具体任务进行微调适配。实验表明,该方案优于目前深度学习中的主流序列切割BiLSTM+CRF模型,在单一文本类别和复合文本类别测试集上的F1值分别达到89.97%和91.67%。更重要的是,模型表现出了很强的泛化能力,未参与任何训练的《道藏》测试集上的F1值依然可达到88.76%。自动标点任务仅使用少量较为粗糙的带标点文本训练集时F1值为70.40%,较BiLSTM+CRF模型提升12.15%。两任务结果均达到当前最佳,相关代码和模型已经开源发布。

司马贞《史记索隐》校读札记二则 下载:62 浏览:368

游帅 《国学研究》 2019年1期

摘要:
通过校勘,发现今传世诸本《史记·匈奴列传》司马贞《索隐》所注"牛马之湩,臣菟人所具"当系"牛马之湩,巨蒐人所具"之讹。另《史记·五帝本纪》:"帝颛顼生子穷蝉。"司马贞《索隐》所注"穷係"亦本应作"穷世",系避唐讳所替换。"蝉"、"世"音乃互通。
[1/1]
在线客服::点击联系客服
联系电话::400-188-5008
客服邮箱::service@ccnpub.com
投诉举报::feedback@ccnpub.com
人工客服

工作时间(9:00-18:00)
官方公众号

科技成果·全球共享