请选择 目标期刊

基于多模型的新闻标题分类 下载:55 浏览:430

董孝政 宋睿 洪宇 朱芬红 朱巧明 《中文研究》 2018年8期

摘要:
该文研究中文新闻标题的领域分类方法(domain-oriented headline classification,DHC)。现有研究将DHC限定为一种短文本分类问题,并将传统分类模型和基于卷积神经网络的分类模型应用于这一问题的求解。然而,这类方法忽视了新闻标题的内在特点,即为"标题是建立在凝练全文且弱相关的词语之上的一种强迫性的语义表述"。目前,融合了序列化记忆的循环神经网络在语义理解方面取得了重要成果。借助这一特点,该文将长短时记忆网络模型(long-short term memory,LSTM)及其变型——门控循环单元(gated recurrent unit,GRU)也应用于标题的语义理解与领域分类,实验验证其性能可达81%的F1值。此外,该文对目前前沿的神经网络分类模型进行综合分析,尝试寻找各类模型在DHC任务上共有的优势和劣势。通过对比"全类型多元分类"与"单类型二元分类",发现在领域性特征较弱和领域歧义性较强的样本上,现有方法难以取得更为理想的结果(F1值<81%)。借助上述分析,该文旨在推动DHC研究在标题语言特性上投入更为充分的关注。
[1/1]
在线客服::点击联系客服
联系电话::400-188-5008
客服邮箱::service@ccnpub.com
投诉举报::feedback@ccnpub.com
人工客服

工作时间(9:00-18:00)
官方公众号

科技成果·全球共享