请选择 目标期刊

EntropyRank:基于主题熵的关键短语提取算法 下载:90 浏览:500

尹红 陈雁 李平 《中文研究》 2019年7期

摘要:
关键短语提取是自然语言处理领域的一个重要子任务,其目的是自动识别出文本中的重要短语,现有方法主要强调词语间相关关系和词语自身影响力会影响关键短语提取效果。考虑到关键短语应准确地表示文档主题这一特点,该文提出一种基于主题熵的关键短语提取算法。该算法利用隐含狄利克雷分布训练文档和词的主题分布,并结合两个主题分布来表示特定文档下的词主题分布,然后计算词主题分布的信息熵即主题熵来表示词语自身影响力,最后在词共现网络上使用随机游走方法计算每个候选短语的得分。在6个公开数据集上的实验结果表明,与现有的无监督关键短语提取算法相比,该算法在F1指标上能提高2.61%~6.98%。

融合图结构与节点关联的关键词提取方法 下载:20 浏览:202

马慧芳1,2 王双1 李苗1 李宁3 《中文研究》 2019年2期

摘要:
单篇文本的关键词提取可应用于网页检索、知识理解与文本分类等众多领域。该文提出一种融合图结构与节点关联的关键词提取方法,能够在脱离外部语料库的情况下发现单篇文本的关键词。首先,挖掘文本的频繁封闭项集并生成强关联规则集合;其次,取出强关联规则集合中的规则头与规则体作为节点,节点之间有边当且仅当彼此之间存在强关联规则时,边权重定义为关联规则的关联度,将强关联规则集合建模成关联图;再次,综合考虑节点的图结构属性、语义信息和彼此的关联性,设计一种新的随机游走算法计算节点的重要性分数;最后,为了避免抽取的词项之间有语义包含关系,对节点进行语义聚类并选取每个类的类中心作为关键词提取结果。通过设计关联图模型参数的选取、关键词的提取规模、不同算法对比3个实验,在具有代表性的中英文数据上证明了该方法能够有效提升关键词提取的效果。

融合网络图模型和排序模型的论文个性化推荐算法 下载:63 浏览:434

刘伟1 刘柏嵩1 王洋洋2 《数据与科学》 2019年3期

摘要:
研究学术论文的质量和用户身份在推荐过程中影响个性化推荐结果的准确率和质量的问题,在研究网络图模型和排序模型的基础上,提出一种融合网络图模型和排序模型的论文推荐算法,将论文质量融入用户-论文二部图,利用重启随机游走生成与用户兴趣相关的学术论文,最后利用排序模型对相关学术论文进行排序生成Top-N推荐列表。通过实验对比,结合论文的质量进行推荐相对于其他方法平均召回率提高了3. 62%,排序模型能够生成满足不同身份用户需求的推荐列表。
[1/1]
在线客服::点击联系客服
联系电话::400-188-5008
客服邮箱::service@ccnpub.com
投诉举报::feedback@ccnpub.com
人工客服

工作时间(9:00-18:00)
官方公众号

科技成果·全球共享