PDF下载
基于密度及文本特征的新闻标题抽取算法

彭圳生1,2 巩青歌1 高志强1,2 段妍羽1 曾子贤1

1.武警工程大学信息工程学院;2.军队大数据与云计算重点实验室

摘要: 为从大量的复杂非规范网页结构中自动抽取出新闻标题,该文提出一种基于密度和文本特征的新闻标题抽取算法(title extraction with density and text-features,TEDT)。主要通过融合网页文本密度分布和语言特征的语料判定模型,将网页划分为语料区和标题候选区,选取语料后通过TextRank算法计算对应的key-value权重集合,最后采用改进的相似度计算方法从标题候选区抽取新闻标题。该算法能有效划分语料和标题区域,降低网页噪声干扰,准确抽取出新闻标题。实验结果表明,TEDT的准确率和召回率均优于传统的基于规则和相似度的新闻标题抽取算法,证明了TEDT不仅对主流新闻网站有效,而且对复杂非规范网页也广泛适用。
关键词: 标题抽取;密度分布;文本特征;信息检索
DOI:
基金资助:
文章地址: