检 索
学术期刊
切换导航
首页
文章
期刊
投稿
首发
学术会议
图书中心
新闻
新闻动态
科学前沿
合作
我们
一封信
按学科分类
Journals by Subject
按期刊分类
Journals by Title
医药卫生
Medicine & Health
工程技术
Engineering & Technology
数学与物理
Math & Physics
经济与管理
Economics & Management
人文社科
Humanities & Social Sciences
化学与材料
Chemistry & Materials
信息通讯
Information & Communication
地球与环境
Earth & Environment
生命科学
Life Sciences
题名
面向机器学习的流式文档逻辑结构标注方法研究
DOI
作者
刘倩 李宁 田英爱
作者单位
北京信息科技大学计算机学院
摘要
针对采用机器学习方法识别流式文档结构时语料库稀少、语料标注复杂的问题,该文在研究文档的逻辑结构和编辑语义特征的基础上,确立流式文档逻辑结构标注体系,并提出一种三段式的半自动文档逻辑结构标注方法:第一阶段通过机助人工实现文档元数据的分离式标注,第二阶段自动重建逻辑结构,第三阶段自动填充特征向量。实验结果表明,该文提出的文档逻辑结构标注方法能够节省人工成本、提高机器学习算法对文档结构识别的准确率与召回率,F值达到97.5%。
关键词
结构标注;文档结构识别;机器学习
刊名
中文研究
ISSN
3007-9896
年、卷(期)
20192
所属期刊栏目
人文社科
打印