基于词频逆文档频统计的词汇时间分布层次
DOI,PDF 下载: 43  浏览: 261 
作者饶高琦1,2李宇明1
关键词词频逆文档频时间分布历时分层汉语史
摘要:
汉语演变过程中,词语使用受时间影响的程度差异很大。这体现为词汇时间分布的不同。该文基于70年跨度历时语料库,使用TF-IDF方法对词汇的时间分布进行了统计,并尝试对词汇系统的时间分布层次进行划分。通过对历时文本分类性能、词类分布、词长分布、覆盖率和词语生命力五方面的考察和分析,建立了由基干层、过渡层、时间敏感层(时敏层)和逸散层构成的词汇时间分布四分层体系。

版权所有 © 2025 世纪中文出版社  京ICP备2024086036号-2