PDF下载
基于词频逆文档频统计的词汇时间分布层次

饶高琦1,2 李宇明1

1.北京语言大学汉语国际教育研究中心;2.北京语言大学语言资源高精尖创新中心

摘要: 汉语演变过程中,词语使用受时间影响的程度差异很大。这体现为词汇时间分布的不同。该文基于70年跨度历时语料库,使用TF-IDF方法对词汇的时间分布进行了统计,并尝试对词汇系统的时间分布层次进行划分。通过对历时文本分类性能、词类分布、词长分布、覆盖率和词语生命力五方面的考察和分析,建立了由基干层、过渡层、时间敏感层(时敏层)和逸散层构成的词汇时间分布四分层体系。
关键词: 词频逆文档频;时间分布;历时;分层;汉语史
DOI:
基金资助:
文章地址: