基于长时间跨度语料的词义演变计算研究-文章-世纪中文出版社

基于长时间跨度语料的词义演变计算研究

DOI: ,PDF 下载: 22 浏览: 500

作者: 孙琦鑫1，2；饶高琦1，2，3；荀恩东1，2；

作者单位: 1.北京语言大学信息科学学院；2.北京语言大学语言资源高精尖创新中心；3.北京语言大学汉语国际教育研究院；

关键词: 词义演变；历时语料；分布式表示；

摘要:

该文收集了自晚清到21世纪间长达144年的连续历时报刊语料，通过统计分析和词语分布式表示两类方法展开研究，计算并辅助识别汉语词语的词义历时演变现象。采用TF-IDF、词频比例等多种统计分析的评价指标和目标词语在文段中的共现实词及其重合度挖掘出现词义演变的词语。针对历时语料上不同时间段的词向量对齐，采用SGNS训练词向量加正交矩阵投影、SGNS递增训练和"锚点词"二阶词向量表示三种方法，其中以SGNS递增训练效果最佳。针对自动发现的词义演变现象，采用目标词历时自相似度和锚点词历时相似度的分析方法，并利用近邻词来明确目标词变迁前后的词义。

投稿

学术共建

	在线客服
	客服电话：400-188-5008
	客服邮箱：service@ccnpub.com
	投诉举报：feedback@ccnpub.com