请选择 目标期刊

基于长时间跨度语料的词义演变计算研究 下载:22 浏览:363

孙琦鑫1,2 饶高琦1,2,3 荀恩东1,2 《中文研究》 2020年12期

摘要:
该文收集了自晚清到21世纪间长达144年的连续历时报刊语料,通过统计分析和词语分布式表示两类方法展开研究,计算并辅助识别汉语词语的词义历时演变现象。采用TF-IDF、词频比例等多种统计分析的评价指标和目标词语在文段中的共现实词及其重合度挖掘出现词义演变的词语。针对历时语料上不同时间段的词向量对齐,采用SGNS训练词向量加正交矩阵投影、SGNS递增训练和"锚点词"二阶词向量表示三种方法,其中以SGNS递增训练效果最佳。针对自动发现的词义演变现象,采用目标词历时自相似度和锚点词历时相似度的分析方法,并利用近邻词来明确目标词变迁前后的词义。
[1/1]
在线客服::点击联系客服
联系电话::400-188-5008
客服邮箱::service@ccnpub.com
投诉举报::feedback@ccnpub.com
人工客服

工作时间(9:00-18:00)
官方公众号

科技成果·全球共享