基于同义词词林和预训练词向量的微调方法
佘琪星1 王必聪1 刘铭1,2 秦兵1,2 王莉峰3
1.哈尔滨工业大学社会计算与信息检索研究中心;2.鹏程实验室;3.腾讯科技(深圳)有限公司
摘要: 同义词挖掘是自然语言处理领域中的一个基础任务,而同义词对的判别是该任务的一个重要部分。传统两大类方法,基于分布式表示和基于模板的方法,分别利用了语料的全局统计信息和局部统计信息,只能在精确率和召回率中权衡。随着预训练词向量技术的发展,基于分布式表示的方法存在一种简单高效的方案,即直接对预训练好的词向量计算相似度,将此表示为语义相似度。然而,这样的思路并没有利用到现有的同义词对这一外部知识。该文提出基于《同义词词林》的词向量微调方法,利用同义词对信息,增强预训练词向量的语义表示。经过实验,该微调方法能很好地完成同义词对的判别。
关键词:
同义词挖掘;预训练词向量;语义表示;微调;
同义词挖掘;预训练词向量;语义表示;微调