基于双词语义增强的BTM主题模型研究
DOI: , PDF, 下载: 46  浏览: 349 
作者: 王云云 张云华
作者单位: 浙江理工大学信息学院
关键词: ​短文本;BTM主题模型;词向量;吉布斯采样
摘要: 针对目前短文本在BTM主题模型建模过程中存在的共现双词之间语义联系较弱的问题,提出一种结合cw2vec词向量模型的改进BTM主题模型(cw2vec-BTM)。使用cw2vec模型来训练短文本语料得到词向量,并计算词向量相似度。然后通过设置采样阈值来改进BTM主题模型共现双词的采样方式,增加语义相关词语的被采样概率。实验结果证明,本文提出的改进模型能有效地提高主题模型的主题凝聚度和KL散度。