PDF下载
基于双词语义增强的BTM主题模型研究

王云云 张云华

浙江理工大学信息学院

摘要: 针对目前短文本在BTM主题模型建模过程中存在的共现双词之间语义联系较弱的问题,提出一种结合cw2vec词向量模型的改进BTM主题模型(cw2vec-BTM)。使用cw2vec模型来训练短文本语料得到词向量,并计算词向量相似度。然后通过设置采样阈值来改进BTM主题模型共现双词的采样方式,增加语义相关词语的被采样概率。实验结果证明,本文提出的改进模型能有效地提高主题模型的主题凝聚度和KL散度。
关键词: ​短文本;BTM主题模型;词向量;吉布斯采样
DOI:
基金资助:
文章地址: