世纪中文出版社

基于词向量的藏文语义相似词知识库构建

龙从军1，2 周毛克3 刘汇丹2

1.中国社会科学院民族学与人类学研究所；2.中国科学院软件研究所；3.中国社会科学院大学(研究生院)

生成PDF 清样下载

复制成功

摘要:

词向量在自然语言处理研究的各个领域发挥着重要作用。该文从语言学角度出发，讨论了词向量技术与语言学理论的关系；根据词向量的特征，提出利用藏文词向量构建语义相似词知识库。该文以哈尔滨工业大学的《词林》为基础，通过汉藏双语词典对译，在获取对译词的词向量的基础上，计算对译词的词向量与原子词群平均词向量的差值，利用不同的差值，自动筛选出与原子词群语义相似度较小的词。该文分别以藏文的词和音节为单位计算词向量，自动筛出不属于原子词群的词，通过对自动筛选结果与人工筛选结果对比，发现两者具有较高的一致性，这说明词向量计算结果与人的语言直觉具有较高的一致性。总体来说，该文所采用的方法有助于提高藏文语义相似词知识库构建效率。

关键词: 词向量；藏文；语义相似词；

DOI:

基金资助:

查看本期封面目录

中文研究

ISSN：3007-9896

所属期次： 2020.4

为你推荐

学术共建