PDF下载
基于字符级截断式循环神经网络的人名国籍识别

张钰莎1 张礼明2 蒋盛益2

1.湖南信息学院电子信息学院;2.广东外语外贸大学广州市非通用语种智能处理重点实验室 ​

摘要: 人名是反映用户国籍的关键信息,不同国籍的人名在结构和组成成分方面存在差异性和关联性.目前,基于人名的国籍识别研究工作大部分将人名切分成多个独立的字符单元,忽略字符间微妙的搭配和序列关系.针对上述问题,文中提出基于字符级截断式循环神经网络的人名国籍识别模型,将人名通过滑动窗口的方式截断成多个子序列,利用长短期记忆单元模型学习不同子序列内部的字符组合关系,通过平均池化操作聚合所有子序列信息,获取最终的人名向量表示.最后根据该人名向量实现用户的国籍识别.截断式的子序列有利于模型更关注人名内部的细微差异.在Olympic运动员和Aminer学者数据集上的实验表明,文中模型性能较优.
关键词: 国籍识别;用户画像;字符级表示模型;循环神经网络
DOI:
基金资助:
文章地址: