PDF下载
一种基于卷积神经网络的快速说话人识别方法

蔡倩 高勇

四川大学电子信息学院

摘要: 提出了一种基于Gammatone滤波器倒谱系数(Gammatone Frequency Cepstral-Coefficients,GFCC)动态组合参数的卷积神经网络(Convolutional Neural Networks,CNN)结构来实现快速说话人识别的方法。提取语音样本的GFCC及其一阶差分和二阶差分系数作为代表语音的特征参数,对特征参数进行归一化处理,将得到的统计特征构造成CNN的输入形式。实验结果表明,与通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)相比,提出的模型方法学习速度更快,在提高识别率的同时减少了训练时间和识别时间。
关键词: ​动态组合参数;说话人识别;一阶差分;二阶差分;统计特征
DOI:
基金资助:
文章地址: