基于人工智能深度学习的语音识别方法分析

首页 > 工程技术 > 人工智能研究 > 2021年7期 > 基于人工智能深度学习的语音识别方法分析

基于人工智能深度学习的语音识别方法分析

段宏程春阳马林高原杜胜金

北方自动控制技术研究所山西太原 030006

生成PDF 清样下载

复制成功

摘要: 近年来我国科技快速进步、不断发展的过程中，人工智能技术开始广泛应用，深度学习语音识别就属于非常典型的技术，但是，由于此类技术应用的过程中还无法达到良好的语音识别目的，因此在未来发展的进程中，应增强语音识别效果，筛选最佳的人工智能深度学习下的语音识别方法，为其后续的进步夯实基础。

关键词: 人工智能；深度学习；语音识别；

DOI: 10.12721/ccn.2021.157025

基金资助:

目前采用人工智能深度学习的语音识别技术，可帮助人们解决生活或是工作中遇到的问题，通过特征、语言拾取的形式从语音方面、数据统计方面、心理方面进行识别，具有一定应用优势。未来发展的进程中,为增强语音识别模型的通用性和识别效果，应着力提升语音模型的训练方法，强化特征识别的有效性，满足不同领域语音识别技术应用需求。

1 基于人工智能深度学习的语音识别方法应用现状

1.1 语音拾取的具体方法

语音拾取主要通过采样、端点检测形式完成工作，其中采样就是通过声卡将语音信息采集输入到系统之内，处理相对应的语音信息模数，将其转变成为数字化内容，而端点检测则是按照语音信息内容、情况，明确一段语音的起点与终点，在预处理环节中占有十分主要的地位，通常情况下，检测工作中主要使用能量算法、过零率算法相互结合的措施，实现高效的语音拾取。

1.2 特征提取的措施

特征提取措施的运用，需预先确定适应性的特征，只有特征的提取具有合理性和针对性，才能将所识别的语音和其他环境噪音相互区别，准确反映出不同语音信息差异性，之后摒弃和需要识别语音不存在关联的信息。

1.3 模型训练的措施

这个措施在应用的过程中分成训练步骤、明确识别方法的步骤，也就是先进行训练，然后提出聚类的措施，获得需要识别语音的参数信息，将其当做是模板存储起来，识别系统就能够按照参数模板形成数据库系统，之后将需要进行识别的语音样本输入其中，和数据库系统之内的数据互相对比，选择相似度很高的内容将语音匹配识别出来。

虽然目前的人工智能深度学习语音识别期间可以应用上述几种措施增强识别效果，但是，目前相关识别系统还存有特征识别不足、模型训练不完善、情感因素识别不良等问题，严重影响语音识别功能的拓展、完善与发展。

2 基于人工智能深度学习的语音识别方法优化措施

2.1 增强特征识别效果

在应用语音识别技术、系统的工作中最为重要的就是将语音信号特征提取出来，使得语音信号中数量较多、信息内容复杂的信息向着量化方向进步，寻找具有代表性的信号特征，利用声学模型对特征分析、处理。研究深度学习时，可通过语音信号的波形图进行图像特征的提取，同时使用深度学习的手段，实时训练神经网络内部的权值、偏重等参数，直至参数收敛至最优，以达到增强识别效果的目标。除此之外，对于深度神经网络来讲，还可以提取、学习将初始语音元素数据特征描绘出来的方式，准确区分各种不同的数据信息，保证语音识别功能、效果，就算是系统温度降低，也不会出现原始信息破坏的问题，维持着较为良好的语音元素分辨功能。还需注意的是，可通过深度神经网络，将数据层映射出来、表达出来，获取到能够对原始数据信息特征、本质特点进行深度表征的内容，增强语音识别效果^[1]。

2.2 增强语音识别模型训练效果

人工智能深度神经网络应用在语音预处理环节中，应强化语音识别模型训练的力度，原因就是网络模型层数较多、深度很大，结构呈现出复杂性、繁琐性的特点，需要通过模型训练的方式动态化调整各类参数，才能达到良好的语音识别效果，因此，必须要重视模型训练操作，利用自编码器模型处理，预防参数收敛过程陷入局部最优、过拟合等各类问题的发生。模型训练的目的在于实时性掌握语音特征数据值，在输入数据信息以后进行循环迭代训练，能够增强语音识别效果。在此过程中，为发挥模型训练作用，可将模型训练的模板设置在识别系统之内，准确判断、识别模板库系统中的文字信息，投入具有较高相似度的文字，反复训练，增强语音识别的有效性，减少识别错误的发生概率^[2]。与此同时，还应对语音识别的模式进行拓展处理、更新处理，保证识别的匹配度符合标准，增强识别有效性，为系统的良好运行、高效化应用提供帮助^[3]。

2.3 开发语音情感识别功能

目前我国在人工智能技术更新、不断发展的环境中，人机互动受到人们的广泛关注，多数人都希望在和机器人进行沟通的过程中，实现情感互动，为满足人们的人机互动需求，未来还应增加语音的情感识别模式，在语音识别的过程中准确判定说话人的情感信息。但是此类信息提取难度较高，很难准确、真实地提取人们说话时的情感特征，局限性也很大。在此情况下，为应对语音情感识别的难题，可在识别系统中融入发音器官数据信息、人类面部表情数据信息，联合学习声学特征、运动学特征等，准确进行情感信息的提取、情感元素的识别，将人类的面部表情数据信息、运动学数据信息、声学数据信息等整合其中，在系统识别语音的过程中采集此类数据，就能够找出特征数值，在合理识别语音情感的同时对识别功能进行拓展与完善^[4]。

结语：

综上所述，目前我国已经将基于人工智能深度学习的语音识别技术运用在不同的研究领域，并取得了一定的成效，但是还存有不足，需要根据语音识别功能要求、系统发展需求等不断开发完善，因此在未来发展的过程中应进一步强化特征识别，增强语音识别模型训练有效性，开发情感识别的功能，在综合性研究、研发的情况下完善系统功能。

参考文献：

[1]周晶,贾江凯,孙博,等. 人工智能下深度学习的语音识别方法研究[J]. 魅力中国,2020，15(36):92-99.

[2]崔娟,吴磊. 基于人工智能深度学习的语音识别方法分析[J]. 信息记录材料,2019,20(9):168-169.

[3]周婧. 人工智能深度学习的语音识别方法研究[J]. 卷宗,2020,10(24):330-334.

[4]马树文. 深度学习在语音情感识别中的应用与分析[J]. 科技传播,2019,11(4):147-148,155.