基于语音情感的心理咨询与性格分析算法研究
唐文烟
生成PDF 清样下载 引用

复制成功

导出题录

参考文献( GB/T 7714-2015 ) 复制

唐文烟,. 基于语音情感的心理咨询与性格分析算法研究[J]. 心理学研究,20225. DOI:10.12721/ccn.2022.157089.
摘要: 人主要依靠声音与他人进行交流,而交流的过程中都会传递一些情感,不同的情感则就会有不同蕴藏着不同的讯息,对人能产生不同的作用。因此,进一步加强语音情感识别则就变得十分重要,其是识别人情感变化重要“工具”,是加强人际交流的不可缺的基础。本文重在研究基于语音情感的心理咨询和性格分析算法,侧重分析情感信号识别处理、人类语音情感特征及人工智能识别系统,帮助人们更好的进行交流,并做出准确预测,最后在给出不同的相关的心理分析与建议。
关键词: 语音情感;心理咨询;性格分析;计算机
DOI:10.12721/ccn.2022.157089
基金资助:

人的声音蕴藏着人情绪、心理及思想等众多信息,当人与外界交流的时候这些信息就会被他人所接受,而接受了这些信息之后,人便能感知其的感受与某些想法等。可见人的语音信息能映射出人的整体感受,更是一个信息的综合体。由此,研究语音情感识别信息则能帮助人们研究人工智能技术,可透过人的语音来分析人的整体感受,利用先进的计算机技术及运用智能系统等来预测人的情感变化。因此,为了更好开展本次实验,而利用多种设备、系统等作为支持技术,以提高实验的准确性,同时提高数据的应用处理能力。

一、语音信号与预处理

当语音信号发出之后,经过特殊的转化处理之后,变成为计算机数字信号,然后,再经计算机设备接收之后便能识别这种语音信号。当计算机接收数字信号以后,就会立即进行分析处理,然后在进行识别,而只有做好预处理之后,那么才能使本次实验能更好的开展下去,才能使试验最终数据准确性变得更高。

(一)预加重

在处理语音高频加重过程中,可采用FIR高通数字滤波器来完成加重处理,能有效出去生命激励及口唇辐射所造成的影响。预加重技术在信号处理领域应用具有了不可代替的优点,该技术是被当作为一种高效的信号处理技术,如:技术人员可通过采用该技术来分析信号,如:可在发送端对输入信号高频分量加以处理,适当的补充一些信号。预加重技术目前主要应用到数据采集、传输当中,一直都发挥着不可缺少的作用。

众所周知,每当设备的信号速率增加的时候,因传输速度过快而导致信号损失,而为了接收到更好的信号而采用预加重方式来进行补偿。预加重技术目前已经广泛采用到录音领域、信号传输领域等当中,该技术能有效提高信号输出比率,对信号噪声不会造成影响。

(二)分帧加窗

语音信号传输稳定性是有限的,其的稳定范围通常是在10ms—30ms,若超过了这个范围之后就会变得不稳定,影响信号的真实性。将语音以分帧的方式来进行分段,便能提高信号的平稳性。目前最常见的加窗技术可分为三种:汉宁窗、汉明窗、矩形窗。这三种加窗技术特点如下:

第一、汉宁窗,具有了较强的抗高频干扰能力,以及漏能能力,能够使旁瓣相互抵消,稳定信号,其可被看作为升弦窗。

第二、汉明窗,其的频率分辨能力不是很强,处于较低水平,但是主瓣相对的比较的宽一些,其的一大优点便是频谱的出现泄露的情况相对比较的少一些。

第二、矩形窗,其的频率分辨率要比汉明窗要高,要强,然而,其的旁瓣相对有比较的高一些,而其的缺点便是会对相邻谐波产生一定的干扰。

综合来说,汉宁窗、汉明窗、矩形窗都拥有其自身不同特点,各自都有不同的缺点。对比汉宁窗、矩形窗就可发现,汉明窗所能获得的频谱相对的比较的平滑一些。因此,可根据不同的需要来选择加窗技术。具体可参考下述公式1、公式2、公式3。

公式1:汉宁窗

image.png 

公式2:汉明窗

image.png 

矩形窗3:矩形窗

 

image.png 

2.3端点检测

为更好的检测有效语音段,那么就要采用端点检测技术。该技术能检测能力强,效率高,检测失误少。一般来说,都包括有两个方面内容,其中主要就包括有检测出有效语音的起始点,这也就是前段点。其次,检测出有效语音结束点,也就是后端点。

3.Mel倒谱系数提取技术

Mel倒谱系数技术是一种数字信号提取技术,这种技术通常都是建立在了频谱基础特之上,具有较强的信号提取能力,而该技术数据处理能力强,可以根据人类听觉系统特性来进行分辨提取。同时该技术也可以够模拟人耳对不同频率额语音感知。

4.实验结果

4.1语音库

为了更好的进行实验,提高语音测试准确性,主要采用了CASIA汉语情感语料库。该语音库目前总共收集有七千两百多条人类语音。一共收录有六种人类情绪,其中包括有:高兴、生气、害怕、悲伤、惊讶、中性。采用该语音库来作为实验中的语音库,能提高语音库的应用能力,语音识别能力,题号信号识别能力。

4.2数据处理能力

为了提高本次实验的准确性,则都采用了监督学习模式,旨在解决当前语音样本处理能力,而语音样本的英文标签则不可以直接的接入到神经网络之中,而必须将标签加以处理,收集,然后在转化成为One-HOT编码。该编码通常又被技术人员称之为一位有效编码,如果从其的设计本质来看,其就是一个二进制向量。在不管何时,或者任意时刻里都只有一位有效,也就是索引位为1,而其余位则都为零。这一类型编码可更加准确的计算传输距离。一般地,可将英文标签对应不同的数字标签,接着我们在利用库函数将数字转换成One-hot编码。而在开展本次实验的故操作则也是采用该编码,旨在提高数据的接受处理转换能力。接收到英文便签之后,就会进行转换,加以处理之后便将语音信号转变成不同的编码。

4.3语音情感识别模型设计

(1)模型概述

为使本次实验能更好进行下去,以及最大限度的提高数据测试能力,而主要采用了神经网络为层ANN+现性层+双向1stm层+attention层+全连接层。

(2)训练结果

本次实验的目的加强研究数据语音情感心理研究,旨在研究出一种具有高度识别语音信息的系统,因此,为了更好的开展本次实验,而增加了训练次数,本次实验一共进行二十轮的不断循环训练。而训练的主要结果,则就是以每五轮作为间隔来展示。

(3)最终结果分析

模型在训练的过程中,训练精度就会不断的上升,此时,就会导致损失值不断降低,当损失值与验证集精度均都在约十轮左右,此后就会变得稳定,在这个时候的精度则约为84%。具体可参考下图:

 图一  精度随训练轮数增加产生的变化

image.png 

4.4性格分析模式

为了更好验证数据处理真实性,故采用了人格因素来对应转换后的编码数据。值得一提的就是人格因素通常都由五种不同的人格因子所组成的。该理论则是由于Goldberg率先提出的。该研究专家将人格理论定义为五个因素:开放性、责任心、外倾性、宜人性、神经质性。具体解释如下:

第一、开放性,这一人格因素,特征最大特点就是想象,指的就是拥有这一类特质的人,拥有较强的意识审美能力,并且具有较强的创造能力,具有较高的智商。

第二、责任性,拥有这一特质的人,拥有较高的自我约束自我的能力,并不会放任自流,不会人云亦云,对待生活、合作比较节制,可以很好的控制住自己。

第三、外情绪,这一类特质的人通常都表现出较强的社交天赋,在社交中比较活跃,识人能力较强,同时个性比较洒脱,开朗,通常都是比较乐观的。

第四、宜人性,具有这一类特质的人往往都很值得他人信任,并且热情直率,令人难以抗拒,

第五、神经质性,拥有这一人格特征的人,通常都由较强的敌对心理,同时也比较的冲突,自我控制能力相对较差,最大的一个特点便是其的情绪不够稳定。

我们在研究当中就发现,人格因子与人类的话语经常表达的情感存在一定的联系。实验证明,此次实验所有数据都是真实的,测试准确率较高。通过研究可知,情绪较高的人,越容易失控,情绪越难控制住,这对其而言是不利于的。

结论:

经过上述实验可知,实验中获得的最终数据是真实的,有效率最高可达到约84。为了更好的对应人格因素,故采用了Goldberg所提出的人格五大因素。而经过对比之后,就成功的实现了性格因素与语音情感识别分析。

参考文献:

[1] 余倩,洪兆金,翟其俊,乔方圆,赵力.基于语音情感的心理咨询与性格分析算法研究[J].信息化研究,2019,45(05):27-31.

[2]丁倩. 基于语音信息的多特征情绪识别算法研究[D].  2015.