引言:
近些年,中国铁路行业的发展速度惊人,各机构和部门之间的互动频繁增强。受到疫情影响,铁路视频会议需求持续上升。因此,为了提升客户对会议服务的满意度,需要向智能化、便捷化转型。因此,深入探讨AI技术在铁路视频会议通信领域的运用显得尤为关键。
一、AI技术
人工智能是计算机科学的一个分支,它致力于通过人工技术和算法研发智能系统和机器,以模仿和延伸人类智能,达到使机器具备智能的目的。研究领域包括语音识别、模式识别、图像识别、智能机器人等。结合了人工智能与计算机技术的AI识别方法可以实现对影像的智能化解析,同时也能模仿人类的思考模式和行动习惯。近些年来,由于科学技术的飞速进展,AI识别技术得到了广泛的推广,其运用已经渗透到各行各业,尤其是在视频会议方面表现得非常明显,主要有两种关键技术。第一,语音识别技术。它通过分析声波的声音特性来捕捉其特点并在系统的模式里寻找相似度以实现准确地分类与翻译成相应的字词。这种技术的商品化程度高且功能强大,具备很强的互动性能。由于智能化领域的发展迅速,这类集成电路及其相关产品的需求将会不断增长。第二,人脸识别技术。这种方法是使用相机拍摄并分析人类面部图片的过程,通常会根据眼球或面部的形状和构造作为主要的辨识依据。此外,可以进一步扩大对人脸部分的观察范围,这有助于更加精确地捕捉到其特定的面部特点,然后借助图像前置处理和高阶模式训练来提升准确率[1]。
二、应用研究
(一)智能语音助手与文字转换
作为人工智能领域的关键基础工具之一的NLP和NLG两种技能可以实现机器与人之间的人际沟通互动。通过这些技术,可以让虚拟对话伙伴理解并执行我们所说的话语或文字指令。同样,它们也可以从计算机中获取信息并将其转化为可被人们听懂、读取的信息内容。这样一来,就无需再依赖于简单的问题回答模式了,现在它已经发展到了一种更深层次的关系建立方式,即机器人和人类可以相互交谈。NLP代表的是一种过程,它使得计算机能理解文字,并将之转化为有组织的资料。在这个过程中,机器会捕捉到人的言语,对其进行解析、处理和操控,最终用人们熟悉的语言作出回应。与此相对应,NLG则被视为“编写语言”的功能模块,可以把计算机中的有序信息转变为文字,再以人们的口吻呈现出来。相较于NLP,NLG更擅长对计算机内的表述方式及其重要内容做计划和调整,从而产生出高质量的文本。在开始的语音检测阶段,需要确定输入信号是否属于语言信息,然后对其进行特定的频段抽样分析,并将结果转化为数字数据。这个步骤构成了语音辨识成功的基石,如果产生的数字数据不够精确,后续的所有操作都无法发挥作用,这也成为了决定智能语音助理精准度的关键要素[2]。
(二)智能语音追踪
在视频会议里,精确地识别出演讲人的位置至关重要。这需要利用声源聚焦来捕捉到他们的面孔,并由相机跟踪他们说话时的动作。唯有这样,才能够准确无误且流畅地转换到特定讲话人的领域。当前有许多结合了语音和影像的技术可以用于确定演讲人的位置,例如面部特征、身体姿势和声音信号等等。手部、头部和肩部等身体部位的活动频率是肢体信息的重要组成部分,通常发言者的活动频率会远超过聆听者,因此也能追踪到发言者。麦克风阵列大多使用若干麦克风阵元排列形成,通过各阵元实时的声音采集数据进行时间与空间上的处理来实现声源定位声源定位有几种常见的方法,包括基于到达时间差、基于高分辨率谱,以及基于可控波束这三种。
第一,基于到达时间差的声源定位。借助各个阵元空间位置和不同麦克风接收器的抵达时刻的声音信息,能够确定声源的位置。这个过程分为两个步骤,并且第二步的结果是第一步输出的依据。虽然其计算复杂度较低,有助于实时的定位,但是它仅能用于单一声源的定位。
第二,基于高分辨率谱的声源定位。利用麦克风阵列接收空间信号的相关矩阵来获取空间频谱,然后对相关矩阵进行计算,从而更准确地估计声源位置。尽管在理想情况下可以实现高精度定位,但易受到噪音的干扰。
第三,基于可控波束的声源定位。给声音信号赋予不同的权重并相加,然后持续优化这些权重以找到能产生最高输出功率的波束。最后,从这个特定波束指向的地方就可以找出实际的声源所在位置。这种方法具有快速计算能力、高稳定性和可靠度,但是其技术的复杂程度较高,因此使用它的产品价格也相对较为昂贵。
(三)人脸识别
人脸识别的关键在于捕捉人类面部的独特特性以实现身份确认。早期的技术手段包含了集群特质法则,依据马克维奇理论建立起来的模式化处理方式和人造主元分解产生的特色容貌等等。随着人工智能及其衍生技术的崛起,尤其是利用深度学理构建出来的机器视觉系统逐渐替代旧有的策略成为主流工具。现在因为人工智能与人像影像领域的高度整合所引发的新趋势下,众多使用CNN作为基础框架来设计出各种新型号的生物认证方案应运而生,例如DeepFace和DeepID系列产品就是其中的代表作之一,它们的共同点是在于通过运用CNN对照片中的形象元素加以抽象提炼,进而对其做进一步分门别类的工作,从而提高鉴别的精确度达到令人满意的效果。
第一,DeepFace算法模型。DeepFace算法模型是最早将CNN应用于人脸识别的,成功地实现了从传统方式到深度学习方式的转变。其网络结构如图1所示。
图1:DeepFace网络结构示意
首先对3通道RGB人脸图像进行正面化处理,即将其角度调整至正确位置,转化为面向镜头的照片,随后利用卷积层C1执行卷积运算。然后是最大的池化层M2和卷积层C3,它们从面部图片中抽取了如纹理信息等边界特性,然而由于M2过于频繁地进行了池化,可能导致像眼睛这种细节信息的损失,比如单双瞳孔的情况。接下来的局部连接层L4、L5、L6,针对面部的各个区域应用特定的卷积核,从而使得所提取出的特征更为多样化。然后进入到全连接层F7,最终输出了代表着面部特征的信息。最后的F8阶段,运用逻辑回归函数来实现对这些特征的分类。采取3D技术用于面部匹配,并且借助CNN完成面部图像的特征提取,同时在训练期间也引入了Dropout方法。Dropout是一种常用的CNN正则化策略,它可以令部分神经元根据一定的概率而停用,以此防止模型过度适应。
第二,DeepID算法模型。它与DeepFace的结构有所相似,DeepID网络结构的示意图如图2。
图2:DeepID网络结构示意
该系统接收的是三通道的人脸图像数据,通过四个卷积层C1、C2、C3、C4及三个最大池化层M1、M2、M3处理后,其后的两个卷积层分别接有最大池化层。特别地,C3和C4的产出被一同送入到全连接层中,由于C3所学到的特征相较于C4更为全面,所以这种组合能有效降低信息的丢失程度,同时,多次的池化操作也能在保持局部信息的同时获取更多的全局信息。最后,DeepID网络输出的结果是一个包含160维度的特征向量,并利用贝叶斯分类器来实现分类任务,这意味着它可以以160个神经元代表一万种不同的类别的识别,从而增强了对特征的学习能力和表达力[3]。
三、结语
为了适应时代的步伐并保持其重要地位,铁路视频会议系统必须不断创新以提升其性能。通过融合如语音识别、文字转换、智能语音追踪,以及人脸识别等人工智能技术,可以在铁路视频会议上实现更高水平的服务质量。这不仅有助于减少会议设备的使用难度,还能提升会议效果,同时也能增加会议的功能性和对参与者的记录分析能力。当前,我国铁路行业正积极推动新型铁路视频会议系统的升级工作,这一举措有望全面改善现有的问题,让会议过程变得更为简单且智能化。
参考文献
[1]周娟.计算机人工智能识别技术应用瓶颈分析[J].软件导刊,2014(9):28-29.
[2]韩晔彤.人工智能技术发展及应用研究综述[J].电子制作,2016(12):95.
[3]胡郁,袁春杰,王玮.人工智能技术在传媒领域的应用——以智能语音技术为例[J].新闻与写作,2016(11):15-16.