探究大数据环境下机器学习算法趋势
​黄舟
生成PDF 清样下载 引用

复制成功

导出题录

参考文献( GB/T 7714-2015 ) 复制

​黄舟,. 探究大数据环境下机器学习算法趋势[J]. 中国环境保护,20236. DOI:10.12721/ccn.2023.157054.
摘要: 当前信息库中的信息数量越来越多,信息处理的过程越来越复杂,在创建起大数据环境的同时,对于相关技术也就提出了更高的要求。同时,人工智能技术已经得到广泛应用,机器学习作为其中的核心,受到了越来越多的关注。相对于既往的分析方式来说,机器学习可以大幅度提升数据分析的效率和应用价值,所以需要在积极研究机器学习算法,以提升大数据环境下的机器学习应用效果,所以本文主要针对大数据环境下机器学习算法趋势进行探究,以供参考。
关键词: 大数据;机器学习;算法
DOI:10.12721/ccn.2023.157054
基金资助:

当前数据已经深入到各个行业和领域当中,能够对生产发展产生重要影响,并且大数据中含有海量的小数据,针对其进行分析,可以获取未知的知识,并创造出相应的价值,以此为基础,机器学习及数据分析是将大数据转换成为具有应用价值的内容的重要途径,并且待处理的数据,其规模越大,机器学习模型的应用效果就越好,所以机器学习已经在大数据智能化分析处理中占据重要地位。现在计算数据的量级已经上升至PB级或是TB级,传统机器学习模式同时面临着机遇和挑战。由此可见,针对大数据环境下机器学习算法进行探究,可呈现出较高的应用价值。

一、大数据和机器学习的概述

(一)大数据

大数据是网络持续普及之后无数网络行为伴生的内容,是被相关的部门或是企业按照自身意图收集的动态的、多源的数据,既往数据仅存在于企业或是科研机构中,但是当前网络越来越发达,数据无时无刻不在产生,目前全世界90%以上的数据均为最近几年产生的内容。但是在实际上,所谓大数据并不仅是数量庞大的数据内容,而是数据具有一定的被学习算法应用的价值。目前大数据已经在世界多个国家中被列为重大的研究课题,并且上升到国家战略级别。

(二)机器学习

机器学习之中包含多个类型:(1)监督学习:通常在学习具体功能时进行应用,需要使用当前既有的培训数据样本,被监督对象进行学习,并获取应有的性能,各组示范数据的例子中均包含输入对象及相应的期望输出值;(2)半监督学习:其中所应用的训练数据在具有完全标记和不具有任何标记两个类型的训练数据之间;(3)无监督学习:在已经输入但是尚未进行标记的测试数据之中进行结构查找以及开展学习活动,采用寻找数据共性的的方式,对数据中有无相关共性进行判断,并做出相应反应,所以无监督学习一般统计和总结工作中进行应用;(4)强化学习:其与监督学习和非监督学习共同被称为三大机器学习范式;(5)自学习:其属于一类不需进行外部监督和反馈的学习,对于具有自学习能力的一类是神经网络,可被称为CAA;(6)异常检测:对观察结果与大多数数据结果存在差异的数据产生怀疑并进行识别,可以在一定程度上起到保障机器学习效率的作用;(7)机器人学习:属于在进行学习时自动生成的学习经验序列表,可以将计算机作为平台进行自动探索,并积累经验,同时获取新技能。

二、大数据背景下机器学习算法

(一)大数据处理基本策略

大数据对机器学习进行处理的策略基本上可以分为两个方面:(1)分治策略:以多支递归算法为基础,对复杂问题进行拆分,使其形成数个相似或是相同的子问题,经过数次拆分以后,子问题的难度已经极低,之后解决子问题,并使用同样的方法解决最初的问题;(2)大数据抽样,其属于机器学习过程中占据重要地位的一个部分,如果出现采样偏差情况,能够导致机器学习算法模型进行构建的性能受到影响,而在开展机器学习培训的过程中,需要保障数据样本对建模基础分布进行充分反映,所以在大数据利用管理过程中,需要注意应用适宜的采样技术,以避免出现抽样偏差的情况。

(二)传统机器学习的挑战

传统形式的机器学习,其中的主要问题为,看似复杂,但实际上不具有较好的智能性,仍然需要人为干预,且仍然涉及大量专业知识。同时其中多项功能需要由专家进行识别及操作,导致机器学习的效率较低,信息处理所需的时间较长。因为机器学习能够采用开发高效算法以及进行数据驱动的方式,针对大数据进行快速处理,并获取准确的结果,所以在大数据的背景下,有必要积极发展机器学习。

三、大数据背景下机器学习算法主要趋势

以大数据为背景对复杂的机器模型进行训练时,需要在机器学习算法之中纳入解决计算时间,计算量,内存容量之间的问题。此为基础。机器学习算法设计的趋势主要包括三个方面。

(一)并行算法

对大数据算法问题进行解决的主要措施之一,即为引入并行算法,该算法能够同时执行数个进程的集合,不同的进程可以在相互之间产生作用和协调动作,再逐渐求出该问题的解。进行大数据处理的过程中,需要针对数台计算机或处理器分配数据处理任务,各计算机或处理器之间可以相互通信以及协作,从而可以在复杂的数据样本之中进行高效的求解。从实际上来看,并行算法对各类问题的处理效率,与算法使用成本、总运算量、处理器数量和运行时间均具有密切的关联性,所以一般需要在其中应用性能良好的硬件资源,以尽量提升问题处理效率。

应用大规模数据分布式并行计算模型,例如MapReduce以及Hadoop等,有利于提升问题处理效率。MapReduce属于一个以集群为基础的、性能较高的并行计算平台,由谷歌公司提出,之后实现了以JAVA为基础进行设计开发的Hadoop开源,当前已经成为大数据处理工作中的工业标准,可以在机器学习、数据挖掘、图形图像处理等多个方面进行有效应用。MapReduce可以首先提供抽象操作以及编程接口,进入到执行阶段以后,通过两个函数编程——Map和Reduce共同执行相关任务,可以提升大规模数据的编程效率和计算处理效果。

以Hadoop为基础的Spark,属于更加先进的大数据分布式处理框架,其中使用了内存分布数据集,如果数据需要进行数次的迭代用使用,将其保存于分布式内存之中,可以大幅度的替代磁盘读写操作,也就可以显著缩减相应的访问延迟时间。并且Spark提供的操作接口更加灵活,且通用效果更好,编程难度也就随之降低,所以对于迭代运算较多的机器学习算法来说,Spark平台的应用效果显著优于Hadoop。

同时Spark和Hadoop均为面向批处理的一类并行计算模型,但是在实际应用于大数据时,还需要针对数据流相关的数据挖掘进行处理,并且,只有尽可能降低数据流的延迟,才能保障数据价值具有较好的时效性。在此情况,Spark 可以提供数量较多的库,之后由Spark Streaming针对具有容错机制的、吞吐量较高的实时流数据进行处理,处理方法即为首先接收数据,并在规定的时间之内拆分数据,最后通过应用Spark Engine获取处理结果。整体上来看性能良好,但是仍然具有进一步优化的空间。

(二)在线算法

传统形式的机器学习算法,一般需要在完成每一轮的训练之后,均采用全部的数据对模型进行更新处理,导致每一次更新均产生庞大的计算量。但是在线算法属于目前机器学习另一方面的发展趋势,完成每一轮数据训练之后,仅需使用少量的数据,即可完成模型更新操作,由此,计算量大幅度缩减,机器内存消耗显著减少,模型创建效率也就大幅度提升。在线算法发展过程中,逐渐发展出了随机优化算法,此属于在线优化算法的变体,二者设计思想完全一致,虽然在进行迭代训练以后,计算机可以获取新数据,但是每更新一次,仅需随机选择数量较少的数据,即可创建起新模型,所以当前最低优化算法已经成为数据处理工作中的主要措施之一。

(三)近似算法

在机器学习当中,矩阵分解属于难点之一,但是在实际上,机器学习过程中,诸多算法和模型均能涉及到不同的矩阵分解,而分解时间一般能够受到样本数据的影响,并且通常与样本数据平方呈现出正比例的关系。以大数据为背景,如果不能针对海量数据进行高效的矩阵分解,机器学习也就不能对大数据问题进行有效解决。目前应用效果良好的、可以进行大规模矩阵分解的方式之一,即为随机算法,其能够首先明确大矩阵相应的近似矩阵,虽然近似矩阵以小矩阵为主,但是其性质与大矩阵基本一致,对近似矩阵进行高效的分解,获取其分解结果,即为完成计算。有相关研究显示,近似算法的准确性较高,所以其当前已经成为大数据机器学习中,应用频率较高并且具有较好发展前景的一类算法。

结束语:

以大数据为背景,机器学习受到了越来越多的重视,但机器学习并非仅为通过海量数据开展模型训练工作,而是需要将大数据应用于复杂模型的训练以及创建工作中,并采用并行算法、在线算法以及近似算法等,促使大数据背景下机器学习的效率不断提升,从而能够逐渐将机器学习应用于更多的行业和领域之中,并进一步提升应用效果。

参考文献:
[1]王晓霆.评“大数据环境下量子机器学习的研究进展及发展趋势”[J].电子科技大学学报,2021,50(06):801.

[2] 张仕斌,黄曦,昌燕等.大数据环境下量子机器学习的研究进展及发展趋势[J].电子科技大学报,2021,50(06):802-819.

[3] 姜林,刘星宝,杨俊丰等.“课赛融合”模式在机器学习课程教学中的应用[J].计算机育,2022,No.335(11):133-136+141.

[4] 饶泓,吴佳跃,樊莉莉等.基于AI Studio平台的机器学习课程实践教学[J].计算机教育,2021,No.318(06):115-119.