一.引言
“大数据”一词最早出现在apache org的开源项目中。百度百科将其定义为:大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[1]。目前,大数据在各行各业的迅速积累,极大的推动传统行业的变革,带来了新的机遇,也提出了新的挑战。世界各国将大数据定位为基础性战略能源、发展的大方向,大力推动大数据技术发展[2]。2015年,我国也明确提出实施大数据发展战略。工业和信息化部正式印发了《大数据产业发展规划(2016-2020年)》[3],全面部署“十三五”时期大数据产业发展工作,加快建设数据强国,为实现制造强国和网络强国提供强大的产业支撑。但大数据人才正成为产业发展的瓶颈,大数据人才的严重不足,已经成为社会经济发展尤其是西北地区经济发展急需解决的问题,必须引起教育界,IT 企业和政府足够的重视。高等学校作为专门高级人才专业人才培养基地重,面对我国大数据人才的匮乏问题,应该在理工类相关专业开设大数据相关课程,或者直接申办大数据相关专业。对学生的培养过程中,在打好扎实的相关数学理论基础的同时,注重培养应用大数据思维方法分析和解决实际问题的能力。
二.Python语言与大数据相关专业
目前,各高校普遍所开设的理工科专业中,不论是计算机科学与技术、软件工程、物联网工程等传统的计算机相关工科专业还是理科专业数学、信息与计算科学,以及近年来新设置的数据科学与大数据技术、人工智能等本科专业,逐步增加了理解和掌握大量数据分析技术的培养内容。在课程设置上,为实现大数据处理等方面的培养目标,在课程设置中,不论是分布式计算、非结构数据分析、数据可视化、海量数据采集与处理和机器学习等课程,还是辅助平台和数据分析等相关的大数据课程,例如Hadoop大数据分析平台、数值分析、运筹与优化、大数据预处理。都或多或少的需要掌握一门计算机专业软件如:Python、Matlab、SPSS、Minitab等。其中由于python本身具有简单、易学、库多等原因,python语言成为很多公司处理大数据的首选,也逐渐成为大数据相关专业必须开设的一门课程。
Python是一种面向对向的高级程序设计语言,该语言1990 年代由荷兰数学和计算机科学研究学会的Guido van Rossum设计。Python语言是可以撰写跨平台应用程序,同时,又因为其解释型语言的本质,使它成为多数平台上写脚本和快速开发应用的编程语言[4]。随着版本的不断更新和语言新功能的添加,逐渐被用于独立的、大型项目的开发。目前,随着Python语言广泛应用,用Python做科学计算的研究机构日益增多,很多大学理工科相关专业,尤其是大数据和人工智能相关专业,已经开设了Python程序设计课程。
而在数据处理方向,Python也是数据科学家最喜欢的语言之一,这是因为Python本身就是一门工程性语言,数据科学家用Python实现的算法,可以直接用在产品中,这对于大数据初创公司节省成本是非常有帮助的。
三.Python语言实现数据清理
下面以2019年数学建模D题部分数据为样本[5],谈谈如何通过Python来进行数据清理去得到我们需要的理想数据。
在搜集数据的过程中,重复观测记录数据是经常会出现的不当操作。例如,通过网络爬虫搜寻数据会容易产生重复的数据,这些重复观测的数据会在后续的数据分析中影响结果的准确性。若数据样本较小则会对分析结果带来较大误差。因此,清洗重复数据往往是得到理想结果的重要开始。当待处理的数据只有数量较少的几行时,通过肉眼检查就可以轻松对数据进行筛选,但当数据量过于庞大时,可以通过Python完成数据清洗。下面的示例是运用Pandas对2019年数学建模D题部分数据为样本进行重复检查和删除数据中的重复行。
Pandas中采用duplicated方法检测数据集中是否存在重复数据,这种方法返回的是每一行数据的检测结果,每一行对应返回一个bool值。通过drop_duplicates去除重复数据[6]。本文在原数据的基础上添加数条重复数据后作为待清洗的数据(共1719条数据),表1给出了部分数据,可以看到,其中第六行与第七行为重复数据,利用下列程序进行数据清洗。
表1:钢水“脱氧合金化”配料表(部分)程序:
Import pandas as pd
path = r ’待清洗数据所在路径/钢水“脱氧合金化”配料表(部分)’
data = pd. read_excel(path)
data. drop_duplicates(inplace=Ture) #删除data中的重复数据
data_new = pd. ExcelWriter(“./data_new. xlsx”) #创建文件对象
data. to_excel(data_new) #将data写入新Excel文件
data_new. Save() #保存文件
表2:钢水“脱氧合金化”配料表(部分)清洗后得到的数据表如表2所示。观察到程序运行后重复数据第六行与第七行已被清理,由此可见,Python具有强大的数据清洗功能。虽然能够处理数据的计算机软件有很多,但Python简单的操作可以避免复杂的编程过程,其简单,学习成本较低,数据库多且全面,可以直接使用在产品中节约成本等特点,是其越来越受关注的重要原因。
四.结束语
在大数据时代背景下,高等学校理工科专业教学内容、培养模式等方面亟需做出调整以适应时代发展和人才需求[7]。由于我国大数据人才的缺失,应在高校大数据相关专业增加大数据相关课程,Python语言已经作为一门广泛开设的课程,能够培养学生应用大数据思维、人工智能方法分析和解决实际问题的能力。
参考文献
[1] https://baike.baidu.com/item/%E5%A4%A7%E6%95%B0%E6%8D%AE/1356941?fr=aladdin
[2] 陈桂香. 大数据对我国高校教育管理的影响及对策的研究[D]. 武汉大学. 2017.
[3] 412号. 大数据产业发展规划(2016-2020年)[S].
[4] 董付国. Python程序设计基础[M].第二版.北京:清华大学出版社,2018.
[5] 2019年MathorCup数学建模挑战赛D题钢水脱氧合金化配料方案的优化.
[6] 司守奎,孙玺菁. Python数学实验与建模[M].北京:科学出版社,2020.
[7] 刘华, 王文婷,马景艳,杜世强. 大数据时代下高校理工科相关专业教学改革初探[J]. 中国教工, 2021(2):69-69.