PDF下载
Python语言在大数据相关专业教学过程中的应用

刘华1 李晔萱1 马景艳2

1西北民族大学 学与计算机科学学院,甘肃兰州,730030;2西北民族大学预科教育学院,甘肃兰州,730030)

摘要: Python语言是高校大数据相关本科专业普遍开设的一门重要的程序设计语言课程。本文主要介绍了Python语言基本特点,介绍使用Python语言实现数据清理,给出了Python语言中使用Pandas duplicated()方法在大量数据中检查清除重复数据的程序,提供了清理重复数据的一个具体教学案例。
关键词: Python语言;大数据;课程设置;数据清理
DOI:10.12721/ccn.2021.157047
基金资助:西北民族大学教育教学改革研究项目(2019XJJG-53);西北民族大学教育教学改革重点项目(2020ZDJG-08)
文章地址:https://ccnpub.com/index.php/wenzhangd-2-17726

一.引言

“大数据”一词最早出现在apache org的开源项目中。百度百科将其定义为:大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[1]。目前,大数据在各行各业的迅速积累,极大的推动传统行业的变革,带来了新的机遇,也提出了新的挑战。世界各国将大数据定位为基础性战略能源、发展的大方向,大力推动大数据技术发展[2]。2015年,我国也明确提出实施大数据发展战略。工业和信息化部正式印发了《大数据产业发展规划(2016-2020年)》[3],全面部署“十三五”时期大数据产业发展工作,加快建设数据强国,为实现制造强国和网络强国提供强大的产业支撑。但大数据人才正成为产业发展的瓶颈,大数据人才的严重不足,已经成为社会经济发展尤其是西北地区经济发展急需解决的问题,必须引起教育界,IT 企业和政府足够的重视。高等学校作为专门高级人才专业人才培养基地重,面对我国大数据人才的匮乏问题,应该在理工类相关专业开设大数据相关课程,或者直接申办大数据相关专业。对学生的培养过程中,在打好扎实的相关数学理论基础的同时,注重培养应用大数据思维方法分析和解决实际问题的能力。

二.Python语言与大数据相关专业

目前,各高校普遍所开设的理工科专业中,不论是计算机科学与技术、软件工程、物联网工程等传统的计算机相关工科专业还是理科专业数学、信息与计算科学,以及近年来新设置的数据科学与大数据技术、人工智能等本科专业,逐步增加了理解和掌握大量数据分析技术的培养内容。在课程设置上,为实现大数据处理等方面的培养目标,在课程设置中,不论是分布式计算、非结构数据分析、数据可视化、海量数据采集与处理和机器学习等课程,还是辅助平台和数据分析等相关的大数据课程,例如Hadoop大数据分析平台、数值分析、运筹与优化、大数据预处理。都或多或少的需要掌握一门计算机专业软件如:Python、Matlab、SPSS、Minitab等。其中由于python本身具有简单、易学、库多等原因,python语言成为很多公司处理大数据的首选,也逐渐成为大数据相关专业必须开设的一门课程。

Python是一种面向对向的高级程序设计语言,该语言1990 年代由荷兰数学和计算机科学研究学会的Guido van Rossum设计。Python语言是可以撰写跨平台应用程序,同时,又因为其解释型语言的本质,使它成为多数平台上写脚本和快速开发应用的编程语言[4]。随着版本的不断更新和语言新功能的添加,逐渐被用于独立的、大型项目的开发。目前,随着Python语言广泛应用,用Python做科学计算的研究机构日益增多,很多大学理工科相关专业,尤其是大数据和人工智能相关专业,已经开设了Python程序设计课程。

而在数据处理方向,Python也是数据科学家最喜欢的语言之一,这是因为Python本身就是一门工程性语言,数据科学家用Python实现的算法,可以直接用在产品中,这对于大数据初创公司节省成本是非常有帮助的。

三.Python语言实现数据清理

下面以2019年数学建模D题部分数据为样本[5],谈谈如何通过Python来进行数据清理去得到我们需要的理想数据。

在搜集数据的过程中,重复观测记录数据是经常会出现的不当操作。例如,通过网络爬虫搜寻数据会容易产生重复的数据,这些重复观测的数据会在后续的数据分析中影响结果的准确性。若数据样本较小则会对分析结果带来较大误差。因此,清洗重复数据往往是得到理想结果的重要开始。当待处理的数据只有数量较少的几行时,通过肉眼检查就可以轻松对数据进行筛选,但当数据量过于庞大时,可以通过Python完成数据清洗。下面的示例是运用Pandas对2019年数学建模D题部分数据为样本进行重复检查和删除数据中的重复行。

Pandas中采用duplicated方法检测数据集中是否存在重复数据,这种方法返回的是每一行数据的检测结果,每一行对应返回一个bool值。通过drop_duplicates去除重复数据[6]。本文在原数据的基础上添加数条重复数据后作为待清洗的数据(共1719条数据),表1给出了部分数据,可以看到,其中第六行与第七行为重复数据,利用下列程序进行数据清洗。

表1:钢水“脱氧合金化”配料表(部分)1.png程序:

Import pandas as pd

path = r ’待清洗数据所在路径/钢水“脱氧合金化”配料表(部分)’

data = pd. read_excel(path)

data. drop_duplicates(inplace=Ture)          #删除data中的重复数据

data_new = pd. ExcelWriter(“./data_new. xlsx”)  #创建文件对象

data. to_excel(data_new)                     #将data写入新Excel文件

data_new. Save()                             #保存文件

表2:钢水“脱氧合金化”配料表(部分)2.png清洗后得到的数据表如表2所示。观察到程序运行后重复数据第六行与第七行已被清理,由此可见,Python具有强大的数据清洗功能。虽然能够处理数据的计算机软件有很多,但Python简单的操作可以避免复杂的编程过程,其简单,学习成本较低,数据库多且全面,可以直接使用在产品中节约成本等特点,是其越来越受关注的重要原因。

四.结束语

在大数据时代背景下,高等学校理工科专业教学内容、培养模式等方面亟需做出调整以适应时代发展和人才需求[7]。由于我国大数据人才的缺失,应在高校大数据相关专业增加大数据相关课程,Python语言已经作为一门广泛开设的课程,能够培养学生应用大数据思维、人工智能方法分析和解决实际问题的能力。

参考文献

[1] https://baike.baidu.com/item/%E5%A4%A7%E6%95%B0%E6%8D%AE/1356941?fr=aladdin

[2] 陈桂香. 大数据对我国高校教育管理的影响及对策的研究[D]. 武汉大学. 2017.

[3] 412号. 大数据产业发展规划(2016-2020年)[S].

[4] 董付国. Python程序设计基础[M].第二版.北京:清华大学出版社,2018.

[5] 2019年MathorCup数学建模挑战赛D题钢水脱氧合金化配料方案的优化.

[6] 司守奎,孙玺菁. Python数学实验与建模[M].北京:科学出版社,2020.

[7] 刘华, 王文婷,马景艳,杜世强. 大数据时代下高校理工科相关专业教学改革初探[J]. 中国教工, 2021(2):69-69.