平均值数据挖掘技术在计算机专业教学中的应用
崔维艳
生成PDF 清样下载 引用

复制成功

导出题录

参考文献( GB/T 7714-2015 ) 复制

崔维艳,. 平均值数据挖掘技术在计算机专业教学中的应用[J]. 计算机研究与应用,2021.4. DOI:10.12721/ccn.2021.157038.
摘要: 通过数据挖掘技术中平均值的研究,发现学习过程中计算机专业教学中的问题,利用数据挖掘技术比较分析可以发现计算机专业教学背后所隐藏的有价值信息。从而对计算机专业教学数据的挖掘,可以发现隐藏其中的关联规则,得出有实际价值的规则及结论,从而为教学管理人员优化专业课程设置提供决策支持。
关键词: 数据挖掘; 关联规则; 专业教学;平均值挖掘法
DOI:10.12721/ccn.2021.157038
基金资助:

0引言

《关于大力推进技工院校改革发展的意见》(人社部发[2010]57号)文件中明确课程教学标准,推进教学场所和师资队伍建设。技工院校要积极探索教学手段、教学内容、教学模式的改革,推行模块化、“培训菜单”等教学改革方式。加快教学资源信息化建设,运用现代化教学手段,推进多媒体教学、网络教学、仿真模拟教学。由此可见改进专业教学方法对推动教学改革起着引领性作用,而通过大数据分析学生专业学习成绩是结合以学生为中心,以工作任务为载体,以能力为本位,以岗位需要和职业标准为依据,理论教学与技能操作相融合贯通,同时兼顾地方特色、学校实际场地、实训设备、师资情况、学生兴趣,在行业专家能手的指导下,组织学校骨干教师进行课程改革。目前对学生学业数据的处理还停留在初级的数据备份、查询及简单统计阶段,如何利用这些数据理性地分析教学中的成效得失以及找到有关影响学生学习成绩的因素是广大教师共同关心的问题。 本文着重讨论了平均值数据挖掘技术在学生计算机专业课开设这一海量数据中的应用,发现专业课开设数据中隐藏的课程相关规则或模式,力图通过关联与分类,得出一些有用的知识,对教学质量的提高起到积极的促进作用。

1数据挖掘及关联规则

数据挖掘 (Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘是一个循环往复的知识发现过程,通过对挖掘结果的描述、分析与评价,不断优化数据挖掘模型和挖掘算法,最终获得最优化数据挖掘解决方案。

1.1数据挖掘流程

(1)确定业务对象。清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。

(2)数据准备。①数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据;②数据的预处理:研究数据的质量,为进一步的分析作准备,并确定将要进行挖掘操作的类型;③数据转换:将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

(3)数据挖掘。对所得到的经过转换的数据进行挖掘。除了完善和选择合适的挖掘算法外,其余一切工作都能自动地完成。

(4)分析和同化。①结果分析:解释并评估结果,其使用的分析方法一般应视数据挖掘操作而定,通常会用到可视化技术;②知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去。

1.2关联规则简述

关联规则挖掘就是在海量的数据中发现数据项之间的关系,关联规则的支持度(support)和置信度(confidence)是规则兴趣度的两种度量。他们分别反映了所发现规则的有用性和确定性。 一般地,用户可以定义两个阈值,分别为最小支持度阈值(minsup)和最小置信度阈值(minconf)。 当挖掘出的关联规则支持度和置信度都满足这两个阈值时,就认为这个规则是有效的,否则,就是无效的。 这些阈值一般可由领域专家设定,也可以进行其它分析,揭示关联项之间的联系。本文着重利用平均值法在数据挖掘中的应用,假设屋里有10个人,而且知道所有人的平均身高,请你蒙上眼睛预测每个人的身高,怎样预测才能得到误差最小的数值。你应该是用平均值作为标准进行回答,因为这样可以避免出现大幅差异,降低危险性。平均值凝聚了整个团体的特征,利用平均值可以预测总体数值,平均值是日常生活中最常用的统计数值。计算平均值-与此比较-进行校验,然后作为预测材料灵活使用,也是一种数据挖掘方法。

平均值的种类和计算方法

简单算数平均值(mean)

又叫加权平均值、算术平均值,是常用的平均值,其计算方法是把n个数据相加除以n,表示。可以用Excel的统计函数AVERAGE求出。

image.png

几何平均值(geometric mean)

又叫做比例中项,其计算方法是求n个数据连乘积的n次方根。可以用EXCEL的统计函数GEOMEAN求出。image.png

调和平均值

其计算方法是把n个数据的倒数和作为分母,把n作为分子求比。可以用EXCEL的统计函数HARMEAN求出。image.png

看到这些数字公式可能感觉到非常复杂,为了便于理解,下面以a、b两个数字为例:

image.png

可以使用下述公式表示三种平均值的关系:加权平均值≥几何平均值≥调和平均值(当a=b时,等号成立)

2基于数据挖掘的平均值方法分析计算机专业课程

课程开设的合理性,是保证更好教学质量的关键,揭示一些“教”与“学”的现象和规则,能更好地指导教师的“教”与学生的“学”,为教育教学的计划和决策提供依据, 提高教学的成效。

2.1数据采集

高质量的数据,是保证数据挖掘成功的前提保证。本研究所需数据取自计算机专业学生网上调查问卷内容。为减少不必要的影响因素,影响关联规则的产生,删除了英语类、思政类、体育类的课程,将计算机专业课程进行分析,最终随机抽取 325 名学生完成调查问卷。

2.2数据处理及预分析

预测计算机专业学生期望开设计算机网络技术课程必要性,计算机网络技术课程对于大多数院校计算机专业学生来说,普遍存在愿意开设。但是作为技工院校非网络类计算机专业学生往往开设存在的比较大的争议,主要原因是生源基础文化理论偏低,理解上会有很多差异。经过对调查问卷的分析和预测,可以看出学生对于开设该课程的期望值。根据平均值,可以预测开设该专业可相对于此类学生的合理性,计算认为开设、不开设的平均值,并于可以接受的实际参与者的平均值进行比较,从三种平均值中,检验哪一种的数值预测最准确,从而发现某种假设。

使用EXCEL函数功能计算平均值,如图2-1所示选择统计函数中AVERAGE,并设置a、b两个数值区域,确定后得出平均值。使用同样方法继续求解几何和调和平均值。 

image.png

2-1 插入函数

image.png

2-2平均值和实际可以接受值之间的差

经过图2-2比较发现,2019级和2021级的“几何平均值”最小,2020级的几何平均值位居第二。因此,三种平均值中,最接近实际预期结果的是“几何平均值”,几何平均值是最适合的数值。通过数据统计计算认为开设和不开设的平均值,可以预测合理的结果,不需要参与者直接回答,也可以把握预期结果。对于计算机专业教学改革有这一定的指导意义。

2.3各种预测数值的方法

根据实例,预测某高级班18人中完成课程设计的人数。(1)根据平均值预测

通过统计“认为偏多的人数”和“认为偏少的人数”来预测实际人数,这是根据两种数据的“几何平均值”预测数值的方法。首先进行问卷调查,请高级班的学生选择“认为偏多的人数”或“认为偏少的人数”,统计回答结果,计算总体的简单算术平均值,并分别计算认为偏多、认为偏少的几何平均值,结果如图2-3所示,预测值是9.6,即10人。

image.png

2-3根据平均值预测

(2)随机回答法【根据概率计算方法】

当难以直接询问实际情况时,可以掺杂着询问其他问题,然后根据回答的概率进行判断,得出真实答案。以匿名的方式请回答者按照指示回答问题,然后从结果(О)的个数中算出需要预测的数值,由于数据越多概率精度越高,因此要求每人回答两次。①指示内容

掷硬币判断

→出现正面 →自己座号是奇数列 →О

          →偶数列 →×

→出现反面→ 完成课设 →О

                    →未完成 →×

按照这种方法记录结果是О或×。

②回收调查问卷,统计О的个数,结果有19个О(由于每人回答两次,因此总体个数是18×2=36)

image.png

代入数值

image.png

③将О的个数代入公式,预测完成课设人数。由于总共18人,所以可以预测完成课设是10人。

(3)德尔菲法(应用中位数)

德尔菲法是征询每位成员的预测值,相互参考后再次征询各位的预测值,征询几轮之后,使预测值趋于一致的方法。

①第一次直接让每位成员分别把预测人数写在纸上,统计分布情况之后,如图2-4所示。把分布结果中总体1/4和3/4的预测人数公布给参与者,此处的第1/4是10人,第3/4是12人。

image.png

2-4回答分布者数据

②得知①的公布结果后,第二次调查时在此范围内进行回答,如果需要写出选择理由,回答可以超出①的范围。回收问卷,公布所有统计结果。若有超出范围的原因,也要公布。此次结果如图2-5所示,超出范围的回答有3人。

image.png

2-5 超范围数据

超出范围的原因:

参加高级班课设不允许不做,所有未完成    预测7人

总体1/3可能没完成,剩下的12人中假设有一半完成   预测6人

事情较多没时间完成    预测8人

③获得第二次结果并仔细研究后进行第三次预测,由于这次的回答结果逐渐集中,所以把此次作为最终回答,那么判断统计结果的中位数就是预测人数。最终结果如图2-6所示。

image.png

2-6 第三次预测数据

由于第二次询问了几个超出范围的理由,所以这次的回答分布比上次分散。统计结果的中位数是2/18,即总体中第9个值=10人。德尔菲法没有限制回答次数,它的目的是集中总体意见,判断总体中位数。

3结语

无法得到庞大的数据时,把少量数据看做庞大数据的缩略图,也可以预测和把握趋势。很多时候即使只有少量数据,我们也可以从中获得很多有用的信息,因为灵活运用身边数据,把握趋势和判断类型非常重要。利用平均值数据挖掘法,可以灵活掌握学生对计算机专业课程掌握情况,同时对课程设置与改革提供了数据技术支持。为计算机专业教学的提升和高质量发展贡献力量。

总之,数据挖掘技术在计算机专业教学中的应用研究,如屈原《离骚》中的诗句“路漫漫其修远兮,吾将上下而求索”。大数据中挖掘规律指导教学改革之路慢慢,需要不断的总结经验而上下求索。

参考文献:

[1]韩家炜.数据挖掘概念与技术[M].机械工业出版社,2010:41-43.

[2]王海容.数据挖掘在学生成绩分析的应用[J].电子设计工程,2013,21(4):54-56.

[3]孙英英译.用EXCEL学数据挖掘[M].科学技术出版社,2012:25-38.

作者简介:

崔维艳,女,汉族,籍贯:山东莒县 生于:1984-10,职称:助理讲师,大学本科,研究方向:计算机理论,数据挖掘技术。

》在线投稿系统

*文章题目:
*作者姓名:
*电子邮箱:
*通讯地址:
*联系方式:

  备      注:

*上传稿件:

支持上传.doc,.docx,.pdf,.txt,.wps文件

投稿须知:

1、审稿结果将于1~7个工作日以邮件告知,请注意查收(包含录用通知书、审稿意见、知网CNKI查重报告)。

2、提交投稿后,若7个工作日之内未接到录用通知,则说明该文章未被录用,请另投他刊。

3、凡投寄本刊稿件,如在内容上有侵权行为或不妥之处,均应文责自负。本刊有权对来稿进行文字编辑、加工和修改,如不同意,请附说明,以便妥善处理。

4、多作者文稿署名时须征得其他作者同意,排好先后次序,通知用稿后不再改动。

5、凡投往本刊稿件一经录用发表,其版权归本刊所有。

6、本刊已全文录入中国知网、万方、维普等数据库,如作者不同意被收录,请提前申明,未申明者,本刊一律视为同意被收录。

7、请勿一稿多投。