一、网络营销的含义及作用
网络营销是指使用互联网以及与互联网连接的各类电子终端实现企业与顾客进行商品或服务交易的营销技术手段。网络营销具有非常多的优点。首先它可以使营销范围变广且不受物理空间的限制。其次,网络营销面对的主要客户群体远远多于其余的营销手段。企业利用互联网自身进行营销之后, 可以被企业营销所影响的潜在用户不受到时间或地点的限制,可以实现世界各处的潜在用户在任意的时间和地点都可以被营销所影响。最重要的一点是,网络营销的成本较传统方式更低, 有效的利用网络在有效降低企业的营销成本的同时,还能够显著的减少企业的采购成本。除了上述优势外, 网络营销还能够有效改善信息传送的效率,从而来使得顾客和企业能够进行及时的沟通, 使得企业可以在最快的时间里,尽最大能力及时充分响应顾客需要。
二、R语言概述
R语言作为一种目前在统计计算和分析中有着普遍应用的程序语言,是于1980左右出现的S语言的一个分支,R语言是它的一种实现,新西兰的Robert Gentleman和RossIhaka等开发了R语言[3]。R语言采用的语法结构主要源自Scheme,并且还提供了丰富的计算分析工具和图形显示工具,R语言是一个免费的、代码开源的、自由的编程语言。它提供了可以在计算分析和图形化展示的彻底面向对象的统计编程语言和操作环境,在各种操作系统包括Windows、MacOS、Linux和UNIX等平台下都可以进行编译和运行。同时,该语言与其它的如C语言、C++、S语言、Java等编程语言以及常见的数据库之间都有很好的程序接口。R语言还提供了丰富的网络社区资源,通过互联网可以获得种类丰富的、实用的且质量很好的程序包、扩展包及进行各类数学运算、统计计算的函数代码,使用者可以将表达式作为参数输入到函数中,或只使用一些参数和特定的数据库就能够开展方便灵活的数据分析与统计运算,这种方法非常适合进行绘图和统计模拟,并且可以满足用户创造出符合需要的新的统计计算方法的需求[4]。R语言还为用户提供了有弹性的、互动的环境来实现数据的分析、可视及展示,并且配套提供了许多支持扩展的适合进行统计相关运算的程序包,使用者可以通过R语言的官方网站CRAN 上根据自身的实际需要获取第三方数据包[5],数据包的种类包括了经济学、统计学、社会学、生物信息学等各个方面领域。在使用这些数据包时,使用者只需根据自身选定的统计模型,选取相应的数据库及各类参数,就能够快速有效的地进行数据分析等相关研究。
三、指标选择与数据来源
因为网络营销是一种人们利用网络, 与他人进行产品和服务的自由交换, 进而获得其所需要之物的一种社会和管理过程。所以依照网络营销的含义,就很容易发现, 网络营销所占据的市场规模是可以被量化呈现的,它是展现营销效果的主要评判因素。其次, 根据已有资料进行分析并评估数据的易获得性及易测量性, 本文将选取以下五个指标研究其对网络营销规模的影响。选取指标包括,网站的总数、我国互联网普及率、我国互联网网民总数、进行网络购物的用户总人数以及我国城镇居民的人均可支配收入(后文中分别记录为x1-5),将这5个变量作为解释变量代入接下来的数学模型中。模型中的被解释变量(后文中记录为y)则是网络营销的市场规模,经过对原始数据进行初步整理,最终得到了如下表所示的从2003年到2013年的基本数据。
表格 1基本数据
以上数据来源包括中国互联网络信息中心、中国统计年鉴、艾瑞市场咨询网等公开的数据信息。
四、R语言进行数据分析及建模
本文中使用R语言对原始数据进行处理及分析建模,利用R语言提供的丰富模块及函数可以有效的实现对数据的整理分析,本文中用到的模块主要包括ggplot2、car、corrplot、lmtest、leaps等。
(一)数据导入及处理
数据的导入和处理需要用到的函数包括:write.table()、names()、as.numeric()等,主要功能是将经过整理的原始数据从原始来源(如文本文档)读入到程序中,并对数据框架进行整理。因“年份”不是待考察的指标因素,所以将这一列数据剔除。最终整理完成的数据导出至文件。
(二)数据的描述性分析
将(一)中处理好的原始数据导入数据框,使用R语言中包含的sapply()函数对原始数据进行描述性分析,程序结果截图如下图所示:
图 1数据处理结果
sapply()函数可以让使用者直观的得到每个变量的平均值(mean),最大值(max)、最小值(min)、中位数(median)以及方差(sd)等数据的描述性分析。从结果中可知x3和x5两个变量方差较大,说明这两个变量波动明显。
(三)逐步建立回归模型
1.进行相关系数检验
想要建立回归模型首先要对各个变量之间的相关性进行分析,R语言中corrplot()函数主要用于图形化展示相关系数矩阵、置信区间,并且能够以简单的方式选择颜色、文本标签和布局等。使用corrplot()函数绘制变量的相关系数图,结果如图2所示。从图中可以清楚得看出各变量之间具有较强的相关性,因此后续拟选用线性回归模型进行分析是合理可行的。
图 2相关性分析
2. 绘制散点图,对五个因变量分别进行拟合
在确认各变量之间具有较强相关性后,对每个解释变量分别进行拟合,得到图3所示结果。从图3中分析得出解释变量与被解释变量之间具有较为明显的线性相关关系,回归方程可以初步设为:Y= x1+x2+x3+x4+x5,各变量散点图如下所示:
图 3各变量散点图
3. 进行回归并对回归结果进行检验
lm()函数是在回归分析中最为常用的函数,用来拟合回归模型。是拟合线性模型最基本也最常用的函数。
对变量使用函数lm()进行多元回归并使用summary()函数显示回归结果,回归结果如下图所示:
图 4回归结果
观察输出的拟合结果发现变量x3前面的系数为负,该变量为“我国互联网网民总数”,根据经济学普遍规律可知,互联网网民作为网络营销的潜在客户群体,当总数增大时,对市场规模应该是正向影响,拟合结果与一般经济规律不相符,去掉不合理的变量x3再次进行回归:得到以下结果:
图 5再次回归结果
新的回归结果各变量系数均为正数且符合一般常识性规律。每个自变量都通过了置信区间α=0.001的显著性检验,证明用此方程来解释变量的相关关系是比较合适的。输出结果还显示F值检验结果也远小于0.01,证明回归方程的总体效果是显著的, 由此可以得出最终模型是具有显著成立的整体线性关系, 产生的回归方程具有显著的意义。
(四)逐步回归法
多元回归中为防止多重共线性,首先使用kappa()函数验证是否存在多重共线性。如果存在,使用step()函数进行逐步回归。最终拟合得到的方程为:
Y=-45.111301+0.035026x1 +3.323120x2 +1.083375x4 +0.006275x5
四、结论
综上所述, 本文综合运用统计学中多元线性回归分析的有关知识,使用R语言作为工具对可能对网络营销市场规模产生影响的有关因素进行了计算和 分析, 根据计算分析结果先舍弃了分析结果不合理的参数, 最终获得了相对较为合适的一种预测模型。其中,变量x5前面的系数较小, 这表示“城镇居民人均可支配收入”这一因素对于网络营销市场规模的影响较小, 由此分析可能的原因是因为我们国家的经济正在高速发展, 人民收入与生活水平提升较快, 并且叠加网购相关物品的价格相较于线下市场的价格低这一现状。多种可能因素共同造成了 可支配收入对网络营销市场规模的影响相对较小。从另一个方面分析, 互联网普及率即x2的系数是最大的,这说明影响网络营销市场规模最大的因素正是这几年来飞速普及的互联网,这与实际生活中的客观事实向吻合。伴随着互联网越来越普及,人们购买到相应的商品的途径和方式也越来越变得方便和顺畅,由此带来了网络营销市场规模随着发展逐渐扩大。本文使用的基于的预测方法是对网络营销市场规模进行预测的其中一种方法。其多元线性回归模型特点明显,它有着清晰的理论、模型结构也较为直观简单、使用各类编程或统计工具都能够方便简单的进行计算分析。提供了良好的实用性和比较优秀的拟合性。文中选用的计算工具是R语言,利用R 语言可以将数据分析的过程简化,R语言提供了方便的计算工具用于帮助分析和解决问题,实现了从数据的获取存放,到最终计算结果发布共享的整个过程[6]。本文最终分析得出的结论可以在一定程度上对进行网络营销的企业在制定相关决策时提供一定的帮助,具有一定的意义。
作者简介:李寒,对外经济贸易大学统计学院在职人员高级课程研修班学员