1 引言
随着中国网络覆盖率的提升以及信息技术的发展,根据中国互联网络信息中心发布的第47次《中国互联网络发展状况统计报告》显示,截至2020年12月,中国网民规模达9.89亿,较2020年3月增长8540万,互联网普及率达70.4%。预计到2021年,中国网民将达10亿。约占到中国总人口(2021年5月第七次人口普查约14.43亿)的69.3%。在这样大规模的网络环境下,把握好网络的正面宣传和舆论引导变得极其重要。本文通过分析网络舆论引导的重要性以及当前大数据技术的发展,来进行基于大数据技术的网络舆情引导研究。
2 网络舆情引导的重要性
2.1 对加强文化自信的重要性
十八大以来,习近平总书记在多个场合谈到了文化自信,并表示“文化自信,是更基础、更广泛、更深厚的自信。”随着互联网时代的加速发展,特别是近年来自媒体形式的发展,互联网上充斥着各种思想意识、文化类型、生活方式、价值观念等等内容,对人们的思想、价值观和行为都产生了极大的影响。因此以文化自信引导网络舆情,能够帮助营造晴朗的网络空间,同时也能反过来加强文化自信。
2.2 对维护社会稳定的重要性
网络的迅猛发展使得当前发生的各种突发事件有了较以前更大的影响,传播范围更广,更不可避免有各种敌对势力在其中浑水摸鱼,企图扰乱视听。特别是发生一些较为严重的突发事件以后,各种信息鱼龙混杂,真假难辨,谣言四起,极有可能在群众中引起不必要的恐慌,形成不满情绪,影响党和政府的形象以及大局的稳定。通过引导网络舆情,能起到澄清事实、疏导情绪、稳定人心的作用。
2.3 对青少年三观建立的重要性
当前的青少年是在信息爆炸下成长起来的一代,从出生起就开始接触各种信息传播媒体,且青少年的世界观、价值观、人生观正处于形成和发展阶段,极易受到外界因素的干预。因此网络舆情中的信息对青少年世界观、价值观、人生观的塑造有十分重要的影响。正向的网络舆情不仅能塑造青少年正确的三观,还能培养积极向上的心理。而一些错误的、反动的、庸俗的舆论,会毒害青少年的心灵,使其三观发展偏离正确的方向。
2.4 对提升群众素养的重要性
网络舆论还反映着社情民意,是道德的“风向标”,投射着人民群众认同的公序良俗和朴素情感。因此,加强和改进网络正面宣传和舆论引导,切实提高网络正面宣传质量和水平,积极传播网络正能量,能够有效提升全社会的道德素养。
3 大数据技术在网络舆情引导中的应用
3.1 信息采集
在大数据时代,可以通过网络爬虫作为有力工具从互联网上采集数据。网络爬虫可以将非结构化数据从网页中提取出来,再以结构化的方式进行存储。能够支持图片、音视频等文件的采集。使用网络爬虫工具按照一定周期对微博、论坛、微信公众号等舆情载体进行数据的采集,要尽可能地遍历所有网页,扩大抓取信息的覆盖面。
这里可以选择建立网页间关系模型。互联网中的网页是通过各种超链接,彼此关联,形成一个庞大复杂的有向图的。因此可以将其中一个网页看作是图中某一个结点,再把网页中指向其他网页的链接,作为这个结点指向其他结点的边,这样就可以对互联网上的网页进行建模,使其成为一个有向图。再通过遍历算法遍历该图,就可以访问和抓取互联网上几乎所有网页。具体实现过程是先获取初始的URL,在爬取网页时将获取的新URL放到URL队列中,依次从URL队列中爬取网页,并重复之前的爬取过程,等满足停止条件或无法获取新URL时,爬取停止。这样通过网络爬虫就可以获取大量的网络舆论数据。
3.2 网络舆情数据预处理
采集到的舆情数据大多是“脏”数据,即不完整、含噪声、编码不一致等数据,而数据挖掘要求数据具备准确性、一致性、完整性、时效性、可信性和可解释性的特征,因此数据的预处理过程在数据挖掘过程中十分重要。
对采集的舆情数据首先要进行数据清洗,包括进行缺失值的填充,对噪声(一般指错误数据)和离群点(指偏离过大的数据)数据的剔除。再进行数据集成,也就是把不同格式、来源、特点性质的数据在物理上或逻辑上进行集中,存放在一致的数据存储中。之后通过数据变换将原始数据转换为适合数据挖掘的形式,通过数据规约,小波变换或主成分分析有效的压缩原始数据,或者通过特征提取技术进行属性子集的选择或重造,以此来缩小数据挖掘所需的数据集规模。
3.3 网络舆情分析
基于大数据处理平台进行网络舆情分析,当前应用较为流行的是Hadoop生态系统,包括如图1所示组件,其中核心组件为HDFS分布式文件系统、MapReduce分布式计算框架和HBase实时分布式数据库。HDFS能够提供高吞吐量的数据访问,适合大规模数据集方面的应用。HBase提供了海量数据存储功能,是构建在HDFS之上的分布式、面向列的存储系统。MapReduce能够提供快速并行处理大量数据的能力,是一种分布式数据处理模式和执行环境。此外还可以通过Spark进行面向内存的分布式计算,能够为多个不同数据源的数据提供近乎实时的处理性能。在Hadoop平台上,对各种事故、公共卫生安全、自然灾害等话题进行话题识别和跟踪,为管理员推送舆论热点,或根据设定的关键词,自动生成舆情分析报告 。图1 Hadoop生态系统
3.4 网络舆情预警
网络舆情的预警可以通过在系统中设置预警等级和预警阈值来实现,当通过舆情分析,发现某个网络舆情的等级和指标达到设定的阈值时,系统则通知管理员及时关注该预警信息,并实施舆情干预措施,对负面舆情进行引导,防止有害舆情蔓延,引起不必要的恐慌。
4 小结
随着我国网络基础建设、信息技术的高速发展,网络数据体量已达到空前的规模,各种社交软件使人们获取信息、交换信息变得多样、便捷,也使得网络舆情对社会发展有了更深重的影响。而大数据技术的发展使得处理这样大规模的舆情数据成为可能。本文基于舆情引导的重要性,分析了大数据技术从采集到分析预警在网络舆情引导方面的应用,希望能够为网络舆情引导系统的开发提供一定的参考。
参考文献
[1]杨明刚.大数据时代的网络舆情[M].海天出版社,2017.
[2]董屹.大数据技术在网络舆情监控的应用[J].电子技术,2020,49(03):88-89.
[3]徐嘉豪.舆情大数据环境下突发事件主题异化预警研究[J].网络安全技术与应用,2021(08):32-34.
[4]赵瑞丹,朱旭.基于爬虫技术和语义分析的网络舆情采集系统设计[J].电子设计工程,2021,29(14):56-60.
[5]WuYaNan.大数据带来网络舆情治理新机遇2021-2026年舆情大数据产业投资趋势规模预测[EB/OL].2021.5.19[2021.8]. https://www.chinairn.com/scfx/20210519/112136749.shtml.