智能电网大数据特点及其关键技术
贺丹琳1 朱佳2 李兆鑫2 于灏淼1
生成PDF 清样下载 引用

复制成功

导出题录

参考文献( GB/T 7714-2015 ) 复制

贺丹琳1 朱佳2 李兆鑫2 于灏淼1,. 智能电网大数据特点及其关键技术[J]. 电网技术研究,2022.4. DOI:10.12721/ccn.2022.157160.
摘要:
智能电网需要全景的状态数据。电网运行、检修和管理过程中会产生海量异构、多态的数据,也即大数据。文章综述了目前在商业、互联网和工业监测领域已有的大数据处理技术,并详细分析这些技术在应对智能电网建设和大数据处理方面的问题。
关键词: 智能电网;大数据;特点;关键技术
DOI:10.12721/ccn.2022.157160
基金资助:

1.1 智能电网中的大数据

电网业务数据大致分为 3 类:一是电网运行和设备检测或监测数据;二是电力企业营销数据,如交易电价、售电量、用电客户等方面的数据;三是电力企业管理数据。

1.2 智能电网中大数据的特点

智能电网中的大数据具备“4V”特征,即规模大(volume)、类型多(variety)、价值密度低(value)和变化快(velocity)。

(1)数据体量巨大。从 TB 级别,跃升到 PB 级别。常规 SCADA 系统 10000 个遥测点,按采样间隔 3~4 s 计算,每年产生 1.03 TB 数据(1.03 TB= 12 字节/帧 ´ 0.3 帧/s ´ 10000 遥测点 ´ 86400 s/天 ´

365 天);广域相量测量系统(WAMS)10 000 个遥测 点,采样率可以达到 100 次/s,按上述公式计算,则每年产生 495 TB 的数据。

(2)数据类型繁多。电网数据广域分布、种类众多,包括实时数据、历史数据、文本数据、多媒体数据、时间序列数据等各类结构化、半结构化数据以及非结构化数据,各类数据查询与处理的频度和性能要求也不尽相同。比如,电力设备状态监测数据中的油色谱数据 0.5 h 采样一次,而绝缘放电数据的采样速率高达几百 kHz,甚至 GHz。

(3)价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有 1~2 s。在输变电设备状态监测中存在同样问题,所采集的绝大部分数据都是正常数据,只有极少量的异常数据,而异常数据是状态检修的最重要依据。

(4)处理速度快。在几分之一秒内对大量数据进行分析,以支持决策制定。对在线状态数据的处理性能要求远高于离线数据。这种在线的流数据分析与挖掘同传统数据挖掘技术有本质的不同。另外,智能电网中的数据处理,对数据质量有一定的要求,可以考虑为各类智能电网数据引入一个新的属性:数据的真实性。数据的真实性是指与特定类型数据相关的可靠性级别。高质量数据对于数据分析结果的正确性有重要影响。然而即使最好的数据清洗方法也无法去除某些数据固有的不可预测性。承认不确定性需求,并将数据的真实性作为智能电网大数据的一个维度是可行的。智能电网中汹涌而来的大数据,为智能电网建设带来了新的挑战和机遇。国网信通公司成立了大数据团队应对智能电网建设中的大数据挑战问题。IBM 收集并建模大数据,服务于智能电表分析、基于决策的运维、基于天气数据的风机选址、分配负荷预测与调度等各类能源行业与公用事业。

2 大数据处理技术

2.1 大数据处理的价值和复杂性

近年来,大数据已经成为科技界和产业界共同关注的热点。2012 年 3 月,美国政府宣布投资 2 亿USD 启动“大数据研究和发展计划”。美国政府认为大数据是“未来的新石油”,将“大数据研究”上升为国家意志,对未来的科技与经济发展必将带来深远影响。一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制也将成为国家间和企业间新的争夺焦点。

2.2 并行数据库

关系数据库(如 Oracle 等)主要存储结构化数 据,提供便捷的数据查询分析能力、按照严格规则快速处理事务(transaction)的能力、多用户并发访问能力以及数据安全性的保证。通过 SQL 查询语言及强大的数据分析能力以及较高的程序与数据独立性等优点获得了广泛应用。

然而随着智能电网建设的加速,数据已远远超出关系型数据库的管理范畴,地理信息系统以及图片、音视频等各种非结构化数据逐渐成为需要存储和处理的海量数据的重要组成部分。面向结构化数据存储的关系型数据库已不能满足智能电网大数据快速访问、大规模数据分析的需求。主要表现在:

(1)数据存储容量有限。关系数据库可以有效

处理 TB 级的数据,当数据量达到 PB 级时,目前主流数据库很难处理。为了回避此问题,目前电力企业采用先从“生数据”中提取“熟数据”的存储方式,这样虽然可以减少网络传输和数据库存储的数据量,但不可避免损失“生数据”中隐藏的重要特征量信息,如绝缘的放电频谱。

(2)关系模型束缚对海量数据的快速访问能力。

关系模型是一种按内容访问的模型。即在传统的 关系型数据库中,根据列的值来定位相应的行。这种访问模型,会在数据访问过程中引入耗时的输入输出,从而影响快速访问的能力。虽然,传统的数据库系统可以通过分区的技术(水平分区和垂直分区)来减少查询过程中数据输入输出的次数以缩减响应时间,提高数据处理能力,但是在海量数据的规模下,这种分区所带来的性能改善并不显著。

(3)缺乏对非结构化数据的处理能力。传统的

关系型数据库对数据的处理只局限于某些数据类型,比如数字、字符、字符串等,对非结构化数据(图片、音频等)的支持较差。然而随着用户应用需求的提高、硬件技术的发展和互联网上多媒体交流方式的推广,用户对多媒体处理的要求从简单的存储上升为识别、检索和深入加工,面对日益增长的处理庞大的声音、图像、视频、E-mail 等复杂数据类型的需求,传统数据库已显得力不从心。

2.3 云计算技术

大数据技术的需求是伴随着云计算平台的出现而出现的,故有必要介绍一下云计算技术。实际上目前云计算技术是大数据存储与处理技术的重要组成部分。由于大数据的数据量和分布式的特点,使得传统的数据管理技术难以胜任这种海量数据。云计算的核心是海量数据存储和数据并行处 理技术。其核心思想包括分布式文件系统 (distributed file system,DFS)和 MapReduce 技术,主要思路由 Google 公司提出。DFS 有着高容错性的特点,并且是为部署在价格低廉的硬件上而设计的,而且它为应用程序提供高吞吐量的数据访问,适合那些有着超大数据集 (large data set)的程序。Hadoop 提供了 DFS 的一种开源实现(HDFS),该分布式文件系统放宽了 POSIX 的要求,可以实现流的形式访问文件系统中的数据 (streaming access),并具有高可靠性、高可扩展性 。

2.4 云计算在智能电网中的应用

智能电网中数据量最大的应属于电力设备状态监测数据。状态监测数据不仅包括在线的状态监测数据(时序数据和视频),还包括设备基本信息、实验数据、缺陷记录等,数据量极大,可靠性要求高,实时性要求比企业管理数据要高。云计算技术在国内电力行业中的应用研究还处于探索阶段,研究内容主要集中在系统构想、实现思路和前景展望等方面。对云计算平台应用于智能电网进行了详细的分析,得出的结论是:现有云计算平台可以满足智能电网监控软件运行的可靠性和可扩展性, 但实时性、一致性、数据隐私和安全等方面的要求 尚不能满足,有待进一步研究。

参考文献:

[1 朱征,顾中坚,吴金龙,等.云计算在电力系统数据灾备业务中 的应用研究[J].电网技术,2012,36(9):43-50.

[2] 朱永利,翟学明,姜小磊.绝缘子泄漏电流的自适应 SPIHT 数据 压缩[J].电工技术学报,2011,26(12):190-196.

》在线投稿系统

*文章题目:
*作者姓名:
*电子邮箱:
*通讯地址:
*联系方式:

  备      注:

*上传稿件:

支持上传.doc,.docx,.pdf,.txt,.wps文件

投稿须知:

1、审稿结果将于1~7个工作日以邮件告知,请注意查收(包含录用通知书、审稿意见、知网CNKI查重报告)。

2、提交投稿后,若7个工作日之内未接到录用通知,则说明该文章未被录用,请另投他刊。

3、凡投寄本刊稿件,如在内容上有侵权行为或不妥之处,均应文责自负。本刊有权对来稿进行文字编辑、加工和修改,如不同意,请附说明,以便妥善处理。

4、多作者文稿署名时须征得其他作者同意,排好先后次序,通知用稿后不再改动。

5、凡投往本刊稿件一经录用发表,其版权归本刊所有。

6、本刊已全文录入中国知网、万方、维普等数据库,如作者不同意被收录,请提前申明,未申明者,本刊一律视为同意被收录。

7、请勿一稿多投。