电力大数据平台中HBase的实时性优化方案
方威 胡晓勤
生成PDF 清样下载 引用

复制成功

导出题录

参考文献( GB/T 7714-2015 ) 复制

方威 胡晓勤,. 电力大数据平台中HBase的实时性优化方案[J]. 数据与科学,2019.2. DOI:.
摘要:
近年来,随着大数据场景的兴起,RDBMS由于其自身的扩展性和可用性限制无法满足企业需求。No SQL数据库的出现弥补了传统关系型数据库在大数据领域的不足。No SQL数据库本身具有良好的扩展性、容错性以及实时访问、存储TB级别数据的特点。HBase就是以HDFS和MapReduce为基础的开源No SQL型分布式数据库,它不支持二级索引、事务和批量数据处理时延长等[1]。本文以HBase和Spark为基础,增加插件使HBase支持SQL语句和二级索引,通过修改Spark源码,提升对HBase数据的本地化计算级别。插件对HBase无侵入、低耦合,支持用户输入SQL语句,把输入字段转化为HBase的列族和列限定符,根据不同的场景选取不同的执行方案。MapReduce计算框架具有计算效率低,无法利用HBase的读写缓存的缺陷[1],原始Spark框架不能感知HBase数据分片。本文改进Spark能感知HBase数据分片,对HBase中数据进行高级别本地化计算。最终,将本文设计的系统与业内常用的Hive+HBase方案对比常用SQL消耗的时延[3]。通过实验得出,本文构建的优化方案在没有缺失HBase的优良特性的基础上加强了部分应用场景的实时性。
关键词: HBase CoprocessorSpar二级索引
DOI:
基金资助:

》在线投稿系统

*文章题目:
*作者姓名:
*电子邮箱:
*通讯地址:
*联系方式:

  备      注:

*上传稿件:

支持上传.doc,.docx,.pdf,.txt,.wps文件

投稿须知:

1、审稿结果将于1~7个工作日以邮件告知,请注意查收(包含录用通知书、审稿意见、知网CNKI查重报告)。

2、提交投稿后,若7个工作日之内未接到录用通知,则说明该文章未被录用,请另投他刊。

3、凡投寄本刊稿件,如在内容上有侵权行为或不妥之处,均应文责自负。本刊有权对来稿进行文字编辑、加工和修改,如不同意,请附说明,以便妥善处理。

4、多作者文稿署名时须征得其他作者同意,排好先后次序,通知用稿后不再改动。

5、凡投往本刊稿件一经录用发表,其版权归本刊所有。

6、本刊已全文录入中国知网、万方、维普等数据库,如作者不同意被收录,请提前申明,未申明者,本刊一律视为同意被收录。

7、请勿一稿多投。