云计算环境下大规模数据存储技术探究
刘丽丽
生成PDF 清样下载 引用

复制成功

导出题录

参考文献( GB/T 7714-2015 ) 复制

刘丽丽,. 云计算环境下大规模数据存储技术探究[J]. 环境科学研究,2021.4. DOI:10.12721/ccn.2021.157031.
摘要: 在信息化网络环境中,计算机资源种类比较多,但是存在利用不合理的情况,云计算技术的研发与应用实现了对多种信息数据的快速有效处理,能够让各类计算机设备得到充分应用。数据信息数量和种类在不断增加的过程中,用户需求也发生了较大改变,分布式文件系统的应用能够为海量数据的处理与存储提供便利,满足大规模数据的存储要求,因此,加强对云计算环境下大规模数据存储技术的研究具有一定必要性。
关键词: 云计算环境;大规模;数据存储技术
DOI:10.12721/ccn.2021.157031
基金资助:

1.分布式文件系统

1.1 GFS 分布式文件系统

GFS 本质属于可扩展分布式文件系统,主要应用于诸多分布式数据管理层面,并由许多价值较低硬件构成。其中,GFS 分布式文件系统架构是由单个 Master 与诸多 chunk server 共同构成单个 GFS 集群,最突出特点是可由多个客进行数据访问。

1.2 HDFS 分布式文件系统

Hadoop 属于一个包含开源代码的分布式文件系统,也属于一个并行处理的 Map Reduce 框架。开源 Hadoop系统的诞生,有效避免了云计算技术出现的种种问题。不少新起的国际 IT 公司,都着重通过 Hadoop 系统来搭建自身云计算系统,如 Facebook 与 Twitter。Hadoop 经过多年发展,终于基本形成了云计算生态系统。它主要通过 HBase 分布式数据、Hive 分布式数据仓库、Zoo Keeper 分布式应用来统筹服务,诸多部件几乎全部建立在价格低廉的硬件服务基础上,且依靠强大容错能力与普遍拓展性,逐步占领商业云计算的主流市场。其中,HDFS 分布式文件系统架构能有效保障分布式、数据集中并行应用程序执行,主要处理特征为:大任务分为小任务,大规模数据集分为小分区,最终实现各任务于不同分区的并行处理效果。

2.云计算平台下的大规模数据存储技术

大规模数据存储主要通过构建大容量存储系统的方式来满足数据信息存储的多方面需求,由于存储节点比较多可以同时开展相关工作。系统缓存能够在一定程度上提高系统吞吐率,在多个节点的共同作用下数据信息的准确性也可以得到保障,所以该系统在运行过程中能够保证信息数据的可靠性,满足大规模数据的存储要求,而且系统整体性能比较高。在多种类型数据量不断增加的过程中,大规模数据存储管理过程中也出现了一些新问题,必须结合实际需要对相关技术进行进一步研究。

2.1 数据存储可扩展性与延迟性

可拓展性和延迟性是大规模数据存储技术系统在应用过程中需要具备的性能,虽然目前应用的分布式文件系统能够对大型文件进行快速处理,但是在小型文件的处理上还存在一些不足,需要花费较长时间,主要导致这种现行的原因就是并行接口无法与小型文件处理节点进行有效连接,主节点无法实现进一步拓展。有业内人士曾做出研究:设置一种建立在P2P基础上的小型文件分布式存储系统,主要通过中心路由节点来加快资源发现速度,客户端发出消息命令去执行寻找数据行为。节点与路由信息由中心路由节点进行存储,数据量较少时客户端可预取信息,小文件数量较多时客户端可对其进行缓存,以大幅减少读写次数,但此研究难点在于中心节点的可扩展性不佳。为方便小型文件数据大规模存储,也有学者在分布式文件系统基础上集成 Memcached,以实现存储优化效果。Memcached 本质是高性能分布式内存对象缓存系统,主要常见于 Web 应用来减少数据库负载。实践发展经验证明,对当下分布式文件系统处理小型文件缺陷的优化方式可分为:第一,优化 HDFS 的 1/0 接口,从而改变数据节点管理方式;第二,运用索引方式将小文件向大文件合并;第三,为减少访问次数,设置缓存机制。

2.2 数据存储的容错性

Hadoop 支持数据并行处理,节点最高扩展可超过 1 000个。大数据时代带动 Hadoop 技术普及。Hadoop 建立在廉价硬件基础上,小部件失灵可能性较大。所以,数据容错成为其重要的研究内容。除了数据复制方法以外也可以建立纠删码容错机制对操作失误问题进行纠正处理,实现对缺陷问题的有效控制。大规模数据存储技术在应用过程中很容易遇到节点失效的情况,无法保证整个系统的正常运行。

HDFS系统属于新型文件处理系统,能够对海量数据以及大规模文件进行存储。副本技术是该机制中比较常用的一种技术,能够提高系统的容错率,防止数据丢失,对损失的产生进行控制。纠删码技术在应用期间能够起到维护服务器稳定运行的作用,可以改善数据容错问题,服务器崩溃问题也有所改善,可以为用户提供准确性高的云端数据。从以上技术的实际应用情况来看,复制方法和纠删码容错基机制的应用效果与数据节点的使用情况有着较大联系,复制技术能够在出现节点失效问题时对数据进行恢复处理,纠删码技术则能够为运行系统提供容错机制,对失误问题进行有效控制。

2.3 大规模数据存储的实时性

对数据信息进行实时存储是大规模数据存储技术需要具备的基础性能,在存储过程中不会受到数据量的影响,Hadoop 系统在处理大规模数据方面具有一定优势,实际运行过程中能够满足离线数据工作的处理分析要求,而且速度比较快。Hadoop 系统涉及到多个通信节点,在负荷接近临界值时能够对运行性能进行调节,所以在当前的云计算环境下,提升分布式文件系统的实时性是需要加强研究的内容,要能够满足用户的个性化需求,可以实现各种类型数据的快速生成,实时性比较高,根据每个人的需求进行差异化管理。Hadoop 系统在实际应用过程中也需要进行技术上的更新与完善,确保能够提升海量数据存储的实时性。

结语:大规模数据存储技术在实际应用过程中也需要了解当前信息数据存储的各项要点和实际需求,在此基础上对技术内容进行不断改进和优化,这样才能提高这项技术的服务性能。要想实现对数据信息的实时处理和保存,在云计算环境下必须要做好各项数据的调度与应用工作,对各类资源信息进行动态分析,充分发挥大规模数据存储技术的应用价值,以此推动互联网信息技术的进一步发展。 

参考文献:

[1]于双红.云计算环境下大规模图数据处理技术的应用研究[J].信息与电脑(理论版),2016,347(01):6-7.

[2]徐彩云.云计算环境下数据存储技术的研究[J].武汉生物工程学院学报,2018,(03):45-48.

》在线投稿系统

*文章题目:
*作者姓名:
*电子邮箱:
*通讯地址:
*联系方式:

  备      注:

*上传稿件:

支持上传.doc,.docx,.pdf,.txt,.wps文件

投稿须知:

1、审稿结果将于1~7个工作日以邮件告知,请注意查收(包含录用通知书、审稿意见、知网CNKI查重报告)。

2、提交投稿后,若7个工作日之内未接到录用通知,则说明该文章未被录用,请另投他刊。

3、凡投寄本刊稿件,如在内容上有侵权行为或不妥之处,均应文责自负。本刊有权对来稿进行文字编辑、加工和修改,如不同意,请附说明,以便妥善处理。

4、多作者文稿署名时须征得其他作者同意,排好先后次序,通知用稿后不再改动。

5、凡投往本刊稿件一经录用发表,其版权归本刊所有。

6、本刊已全文录入中国知网、万方、维普等数据库,如作者不同意被收录,请提前申明,未申明者,本刊一律视为同意被收录。

7、请勿一稿多投。