1.分布式文件系统
1.1 GFS 分布式文件系统
GFS 本质属于可扩展分布式文件系统,主要应用于诸多分布式数据管理层面,并由许多价值较低硬件构成。其中,GFS 分布式文件系统架构是由单个 Master 与诸多 chunk server 共同构成单个 GFS 集群,最突出特点是可由多个客进行数据访问。
1.2 HDFS 分布式文件系统
Hadoop 属于一个包含开源代码的分布式文件系统,也属于一个并行处理的 Map Reduce 框架。开源 Hadoop系统的诞生,有效避免了云计算技术出现的种种问题。不少新起的国际 IT 公司,都着重通过 Hadoop 系统来搭建自身云计算系统,如 Facebook 与 Twitter。Hadoop 经过多年发展,终于基本形成了云计算生态系统。它主要通过 HBase 分布式数据、Hive 分布式数据仓库、Zoo Keeper 分布式应用来统筹服务,诸多部件几乎全部建立在价格低廉的硬件服务基础上,且依靠强大容错能力与普遍拓展性,逐步占领商业云计算的主流市场。其中,HDFS 分布式文件系统架构能有效保障分布式、数据集中并行应用程序执行,主要处理特征为:大任务分为小任务,大规模数据集分为小分区,最终实现各任务于不同分区的并行处理效果。
2.云计算平台下的大规模数据存储技术
大规模数据存储主要通过构建大容量存储系统的方式来满足数据信息存储的多方面需求,由于存储节点比较多可以同时开展相关工作。系统缓存能够在一定程度上提高系统吞吐率,在多个节点的共同作用下数据信息的准确性也可以得到保障,所以该系统在运行过程中能够保证信息数据的可靠性,满足大规模数据的存储要求,而且系统整体性能比较高。在多种类型数据量不断增加的过程中,大规模数据存储管理过程中也出现了一些新问题,必须结合实际需要对相关技术进行进一步研究。
2.1 数据存储可扩展性与延迟性
可拓展性和延迟性是大规模数据存储技术系统在应用过程中需要具备的性能,虽然目前应用的分布式文件系统能够对大型文件进行快速处理,但是在小型文件的处理上还存在一些不足,需要花费较长时间,主要导致这种现行的原因就是并行接口无法与小型文件处理节点进行有效连接,主节点无法实现进一步拓展。有业内人士曾做出研究:设置一种建立在P2P基础上的小型文件分布式存储系统,主要通过中心路由节点来加快资源发现速度,客户端发出消息命令去执行寻找数据行为。节点与路由信息由中心路由节点进行存储,数据量较少时客户端可预取信息,小文件数量较多时客户端可对其进行缓存,以大幅减少读写次数,但此研究难点在于中心节点的可扩展性不佳。为方便小型文件数据大规模存储,也有学者在分布式文件系统基础上集成 Memcached,以实现存储优化效果。Memcached 本质是高性能分布式内存对象缓存系统,主要常见于 Web 应用来减少数据库负载。实践发展经验证明,对当下分布式文件系统处理小型文件缺陷的优化方式可分为:第一,优化 HDFS 的 1/0 接口,从而改变数据节点管理方式;第二,运用索引方式将小文件向大文件合并;第三,为减少访问次数,设置缓存机制。
2.2 数据存储的容错性
Hadoop 支持数据并行处理,节点最高扩展可超过 1 000个。大数据时代带动 Hadoop 技术普及。Hadoop 建立在廉价硬件基础上,小部件失灵可能性较大。所以,数据容错成为其重要的研究内容。除了数据复制方法以外也可以建立纠删码容错机制对操作失误问题进行纠正处理,实现对缺陷问题的有效控制。大规模数据存储技术在应用过程中很容易遇到节点失效的情况,无法保证整个系统的正常运行。
HDFS系统属于新型文件处理系统,能够对海量数据以及大规模文件进行存储。副本技术是该机制中比较常用的一种技术,能够提高系统的容错率,防止数据丢失,对损失的产生进行控制。纠删码技术在应用期间能够起到维护服务器稳定运行的作用,可以改善数据容错问题,服务器崩溃问题也有所改善,可以为用户提供准确性高的云端数据。从以上技术的实际应用情况来看,复制方法和纠删码容错基机制的应用效果与数据节点的使用情况有着较大联系,复制技术能够在出现节点失效问题时对数据进行恢复处理,纠删码技术则能够为运行系统提供容错机制,对失误问题进行有效控制。
2.3 大规模数据存储的实时性
对数据信息进行实时存储是大规模数据存储技术需要具备的基础性能,在存储过程中不会受到数据量的影响,Hadoop 系统在处理大规模数据方面具有一定优势,实际运行过程中能够满足离线数据工作的处理分析要求,而且速度比较快。Hadoop 系统涉及到多个通信节点,在负荷接近临界值时能够对运行性能进行调节,所以在当前的云计算环境下,提升分布式文件系统的实时性是需要加强研究的内容,要能够满足用户的个性化需求,可以实现各种类型数据的快速生成,实时性比较高,根据每个人的需求进行差异化管理。Hadoop 系统在实际应用过程中也需要进行技术上的更新与完善,确保能够提升海量数据存储的实时性。
结语:大规模数据存储技术在实际应用过程中也需要了解当前信息数据存储的各项要点和实际需求,在此基础上对技术内容进行不断改进和优化,这样才能提高这项技术的服务性能。要想实现对数据信息的实时处理和保存,在云计算环境下必须要做好各项数据的调度与应用工作,对各类资源信息进行动态分析,充分发挥大规模数据存储技术的应用价值,以此推动互联网信息技术的进一步发展。
参考文献:
[1]于双红.云计算环境下大规模图数据处理技术的应用研究[J].信息与电脑(理论版),2016,347(01):6-7.
[2]徐彩云.云计算环境下数据存储技术的研究[J].武汉生物工程学院学报,2018,(03):45-48.