引言:电子计算机问世至今,信息内容技术影响着人们日常生活的各个方面。尤其是近十几年来,大数据、人工智能、云计算等技术迅猛发展,大家的生活习惯发生了日新月异的转变。大数据的聚集、分布式系统技术计算水平的释放、技术的持续拓展、大数据、人工智能和云计算的边界变得越来越模糊不清,三种类别的技术互相影响和结合。大数据3.0时期是这种顶尖技术的不断融合,为全部行业引入了真正意义上的能量。
1 大数据1.0时代:以Map Reduce为代表
Doug Cutting参照GOGOLE 2003年发布的GOGLOGE系统文件论文,搭建了规模性百度搜索引擎,并创建了Hadoop开源软件,最先,分布式存储HDFS和分布式计算框架MapReduce问世了。HDFS仍在运用中,伴随着硬件配置费用的减少,MapReduce已经被根据运行内存的测算框架所替代。可是在那时候的前提下,MapReduce早已是最好的规模性数据置放执行方式,意义非凡。此后,2007年Facebook开发了Hive——SQL翻译软件,可以用HDFS中存放的数据作为类SQL语言表达开展查看。此外,PowerSet开发了规模性分布式系统No SQL数据库——HBase,但在2010年被Facebook用以开发Message消息传递系统软件后才广为流传。
从2006年到2009年,以MapReduce测算框架为代表的规模性数据技术性被广泛运用于规模性结构型数据的部署。实际的应用领域是互联网公司将这种技术性用以用户行为分析和大数据营销。在这个被称作大数据1.0时期的时代,大数据技术性质在大中型互联网大佬中运用,执行成本费特别高。
2 大数据2.0时代:多项技术百花争鸣
大数据进入2.0时代的标志, 是Spark核心计算引擎的出现。由于MapReduce在需要短时间响应的交互式分析场景下表现得并不够好, 人们需要一个更加高效地计算框架, 这时Spark出现了。从2009年Spark诞生到2015年Spark在这场竞争中逐步胜出, 以Spark为主流的计算引擎已经广泛的替代了MapReduce。这个阶段有两个重要变化:
一方面是大数据开始从过去做日志用户行为分析转为结构化数据处理, 所有的大数据公司开始在Hadoop上打造SQL引擎或打造分布数据库。2012年开始竞争进入到白热化阶段, 随后两年中出现20多个基于Hadoop的SQL引擎, 解决结构化数据问题。到2015年竞争后只留下了四个, 星环的计算引擎Inceptor脱颖而出成为支持SQL最完整、性能最好的分析型数据库之一。
第二方面, 实时数据处理方面。随着物联网技术的蓬勃发展, 大量的传感器数据需要及时处理, 此时出现了多种流计算引擎。到2015年Flink、Storm、Spark Streaming等几个产品成为主流。星环的流处理引擎Slipstream在2014年开始上线, 可以在低延时计算框架上支持复杂的SQL引擎、机器学习规则引擎等复杂的批处理模型。如今也成为流处理技术上功能最完善, 性能最强的实时流处理产品。
大数据2.0时代是一个百花争鸣的时代, 诞生了很多全新的技术, 能解决更多业务场景下的实际问题。
3 大数据3.0时代:大数据、人工智能与容器云计算走向深度融合
到2015年,非结构化数据解决问题基本上获得处理,大家逐渐关心数据库解决,尤其是图像、短视频、视频语音和文本处理。除此之外,为了更好地彻底解决传统式大数据测算模块中的非结构化数据库解决问题,想得到一个可以处理从非结构化数据到关系型数据库的任何问题的统一测算架构。伴随着业务流程的飞速发展,大家对云服务平台部署大数据这一分布式系统架构、改进信息共享和共享资源、解决数据孤岛的开发设计等挑战,明确提出了新的规定。传统式的虚拟化技术在部署大数据服务平台时存有高效率不高、稳定性差的问题,集成化技术给予了详细的解决方法。
至此,大数据技术、人工智能技术、云计算技术逐渐结合。大数据3.0时期要在同一个网站上能够满足不一样水平的大数据规定。规模性数据信息技术逐渐处理深度神经网络计算能力和教学信息量,造就了很大的制造使用价值。
4 大数据3.0时代的特征
在大数据3.0时代, 众多新兴技术带来的巨变让人们开始设想建立一个高度统一的数据云平台, 完美的实现共享与安全的结合。新一代的数据云平台必须具有以下特点:
(1) 统一融合的数据平台
目前的数据平台架构中, 往往需要包含数据湖、数据仓库、数据集市、综合搜索平台等不同技术方案, 不仅产生庞大的数据冗余, 也严重限制了数据应用的时效性。3.0时代的数据云平台能一站式地满足所有需求, 应对从快速响应到海量分析的各层级需求。
(2) 开发方式的融合
SQL作为经过历史检验的结构化查询语言, 具有庞大的用户群和灵活性, 近年来越来越多的大数据产品支持SQL。新一代数据云平台采用SQL支持全部功能, 包括数据仓库、OLTP数据库、搜索引擎、实时计算、时空数据库、图数据库等, 极大降低开发者门槛, 加快产品开发与上线速度。
(3) BI到AI的融合
大数据3.0阶段, 数据分析手段更完整了, 囊括了数据整合、数据探索、特征工程、数据治理、可视化、模型训练和AI预测等一系列分析工具。数据分析的目的, 也从早期对历史数据的统计和总结 (Business Intelligence) , 过渡到了从数据中发掘价值并作出预测 (Artificial Intelligence&Predicative Analysis) 。
(4) A+B+C融合, 弹性资源策略让服务随处可用
硬件层:大数据平台对CPU、GPU、network、storage等资源进行统一管理和调配。基于容器技术实现云上的大数据应用统一部署, 平台租户按需申请。
数据层:平台所有数据统一存储, 建立统一的数据仓库与数据资产目录, 再根据应用场景传输至不同数据集市中, 各业务部门根据需求调用, 打通数据孤岛, 提升数据质量, 转化数据价值。
模型层:建立模型市场, 租户训练好的模型可以选择一键发布至模型市场, 其他租户可直接调用。
应用层:平台内用户可将业务验证过的应用发布至企业级应用市场, 共享给其他用户。所有运行的应用被统一管理。
(5) 应用+数据与企业生态应用生态的融合
大数据3.0不但提供给客户多种数据管理方法、集成化安全工作等大数据Paas服务项目,还协助公司提升数据质量控制。协助公司将内部结构数据规范性、统一性。统一数据检测标准和浏览规范组成数据财产文件目录,协助企业技术创新,为创造财富提供必要条件。数据、服务项目和应用软件互相促进,产生业务流程闭环控制,推动数据绿色生态。
伴随着5G等前沿技术的发展,数据量将迎接新的爆发性提高。大数据技术性从1.0发展趋势到现在的3.0数据云时代,为了更高级的其他数据测算、大量领域应用自主创新,提供技术实力和适用能力。
5结语
伴随着公司数据处理方法的提升和服务项目要求的飞速发展,大数据的汇聚、分布式系统技术的计算水平释放出来、技术的拓展、大数据、人工智能、云计算的边界变得越来越模糊不清。三种技术的进步持续互相影响和结合是发展趋势和需求量的肯定发展趋势。大数据和人工智能云服务平台的建立和落地式服务愈来愈多,将真真正正完成高新科技工作能力业务流程,为公司的业务能力和技术进步带来更长远的发展。与此同时,根据如今的人工智能发展情况来看,可以看得出公司还能够根据自身工作能力、网站的软件系统推广、将公司业务推广到网站的应用商店,灵活运用云服务平台的优点、共享资源和集成化管理方法。
参考文献
· [1]人工智能大数据和云计算的融合[J]. 朱彦百. 电子技术与软件工程. 2021(03)
· [2]旅游者视角下红河州旅游网络平台服务质量研究[J]. 钟竺君,林锦屏,成蝶. 云南地理环境研究. 2020(04)
· [3]大规模异构数据并行处理系统的设计、实现与实践[J]. 夏正勋,罗圣美,孙元浩,唐剑飞,张燕. 大数据.
2020(04)