您的当前位置:首页大数据技术概述

大数据技术概述

来源:乌哈旅游


大数据技术

技术概述:

大数据技术是信息技术发展到一定阶段的必然产物,最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”如今,大数据技术的广泛普及,使得数据让一切有迹可循、一切有源可溯成为现实。同时,大数据技术为人类步入智能社会开启了大门,带动了互联网、物联网、电子商务、现代物流、网络金融等现代服务业发展,也催生了车联网、智慧电网、新能源、智慧交通、智慧城市、智慧园区、高端装备制造等新兴产业发展。大数据进而以大数据产业的姿态迅猛发展,与实体产业、数字经济紧密融合,正不断刷新人类对未知世界的认知。

发展历程:

大数据技术的发展是伴随数据处理技术、计算机硬件技术、互联网技术、线上用户规模增长等要素的发展变化而同步发展的。整体来看,大数据技术发展也经历了孕育和启蒙、形成和发展、稳定和成长、成熟和融合等几个重要的发展阶段。

1.孕育和启蒙阶段——数据库技术商业角逐

在大数据技术形成之前,对数据的处理和服务都依赖于数据库技术,数据库应用得到了空前的发展。以 Oracle、IBM、 Microsoft、 Teradata、 Sybase等数据库厂商为代表,几乎占据了全球整个数据库服务市场。为赢得更高的市场份额和满足日益增长的数据存储和服务的需求,各数据库厂不断研发新的数据库技术,比如数据库集群化技术、横向扩展技术、

高可用技术、主从分离技术、读写分离技术、数据分区分片技术、内存数据库技术、数据库一体机技术等。各商业巨头不惜巨资,展开了数据库技术和人才巅峰对决,将传统数据库技术应用和行业发展推向顶峰,与此同时也培养了大量数据科学人才,积累大量行业实际应用经验。

随着互联网技术进一步发展,行业数据呈现爆炸式增长,传统数据库技术明显已无法满足数据应用需求,或者即使暂时能达到使用需求,但也需要付出非常昂贵的代价,且面向未来的解决方案并不尽如人意,应用厂商苦不堪言。此时,以谷歌为代表的一些互联网应用厂商依靠自身的人才和应用场景方面的优势,开始研发新的数据计算和存储的技术,并取得了实质性的进展。谷歌发表了三篇技术论文,分别是GFS、 MapReduce和 Big Table。GFS解决了数据大规模存储的问题; Map Reduce解决了数据大规模计算的问题; Big Table解决了在线实时查询的问题。正是因为谷歌这三项技术的问世,引起了数据技术颠覆性革命,从而揭开了大数据时代的序幕。

2.形成和发展阶段——Hadoop开源技术生态引爆大数据时代

雅虎公司依据谷歌的论文理念开发出了Hadoop,在其搜索业务上进行实际落地应用并不断测试和完善Hadoop源代码,后来雅虎将自身核心产品Hadoop项目推向开源,成为Apache基金会的开源项目,企图通过技术领先优势和标准制定权来抢占市场份额。

在全球开源爱好者和企业技术负责人的奉献和努力下, Hadoop项目形成了更加完善的技术框架,解决了如何简单、便捷使用Hadoop,如何处理实时数据以及如何以更廉价高效的方式存储数据等企业应用的现实问题,带动Hadoop项目走向更加长足的发展和应用实践,形成Hadoop开源技术生态圈。这些技术生态的诞生又促使了更多用户依赖于 Hadoop,越来越多的用户和相应的需求让这些开源技术有了变现的价值。Hadoop可以帮

助企业分析和处理庞大的数据,并且从中获得了巨大的商业利润,促使企业愿意投入大量精力不断对其改进和完善, Hadoop的易用性、可靠性和性能也不断地提高, Hadoop占据的市场份额进一步猛增,逐渐构建了套属于自己的周边技术生态、用户生态和商业生态。Hadoop开源生态就这样引爆了大数据时代

3.稳定和成长阶段——后Hadoop时代的百花斗艳

大数据技术经过十余年的指数式发展,新技术迭代更新速度日益加快,新技术运行非常稳定、可靠,在数据爆炸时代发挥着极其重要且不可替代作用。围绕大数据实际应用场景,各类产品层出不穷,用户选择余地也越来越多,呈现出了后Hadoop时代大数据技术百花斗艳的态势

1)数据采集:主要的技术包括Fume、Logstash等。

2)数据存储:主要的技术包括Hive、HDFS和Kafka等。

3)数据计算:主要的技术包括MapReduce, Spark、Spark Streaming、Som和Fink等。

4)数据查询:主要的技术分为NOSQL和OLAP。NOSQL主要解决随机查询,包括Reds、 HBase、Cassandra等;OLAP技术主要解决关联查询,包括 Kylin, Impa等;同时基于索引技术实现快速查询的技术也很成熟,如 Lucene和 lasticsearch等。

5)数据挖据:主要包括机器学习和深度学习等核心技术,包括 Spark ML、TensorFlow、 Caffe、Mahout等。

4.成熟和融合阶段——行业价值驱动和产业化

随着大数据技术在行业的深度应用,商业化价值程度越来越高,不仅驱动大数据技术自身走向成熟,而且大数据技术与行业深度融合,实现行业价值驱动,大数据也走向产业化阶段,形成了大数据的基础硬件、基础软件和专业服务等完整产业模块。产业上游主要为数据来源供应商,存储、计算和分析涉及硬件厂商和软件厂商,产业下游包括垂直应用行业、互联网和运营商等。如今大数据结合紧密的行业逐步向工业、政务、电信、交通、金融、医疗、教育等领域广泛滲透,应用逐渐向生产、物流、供应链等核心业务延伸,大数据技术、产业、应用等多方面的发展呈现融合趋势,具体情况如下:

算力融合:多样性算力提升整体效率

流批融合:平衡计算性价比的最优解

TA融合:混合事务/分析支撑即时决策

模块融合:一站式数据能力复用平台;

云数融合:云化趋势降低技术使用门槛;

数智融合:数据与智能多方位深度整合。

因篇幅问题不能全部显示,请点此查看更多更全内容