大数据真的来了ARE YOU READY?
听说过大数据吗?没听说过?那你太落伍了!2013年美国高薪技术岗位排行榜上大数据居首!大数据和你有关吗?无关?那你即将社会“淘汰”!这些话有些夸张,但不无道理。你用过微信、QQ、google、百度、淘宝、ebay、facebook、微博、tiwtter、网络云盘等这些之中的任何一个吗?它们都和大数据有关。实际上还有很多你没注意的地方已经或将要用到强大的大数据技术。
21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、视频、微博、电商包括淘宝,ebay,amazon)、移动互联网(app、广告、行为、位置)、物联网(传感器,智慧地球)、车联网、GPS、遥感数据(天文望远镜拍摄的图像、数据、气象学里面的卫星云图数据)、医学影像、安全监控(视频)、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。
目前业界较为统一的看法是大数据具有如下4个特点:
Volume 数据量大:通常PB级(注:数据量级别的次序KB ≈ 103-> MB ≈ 106 ->GB ≈ 109 -> TB ≈1012 -> PB ≈ 1000TB -> EB -> ZB -> YB -> NB -> DB,每一级差1000倍)是大数据层次的临界点,当数据达到这一级别一般的每点服务器都难以应对,几乎所有的传统数据库管理系统都无法应对。有人会说我哪有那么多数据要管理呀?但事实如同上一段所讲如果想要过真正的信息化生活,数据远不止这些,而且数据这些数据还在不断增加! Velocity 速度:对于很多大数据应用而言,数据量的增加是极快速的,例如社交网络上形成的各式各样的数据,从另一个角度看大数据管理系统还必须要在短时间内形成答案,否则处理结果就是过时和无效的,例如物联网和传感网络中的数据。 Variety 多样性:比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值。大数据不仅仅是“大”,结构复杂,样式繁多才更有意义,但也更难管理。企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互信息,位置信息等是大数据的主要来源。这些数据可能是象财务报表一样有结构的,也可能象议论文一样有一定结构,当然也可能散文一样完全没有固定!而绝大多数传统数据库只善于管理象报表一样的结构化数据。 Value 价值:大的数据里往往隐含着大的价值,你可否利用google写过英文?可否用微信或人人网找过朋友?在大数据海洋寻宝、挖掘大数据的价值就象沙里淘金,金子的确存在,也的确很多,但隐藏在在海量数据的中等待人们去挖掘稀疏但极其珍贵的信息。
能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一。语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用。大数据的应用不仅仅是精准营销,管理大数据难,但理解大数据更难,目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心。
我们该如何应对大数据呢?实际中Google,IBM, Microsoft, Oracle , Amazon, Yahoo, Facebook,阿里巴巴,百度,腾讯等等大公司都有自己的大数据解决方案,但它们的大数据方案中出现频度最高的Hadoop,虽然Hadoop采用了google的大数据解决方法,但是作为Apache的开源项目,目前已经成为实事上的大数据解决王者,基于Hadoop的源代码Microsoft,Yahoo,Facebook,阿里巴巴等等都开发了自己定制的大数据管理系统。当然研究学习大数据技术还应考虑 数据采集技术包括ETL工具,数据存取技术包括关系数据库和NoSQL等, 基础架构支持包括云存储、分布式文件系统等, 计算结果展现包括云计算、标签云、关系图等等。
大数据真的来了,你是否已经准备好了呢?
|