大多数Hadoop平台的实现都至少包括如下一些开发大数据系统所必需的子项目,例如:多数组织都会选择使用HDFS作为主要的文本发散系统,将HBase作为基础数据库来使用,这可以储存数千万组的数据。MapReduce也为用户带来很多益处,它为Hadoop平台提供了必要的速度和便捷。 有了分布...
显示全部大多数Hadoop平台的实现都至少包括如下一些开发大数据系统所必需的子项目,例如:多数组织都会选择使用HDFS作为主要的文本发散系统,将HBase作为基础数据库来使用,这可以储存数千万组的数据。MapReduce也为用户带来很多益处,它为Hadoop平台提供了必要的速度和便捷。
有了分布式计算系统(MapReduce),软件开发者可以创造能够通过分散群机和独立存在的计算机并行加工处理海量的非结构型数据的程序。分布式计算系统网络可以分解成两个功能区:Map和Reduce。其中,Map是将分散群中的不同的节点打包的函数,Reduce则是对数据进行整理、解析数据并体现其唯一价值的函数。
分布式计算系统最重要的优势就是容错性强,该优势靠对分散群中的每个节点进行控制来实现,在这种控制下,每个节点都要阶段性地将一定范围的工作状态实时加以反馈。如果某一节点反馈相关信息的时间超过预期时间,一个主网点就会对这个节点的情况进行记录,并将该节点应该进行的工作重新指定给另外的节点去做。
除了许多以开放性资源为依托的工具,例如Clojure和Thrift之外,还存在很多以商业软件为依托的软件工具,尽管许多工具是建立在 Hadoop这个平台之上的。普华永道会计师事务所技术与发明中心公布了一份有关大数据业务群块建立的详尽指南,介绍了该业务如何将IT开发和商业用途有机结合。
Datameer就是一个例子。该公司提供一个收集和读取不同大数据存储情况的平台,将上述数据放进Hadoop框架之中,然后提供相应的工具对数据进行分析。从根本上讲,Datameer试图隐藏Hadoop软件的复杂性并且在Hadoop软件的基础上提供分析工具。Datameer的优势就在于拥有超过10TB的数据资源。根据Datameer的说法,这种资源量所处的水平正是公司使用传统技术进行数据分析的瓶颈所在。
包括Appistry、Cloudera、 Drawn to Scale HQ、 Goto Metrics、Karmasphere和 Talend在内的其他一些从事商业运作的供应商也针对大数据分析业务提供类似的服务。三大主要数据库供应商IBM、微软和甲骨文公司也都支持Hadoop,只不过这些公司采取的形式不同。开放性资源BI的供应商Pentaho也对Hadoop加以支持。
大数据业务适用于所有规模的企业。大数据业务并不是只与企业规模有关,还关乎企业的经营情况,但其与企业数据的设置情况无关。该业务与即时分析有关,例如在网上估定一个顾客的习惯,以便更好地了解该顾客需要怎样的帮助与支持,了解其所要寻找的产品,或者描绘出目前天气情况和送货途中以及行程安排的其他条件下可能产生的影响。
服务器群、高性能文本系统和并行处理系统就是这样运行的。过去,除了大企业之外,这些技术对于大多数企业来说都太昂贵了。今天,虚拟化和产品硬件已经在很大意义上降低了成本,使大数据业务能够为中小企业所用。
对于大数据分析业务,小企业还有另外的途径来实现,这个途径就是云技术。针对大数据业务提供的云服务异军突起,为迅速和高效进行数据分析提供必要的平台和工具。然而,小企业真的需要大数据业务吗?回答是肯定的。其实,所有的企业都需要大数据业务,不管其是否已经认识到。例如,大多数在线企业在其记录文件和点击记录中收集大量数据信息。对于没有类似数据流的企业来说,存储千兆字节而不是兆兆字节,大数据业务能够使其深入了解公共信息数据资源这座宝藏。
世界银行在线提供其世界范围内的统计数据,美国国会图书馆自2006年3月起就对Tweiter论坛上的数据进行归档处理。此外,美国国会图书馆还提供大量低成本信息和投资数据服务。大数据技术可被用于对数据资源进行分析,其中就包括你自己拥有的数据,或者将这些数据放在一起进行分析。
举个例子,FlightCaster是一家提供航班延误信息预测的公司,它主要根据主要航空公司的航班运行情况进行预测。与航空公司所拥有的类似航班运行情况的专有信息一样,该公司拥有大量国内航班飞行和航班实时运行状况的历史数据。Flightcaster的秘诀就是其对大数据分析的有效利用和使用适当的软件工具对产出数据进行实时管理。
随着成本的下降,一些企业想出新的办法来整合数据,大数据分析业务会变得更加平常,也许它还能教企业怎么由小做起,发展壮大。想想谷歌吧,还有雅虎和 Fascebook,它们都曾经是名不见经传的小公司,但是他们都有效利地用了自身的数据资源,从中得出了对成长产生深远影响的见解。许多大数据业务的基础正是来自由这些企业的发展得出的启示,这绝非偶然。如今,这些启示已经能够通过Hadoop和其他一些供企业使用的软件工具——正像你的企业所使用的软件工具广泛获得。
收起