近年来,随着万物互联,智能电话、电视、洗衣机、冰箱、各种传感器、甚至衣服都可以通过5G连接至互联网,大数据一词早已变得无处不在。但是,如果无法从数据中提取有用的信息,再多的数据也毫无价值。由于体量太大,单人单机已经无法处理和分析这些海量数据,大数据技术应运而生。然而,大数据领域目前尚不存在一种可以解决所有问题的通用解决方案。现有的各种各样的工具和技术有着各自的功能和特性,专注于解决各领域内的特定问题。通常大数据技术体系可以分为5层,即数据生成层、数据获取层、数据储存层、数据处理层和数据分析层。每一层都有若干面向不同需求的组件。下面简单列举一二。
数据生成层
模块 | 例子 |
---|
结构化数据 | 表格、交易数据、财务数据 |
半结构化数据 | XML、JSON、email |
非结构化数据 | 文本、图像、视频、日志 |
结构化流式数据 | 高频交易数据 |
半结构化数据 | 传感器数据、社交平台信息流 |
非结构化数据 | 实时监控音频、视频日志 |
数据获取层
数据储存层
模块 | 组件 |
---|
关系型数据库(SMP) | Microsoft SQL Server、MySQL |
关系型数据库(MPP) | Greenplum、Vertica、Teradata |
NoSQL(键值对存储) | Riak |
NoSQL(文档存储) | MongoDB |
NoSQL(列式存储) | HBase |
NoSQL(图结构存储) | Neo4J |
分布式文件系统 | HDFS |
数据处理层
模块 | 组件 |
---|
SQL处理 | 关系型数据库 |
批处理 | MapReduce |
统一处理 | Spark |
流处理 | Storm |
数据分析层
模块 | 组件 |
---|
OLAP工具 | Microsoft SSAS、Pentaho Mondrian |
初级机器学习 | R、RapidMiner、KNIME、SAS、WEKA |
进阶机器学习 | Mahout (MapReduce) |
高级机器学习 | Mahout(Spark/H2O/Flink)、MLlib、H2O ML、 Flink-ML SAMOA、MADlib |
跟进和使用这些技术需要花费较多的人力、物力和时间成本,抬高了大数据的使用门槛。尤其对于中小企业来说,较高的使用门槛延缓了他们从大数据中获益的脚步。希望通过这个讨论,帮助中小企业理解大数据技术体系,从而选择适合自己业务场景的大数据技术。
收起