大数据运维分成两个方面:
运行:只大数据系统的正常运转,通俗的讲就是只管好坏,不管好不好用!
维护:只对大数据系统的“迭代开发”和“调优”。
从这两点出发要求的知识分为两类:
管理知识:对系统的管理从“人、财、物、流”入手。(参考ITIL)
人-专业的人员储备和知人善用
财-只商务的引用或外包
物-设备的选用和使用
流-根据业务和管理的需要制定配套的流程
技术知识:
系统架构-关系到大数据能不能用和好不好用
业务知识-大数据是根据业务需要产生的,业务需求定义大数据系统提取什么数据、定义什么模型、产生什么数据。
软件知识-包括开发(例C、JAVA)、中间件、数据库等,软件知识是对大数据系统的提取、整理、分析、产出做应用支撑。
数学知识-大数据的核心是“定义模型”,要根据业务的需求使用数学的理论进行分析。
设备知识-选用最适合的设备支撑大数据系统。
不是专业运维,谈一下自己的理解,供参考。
1、大数据生态体系的解决方案基本都是运行在开放平台上的,所以对Linux系统的知识掌握是基础。
2、Java/Scala等JVM族语言在生态体系中占有优势,所以增加对JVM的了解,会有帮助。
3、大数据解决基本都是分布式架构,所以对网络知识最好有些了解。
以上都算是通用技能,如果还想针对性的学习,建议从以下几方面入手:
HDFS/Zookeeper是广泛使用的基础组件;HBase是非常经典的LSM模型,后续很多分布式数据库都在该基础上的扩展;Spark目前是比较流行的一站式解决方案,覆盖的场景比较广,学习的性价比高。建议先把这几部分的原理搞清楚。
好的,这个是可以使用AI的
收起