10月,由嘉为科技携手腾讯蓝鲸智云联合主办的智慧生长·研运未来暨2021年研运治理实践大会在北京成功召开
在下午进行的智能化运维分论坛上,来自嘉为蓝鲸的解决方案架构师 李方园 同与会嘉宾探讨了IT运维团队如何应对数字化转型中,企业业务爆发式增长、应用架构越来越复杂等情况,并带来了 《基于SRE理论,建设企业业务连续性管理体系 》的专题演讲。
作为近年热词的SRE自被提出以来,引起了各方的关注和思考。随着技术的迭代,在基础运维、云计算运维的基础上,SRE工程师更多地关注工具化、流程化的建设,更进而地去思考平台化,体系化,全面化的技术栈设计。在业务侧的推动下,企业对敏态效率和稳态安全的全面关注;对保障稳定和质量同时控制成本、提升价值和效率等多方面的需求都对SRE在企业的内部落地提出了更高和更针对性的要求。
美国的数字化服务公司Mikey Dickerson对SRE运维体系架构提出了以下的金字塔理论。总的来说,SRE运维是以用户体验为最终目标,在保证持续沟通的基础上以业务为导向,为企业数字化赋能。
注:图片来源于美国数字服务公司
因此,SRE工程师的工作重点可以总结为以下四点:
从根本上看,提升业务联系性可以通过两个方式:
建设的关键步骤可以分为以下几点:
关键一:构建运维管理基石—配置管理
标准化是后续自动化、数据化、智能化的基础。优先建设好CMDB,关注配置数据是为构建运维管理打下的坚实基石。而CMDB作为在CI、CD和CO领域共需的架构,以业务为导向,搭建一套可视、可信、可管、可用的配置管理体系。
关键二:建设可观测的监控能力—监控中心
在有效获取数据后,需要建设一个“抓得到、看得见、搞得定”的监控体系。将底层不同的设备对象进行全面覆盖,同时整合既有监控告警工具,实现一体化管理,向上以有效的方式进行展示和处理。
关键三:构建故障全生命周期管理提升业务连续性
在业务连续性管理场景下,企业可以围绕故障预防、故障处置、故障运营,建立数字化管理,实现运维服务闭环,提升全局故障治理能力。
关键四:个性化开发工具助力SRE平台设计
SRE运维的关键在于高度的工具化和自动化,同时工具需要满足企业灵活多变的业务需求场景和个性化的建设要求,所以需要构建一套门槛低、灵活性强的工具开发能力。
围绕业务连续性需求及关键点,嘉为蓝鲸基于腾讯蓝鲸智云平台构建了如下能力:
方案特点
若你对该分享的PPT感兴趣,可以私我。 希望对你们有所帮助
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞0
添加新评论0 条评论