统一监控报警平台的架构设计思路分享
嘉宾简介:
高俊峰(南非蚂蚁),Linux资深技术专家,畅销书籍《循序渐进Linux》、《高性能Linux服务器构建实战》作者,曾就职于新浪、万网,具有多年的自动化运维和管理经验,擅长Linux、集群应用、MySQL、Oracle等方面的系统管理、性能调优,规划设计,实战经验丰富。
目前关注于Hadoop数据平台以及和Hadoop相关的生态系统的运维、监控、部署、优化等技术。
前言
大家好,我是爱维Linux的南非蚂蚁,今天跟大家一起分享如何构建统一的运维监控平台。
谈到运维,监控应该是运维的重中之重。也有很多人说监控是运维的第三只眼睛,一个好的监控平台对运维工作来说,有很大的帮助。那么,如何构建一个完善的监控平台,就是我们今天要讨论的话题。
从我个人的理解来说,运维的核心工作其实是监控和故障处理这两个方面的内容。所以,首先要对业务系统有一个精确、完善的监控,这样能够保证在第一时间发现问题并通知相关人员解决。
其实出现问题了并不可怕,可怕的是我们很久都没有发现问题,而是被客户发现我们的业务系统出了故障,这就是个很严重的问题了。这些故障其实靠业务系统监控平台就可以完成。
统一监控报警平台设计思路
构建一个智能的运维监控平台,必须以运行监控和故障报警这两个方面为重点,将所有业务系统中所涉及的网络资源、硬件资源、软件资源、数据库资源等纳入统一的运维监控平台中。
并通过消除管理软件的差别,数据采集手段的差别,对各种不同的数据来源实现统一管理、统一规范、统一处理、统一展现、统一用户登录、统一权限控制,最终实现运维规范化、自动化、智能化的大运维管理。
智能运维监控平台六大层
智能的运维监控平台,设计架构从低到高可以分为6层,三大模块,请看下图: