SRE,DevOps,PE的运维本质和价值都是为产品和业务服务
这些信息之间也会做一些联动,举个例子,比如某应用的接口访问慢了,到底是因为网络原因慢了,还是缓存慢了,还是DB慢了?要把这些信息做联动才能做更好的分析,如果做数据化运维就需要很多数据做分析.京东金融也做了分布式调用的跟踪,我们现在说的微服务,以前叫服务化,再往前是SOA,对应的都会涉及调用链的关系.一个请求下来可能后面有几十个、上百个应用,这时怎么发现是链条上的哪个请求变慢了?我们用的是自己开发的分布式调用跟踪系统,也可以使用日志监控,业务的解决方案,比如ELK、Splunk,日志易等.自己开发的系统能满足我们大规模高复杂度场景的需要,还能和我们的CMDB,统一告警中心等系统做深度的整合. 下面两个是业务指标,比如,支付系统会有支付可用率的指标监控,也有对应每个银行分类的可用率,全局业务的监控大盘,这些都是业务方向的监控需求,方便进行快速的分析决策.所以,对业务连续性要求高的系统大多会设置一个监控中心或是作战指挥室,有很多监控的大屏,做数据化的运维,用数据做决策、分析.数据化运维今后的发展空间是很大的. 智能运维采集大量的数据是基础,再发展的话,还会做事件汇总,打标签的数据积累.详细来讲,一方面做数据采集,一方面按事件分类.触发一次代码的变更上线,或者业务的机房间流量切换,或者一个网络的工单,都是不同的事件,什么样的事件导致了数据的波动,他们是有相关性的,要综合的分析找出根本问题. 再智能一点,像我们报警会做降级或者是升级,自动判断问题.报警问题对业务是否有影响?是不是重复报警?级别比较低,经常重复报又不需要人去处理的就降低级别.另外,智能预估和自动扩容,人工的规则向机器学习过渡,多打数据标签,做一些智能化的处理.智能运维是未来的方向,空间还是很大的. END总结从实践经验看,首先一定要明确公司团队的定位、发展方向,公司的使命、愿景和价值观是什么.让每个人都理解,才能产生比较好的团队作战能力,根据公司的情况去看组织结构,根据组织架构招到合适的人,设计系统、不断实践、持续迭代,分析、总结,长期规划.我们虽然做技术、管理,很多时候也要借鉴商业的模式,怎样更快速的做一个新的产业出来. 最后一点我说一下“带来变化”,不管在哪家公司,都应该尝试一些新的改变,而不是简单的做重复的事情.要有一些长远的规划,多做长期能带来更大影响的事情,多做推动个人,公司,社会进步的事情. 文章来自微信公众号:Charles杂谈 (编辑:济南站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |