云告警

有效运维的 on-call 机制

编者按]本文作者为陈伯龙,云告警平台[OneAlert创始人,著《云计算与OpenStack》,在IT运营管理、云计算方面从业10多年。正文互联网技术的发展,离不开运维支撑工作,没有零bug的程序,没有不出问题的系统,问题故障不可怕,可怕的是没能有序的处理:突发紧急事件太多,疲于应付,团队士气低下,效率不高。重要事情淹没在大量事件中,没有有序跟进处理,会引发严重业务影响。如

对抗告警疲劳的8种方法

【编者按】本文作者为 Chris Riley,主要介绍告警疲劳的产生原因与对抗告警疲劳的8种方法。文章系国内 ITOM 管理平台 OneAPM 编译呈现。各司其职、孤军作战非常不利于团队沟通,一旦发生重大事件,各个部门就很难掌握事件始末,这不仅降低了整个开发团队的沟通质量,而且对运维工作也造成了极大困扰,即告警疲劳。告警疲劳不仅会影响团队成员的工作情绪,而且会阻碍软件交付链