Git Product home page Git Product logo

aiops's Introduction

AIOps

有关AIOps场景汇总及相关算法介绍

第一次讨论 主题:异常检测

时间

2020.12.28~2021.1.10

背景

异常检测是监控系统中一项基础且重要功能,其旨在自动地发现时间序列数据中的异常波动,作为后续的告警、自动止损、根因分析等重要前置条件。在实际场景下,传统的依靠固定阈值、同环比等发现异常点,会由于数据的变动等导致检测结果不准确;基于算法的异常检测,由于异常点数据稀少,异常类型多样以及KPI类型多样,也会给算法设计造成一定难度。讨论的点是:

  1. 大家的异常检测,主要用在哪一些场景,例如:kpi类的业务指标、系统cpu until等;
  2. 目前的异常检测有哪一些痛点,比如:误报率高、监控数据缺失等;
  3. 对于误报、准确率容忍度

模版

  • 介绍领域的背景。金融银行领域、电商领域等;
  • 目前异常检测使用情况;
  • 目前异常检测所遇到的一些痛点。

第一阶段 场景收集

时间:2020.12.28~2021.1.4

形式:按照模版收集、合并大家的问题,在2021.1.4日将所有问题总结汇总到这里。

问题概括

  • 采用predict+n*sigma的方式构造上界做异常检测,其中predict是用指数平滑计算出来的预测值,sigma用的是历史数据的方差。但是数据周期性较差,波动较大,导致历史数据计算出来的方差较大,是否有更好的计算上界的方式,不受波动较大的历史数据影响?
  • 业务数据订单数量会受各种营销活动的影响,导致异常检测漏报或者误报;业务数据订单数量小的时候,异常检测效果较差
  • 目前一般来说,异常检测后,如果出现异常会出告警;业务收到告警可能会打标。一般来说,到业务打标以后异常检测就成为闭环。但是实际来看,仅仅01的打标对模型提升的效果相对有限,在共同提升模型性能的闭环设计层面,大家有没有较好的体感或者建议呢?

第二阶段 问题讨论

时间:2021.1.4~2021.1.10

形式:针对收集的痛点,大家集思广益,在跨领域、跨岗位的讨论中是否能碰撞一些火花。最终在2021.1.10将问题与对应解决思路整理成文字。

问题思路解析

  • Q:采用predict+n*sigma的方式构造上界做异常检测,其中predict是用指数平滑计算出来的预测值,sigma用的是历史数据的方差。但是数据周期性较差,波动较大,导致历史数据计算出来的方差较大,是否有更好的计算上界的方式,不受波动较大的历史数据影响?

    • A:可以考虑采用平均绝对偏差(Mean Absolute Deviation 或 Average Absolute Deviation)来替代方差。平均绝对偏差是表示各个变量值之间差异程度的数值之一。指各个变量值同平均数的的离差绝对值的算术平均数。对于这种存在毛刺点,波动较大的历史数据,计算出来的平均绝对偏差相比于方差更稳定。
  • Q:业务数据订单数量会受各种营销活动的影响,导致异常检测漏报或者误报;业务数据订单数量小的时候,异常检测效果较差

    • A:对于营销活动导致的订单突增统计方法是经常会误报问题,如果用智能算法的话,可以考虑把营销活动作为外部特征加到模型中一起训练,但这个特征需要业务准确的提前提供出来。
  • Q:目前一般来说,异常检测后,如果出现异常会出告警;业务收到告警可能会打标。一般来说,到业务打标以后异常检测就成为闭环。但是实际来看,仅仅01的打标对模型提升的效果相对有限,在共同提升模型性能的闭环设计层面,大家有没有较好的体感或者建议呢?

    • A:用户对异常检测结果打标以后,另外还需要区分以下二种情况:1.因为数据模式变化而导致的异常检测模型不准;2.异常检测模型自身的问题。用户在打标过程中是无法感知以上二种问题的区别,意味着需要靠系统设计自动区分。针对数据模式发生变化,可以构建数据监控体系,对数据的统计特征进行监控;针对异常检测模型本身,可以多结合业务进行测试,确保模型符合业务场景再投入使用。

第二次讨论 主题:告警压缩

时间

2021.1.18~2021.1.29

背景

为何要压缩告警?

运维监控工具/平台,一般是通过配置固定阈值,达到阈值后自动触发/生成告警。如网络中断、闪断;系统升级更新;设备多监控内容多等情况下,更会产生海量告警。以下为告警管理常见问题:

  • 故障期间,告警风暴,手机/邮箱会被海量告警淹没;

  • 运维人员很难从海量告警从筛选出重要告警,容易忽略重要告警;

  • 固定阈值控制,频繁误报、漏报告警;

模版

  • 介绍领域的背景。例如:金融银行领域、电商领域等;
  • 目前告警压缩使用情况;
  • 目前告警压缩所遇到的一些痛点。

第一阶段 场景收集

时间:2021.1.18~2021.1.22

形式:按照模版收集、合并大家的问题,在2021.1.22日将所有问题总结汇总到这里。

问题概括

第二阶段 问题讨论

时间:2021.1.25~2021.1.29

形式:针对收集的痛点,大家集思广益,在跨领域、跨岗位的讨论中是否能碰撞一些火花。最终在2021.1.29将问题与对应解决思路整理成文字。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.