拉依达准则(拉以达准则算法)-周公解梦-零零导航工具

您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识

拉依达准则(拉以达准则算法)

异常,数据,临界值拉依达准则(拉以达准则算法)

发布时间：2016-12-08加入收藏来源：互联网点击：

很多朋友想了解关于拉依达准则的一些资料信息，下面是小编整理的与拉依达准则相关的内容分享给大家，一起来看看吧。

近期，工作需要试了很多异常检测的方法，统计学和算法相关的都有，所以来总结一下。

在本篇文章主要从原理、python实现、局限的方式讲述以下几种统计学的异常检测的方法：

1、3Sigma

2、Numeric Outlier

3、格拉布斯准则（Grubbs算法）

4、多维度异常检测：马氏距离

原理：

3Sigma又称为拉依达准则，这种判别处理原理及方法仅局限于对正态或近似正态分布的

样本数据处理，原则：

数值分布在（μ-σ,μ+σ)中的概率为0.6827

数值分布在（μ-2σ,μ+2σ)中的概率为0.9545

数值分布在（μ-3σ,μ+3σ)中的概率为0.9973

所以，数据在（μ-3σ,μ+3σ)的概率低于0.01，我们可以称这些数据为异常值。

Python实现：

1、依据历史数据计算出正常区间（μ-3σ,μ+3σ)

2、判断目标数据是否有异常值

局限：

1、要保证历史数据异常点较少（均值容易被异常点拉偏）

2、只能检测单维数据

3、需假定数据服从正态分布或近正态分布

原理：

这种方法有另外一个耳熟能详的名字：箱线图法。箱线图法计算原理：

1、计算第一四分位数（Q1）及第三四分位数（Q3）

2、计算IQR （IQR = Q3 - Q1）

3、输出正常区间[Q1-1.5IQR，Q3+1.5IQR]

Python实现：

局限：

1、只能检测单维数据

Python实现：

吐槽：刚开始想自己实现，看步骤也不算复杂，但看到需要查格拉布斯表就慌了，因为网上找到最大n值是100，意思是那这个方法最多只能测100的数据量，这也太少了吧...后来往下找，既然找到有大神已经实现了（https://github.com/c-data/outlier-utils），那我就不重复造轮子了。

局限：

1、只能检测单维度数据

2、无法像以上两种方法精确的输出正常区间

3、它的判断机制是“逐一剔除”，所以每个异常值都要单独计算整个步骤，数据量大吃不消。

4、需假定数据服从正态分布或近正态分布

原理：多维度利用统计学的方法做异常检测其中一个核心思想：计算每个点与中心点的距离，距离较远的可判断为异常点。计算距离的公式有很多，我们这里采用马氏距离。马氏距离的计算方式及与其他距离的差别因不是本文重点，这里就不描述了，感兴趣的可以看这篇：https://zhuanlan.zhihu.com/p/46626607

Python实现：

局限：1、需要自己设定异常个数。

2、不能精确输出正常区间

3、各维度均应符合正态分布

4、不能处理非线流形上的问题

1、几种方法都有各自的优缺点，可以跟进自身业务去选择。以我自身的业务为例，需要我输出正常范围，所以在统计学的方法的选择上，我选了前两种方法。

2、统计学的方法局限不少，而且在一些存在时序周期的数据上表现非常差，这块将在下篇的“建模-异常检测”篇尝试解决。

感谢阅读！

一个记录会计到数据、算法路上所学的微信公众号：Dathon数据分析

本文到此结束，希望对大家有所帮助呢。

上一篇：中国外债总额168万亿(2020中国外债总额300万亿)

下一篇：返回列表

异常数据临界值

相关链接
越南和中国2020年关系现状如何？经贸数据揭晓答案 2020-12-06 世界最新疫情统计数据目前现有确诊人数多少 2020-12-06 缅甸和我国关系怎么样揭中缅两国贸易相关数据 2020-12-06 美国流感2020死亡数据最新统计总共死了多少人？ 2020-12-06 西南大学一学生核检结果异常官方是怎么回应的呢？ 2020-12-06 广信贷官网登陆入口（最新广信贷数据资料） 2020-12-06 一线城市二手房价格下跌附最新数据报告！ 2020-12-06 数据清理(数据清理的目的) 2020-12-06 数据收集整理(数据收集整理教材分析) 2020-12-06 金融大数据(金融大数据工具) 2020-12-06

网友回复（共有 0 条回复）

李镇西	窦桂梅	魏书生	高考作文	中考作文	励志故事	鬼故事
民间故事	神话故事	历史故事	诗歌大全	经典散文	人教版:部编本:一年级语文
人教版:部编本:二年级语文		人教版:部编本:三年级语文		人教版课标本第一册:一年级语文上册

您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识

相关链接