加入收藏 | 设为首页 | 会员中心 | 我要投稿 甘孜站长网 (https://www.0836zz.com.cn/)- 运维、物联设备、数据计算、智能推荐、云管理!
当前位置: 首页 > 大数据 > 正文

每个数据科学家都需要的3种方便的异常检测算法

发布时间:2021-06-04 14:34:03 所属栏目:大数据 来源:互联网
导读:我确定您遇到以下几种情况: 您的模型表现不理想。 您不禁会注意到有些地方似乎与其他地方有很大的不同。 恭喜,因为您的数据中可能包含异常值! 什么是离群值? 每个数据科学家都需要的3种简单的异常检测算法 Photo can be found in StackExchange 在统计中,
我确定您遇到以下几种情况:
您的模型表现不理想。
您不禁会注意到有些地方似乎与其他地方有很大的不同。
恭喜,因为您的数据中可能包含异常值!
什么是离群值?
每个数据科学家都需要的3种简单的异常检测算法
> Photo can be found in StackExchange
在统计中,离群点是与其他观察值有显着差异的数据点。 从上图可以清楚地看到,尽管大多数点都位于线性超平面内或周围,但可以看到单个点与其余超散点不同。 这是一个离群值。
例如,查看下面的列表:
[1,35,20,32,40,46,45,4500] 
在这里,很容易看出1和4500在数据集中是异常值。
为什么我的数据中有异常值?
通常,异常可能发生在以下情况之一:
有时可能由于测量错误而偶然发生。
有时它们可能会出现在数据中,因为在没有异常值的情况下,数据很少是100%干净的。
为什么离群值有问题?
原因如下:
线性模型
假设您有一些数据,并且想使用线性回归从中预测房价。 可能的假设如下所示:
每个数据科学家都需要的3种简单的异常检测算法
> Source: http> Photo By Authors://arxiv.org/pdf/1811.06965.pdf
在这种情况下,我们实际上将数据拟合得太好(过度拟合)。 但是,请注意所有点的位置大致在同一范围内。
现在,让我们看看添加异常值时会发生什么。
每个数据科学家都需要的3种简单的异常检测算法
> Photo By Author
显然,我们看到了假设的变化,因此,如果没有异常值,推断将变得更加糟糕。 线性模型包括:
感知器
线性+ Logistic回归
神经网络
知识网络
数据插补
常见的情况是缺少数据,可以采用以下两种方法之一:
删除缺少行的实例
使用统计方法估算数据
如果我们选择第二种方法,我们可能会得出有问题的推论,因为离群值会极大地改变统计方法的值。 例如,回到没有异常值的虚构数据:
# Data with no outliers  
np.array([35,20,32,40,46,45]).mean() = 36.333333333333336  
# Data with 2 outliers  
np.array([1,35,20,32,40,46,45,4500]).mean() = 589.875 
显然,这种类比是极端的,但是想法仍然相同。 我们数据中的异常值通常是一个问题,因为异常值会在统计分析和建模中引起严重的问题。 但是,在本文中,我们将探讨几种检测和打击它们的方法。

(编辑:甘孜站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读