狄克逊检验法是一种用于检测异常值的统计方法,它是一种非参数的方法,可以有效地寻找数据集中不正常的观测值。该方法由美国统计学家布鲁斯·E·狄克逊(Bruce E. Dixon)于1950年提出,并逐渐成为检验异常值的常用方法之一。
该方法的流程如下:对于一个包含n个观测值的数据集,首先将它们按照大小顺序排列。然后,分别计算首个和末个观测值与其他所有观测值的距离,并将它们与所有其他距离进行比较。如果某个观测值的距离明显大于其他所有距离,则可以认为这个观测值是异常值。x1为最小可疑值,xn为最大可疑值,然后按照下列相应公式计算统计量r:
如果统计量r大于临界值,则判为异常,可以剔除。重复检测,知道不再检出其他异常值为止。
通过比较这些距离,可以找出多个异常值。
除了狄克逊检验法,目前还有一些其他的方法,例如箱线图和Grubbs检验等,也可以用于检测异常值。选择何种方法需要根据具体的数据情况进行决策。
关注我给大家分享更多有趣的知识,以下是个人公众号,提供 ||代码兼职|| ||代码问题求解||
由于本号流量还不足以发表推广,搜我的公众号即可: