如何在統(tǒng)計(jì)中確定異常值?
異常值是與一組數(shù)據(jù)中的大多數(shù)數(shù)據(jù)差別很大的數(shù)據(jù)值。這些值超出了數(shù)據(jù)中存在的總體趨勢(shì)。仔細(xì)檢查一組數(shù)據(jù)以尋找異常值會(huì)導(dǎo)致一些困難。雖然很容易看出,可能通過使用stemplot,某些值與其余數(shù)據(jù)不同,但必須將該值視為異常值有多大差異?我們將研究一個(gè)特定的測(cè)量,這將給我們一個(gè)客觀的標(biāo)準(zhǔn),什么構(gòu)成異常值。
Interquartile Range
四分位間距是我們可以用來(lái)確定極值是否確實(shí)是異常值的范圍。四分位間距基于數(shù)據(jù)集的五個(gè)數(shù)字摘要的一部分,即第一個(gè)四分位數(shù)和第三個(gè)四分位數(shù)。四分位間距的計(jì)算涉及單個(gè)算術(shù)運(yùn)算。我們要做的就是找到四分位間距,就是從第三四分位數(shù)中減去第一個(gè)四分位數(shù)。由此產(chǎn)生的差異告訴我們?nèi)绾畏稚⑽覀償?shù)據(jù)的中間部分。
14確定異常值15 16
將四分位間距(IQR)乘以1.5將為我們提供一種確定某個(gè)值是否為異常值的方法。如果我們從第一個(gè)四分位數(shù)中減去1.5 x IQR,則任何小于此數(shù)字的數(shù)據(jù)值都被視為異常值。同樣,如果我們將1.5 x IQR添加到第三四分位數(shù),則任何大于此數(shù)字的數(shù)據(jù)值都被視為異常值。科普背景
強(qiáng)異常值
一些異常值顯示出與數(shù)據(jù)集其余部分的極端偏差。在這些情況下,我們可以采取上述步驟,僅更改我們將IQR乘以的數(shù)字,并定義某種類型的異常值。如果我們從第一個(gè)四分位數(shù)中減去3.0 x IQR,則任何低于此數(shù)字的點(diǎn)都稱為強(qiáng)異常值。同樣,在第三四分位數(shù)上添加3.0 x IQR可以讓我們定義st通過查看大于此數(shù)字的點(diǎn)來(lái)顯示異常值。
弱異常值
除了強(qiáng)異常值外,還有另一類異常值。如果數(shù)據(jù)值是異常值,但不是強(qiáng)異常值,那么我們說該值是弱異常值。我們將通過探索一些例子來(lái)看待這些概念。
示例1
首先,假設(shè)我們有數(shù)據(jù)集{1,2,2,3,3,4,5,5,9}。數(shù)字9當(dāng)然看起來(lái)可能是一個(gè)異常值。它遠(yuǎn)遠(yuǎn)大于集合其余部分的任何其他值。為了客觀地確定9是否是異常值,我們使用上述方法。第一個(gè)四分位數(shù)是2,第三個(gè)四分位數(shù)是5,這意味著四分位數(shù)范圍是3。我們將四分位間距乘以1.5,得到4.5,然后將這個(gè)數(shù)字加到第三四分位數(shù)。結(jié)果9.5大于我們的任何數(shù)據(jù)值。因此沒有異常值。
示例2
現(xiàn)在,我們查看與以前相同的數(shù)據(jù)集,不同的是**值為10而不是9:{1、2、2、3、3、4、5、5、10}。第一個(gè)四分位數(shù),第三個(gè)四分位數(shù)和四分位間距與示例1相同。當(dāng)我們將1.5 x IQR=4.5添加到第三四分位數(shù)時(shí),總和為9.5。由于10大于9.5,因此被認(rèn)為是異常值。
10是強(qiáng)還是弱異常值?為此,我們需要看3 x IQR=9。當(dāng)我們?cè)诘谌姆治粩?shù)加9時(shí),我們最終得到14的總和。由于10不大于14,因此它不是一個(gè)強(qiáng)異常值。因此,我們得出結(jié)論,10是一個(gè)弱異常值。
識(shí)別異常值的原因
我們總是需要注意異常值。有時(shí)它們是由錯(cuò)誤引起的。其他時(shí)間異常值表示存在先前未知的現(xiàn)象。我們需要勤奮檢查異常值的另一個(gè)原因是因?yàn)樗械拿枋鲂越y(tǒng)計(jì)數(shù)據(jù)都很敏感異常值。配對(duì)數(shù)據(jù)的均值,標(biāo)準(zhǔn)差和相關(guān)系數(shù)只是這些類型統(tǒng)計(jì)數(shù)據(jù)中的一小部分。