直方圖類
直方圖是統(tǒng)計和概率中經(jīng)常使用的許多類型的圖形之一。直方圖通過使用垂直條提供定量數(shù)據(jù)的可視化顯示。條形的高度表示位于特定值范圍內的數(shù)據(jù)點的數(shù)量。這些范圍稱為類或箱。
課程數(shù)量
實際上沒有關于應該有多少課程的規(guī)則。關于課程的數(shù)量有幾件事需要考慮。如果只有一個類,那么所有的數(shù)據(jù)都將屬于這個類。我們的直方圖只是一個矩形,高度由我們數(shù)據(jù)集中的元素數(shù)量給出。這不會產生非常有用或有用的直方圖。
另一方面,我們可以有很多課程。這將導致大量的酒吧,其中沒有一個可能會非常高。通過使用這種類型的直方圖來確定與數(shù)據(jù)的任何區(qū)別特征將是非常困難的。
為了防范這兩個極端,我們有一個經(jīng)驗法則來確定直方圖的類數(shù)。當我們有一組相對較小的數(shù)據(jù)時,我們通常只使用大約五個類。如果數(shù)據(jù)集相對較大,那么我們使用大約20個類。
再次強調,這是一個經(jīng)驗法則,而不是**的統(tǒng)計原則。有充分的理由為數(shù)據(jù)設置不同數(shù)量的類。我們將在下面看到一個例子。
定義
在我們考慮幾個例子之前,我們將看到如何確定課程的實際內容。我們通過查找數(shù)據(jù)范圍開始此過程。換句話說,我們從**數(shù)據(jù)值中減去**數(shù)據(jù)值。
當數(shù)據(jù)集相對較小時,我們將范圍除以5。商是我們直方圖的類的寬度。在這個過程中,我們可能需要做一些四舍五入,這意味著課程總數(shù)可能不會達到五。
當數(shù)據(jù)集相對較大時,我們將范圍除以20。就像以前一樣,這個劃分問題給了我們直方圖的類的寬度。此外,正如我們之前看到的,我們的舍入可能會導致略多于或略少于20個班級。
在大數(shù)據(jù)集或小數(shù)據(jù)集的情況下,我們使第一類從略小于最小數(shù)據(jù)值的點開始。我們必須這樣做,使第一個數(shù)據(jù)值屬于第一類。其他后續(xù)類由我們劃分范圍時設置的寬度確定。我們知道,當我們的**數(shù)據(jù)值包含在這個類中時,我們處于**一個類。
示例
例如,我們將為數(shù)據(jù)集確定適當?shù)念悓挾群皖悾?.1,1.9,2.3,3.0,3.2,4.1,4.2,4.4,5.5,5.5,5.6,5.7,5.9,6.2,7.1,7.9,8.3,9.0,9.2,11.1,11.2,14.4,15.5,15.5,16.7,18.9,19.2。
我們看到我們的集合中有27個數(shù)據(jù)點。這是一個相對較小的集合,所以我們將范圍除以五。范圍是19.2-1.1=18.1。我們劃分18.1/5=3.62。這意味著課堂寬度為4是合適的。我們的最小數(shù)據(jù)值是1.1,所以我們從一個小于這個的點開始第一個類。由于我們的數(shù)據(jù)由正數(shù)組成,因此將第一類從0變?yōu)?是有意義的。
結果是:
- 0至4
- 4至8
- 8至12
- 12至16
- 16至20。
例外
可能有一些非常好的理由偏離上述一些建議。
例如,假設有一個多項選擇題測試,其中有35個問題,高中有1000名學生參加測試。我們希望形成一個直方圖,顯示在考試中獲得一定分數(shù)的學生人數(shù)。我們看到35/5=7和35/20=1.75。盡管我們的經(jīng)驗法則為我們提供了用于直方圖的寬度為2或7的類的選擇,但具有寬度為1的類可能更好。這些課程將對應于學生在測試中正確回答的每個問題。其中第一個將以0為中心,**一個將以35為中心。
這是另一個例子,表明我們在處理統(tǒng)計數(shù)據(jù)時總是需要考慮。
科普教育活動