您現在的位置是:首頁 > 農業

R語言資料特徵分析——統計量分析

由 懂碼雜記 發表于 農業2021-07-01
簡介為了小數少數極端值的影響,可以使用截斷均值或者中位數來度量資料的集中趨勢

為什麼要計算離散係數

R語言資料特徵分析——統計量分析

用統計指標對定量資料進行統計描述,常從集中趨勢和離散趨勢兩個方面進行分析。

平均水平的指標是對個體集中趨勢的度量,使用最廣泛的是均值和中位數;反映變異程度的指標則是對個體離開平均水平的度量,使用較廣泛的是標準差(方差)、四分位數間距。

集中趨勢度量

(1)

均值

均值是所有資料的平均值。如果求n個原始觀察資料的平均數,計算公式為:

R語言資料特徵分析——統計量分析

有時,為了反映在均值中不同成分所佔的不同重要程度,為資料集中的每一個Xi賦予Wi,這就得到了加權均值的計算公式:

R語言資料特徵分析——統計量分析

作為一個統計量,均值的主要問題是對極端值很敏感。如果資料中存在極端值或者資料時偏態分佈的,那麼均值就不能很好地度量資料的集中趨勢。為了小數少數極端值的影響,可以使用截斷均值或者中位數來度量資料的集中趨勢。階段均值是去掉高、低極端值之後的平均數。

(2)

中位數

中位數是將一組觀察值從小到大按順序排列,位於中間的那個資料。即在全部資料中,小於和大於中位數的資料個數相等。

將某一資料集X:{X1,X2,。。。,Xn}從小到大排序:{X(1),X(2),。。。,X(n)}。

當n為奇數時

R語言資料特徵分析——統計量分析

當n為偶數時

R語言資料特徵分析——統計量分析

(3)

眾數

眾數是指資料集中出現最頻繁的值。眾數並不經常用來度量定性變數的中心位置,更適用於定性變數。眾數不具有唯一性。

離散趨勢度量

(1)

極差

極差=最大值-最小值。極差對資料集的極端值非常敏感,並且忽略了位於最大值與最小值之間的資料是如何分佈的。

(2)

標準差

標準差度量資料偏離均值的程度,計算公式為:

R語言資料特徵分析——統計量分析

(3)

變異係數

變異係數度量標準差相對於均值的離散趨勢,計算公式為:

R語言資料特徵分析——統計量分析

變異係數主要用來比較兩個或多個具有不同單位或不同波動幅度的資料集的離散趨勢。

(4)

四分位數間距

四分位數包括上四分位數和下四分位數。將所有數值由小到大排列並分成四等份,處於第一個分割點位置的數值是下四分位數,處於第二個分割點位置(中間位置)的數值是中位數,處於第三個分割點位置的數值是上四分位數。

四分位數間距是上四分位數QU與下四分位數QL之差,其間包含了全部觀察值的一半。其值越大,說明資料的變異程度越大,反之說明變異程度越小。

下面以餐飲銷量資料進行統計量分析,演示程式碼如下:

> # 讀入資料

> saledata <- read。table(file = “。。/data/catering_sale。csv”, sep=“,”, header = TRUE)

> sales <- saledata[, 2]

>

> # 統計量分析

> # 均值

> mean_ <- mean(sales, na。rm = T)

> # 中位數

> median_ <- median(sales, na。rm = T)

> # 極差

> range_ <- max(sales, na。rm = T) - min(sales, na。rm = T)

> # 標準差

> std_ <- sqrt(var(sales, na。rm = T))

> # 變異係數

> variation_ <- std_ / mean_

> # 四分位數間距

> q1 <- quantile(sales, 0。25, na。rm = T)

> q3 <- quantile(sales, 0。75, na。rm = T)

> distance <- q3 - q1

> a <- matrix(c(mean_, median_, range_, std_, variation_, q1, q3, distance),

+ 1, byrow = T)

> colnames(a) <- c(“均值”, “中位數”, “極差”, “標準差”, “變異係數”,

+ “1/4分位數”, “3/4分位數”, “四分位間距”)

> print(a)

均值 中位數 極差 標準差 變異係數 1/4分位數 3/4分位數 四分位間距

[1,] 2755。215 2655。85 9084。44 751。0298 0。2725848 2451。975 3026。125 574。15

透過上面程式碼的執行結果,我們已經得到了餐飲銷量數的統計量情況。

相關閱讀:

R語言資料質量分析

每天一點統計學——資料集中趨勢的量度

每天一點統計學——資料分散性的量度

每天一點統計學——資料變異性的量度

推薦文章