您現在的位置是:首頁 > 運動

資料分析、資料探勘基礎:描述統計學基礎知識分享

由 人工智慧產業鏈聯盟 發表于 運動2021-10-11
簡介1分位數分位數(英語:Quantile),亦稱分位點,是指用分割點(cut point)將一個隨機變數的機率分佈範圍分為幾個具有相同機率的連續區間

什麼是十分位百分位千分位

資料分析、資料探勘基礎:描述統計學基礎知識分享

Mr-chen | 作者

部落格園 | 來源

https://www。cnblogs。com/chentianwei/p/12488891。html

描述統計學是資料探勘的基礎。

資料分析、資料探勘基礎:描述統計學基礎知識分享

1

分位數

分位數(英語:Quantile),亦稱分位點,是指用分割點(cut point)將一個隨機變數的機率分佈範圍分為幾個具有相同機率的連續區間。

分割點的數量比劃分出的區間少1。

例如:3個分割點能分出4個區間。

常用的有中位數(二分位數)、四分位數(quartile)、十分位數(decile)、百分位數等。

q-quantile是指將有限值集分為q個接近相同尺寸的子集。

分位數指的就是連續分佈函式中的一個點,這個點對應機率p。

四分位數(英語:Quartile)是統計學中分位數的一種,即把所有數值由小到大排列,然後按照總數量分成四等份,即每份中的數值的數量相同,處於三個分割點位置的數值就是四分位數。

這3個數叫做:

第一四分位數:又稱較小四分位數,等於該樣本中所有數值由小到大排列後第25%的數字。

第二四分位數:又稱中位數,等於該樣本中所有數值由小到大排列後第50%的數字。

第三四分位數:又稱較大四分位數,等於該樣本中所有數值由小到大排列後第75%的數字。

pandas。DataFrame。quantile()和numpy。percentile()計算結果一樣。

pandas中有describe方法顯示四分位數。

例子:

>>> ps = pd。DataFrame([1,2,3,4,5,6,7,8,9,10,11,12])

>>> ps。describe()

0

count 12。000000

mean 6。500000

std 3。605551

min 1。000000

25% 3。750000 #分割點

50% 6。500000

75% 9。250000

max 12。000000

>>> ps。quantile(0。25)

0 3。75

>>> ps。quantile(0。5)

0 6。5

>>> np。percentile(ps, 50)

6。5

分析方法中的二八法則,結合分位數來使用。

2

標準差&方差

描述資料離散程度。資料的波動性。

方差:統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。

標準差:對方差開跟號。因為方差會消除資料的單位。(元,缺少了業務的含義,所以引入標準差。)

例子:

a=[10,10,10,11,12,12,12]

b=[3,5,7,11,15,17,19]

a和b的中位數和平均數都11,但他們的方差不一樣,a的方差

a資料集的離散程度小於b資料集。

均值+/-標準差,這個範圍的資料佔了整個資料集的大部分,可以說數值大部分在這個範圍內波動。

闡述:資料集的平均值是m, 大部分在m+/-方差的範圍內波動。

例子:

#還是上面的資料

>>> ps。std()

0 3。605551

3

權重統計:資料標準化之Z-Score標準化

Z-Score標準化是標準化的一種。可以發現數據中的趨勢。

(樣本i-均值)/標準差=資料標準化

它們可以透過現有樣本進行估計。在已有樣本足夠多的情況下比較穩定,適合現代嘈雜大資料場景。

#附加,mac-numbers使用公式的方法:

1。單元格按=號,右側彈出函式列,選擇函式,然後選擇需要計算的單元格。

2。完成計算後,這個公式可以複製ctr+c, 然後選擇整列,再ctr+v,應用到整列

- 或者點選單元格,方框正下方有個小黃點,可以下拉。

4

切比雪夫定理

19世紀俄國數學家切比雪夫研究統計規律中,論證並用標準差表達了一個不等式,這個不等式具有普遍的意義,被稱作切比雪夫定理,其大意是:

任意一個數據集中,位於其平均數m個標準差範圍內的比例(或部分)總是至少為1-1/m2,其中m為大於1的任意正數。

對於m=2,m=3和m=5有如下結果:

所有資料中,至少有3/4(或75%)的資料位於平均數2個標準差範圍內。

所有資料中,至少有8/9(或88。9%)的資料位於平均數3個標準差範圍內。

所有資料中,至少有24/25(或96%)的資料位於平均數5個標準差範圍內 。

即隨機資料集合,只有知道平均數和標準差,就知道這個資料集合的大概分佈。

例子:某大學100個學生平均成績70分,標準差5分,問有多少學生的成績在60·80分?

答:

60-70=-10

80-70= 10

60/80位於2個標準差。

1-1/22 =3/4=75%。

所以60~80分的學生至少佔75%

5

描述統計的視覺化

1。box箱線圖

用4分位數來表示資料的範圍分佈。

箱體表示佔一半數量的數值

下四分位數到下邊界,表示1/4數量的數值 (較小數)

上四分位數到上邊界,表示1/4數量的資料 (較大數)

資料分析、資料探勘基礎:描述統計學基礎知識分享

資料分析、資料探勘基礎:描述統計學基礎知識分享

注意: 上面50%的價格分佈在較小的區域

2。直方圖 histogram

x軸的資料,每個範圍/值都是唯一的。

在統計學中,直方圖是一種對資料分佈情況的圖形表示,是一種二維統計圖表,它的兩個座標分別是統計樣本和該樣本對應的某個屬性的度量,以長條圖的形式具體表現。

因為直方圖的長度及寬度很適合用來表現數量上的變化,所以較容易解讀差異小的數值。

資料分析、資料探勘基礎:描述統計學基礎知識分享

總共有資料1000個,使用引數bins=50, x軸的資料被等分成50份。

資料分析、資料探勘基礎:描述統計學基礎知識分享

資料分析、資料探勘基礎:描述統計學基礎知識分享

資料分析、資料探勘基礎:描述統計學基礎知識分享

6

機率

1。交集和並集

資料分析、資料探勘基礎:描述統計學基礎知識分享

解釋:A並B,有一部分是重合的,重合部分就是交集。計算A並B時,多了一塊交集,所以需要減去多出的一塊交集。

資料分析、資料探勘基礎:描述統計學基礎知識分享

解釋:用公式和符號表示: 在B已經發生的情況下,A發生的機率。圓A和B相交的面積/圓B的面積=在B已經發生的情況下,A發生的機率。

7

貝葉斯定理

例1:如果某種疾病的發病率為千分之一。現在有一種試紙,它在患者得病的情況下,有99%的準確率判斷患者得病,在患者沒有得病的情況下,有5%的可能誤判患者得病。現在試紙說一個患者得了病,那麼患者真的得病的機率是多少?

可以用分析圖來分析:

資料分析、資料探勘基礎:描述統計學基礎知識分享

所以用試紙查出患者佔總樣本人數的比例為:(4995+99)/100000=5。094 %

但實際上這部分查出有病的人中(5094人),有4995人是誤診的。所以查出的這部分人中只有1。943%是真生病的人。

先驗機率(歷史經驗):

P(A1)表示生病人群的機率:0。1%

P(A2)表示健康人群的機率:99。9%

新資訊:

事件B表示用試紙檢測,並判斷生病。

P(B|A1):是真實患者的條件下,試紙查出來是患者的機率:99%

P(B|A2): 是健康人群條件下, 試紙誤判是患者的機率:5%

應用貝葉斯定理:

資料分析、資料探勘基礎:描述統計學基礎知識分享

求得後驗機率:

P(A1|B) 即用試紙檢查出是患者的條件下,是真實患者的機率。1。943%

例2:一輛計程車在夜晚肇事之後逃逸,一位目擊證人辨認出肇事車輛是藍色的。已知這座城市 85% 的計程車是綠色的,15% 是藍色的。警察經過測試,認為目擊者在當時可以正確辨認出這兩種顏色的機率是 80%, 辨別錯誤的機率是 20%。 請問,肇事出租車是藍色的機率是多少?

注意,如果腦子亂,沒有思路:

紙上畫圖(xmind思維導圖)

假設一個真實的樣本資料。

資料分析、資料探勘基礎:描述統計學基礎知識分享

薦:【中國風動漫】除了《哪吒》,這些良心國產動畫也應該被更多人知道!【中國風動漫】《霧山五行》大火,卻很少人知道它的前身《歲城璃心》一個拿著十米大刀的男主夭折!宣告來源:部落格園,人工智慧產業鏈聯盟推薦閱讀,不代表人工智慧產業鏈聯盟立場,轉載請註明,如涉及作品版權問題,請聯絡我們刪除或做相關處理!

推薦文章