您現在的位置是：首頁 > 運動

資料分析、資料探勘基礎：描述統計學基礎知識分享

由人工智慧產業鏈聯盟發表于運動2021-10-11

位數標準差資料樣本四分

簡介1分位數分位數（英語：Quantile），亦稱分位點，是指用分割點（cut point）將一個隨機變數的機率分佈範圍分為幾個具有相同機率的連續區間

什麼是十分位百分位千分位

Mr-chen | 作者

部落格園 | 來源

https：//www。cnblogs。com/chentianwei/p/12488891。html

描述統計學是資料探勘的基礎。

分位數

分位數（英語：Quantile），亦稱分位點，是指用分割點（cut point）將一個隨機變數的機率分佈範圍分為幾個具有相同機率的連續區間。

分割點的數量比劃分出的區間少1。

例如：3個分割點能分出4個區間。

常用的有中位數（二分位數）、四分位數（quartile）、十分位數（decile）、百分位數等。

q-quantile是指將有限值集分為q個接近相同尺寸的子集。

分位數指的就是連續分佈函式中的一個點，這個點對應機率p。

四分位數（英語：Quartile）是統計學中分位數的一種，即把所有數值由小到大排列，然後按照總數量分成四等份，即每份中的數值的數量相同，處於三個分割點位置的數值就是四分位數。

這3個數叫做：

第一四分位數：又稱較小四分位數，等於該樣本中所有數值由小到大排列後第25%的數字。

第二四分位數：又稱中位數，等於該樣本中所有數值由小到大排列後第50%的數字。

第三四分位數：又稱較大四分位數，等於該樣本中所有數值由小到大排列後第75%的數字。

pandas。DataFrame。quantile（）和numpy。percentile（）計算結果一樣。

pandas中有describe方法顯示四分位數。

例子：

>>> ps = pd。DataFrame（［1，2，3，4，5，6，7，8，9，10，11，12］）

>>> ps。describe（）

count 12。000000

mean 6。500000

std 3。605551

min 1。000000

25% 3。750000 #分割點

50% 6。500000

75% 9。250000

max 12。000000

>>> ps。quantile（0。25）

0 3。75

>>> ps。quantile（0。5）

0 6。5

>>> np。percentile（ps， 50）

6。5

分析方法中的二八法則，結合分位數來使用。

標準差&方差

描述資料離散程度。資料的波動性。

方差：統計中的方差（樣本方差）是每個樣本值與全體樣本值的平均數之差的平方值的平均數。

標準差：對方差開跟號。因為方差會消除資料的單位。（元，缺少了業務的含義，所以引入標準差。）

例子：

a=［10，10，10，11，12，12，12］

b=［3，5，7，11，15，17，19］

a和b的中位數和平均數都11，但他們的方差不一樣，a的方差

a資料集的離散程度小於b資料集。

均值+/-標準差，這個範圍的資料佔了整個資料集的大部分，可以說數值大部分在這個範圍內波動。

闡述：資料集的平均值是m，大部分在m+/-方差的範圍內波動。

例子：

#還是上面的資料

>>> ps。std（）

0 3。605551

權重統計：資料標準化之Z-Score標準化

Z-Score標準化是標準化的一種。可以發現數據中的趨勢。

（樣本i-均值）/標準差=資料標準化

它們可以透過現有樣本進行估計。在已有樣本足夠多的情況下比較穩定，適合現代嘈雜大資料場景。

#附加，mac-numbers使用公式的方法：

1。單元格按=號，右側彈出函式列，選擇函式，然後選擇需要計算的單元格。

2。完成計算後，這個公式可以複製ctr+c，然後選擇整列，再ctr+v，應用到整列

- 或者點選單元格，方框正下方有個小黃點，可以下拉。

切比雪夫定理

19世紀俄國數學家切比雪夫研究統計規律中，論證並用標準差表達了一個不等式，這個不等式具有普遍的意義，被稱作切比雪夫定理，其大意是：

任意一個數據集中，位於其平均數m個標準差範圍內的比例（或部分）總是至少為1－1/m2，其中m為大於1的任意正數。

對於m=2，m=3和m=5有如下結果：

所有資料中，至少有3/4（或75%）的資料位於平均數2個標準差範圍內。

所有資料中，至少有8/9（或88。9%）的資料位於平均數3個標準差範圍內。

所有資料中，至少有24/25（或96%）的資料位於平均數5個標準差範圍內。

即隨機資料集合，只有知道平均數和標準差，就知道這個資料集合的大概分佈。

例子：某大學100個學生平均成績70分，標準差5分，問有多少學生的成績在60·80分？

答：

60-70=-10

80-70= 10

60/80位於2個標準差。

1-1/22 =3/4=75%。

所以60～80分的學生至少佔75%

描述統計的視覺化

1。box箱線圖

用4分位數來表示資料的範圍分佈。

箱體表示佔一半數量的數值

下四分位數到下邊界，表示1/4數量的數值（較小數）

上四分位數到上邊界，表示1/4數量的資料（較大數）

注意：上面50%的價格分佈在較小的區域

2。直方圖 histogram

x軸的資料，每個範圍/值都是唯一的。

在統計學中，直方圖是一種對資料分佈情況的圖形表示，是一種二維統計圖表，它的兩個座標分別是統計樣本和該樣本對應的某個屬性的度量，以長條圖的形式具體表現。

因為直方圖的長度及寬度很適合用來表現數量上的變化，所以較容易解讀差異小的數值。

總共有資料1000個，使用引數bins=50， x軸的資料被等分成50份。

機率

1。交集和並集

解釋：A並B，有一部分是重合的，重合部分就是交集。計算A並B時，多了一塊交集，所以需要減去多出的一塊交集。

解釋：用公式和符號表示：在B已經發生的情況下，A發生的機率。圓A和B相交的面積/圓B的面積=在B已經發生的情況下，A發生的機率。

貝葉斯定理

例1：如果某種疾病的發病率為千分之一。現在有一種試紙，它在患者得病的情況下，有99%的準確率判斷患者得病，在患者沒有得病的情況下，有5%的可能誤判患者得病。現在試紙說一個患者得了病，那麼患者真的得病的機率是多少？

可以用分析圖來分析：

所以用試紙查出患者佔總樣本人數的比例為：（4995+99）/100000=5。094 %

但實際上這部分查出有病的人中（5094人），有4995人是誤診的。所以查出的這部分人中只有1。943%是真生病的人。

先驗機率（歷史經驗）：

P（A1）表示生病人群的機率：0。1%

P（A2）表示健康人群的機率：99。9%

新資訊：

事件B表示用試紙檢測，並判斷生病。

P（B|A1）：是真實患者的條件下，試紙查出來是患者的機率：99%

P（B|A2）：是健康人群條件下，試紙誤判是患者的機率：5%

應用貝葉斯定理：

求得後驗機率：

P（A1|B）即用試紙檢查出是患者的條件下，是真實患者的機率。1。943%

例2：一輛計程車在夜晚肇事之後逃逸，一位目擊證人辨認出肇事車輛是藍色的。已知這座城市 85% 的計程車是綠色的，15% 是藍色的。警察經過測試，認為目擊者在當時可以正確辨認出這兩種顏色的機率是 80%，辨別錯誤的機率是 20%。請問，肇事出租車是藍色的機率是多少？

注意，如果腦子亂，沒有思路：

紙上畫圖（xmind思維導圖）

假設一個真實的樣本資料。

薦：【中國風動漫】除了《哪吒》，這些良心國產動畫也應該被更多人知道！【中國風動漫】《霧山五行》大火，卻很少人知道它的前身《歲城璃心》一個拿著十米大刀的男主夭折！宣告來源：部落格園，人工智慧產業鏈聯盟推薦閱讀，不代表人工智慧產業鏈聯盟立場，轉載請註明，如涉及作品版權問題，請聯絡我們刪除或做相關處理！

上一篇：鱸魚怎麼做才好吃大廚教你“清蒸鱸魚”，原汁原味，鮮香嫩滑！

下一篇：為何關公的雕像總是閉著眼睛？老木匠：睜開眼的代價太大！

您現在的位置是：首頁 > 運動

資料分析、資料探勘基礎：描述統計學基礎知識分享

相關文章

推薦文章