您現在的位置是:首頁 > 運動
資料分析、資料探勘基礎:描述統計學基礎知識分享
什麼是十分位百分位千分位
Mr-chen | 作者
部落格園 | 來源
https://www。cnblogs。com/chentianwei/p/12488891。html
描述統計學是資料探勘的基礎。
1
分位數
分位數(英語:Quantile),亦稱分位點,是指用分割點(cut point)將一個隨機變數的機率分佈範圍分為幾個具有相同機率的連續區間。
分割點的數量比劃分出的區間少1。
例如:3個分割點能分出4個區間。
常用的有中位數(二分位數)、四分位數(quartile)、十分位數(decile)、百分位數等。
q-quantile是指將有限值集分為q個接近相同尺寸的子集。
分位數指的就是連續分佈函式中的一個點,這個點對應機率p。
四分位數(英語:Quartile)是統計學中分位數的一種,即把所有數值由小到大排列,然後按照總數量分成四等份,即每份中的數值的數量相同,處於三個分割點位置的數值就是四分位數。
這3個數叫做:
第一四分位數:又稱較小四分位數,等於該樣本中所有數值由小到大排列後第25%的數字。
第二四分位數:又稱中位數,等於該樣本中所有數值由小到大排列後第50%的數字。
第三四分位數:又稱較大四分位數,等於該樣本中所有數值由小到大排列後第75%的數字。
pandas。DataFrame。quantile()和numpy。percentile()計算結果一樣。
pandas中有describe方法顯示四分位數。
例子:
>>> ps = pd。DataFrame([1,2,3,4,5,6,7,8,9,10,11,12])
>>> ps。describe()
0
count 12。000000
mean 6。500000
std 3。605551
min 1。000000
25% 3。750000 #分割點
50% 6。500000
75% 9。250000
max 12。000000
>>> ps。quantile(0。25)
0 3。75
>>> ps。quantile(0。5)
0 6。5
>>> np。percentile(ps, 50)
6。5
分析方法中的二八法則,結合分位數來使用。
2
標準差&方差
描述資料離散程度。資料的波動性。
方差:統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。
標準差:對方差開跟號。因為方差會消除資料的單位。(元,缺少了業務的含義,所以引入標準差。)
例子:
a=[10,10,10,11,12,12,12]
b=[3,5,7,11,15,17,19]
a和b的中位數和平均數都11,但他們的方差不一樣,a的方差
a資料集的離散程度小於b資料集。
均值+/-標準差,這個範圍的資料佔了整個資料集的大部分,可以說數值大部分在這個範圍內波動。
闡述:資料集的平均值是m, 大部分在m+/-方差的範圍內波動。
例子:
#還是上面的資料
>>> ps。std()
0 3。605551
3
權重統計:資料標準化之Z-Score標準化
Z-Score標準化是標準化的一種。可以發現數據中的趨勢。
(樣本i-均值)/標準差=資料標準化
它們可以透過現有樣本進行估計。在已有樣本足夠多的情況下比較穩定,適合現代嘈雜大資料場景。
#附加,mac-numbers使用公式的方法:
1。單元格按=號,右側彈出函式列,選擇函式,然後選擇需要計算的單元格。
2。完成計算後,這個公式可以複製ctr+c, 然後選擇整列,再ctr+v,應用到整列
- 或者點選單元格,方框正下方有個小黃點,可以下拉。
4
切比雪夫定理
19世紀俄國數學家切比雪夫研究統計規律中,論證並用標準差表達了一個不等式,這個不等式具有普遍的意義,被稱作切比雪夫定理,其大意是:
任意一個數據集中,位於其平均數m個標準差範圍內的比例(或部分)總是至少為1-1/m2,其中m為大於1的任意正數。
對於m=2,m=3和m=5有如下結果:
所有資料中,至少有3/4(或75%)的資料位於平均數2個標準差範圍內。
所有資料中,至少有8/9(或88。9%)的資料位於平均數3個標準差範圍內。
所有資料中,至少有24/25(或96%)的資料位於平均數5個標準差範圍內 。
即隨機資料集合,只有知道平均數和標準差,就知道這個資料集合的大概分佈。
例子:某大學100個學生平均成績70分,標準差5分,問有多少學生的成績在60·80分?
答:
60-70=-10
80-70= 10
60/80位於2個標準差。
1-1/22 =3/4=75%。
所以60~80分的學生至少佔75%
5
描述統計的視覺化
1。box箱線圖
用4分位數來表示資料的範圍分佈。
箱體表示佔一半數量的數值
下四分位數到下邊界,表示1/4數量的數值 (較小數)
上四分位數到上邊界,表示1/4數量的資料 (較大數)
注意: 上面50%的價格分佈在較小的區域
2。直方圖 histogram
x軸的資料,每個範圍/值都是唯一的。
在統計學中,直方圖是一種對資料分佈情況的圖形表示,是一種二維統計圖表,它的兩個座標分別是統計樣本和該樣本對應的某個屬性的度量,以長條圖的形式具體表現。
因為直方圖的長度及寬度很適合用來表現數量上的變化,所以較容易解讀差異小的數值。
總共有資料1000個,使用引數bins=50, x軸的資料被等分成50份。
6
機率
1。交集和並集
解釋:A並B,有一部分是重合的,重合部分就是交集。計算A並B時,多了一塊交集,所以需要減去多出的一塊交集。
解釋:用公式和符號表示: 在B已經發生的情況下,A發生的機率。圓A和B相交的面積/圓B的面積=在B已經發生的情況下,A發生的機率。
7
貝葉斯定理
例1:如果某種疾病的發病率為千分之一。現在有一種試紙,它在患者得病的情況下,有99%的準確率判斷患者得病,在患者沒有得病的情況下,有5%的可能誤判患者得病。現在試紙說一個患者得了病,那麼患者真的得病的機率是多少?
可以用分析圖來分析:
所以用試紙查出患者佔總樣本人數的比例為:(4995+99)/100000=5。094 %
但實際上這部分查出有病的人中(5094人),有4995人是誤診的。所以查出的這部分人中只有1。943%是真生病的人。
先驗機率(歷史經驗):
P(A1)表示生病人群的機率:0。1%
P(A2)表示健康人群的機率:99。9%
新資訊:
事件B表示用試紙檢測,並判斷生病。
P(B|A1):是真實患者的條件下,試紙查出來是患者的機率:99%
P(B|A2): 是健康人群條件下, 試紙誤判是患者的機率:5%
應用貝葉斯定理:
求得後驗機率:
P(A1|B) 即用試紙檢查出是患者的條件下,是真實患者的機率。1。943%
例2:一輛計程車在夜晚肇事之後逃逸,一位目擊證人辨認出肇事車輛是藍色的。已知這座城市 85% 的計程車是綠色的,15% 是藍色的。警察經過測試,認為目擊者在當時可以正確辨認出這兩種顏色的機率是 80%, 辨別錯誤的機率是 20%。 請問,肇事出租車是藍色的機率是多少?
注意,如果腦子亂,沒有思路:
紙上畫圖(xmind思維導圖)
假設一個真實的樣本資料。
薦:【中國風動漫】除了《哪吒》,這些良心國產動畫也應該被更多人知道!【中國風動漫】《霧山五行》大火,卻很少人知道它的前身《歲城璃心》一個拿著十米大刀的男主夭折!宣告來源:部落格園,人工智慧產業鏈聯盟推薦閱讀,不代表人工智慧產業鏈聯盟立場,轉載請註明,如涉及作品版權問題,請聯絡我們刪除或做相關處理!
推薦文章
- 傷感簡短的微信狀態句子,看完你是否也會同感深受?
He doesn’t love you so much...
- 每天喝一碗“開水衝雞蛋”的人,後來怎麼樣了?可能發生3大變化
可能發生3大變化1、清熱止咳在秋冬季節,多數人都會出現咳嗽的情況,咳嗽嚴重的話嗓子裡甚至還帶有一點疼痛感,如果在早上起床之後,堅持喝碗開水衝雞蛋,能夠起到潤肺止咳的作用,因為在衝雞蛋的時候會加入一點香油,香油是屬於涼性的食品,這樣能夠起到潤...
- 中證協新年第一調研:資管、代銷等五類業務有望推行電子簽約,觸及多個痛點
1.監管規則未明確要求電子簽約方式簽署衍生品協議及交易確認書2.公司內部協議簽署審批流程暫不支援電子簽約方式3.目前衍生品協議及交易確認書籤約筆數少,沒有動力改變原有紙質蓋章方式和審批流程4.較難推動客戶改變原有紙質蓋章的協議簽署習慣5.自...