您現在的位置是:首頁 > 藝術

威爾遜得分:樣本量過少,如何科學衡量喜好程度?一個數據分析的常見難題

由 人人都是產品經理 發表于 藝術2022-09-02
簡介52,A手機的威爾遜得分高於B手機,按照該演算法,我們有結論:在置信度95%的情況下,雖然A手機的喜歡率不如B手機,但是有理由相信使用者對A手機其實是更加喜歡的

如何進行內容分析

編輯導語:有效的使用者體驗感調研有利於提升產品架構,更好的去完善產品。但是當市場樣本量過少,如何科學衡量喜好程度?本文將分享一個數據分析的常見case——威爾遜得分。相信透過本文,可以學到一個更加科學的分析方法,一起來學習下吧。

威爾遜得分:樣本量過少,如何科學衡量喜好程度?一個數據分析的常見難題

分享一個常見的場景,也是經常困擾大家的問題。

先來一個場景:假設平臺售賣兩款手機A和B。A手機有800人喜歡,200人不喜歡;B手機有9人喜歡,2人不喜歡。那麼,使用者更喜歡哪款手機?

相信這個場景,各位朋友在日常生活中、在工作中都遇到過。你們平時是如何做判斷呢?希望透過今天的文章,能給大家一個新的視角、也更加科學的方案。

一、常見的衡量方法

我想,大家的第一反應應該是按照比率進行衡量吧?因此,

A手機喜好率=800÷(800+200)=80%

B手機喜好率=9÷(9+2)=82%80%<82%

因此使用者更喜歡B手機。

這樣對嗎?

看起來沒毛病。畢竟喜歡率越高,代表使用者更喜歡嘛!但是,相信朋友也看出了這個例子的端倪:B手機的總共的樣本量才11個,雖然喜歡率高,但是樣本量這麼低,隨便一個數據變化都會對結果產生巨大的影響。

因此,按照這種比率的方法,算出的喜歡率,“靠譜”嗎?用統計學的語言,置信嗎?

二、威爾遜得分

上面我們覺得按照簡單的喜歡率來計算,有點難衡量。但是,如果不按照喜歡率來比較,還能如何計算呢?這就是我們今天的主題了:威爾遜得分。

1. 公式定義

先看看具體的

威爾遜得分

計算公式:

u表示正例數(喜歡),v表示負例數(不喜歡),n表示例項總數(總樣本數),p表示喜歡率,z是正態分佈的分位數(引數),S表示最終的威爾遜得分。得分越高,代表越喜歡的程度、喜歡的機率越大。

通常,當置信度95%的情況下,z取1。96(近似2)即可。其他常見置信水平與z取值的對應關係如下:

威爾遜得分:樣本量過少,如何科學衡量喜好程度?一個數據分析的常見難題

關於置信區間的概念,可以參考文章《區間估計的置信區間概念及方法》。

2. 案例驗證

下面,我們根據上面的公式,計算一下我們開頭案例的A手機和B手機的威爾遜得分情況。

對於A手機,n=1000,p=0。8,按照95%的置信度,取z≈2,代入威爾遜得分公式中,求得S(A)=0。77

對於B手機,n=11,p=0。82,按照95%的置信度,取z≈2,代入威爾遜得分公式中,求得S(B)=0。52

因此,0。77>0。52,A手機的威爾遜得分高於B手機,按照該演算法,我們有結論:在置信度95%的情況下,雖然A手機的喜歡率不如B手機,但是有理由相信使用者對A手機其實是更加喜歡的。

3. 相關應用

其實該得分演算法的應用還是比較多的。

除了上文中提出的例子外,該得分演算法經常應用於各個網站的排序上。比如知乎的搜尋排序(我看網上有說知乎是用的威爾遜得分進行的。這裡我也沒法驗證,如果有知乎的朋友可以留言驗證一下。關於搜尋演算法可以參考文章《搜尋系統的基礎知識以及應用》):

威爾遜得分:樣本量過少,如何科學衡量喜好程度?一個數據分析的常見難題

可以看出,知乎的搜尋結果排序中,並不是完全基於贊同數量進行的倒敘排列。如果完全贊同數多的回答置頂,那麼新的高質量回答,就永遠沒有出頭之日了,對於內容生態的維護一定是有很大問題的。

威爾遜得分:樣本量過少,如何科學衡量喜好程度?一個數據分析的常見難題

當然,哪怕是用了威爾遜得分,真實實踐中,也會在這個基礎上增加更多維度的打分,咱們這裡就是以此舉例,說明威爾遜得分的應用場景,大家清楚就好。

如果只是想把威爾遜得分作為工具,那麼掌握到這裡、知道了公式該如何使用、如何計算、應用場景是啥,就足夠了。但如果想深入理解一下公式的統計學含義以及推導邏輯,可以參考下面一節。

三、統計原理與邏輯

下面,我們一起看看這個威爾遜公式是怎麼得到的,以及背後的統計學原理是啥。

1. 原理概述

首先,威爾遜得分只是威爾遜區間的一個變形,取了威爾遜區間的下限值作為威爾遜得分。

那什麼是威爾遜區間呢?

本質上,威爾遜區間其實就是使用者喜歡率的一個區間估計(關於區間估計可參考歷史文章《區間估計的基礎介紹》)。但是該區間估計考慮了樣本過小時候的情況,根據樣本量對區間估計進行了修正,使得該區間估計能夠較好的衡量不同樣本量情況。

說白了,我們用樣本計算的使用者喜歡率,本質上只是對使用者真正的喜歡率的一個點估計而已,樣本越少,可信度越低;樣本數越多,根據中心極限定理,點估計越接近真實值。如果樣本數都很多,那麼我們直接計算手機A和B的喜歡率,基本就能代表真實情況了,是可以比較的。但是當樣本數不夠,就面臨了上文中的問題。威爾遜,就是1920年代提出了這個區間估計的公式,用以解決小樣本的準確性問題。

威爾遜得分:樣本量過少,如何科學衡量喜好程度?一個數據分析的常見難題

由於提出的公式是區間估計公式,所以本來是一個一個的區間。比如假設A手機的喜歡率95%置信區間估計是[0。77,0。83],B手機喜歡率95%的置信區間估計是[0。52,1]。如何對比兩個區間呢?威爾遜得分就是取了不同區間的下限進行比較,因此哪個下限高,代表機率更高。

2. 公式推導

這裡的公式推導其實還是有點複雜的,我不一一展開了,放一下網上的推導步驟截圖,有興趣的朋友可以自行探索一下啊!

威爾遜得分:樣本量過少,如何科學衡量喜好程度?一個數據分析的常見難題

威爾遜得分:樣本量過少,如何科學衡量喜好程度?一個數據分析的常見難題

3. 性質特性

最後我們看看這個公式的一些性質吧。

性質1:

得分S的範圍是[0,1),效果:已經歸一化,適合排序

性質2:

當正例數u為0時,p為0,得分S為0;效果:沒有好評,分數最低;

性質3:

當負例數v為0時,p為1,退化為1/(1 + z^2 / n),得分S永遠小於1;效果:分數具有永久可比性;

性質4:

當p不變時,n越大,分子減少速度小於分母減少速度,得分S越多,反之亦然;效果:好評率p相同,例項總數n越多,得分S越多;

性質5:

當n趨於無窮大時,退化為p,得分S由p決定;效果:當評論總數n越多時,好評率p帶給得分S的提升越明顯;

性質6:

當分位數z越大時,總數n越重要,好評率p越不重要,反之亦然;效果:z越大,評論總數n越重要,區分度低;z越小,好評率p越重要;

威爾遜得分:樣本量過少,如何科學衡量喜好程度?一個數據分析的常見難題

4. 變形擴充套件

另外,我們這裡都是二項分佈。如果是評分等級問題:如五星評價體系,或者百分評價體系,該怎麼辦呢?

將威爾遜得分的公式由伯努利分佈修改為正態分佈,帶入相關引數即可。

注意:均值和方差均是歸一化之後的數值。

關於威爾遜得分,我們就分享這些,希望對大家今後的資料工作能有所幫助。以後再衡量哪個更好,可以有更專業的演算法模型了!

#專欄作家#

NK冬至,公眾號:首席資料科學家,人人都是產品經理專欄作家。在金融領域、電商領域有豐富資料及產品經驗。擅長資料分析、資料產品等相關內容。

本文原創釋出於人人都是產品經理。未經許可,禁止轉載。

題圖來自Unsplash,基於CC0協議。

推薦文章

  • 省考必帶物品清單,你準備好了嗎

    省考必帶物品清單,你準備好了嗎考試工具:2支2B鉛筆或者考試專用鉛筆、2支黑色簽字筆、橡皮擦、卷筆刀二重要物品1、現金:考試當天出行打車或者零時購買物品最好備一些現金,防止考場周圍因遮蔽無法使用手機付款...

  • 湛江交通海陸空齊頭並進:展開“空鐵之翼” 釋放發展潛力

    湛江交通海陸空齊頭並進:展開“空鐵之翼” 釋放發展潛力作為粵西交通聯運樞紐,湛江吳川機場定位為國內幹線機場,飛行區等級由4C級越級按4E級標準建設,具備起降波音777、747、787,空客330、350等寬體飛機、直航歐美的能力,同時,配有自助行李託運、自助值機等裝置,實現“無紙化”登機服務...

  • 手機拍攝的身份證圖片,如何製作成影印件,使用word輕鬆搞定

    手機拍攝的身份證圖片,如何製作成影印件,使用word輕鬆搞定在實際生活中,經常使用到身份證影印件,不可能每次都拿著身份證去影印,可以把身份證的正反面用手機拍攝成照片,然後放到word裡面,但這其中又有一個問題,如何它身份證圖片設定成合適的尺寸呢,下面我來介紹下詳細步驟...