您現在的位置是:首頁 > 農業

如何計算無法觀察到的事情的機率?

由 聞數起舞 發表于 農業2022-03-21
簡介現在,這將是您同時觀察正面和紅色硬幣的機率

邊緣機率條件機率聯合機率是什麼

貝葉斯定理簡要介紹

如何計算無法觀察到的事情的機率?

> Image under CC BY 4。0 from the Pattern Recognition Lecture。

這些是FAU的YouTube講座“模式識別”的講義。這是講座影片和匹配幻燈片的完整記錄。幻燈片的來源可以在這裡提供。我們希望,你喜歡這個影片。該轉錄物幾乎完全使用自動剝離生成的機器,並且僅執行輕微的手動修改。如果你發現錯誤,請告訴我們!

歡迎回到模式識別!今天,我們想審查幾個對這一課程的剩餘時間很重要的基礎知識。我們將調查簡單的分類,監督無監督的學習,並審查了一點機率理論。所以這是一種複習。如果您與機率理論不再強大,您將找到我們在此影片中非常有益的示例。

如何計算無法觀察到的事情的機率?

> Image under CC BY 4。0 from the Pattern Recognition Lecture。

讓我們進入我們的模式識別基礎知識。因此,我們已經在以前的影片中審查了分類系統。我們擁有我們的模式識別系統,包括預處理,特徵提取和分類。您可以看到我們通常使用f表示將其輸入到系統中的訊號。然後我們希望使用g作為一種預處理影象。在特徵提取之後,我們有一些抽象特徵C,然後在分類中使用,以預測一些類Y。當然,這與我們使用的訓練樣本相關聯,以便學習問題的引數。

如何計算無法觀察到的事情的機率?

> Image under CC BY 4。0 from the Pattern Recognition Lecture。

通常,這些資料集隨後由元組組成。所以我們有一些向量X‖,它們與某些類相關聯,這在此處指示為Yᵢ。這些元組可以形成訓練資料集。現在使用此資料集,我們能夠估計所需分類系統的引數。所以,這是監督案例。當然,還有一個無監督的案例,在其中沒有任何分類,但您只需具有觀察x₁,x 2等。由此,您不能知道分類,但您知道從觀察到的樣本中的分佈,可以開始建模群集等內容。

如何計算無法觀察到的事情的機率?

> Image under CC BY 4。0 from the Pattern Recognition Lecture。

讓我們介紹一些符號。通常,我們將在這裡使用D維特徵空間中的向量x。向量通常與某些類號相關聯。所以你可以將它分配給{0,1}。所以這是一個2級問題,但你也可以用-1和+1表示類。暫時,我們會調查兩類問題,但一般來說,我們也可以將其擴充套件到多級問題。您可以在那裡使用類編號,或者您也可以使用一個熱編碼向量。在這種情況下,那麼你的分類不再是一個簡單的數字或標量,但它將被編碼為向量。因此,如果您參加了深入學習,那麼您將看到我們將在那裡使用這一概念非常重。我們還需要什麼?好吧,我們想談談機率。所以這裡p(y)是某個類y的現有機率。這基本上與問題的結構和該相應類的頻率相關聯。我們將在未來幾個幻燈片中調查一些示例。然後我們有一些通常是p(x)的證據,所以這是觀察x的機率。這是一般案件,生活在D維特徵空間中。此外,存在聯合機率。這基本上是X和Y一起發生的機率。然後,有條件機率,特別是階級條件機率,其作為給定y的X給出。然後存在所謂的後驗機率是給定x的p。所以後面基本上是給你某個類的可能性的機率,給定一些觀察x。現在,這是相當抽象的。讓我們研究一些機率如何構建的一些例子!

如何計算無法觀察到的事情的機率?

> Image under CC BY 4。0 from the Pattern Recognition Lecture。

我們將使用一個非常簡單的例子,這是硬幣翻轉。在硬幣翻轉中,您可以基本上有兩種結果,即頭部和尾部。所以在這裡,我們不住在D維特徵空間中。相反,我們只有兩種不同的離散觀察,我們為我們的觀察結果x。你可以在這裡看到我們做了一個硬幣翻轉。我們有18次正面,我們有33次反面。總共有51個觀察結果和這些離散觀察,我們現在可以嘗試估計機率。因此,在這種情況下觀察正面的機率約為35%。以同樣的方式,我也可以計算反面的機率,約為65%。現在你看,我們只有證據,但沒有分類。讓我們發出更復雜的問題。讓我們說你是色盲,你無法區分顏色類別。所以這基本上是我們面臨的問題。我們無法訪問分類,但有一些真實的類別是一個以某種方式隱藏。

如何計算無法觀察到的事情的機率?

> Image under CC BY 4。0 from the Pattern Recognition Lecture。

你可以想象我實際上有兩個不同的硬幣。所以我有一個紅色硬幣和一個綠色硬幣。現在,紅色硬幣正在生產17次正面和15次反面,而我們的綠色硬幣只生產一次反面和的正面18次。所以綠色硬幣偏向反面。當然,我們也可以計算我們的行的總和,這將為我們提供這些數字。當然,我們也可以計算列和。在這裡,您已經看到了在最後一行中,我們基本上與我們在頂桌中看到的同樣的證據。

如何計算無法觀察到的事情的機率?

> Image under CC BY 4。0 from the Pattern Recognition Lecture。

您現在可以檢視最後一行。這基本上是我們是色盲的情況。我們無法區分兩個硬幣,我們將完全相同的機率:觀察正面的35%,觀察反面的65%。

如何計算無法觀察到的事情的機率?

> Image under CC BY 4。0 from the Pattern Recognition Lecture。

我們還能做什麼?好吧,我們當然也可以看一下最後一列。在這裡,您可以在本質上看到我們的分類前鋒。使用紅色硬幣的機率約為63%,使用綠色硬幣的可能性為37%。所以如果有人正在使用這兩個硬幣,你可以爭辯,然後他試圖使用這種偏見的硬幣。不在所有情況下,但是該人正在偶爾將這枚硬幣混合,因為可能你不想被欺騙。所以你只是把它混在一起,讓我們說37個事件,因為當然,你也想贏得一遍。在其他情況下,你不想被抓住,所以這就是你使用其他硬幣的原因。完美的感覺吧?所以讓我們看起來有點進入聯合機率。

如何計算無法觀察到的事情的機率?

> Image under CC BY 4。0 from the Pattern Recognition Lecture。

現在,這將是您同時觀察正面和紅色硬幣的機率。在這裡,您可以看到這是17次,總共有51個觀察。所以這相當於約33%的可能性。當然,我們可以用反面和綠色硬幣做類似的東西,這將等同於大約35%。現在,如果我們想要計算這些數字,我們需要訪問類分佈。所以我們需要知道哪些硬幣可用,我們還需要知道實際觀察,我們的證據是什麼。現在,我們還能用這個漂亮的表格做什麼?

如何計算無法觀察到的事情的機率?

> Image under CC BY 4。0 from the Pattern Recognition Lecture。

我們當然可以分析我們的硬幣。在這裡,您認為我們的綠色硬幣是朝向反面偏向的,您可以根據綠色硬幣計算正面的機率。因此,如果我開始折騰這一點,我只會有5%的生產正面的可能性,我將有95%的機會生產反面。現在,這基本上是我沒有的資訊。我收到一些資訊,我得到了觀察正反,因為我是色盲。

如何計算無法觀察到的事情的機率?

> Image under CC BY 4。0 from the Pattern Recognition Lecture。

現在我有興趣弄清楚它是紅色硬幣還是綠色硬幣。現在,如果我觀察反面,那麼我知道我已經觀察到了反面,所以我已經可以解決這個問題。然後我計算紅色硬幣的機率,所以這是兩個類之一。另一類是綠色硬幣,您認為機率為45%和55%。所以,如果你觀察反面,那麼這並不是很強大的證據,其中硬幣實際上被扔了。讓我們看看另一個案例。

如何計算無法觀察到的事情的機率?

> Image under CC BY 4。0 from the Pattern Recognition Lecture。

所以讓我們說我們觀察正面。現在,如果您觀察正面,紅色硬幣的機率約為94%,綠色硬幣的機率僅為6%。因為在生產正面的大多數情況下,當然,使用了紅色硬幣。因此,觀察正面,在這種情況下,是非常有力的證據,使用了紅色硬幣。你可以看到這是一個非常典型的模式分類問題。因此,我們希望從觀察到的證據中獲得有關硬幣的分類資訊。你已經看到它很難。但是,如果你有這樣的分佈,那麼你可以從我們的實驗中獲得非常有趣和非常好的證據。讓我們正則化這一點。

如何計算無法觀察到的事情的機率?

> Image under CC BY 4。0 from the Pattern Recognition Lecture。

我們已經看到,這裡與x和y的聯合機率密度函式可以分解到之前。因此,使用一定硬幣乘以類條件機率密度函式的機率。顯然,可以透過使用證據次數的機率來產生相同的關節PDF。因此,您可以看到我們可以使用這兩個分解表達相同的聯合機率密度函式。

如何計算無法觀察到的事情的機率?

> Image under CC BY 4。0 from the Pattern Recognition Lecture。

現在,如果我知道這種身份,那麼我很容易構建所謂的貝葉斯定理。貝葉斯定理告訴我們,給定證據X的類y的機率可以表達為x給定y機率的階段的機率。這由X的機率除以。現在,X的機率通常也可以表達為整個聯合機率的邊緣化。現在你看到觀察這個聯合機率密度函式很難。但我們可以再次使用我們的分解伎倆。因此,我們可以看到這可以將其分解為所有類之前,這乘以觀察我們的x的機率。這被稱為邊緣化。這裡的好事是我們的Y總是離散的。所以我們有一個離散數量的類,這使我們能夠將其表達為總和。

如何計算無法觀察到的事情的機率?

> Image under CC BY 4。0 from the Pattern Recognition Lecture。

這是聯合機率密度函式的邊緣。我們可以透過邊緣分析我們的分離來基本上得到了。如果我們想對y的先前機率做類似的事情,那麼我們將不得不用x邊緣化。如果你想這樣做,那麼你已經可以看到我們必須在X的整個域中具有連續的整體。僅僅因為在我們的案例中,或者在大多數情況下我們將在這個類中看,x不是前面的例子中的離散,而是它是一個連續的向量空間。所以我們必須在整個向量空間上計算積分。這已經是我們對不同機率理論的小介紹的結束。

如何計算無法觀察到的事情的機率?

> Image under CC BY 4。0 from the Pattern Recognition Lecture。

在下一個影片中,我們想談談貝葉斯分類器以及貝葉斯分類器如何與最佳分類器相關。我希望你喜歡這個小影片,我很期待在下一個影片中見到你!非常感謝觀看和再見。

如果你喜歡這篇文章,你可以在這裡找到更多的散文,更多的教育材料在這裡學習,或看看我們的深度學習講座。如果您想在未來更多的散文,影片和研究,我也會欣賞YouTube,Twitter,Facebook或LinkedIn上的關注。本文在Creative Commons 4。0歸因許可證下發布,如果引用,可以重印和修改。如果您有興趣從影片講座生成成績單,請嘗試自動螢幕。

參考

Heinrich Niemann:模式分析,Springer系列資訊科學4,Springer,Berlin,1982。

Heinrich Niemann:Klassifikation von Mustern,Springer Verlag,柏林,1983年。

Richard O。 Duda,彼得E。 Hart,David G。 Stork:模式分類,第2版,John Wiley&Sons,紐約,2000。

(本文由聞數起舞翻譯自Joyce Xu的文章《How do I compute probabilities for things that I cannot observe?》,轉載請註明出處,原文連結:https://medium。com/dataseries/how-do-i-compute-probabilities-for-things-that-i-cannot-observe-5503bde33ad9)

推薦文章

  • 絕對想不到—汗液本身就是天然止汗劑!

    他們的理論是這樣的:如果汗水還在汗水管道內就開始蒸發 在它出現在面板上之前,汗水中的礦物質就會結晶堵塞汗水管,換句話說,自然存在於汗液中的鈉、氯化物、鉀、鈣、尿素和碳酸氫鹽的混合物可以起到與商業止汗劑中使用的金屬鹽相同的作用...

  • 夢迴古羅馬文明:探索古羅馬的歷史

    夢迴古羅馬文明:探索古羅馬的歷史古羅馬建築代表:羅馬鬥獸場 (原價 38 歐元,持 Go 旅城通票 免費)羅馬鬥獸場 (原價 38 歐元,持 Go 旅城通票 免費)*圖片來源:pinterest羅馬鬥獸場是古羅馬建築之一,是古羅馬帝國專供奴隸主、貴族和自由民觀看鬥獸或奴隸...

  • 五本主角雙重生的古代甜寵文:本本都百看不厭,你看過幾本?

    五本主角雙重生的古代甜寵文:本本都百看不厭,你看過幾本?2、《祝融,你也重生了》作者:背影殺手短書評:女主重生,因為前世女二冒充女主,導致男主寵錯了人所以下場挺慘,於是重生後非常害怕男主,後來男主以刺客的身份接近她,女主愛上男主,不過女主設定有點小白啊,好歹也重生一世嘛,智商情商也都不線上,總之...