讀古今文學網 > 機器學習實戰 > 4.2 條件概率 >

4.2 條件概率

接下來花點時間講講概率與條件概率。如果你對p(x,y|c₁)符號很熟悉,那麼可以跳過本節。

假設現在有一個裝了7塊石頭的罐子,其中3塊是灰色的,4塊是黑色的(如圖4-2所示)。如果從罐子中隨機取出一塊石頭,那麼是灰色石頭的可能性是多少?由於取石頭有7種可能,其中3種為灰色,所以取出灰色石頭的概率為3/7。那麼取到黑色石頭的概率又是多少呢?很顯然,是4/7。我們使用P(gray)來表示取到灰色石頭的概率,其概率值可以通過灰色石頭數目除以總的石頭數目來得到。

圖4-2 一個包含7塊石頭的集合,石頭的顏色為灰色或者黑色。如果隨機從中取一塊石頭,那麼取到灰色石頭的概率為3/7。類似地,取到黑色石頭的概率為4/7

如果這7塊石頭如圖4-3所示放在兩個桶中,那麼上述概率應該如何計算?

圖4-3 落到兩個桶中的7塊石頭

要計算P(gray)或者P(black),事先得知道石頭所在桶的信息會不會改變結果?你有可能已經想到計算從B桶中取到灰色石頭的概率的辦法,這就是所謂的條件概率(conditional probability)。假定計算的是從B桶取到灰色石頭的概率,這個概率可以記作P(gray|bucketB),我們稱之為「在已知石頭出自B桶的條件下,取出灰色石頭的概率」。不難得到,P(gray|bucketA)值為2/4,P(gray|bucketB) 的值為1/3。

條件概率的計算公式如下所示:   

P(gray|bucketB) = P(gray and bucketB)/P(bucketB)

我們來看看上述公式是否合理。首先,用B桶中灰色石頭的個數除以兩個桶中總的石頭數,得到P(gray and bucketB) = 1/7。 其次,由於B桶中有3塊石頭,而總石頭數為7,於是P(bucketB)就等於3/7。於是有P(gray|bucketB) = P(gray and bucketB)/P(bucketB) = (1/7) / (3/7) = 1/3。這個公式雖然對於這個簡單例子來說有點複雜,但當存在更多特徵時是非常有效的。用代數方法計算條件概率時,該公式也很有用。

另一種有效計算條件概率的方法稱為貝葉斯準則。貝葉斯準則告訴我們如何交換條件概率中的條件與結果,即如果已知P(x|c),要求P(c|x),那麼可以使用下面的計算方法:

我們討論了條件概率,接下來的問題是如何將其應用到分類器中。下一節將討論如何結合貝葉斯決策理論使用條件概率。