讀古今文學網 > 機器學習實戰 > C.3 概率的基本準則 >

C.3 概率的基本準則

概率的基本準則使我們可以在概率上做數學演算,這些準則與代數里的公理一樣,需要牢記。本書將對它們依次做出介紹,並用表C-1的數據做輔助分析。

可以看到,前面計算出的概率都是分數。如果數據集裡的所有天氣都是雪天,那麼P(下雪)將會是7/7,即等於1。如果數據集裡沒有雪天,那麼P(下雪)將會是0/7,即等於0。所以對任何事件X來說,0≤P(X)≤1

雪天的求補事件記為~下雪或者¬下雪。求補意味著除了給定事件(下雪)以外的任何其他事件。在表C-1的天氣中,其他事件包括下雨和晴。在僅有這三種可能的天氣事件下, P(¬下雪) = P(下雨) + P(晴天) = 5/7,而同時P(下雪) = 2/7,所以P(下雪) + P(¬下雪)=1。另一種說法是下雪 + ¬下雪事件總為真。用圖表將其可視化能幫助我們理解這些事件間的關係,其中一種很有用的圖就是文氏圖,它在表示集合的時候非常有效。圖C-1展示了所有可能的天氣狀況的事件集合。雪天佔據了圖中的圓圈內的區域,而非雪天則佔據了其他區域。

圖C-1 上圖的圓圈內表示 「下雪天」事件(將其他事件排除在圓圈之外),下圖的圓圈外則表示除「雪天」外的其他所有事件。這樣,雪天和非雪天就包括了所有事件。

概率論的最後一個基本準則是關於多變量的。圖C-2的文氏圖描述了表C-1中的兩個事件的關係,事件一是「天氣 = 下雪」,而事件二是「星期幾=2」。這兩個事件不是互斥的,也就是說它們可能同時發生。有些下雪天恰好是星期二,也有些下雪天不是星期二。因此這兩個事件在圖中的區域有一部分重疊但並不完全重疊。

圖C-2 表示兩個相交事件的文氏圖

圖C-2中的重疊區域被認為是兩個事件的交集,可以直觀地記做(天氣=雪天) AND (星期幾=2)。如何計算P((天氣=雪天) OR (星期幾=2))呢?可以用減去重疊部分的方法來避免重複計數:P(雪天 AND 星期二)=P(雪天)+P(星期二)-P(雪天 AND 星期二)。如果將上式一般化就得到式子:P(X OR Y)=P(X)+P(Y)-P(X AND Y)。該公式很有意義,它在AND和OR的概率之間搭起了橋樑。

通過這些基本的概率運算準則就可以計算出各種事件的概率。通過假設和先驗知識可以推算出未觀測到的事件的概率。