在上一篇莎莉‧克拉克(Sally Clark)案,提到專家證人犯了三個機率與統計的錯誤。其中最關鍵的是檢察官謬誤(Prosecutor's fallacy),這也是三個錯誤當中最能大幅扭轉「無罪機率」的一個。

檢察官謬誤其實並不是單一的謬誤形式,而是幾種因不了解條件機率而生的謬誤總稱,還有一種衍生型稱為辯護人謬誤(Defendant's fallacy)。不過只要能夠看穿背後的條件機率,這些謬誤形式都有共通點。這類的謬誤,簡單的說,就是控訴方拿另一個不太相關、或是有關連但未考慮條件機率的數值,硬指為被告「無辜的機率」很小。辯護人謬誤則是反過來用錯誤的機率來說己方「犯罪的機率」很小。

舉例來說(以下情節當然純屬虛構)

假如我上周跑去買大樂透,沒想到只買一張竟然中了頭獎。結果檢察官約談我,因為他們懷疑我收買台彩內部的員工。我有自信他們不會有任何證據,因為我甚麼也沒有做。嘿嘿,可是檢察官還有王牌,他們說大樂透中獎的機率只有
1 / C(49, 6) = 1 / 13,983,816
我沒收買台彩員工而中獎的機會只有約1千4百萬分之1,所以我只有1千4百萬分之1的機率是無辜的。

這是個很誇張的例子,我們都知道中獎的機率和無辜的機率是兩回事,但是有時候並沒有那麼容易被認出來,像前篇提到的莎莉‧克拉克案。一個現實中比較有可能發生的案例是這樣的:

假設在一個大城市裡發生兇殺案,但現場有用的證據不多,慶幸的是被害人掙扎時在指甲縫留下了些許疑似兇手的髮膚。很可惜證物DNA保存的狀態不是很好,化驗室沒辦法達到電視影集當中的水準,若是只比對保存狀況較佳的幾個基因特徵,那麼可以確定只有五萬分之一的人能夠與這些DNA片段完全吻合。假設有個A君竟然符合這個五萬中選一的機會,於是他就被起訴了。檢方當然會陳述所有對被告不利的證據,不過殺傷力最強的還是DNA證據。檢方如是說:
    「根據專家證人的意見,一個人的DNA要碰巧和證物完全符合只有五萬分之一的機率。若說被告A君真是無辜,除非他就是那五萬分之一的巧合。」
當然辯護律師也不是省油的燈:
    「別忘了本市有五十萬居民,全憑巧合滿足這五萬分之一機率的人數,搞不好都可以組一支棒球隊了。我的委託人只是這些人當中其中一位,有罪的機率了不起只有十分之一吧。」

所以誰比較有道理呢?其實雙方的邏輯都不對,五萬分之一既不是無辜的機率,也不能直接拿來推算有罪的機率。五萬分之一只是個先驗機率(prior probability),來自於單純的統計和理論推算,機率成立的條件完全不受本案影響。一個新生兒或是作古百年的死人,他們的基因吻合現場樣本的機率也會是五萬分之一,但他們都不可能犯案;即使本案從來都沒發生,你問實驗室「一個人同時有A、B、C.....這些基因特徵的機率是多少?」,實驗室仍然會說「大約五萬分之一」。

如果A君是隨機抽樣得到的,那麼他有罪的機率可能會比較接近辯護律師所說的十分之一。反過來說,如果A君是檢警特別鎖定的嫌犯,因為他有前科、無不在場證明、身上有抓傷,那麼只要再加上DNA檢驗,他犯罪的機率將會大幅提高。在這個案件裡,如果沒有其他決定性的證據,光憑DNA吻合仍然很難決定A是否有罪。

另一個飽受爭議的例子是運動員的禁藥檢驗,事情往往關乎個人與團隊的名譽,並且對運動員短暫而寶貴的職業生涯有重大影響。禁藥檢驗通常是鎖定特定的人工荷爾蒙的濃度是否超過標準。假如有位運動員在檢驗時呈陽性,而檢驗單位又宣稱假陽性的機率只有2%,表示未服藥而被誤判為陽性的可能性只有 2% ,我們是否可以說這位運動員使用禁藥的可能性是98%呢?

答案是不行,我們還得看看其他條件。假如每10個使用禁藥的人當中,總會有2個人僥倖逃過這項檢驗,也就是假陰性為20%。那麼如果有1000名運動,其中有100人使用禁藥、900人無使用禁藥,檢驗會呈現下表的分布

  使用禁藥 未用禁藥 合計
驗出 80 18 98
未驗出 20 882 902

我們發現合乎「驗出」這項條件的98人當中,其中 18 人是未用禁藥但是被誤判的。也就是說即使檢驗呈現陽性,一位運動員也有 18/98 = 18.4% 的機率沒有使用禁藥,比公平骰子擲出一點的機率略高。由於現實當中上述提到的機率多半非常難以精確獲得,所以各大體育組織仍然採行「驗出即禁賽」的規則,雖然算是人人平等,但是稱不上公正。

最後來看看另一種引用資料的誤導,在互搬數據的網路筆戰也很常見。1994年的辛普森殺妻案由於警方辦案瑕疵,最後變成了法庭混戰。檢方將前期的攻勢放在辛普森對妻子妮可的暴力傾向,並舉出歷來的傷害紀錄,指稱兇殺案其來有自。不過辛普森的辯護律師德蕭維茲(Alan Dershowitz)可是個能言善道的狠腳色,他引用美國的統計數據,顯示每年有將近四百萬婦女受到配偶或男友暴力對待,但根據聯邦調查局的刑案報告,總共只有1432名受家暴婦女最後遭到配偶或男友殺害,大約只有1/2500左右。也就是說只有非常少數暴力案件會以兇殺案收場。

看起來很有道理不是嗎?一點也不。根據1993年聯邦調查局的資料顯示,1993年來自家暴環境、死於殺害的婦女當中,有90%是死於長期施暴者之手。得仔細分清楚,「一個有家暴背景的男性最後殺害配偶機率」和「受家暴婦女遭殺害了,兇手是施暴者的機率」是兩回事,在這裏我們比較關心的是後者。

雖然大多數的人都不會上法庭參與辯論,不過我們仍然會每天從各種媒體收到許多機率和統計數字,並轉變為思考事物的依據。如何分辨這些推論有沒有道理,就必須靠自己小心思考了。

參考
http://dna-view.com/profile.htm
http://k-review.com.tw/2008/09/01/706/
http://en.wikipedia.org/wiki/Prosecutor%27s_fallacy
辛普森案的例子來自Leonard Mlodinow著作的《醉漢走路》一書,台灣由天下文化出版。

novus 發表在 痞客邦 PIXNET 留言(1) 人氣()


留言列表 (1)

發表留言
  • 小豪
  • 推!

    推禁藥的例子,簡單明瞭。
    看到這個例子,想到去年看過一篇科學人的文章,
    (2008.08,禁藥與金牌)
    薛莫(Michael Shermer)寫的有關運動心理學的文章,

    他從賽局理論的觀點去解釋運動員為何寧可冒被檢測出服用禁藥的風險,而用藥。文章最後有提出抵制禁藥的幾個辦法,其中一條就是若抓到一次用藥就永遠出局!
    從文章中看出這樣的懲罰有其道理。
    但如果有種檢測技術如本篇的例子那麼容易驗錯的話!
    那麼懲罰似乎又太嚴重了。

    同一件事情如果以不同的觀點來看,或許給人完全不同的感受,遇到實際問題時,從多種角度來看才容易看出「重點」在哪。

    回到本篇文章重點,簡單說,在談機率時,釐清「已知的條件」和「樣本空間」是非常重要的,記得以前自己唸點高中機率時,有的難題還滿容易弄錯樣本空間的!