差不多每隔一段時間,就會出現智力超群的天才兒童報導,這些報導通常只是丟給讀者一個意義不明確的 IQ 值,而沒有詮釋數值的意義。甚至會為了娛樂目的,任意拉幾個名人進來比較,最常見的大概是愛因斯坦,來自英國的報導大概會再加上史帝芬霍金。
愛因斯坦並沒有留存智力測驗的紀錄,事實上我們根本不知道愛因斯坦是否曾做過任何智力測驗。 根據 愛因斯坦官網 記載:「As far as we known today, Albert Einstein has never done any IQ test. Thus his IQ is unknown!」
稍微想一下就知道這是很合理的,因為在愛因斯坦年輕的時候,智力測驗的方法仍處於發展初期,既不成熟也沒有被廣泛使用。等到智力測驗方法足夠可靠時,愛因斯坦也已經到了沒必要關心這些瑣事的人生階段。給個參考時間點,愛因斯坦在 1905 年發表狹義相對論,同一年 Alfred Binet 發表了世界最早的智力測驗,測驗對象是兒童,而 Cattell 智力量表的開發者 Raymond Cattell 則在當年出生。
許多關於天才兒童的報導就只是丟出一個智商數值,例如 165,但是除非給定採用的測驗方式,否則這樣的一個數值沒有太大的意義。因為現實中存在許多不同的智力量表,智商並不是標準數字。和身高、體重、跑多快、跳多高不同,心智能力非常抽象,既沒有明確的測量目標,也沒有單一的測量方法。心理學家首先觀察人類智能有哪些特質,依此建立智能的理論模型,再來設計題目量化各項能力。隨著對人類心智的了解越來越深入,這些測驗也會隨著逐漸改版,現代的測驗評量範圍比從前更廣泛,題目設計的考量也更周詳,有些測驗試圖排除文化差異帶來的影響。
不同的測驗法不僅測驗內容不同,呈現結果的方式也有差異。有些測驗不只給出單一的智商數值,還會給出一組反映各項能力的的數組,類似電玩角色的能力值多邊形圖。所以同一個人在不同測驗中自然會得到不同數字,以 IQ 紀錄名人 Evangelos Katsioulis 為例,他的 Stanford-Binet 分數為 205,魏氏成人智力測驗為 198.4,Cattell III 成績為 258,這些數字通通都可以稱為他的 IQ(不過這裡的數值其實是很有問題的,接下來會探討)。
許多報導隨意抓幾位名人的智商值來比較,純粹是關公戰秦瓊式的惡搞,熱鬧有餘,參考價值全無,這還沒說許多名人的智商很可能只是「推估」或者根本是杜撰的。
接下來談談智商的數值是怎麼得到的。最早期的 Binet 智力測驗發展於十九世紀末,主要是用於鑑別發展遲緩兒童。早期的 Binet 智商的算法是:(心智年齡 / 實際年齡) * 100。如果有個外表看似小學一年級的小孩,卻有著高二的心智能力,他的 Binet 智商為 (16 / 7) * 100 = 228.6。這個算法主要只針對兒童而設計,若硬套用到成年人意義就會變得很奇怪。
後來開發的智力測驗,大多依賴人類智力大致呈現常態分佈這項特性,連新版的 Stanford-Binet 也是如此。這類計算方式首先要知道一項測驗的原始成績在母群體中如何分佈, 之後只要得到受測者的原始成績,就可以推算受測者在母群體中的什麼位置。舉例來說,魏氏智力測驗將測驗成績平均值定為 100,一個標準差換算成 15 分。如果有人的原始測驗成績和母群體相比,落在比平均高出一個標準差的位置,他的智商就是 115。反過來說,如果有人的魏氏智商為 130,這表示他的原始成績落在比平均高出兩個標準差的位置,也可以說他的測驗原始成績勝過 97.7% 的人。
其他的測驗雖然採用同樣的原理,但是一個標準差對應的分數可能會不一樣。舉例來說 Stanford-Binet 將一個標準差換算成 16 分,而 Cattell III 則使用 24 分。這裡必須特別一提,英國 Mensa 協會正式認證的測驗方式是 Cattell III 和 Cattell Culture Fair III。所以如果看到來自英國的報導,裡面又提到 Mensa 協會認證,可以想見那些數字放到魏氏或 Stanford-Binet 根本高到爆表。當然這樣的比較一點意義也沒有。
這裡要特別提醒的是,這些測驗涵蓋內容不同,雖然彼此之間具有高相關性,但不能像華氏轉攝氏溫度那樣,可以直接把一項量表按照常態分佈換算另一項量表上。舉例來說,根據 維基百科的資料 ,Cattell Culture Fair Test 和 WISC Full Scale IQ 之間的相關性為 0.72,而和 Otis Beta Test 相關性只有 0.49。
理想的常態分佈可以向兩端無限延伸,那麼把原始測驗成績換算成智商也可以無限制推算下去嗎?假如比照魏氏測驗將一個標準差算成 15 分的話,有人可能會這樣推想:
- 高出平均 2~3 個標準差,即 IQ 130~145,只佔人口 2.14%。
- 高出平均 3~4 個標準差,即 IQ 145~160,只佔人口 0.13%。
- 高出平均 4~5 個標準差,即 IQ 160-175,只佔人口十萬分之 3.13。
- 高出平均 5~6 個標準差,即 IQ 175-190,只佔人口千萬分之 2.85。
- 高出平均 6~7 個標準差,即 IQ 190-205,只佔人口百億分之 9.85。
- ...
再推下去,早就超過全球人口,這到底代表什麼意思呢?難道是好幾世代才有機會出現一位的奇才嗎?往反方向想也很奇怪,原始成績最差不過就是一題也做不出來,要怎麼無限推下去呢?
其中牽涉到兩個問題。首先,人類智力呈現常態分佈這個特性只有在中位數附近才成立,偏離中位數越遠就越不符合常態分佈。另一方面,智力測驗的題目是用非常人為的方式設計出來的,現行最成熟、可靠的智力測驗都是針對大多數人--例如中間的 99% 人口--而開發,這些測驗內容並不適用於鑑別那些超出常人的心智。打個比方來說,高中數學考卷並不適合用於鑑別數學博士的學術水準,我們不能說解題越快、正確率越高的人具備較高的數學造詣。
所以大部分的智力測驗將原始分數轉換成 IQ 值時,都會設定有效的上下界,通常不會超過三個標準差。例如 Stanford-Binet 有效的範圍為 40~160,而魏氏測驗上限為 150,Cattell Culture Fair 上限則是 183。只要原始分數高過某個水準,都會直接轉成量表的上限值。那麼報導中常出現那些超高的 IQ 值是怎麼來的呢?基本上就是無視有效範圍,硬是將原始分數用外插法得到的,這已經犯了過度外插的錯誤。這種方式即使硬得到一個數值,也已經失去了原本量表的意義。
那些門檻極高的高智商社群,都會遇到這樣的窘境: 目前最成熟、可靠的智力測驗通通都沒辦法滿足他們的需求,畢竟主流的測驗都是為了實用目的發展而來,而不是為了讓那些頂尖少數人分出高下。其中 Mega 協會希望會員具有百萬中取一的高智商,可是主流智力測驗所能達到的大約也就是百分之一這個數量級而已。所以 Mega 協會只好發展出自己專屬的測驗,主要的精神在於讓受測者在比較沒有時間壓力的情況下去解決一些困難的問題。儘管這些測驗或許能滿足「分出高下」這樣的需求,不過學界大多認為這些測驗缺乏嚴謹的研究基礎,信度和效度都存在疑問。
許多報導會拉名人進來大亂鬥,抱持的就是這種在數字上分高下的心態,畢竟心智能力非常抽象,要說誰比誰聰明根本無憑無據,而智商似乎提供了一個「客觀」的比較基準。但不要忘了智力測驗終究是用非常人為、有形的方法,去測量無形、甚至沒有精確定義的對象。
心理學家 J.P.Guilford 曾在二戰時協助設計心理測驗,用以篩選有潛力的戰鬥機飛行員。雖然大家都知道優秀的戰鬥機飛行員通常具備某種「聰明」的特質,但智力測驗成績高的人實戰表現反而不盡理想,Guilford 經過觀察後發現,優秀飛行員重要特質之一是善於臨機應變,當時的智力測驗無法反映出這方面能力,這促使他轉而研究如何評量一個人的創造力。
諾貝爾物理學獎得主理查費曼在中學時期曾留下一個智力測驗成績,數字是 125,但我查不到是哪一種測驗。若熟悉費曼生平事蹟以及同時代的人給他的評價,一定會覺得這個數字出乎意料的低。即使不提未來的成就,費曼在學生時代就已經有非常突出的表現,他在高中的最後一年獲得了紐約大學數學錦標賽冠軍,由於分數和第二名差距相當大,使裁判感到震驚。大學時期,費曼臨時決定參加以困難而聞名的 Putnam 數學競賽,即使賽前沒什麼時間準備,仍然是 1939 年全美成績最高的五人之一(Putnam 的慣例是選前五名為 fellowship,但不區分五人排名)。
有人認為那個時代的智力測驗可能有平衡性的問題,過度偏重語文方面,這剛好是費曼的弱項。如果排除各種偏差的話,費曼的智力測驗成績應該會高很多,但即便如此,費曼也不一定能達到大眾文化想像中「絕世奇才應有的」 IQ。我的想法是,費曼之所以顯得出類拔萃,或許不應只歸因於邏輯推理、空間、算術... 這些片面功能(當然費曼的這些基本能力和普通人相比已經非常優異),更重要的是他有某種能力將這些事務性的技能組織起來,展現出易於常人的才智。這種能力可能是先天的,也可能是後天學習來的,無論如何,偏重於片面功能的智力測驗都很難評估這種特質。
經過幾十年的發展,現代的智力測驗信度還算不錯,而且對於學業、職業表現有一定程度的預測能力。儘管我們可以在一定程度上依賴智力測驗的結果,但別忘了智力測驗的原始目的: 當一個人在學業或職業上還沒有表現時,其他人只好用智力測驗來預估這個人可能具有什麼潛質。當一個人實際達到某些成就後,這些準確有限的預測就不再重要了。那些智商極高的人如果沒有做出值得一提的事,終究會被人遺忘。
留言列表