變態心理學：3.2.2 心理測驗_德博拉 C.貝德爾等

心理測驗測量的各種維度數以百計，所涉範圍從人格到智力到各種具體症狀。在接下來的部分，我們將提供一個關於不同種類心理測驗的概述，這些測驗可測量的維度有人格特徵、心理功能的一般水平、智力以及行為。

1.人格測驗

人格測驗（personality test）的選擇取決於它的目的以及它評估的是健康人還是臨床樣本，當然也有許多人格測驗測量的是重疊概念。最著名的人格測驗應該是明尼蘇達多相人格問卷（Min-nesota Multiphasic Personality Inventory,MMPI），1943年由明尼蘇達大學心理學家哈撒韋（Starke Hathaway）和精神病學家麥金利（J.Charnley Mc-Kinley）編製（Graham，2000）。他們編製出了有567道題的紙筆測驗，並使用當時的創新技術克服了早期評分方法的主觀性。他們使用實證效標（empirical keying）的方法，提出了用來識別不同群組（如抑鬱患者和非抑鬱患者）的項目和分數類型的統計分析方法，只有能區分群組的項目可被保留。MMPI也包括用效度量表來評估應測行為。例如，謊言量表能識別那些不想準確描述自己的人。詐病量表可以確定被測者是不是「偽裝好」（把自己描述得比實際要心理健康）或者「偽裝壞」（把自己描述得比實際有更多心理痛苦），此外還有臨床量表能評估特定的心理特徵。

MMPI的修訂版本MMPI-2，包括9個臨床份量表：疑病量表、抑鬱量表、癔病量表、精神病態量表、男子氣-女子氣量表、妄想量表、精神衰弱（焦慮）量表、精神分裂症量表和輕躁狂量表。MMPI-2通過電腦程序計分並產生出一份測驗心理學家可以解釋的人格剖面圖（見圖3-3）。然而，MMPI-2在少數民族群體的使用引起了人們的關注，因為該測驗最初是由白人樣本標準化的（Butcher et al.，1989）。

圖　3-3　MMPI剖面圖樣本 MMPI由電腦計分並生成臨床份量表分數及一個人格剖面圖。

百萬臨床多軸問卷（Million Clinical Multiaxial Inventory,MCMI）是一個175項對錯判斷題的問卷，對應著8個基本的人格風格（分裂樣、迴避型、依賴型、表演型、自戀型、反社會型、強迫型、被動攻擊型，參見第11章），3種病理性人格綜合征（分裂型、邊緣型、偏執型）和9個症狀障礙量表（焦慮症、軀體形式障礙、輕度躁狂、心境惡劣障礙、酗酒、藥物濫用、精神病性思維、精神病性抑鬱、精神病性妄想）。MCMI有足夠的信效度，醫生一般也更喜歡使用它而不是MMPI，因為完成這個測試所需要的時間要短很多。但是，MCMI同樣也存在一些問題，它不能很好地與DSM分類系統所描述的障礙類型相匹配，並且MCMI也同樣存在文化偏差。

2.心理功能的一般測驗

這類評估收集參與健康對照研究的人們心理功能的一般信息，也可用於比較群體或人口心理功能的一般水平，或者比較人們在某特殊事件或干預之前之後的心理功能變化。它們並不集中於某一特定症狀如抑鬱或者焦慮，而是給出一個人的心理功能運作有多麼好的廣泛概述。

功能整體評估量表（Global Assessment of Functioning Scale,GAF；見圖3-4），是一個由醫生安排的評估，來描述患者的整體功能和健康程度。醫生會從0～100的數字中選擇一個數字來表述患者現在的功能狀態。評價包括兩個方面，症狀的嚴重程度以及在社會關係、工作或學校表現中的損害水平。GAF分數的比較可以作為臨床改善的廣泛指示器。

另一個常用的精簡問卷是12項一般健康問卷（General Health Questionnaire,GHQ）（Goldberg＆Hillier，1979）。GHQ給出一個最近幾周心理健康狀態的初步印象，並且可以提供有意義的轉換分數。每項都用四份量表來表示偏離個體尋常經驗的程度。比如有一些問題是：你最近……在做什麼事情的時候，能集中精神嗎？有由於過分擔心而失眠的情況嗎？能享受日常活動嗎？以及總的來看，感到適度的愉快嗎？

3.神經心理學測驗

神經心理學測驗通過簡單或複雜的任務檢測認知功能損害，這些認知功能包括語言、記憶、注意與專注、運動技能、知覺、抽像思維與學習能力。被測者在任務中的表現可以讓人們深入瞭解大腦的功能。

一個被廣泛使用的、評估腦損害的測驗是Halstead-Reitan神經心理成套測驗（Halstead-Reitan Neuropsychological Battery,Reitan＆Davidson，1974），這個測驗可以評估腦損害的存在，可以區分健康個體和皮層損害患者。該測驗含10項對記憶、抽像思維、語言、感覺-運動統合、知覺和運動靈活性的測量。

另一個常用的神經心理學評估是威斯康星卡片分類測驗（Wisconsin Card Sorting Test,WCST），這個測驗測量定勢轉換（set shifting），也即思維隨任務目標變化而靈活轉換的能力（見圖3-5）。由主試呈現四張刺激卡片，每張分別呈現的是一個紅色的三角、兩個綠色的五角星、三個黃色的十字和四個藍色的圓。之後主試給出反應卡片並要求被試將每一張都與四張刺激卡片相匹配。主試並不告訴被試如何匹配卡片的規則，但是會基於主試制定的特殊規則告訴被試他的匹配正確與否。當被試匹配對了之後，規則會變化。測驗會做128次匹配或者當所有的規則都改變完，或者到「完成正確分類」為止（Resources，2003）。

圖　3-5　威斯康星卡片分類測驗這個測驗測量定勢轉換，也就是思維靈活轉換的能力。它是用來測驗大腦疾病患者的。

WCST的完成需要注意、工作記憶和視覺加工的參與。WCST可以作為額葉測試，因為額葉病變者的WCST成績很差。WCST用來區分是否有前額葉損害，並常被用來檢測精神分裂症、腦外傷患者，以及神經退化疾病如癡呆或帕金森氏症（Resources，2003）。

其他常用神經心理學評估包括本德爾視覺運動完形測驗（Bender Visual Motor Gestalt Test，見圖3-6），一個通常被用於檢測兒童視覺運動發展以及一般的腦損害和神經損害的簡單篩選工具（Piotrowski，1995）。還有Luria-Nebraska神經心理成套測驗（Luria-Nebraska Neuropsychological Battery；Golden et al.，1980）。Luria-Nebraska測驗與Halstead-Reitan測驗類似，但在測量器質性腦損害上表現更精確。與許多其他成套測驗不同，Luria-Nebraska測驗使用非結構的定性方法，生成14個分數，包括運動、節奏、觸覺、言語表達、書寫、閱讀、計算、記憶、智力加工以及左右腦功能。執行神經心理學成套測驗需進行專門的培訓，因為這些評估的操作和計分時間長而且複雜（Gur et al.，2001）。這種培訓確保了一個標準化的方法，使不同測驗者的得分可以相互比較。

圖　3-6　本德爾視覺運動完形測驗該神經心理學測驗常被用來檢驗腦損害或神經損害。讓患者複製圖形（A）來看其是否有損害或損害存在（B）。資料來源：Nevid/Rathus/Greene,Abnormal Psychology in a Changing World，5e,p.91.Copyrightc2008 Pearson/Pren-tice Hall.Reprinted by permission.

4.智力測驗

雖然結果往往被曲解，智力測驗（intelligence tests）仍是心理學家最常用的測驗。如後所述，智力測驗的最初目的是為了預測在學校的成就。智商（intelligence quotient,IQ）最初是指一名兒童的心理年齡（通過針對特定年齡的問題得到正確答案的評估）除以他/她的實際年齡。目前智商的分數意義有所變化，側重於對比個體與同齡人的表現。IQ分數的標準化為：平均分為100，標準差為15。這就意味著一個IQ為130的人超過平均數兩個標準差，也說明其智力相對於其他人要好許多。

歷史上智力測驗開始於20世紀交替時的法國心理學家阿爾弗雷德·比奈（Alfred Binet）和他的同事西奧多·西蒙（Theodore Simon），他們在法國政府的授權下編製了一個測驗來預測學業成就。1916年，劉易斯·推孟（Lewis Terman）在斯坦福大學用英語翻譯修訂了比奈量表，隨後被命名為斯坦福-比奈智力量表。

自此以後，斯坦福-比奈智力量表經過數次修訂，目前是其第5版。在斯坦福-比奈測驗中有評估言語與非言語技能的分測驗。最新版本在4800人基礎上進行標準化，測驗項目考慮到被測者的人口學特徵可能出現的各種偏見（基於性別、民族、年齡等對某些項目的反應是否會出現偏見）。測驗的效度由其他效度良好的智力測驗評估，包括先前版本的斯坦福-比奈智力量表和韋克斯勒成人智力量表，後者是非常有名的智力測驗，我們會在後文討論。大量研究表明，斯坦福-比奈智力量表測量從智力低下到天才智商這一連續體上的人們的智商都做得很好。

韋克斯勒成人智力量表（WAIS-IV）（Wech-sler，2008）首次由韋克斯勒（David Wechsler）發表於1955年，現在是其第4版。韋克斯勒成人智力量表是目前最常用的智力測驗之一，用於評估患者、學生、職員、罪犯以及其他人群的智力。測驗最初用於軍隊。該測驗基於韋氏對智力的定義「智力是個人行動有目的、思維合理、應付環境有效的、聚集的或全面的才能」（Wechsler，1939，p.229）。

WAIS-IV有4個指數分：言語理解力指數（VCI）、工作記憶指數（WMI）、知覺推理指數（PRI）和加工速度指數（PSI）。這4項指數分聯合產生綜合的全量表智商（FSIQ）分數。VCI和PRI可以產生另一個指數即一般能力指數（GAI）。4個索引指數分中的每一個都能反映出個體在一組測量類似智力技能的分測驗中的表現。例如，言語理解力分測驗通過由言語操作和回答的測驗來測量理解力。分測驗中的具體任務是測量言語推理（例如，敘述兩個物體如何相似的能力）、知識一般儲備、給字詞下定義的能力和社交表達理解力（例如，一石二鳥）。工作記憶分測驗也通過言語施測，但其分測驗通過要求人們回憶之前之後的數字順序、做心算題以及記憶字母和數字順序以專門評定人們的注意、專注和記憶力。知覺推理和加工速度分測驗均要求被試盡可能快地完成特定任務。例如，知覺推理分測驗測量如對細節的注意（例如，某一圖片缺了什麼）、非言語推理（拼圖）以及空間知覺（安排積木以匹配已印好的圖案）等技能。加工速度分測驗通過要求被試確定目標符號是否在一排符號中，並且抄寫與格子中的符號相一致的數字來測量視覺運動協調和視知覺。對於這些任務，速度和精確性都在考慮中。

WAIS-IV（Wechsler，2008）通過60多分鐘的測試來評定16～90歲人的認知功能，與美國2005年人口普查資料相匹配，並考慮到了不同的性別、社會經濟地位、種族、學歷和地理位置。16歲以下的個體適用韋克斯勒兒童智力量表（Wechsler Intelligence Scale for Children,WISC-IV，7～16歲）和韋克斯勒學齡前和學齡初兒童智力量表（Wechsler Preschool and Primary Scale of Intel-ligence,WPPS-III，2.5～7歲）。

智力測量向來備受爭議。這是一個先後天之爭異常激烈的領域。除了智力如何受影響的問題外，智力的概念也在不斷改變。與韋克斯勒早期測量認知功能的方法相比，現在的智力測驗識別和評估智力的各種細微差別和成分。更有趣的是，神經科學上的進步使我們可以研究大腦和與各種反映智力不同方面的任務相聯繫的腦活動的性質。

另一個爭論涉及智力測量在性別、社會經濟地位、種族以及文化背景方面的偏見問題（Shuttleworth-Edwards et al.，2004）。一個存在已久的爭論是，智力測驗以白人男性做標準，這不適用於少數人群，包括女性、少數民族、非英語人口和殘疾人（Suzuki et al.，2001）。為開發出以這些因素為基礎的公平測驗的研究還在進行中。

智力測驗還有一些缺陷。最重要的是，它們不能反映出智力的所有種類。智力是一個多面的複雜概念，許多人認為它的測量不應局限於注意、知覺、記憶、推理和言語理解力（Gottfredson，1997）。這樣的測驗無法涵蓋如邁克爾·喬丹在籃球場或莎士比亞在文學上的天賦等智力的其他方面。但是，如果智商分數不被用作廣義智力概念上的測量，那它就有用處了，最顯著的是體現在對學術成就的預測，以及對成績不足和不平等、認知損害和精神發育遲滯的評估。

5.投射測驗

投射測驗（projective tests）源於精神分析理論。被廣泛應用的兩個投射測驗是羅夏墨跡測驗和主題統覺測驗（TAT）。羅夏墨跡測驗（Rorschach Inkblot Test）由德國[1]精神病學家羅夏（Hermann Rorschach）研發並於1921年首次發表。在這個測驗中，呈現給患者的是越來越複雜和模糊的墨跡（見圖3-7）。第一張墨跡是很簡單的黑白印記，之後的墨跡愈加複雜和色彩鮮艷。測驗的基本原理是在被給予如此模糊的刺激時，患者投射出對它們的獨特的理解，反映出他們潛在的無意識過程和衝突。你能馬上看出來羅夏墨跡測驗的信度和效度是需要我們考慮的工作。雖然羅夏在研製出一個可靠的評分系統之前就去世了，臨床心理學家約翰·艾科納（John Exner）為測驗的標準化和評分編製了一套嚴密系統，即綜合系統（Comprehensive System,CS）。CS是一項把墨跡測驗分解成複雜的變量矩陣的卷帙浩瀚的工作。對這些變量的解釋和評分建立一個結構化總結，醫生可以用此總結來理解被試的人格特質和心理功能（Exner，2005）。儘管羅夏墨跡測驗的結構化嘗試很勇敢，但仍有很多批評，致使它的有效性被高度質疑（見「證據檢驗：羅夏墨跡測驗」）。

圖　3-7　一個和羅夏墨跡測驗相似的墨漬對你來說它像什麼？

證據檢驗　羅夏墨跡測驗

·事實　儘管最近幾年羅夏墨跡測驗的流行程度稍微有所下降，但它仍然是一個被廣泛應用的心理測驗，臨床心理學學生經常被訓練如何使用它（Lilienfeld et al.，2000）。艾科納的綜合系統（CS）是最被普遍講授的操作和計分程序。180多個CS結果分歸為CS得分。但該測驗的效用是心理學領域熱議的話題，有許多科研論文支持或反對它。它的擁護者認為它從患者那裡引出了一種其他心理測量無法得出的信息，這些信息對於臨床判斷的得出非常重要。它的批評者指出了三個主要局限：測驗的信度、常模資料的充分程度以及分數的效度。羅夏墨跡測驗有用嗎？讓我們檢驗一下證據。

·證據

1.關於信度的證據，擁護者指出75%的CS得分有足夠的評定者間一致性（Wood et al.，2006），總體CS得分（基於各項目分數的總和）的信度要高於個體項目的信度（Hibbard，2003）。

2.關於常模資料的充分程度，擁護者指出在將近600個人（包括非患者的成年人、兒童以及不同患者組）中收集的數據在對心理評估的解釋上是充足的。和常模樣本相比，其他組心理健康問題的過度診斷（該測驗的明顯問題）可以這樣解釋：即常模樣本更健康，自原始常模數據收集後評分程序的改變，社會上日漸增多的心理病理學問題，以及（或）後續研究中計分不充分（Hibbard，2003）。

3.關於效度，擁護者指出研究中的效度係數可能會低估測驗的效用，因為當將患者反應整合進個性化評估中時，羅夏墨跡測驗是非常有用的（Meyer et al.，2001）。換句話說，當醫生的臨床判斷將羅夏墨跡測驗結果和其他評估手段的分數結合時，效度就會增加。也許羅夏墨跡測驗的過程太複雜以致難以證實其效度（Meyer et al.，2001）。

·檢驗證據

1.25%的CS分數不滿足傳統的評定者間一致性信度意味著什麼（Wood et al.，2006）？在這種類型的測驗中，是否75%的評定者間一致性信度就已足夠可靠？此外，大多數得分的重測信度都未得到足夠檢測（Lilien-feld et al.，2000）。

2.由艾科納和他的同事發表的常模數據已經過期了。它們是在20世紀七八十年代收集起來的，沒有根據新近確定的計分程序來計分。這就導致了一些個體心理健康問題的過度診斷，可事實上他們並沒有心理健康問題（Garb et al.，2005）。

3.180多個CS分數中只有20個存在足夠效度，包括那些探查精神病性障礙、從屬物和療效的項目。另外160個CS分數至今未被論證為有效，但是它們繼續被用來幫助做出關於人們心理狀態的重要判斷（Wood et al.，2006）。

·結論　羅夏墨跡測驗的批評者和提倡者都贊成實證數據支持了一些用作特定目的的CS分數的效用。他們也同意很多CS分數至今未被充分地研究以評價它們的有效性。在這些方面意見的分歧很大程度反映了在評估過程中心理學家是依靠經驗資料還是醫生的判斷的分歧（Garb et al.，2005）。以科學為基礎的心理學家反對那些沒有被證實有效的評估工具的使用，因此他們不支持在做心理學判斷時使用未被證實有效的CS分數。在這個陣營的人也指出缺乏證據支持臨床判斷促進預測的觀點（見本章關於臨床判斷與統計預測的討論）。但是很多羅夏墨跡測驗的擁護者界定自己為科學家-實踐者，在實證數據不支持時依然認為患者的反應是有臨床效用的。而反對者則選擇將這些墨跡掛在牆上作為紀念心理學過去的藝術品。

第二個流行的投射測驗是主題統覺測驗（Thematic Apperception Test,TAT），於1935年由哈佛心理診所的研究人員開發。這個評定包括31張黑白圖片，要求被試根據圖片上的圖像編故事。主測在沒有規範計分系統的情況下解釋故事，根據自己的理論傾向自由評價被試的回答。和羅夏墨跡測驗一樣，據說所提供的描述可以深入洞察被試的心理過程和無意識。考慮到測驗材料的定性特點以及測驗缺少嚴密的計分及解釋方法，TAT仍然是一個主觀測驗。

儘管有很多弱點，投射測驗仍然在一些圈子內很流行。甚至即便不將測驗作為實際診斷的一部分，很多醫生也會在這兩種情況下使用它，一是在治療的初始階段用來「讓患者張嘴說話」；二是在對談及感情有困難的患者使用，以使他們對自己的感受更貼近。

6.特定症狀的測驗

除了一般心理功能的測驗，我們也需要能夠對特定類型的症狀如抑鬱和焦慮提供可靠有效測量的評估工具。當評估一個治療時，我們想知道某一療法對於減輕某一特定障礙的症狀有多大成效（例如，兩種療法中哪一個能更好地減輕抑鬱症狀）。當一位治療師治療某個人的特定問題時，例如考試焦慮，他或她會在治療進程中用能夠測量出考試焦慮嚴重程度的問卷做評估以查看干預的效果。僅僅為了這個目的，已經開發出很多量表。一些是醫生的評估，其他的是自我陳述。

簡明精神病評定量表（Brief Psychiatric Rating Scale,BPRS）（Overall＆Gorham，1988）是一種醫生評價用於評估多種心理症狀的量表，包括關心軀體健康、焦慮、情緒性退縮、罪惡感、緊張、裝相和作態、抑鬱心境、敵對性、猜疑、幻覺、動作遲緩、不合作、不尋常思維內容、情感平淡、興奮和定向力障礙。BPRS評估許多特定症狀。其他測驗評估範圍則局限於評估某特定障礙的症狀。實際上每種精神病性障礙都有這種障礙指向的量表。例如，人們常用貝克抑鬱問卷（Beck Depression Inventory-II,BDI-II）（Beck et al.，1996）評估抑鬱症，它是一個含21個項目的自陳問卷。貝克焦慮問卷（Beck Anxiety Inventory,BAI）（Beck＆Steer，1993）也是一個含21個項目的自陳問卷，用以測量焦慮症狀的程度。不同研究者對這種特定量表的使用有著在不同研究和患者群體間進行治療效果比較的優勢。用這些測量的醫生也更能夠評價他們的患者在治療中的進步。

[1]應是瑞士，原文誤。——譯者注