變態心理學：3.1.2 評估工具的特徵_德博拉 C.貝德爾等

一個評估工具的潛在價值部分地由其心理測量學特徵決定，這些特徵影響我們對測驗結果的自信程度。比如，瞭解評估工具在測量想測量的特徵或概念上做得有多好是非常重要的。舉例說，一個測量抑鬱的量表實際測量抑鬱症狀有多好？一個工具的心理測量學特徵包括標準化、信度和效度。

1.標準化

為了理解臨床評估的結果，得分必須是在一定的背景下。回想一下剛才提到的發燒。為什麼104℉的溫度使人擔心？因為它遠遠高於人身體的正常的98.6℉的體溫。因此，你會用正常的體溫去衡量你是否發燒了、是否需要用一些藥。同樣，理解心理評估的結果需要將其放到背景裡。一個特殊的得分是否意味著問題、它的嚴重性或隨時間的改善的存在？標準的評估得分應包括與常模或與自己參照的比較（或兩者都有）。常模（normative）比較指將一個人的得分與能代表總體人群（包括年齡、性別、種族、教育和地理區域等特點）的樣本得分比較或者是和與被評估患者一樣的亞群體得分相比較。如果我們測量100個成年人的體溫，平均的溫度（平均數）會是98.6℉。這是人體溫度常模。如果一個人的得分與群體常模差太多，我們就能假定有問題存在。為了判斷一個得分是否與群體常模差太多，我們會用到一個叫做標準差（standard deviation,SD）的統計學概念（見圖3-2）。標準差能顯示某一得分與平均值差多遠。根據統計學原理，如果一個得分距離平均值超過兩個標準差，就意味著該得分與正常值有著顯著差異。在將得分與常模群體比較時，不但要考慮患者的特性，還要考慮群體的特性。

圖　3-2　正態曲線數字顯示了標準差（SD）。一個分數如果偏離平均數（中心點，0）超出兩個標準差便可以被認為是與常模有顯著差異的。

如果波林在記憶測試中的得分低於中年人的平均水平，但是跟她同齡和受到同等教育的人的得分是一樣的，我們就不必擔心她存在認知損害。然而，如果，她的得分遠遠低於跟她同齡和受到同等教育的人的得分，那我們就能得出結論，她存在嚴重的認知困難。

自我參照比較（self-referent comparisons）是指對個體自身治療前後對某心理學工具的反應的比較，這種方法最常被用於檢驗症狀的進程。如前面發燒的例子，不是每個人都有標準的98.6℉的體溫。一些人的正常體溫可能是99.2℉。在自我參照比較中，我們將104℉的體溫和正常體溫99.2℉進行比較。

如果波林在認知損害測試上的得分遠遠低於她6個月之前的水平，我們就該擔心這些症狀有潛在的惡化可能。自我參照比較也用於療效評估。在治療上，我們當然希望看到自我參照比較發現症狀的改善和生活質量的提高。

2.信度

評估工具的信度（reliability）體現在其穩定性上，或者每次用評估工具施測時所得結果的一致性程度（Compas＆Gotlib，2002）。測試你體溫的溫度計一般都是十分可靠的：因為它的讀數不管是在你這次測完體溫後還是過10分鐘再測時都是一樣的。心理測試也應如此可靠。如果一個測試不能每次產生相同結果，則這個測試是毫無作用的。信度有很多種評估方法。重測信度（testretest reliability）強調了測驗分數在不同時間的測試中的一致性。要評估重測信度，我們在一個時間段對同一組被試做兩次測試，比如間隔兩周或者一個月。然後計算兩組數據的相關係數以評估其一致性（見第2章）。相關係數達到0.8或以上說明該評估手段有很高的信度。

另一種信度的重要評測方法是依靠醫生判斷的評定者間一致性（interrater agreement）。當醫生會見患者時，他們必須確定這些人的症狀是否足夠嚴重到需要下診斷或給予治療，並且不是每個人都會用相同的方式來判斷這些行為。在這些案例中，我們想要知道不同的醫生對於症狀的嚴重程度的判斷是否一致（即評定應更多地反映被會見的患者的狀況而不是會見患者的醫生的觀點）。要評估評定者間一致性，需要兩位醫生來對同樣的患者進行同樣的會見。

3.效度

一個好的測驗不僅要有信度還要有效度。效度（validity）指一個測驗實際能測出其預測內容的程度。大多數我們在心理學上要測定的內容是假設的或無形的概念（如自尊、情緒、智力）。這些工具的效度可以告訴我們在多大程度上評估了這些複雜的內容。結構效度反映了測試在多大程度上準確地評估了某一特定概念而不是其他相關概念。比如一個有效測量羞怯的測試應該反映羞怯概念的各種成分（擔心別人是否喜歡自己，避開需要交際活動的情境，當想要對人顯示友好時會出汗和臉紅）但不應該反映其他概念如恐懼（比如對蛇或針的恐懼）或抑鬱的症狀，即使這些症狀常伴隨羞怯出現。

效標效度是效度的另一種形式。它反映的是一個測驗（可能是一個新開發出來的學業成就測驗）與評估同樣內容的測驗（已成熟的測驗）的相關程度。同時效度也是效標效度的一種類型，反映的是同時給出的兩種測試之間的關係，比如學習能力傾向測驗（Scholastic Aptitude Test,SAT）和美國大學考試項目（American College Testing Program,ACT）。預測效度反映的是一個測試能夠預測將來行為表現的能力，比如SAT預測研究生入學考試成績的能力。再如一個好的抑鬱測驗應該與醫生在同一時間對其抑鬱的診斷呈現高相關（有很好的同時效度）。一個好的智力測驗也應該與被測者之後的學術表現呈現高相關（預測效度）。

另一個與效度有關的問題是心理學家的預測或在評估程序最後所得結論的準確性。畢竟評估數據是收集來的，醫生會被要求做出判斷，比如這個人是否有嚴重抑鬱？一個性犯罪者會再次犯罪嗎？此時對於這個人的最好治療方法是什麼？這個學生能否很好地適應這種課程體系？回答這些問題是困難的，但是我們可以從很多健康與行為研究的結果（Grove et al.，2000）中知道，醫生如果將他們的結論建立在統計學的基礎上而不是建立在臨床預測策略的基礎上，那麼他們會做出更準確的判斷。在統計預測中，醫生對某人做出的判斷是建立在從龐大人群所獲數據的基礎上的。例如，保險公司在決定如何標價他們的保險項目時會參考大型的研究，這些研究提供死亡可能性或基於如年齡、吸煙及酒精等已確認的死亡風險因素造成的意外死亡可能性（Compas＆Gotlib，2002）。存在風險因素越多的人將會為他們的保險支付更多的錢。而臨床預測則依賴於以醫生判斷為基礎的資料的整合。臨床預測的一個例子就是：研究生新生錄取時大多是以主考官對申請人在整個面試過程中一系列表現的印象為標準，而不是以一個好的研究者應有的素質為標準。一般來說，當分別使用這兩種預測策略的時候，建立在同一患者資料基礎上的預測結果可能會有非常大的不同（Grove，2005）。

心理評估領域的領軍人物保羅·米爾（Paul Meehl），早在1954年就有過關於統計預測遠比醫生判斷要準確得多的主張。超過136項研究的資料都支持這個結論（Grove et al.，2000）。當所得資料可被用於預測誰將受益於什麼樣的治療時，統計預測即被用於以證據為基礎的醫療實踐中。但當相關統計數據不存在以及需要發展新假設時，人們就使用臨床預測。在使用本章臨床訪談部分所討論的結構式訪談時，醫生判斷也會影響結果。