變態心理學：2.3.2 對照組設計_德博拉 C.貝德爾等

多數心理學研究使用對照組設計（controlled group designs），被試組接受由研究人員安排和控制的不同實驗條件。這類設計中，至少有一個實驗組的被試與至少一個對照組的被試進行比較。在實驗設計上各組之間在盡可能多的變量上高度相似（如年齡、性別、教育程度等），只在實驗者控制的自變量（independent variable,IV）上不同。例如，一組抑鬱症患者接受治療（實驗組），另一組不接受治療（對照組），其他方面均相同。然後評估自變量（IV）對因變量（dependent variable,DV）或結果測量的影響，經統計分析探討因變量（DV）的組間差異是否大於偶然因素。若大於且組間差異只來自自變量（IV）的不同，則認為可能是自變量（IV）導致了這一差異。最有說服力的因果關係來自隨機對照設計。

1.隨機對照設計

這一設計的最重要的特點是隨機分配（random assignment）被試組。在嚴格的隨機分配中，每一個被試被分到某一組的機會均等。除了隨機分配，隨機對照設計的其他特點也會影響研究結論，包括被試選擇程序、內部和外部效度以及評估策略等。在決定如何選被試時需慎重考慮是否需要招募類似樣本或臨床樣本。類似樣本（好比一個類似物），是那些有所要研究的各種特點和相似的求醫需求但不需真正臨床治療的群體。例如，研究者對社交焦慮感興趣，就可以通過在報紙上刊登廣告招募一些有公開演講焦慮的類似樣本。類似樣本通常來自大學校園和社區團體。相比之下，臨床樣本則是那些為特定問題而求醫的群體。焦慮障礙診所的研究人員可以邀請診所患者參與他們的治療研究。

招募類似樣本或臨床樣本的決策是同時基於理論和實踐考量的（例如，處理什麼樣的問題並有哪些資源可以利用），而這一決策對研究結論有重要意義。例如，有研究者想檢測年輕人中抑鬱症的治療效果，選擇來自一般大學人群（可能有大量情緒低落問題的群體）的樣本和來自抑鬱症相對常見的學生心理咨詢中心（學生主動尋求治療）的樣本將得出迥然不同的結論。因此，由一個樣本得出的結論不能簡單地推廣到另一個樣本或建立兩者的相關。

研究結果的可推廣性還受所選樣本的多樣性和代表性影響。例如，許多研究不能夠找到足夠多的代表少數民族的被試，因此結論不適於有大量人口的地區。事實上，國家衛生研究所一直強調臨床研究中被試群體多樣性的重要性，以保證在年齡、性別和民族等方面能充分代表總體人口。

在評估任何一項研究時，另一個至關重要的問題是效度的概念。內部效度是指研究設計能在多大程度上得出自變量（實驗處理）引起了因變量（實驗結果）變化的結論。為了增加內部效度，研究者會試圖控制除所測自變量（IV）外的所有變量（使其保持不變）。例如，由於不考慮潛在的性別反應差異，那麼一項研究只使用女性樣本能增加其內部效度和得出因果結論的程度。為了提高治療研究的內部效度，研究人員想要確保在研究過程中兩個被試群體（接受治療和不接受治療）除了在是否接受治療上有不同外，其他經驗均相同。例如，在一個抑鬱症治療的研究中，確保在研究期間兩組被試均沒有接受能減輕抑鬱的額外服務和經驗（如教堂的支持群體、初級保健醫生開的藥），對增加內部效度非常重要。

某項研究的目的在於檢測施加治療是否比不施加治療更有利於抑鬱症康復。若治療組的某些被試服用了抗抑鬱藥物——氟西汀，為什麼會影響實驗的內部效度？

然而，當內部效度增加時，外部效度（指能將實驗結果推廣到實驗條件以外的情境和群體的程度）往往會降低。這是因為嚴格控制的實驗條件往往不能代表「現實世界」。例如，通過女性被試群體得出的實驗結論可能只與女性相關，而非男性；那些限制患者在實驗性治療以外活動的抑鬱症治療研究可能無法代表真實生活情境。

在內部效度和外部效度間取得充分平衡對研究者來說是一大挑戰。研究人員既想要得出可靠的因果關係結論，也希望研究結果接近真實生活情境。在療效研究中，內部效度和外部效度在功效（efficacy）與有效性（effectiveness）研究上強調的重點不同（Roy-Byrne et al.，2003）。功效研究試圖使內部效度最大化，使研究人員對因果關係結論更有信心。精心挑選同質被試組（即只患所研究的疾病而沒有其他疾病），由專業人員提供高度結構化的干預，並精心挑選對照組以控制影響治療的關鍵因素。這些嚴格控制的研究能使研究者得出關於特定治療方法治療效果的可靠結論，但有時研究程序並不反映現實世界中的患者情況和臨床情況。有效性研究則更注重外部效度，被試組異質性更高（即患者通常有不止一種心理疾病）且與接受常規護理的患者相似性更高。有效性研究常常由常規治療工作環境中的臨床醫生按照典型的保健程序（如初級保健）提供治療；對照條件通常也由診所常規保健類型組成，並且更注重治療的成本效益比。這些研究有時在研究設計方面控制得不是很好，但研究結果更能代表治療應用的「現實」情況。因此，最好把療效和有效性研究設計看作治療研究中相輔相成的研究方法。

隨機對照組實驗設計的結論還與研究人員所使用的評估策略有關。首先，評估工具需要信度（不同時間不同患者的某變量測量上的一致性）和效度（對變量的準確測量）（關於信度和效度的詳細信息請見第3章）。此外使用多種評估方法也很重要。例如，一些抑鬱症的評估強調身體狀況，如睡眠；而另一些則強調思維困難，如注意和記憶問題。抑鬱症的評估方法有自我報告法（往往通過標準化調查問卷或調查）、專家綜合評價、直接行為觀察和心理生理學測量等。根據不同評估方法選擇測量方法同樣能提高研究結果的信度和可推廣性。

對照研究設計在下結論時還會涉及兩個很重要的問題，安慰劑對照（placebo control）條件的使用和雙盲評估。即使在對照研究中，實驗者和被試的期望或偏見也會影響研究結論（認為自己正在接受一個好的治療的被試可能表現得更好，僅僅因為他們是這樣預期的）。安慰劑對照組是指給被試提供一個「不起作用的」治療，這種治療的其他方面與實驗條件相似，但不具有治療的「有效成分」。例如在藥物研究中，安慰劑對照組攝入的藥片與真正的藥看起來很像，但事實上沒有真的藥物成分（即更像一粒「糖丸」）。因為有很大一部分患者在接受安慰劑治療後病情都有好轉（被稱作「安慰劑效應」），所以這種對照條件能使研究者判斷那一部分的症狀改善實際上是受期望效應影響的結果。只有實驗性治療程序產生了比安慰劑更大的反應時，我們才能說治療的有效成分起重要作用。在安慰劑對照研究中，患者和任何評估病情改善情況的人保持對實驗條件的雙盲（無察覺）是很重要的。

例如，如果莫妮卡同意參加抑鬱症治療研究，但她和研究者都知道她被分在了「安慰劑組」，那會怎麼樣？如果莫妮卡知道自己並沒有接受實際治療，她會如何評估自己的病情改善狀況呢？

為了減少可能影響研究結論的偏差，保持主試和被試對研究目標和假設以及安排給他們的治療條件（實際治療、安慰劑或者不治療對照）的雙盲或不告知非常重要。完全雙盲評估並非總是可行的，但由於降低了療效的偏差，這種評估策略對於提高研究效度還是有用的。

2.臨床顯著性與統計顯著性

臨床顯著性和統計顯著性是評估臨床研究的另一個重要考量。

假設治療後，實驗組報告僅需2小時就能入睡，對照組則需2.2小時，比較一下。

統計顯著性指的是，治療後實驗組產生的變化不是偶然發生的而確實是由治療引起的數學概率。研究結果在統計上顯著表明治療改變了靶行為。但另一個同樣重要的問題是，統計上顯著的研究結果是否具有實踐或臨床意義。統計上的顯著有時表示出現了重要的臨床行為變化，但並不總是這樣。在一些研究中，特別是大樣本研究，統計上的顯著差異在實際中是相當小的（就如上例中的睡眠案例），且對患者治療毫無實際意義。

相比之下，臨床顯著性檢驗的是顯著性結論是否具有實踐和臨床價值。例如，使病症減輕的治療是否會對患者的生活產生有意義的影響？

像莫妮卡這樣的患者，治療前曾一度抑鬱到臥床不起，經過治療後，能否使她不僅感到憂鬱減輕並覺得自己的狀態好到能回去工作了？

臨床顯著性強調患者症狀的改善是否由治療所引起，以及患者是否不會再有某種疾病的症狀。當統計學上發生了顯著變化而對患者病情卻沒有顯著作用時，治療的臨床價值將會受到質疑。從統計角度來看，各種測量方法得到的治療效果大小被稱為效應量（effect sizes）。效應量越大，治療越有效。