讀古今文學網 > 態度改變與社會影響 > 附錄A 研究與實驗方法 >

附錄A 研究與實驗方法

一般來說,對社會影響的社會心理學研究運用相關法(correlational method)或者實驗法(experimental method),後一種方法運用得更為廣泛一些。本附錄在簡述相關法後,將著重論述實驗法。

現場研究中的相關法

在心理學中,所有的研究都包含了對行為的觀察。一些研究,即所謂的現場研究,對自然而然存在的現象或者變量運作進行觀察。換句話說,研究者力圖對現象或事物的「本來面目」進行系統的、相對客觀的和無偏差的觀察。研究者不會妨礙它們的運作,或試圖改變或控制任何變量。研究者的任務只是確定兩個或者更多變量間是否存在相關[1],以及有何種程度的相關。例如,一項現場研究的研究者揭示,位於佛蒙特州本寧頓學院的女大學生在大學4年時間內,其政治態度與社會態度逐漸變得更加的寬容(Newcomb, 1961)。另一項研究表明,對於小學生來說,如果他們的父母具有非權威人格並採用非懲罰性的撫養習慣,隨著學校廢除種族歧視,這些小學生的種族偏見也會降低。然而,當父母具有權威人格並採用懲罰性的撫養習慣,他們的孩子則沒有出現種族偏見的降低(Stephan&Rosenfield, 1978)。

這種現場研究,以及其他使用調查法和民意測驗所進行的研究,對於發現和分析行為關係,對於指出在這些關係中可能發揮了重要作用的變量,有十分重要的價值。因為觀察是在日常生活中進行的,只有最小限度的干預,因此這種觀察對日常生活中的應用價值可能高於那些在有更多人為限制的實驗室中進行的觀察。然而,大多數的現場研究是相關性的。變量僅僅被觀察,並沒有受到控制或者改變。兩個事件或者行為(A與B)可能有很強的關聯性,或者相關;然而如果僅僅只是觀察它們,那麼我們無法確定究竟發生的是以下何種情況:是A導致了B,還是B導致了A;這種關係是否只是一種巧合;也許一個因素經由一個中間變量(未知的變量)的運作間接導致了另一個因素;還是第三個變量既導致了A又導致了B。

例如,關於婚姻關係的研究有時會報告,幸福的夫妻比不幸福的夫妻有更多的性生活。那麼是性導致了幸福,還是幸福導致了性?兩種因果關係都有可能,但是僅僅通過觀察到的性與幸福婚姻的共變,我們無法確定因果關係。我們同樣無法確定是否有第三個變量導致了這一關係。可能一些夫妻繁忙的工作導致他們大多數時間都處於分離狀態,而這種分離狀態既可作為不幸福的根源,又可成為性生活的一個明顯障礙。

通過改變測量變量的時間,有時相關研究能夠就因果關係提供較強的(但仍然不是確定的)理解。觀察可能發現A在時間1所發生的改變與B在時間2所發生的改變有相關,而B在時間1所發生的改變與A在時間2所發生的改變幾乎沒有關係。這一模式暗示A對B有因果性的影響。當然,使用某些統計程序可能也能夠獲得關於因果關係的提示。

實驗作為因果關係的信息源

為了獲得真實的因果關係,你需要做實驗。實際上,絕大多數社會心理學研究是實驗研究。實驗的關鍵就是控制。實驗者對假定的原因變量進行控制,稱其為自變量(independent variable)。他操縱自變量,將變量的一種水平、數量或者類型指派給一種處理條件下的被試,將另一種水平、數量或者類型指派給另一條件下的被試,等等。同時,對於那些可能對被試產生影響但是卻與需要驗證的假設無關的其他變量,實驗者則力圖使其保持恆定。

實驗者通過將被試隨機分配到不同處理條件中,從而對變量進行進一步地控制。這其中包括使用一些隨機方法(例如,擲硬幣或者參考由計算機生成的隨機數據表)來決定每個被試接受怎樣的處理條件。因為處理條件的分配完全基於偶然性,所以接受不同水平自變量的被試在他們曝光於自變量前不太會存在著任何系統差異。隨機分配通常保證了那些使人們存在差異的多種因素在不同處理條件之間是平均分佈的。

在引入了假定的原因變量——自變量——之後,對被假定為結果的被試行為[被稱為因變量(dependent variable)]進行觀察。如果接受了不同水平自變量的被試在因變量上表現有所不同,那麼根據實驗控制的邏輯,自變量必然就是原因。其他所有的變量都是恆定的,而在測量因變量以前對自變量進行了操縱。

因此,你可以發現實驗者不是等著行為自然地發生,而是創設出他認為能夠誘發行為發生的條件。在這個意義上,實驗者是創設出了一種人為的環境或說干涉了自然過程。而他們這樣做是為了:(1)在已知條件下使事件發生,而這一已知條件隨後能夠被單獨地重複;(2)在實驗者對準確觀察做好準備時,使因變量產生;(3)有可能確定自變量對因變量產生影響的趨勢和大小;(4)消除了因變量與自變量間的關係源於兩者直接因果聯繫之外的其他因素的可能性(例如,Y既導致了A又導致了B)。

實驗始於3個基本決策。在可被許多被試覺察到而且可以從不同維度進行各種水平的反應的大量刺激中,實驗者選出一個特定的刺激,有機體(即被試),以及反應模式。可將實驗看作由三個互相有重疊的圓環構成,它們分別代表:(1)刺激(自變量);(2)被試;(3)反應(因變量)。這三者與正在研究的總體問題有關。通常,研究者研究的只是它們交集中很小的一塊或一點。例如,在關於說服信息的理解對態度改變的影響的研究中,自變量可能就是伴隨錄音信息的4種大小的靜態噪音,從不會造成干擾的微量噪音到會造成大量信息難以被理解的巨大噪音。被試是在一所指定的大學選修心理學導論的60名大學生。而因變量則是在10點量表上對信息結論的贊同度的評分。

根據理論意義上的區別,把所有刺激分別劃分進了不同的範疇中。例如,20世紀50年代和60年代在耶魯大學溝通研究項目所進行的說服研究中(見第4章),根據溝通是雙向還是單向,是否會喚起恐懼,明確還是含蓄地陳述其結論等等,對所有的溝通進行了分類。當按照這樣的方式對刺激進行分類時,實驗者有意識地決定忽略刺激的某些方面,而強調刺激的另一些方面。例如,信息中語句的長度乃至信息的主題可能會是無關的。這意味著實驗者從有明確結論的、單向的、能夠喚起恐懼的這一大類溝通中選擇刺激。他所選擇的特定溝通可能或多或少地頻繁使用到了長度為25個單詞的語句,並且可能是關於槍支控制而不是關於生育控制的。研究者期望,在所有這些不相關的特徵上能夠獲得相同的結果(即,內容、長度、句法等等不會改變所考察的基本關係)。

實驗者對被試類型和反應類型的選擇存在共同點。以大學生(或者可能是工人)為研究對像以期發現「一般人」情況的研究者,通常假設不同群體間的許多差異不會影響研究中所建立起來的基本因果關係。例如,許多關於從眾的研究(見第2章)以大學生為研究對象。當研究者感興趣於擁有一致意見的多數派的人數(例如,一個,兩個或者三個人)是如何影響被試對多數派意見的依從頻率,那麼,平均而言,大學生相對其他成年人是「獨立思考者」的程度可能與問題無關。無論某個特定被試團體的總體從眾水平如何,多數派人數與從眾之間的關係應該是不變的。與此相似,無論是以按壓按鈕還是以點頭贊同來表示從眾的反應,也應該與問題無關。

當然,如果有理由相信,對於不同教育水平、社會地位、年齡、性別或其他特質的人而言,基本關係會有所不同,那麼應該進行額外的研究以對不同類別的人進行比較。

如果實驗者能夠從廣泛的變量和被試中選擇大量的特定案例,那麼關於選擇哪些案例的決策常常基於便利性、易得性和測量準確性以及可控制的程度。因此,自然就產生了兩個問題:(1)所選案例確實能夠以這樣的方式被測量嗎,即無論誰來進行測量或何時進行測量都能得到相同的結果嗎?(2)所選擇的案例是否準確地反映了研究者感興趣的過程變量或者概念變量?第一個問題關注於信度(reliability),而第二個則關注於效度(validity)。

信度可等同於一致性或穩定性。在其他所有條件都相等的情況下,所選擇的反應測量是否能在重複中得到相同的結果呢?而在十分相似的測量條件下是否會得到相同的結果呢?

效度是一個更難論證的複雜問題,它有許多涵義,我們在此只涉及其中2個。概念效度(conceptual validity)指實驗者進行的處理、觀察和測量是適當的,具體地代表了實驗者真正想要瞭解的一般抽像類別。態度研究者感興趣的是態度,而不是10點量表上的評分。在理論上,研究者希望得到的是一系列特定操作,這些特定操作能夠將抽像概念錨定於真實世界中的事件,但同時這些操作應該是盡可能純粹地作為抽像概念的例證。

測量的效度同樣可由另一種方式來思考,我們稱之為內容效度(content validity)。因變量分數上的任何變異都有兩個成分:真實變異和誤差變異。隨著測量分數更加接近(假定的)真實分數,測量也就變得更加有效。因為測量分數的變異不止受到了所研究的相關反應中的變異的影響,還同樣受到無關誤差源的影響,因此測量喪失了它作為潛在真實反映系統的有效代表的地位。系統誤差使測量得分在特定方向上存在偏差,而隨機誤差則導致測量得分在任何方向上偏離真實值。

例如,當實驗者無意識地把其所期望的反應通過一些線索傳遞給被試時,或者當實驗者知道某個被試接受了某個特殊處理(例如藥物)因而影響到他對被試的行為進行客觀評價時,可能就會出現系統誤差。而隨機誤差則源於環境的干擾或者方法上的不足。一個瞬時事件可能會改變對任何在特定條件中所操縱刺激(例如,當在一個條件化程序中出現了一個意外的噪音)的反應。相似地,當實驗者以不同方式把刺激呈現給相同處理條件下的每個被試,那麼測量分數可能會以無規律和未知方式增加或減小。通過使用控制程序、客觀的評分方法、隨機化和控制組能夠減小系統誤差。隨機誤差的消除主要依賴於標準化的方法學,以及利用那些不會使被試反應隨機變化的環境。

根據現在重新界定的研究目的,我們可能會認為實驗就是一整套客觀的程序,目的是為了從背景噪音中分離出信號。真實分數,或信號,可能會從概念上得到淨化以與其他相似的信號相區別。處理程序旨在放大信號,而測量程序應該能夠探測到哪怕十分微弱的信號。要做到這兩點,必須對競爭性的信號和背景噪音進行適當的控制,可以通過兩種方法來進行控制:使二者最小化,以及就二者對主要信號的觀測值的貢獻進行準確評價。

但是,對實驗結果的概化又是怎樣的呢?幾乎沒有科學家會滿足於把研究結論局限於特定的刺激與操作以及特定樣本所做出的特殊反應。我們希望研究結論能夠處在一個更高的抽像水平上。我們知道,當研究基本的心理過程時,研究者可能會假設他們的結果能夠放在更大總體的「大背景」中。但是,在實驗研究中有許多因素與確保這一假設的合理性有關。我們將在下面這一節中對這些因素進行探討。

實驗的概化:統計推論

對一項研究的結果進行推論時常會存在風險,即使研究設計精巧並且被認真地實施。然而,通過客觀的統計方法對由一套特殊觀測得出的特定結論發生錯誤的可能性進行評價,可以估算出這種風險的範圍。假設我們希望評價人們是否通過小組討論改變了他們對毒品使用的態度。我們可能分別在討論前和討論後對參與者的觀點進行測量。首先,通過某些描述統計以方便有效的方式對被試樣本的觀點評定進行總結。通過計算平均數、中位數或者眾數可以回答「討論前後典型得分或者平均得分是多少」這一問題。而通過反應的變異性(全距、或標準偏差)能夠回答「單個被試相對這一代表值發生了多大偏離」。

然而,為了確定小組討論是否朝所提倡的方向改變了態度,有必要將所獲得的描述統計結果與在沒有小組討論、僅僅對觀點評定的重複測量情況下發生的改變進行對比。把測量分數的分佈與不同類型的理論分佈進行對比,使我們可以估計出數據不是源於偶然性而是源於一個統計上可信賴關係的可能性(推論統計)。對處理變量的不同行為(在最初可比較的被試組之間)可能是一個更加「真實的」差異,這一差異可能源於3種因素的直接作用:觀察的數量,差異的大小以及反應的變異性。隨著觀察次數(N)的增加,隨著不同組之間表現(通過某種描述統計來測量)的差異增加,以及隨著每個單組內的變異減少,所獲得的差異傾向於更為顯著。

在心理學中,顯著性(significance)的概念被定義為確定一個特定結果是源於處理的效果而不是觀察中的隨機波動(誤差變異)的最小標準。置信度水平(probability level),任意設定為p〈.05(p小於0.05,或者5%),就是這個最小標準。這意味著所發現的差異在100次中可能僅僅只有5次是因為偶然性造成的。因此,我們可以推斷,在100次實驗中有95次,差異不能歸結於偶然性,而這次的結果是屬於95次的範疇。在某些條件下,研究者可能需要一個更加嚴格的拒絕概率,例如p〈.01或者甚至p〈0.001(即,實驗者因把所獲得差異作為一個真實差異而得出錯誤結論的可能性,只有千分之一)。

雖然通過使用概率的語言而非絕對的語言對結論進行表述,降低了結果推論的風險,但是對觀察到的行為樣本按照兩種方向中的任一種進行推論時都有可能包含了相當的風險。人們可能將推論上升至一個更加抽像、概念水平的解釋上,也可能下降至一個更加具體、特殊的案例上。在前一種情形下,外推中可能產生誤差,因為特殊的結果無法揭示假定的一般關係或者理論過程。在後一種情形中,一般關係能夠預測某個特定個體的行為這一假設本身可能有問題。

在上述兩種情形的每一種中,都可能存在著兩種類型的錯誤。如果所獲得差異的顯著性是p〈0.05,那麼實驗者在得出結論認為他發現了一個真實的效應時,每100次中會有5次犯錯。這是因為單憑偶然性本身就能夠造成那樣大小的差異,而一個特殊實驗可能剛好代表了5次偶然性中的一次。於是我們有了Ⅰ型(或稱為α)錯誤:當關係實際並不存在時推斷關係存在。讓我們以一個不同的視角看看概率和決策過程,假設因差異顯著性處於0.06的概率水平(超出了科學可接受的慣有限度)而拒絕了差異顯著的結論。那麼當關係存在時,相反地調查者在100次中會有94次下結論認為關係不存在。這就是Ⅱ型(或稱β)錯誤。

心理學家如何決定是更加冒險(Ⅰ型錯誤)還是更加保守(Ⅱ型錯誤)呢?無疑,他的策略應該經由以下幾點來決定:每種類型結論的行為意義,每種錯誤類型的相對代價或風險,以及每種錯誤類型對創造性思維的激勵或抑製作用。例如,在通過向上推論形成關於物理現實或心理現實的概念化、理論化的陳述時,Ⅱ型錯誤(它可能會導致過早地封閉了調查研究的領域)對進展造成的損害可能會高於Ⅰ型錯誤(該錯誤應該會比較容易地在他人的獨立重複研究中發現)。然而,如果沒有什麼重複性的研究,那麼I型錯誤可能會一直存在,從而導致了在測量無根據的原有假設的相關衍生物上白費勁。

從實驗室推廣至真實世界

實驗主義者所面臨的困境就是獲得控制的同時又喪失了效力。心理變量的全距以及強度無法在實驗室背景中獲得。這是因為在一個實驗中,自變量呈現的時間相當的短。同時,被試的任務常常與他其他的生活經驗只有有限的關聯,並且在他未來的活動中也只有非常小的應用。此外,實驗操縱的性質和強度常常受到法律、倫理與道德考慮的限制。雖然變量的效力在一個無控制的自然環境中常常能夠得到最好證明,但是在這一水平上對現象進行研究可能存在以下風險:喪失對其中相應過程的理解,缺乏對因果關係的詳述以及無法將複雜的因素網絡分解為相應的成分變量。另一方面,由控制精巧的實驗所獲得的收益可能會被實驗的瑣碎內容相抵消。通過提純、標準化、控制以及選擇特定的刺激、反應維度,實驗者可能對他意欲研究的現象或者問題創設了一個有所差距、打了折扣的版本。此種條件下得出的研究結果可能幾乎沒有任何的實際意義。

通過研究策略的結合使用以及在同一主題上進行多種不同實驗,可以在任何特定的研究中克服這些局限性。例如,假設實驗者擔心在一個誘發依從的認知不協調實驗中,使用金錢獎勵來改變的「合理化」可能與通過向被試提供關於依從的社會原因而改變的「合理化」有所不同。那麼他可以通過在實驗中引入對「合理化」的概念驗證或者運用許多不同的實驗來系統化地復現被研究的概念變量,從而對上述可能性進行評估。

實驗真實與生活真實。為了填補實驗室與現實之間的這條鴻溝,實驗研究者們通常力圖使他們的實驗真實。最為重要的一類真實就是實驗真實(experimental realism),實驗真實在本質上是指「使實驗生活化」(Aronson&Carlsmith, 1968;Aronson et al., 1990)。實驗務必要使其研究程序對被試有吸引力,使被試能夠投入到實驗中,同時要使自變量能夠引起被試的注意並且維持注意。被試應被自己在實驗室中的經歷所吸引,對所發生的事件(自然地)做出反應而不是感到討厭,考慮(或許擔憂)把他們自己視作被仔細審查的對象,或者試圖分辨出實驗者的理論是什麼。如果一個實驗不具有實驗的真實性,那麼就有一種風險,即所觀察到的因果關係可能僅局限於當人們知道自己處於一個實驗中時。由此,我們通常幾乎不可能瞭解任何的一般心理過程。

在一些情形中,實驗者同樣會追求生活真實(mundane realism),生活真實是指以變量在日常生活中存在的方式對變量進行處理和測量(Aronson&Carlsmith,1968)。對提問方式如何影響到目擊者對犯罪事件的記憶特別感興趣的研究者(見第8章),會讓被試觀看一起現場表演的犯罪活動,然後讓他們在不同類型的提問條件下報告自己的記憶。相對於讓被試觀看一系列的幻燈片然後對他們進行提問,這種方式可能更加具有生活真實性。當尋求把實驗結果推廣至日常生活中的某個特定背景或是心理過程,而不是推廣至一個更為廣泛的背景或是過程時,生活真實性就尤其重要。

實驗效度。我們已經知道,因變量必須有效。從總體上說,效度的概念同樣適用於實驗,並且這個概念極好地總結了我們在討論實驗時所關注的主要問題。我們從實驗中得出的結論無效——並因此而無法推廣——的方式可能有兩種。我們可能錯誤地下結論,認為在所使用的特定處理與特定測量之間存在因果關係,而實際上觀察到的關係是源於某個其他的因素,一個人為的結果,或者混淆變量(confounding variable)。在這樣的情形下,我們可能會就實驗的內在效度(internal validity)得出一個錯誤結論。此外,還可能是錯誤得出結論,認為一個特定的因果關係(同樣)適用於未在研究中進行評估的概念變量的所有其他實例;即,這一因果關係被推廣至其他的人、背景、測量和在概念上等價的處理。在第二種情形下,實驗的外部效度(external validity)是關鍵。為了避免得出這兩類無效結論,一種方法就是覺察到導致實驗研究中效度缺失的更為普遍的根源,然後考察實驗設計的不同方面從而克服每種缺陷。

讓我們首先考慮一下內部效度缺失的一些可能根源[2]。

1.內在的人為問題(internal artifact):實驗者不願發生的一個未受控制事件可能導致了實驗者所觀察到的結果。如果發生了這樣的情況,那麼特定自變量引發特定效果的這一結論可能就是不正確的。

2.被試的改變(subject change):刺激事件(自變量)可能發生於被試內部,而不是發生在他的外部。例如,被試可能對個人問題感到厭惡或者擔憂。

3.測驗的敏感性(testing sensitization):被試對第2個測驗(後測)的反應,可能會受到初始測驗(前測)的影響。

4.被試選擇的偏差(subject selection biases):如果不同實驗組的被試不是隨機分配的話,那麼實驗組間的差異總有可能並非是由自變量的差異引發,而是由不同組之間先前就存在的差異所引發。

5.耗損(attrition):如果在將被試隨機分配到不同實驗條件中以後,一個無法控制的因素導致在最後結果分析中剔除了一些被試,那麼就無法得出關於自變量對因變量的影響的有效結論。一種無法控制的因素可能就是被試選擇不再繼續進行實驗。另一種因素則可能源於實驗本身的一些特徵。

在理解外部效度——或推廣至其他人、背景等等——的來源之前,我們必須對交互作用(interaction)的概念加以討論。假設我們關注於替代性強化大小對模仿的影響(見第2章),那麼為了研究這一問題,我們可以向一些年幼兒童呈現一部關於成年男子毆打充氣塑料娃娃的影片。影片中作為榜樣的男子在毆打塑料娃娃後,得到了0個、1個、2個、4個或者10個棒棒糖。隨後給兒童與充氣塑料娃娃玩耍的機會,而研究者則記錄了兒童做出與榜樣相同的「攻擊性」行為的頻率。假設模仿反應的平均數量隨著榜樣接受到的獎勵大小的增加而增加。那麼,研究者可以下結論,替代性強化數量的增加導致了人們更多的模仿。

請注意以上結論並沒有受到限定。這暗示著替代性獎勵的數量與模仿數量間的這種關係適用於所有類型的榜樣、被試、獎勵、反應、背景以及用來呈現榜樣行為的媒體。這一結論並沒有說,這一關係只適用於來自於一個特定學校的特定年齡群體的兒童,他們觀看了在電影中一個特別的男性榜樣對一個充氣塑料娃娃施以某些特定行為後,得到了棒棒糖。如果一名女性榜樣毆打充氣塑料娃娃,那會是不同的關係嗎?讓我們假設,隨著對女性榜樣獎賞的增加,模仿數量卻有所減少。如果自變量(替代性強化的數量)與因變量(模仿的數量)之間的關係因其他某個變量(在這個例子中,榜樣的性別)的作用而發生了改變,那麼可以認為兩個變量發生了交互作用從而共同決定了結果。

交互作用可以有許多類型。模仿的總量在兩種榜樣中可能都有增加,但是以不同的速率。或者,這種關係也可能會有逆轉(一個增加,另一個減少)。這種關係甚至有可能只在一種條件中存在,在另一種條件中卻沒有出現(替代性強化的數量完全沒有效果)。簡言之,交互作用的出現,限定了研究者感興趣的結果或關係能夠在跨情境、跨背景、跨被試等方面進行推廣的範圍。在對社會影響和態度改變的研究中,很少發現有不受與其他變量的交互作用所限制的變量。研究者事實上常常專門設計某種研究以期發現交互作用,因為交互作用向我們提供了關於某種因果關係什麼時候存在而什麼時候不會存在這一至關重要的信息。

現在我們可以來考察一下可能限制了外部效度的一些更加普遍的因素。

1.測量的反應效應(Reactive effects of measurement):當對被試進行一個測驗,假定是自陳式態度量表,那麼進行測量本身可能就會對被試如何做出行為產生影響。在態度測量的研究中,測驗可能變成誘發態度的刺激條件;被試以前可能並沒有這一態度,或者在意識到測驗或實驗的意圖以後改變了他的真實反應。因此,任何結論都只限於了進行過測驗的被試。

2.選擇偏差與實驗變量的交互作用(interaction of selection bias and experimental variable):實驗變量的效果可能只有在某類被試身上才會顯現。例如,如果研究只選擇了具有極端態度的被試,那麼通常會對那些更加溫和被試的態度產生影響的變量,可能就不會對這些極端的被試產生影響。

3.實驗的反應效應(Reactive effects of experiment):實驗背景中與實驗背景外之間的一些特殊差異,可能對決定實驗結果是否具有應用價值至關重要。例如,在實驗中被試可能總是非常積極地參與到溝通中,而這一情況在自然情景中可能不會發生。

4.多重處理效應(multiple treatment effects):有時,每個被試可能在呈現和不呈現實驗變量的情況下均接受測量。因此可能會產生順序效應;即,第一個處理會影響到被試對第二個處理的行為反應方式。因此,結果可能僅適用於那些接受了不止一種處理的被試,並且可能僅適用一種處理的順序。

實驗設計

既然我們已經知道內部效度缺失和外部效度缺失的一些更為普遍的根源,那麼讓我們來看看如何能夠通過不同的實驗設計來消除這些誤差來源。

表A.1以總結的形式呈現了5個十分複雜的實驗設計。表格中的符號○代表觀察或測量,而符號M則代表對在那種條件中所呈現自變量的一個實驗處理。在每個這樣的實驗中,至少有兩組被試。一些被試接受處理;另一些被試則不接受處理,這是隨機決定的。通過每一被試組前面的符號R來表示被試被隨機地分配到不同條件中。例如,表A.1中呈現的最簡單的設計是一個雙組設計,在此,被試被隨機分配到兩個組中的任一個。只有組1中的被試接受處理,隨後對兩組都進行觀察。

同樣,在表中列出了先前已描述過的導致外部效度缺乏的各種根源。對於每種設計,如果在與效度缺乏的特定根源相對應的那一欄中標注了「是」,就意味著這類實驗設計無法消除那個特定類型的誤差。「否」則表示不存在這個問題。(效度缺乏的內部根源沒有在表中呈現。只要研究者恰當地設計和監控實驗程序,那麼對於這些設計來說導致效度缺乏的那些內部根源都不會成問題。)

使效度缺乏的根源最小化的「最好」設計就是不同樣本前後測設計。這裡,實驗者隨機將被試分配至許多條件中。在處理以前,實驗者首先對其中一半被試的反應進行測量。而完成了實驗處理後對剩餘的另一半進行測量。然而,那些稍後得到測量的被試同樣被分為兩半,其中一半接受處理而另一半則不接受。此外,請讀者注意,這一設計的一個顯著特徵。它可能證明自變量的概念地位並不受限於單獨的一套特殊處理上。通過使用兩套不同的處理(M1與M2),這兩套不同的處理均源自於概念上相同的自變量,可以得出從具體的觀察到抽像變量上的一般化結論。

從上述描述中你可以發現,無論在任何設計中,隨機化都是非常重要的。當然,同樣重要的是,對被試的觀察不能干擾由實驗處理引發的行為結果。

表A.1 使效度缺乏最小化的一些實驗設計

此處的隨機化既包括將被試隨機分配至不同被試組,又包括隨機決定對照組是否接受處理。

[1]當一組數據的變異與相應的另一組的數據的變異(例如,來自同一個體的兩次測驗分數)有關聯時,可運用數學上的相關係數r來表述結論。相關係數值的取值範圍為-1到+1。當r=0時,兩組數據相互之間沒有關聯。r大於0表示兩組數據中的變異有一個共同的方向:A增加那麼B也增加。r小於0則意味著A與B有著相反方向。隨著r越接近於+1.0或者-1.0,那麼就越有可能通過一個已知事件來預測另一個,即根據關於一組觀測中變異的知識來解釋另一組觀察的變異。

  

[2]本附錄的以下部分大多源自Campbell與Stanley(1963)的著作。