認知升級：第4章選擇哪所學校會讓孩子的成績更優秀？_理查德·尼斯貝特

先生，為了他的教育，我可沒少費心；讓他從小就在街上跑，自己養活自己。這是讓孩子學得機靈點兒的唯一辦法呀。

——大維勒先生，選自《匹克威克外傳》（狄更斯，1836年）

如果說在過去的20世紀裡人們確實變得更聰明了，部分原因是人們受到了更多、更好的學校教育，那麼能夠通過改善學校教育使智力得到更大的提升嗎？如果可以，需要怎麼做才能讓學校變得比現在更好呢？這些是擺在美國人面前亟待解決的問題，因為美國在教育成果上的表現遠遠落後於大部分發達國家。在常識測試中百分位排名第95位的美國學生，只相當於某些得分很高的國家中排名第75位的學生。[1]美國最優秀的學生（5%的學習大學預修課程微積分科目的頂尖學生以及1%的學習大學預修課程物理科目的頂尖學生），得分也不過相當於其他國家頂尖的10%~20%的學生。所以，即使只拿最優秀的學生來比較，也能看出美國與其他發達國家之間的巨大差距。

留給我們改進的空間還很大，所以讓我們看看怎樣做才能夠讓孩子們變得更聰明，學習成績更優秀吧。

投入更多的教育經費管用嗎？

關於花錢也無濟於事這一點，倒是有一些非常驚人的證據。從20世紀70年代開始，研究人員就一直堅持認為，撥給學校的教育經費的數額與其效果並不存在密切的聯繫。通常採用多元回歸分析的研究都會得出這樣的結論。研究人員在多元回歸分析中引入了大量變量，然後確定究竟是哪個變量在起作用。這些研究基本上都是要確定如果不考慮其他因素，投入的教育經費的數額是否會對教學效果產生何種影響。研究結果大致是這樣：如果錢是花在東北部的學校上，這些學校的學生主要是較富裕的白人家庭的孩子，錢的數額不會對教學效果產生什麼影響。如果把錢花在南部的學校上，這些學校的學生主要是貧窮的少數族裔家庭的孩子，錢的多少也不會對教學效果有什麼大的影響。

很明顯，只向學校投入一定數額的教育經費本身並不會對教育產生任何影響。法官有時要求社區向家境貧寒的孩子和家境富裕的孩子就讀的不同學校劃撥同樣的經費。當經費撥給家境貧寒的孩子就讀的學校後，這些額外的經費可能並沒有經過認真思考和籌劃就被花掉了，而且也沒有證據顯示學生們的成績有什麼進步。典型的例子發生在堪薩斯城。司法要求大幅增加學校的經費。學校用這些錢興建了奧運會規模的游泳池，最先進的科學實驗室，並給每名學生配一台電腦。結果是：學習成績沒有絲毫的進步。錢本身並不能提高學生的成績，尤其是當經費的管理人能力不足或出現貪污行為的時候（就像某些大城市裡發生的那樣），增加教育經費就更不可能提高學生的成績。另外，在發達國家，每名學生教育支出的多少與學生參加國際數學和科學趨勢研究測試的得分高低沒有必然聯繫，這也證明了錢本身並不能提高學習成績。一些得分很高的國家，其人均教育支出還不到中位數，一些人均教育支出超過了中位數的國家得分卻較低。

不過，這也並不意味著錢一點兒作用也沒有。在後面的章節裡，你會發現能夠證明通過增加窮人和少數族裔人的教育經費來改善教育質量的蛛絲馬跡。

教育券與特許學校有用嗎？

許多教育評論家都曾強烈要求實行教育券制度——把錢發給學生家長，這樣他們就可以把孩子送到私立學校去讀書。但是研究人員不應該將得到並確實使用了優惠券的學生與沒有得到優惠券的學生做比較，因為這裡存在著自我選擇的問題，情況或許是，得到並最終使用教育券的學生家長，都是一些受教育程度較高、聰明又有進取心的父母。那些宣稱教育券計劃起到了很大作用的人，實際上的確是將得到並實際使用了教育券的孩子與沒有得到教育券的孩子做了比較。這樣的研究發現黑人與白人考試成績的差距縮小了1/3。但實際上，這樣的「收穫」中至少有一部分顯示的只是不同學生家長之間的差異。也就是說，有的父母很在意孩子的教育，所以最終使用了教育券，送孩子去更好的學校，而有的父母也許得到了教育券，但最終可能使用也可能不使用它。有些研究人員堅稱他們可以採取一些措施控制自我選擇效應，例如，比較的對象雖然仍是使用了教育券的學生和沒有得到教育券的學生，但二者在很多方面都很接近。這簡直就是無稽之談。一旦為自我選擇敞開了大門，怎麼可能通過將比較的對象一一對應起來來規避問題呢？換句話說，一組父母接受了聽起來對子女有利的幫助，而在一些方面與之相近的另一組父母可能未必會接受這樣的幫助，這兩組父母在其他方面也可能有很大的差異。

採用合理的方式對教育券效果進行研究後，比較得到教育券（大部分人都接受了教育券）的學生與參加教育券的抽籤但未中籤的學生的學習成績，證據顯示使用教育券大約可以將學習成績提高0.1個標準差。（這種比較採取的是意向治療的方式：對一個治療組裡面的全部學生進行分析，不管學生是否都接受了這種治療。即使這種治療有效，效果也因這種情況不可避免地被低估了，但是這樣可以避免致命的自我選擇。如果治療組裡只包括那些學生——其父母確保他們會接受治療，將治療組與控制組進行比較就會出現自我選擇效應。）這種令人失望的結果當然不能證明私立學校不如公立學校，只是到目前為止，也沒有什麼令人信服的證據能夠證明被研究的私立學校確實比公立學校好。

另外也沒有證據能夠證明，總體而言特許學校能使學生更加受益。特許學校也依靠政府的撥款，但可以不遵守政府用來管理其他公立學校的某些規定和法律。但是反過來，這樣的學校必須在校章裡保證取得一定的成績。一些合理的實驗隨機選取了一些研究對象，然後將特許學校和其他公立學校進行比較。不幸的是，特許學校只比孩子們有可能去的公立學校略勝一籌——至少在特許學校剛剛開辦的頭幾年裡是這樣。拿數學和閱讀來說，特許學校中較低年級的學生在標準化考試中的成績只前進了幾名。大一點兒的學生在高年級時第一次進入特許學校後的成績，還不如公立學校的學生。不過，也有一些證據顯示，在特許學校開辦了10年以後，與公立學校相比，它們或許會具備10%的優勢。不過這不應該理解為特許學校不如公立學校——只是到目前為止勝過公立學校的特許學校還不多。在後面的章節裡，你們就會欣喜地發現這一結論至少存在一個讓人高興的特例。

班級人數的多少有無影響？

班級人數的多少會有什麼影響嗎？學生人數更少的班級是不是更好呢？我們掌握的證據也是互相矛盾的。採用多元回歸分析的研究人員往往會告訴我們，班級人數的多少不會影響學生的表現。而另一方面，在研究班級規模的影響方面頗有建樹的研究人員，經濟學家艾倫·克魯格堅持認為，70%關於班級規模的研究都得出了肯定的結論，即班級人數的多少會影響學生的表現，而且刊登這些研究成果的雜誌越重要，得到肯定結論的可能性就越大。克魯格和我都認為，有一項研究比所有其他的研究加起來都更能說明問題。這項研究是20世紀80年代在田納西州進行的。幼兒園和小學一至三年級的老師及學生被隨機編為一般規模的班級（平均22人）或人數較少的班級（平均15人）。人數較少的班級中的學生在標準化考試中的成績，要優於一般規模班級的學生，進步的程度根據科目和班級規模從0.19到0.28個標準差不等。換句話說，在人數較少的班級內學習，通常能使一個孩子的學習成績的百分位排名從第50位升至將近第60位。至少在七年級前，這樣的效果都非常顯著。相對於中等階層的白人孩子來說，班級人數較少對家境較差的少數族裔孩子的影響更大。

教師的水平高低有關係嗎？

那教師呢？他們的水平會對學生有什麼影響嗎？有些教師肯定比別的教師更優秀嗎？答案是肯定的。不過事實上，一個持有證書的教師未必就是一個出色的教師。即使擁有碩士學位也不能說明一個教師很會教書，這沒有什麼可奇怪的。

即便如此，還是有不少證據證明教師的確很重要。首先，教學經驗很重要。只有一年教齡的教師和有10年教齡的教師教出來的學生，閱讀成績測驗的得分平均相差0.17個標準差——也就是說教師的教學經驗可以使學生成績測驗的百分位排名提高7個位次。不過請注意，通常在教師工作的第一年才會出現這些由教學經驗造成的差距。所以還是要留心，盡量避免把孩子送進一個由剛走上工作崗位的教師負責的班級中去。

將某一班級中的中等學生在成績測驗中的分數，與根據前一年中等學生的分數做出的預期進行比較，高出的部分就是教師的附加值，我們可以用附加值來定義該教師的水平。如果學生的成績超過根據前一年或前幾年同年級學生的成績做出的預期，我們可以說教師的附加值很大。按照這個定義，如果教師水平相差1個標準差，那麼學生的測驗成績就會相差大約0.2個標準差。不過這只是對同一所學校內不同教師造成的差異做出的估計。既然我們知道某些學校裡教師的水平平均來說要高於其他學校的教師，我們就可以肯定，這種對同一所學校內教師水平差異的估計一定是教師水平差異的最小值。將不同教師不同學校的差異納入考慮後，經濟學家埃裡克·哈努謝克估計，教師水平對學習成績的影響是0.27個標準差——這足以使一個學生在成績測驗中的百分位排名從第50位升至第60位。教學水平等於或高於所有小學教師平均教學水平1個標準差的老師，以及教師水平等於或低於所有小學教師平均教學水平1個標準差的老師，二者教出來的學生其成績測驗分數究竟有多大的差距很難計算，不過顯然會相當大。

人們往往會談到某些教師對他們有重要的影響，這使得類似有關教師教學水平的統計數據不那麼蒼白無力了。很多我認識的人都認為，教過他們的老師中至少有一兩位對他們產生了非常重要的影響。我們沒有理由懷疑他們所說的，因為有一項關於一年級教師對學生造成的影響的研究證明，他們所講的個人經歷並不是信口開河。

A女士在一所學校裡任教已經有34個年頭了。這所學校主要面向社會經濟地位較低的人群，其中1/3的學生都是黑人。這項研究採訪了60個成年人，他們在11年的時間段裡都曾經在這所學校裡學習過。其中1/3的人讀一年級時的教師是A女士，剩下的40名被採訪者讀一年級時的教師不是A女士。在這40名被採訪者中，31%已經記不起一年級老師的名字了，而所有A女士教過的人都還記得她的名字。不管能不能記住教師的名字，這40人中只有1/3的人給他們老師的評價是非常好或出色。而A女士的學生中有3/4對她的評價都很高。其他老師的學生只有25%對教師用心程度的評價是A，而A女士的學生中有71%給出的評價是A。當被研究人員問及A女士是如何講課的，我的一位同事回答：「她是帶著對學生的愛在講課。」這位同事還說，A女士表達了她對所有學生的信心，認為他們都可以學習——不會有一個學生在離開她的課堂時還學不會如何閱讀。她不僅會在放學後留下來幫助那些學習吃力的學生，還經常把自己的午飯分給那些忘記帶午飯的學生。

A女士的學生在小學、青少年時期和成年後與其他學生相比要出色得多。A女士教過的這些學生中，有2/3在二年級時成績就排在了全年級的前1/3，而其他教師的學生中只有28%進入了年級的前1/3。研究還測量了這些學生成年後的狀況，例如受教育程度，職業成就以及家庭狀況。A女士的學生中有64%都處於最佳狀況，而其他教師的學生中只有29%處於這種狀態。

即使沒有其他更令人信服的、量化的證據證明教師（尤其是一年級教師）的重要性，這個故事也並不能算作證據，因為這只是關於某位個別教師的特殊案例。不過確實存在其他證據。教育研究人員布麗奇特·哈姆雷和羅伯特·皮亞塔接觸到了由美國國家兒童健康與人類發展研究所主持的一項規模龐大的縱向研究，即兒童早期保育研究。他們跟蹤記錄了900個孩子從幼兒園一直到小學一年級結束的整個過程。根據孩子母親受教育程度所反映的社會經濟狀況來判斷，有些孩子被認為恐怕很難適應學校的學習。另外，根據幼兒園老師報告的孩子在行為、注意力及學習成績方面出現的問題來判斷，有的孩子可能會面臨比其他孩子更多的問題。

觀察人員在每間教室裡都旁聽了三個小時，對一年級的教育質量進行評估。所有班級按照兩個相關但在統計學意義上又各自獨立的方面劃分等級。第一個方面是「教學支持」，是幾項評估得分的總和，其中包括讀寫技能的教學質量，對孩子的評估性反饋的質量，師生談話涉及教學的程度，以及對孩子責任感方面的鼓勵。第二個方面是「情感支持」，也由幾項評估得分組成，包括情緒氣氛，對課堂的有效管理，例如拉近與學生之間的距離，以及不對學生過度干涉等。

所有班級按照教學支持的質量分為三個等級。所有的孩子都接受了一項廣泛適用的能力測試——伍德科克·約翰遜認知能力測驗。

把一個因母親受教育程度較低而被視為可能會面臨問題的孩子，安排到教學支持較小的班級，與被安排在教學支持較大的班級中的學生相比，一年級期末時這個孩子的測驗成績可能要低0.4個標準差。把一個具備同樣風險的孩子安排在一個教學支持較大的班級，他的成績實際上與那些父母受教育程度較高的孩子的平均成績不相上下。

所有班級也按照情感支持的水平分為三個等級。（總的來說，教學支持級別較高的班級，情感支持的級別也較高，而教學支持級別較低的班級，情感支持的級別也較低，但也不完全如此。）有些孩子由於幼兒園時在社交和情緒方面表現不佳，被認為可能存在留級的風險。把這樣的孩子安排在情感支持較小或一般的班級裡，其學習成績可能要比被安排在情感支持較大的班級中得到的成績低0.4個標準差。根據幼兒園時的表現被認為存在留級風險的孩子，如果被安排到有較大情感支持的班級裡，他的成績和班級裡那些沒有這種風險的孩子並沒有什麼不同。

接下來要講的這個發現或許比聽上去更為重要。哈姆雷和皮亞塔在此前的一項研究中發現，在幼兒園時不善與人相處的孩子，可能整個上學期間的學習成績都會受到影響。對一年級教師水平的研究結果表明，有類似問題的孩子如果在一年級時能夠在適宜的班級裡學習，他們的發展軌跡可能一開始是向下的，但可能很快就會出現逆轉。

校長都清楚自己學校裡教師的水平——至少清楚哪些教師最好，哪些教師最差，但是還沒有證據顯示校長會苦心尋訪或獎勵高水平的老師。實際上，對於公立學校的教師來說，這一點是很難實現的。工會的規定往往是在不同老師之間實行基本相同的工資待遇，並且待遇上的差異只能與資歷、資質和學歷有關。正如我之前提到的，沒有證據證明資質和高學歷就一定代表教學的高質量，而且除了在開始教學的第一年，資歷也不能說明教師的水平。對這些情況有所瞭解的研究人員往往分成兩個陣營：（1）改變工會的規定，對教學水平高的教師進行獎勵；（2）承認這種做法恐怕難以實現，因此只能對教師進行培訓，進而提高教學水平。

大家都同意，對於改善教育，我們能做的最重要的事情之一就是提高教學質量。也許應該先從學校開始。新老師們普遍抱怨他們上的教育理論課程太多了，而經驗或實習則少得可憐。另一種提高教學質量的方法可能是給優秀教師發放獎金。以色列的研究人員對兩個不同的獎金計劃進行了研究。一個獎金計劃是根據學生的成績向位於前1/3的學校的所有老師發放獎金。獎金數額相當於基本工資的1%~3%。另一個獎金計劃是為獲獎的學校提供更多資源，主要是提供教師培訓或減少教學時間。這兩個計劃都頗有成效，使學生的成績有所進步，退學率有所降低。但是相較而言，增加工資的獎金計劃更合算。研究顯示，向學校發放獎金或許能避免工會的種種麻煩。可以想見的是，如果這樣的獎金被視為一種額外收入，並且發放的對象不是個人而是學校，教師和工會或許就會接受這種競爭，因為這種競爭的獎勵模式是「穩賺不賠」的。不過，和評估教師的水平一樣，究竟如何評估學校的質量，恐怕也是個無休無止的難題。

教學成果卓著的學校就是好學校？

直到最近，依舊沒有什麼令人信服的證據能證明哪些教學方法的效果更好。早就有大量關於「有效學校」的報道——這種學校出來的學生，其成績都大大超出人們的預期。不過這樣的證據並不能使人完全信服。都說好學校一定有一位好校長，這樣的校長會向大家傳遞一種信念：相信大部分孩子都有學習的能力；會仔細地挑選教師並監督他們的行為；會想方設法將不合格的老師清理出教師隊伍；重視課程設置和教學策略；關注學生的表現，以便確認學校的教學策略是否有效；鼓勵家長加入到孩子的教育中來。有效學校裡的教師也較容易親近，而且通常一開口就三句話不離本行。這些教師一般更容易接受評估，並且更喜歡接受這種評估。他們會隨時關注學生的表現，以確定學校的教學策略有效與否。

大部分關於有效學校的報道，都是介紹那些面向經濟條件較差的人群的學校。通常認為，那些更強調基礎知識的學校對於這樣的人群更有效。不過另一方面，有的人也認為，有效學校的課程安排如果能像高水平的私立學校那樣豐富，它們就會取得很好的效果。

總而言之，教學效果更理想的學校，一般來說都有好的校長、更有效的教學策略、更全心全意地培養孩子的教師。不過這些報道並不能讓我相信是這些特點使得學校成績斐然，反而僅僅反映出一個事實，那就是這些學校的學生更好管理。如果學生們更易管理，校長就會看起來很稱職。如果學生們總是不斷地惹麻煩，那麼第一要務就是要抓紀律，課程安排或教師評估只能先靠邊站了。所以雖然關於好學校的故事不斷上演，卻沒有多少無可爭辯的事實能讓我對如何改善表現不佳的學校抱有信心。

每項教育創新的舉措都有效嗎？

儘管對各種創新教育計劃的投入已經高達數億美元，對這些計劃的評估也多如牛毛，但教育研究的現狀令人汗顏。這些研究不僅大都不能使人信服，而且不少自封的教育計劃評估者實際上並沒有採取正確的實驗法進行研究。實驗法是指從某個人群中隨機選出一些孩子，對他們採用一種教學方法，再對隨機選出的另外一些孩子採用另一種教學方法，然後將兩種情況加以對比。實際上，很少有教育研究遵從了這樣的科學標準。

這種情況令人覺得不可思議，就好比製藥公司在未經任何評估研究證實藥效的情況下，就將生產的藥品兜售出去，而有時這種評估研究也只是隨便地讓一些患有某種疾病的病人服用這種藥物，然後記錄下有多少比例的病人病情有所好轉（但這樣並不能確定有多少比例的病人病情好轉根本不是由於服藥）。確定一定數量的患有某種疾病的患者，然後對其中一部分使用某種藥物的人進行治療，而對另一部分人不進行治療或使用另外一種藥物治療，然後比較兩組患者的情況，這樣的藥物測試才算得上是合格的實驗研究。但是有關教育舉措的研究幾乎從未達到過這一標準。誰要是說，評估教育研究不需要隨機選取研究對象也可以取得一樣或更好的效果，你就應該問問他們，為什麼教育研究和藥物測試要採用不同的標準。

不使用實驗法的人給出了不少理由。有人稱這是出於道義方面的考慮，接受治療的應該是最需要接受治療的人，而不應是隨機選取的。但既然要從道義方面考慮，調查人員就必須能夠證明這種治療是有效的——可以找到一群最需要接受治療的人，一半編為治療組，另一半編為控制組。在這些理由中，聽起來最有道理的是，實驗法不能找出某種治療中究竟哪些是產生療效的成分。連某種治療是否有效都不能確定，怎麼可能知道這種治療療效如何呢？

最近，關於學校的研究至少都採用了某種形式的控制方法以進行對比。在一些研究中，調查人員說服學校同意採取某種干預措施（例如一種新型的數學電腦教學法），然後將這些學校的成績與那些沒有採取這種干預措施的學校的成績進行比較。根據預先制定的一系列標準來衡量，例如學生所屬的社會階層和種族，這些學校的水平都很接近。這種研究雖然聊勝於無，卻也僅僅只是好一點點而已，因為存在自我選擇的問題：在某些研究人員並不清楚的方面，受邀採取某種干預措施的學校或許不同於那些未受邀請的學校。有自我選擇的自由時，這個問題就顯得尤為突出，也就是說，只有一部分受邀的學校最終採取了這種干預措施，這些學校或許在某些相關方面優於那些雖然受到了邀請但最終沒有採取行動的學校。

只比較採取某項干預措施前後的表現，也算不上是充分的研究。而有些研究在衡量某項干預措施效果大小時，比較的是採取了干預措施的學校和水平接近但未採取干預措施的學校兩者的表現。我們會發現，前一種方法顯示的效果一般比後一種方法要好得多。這一規律只存在一個特例，就是當採取干預措施後學校取得了非常大的進步——這種進步與沒有採取干預措施的學校的表現有著天壤之別。只有在這樣的情況下，人們才能夠相信這樣的教育舉措確實是行之有效的。

「全面的學校干預措施」效果顯著嗎？

得到評估的教育計劃中有，一部分叫作全面學校干預措施，也就是大家熟知的全面學校改革。教育心理學家傑弗裡·博爾曼及其同事回顧了其中一些最有前途的計劃。只要看看他們的回顧就可以對這些計劃有所瞭解。我只介紹那些經獨立第三方測試過三次以上的計劃，這些測試都是比較了採取干預措施的學校與作為控制組的學校二者間的差別，與此同時，學校或學生都不是隨機選取的。

一項全面學校干預計劃——全體成功——在比較研究中被第三方調研人員評估了多達25次。這項計劃是由一項私立基金管理的，參與的學校多達數百所。這項計劃為學校準備了特殊的課程資料，包括教師行為規範手冊。同時還在閱讀、寫作和語言藝術等科目上為教師提供了大量的培訓，以及為期26天的現場職業發展訓練。這項計劃側重評估學生的成績以及學校的管理，並為每所學校配備了一名輔導人員，對在閱讀上吃力的學生進行一對一的輔導，同時還強調父母的參與。最初這個項目只是面向從幼兒園到小學六年級的學生，不過現在把初中生也納入進來了。一些學校還參與了「根與翼」計劃，這個計劃是對全體成功計劃的擴展，包括數學、科學以及社會研究等項目。

全體成功計劃似乎提高了學生們的成績，但越獨立、設計越合理的評估，其顯示的效果越差——所有調研發現的平均效果值是0.08個標準差。不過，一項設計合理、完全隨機選取調查對象的研究顯示，所有從幼兒園到小學二年級一直參與該項目的學生的閱讀成績平均提高了0.27個標準差。不僅如此，有4項評估將「根與翼」項目也納入進來，這些評估顯示出的進步令人大為吃驚——0.77個標準差。如果想讓如此大的效果值看起來可信的話，這幾項研究必須都要做到獨立、證據確鑿，並且要完全隨機選取研究對象。儘管做了如此多的研究工作，對全體成功這個計劃是否有效還沒有定論。只有圍繞著該項目的研究能夠做到證據確鑿並隨機選擇研究對象，我們才能得出最終的結論。

學校發展計劃也是一項眾所周知的全面學校干預措施，是耶魯大學的精神病學家詹姆斯·科默於30多年前創建的。該計劃並未設置特別的課程或採用與眾不同的教學方法，而是盡力在教職員工、家長和社區之間構建起良好的關係，並對學生採取一些健康的干預措施。該計劃還成立了幾個小組，負責實施針對不同學校的特殊需求制定的改革措施。不過第三方比較研究顯示的效果值僅為0.11個標準差。

效果稍好一點的是針對小學的直接教學干預措施，這些小學主要面向家庭經濟境況不佳的學生。這項計劃的閱讀和數學項目是由麥格勞·希爾出版公司負責的，同時還提供了一些教師培訓。但是整個項目要與供應商簽合約，由它們來提供擴展的專業課程開發和教師培訓。這些課程的教學計劃都寫得很詳細，並要求學生完成大量的寫作任務。學校根據學習成績將學生編成小組進行教學，並時常對學生的學習進度進行評估。第三方比較研究顯示的效果值是0.15個標準差。

一些全面學校干預措施的成本非常高。所以我們在衡量效果大小的同時，還要考慮到性價比。為這些項目以及那些沒有得到廣泛評估的項目說句公道話，有些被評估的干預措施在某些學校裡並沒有得到很好的實施。如果不認真對待，一項干預措施就不會顯示出什麼效果。因為在估計效果大小時，不論執行得好的、執行得不好的，還是執行得完全走樣的，都要放在一起得出平均效果值。

改善教學方法用處更大

也有一些研究是關於具體教學方法的。評估研究人員詹姆斯·庫利克回顧了大量的所謂的綜合學習系統。這些電腦軟件系統根據學生的水平制定課程資料，記錄學生的學習效果，並給出關於學習成績的大量反饋。庫利克得出了一些非常明確的結論。他發現，在關於數學項目的16項合理選定控制組的研究中，電腦化教學的平均效果值是0.4個標準差。這樣大的效果對教育是非常重要的，並且除了購買電腦外這個項目的成本並不高。教寫作的文字處理項目同樣對提高閱讀能力具有很大的影響。高年級的效果值是0.25個標準差，幼兒園和小學一年級的效果值則更高。（在提高閱讀能力而不強調寫作的電腦化閱讀項目上，平均效果值只有0.06個標準差。）最後，電腦輔導對自然和社會科學的教學具有非常顯著的成效。這些課程的平均效果值是0.59個標準差，這可以算得上是非常大的效果值了。電腦輔導還可以激發學生對所學科目的興趣：效果值達到1.1個標準差。

到目前為止，讓人印象最深刻的方法就是一種被稱為「合作學習」的課堂教學方法。學生們被分成不同的小組，互相幫助學習一些材料。這種方法對任何科目都適用，只有所有學生都參與進來才算達到學習的目的，從二年級到十二年級都可以採用這一教學方法。教育研究家羅伯特·斯萊文寫了整整一本書來介紹這些方法。斯萊文對研究有一定的要求，必須有一個控制組的學生學習同樣的資料，並且研究必須有適當控制，如果不能保證隨機選擇個人、班級和學校，就要採用對應的辦法——也就是找到在很多衡量標準上都和接受這個項目的學生水平極為接近的學生。巧合的是，使用更為優越的隨機選擇方法和使用對應的方法得到的結果大致相同。在其中一個互助學習的項目中，即學生小組成績分工法，每4個學生被分成一組（通常這些學生的成績水平或種族各不相同，或者兩者都不同），一起學習各種資料，然後對每個學生進行評估。斯萊文在書中提到，研究顯示這種方法對標準化考試的效果超過了0.3個標準差。其中尤其令人印象深刻的是一種叫作「結構二人組」的方法：一名學生當輔導員，另一名學生接受輔導，然後雙方互換角色。互助學習有很多種不同的方式，據報道，所有方式的效果都非常好。已經有足夠的相關研究顯示，在從二年級到十二年級的教學中學校都應該採納這種互助學習的方法。

總結

那麼我們能夠有哪些選擇呢？學校能夠採用新方法進而更有效地讓人們變得更聰明嗎？可能有很多種「不能」的回答，或至少是類似「暫時還不能」或「不太可能」的回答。錢本身並不能實現多大的改變。與普通公立學校相比，教育券和特許學校也不能使學習成績有顯著的提高。教師的資格證書和文憑與學生成績也沒有什麼必然的聯繫。不過教師的經驗確實有用，至少在一定程度上如此：任教未滿一年的新教師水平肯定有待提高，並且可能需要幾年時間的磨煉才能學會如何教書。

教師的授課水平很關鍵，一些教師就是比別人教書教得好。但是現行的制度沒有對最優秀的教師進行獎勵，也沒有淘汰最差的教師。雖然研究尚未成熟，但是至少還是有一些證據顯示，對那些在提高教育成果方面取得最好成績的學校，為學校的所有老師提供獎金就能夠改善教學成果，而且很有可能有些提供獎金的計劃不會涉及任何政治方面的問題。

關於「有效學校」的介紹雖然告訴了我們什麼樣的校長和教師能使學校的水平有所提高，但並沒有說清楚其中的因果關係：樂於奉獻的校長和專心教學的教師在多大程度上能夠決定學校的優劣？更易教的學生在多大程度上能夠讓校長樂於奉獻或教師專心教學？一些全面學校干預措施雖然有一些作用，但到目前為止還沒有證據顯示這些措施能夠產生非常大的效果。

有一些非常有利的證據顯示，電腦化教學很有效，尤其是在數學和科學方面的訓練上。另外，使學生們朝著共同的教學目標一起努力的合作學習方式也前景廣闊。

美國教育部旗下的「有效教育策略資料中心」受到了極大的歡迎。這項服務對評估研究顯示為有效的干預措施進行審核。不幸的是，這些評估研究的設計通常都沒有達到隨機選取研究對象的實驗標準，但至少比逸事報道要令人信服得多。所有申請參加有效教育策略資料中心審核的研究，至少應該是「設計合理的准實驗研究」，而這一標準遠遠高於大多數評估研究的標準。我們可以期待，最終教育工作者們只會採納經有效教育策略資料中心證明確實有效的干預措施，否則恐怕很難向憤怒的公眾交代。

讓孩子們學習解決問題的本領能提高智商嗎？

如果我們傾力教授孩子們解決問題的本領，這能比讓他們學習適當難度的材料更有效地提高智商嗎？對於能夠通過後天學習來提高智商持極度悲觀看法的《鍾形曲線》一書，其合著者之一理查德·赫恩斯坦在委內瑞拉進行了一項規模極為宏大的研究，為上述問題提供了非常引人注目的答案。赫恩斯坦及其同事設計了一套高難度的教材，只向七年級的學生教授一些關於解決問題的基本概念，不涉及任何具體的科目。實際上，他們想要通過給孩子們的智力工具包提供方便的工具來使孩子們變得更聰明。

孩子們學習的概念和方法都接近高中或大學水平，而不是初中水平。研究人員設計的課程每節45分鐘，總共60節。這些課程的主題包括：學習分類和假設檢驗的基礎知識，學習可以按照某些方式排序的量度的特點，探索分級歸類的結構和用途；分析類比，探究簡單命題的結構；理解邏輯的原則；構思和分析複雜的論點，發展能為一個問題列舉出所有可能解決方案的系統化方法；學習如何權衡結果的合意性和可能性，評估數據的可信度和相關性。這些工具通常都是學習某一科目或學科的副產品，而不是老師要詳述的內容。我們能不能直接教授這些工具——甚至是教給孩子們——然後說明這些工具同樣適用於解決一些他們以前學習時沒有遇到的問題呢？

一個字，能。正如研究人員所設計的那樣，學習這些新技能極大地提高了孩子們解決問題的能力。得出的部分效果值如下：語言理解，0.62個標準差；學習如何表示「問題空間」，0.46個標準差；決策能力，0.77個標準差；創造性思維，0.5個標準差。簡而言之，一般的解決問題的技巧不但是可以學習的，還可以在很短的時間內學會。

那麼智力測試測量的「真正的」智力呢？學習解決問題的能力能夠提高智商嗎？我認為智力測試不是測量智力的唯一方法，而只是其中一種特別的方法。如果我們能夠提高人們推理和決策的能力，我不在乎他們能不能在智力測試中獲得更高的分數。但是實際上，在一套測試普通能力的有代表性的測試中，委內瑞拉研究中的實驗組的分數比控制組高出0.35個標準差。在一項叫作奧蒂斯—倫農學校能力測試的典型智力測試中，與控制組的學生相比，實驗組的學生的智商平均提高了0.43個標準差。卡特爾文化公平智力測驗與瑞文推理測驗比較類似，測試試題非常具體，並且有大量測試空間能力的試題。即使是這項測試中，實驗組的學生的得分也平均提高了0.11個標準差。總之，不論是用赫恩斯坦及其同事教授的那種解決問題的一般能力來測量，還是用傳統的智力測試來測量智力，這一訓練都收到了很大的效果。

你們可能很好奇這些調查人員後來去做什麼了。他們是不是接著為八年級的學生開發了更為複雜的工具？不幸的是，委內瑞拉的政府改組了，提高中學生的智商也就不再是什麼頭等大事了。儘管如此，我必須說，鑒於這個項目取得的巨大成功，我很詫異也很沮喪地發現，居然沒有人沿著這個項目的足跡繼續走下去。

怎樣做才算是有效的家教？

最後，讓我們回憶一下，很多教學都採用的是一對一的家教輔導的形式。輔導者的水平有高有低，這不足為奇。實際上，馬克·萊珀及其同事發現，大學生擔任的家教以及其他一些對小學生進行輔導的家教，水平參差不齊，有的家教輔導幾乎一點兒效果也沒有，而有的則對接受輔導的學生非常有幫助。他們從這些高效家教身上找出了一些令人感興趣的特點。

首先，一個低效的家教是什麼樣的呢？要成為一個低效的家教，最有效的方法就是把自己當成一個「糾錯器」。明確地告訴你的學生她犯了一個錯誤，然後直接告訴她應該如何改正這個錯誤，最好使用抽像的方法來說明其中的規律。萊珀的研究中沒有一個高效的家教採用這種純認知化的糾錯恣態。

怎樣做才能變成一個有效的家教呢？萊珀給出了5C（Control，Challenge，Confidence，Curiosity，Contextualize）原則。

在學生身上培養一種控制感（Control），讓學生感覺到自己能夠掌握所學的內容。

向學生發出挑戰（Challenge）——不過挑戰的難度不要超出學生的能力範圍。

通過大力表揚學生的成功（表達對學生的信心，使學生確信自己剛剛解決的問題難度很大）和淡化學生的失敗（為學生所犯的錯誤找出種種理由，強調學生做對的部分）向學生灌輸信心（Confidence）。

使用蘇格拉底的問答法（誘導性的提問），並將問題與學生已經見過但表面上看起來卻並不一樣的其他問題聯繫起來，通過這樣的方法培養學生的好奇心（Curiosity）。

將問題放在真實世界的環境裡或電影電視節目中出現的環境裡，使學生學會在一定情境裡思考問題（Contextualize）。

專家級的家教各自都有不同的策略。他們不會改正像忘記寫「+」這樣的小錯誤，而是當學生要犯錯時，引導學生遠離錯誤，避免錯誤的發生。或者有時候他們任由學生犯錯，認為這對學生來說是寶貴的學習經驗。他們不會因為要顧及學生的面子而降低學習內容的難度，相反，他們會換一種方式表述這些內容。大多數專家級的家教都向學生提問，問一些誘導性的問題。他們讓學生來解釋他們的思路。比起表現欠佳的家教，專家級的家教給出的表揚較少。據萊珀推測，低效的家教給予了學生過多的表揚，這會讓學生有被評估的感覺。最後，專家級的家教永遠都精心培養、體貼自己的學生。

所有有追求的家教——還有學校裡那些有追求的教師都應該學習這些。

總結一下：我們知道了學校更能提高教學的質量。我們也瞭解了究竟哪些做法有效而哪些無效。如果學校沒有參照經研究證明有效的方法來指導教學，恐怕難辭其咎。

但事實上，教學對於某些學生來說更有效果。接下來的兩章裡我們可以看到兩類不同的學生，然後考慮一下究竟該如何改善這兩章之後的章節中描述的情形。

[1] 美國教育部1998年的數據。