讀古今文學網 > 越弱越暗越美麗 > 點擊率、引用率和谷歌數 >

點擊率、引用率和谷歌數

一個名人的流行程度,現在經常用這個名人在網絡上出現的頻率來判斷。在西方,比較權威的搜索引擎是谷歌(Google),又譯成古狗;在中國,人們常用百度。我過去為了好玩,專門搜索過提及李宇春的網頁數,百度的結果是近1000萬,谷歌的結果是550萬,這還是2008年一月份的事。同樣,每個網站也追求點擊率,有的網站純粹是出於商業考慮,有的網站則完全是追求知名度而已。新浪博客上的老徐(徐靜蕾)博客的點擊率已經超過2000萬,那裡的名人博客似乎都在競賽點擊率。

既然搜索數和點擊率如此重要,不免有人要出來研究如何更加科學地計算有效搜索數。我的一個過去研究物理的朋友現在就在研究這個。谷歌自己早在1998年就研究出一套辦法,叫作谷歌網頁排名算法。一個網頁的排名不僅僅靠被鏈接的次數,還要看鏈接這個網頁的那些網頁自己的排名,所以,這是一個相互糾纏的算法。

「有些人是受歡迎的卻不一定有聲望,有些人有聲望但受歡迎的程度不夠。舉例來說,一個偵探小說作家可以賣出很多書,卻不一定能得到文學批評家的尊重。相反,一個諾貝爾文學獎得主在文學專家們眼中的地位很高,但永遠上不了紐約時報的暢銷排行榜……」2008年一月份出現一篇研究如何將谷歌算法用到評價學術刊物影響因子的學術文章,以上是這篇文章開頭的一段話。湯姆森科技信息集團一直通過計算一個刊物上發表文章的平均引用率來確定該刊物的影響因子,這個影響因子準確地說只是反映了刊物的受歡迎的程度。

學術文章的引用率在西方一直是一個評價一篇文章影響力的重要依據。在中國,引用率引起大家的注意,並成了評價一個研究者成就的指標是20世紀末的事情。一方面,這代表了進步:一個研究工作如果沒有什麼影響,當然就不會很重要;另一方面,過分強調引用率也不行,會帶來許多負作用,例如,年輕的研究者會特別注意流行的研究方向和問題,完全為了多掙引用率。加之,不同領域中同行的多寡不同,同行引用習慣不同,引用率很難作橫向比較。文小剛(麻省理工學院的一位教授)說過一句話,引用率只反映了一般研究者對該項工作的評價,而一般研究者平均說來並沒有太多的超前意識。中國國家基金委的一些人也意識到只強調引用率的負面效果,但到目前為止也沒有更好的辦法。不過,用引用率作參考還是一件好事。我在台灣待過,那裡的許多領域從來不看引用率。

谷歌網頁排名算法可以用來取代普通的引用率,避免文小剛說的缺點。這個算法的主要想法是,評價一個演員在演藝界的地位不但要計及有多少演員認可他,還要看認可人自身的地位。這樣,演員們的地位指數形成一個互相關聯的系統。在具體計算時,可以假定所有演員的影響程度一樣大,然後通過計及每個演員受歡迎的程度並反覆疊代,最終可以得出這些演員的真實聲望。例如,喜歡超女李宇春的粉絲中有很多既沒有影響也沒有品位的人,他們自身的影響因子等於零,他們欣賞李宇春不能用來計算李宇春的影響因子。

李宇春的粉絲數是流行度(popularity),不同於流行度的是聲望(prestige)。好萊塢一部電影的票房是流行度,能否獲得奧斯卡的提名就要看聲望了。同樣,引用率是流行度,而谷歌數是聲望。我們現在經常宣傳的《科學》(Science)、《自然》(Nature)這些刊物的影響因子大,也不過是流行度高而已。政府有關部門在過去數年不遺餘力地強調這些雜誌的重要已經在年輕人中造成不好的影響。如果你去各大學BBS的科學版看看,經常看到宣傳這些雜誌上發表文章的帖子,不是去祝賀誰誰完成了一篇高水準的文章,而是去祝賀誰誰又在Science上發表了一篇文章。可喜的是,我昨天去參加一個項目答辯的預演,當答辯人提到這些雜誌時,一個人站出來說,現在再強調這些會引起專家們的反感。

說到《科學》和《自然》,我想起我們這行的《核物理B》(Nuclear Physics B)。這刊物在我做學生的時候是粒子物理中影響最大的,那時不論是老師還是學生,如果能在《核物理B》發文章就牛大發了,如果能發表幾篇文章,就成大師了。現在的情況是,如果在《科學》或者《自然》上發表幾篇文章,也成大師了。不知道這樣的枯木大師遇到黃藥師的時候(黃藥師的名言:枯木這點微末功夫,也稱什麼大師?),還談不談《科學》《自然》?

四月份有一篇研究工作將谷歌數用到《物理評論》(Physical Review)系統,他們的樣品是這個系統在1893年至2003年之間發表的35萬餘篇文章。他們發現,谷歌數排名第一的是一篇首次在粒子物理中引入某個參數的文章,這篇文章的引用率排名僅僅是第54名。而引用率最高的一篇文章谷歌數排名第三。排名在第十的文章在《物理評論》系統中的引用率只有100多次。請注意,引用率達到100次的文章雖然是好文章,但距離引用最多的3000餘次要差很多。谷歌數排名前十的文章的作者除了少數人外,都獲得過諾貝爾獎。

現在,按中國的許多部門規定,必須以SCI統計的引用率為準,只有大圖書館才能得到這些統計,而且肯定不准。谷歌數雖然更加客觀,但不切實際,誰來為你做這個煩瑣的計算呢?