讀古今文學網 > 大數據 > 第十一章 大趨勢 >

第十一章 大趨勢

原始數據,現在就要!01

——蒂姆·伯納斯-李

萬維網之父,2009年2月3日在TED大會上的演講

數據權:大不列顛的碩果

新的「數據權」最令人激動。這將確保人民有權向政府索取各式各樣的數據,用於社會創新或者商業創新。通過這些措施,我們可以創建一個最開放、最負責和最透明的政府。讓我這樣做一個總結:你會有足夠多的信息來瞭解政府是如何運行的、如何花錢的,以及我們工作的效果。使用這些數據、開發這些數據,讓我們負起責來,一起努力,創建一個現代民主的典範。02

——戴維·卡梅倫,英國首相,2010年11月19日

另一片大陸,歐洲。

和美國相比,開放數據的運動在這裡,雖然時間上略有滯後,卻大有後來居上之勢。

2006年3月,英國著名的《衛報》刊登了一位專欄作家的文章:《把皇冠上的明珠還給我們》。作者把公共數據比喻成「皇冠上的明珠」,他在文章中說:

「我們通過交稅支持政府收集公共數據,但當我們想使用這些數據的時候,卻還要為此付錢。有一個政府——美國,他們向全社會免費發佈數據。各種各樣基於地圖的信息服務、公共數據的整合,已經在美國興起,這不是偶然的。美國政府的態度是:用納稅人的錢收集的數據應該免費提供給納稅人使用。更多的研究證明,英國對於數據的封閉態度已經導致我們失去了一些商業機會,一些科研項目,例如氣候的變化,也因此受阻。」03

這篇文章拉開了英國數據開放運動的序幕,此後,《衛報》在該報的技術版面長年開設了一個「自由數據」(Free Our Data)的專欄,在全社會推廣開放數據的概念。

但文章作者推崇的「美國模式」,卻在英國引起極大的爭議。

爭議的焦點在於「免不免費」。英國的一些政治領袖、技術精英都不認可美國的免費模式。他們認為,數據的價值,關鍵在於質量,而「免費」幾乎就是低質量的代名詞;只有收費,才可能有高質量的保障。他們主張在政府和社會之間成立一個公共數據公司(Public Data Corporation),專門負責數據的加工和整理,確保質量,再以收費的形式向社會發佈。

雖然在關鍵問題上存在分歧,但數據開放運動隨後在英國的發展軌跡,卻和美國大致相似,個別細節,甚至「雷人」地相同。

在英國的這場運動當中,也有一位像昆德拉一樣的數據英雄,他就是被譽為「世界萬維網之父」的蒂姆·伯納斯-李(Tim Berners-Lee)。

蒂姆·伯納斯-李

英國人,萬維網之父,美國國家科學院院士,全世界知名的數據開放倡導人,2004年曾被評選為最偉大的英國人。近年來,他定居美國波士頓,在麻省理工學院任教。(圖片來源:維基百科)

伯納斯-李早年是程序員。1989年,他開發設計了全世界第一個網站、發明了萬維網,為全世界網絡資源的組織和訪問制定了統一的格式和標準。但伯納斯-李的偉大絕不僅僅在於技術上的發明和創造,他還是一名社會活動家、新知識的推廣者和普及者。他在發明萬維網之後,放棄了該項技術的專利,這極大地推動了全世界互聯網空間的發展。1994年10月,伯納斯-李還在美國的麻省理工學院成立了萬維網聯盟(W3C),主導、推動各種網絡標準的建立,並研究、探索下一代網絡的具體組織形式。

在對下一代互聯網的研究過程中,伯納斯-李深深地意識到數據對於未來社會的重要性,他說下一代互聯網本質上就是「數據網」(Web of Data),他在各種場合大力推廣「數據網」的新概念。

2009年2月,伯納斯-李受邀在TED大會04上發表演講。他的演講闡述了下一代互聯網和開放數據的關係。他說,你想像不出政府會找出多少個借口來拒絕開放數據;不僅僅在美國,全世界都是如此,不僅僅是政府,企業也是這樣。他向聽眾建議說,我們要練習如何索要數據——這很重要!

程序員出身的伯納斯-李,一直以「內向」、「羞怯」聞名於英國的新聞界,但這一天,他在演講台上帶領全場的聽眾一句一句地喊口號:

「原始!」

「數據!」

「現在!」

「原始數據,現在就要!」

此後不久,伯納斯-李和英國的首相戈登·布朗一同出席一次頒獎典禮。布朗向他請教,英國政府應該如何利用互聯網,伯納斯-李立即回答說:把政府的數據推上互聯網。他的直言建議,引起了首相的重視。

2009年6月,美國的Data.Gov剛剛上線,伯納斯-李被英國政府任命為內閣顧問、主管數據開放工作的項目主任。

萬維網

(World Wide Web,WWW)

萬維網的概念,不同於互聯網。我們通過互聯網訪問的,是一個又一個通過網絡相連的資源,這些資源通過一個「統一資源標識」(URI)相互區分,又通過超文本文檔(Hypertext)的形式互相鏈接。當用戶點擊這些鏈接,這些內容就通過一個標準的傳輸協議(HTTP)傳送給我們。這一套在互聯網上組織資源、獲取信息的方法和體系,稱為萬維網。可以說,互聯網一般指的是硬件意義上的網絡,萬維網才是網絡的靈魂。

和昆德拉一樣,伯納斯-李也很快遭遇到了政府部門的銅牆鐵壁。幾乎每一個部門對開放數據都疑慮重重,拒絕公開的理由也各不相同。伯納斯-李借鑒了美國陽光基金會的做法,他在英國也舉行一次公共數據的應用程序開發大賽,這個競賽成了轉折點。2009年夏天,他帶著普通人開發的若干程序,在白金漢宮給全體內閣部長做展示,以此彰顯全民數據共享的效果。

他最終贏得了足夠的支持。

2010年1月,英國政府的數據開放網站正式出台:Data.Gov.uk。除去地理信息之外,該網站公佈了3000多項民生數據。而這個時候,美國的Data.Gov雖然已經經營了半年多,還僅僅只有1000多項民生數據。

英國數據開放網站的重裝出台,也引起了美國的輿論嘩然,專業人士對兩個網站進行了一番裡裡外外的評頭論足,美國的報紙最後提出了問題:為什麼別人一出手,數據量就是我們的3倍?

這引起了英美兩國在數據開放方面更多的對比和競爭。伯納斯-李後來將這種競爭稱為兩國之間「美麗的競賽」(Beautiful Race)。

2010年5月,戴維·卡梅倫領導的保守黨在英國的大選中取得了勝利,但因為沒有在議院取得半數以上的絕對多數,保守黨被迫和其他的政黨組成了聯合政府。卡梅倫出任首相之後,他領導的聯合政府不僅全面沿襲了上屆政府的數據開放運動,還繼續深化,提出了「數據權」(Right to Data)的概念。卡梅倫指出,「數據權」是信息時代每一個公民都擁有的一項基本權利,並承諾要在全社會普及「數據權」。不久後,英國女王在議會發表演講,也強調要全面保障公眾的「數據權」。

此後,數據開放儼然成為英國新政府的一個前進方向。

和奧巴馬一樣,卡梅倫首先瞄準的是公共支出的數據。他上任一個月,就向全社會開放了英國政府2005年以來公共開支的全部原始數據。

2011年4月,英國勞工關係部、商業部又宣佈了一個旨在落實、推動全民數據權的新項目:「我的數據」(MyData)。該項目認為:「你的數據,你可以做主!」即使是由商業機構出資收集的數據,但如果記錄的是你的信息,你就應該有權查看、使用。在兩個部門的主導下,已經有谷歌、巴克萊信用卡、匯豐銀行、Groupe Aeroplan、Home Retail Group等十多家不同行業的大公司加入了這個項目,承諾將對社會開放公司收集的與客戶相關的數據。

隨著越來越多的商業組織開放自己的數據,五花八門的新型應用層出不窮。

歐洲的一家高科技公司Vision Smarts開發一款新的手機程序:Pic2shop。在你購物時,你只需要將智能手機的照相鏡頭對準商品的條形碼,該程序將立刻告訴你,這件商品在其他一些商家的價格以及購買者的評價。在這個分析和對比的基礎上,消費者可以馬上做出是否購買的決定。

圖為Pic2shop的手機界面:顯示同一個DVD在不同商家的價格。

可以想像,Pic2shop將給消費者帶來多大的經濟收益和便利!

又例如,在英國,有幾百種手機套餐可供消費者選擇。到底哪款套餐最適合呢?這取決於消費者上網、發短信、聽音樂、下載、傳送圖片以及網內、網外通話等各種活動的長短和多少。英國一些手機運營商已經開放了用戶消費的明細數據,而第三方立即設計出專業的算法,迅速為用戶在幾百個套餐當中找到最貼身、最經濟的方案。

類似的新應用難以計數,而且每天都在增多。

英國的商業部認為,通過深化「我的數據」項目,將鼓勵正面的市場競爭,消除個別商家利用客戶「信息不對稱」、打「擦邊球」的贏利行為。社會資源的配置將更加精細、更加優化,社會運行的總成本將會降低。同時,新的數據開發工作將創造新的就業機會,可謂既開源又節流,全社會都受益。

伯納斯-李在談到商業領域的數據開放時曾表示,一個新的、巨大的市場已經輪廓初現,這個市場的規模和潛力,超出了我們的想像。他鼓勵英國繼續深化數據開放的運動,他認為,這種開放,也是一種競爭,因為開放得早、開放得多將會成為一個國家的先發優勢。憑借這種優勢,英國的商業機構就能捷足先登,開發出新的應用,這些應用,不僅能惠及本國人民,一旦時機成熟,還可以銷售給其他國家。

「我的數據」這個項目,把數據開放的理念從公共領域推進到了商業領域,僅憑這一大步,新聞輿論都認為,英國的數據開放運動已經把美國甩在了後面。這個巨大的進步,在美國也獲得了肯定和讚譽。

為了保持在這場運動中的領導者地位,奧巴馬也很快推出了新的措施。

大合流:國際開放聯盟

每個國家都在追求一條自己的道路,這條道路,根植於這個國家人民的文化當中。但是,經驗告訴我們,歷史的發展最終是站在自由這一邊的。開放的經濟、開放的社會和開放的政府,是人類社會之所以能夠進步最深厚、最強大的基礎。05

——奧巴馬,在聯合國大會上的演講,2010年9月23日

就好像一艘旗艦,當Data.Gov駛出港灣的時候,它緩緩前行,面對一片質疑、反對的聲音,作為舵手,聯邦政府的首席信息官昆德拉並沒有減緩馬力,面朝大海、不斷前行,空間越來越開闊、越來越高遠。終於,批評的聲音在慢慢消失,取而代之的是波濤般的掌聲和共鳴。

隨著Data.Gov上開放的數據越來越多,美國聯邦政府的做法,開始在州政府和地方政府的層面得到追隨和響應。2009年5月起,先後有加州、紐約州、密歇根州等31個州和芝加哥、亞特蘭大、費城等13個大城市先後推出了各自的Data.Gov數據開放門戶網站。

一個艦隊的陣容已經形成。

這支艦隊,也獲得了來自國際社區的陣陣喝彩,除英國之外,加拿大、新西蘭、德國、法國都開始紛紛效仿,推出了自己國家的公共數據開放網站。

作為一名雄心勃勃的政治家,奧巴馬知道,他可以適時再邁進一步,把他「建立前所未有開放政府」的理念推進到國際社會,爭取國際空間的支持。

2010年9月23日,奧巴馬作為美國總統,在聯合國大會上發表了演講。

聯合國大會是一年一度的聯合國議事會議,由各成員國的首腦或高級代表參加,就重要的國際問題發表意見和觀點。

奧巴馬在這次演講中說,我們面對的,不是一個普通的時代。雖然各國的人民有不同的文化、面臨不同的挑戰,發展路徑也各不相同,但歸根結底,自由才是歷史發展的最終趨勢,而開放的政府、開放的經濟、開放的社會正是人類之所以能夠不斷向前發展、獲取更大自由的根本動力。

他號召各個國家跟上全球技術創新的腳步,拿出開放政府的具體措施:

「一個開放的社會可以支持開放的政府,但是卻不能替代開放的政府。自由選擇領導人、自己決定自己的命運,這是人類最基本的一項權利。現在,我們要看到:並不是美國的要求和推廣導致了民主在世界各地的成功,民主在一個社會的到來,是因為這個社會的每一個公民對社會管理開始發言並要求擁有一份決定權。

……

我們還可以看到,在世界各地,創新正在為政府的開放和問責帶來新的機遇。這時候,我們必須有所作為。當我們明年在聯合國大會重聚的時候,應該對一些問題,例如如何提高透明度、打擊腐敗、鼓勵公民參與、利用新的技術鞏固國家的根基,帶來具體的承諾和措施,擁抱那些正在點亮我們這個時代的新思想。」06

奧巴馬的演講,無疑是美國聯邦政府新的號角。之後,Data.Gov明顯加快了國際化的步伐。

2010年11月15日,美國商務部、內務部共同組織了第一次開放政府數據的國際會議,來自英國、新西蘭、澳大利亞、巴西等十多個國家的100多名代表參加了這次會議。會議的口號是:我們將共創歷史(We Will Make History Together)。

昆德拉和伯納斯-李自然是這次會議的主角,在這次會議上,英美兩國還正式形成了數據開放的夥伴關係。英國宣佈,它們將盡快籌辦第一屆開放政府數據研討會。07

一周之後,來自全世界30多個國家的100多名代表齊聚倫敦,召開了第一次開放政府數據的研討會。

2011年的10月,第二屆研討會移師波蘭。來自全世界41個國家一共250多名程序員、社會活動家、政府官員、公益領袖和記者參加了這次會議,在熱烈的討論中,醞釀了一個新的戰略轉變。

會議指出,全世界已經有50多個大大小小的數據開放網站,僅僅再增加網站的數量,已經意義不大,要引導開放數據運動在世界範圍內的深化,應該著眼於建立全世界統一的數據開放平台和開放標準。

美國迅速對此作出了反應。

2011年12月,美國聯邦政府宣佈,將和印度政府共同合作,把現有的Data.Gov改造成開源平台,在2012年開放全部的平台代碼。源代碼發佈之後,全世界任何國家都可以免費引進、使用及修改美國的數據開放平台。印度將率先移植Data.Gov,作為其中央政府的數據開放平台。

這個新的決定,再一次讓美國站在了全世界數據開放和創新的潮頭浪尖。

這一次,這一創舉的背後,除了昆德拉之外,還有另外一股力量。

美國國務院也在為奧巴馬的開放戰略積極拓展國際空間。

2011年7月,美國國務卿希拉裡和巴西外交部長帕特裡奧塔(Antonio Patriota)在華盛頓達成協議,計劃以奧巴馬倡導的開放理念為基礎,共同發起一個新的國際組織。不久後,英國、挪威、墨西哥、印度尼西亞、菲律賓、南非陸續加盟,發起國增加到8個。

2011年9月20日,這8個國家在紐約集會,宣佈成立「開放政府聯盟」(OGP),並發佈了《開放政府宣言》08。8大發起國在宣言中誓言將用自身的行動來推動世界各國政府的開放,並許下了4大承諾。第一大承諾便是:向本國社會開放更多的信息。

宣言書說:

「政府代表人民收集並保存了各種各樣的信息。人民有權利獲取關於政府活動的各種信息。我們承諾:用可以重複使用的格式,及時主動地向社會開放高質量的信息,包括原始的數據。」

申請加入開放政府聯盟的門檻——參與國必須具備以下4個條件

說明:可以看出,這4個基本條件都是奧巴馬擔任參議員和總統之後的主要政治主張。

奧巴馬在這次會議上發表了開幕辭和閉幕辭。

第二天,9月21日,他又在聯合國大會發表了一年一度的演講。他這次演講的主題是「和平」,但他還是利用這個機會,向各國政府的代表解釋了發起「開放政府聯盟」的原因。他說,要通過這個組織,和其他的國家聯手,共同利用開放社會和開放經濟的力量,提高社會對政府的問責度、激發社會和公民的潛力。

幾個月後,開放政府聯盟又陸續收到了加拿大、意大利、希臘、韓國等42個國家/地區的加盟申請,其會員迅速增加到50個。其中,有31個國家/地區都建立了公共數據的開放網站(統計日期為2012年4月25日)。

在這31個國家/地區當中,還不乏發展中國家。

例如,本書一開始就提到的非洲窮國肯尼亞。2010年8月,肯尼亞通過了新的憲法,其憲法第35條規定:

「每一個公民都有權獲得政府擁有的信息。……每一個公民都有權修改、刪除(政府保存的)不真實、有誤導傾向的錯誤信息。」

公民的信息權寫進憲法,信息的開放自然是水到渠成。2011年7月,肯尼亞總統齊貝吉(Mwai Kibaki)宣佈推出公共數據開放網站:opendata.go.ke。隨著這個網站的建立,肯尼亞成為非洲大陸第一個開放數據的發展中國家。截至2011年底,肯尼亞的網站上共開放了390組數據。

中國的香港地區也融入了這股大潮。2011年3月,香港推出了公共數據開放網站:Data.One,目前該網站只開放地理和交通兩大類數據,已有近百組數據可供下載。

全世界目前已經正式建立數據開放門戶網站的國家和地區

雲計算:新的航向

就像公用電話網一樣,計算的能力,有一天會被組織起來,成為一種公共資源和公共事業,這種公共資源和事業,會成為一個新的、重要的產業。09

——約翰·麥卡錫(1927-2011),美國計算機科學家、圖靈獎獲得者,1963年

除了奧巴馬的理念創新,昆德拉還在技術上不斷突破,精心打造Data.Gov這艘巨艦。

2011年5月,聯邦政府宣佈,將推出第二代Data.Gov。新的方向,是為Data.Gov建立一個以雲計算為基礎的平台。

「雲計算」(Cloud Computing),是一個較為抽像的概念。其來源和演變,凝聚著眾多科學家的智慧和創新。

「雲」的概念來源於電話通訊行業。20世紀,電話已經普及成一種公共事業,通過公共電話網,兩個點之間可以實現通訊。但如果想在兩個用戶之間建立一條專用的、私密的通訊渠道,則必須架設新的物理專線,這相當於另起爐灶,非常昂貴。1990年代,一種被稱為「虛擬專用網絡」(VPN)10的技術出現了,它可以通過公用網絡隨時為兩個用戶建立專線聯繫,這是一個革命性的突破,大大節省了通訊的開支。為了形容這種可以為個人提供專用資源,並可以招之即來、揮之即去的網絡服務,「雲」的概念產生了。

「計算」,指的是計算機的計算能力,其大小快慢,取決於計算機內硬件的配置。人類發明計算機不久,計算機科學家就開始憧憬,把計算能力集中起來共享。1963年,人工智能的另一位先驅、斯坦福大學的約翰·麥卡錫教授就預見說:「計算的能力,有一天會被組織起來,成為一種公共資源和公共事業。」1983年,太陽微系統(Sun Microsystems)的首席研究員約翰·蓋奇進一步明確說:這種組織,就是網絡。11也就是說,把計算的能力放在互聯網上,而不是你桌面的個人電腦上。所有的硬件計算能力、存儲能力、軟件執行能力,全部都由網絡提供:網絡就是你的計算力,網絡就是你的電腦。

這種通過網絡將計算能力組織起來的做法,可以實現經濟學意義上的「規模化」和「專業化」,意味著巨大的利潤空間。

1997年,南加州大學的一位印度裔教授切諾柏(Ramnath Chellappa)將「雲」和「計算」組合成一個新的單詞,正式提出了「雲計算」的概念,他認為:「從此以後,計算的邊界將由經濟的規模效應決定,而不僅僅取決於技術層面的限制。」

這些天才的思想自然引起了企業界前赴後繼的嘗試。

1999年,美國著名的客戶關係管理軟件提供商Salesforce提出了利用雲計算提供軟件服務的概念(即軟件即服務)。之後,戴爾、亞馬遜、IBM、谷歌、微軟等公司紛紛加入,投入巨資,開發自己的雲服務。其中,亞馬遜公司拔得頭籌,2006年,該公司成功地推出第一款提供硬件服務的雲產品,即「彈性雲計算」(EC2)。

2010年前後,雲計算已經形成了一個從應用軟件、操作系統到硬件的一個完整產業鏈,開始得到大規模的商業應用。

雲的運營商把計算能力當做一種資源,集中在一起,然後再通過網絡,配送給有需要的客戶。客戶需要的計算資源多,服務商就送得多;客戶需求一下降,配送就可以立刻下調。客戶購買這種服務之後,就不再需要再購置額外的軟件和硬件。這對小公司而言,意味著不用投入大量的資金購買服務器和軟件,通過租用,立刻就可以享受到以前只有大公司才能配置的軟硬件能力。

也就是說,就像自來水管道供水、電力網輸電一樣,雲計算把「計算」從有形的產品變成了無形的服務。計算能力成了一種可以傳送的服務,這是繼互聯網的出現之後,信息技術領域最重要的一個創新和變革。

雲計算服務的三種模式

說明:三種模式分別對應應用軟件、操作系統和硬件,服務範圍層層擴大。SaaS、PaaS和IaaS分別代表Software as a Service,Platform as a Service和Infrastructure as a Service。

1993年,互聯網剛剛出現不久,克林頓總統高瞻遠矚、提出了後來舉世聞名的信息高速公路計劃,在其任期內為美國搭建了一個覆蓋全國的光纖通信網絡,這為美國全面進入信息時代奠定了基礎,當然也拉動了經濟發展、提升了美國的綜合國力。其後世界各國紛紛倣傚,在全球掀起了一股「信息高速公路」的熱潮。

潮起潮落,十幾年過去,雲計算又帶來了新的機遇,將引發信息產業的重新佈局。雄心勃勃、對創新和科技情有獨鍾的奧巴馬當然不願錯失這個歷史機遇。2010年,奧巴馬在工業界和學術界聘請了71名專家,成立了「雲」委會,幫助聯邦政府普及「雲」知識、制定「雲」政策、推動「雲」部署。

當然,聯邦政府雲計算背後的主要推手,還是首席信息官昆德拉。

對於這個新的概念,大部分聯邦政府的官員都曾經「雲山霧罩」、人云亦云,並不清楚什麼是真正的「雲」。

作為聯邦政府的首席信息官,昆德拉曾經在大小場合解釋什麼是「雲」以及「雲」的優勢,他對「雲」的描述,非常生動、形象:

「曾經,每一個家庭、農莊、村落、城市都必須有自己的水井。今天,你僅僅打開水龍頭,乾淨的水就通過公共供水管道輸送給我們。雲計算,也是這個道理,就像我們廚房裡的水一樣,可以根據我們的需要,隨時打開或者關上。在自來水供應公司,有一群專業人員負責水的質量、安全以及24小時不間斷供應。當你關上水龍頭,你不僅節約了水,你也不用為你沒用的水付費。」

2010年12月,在昆德拉的主導下,聯邦政府宣佈了「雲優先」(Cloud First)政策,規定所有新建的政府信息系統,必須優先考慮雲平台。2011年2月,白宮正式發佈了《聯邦政府雲戰略》12,該《戰略》要求,各個國家部委必須確定3個可以推向雲平台的系統,並在年內完成至少一個。同時,聯邦政府2094所數據中心,通過雲計算,在2011年合併了137所,未來5年將再精簡800所。

作為開放政府的旗艦,Data.Gov已經成為奧巴馬政府的一張名片,自然要走在創新的前沿。2011年5月,Data.Gov宣佈開始邁向雲平台的改造,對聯邦政府而言,這意味Data.Gov將變成一種服務,數據、軟件、服務器都將保存在私營公司的平台上,用戶可以在平台上開發、部署、運行自己的應用程序,服務的收費,將取決於存儲量、計算量、訪問量等等指標。

2011年8月,昆德拉辭去了聯邦政府首席信息官的職務,他接受了哈佛大學的邀請,前往伯克曼互聯網和社會研究中心(Berkman Center for Internet and Society)從事技術和政治的研究工作。美國報紙評論說,無論是他領導的數據開放運動,還是他為聯邦政府制定的雲戰略,都把美國政府推向了創新的潮頭,領跑了整個世界。

美國白宮發佈的一個經典案例:為什麼需要「雲」?

2009年6月,為鼓勵消費,聯邦政府推出舊車換新車的現金補貼項目(Car Allowance and Rebate System),該項目申請和審批的過程都在網上完成。交通部開發了軟件、裝備了服務器,並預計全美將有25萬人上網申請。

不料僅僅一個月,申請人數就高達69萬,系統不堪重負、一再癱瘓,導致了諸多社會抱怨。白宮後來總結說,如果是雲平台,不僅可以立即增加系統的資源和容量,任務完成之後,資源還可以立即釋放,另作他用。

奧巴馬正是希望借助「雲」的伸縮性,實現公共資源的「按需配置」,這不僅可以節約資金,還可以提高公共服務的質量,同時獲得更多的決策彈性,大膽創新。

雲計算的出現,把數據存儲和數據分析變成了一個可以更加方便獲得的網絡服務,毫無疑問,這是一個重大的變革。隨著它的普及,全世界政府、企業和個人使用、消費信息技術的模式,正在改寫。

但大數據時代,還在催生更多的變革。

一個劃時代的、更大的巨變,正在慢慢向我們靠近。

再造互聯網:從網頁相連到數據相「聯」

語義網就是數據網,從某種程度上來說,就像一個全球性的數據庫。……語義網不僅僅是把數據放上網,它還要在數據之間創建聯接,數據一旦聯接,計算機和人都可以對數據進行探索:通過一個數據發現另外一些相關的數據。13

——蒂姆·伯納斯-李,1998年、2006年

大數據時代正在催生的最大技術變革,是重新構造互聯網。

對下一代互聯網的研究,伯納斯-李領導的麻省理工學院萬維網聯盟(W3C)是全世界的領跑者。1998年,該組織就開始提出下一代互聯網的定義和構建方法。

伯納斯-李將下一代互聯網稱為「語義網」(Semantic Web),他繼而解釋說,語義網就是「數據網」(Web of Data)。

所謂「語義」,是指遵循一個統一的標準,給每一片信息賦予一個計算機都能理解的「意義」,這個標準的「意義」,用術語說,則是「元數據」,也可以形象地理解為給信息貼上各種標準化的「標籤」。

如前文所述,現在互聯網上的資源組織形式,是萬維網(World Wide Web)。在萬維網上,網頁是信息資源的基本組織單位,各個網頁都有一個地址,即「統一資源標識」(URI),它們通過開發者定義的鏈接連接起來,用戶可以從一個網頁跳躍切換到另一個網頁,即網上衝浪。

在語義網上,數據將像網頁一樣,成為組織資源的單位。一個數據,可以像萬維網上的網頁一樣獲得一個地址(即統一資源標識),同時,還有統一的語義對它進行描述。

這樣,語義網上的數據,就不再是一個死的數字,而是一個活的「細胞」,它可以被定位,還擁有和其他數據語義一致的標籤,這意味著它可以和其他數據相聯。之所以稱為相「聯」,而不是相「連」,是因為,它們並不是像網頁一樣通過一個鏈接簡單連在一起,而是通過數據之間內在的關係掛起鉤來、「聯」在一起。這種關係,不是隨便定義的,而是基於數據的含義和屬性產生的。

元數據(Metadata)

元數據是大數據時代的一個重要概念,它是指描述、解釋數據屬性的數據(data about data),是為支持一致性的數據描述所定義的統一準則。

這種相聯,就像兩個數據庫通過「主鍵」(Primary Key)相聯起來一樣,不同的是,這裡的「主鍵」,是一個數據的元數據。

對用戶而言,這意味著可以從一片數據自由地跳轉到其他數據——數據衝浪。這個跳轉,依靠的不是人為的鏈接,而是本質關係上的聯結。

這將是一次劃時代的革命。

1990年代,互聯網進入大眾的生活之後,人們開始在網上大建網站,網站的目的,是信息的傳播和分享,這個時代,很多人稱之為「Web 1.0」。隨著技術的進步,21世紀初,出現了推特、臉譜14等社交網站,社交網站把基於互聯網的交流、協同和互動演繹得淋漓盡致,被稱為「Web 2.0」。

但在大數據時代,信息共享、交流互動已經不再是最迫切的需求,數據的分析和整合,才是最大的挑戰,而這恰恰是萬維網的短板。

可以說,萬維網是一個網頁的集合體。這些網頁,即使內容相似、主題相同,但由於分屬不同的網站、存儲在不同的服務器上,他們之間就沒有鏈接和聯繫,這意味著如果用戶想找到它們、分析它們,就必須借助搜索引擎等工具。

這也是谷歌之類的搜索公司為什麼能成為商業巨頭的根本原因:在現在的互聯網上,各種信息之間是孤立的,我們要對它們進行整合、分析,就必須依靠人工的外力,目前最好的工具就是搜索引擎。

但搜索引擎並不完美。通過特定的計算機算法,搜索引擎按「關鍵字」的相關度對網頁進行過濾排序,然後給用戶返回一大批相關的網頁,這些信息,良莠不齊,還需要進一步的人工分辨。

未來的語義網,卻不是一個眾多網頁的鏈接體,而是一個全球性數據庫。在這個數據庫中,各種相關數據通過「元數據」互相聯結,計算機將根據元數據,自動為我們搜尋、檢索和集成網上的信息,不再需要搜索引擎。

例如,在萬維網上,如果你想閱讀韓寒的作品,你可能要借助搜索引擎,輸入「韓寒的作品」,但搜索引擎返回的,是一板一眼包含「韓寒的作品」這5個字的所有網頁,其中,有韓寒創作的作品,也有別人對韓寒作品的評論等等相關的信息。但在語義網上,韓寒創作的作品會有一個語義標籤,別人的評論會有另外一個標籤,通過標籤,韓寒所有的作品將自動相聯,你找到了一個,就能發現一片。

又比如,在語義網上,你可以跨網站整合數據:你收到銀行寄來的消費記錄,但卻記不清其中一筆10元錢是不是自己花的,你可以立即將你的銀行記錄和你的Outlook日程表聯結起來,通過逐條查對你的行程、活動和消費明細,這樣你很快就能想起,那天花錢的時候,你正在和家人開車去公園的路上,你買了幾瓶水。跨網站整合數據,還意味著你可以將微博上的一條信息群發給你開心網上定義的朋友圈。

不難想像,在新一代的「語義網」裡,谷歌的搜索服務,將不再有立足之地,各種社交網站的功能和格局也將改寫,語義網的智能平台將觸發、呼喚一些嶄新的服務。由於這些變化,也有人將語義網稱為「Web 3.0」。

從Web 1.0到Web 3.0的演變

說明:Web 1.0到Web 3.0的提法在業界有人支持、有人反對,並不統一。

但語義網的建設卻非一日之功、一人之力。

首要原因是有大量關於元數據的標準需要制定、統一。

語義網的建設,元數據是關鍵。只有通過這些計算機能理解的語義標記,每一個片斷的信息才可以和其他的信息自動發生聯繫,揉捏整合,形成聯結的關係。作為一種「標記語言」,元數據必須是標準的、一致的,又是靈活的、可擴展的,適用於萬事萬物。

為了保持「標記語言」的一致性,計算機科學家正在對全世界萬事萬物的基本特點及其關係進行規範和定義,這個過程,叫做創建本體(Ontology)。所謂本體,就是世界上所有的常見事物。創建本體,也可以理解成對人類社會每一個實體進行概念化、標準化的定義過程。

可以想像,這是一個如何浩大的工程。

簡單的本體示例:關於動物的概念及其相互關係所構成的語義網絡

說明:通過以上這幾個本體定義,計算機一碰到「熊」,就知道它是一種哺乳動物、身上有毛,還能推斷出它有脊椎、不在水中生活。(圖片來源:維基百科)

在各種各樣本體的基礎之上,為數據加上語義一致的元數據標籤,這是語義網最基礎也是最繁瑣的工作之一。以Data.Gov為例,昆德拉在創立之初,就鼓勵政府各個機構按照語義網的標準發佈數據,目前,該網站上有400多組按語義網的標準發佈的數據,但僅僅這幾百組數據,其定義的元數據就達到64億之多。

語義網蓄勢未發,除了基礎工作龐大繁雜之外,還有一個經濟學上的原因,可以用網絡的外部性來解釋。

何為網絡外部性?

網絡外部性

(Network Externality)

網絡外部性是理解現代經濟的一個重要概念。它是指某件產品對單個消費者的使用價值,取決於這件產品總用戶的多少。用戶的人數越多、形成一個越大的網絡,每個用戶從產品中得到的效用就越高。

電話、即時通訊軟件、社交網站等等都是網絡外部性的典型例子。

讓我們穿越到1876年,電話剛剛被美國人貝爾發明的時候。

假設安裝一部電話非常昂貴。當你計劃安裝時,你會審視你周圍的朋友,如果他們都不買、也不裝,那你的電話就無人可打、毫無作用,只有用的人越多、你能聯繫的人也就越多,電話對你的價值才越大。語義網也一樣,你投入資源、人力,把你的網頁、數據重新定義了,但還不夠,你的數據必須和其他數據相聯,你的工作才能產生價值。也就是說,你投資的效果,不是立竿見影的,而是最終取決於其他人是否投資、和你相聯。只有全球性的數數相聯,語義網才能最終形成、發揮最大的效用。正因如此,目前,商業領域對語義網的投資很有限,語義網的建設主要靠政府和公益組織在推動。

在2009年的TED大會上,伯納斯-李的演講題目是《下一代網絡》,他在向觀眾描述了未來語義網的強大之後,向聽眾呼籲:

「現在,我們正處在這樣一個階段:如果你認為這是一個偉大的想法,那你就要去做。這件事,每個人的回報將取決於其他人是否行動。我想,今天我們在座的很多人,他們做事,並不是因為這件事很快就有投資回報,他們去做,是因為他們明白:每個人都去做了,就能成就一件好事。」15

換句話說,語義網的建設,也存在著「集體行動的困境」。

今天,當我們面對互聯網時,好像感覺不到任何的變化。放眼望去,大地似乎平坦依舊、江河仍然向東奔流,但地表之下,正在平靜地發生劇烈的變化。每一天,世界各地都在定義新的本體、增加新的互聯數據。這些變化,也像地基,地基打得越深越牢,樓才能蓋得越高越大。

但這些本體,主要還是英文本體,中文世界對本體的研究和貢獻極為有限。

終有一天,全球將數數相聯。

就像瀏覽網頁已經成為我們的生活方式一樣,數據在網上的自動整合和跳轉,將會成為我們新的生活方式。通過這種新的方式,互聯網將向我們「推送信息」,而不再是我們在網上「搜索」信息。

那將是一個更加輝煌的大數據時代。大數據之「大」,將不僅僅意味著數據之多,還意味著,每一個數據都能在互聯網上獲得生命、產生智能、散發活力和光彩。

註釋

01 英語原文為:「Raw Data Now!」—On the next Web, TED 2009 Conference, Tim Berners-Lee, Feb 3rd, 2009

02 英語原文為:「The most exciting is a new right to data, which will let people request streams of government information and use it for social or commercial purposes? Take all this together and we really can make this one of the most open, accountable and transparent governments there is. Let me end by saying this. You are going to have so much information about what we do, how much of your money we spend doing it, and what the outcome is.So use it, exploit it, hold us to account. Together we can set a great example of what a modern democracy ought to look like.」—David Cameron, November 19th 2010

03 Give us back our crown jewels, The Guardian, Charles Arthur and Michael Cross, March 8, 2006

04 TED是Technology、Entertainment、Design(技術、娛樂、設計)3 個英文單詞的縮寫。TED大會是全世界著名的思想領袖會議,該大會以美國加州為基地,每年將眾多的技術、設計、文學、音樂等領域的傑出人物集聚在一起,對科技和文化發展中的重大話題進行交流、思考和探索。

05 英語原文為:「Each country will pursue a path rooted in the culture of its own people.Yet experience shows us that history is on the side of liberty; that the strongest foundation for human progress lies in open economies, open societies, and open governments.」—Remarks to the United Nations General Assembly, Obama, September 23, 2010

06 美國總統奧巴馬在聯合國大會上的演講,2010年9月23日。

07 Open Government Data Camp: 2010

08 Open Government Declaration, September 2011

09 英語原文為:「Computing may someday be organized as a public utility just as the telephone system is a public utility.…The computer utility could become the basis of a new and important industry.」—John McCarthy, speaking at the MIT Centennial in 1961

10 互聯網上流行的「翻牆」技術,用的其實就是虛擬專用網絡的技術。

11 英語原文為:「The network is the computer.」—John Gage, Vice President of Sun Microsystems, 1983

12 Federal Cloud Computing Strategy, Vivek Kundra, U.S. Chief Information Officer, February 8, 2011

13 英語原文為:「The Semantic Web is a web of data, in some ways like a global database. …The Semantic Web isn't just about putting data on the web. It is about making links, so that a person or machine can explore the web of data. With linked data, when you have some of it, you can find other related data.」—Tim Berners-Lee, 1998 & 2006

14 推特即Twitter,相當於中國的微博;臉譜即Facebook,是美國最流行的社交網站,相當於中國的開心網和人人網。

15 On the next Web, TED 2009 Conference, Tim Berners-Lee, Feb 3rd, 2009