讀古今文學網 > 大數據 > 建言 中國如何應對大數據時代的挑戰* >

建言 中國如何應對大數據時代的挑戰*

最近,我回國參加了一些大學的研討會、政府部門的座談會以及企業的培訓活動,主題都是大數據,時下,國內各大報刊雜誌也都在探討這個熱門話題,但我發現,中國社會對「大數據」的概念還存在一些不準確的認識甚至觀念上的誤區,特別是對大數據在國家層面上的戰略意義估計不足,亟需深化。

從小數據到大數據

「大數據」是一股新的技術浪潮,也是逐步形成的歷史現象,其具體是指隨著信息存儲量的增多,人類在實踐中逐漸認識到,通過數據的開放、整合和分析,能發現新的知識、創造新的價值,從而為社會帶來「大科技」、「大利潤」、「大智能」和「大發展」等新的機遇。大數據概念的提出,可以追溯到1980年代,但其「數據」二字卻和我們傳統的理解有所不同。

傳統意義上的「數據」,是指「有根據的數字」,但在進入信息時代之後,「數據」二字的內涵在擴大,它不僅指代「數字」,還統稱一切保存在電腦中的信息,包括文本、聲音、視頻等。更重要的是,隨著信息技術的進步,其數量在爆炸,特別是新媒體出現之後,數據的收集、保存、維護、使用等任務,成為橫跨各個領域的現象和挑戰。

大數據之「大」,並不在於其表面的「大容量」,而在於其潛在的「大價值」。有很多例子可以證明,由於新工具的出現,我們從以前的小數據當中也能發現大的價值。例如,美國把20多年的犯罪數據和交通事故數據映射到同一張地圖上後驚奇地發現,無論是交通事故和犯罪活動的高發地帶,還是兩者的頻發時段,都有高度的重合性。這引發了美國公路安全部門與司法部門的聯合執勤,通過共治數據「黑點」,交通事故率和犯罪率雙雙降了下來。再例如,最近有學者將白宮200多年總統洗衣服的記錄電子化,然後進行分析,也得出了一些新的結論。這些數據,都是地道的小數據。這說明,小數據只要在縱向上有一定的時間積累,在橫向上有細緻的記錄粒度,再和其他數據整合,就能產生大的價值。從這個角度來看,大數據也可以理解為針對某個對象在時空兩個維度上的「全息」數據。這種「全息」,在大數據的時代還表現為「多源」,即有多個源頭在從不同方向對同一個對像進行數據記錄,數據之間可以互相印證。

另外,從全球數據技術投入的資金分佈來看,傳統的小數據仍然佔據絕對的重頭。據國際數據集團(IDG)統計,2012年,全球對小數據分析工具的投資為349億美元,而對大數據分析工具Hadoop的投資僅為1.3億美元,不及前者的1%。IDG的結論是,傳統的小數據軟件滿足了企業和組織95%的需求。目前行業發展的最新態勢,是「大」、「小」數據分析工具趨於一體化並在向「雲」遷徙。

大數據的戰略意義

大數據的意義,也遠遠不局限於我們當前眾多新聞報道中所津津樂道的「啤酒和尿布」等通過數據挖掘、實現精準營銷的故事。事實上,數據挖掘已經不是大數據領域的前沿,取而代之的是機器學習。數據挖掘是指通過特定的算法對大量的數據進行自動分析,從而揭示數據當中隱藏的歷史規律和未來的發展趨勢,為決策者提供參考。時下興起的機器學習,憑借的也是計算機算法,但和數據挖掘相比,其算法不是固定的,而是帶有自調適參數的,也就是說,它能夠隨著計算、運行次數的增多,即通過給機器「喂取」數據,讓機器像人一樣通過學習逐步自我提高改善,使挖掘和預測的功能更為準確。這也是該技術被命名為「機器學習」的原因。這也是大數據之所以被稱為革命性現象的根本原因,因為從本質上來說,它標誌著我們人類社會在從信息時代經由知識時代快速向智能時代邁進。

不妨舉一兩個例子,來說明大數據對社會形態的影響以及對國家戰略的重要性。

今年以來,一股在線教育的浪潮正在席捲美國的教育領域,一種新型的智能學習平台正在成為高科技領域創新和投資的重點,其中不少公司已經獲得了初步成功。如著名的在線教育公司Coursera,已經和普林斯頓、伯克利、杜克、香港理工等全世界30多所大學達成協議,通過其平台免費開放課程。如今這些學校的課程可以實現全球幾十萬人同步學習。分佈在世界各地的學習者不僅可以在同一時間聽取同一位老師的授課,還和在校生一樣,做同樣的作業、接受同樣的評分和考試。一些學校看到了這種智能學習平台的價值和潛力,甚至開始投資興建自己的獨立平台,2012年5月,哈佛大學和麻省理工學院就宣佈,將投入6000萬美元開發一個類似平台,並向全世界免費開放。

這種學習平台的崛起,在美國引起了廣泛的關注和激烈的討論。其中的原因,在於該平台已經不是一個鏡頭、一段視頻那麼簡單,而能對學習者的學習行為自動進行提示、誘導和評價,從而彌補沒有老師面對面交流指導的不足。例如,通過記錄鼠標的點擊,計算機能夠記錄你在一張幻燈片上停留的時間,判別你在答錯一道題之後有沒有回頭複習,發現不同的人對不同知識點的不同反應,從而總結出哪些知識點需要重複或強調,哪種陳述方式或學習工具在哪種情況下最有效等規律。

不難發現,該平台之所以強大,正是因為大數據。單個個體學習行為的數據似乎是雜亂無章的,但當數據累積到一定程度時,群體的行為就會在數據上呈現一種秩序和規律。通過收集、分析大量的數據,就能總結出這種秩序和規律,然後有的放矢,對不同的學習者提供有針對性的幫助。哈佛大學和麻省理工學院之所以向全世界免費開放其學習平台,目的也是想讓更多的學習者在上面學習,以收集更多的數據,有了數據,它們才能研究世界各國學習者的行為模式,進而打造更好的智能學習平台。

數據驅動的智能時代

前面的例子說明數據正在成為組織的財富和創新的基礎,也證明大數據確實在催生一個更加智能的社會。那麼,又該如何理解我們正在邁進的這個智能型社會呢?

理解這個問題的關鍵在於,無論是信息、知識還是智能,在我們這個時代,都是以數據為載體存在的。數據是對客觀世界的記錄,當我們對數據賦予背景時,它就成為信息;信息是知識的來源,當把信息提煉出規律的時候,它就上升為知識;知識是智能的基礎,當電腦、網絡能夠利用某種知識作出自動判別,採取行動為人類服務的時候,機器智能就產生了。目前,人類記錄周圍世界的範圍正在不斷擴大,過去,我們是決定記錄什麼,現在及將來,我們要進入一個決定不記錄什麼的時代,同時數據分析的能力不斷增強,這都將加速我們邁向智能時代的步伐。智能時代的特點,是無處不在的計算機和網絡將像有智商的人一樣為人類工作和服務。換句話說,越來越多的工作將被計算機或者機器人所代替。此外,由於精準的計算和預測,整個社會可以像無數個大大小小的齒輪軸承一樣,環環相扣,齒齒吻合,日常管理通過數據更加優化,各種任務、合作可以無縫對接,社會運行的成本可大幅降低。

回到上面的例子,不難想像,這種智能學習平台將會給教育行業帶來怎樣的影響。學校曾經是最重要的教育資源,好的學校更是異常稀缺,由於這種智能平台的普及,在不遠的將來,名校將人人可上,也就是說,如果應對得當,中國教育資源匱乏的問題將很快得到有效緩解。對個人來說,隨時隨地地學習、終身學習都將成為可能,例如,高中生可以嘗試大學的課程,離開了校園的人,也可以登錄在線平台再和在校生一起聽課。這些都是教育工作者探討多年、孜孜以求的夢想。但硬幣的另一面,是中國的教育行業要面對更加激烈的全球化競爭和挑戰。過去,是學生爭學校;將來,可能是學校在全球範圍中爭奪學生。發達國家的一流大學會擠壓發展中國家普通大學的生存和發展空間,普通大學該如何來吸引生源?它們會不會因此衰落?既然最好的教學視頻等學習資源都可以免費獲得,教師的角色又需不需要調整?又該如何調整?這些問題,都是大數據時代催生的重大挑戰。

智能學習平台只是大數據大潮在教育領域掀起的一朵浪花。毫不誇張地說,大數據將影響人類社會發展的方方面面、優化改造每一個行業,其作用難以限量。我們再以時下另外一個熱門名詞「智慧城市」為例。近幾年來,國內外都興起了建設智慧城市的浪潮。據國內智慧城市的領軍公司神州數碼董事局主席郭為介紹:目前,國內已經有60多個城市把建設智慧城市納入了「十二五」規劃,他相信,智慧城市將成為推動中國經濟可持續發展的主動力。但從一個更高的角度來看,智慧城市的建設問題,其實是一個城市的大數據綜合治理問題:一是要在以前沒有收集數據的地方收集數據,這主要是利用物聯網的技術;二是要讓不同系統的數據有效對接起來,這是系統整合的任務;最後,還要利用數據可視化的技術把海量數據中隱藏的知識揭示、展現出來,讓數據中的智慧能夠以一種直觀的形式流向城市的管理者、決策者和市民大眾。也就是說,數據的收集、整合、分析、展現才是智慧城市的核心,未來的智能型城市,必將是數據驅動的城市,而大數據則相當於智慧城市的大腦。郭為還指出,智慧城市的建設,是在用信息技術解決社會治理中的難題,提高人民的幸福指數,這又證明,大數據的應用和價值,絕對不僅僅是在商業領域這麼簡單。

除了推進社會形態的躍進、加速企業創新,引領新的經濟繁榮,我在《大數據》一書中還指出,通過開放數據,大數據還可以成為啟動透明政府的利器。這對當下的中國,現實意義毋庸諱言。也正是基於以上種種戰略考量,2012年3月,美國聯邦政府宣佈投入巨資啟動大數據的研發任務,並把大數據提到了和歷史上的互聯網、超級計算機一樣的高度,成為國家戰略。

政府需要做什麼

一是政府機構、行業組織和大型企業要建立專門的數據治理機構來統籌數據治理的工作,例如數據治理委員會、大數據管理局等,數據治理的重點在於數據定義的一致性和數據的質量。在大數據時代,不同系統之間的數據要進行整合,因此要有統一的元數據定義,這不僅是中國而且是全世界當下都在面臨的挑戰。各個領域和行業的數據標準制定得好,將會起到事半功倍的效果。就單個企業而言,要認識到,未來的競爭是知識生產率而不是勞動生產率的競爭,數據分析產生的價值可能比較碎片化,分佈在商業流程的各個環節,數據挖掘的投資回報也有不確定性,但企業領導必須有眼光,把數據治理的工作盡快統籌起來,為增強企業在大數據時代的競爭力做好準備。此外,數據治理機構的首長應該由組織的高層領導擔任,否則標準無法推進到全局,也改善不了整個行業或組織的情況。

二是開放數據。數據增值的關鍵在於整合,但自由整合的前提是數據的開放。開放數據是指將原始的數據及其相關元數據以可以下載的電子格式放在互聯網上,讓其他方自由使用。開放數據和公開數據是兩個不同的概念,公開是信息層面的,是一條一條的;開放是數據庫層面的,是一片一片的。開放也不一定代表免費,企業的數據,可以以收費的形式開放。開放也是有層次的,可以對某個群體、某個組織,也可以對整個社會開放。在大數據的時代,開放數據的意義,不僅僅是滿足公民的知情權,更在於讓大數據時代最重要的生產資料數據自由地流動起來,以催生創新,推動知識經濟和網絡經濟的發展,促進中國的經濟增長由粗放型向精細型轉型升級。

三是鼓勵、扶持基於數據的創新和創業。政策扶持的傳統方法,可能是以政府為主導建立大數據產業園,對新興企業提供辦公場所等便利條件或者現金支持,這固然有效,但更有效的方式是調動全社會的力量。例如,撥款支持大數據開源社區、程序員協會等民間組織的建設,通過扶持類似的民間團體,快速推進新技術、新理念在全社會的傳播和普及;再例如,以開放的數據為基礎,舉辦應用程序開發大賽,向全社會徵詢數據使用、創新的意見,主辦方可以是政府,也可以是企業,拿出一定的資金,獎勵最優秀的應用程序,激發民間蘊藏的創新力量。

四是要在全社會弘揚數據文化。數據文化,是尊重事實、推崇理性、強調精確的文化。要承認,回望歷史,中國是個數據文化匱乏的國家,就現狀而言,中國數據的公信力弱、質量低,數據定義的一致性差也是不爭的事實。這方面,政府應該發揮主導作用,首先在公共領域推行數據治國的理念,要認識到,在大數據時代,公共決策最重要的依據將是系統的數據,而不是個人經驗和長官意志,過去深入群眾、實地考察的工作方法儘管仍然有效,但對決策而言,系統採集的數據、科學分析的結果更為重要。政府應加大數據治國的輿論宣傳,將數據的知識納入公務員的常規培訓體系,力爭在全社會形成「用數據來說話、用數據來管理、用數據來決策、用數據來創新」的文化氛圍和時代特點。

最後是要圍繞個人數據安全,逐步加強隱私立法。任何技術都是雙刃劍,大數據也不例外。如何在推動數據開放的同時有效地保護公民隱私,將是大數據時代的一個重大挑戰。

新年剛剛拉開序幕,希望中國政府相關部門盡快制定與大數據相關的政策,出台具體的措施,從而抓住歷史的機遇、推動中國社會的發展和進步。

2013年,應該成為中國的大數據年。

(2013年1月8日)

* 作者塗子沛系中國旅美科技協會副主席,在2013年兩會期間,本文作為海外議案,提交至中國人民政治協商會議討論。