讀古今文學網 > 機器學習實戰 > 附錄D 資源 >

附錄D 資源

數據收集是件非常有趣的事情,但當你對某算法靈感湧來並試圖做一些實驗的時候,臨時找數據也是件很頭疼的事情。本附錄提供了一些可用數據集的超鏈接。這些數據集的大小從20行到萬億行不等,從中找到所需數據應該不是一件難事:  

  • http://archive.ics.uci.edu/ml/——最有名的機器學習數據資源來自美國加州大學歐文分校。雖然本書僅使用了這其中的不到10個數據集,但該數據庫已經提供了200多個可用的數據集。其中很多數據常被用來比較算法的性能,基於這些資源,研究人員可以得到相對客觀的性能比較結果。

  • http://aws.amazon.com/publicdatasets/——如果你是一個大數據的愛好者,這個鏈接尤其不能錯過。Amazon擁有真正的「大」數據,包括美國人口普查數據、人類基因組註釋的數據、一個150 GB的日誌(維基百科的頁面流量)和一個500 GB的數據庫(維基百科的鏈接數據)。

  • http://www.data.gov——Data.gov啟動於2009年,目的是使公眾可以更加方便地訪問政府的數據。一旦政府的某份數據可以公開,他們就將該數據發佈。到2010年,該網站就已經擁有了250,000個數據集。但網站還能活躍多久尚未可知,因為2011年的時候聯邦政府減少了對電子政府(Electronic Government Fund,該網站的資金來源)的基金支持。該網站提供的數據主要包含一些被召回的產品和破產的銀行信息等。

  • http://www.data.gov/opendatasites—— Data.gov還維持了一個包括美國州、城市和國家等網站在內的超鏈接列表,它們都提供類似的開放數據。

  • http://www.infochimps.com/ ——Infochimps是一個公司,公司目標是讓每個人可以訪問世界上所有的數據集,目前它已開放了14,000多個數據集的下載。與本列表中的其他站點不同,Infochimps的其中一些數據集是需要購買的。當然,你也可以在該網站上出售自己的數據集。

  • http://www.datawrangling.com/some-datasets-available-on-the-web ——Data Wrangling是一個私人的博客,提供了網絡上大量數據集的鏈接。雖然許久沒有更新,但其中很多數據集仍相當不錯。

  • http://metaoptimize.com/qa/questions/——該站點並不提供數據資源,而是一個問答系統的站點,重點關注於機器學習。在這裡有很多高手樂意伸出援手、幫助解答問題。