機器學習實戰：附錄D 資源_Peter Harrington

數據收集是件非常有趣的事情，但當你對某算法靈感湧來並試圖做一些實驗的時候，臨時找數據也是件很頭疼的事情。本附錄提供了一些可用數據集的超鏈接。這些數據集的大小從20行到萬億行不等，從中找到所需數據應該不是一件難事：　　

http://archive.ics.uci.edu/ml/——最有名的機器學習數據資源來自美國加州大學歐文分校。雖然本書僅使用了這其中的不到10個數據集，但該數據庫已經提供了200多個可用的數據集。其中很多數據常被用來比較算法的性能，基於這些資源，研究人員可以得到相對客觀的性能比較結果。
http://aws.amazon.com/publicdatasets/——如果你是一個大數據的愛好者，這個鏈接尤其不能錯過。Amazon擁有真正的「大」數據，包括美國人口普查數據、人類基因組註釋的數據、一個150 GB的日誌（維基百科的頁面流量）和一個500 GB的數據庫（維基百科的鏈接數據）。
http://www.data.gov——Data.gov啟動於2009年，目的是使公眾可以更加方便地訪問政府的數據。一旦政府的某份數據可以公開，他們就將該數據發佈。到2010年，該網站就已經擁有了250,000個數據集。但網站還能活躍多久尚未可知，因為2011年的時候聯邦政府減少了對電子政府（Electronic Government Fund，該網站的資金來源）的基金支持。該網站提供的數據主要包含一些被召回的產品和破產的銀行信息等。
http://www.data.gov/opendatasites—— Data.gov還維持了一個包括美國州、城市和國家等網站在內的超鏈接列表，它們都提供類似的開放數據。
http://www.infochimps.com/ ——Infochimps是一個公司，公司目標是讓每個人可以訪問世界上所有的數據集，目前它已開放了14,000多個數據集的下載。與本列表中的其他站點不同，Infochimps的其中一些數據集是需要購買的。當然，你也可以在該網站上出售自己的數據集。
http://www.datawrangling.com/some-datasets-available-on-the-web ——Data Wrangling是一個私人的博客，提供了網絡上大量數據集的鏈接。雖然許久沒有更新，但其中很多數據集仍相當不錯。
http://metaoptimize.com/qa/questions/——該站點並不提供數據資源，而是一個問答系統的站點，重點關注於機器學習。在這裡有很多高手樂意伸出援手、幫助解答問題。