Mrjob用於在Amazon網絡服務上啟動MapReduce作業。安裝mrjob與Python中其他模塊一樣方便:打開https://github.com/Yelp/mrjob,在頁面左邊可以看到「ZIP」按鈕,點擊該按鈕下載最新的版本。用unzip和untar解壓文件,進入到解壓目錄後在Python提示符下輸入:
>python setup.py install
GitHub已經列出了很多代碼的樣例。此外還有一個不錯的網站http ://packages.python.org/mrjob/ 也提供了一些Python的官方文檔。
在AWS上正式使用mrjob之前,需要設置兩個環境變量: $AWS_ACCESS_KEY_ID
和$AWS_SECRET_ACCESS_KEY
。它們的值應該設置成你的賬號(如果你擁有賬號的話),該賬號信息可以在登陸AWS後,在Account > Security Credentials頁面看到。
下面來設定一下這些環境變量,打開命令行提示符,輸入以下命令:
>set AWS_ACCESS_KEY_ID=1269696969696969
驗證一下是否有效:
>echo %AWS_ACCESS_KEY_ID%
同樣的方法可以完成AWS_SECRET_ACCESS_KEY
的設置。
如果要在Mac OS X上設置這些環境變量,打開終端窗口(新版本的OS X使用bash命令行),輸入以下命令:
>AWS_ACCESS_KEY_ID=1269696969696969
>export AWS_ACCESS_KEY_ID
同樣的方法可以完成AWS_SECRET_ACCESS_KEY
的設置,注意字符串不需要引號。
Ubuntu Linux也默認使用bash命令行,所以上述Mac OS X命令也同樣適用。如果讀者使用的是其他命令行,請自行查找相應的環境變量設置方法,不會很難。