讀古今文學網 > OpenStack系統架構設計實戰 > 9.6 小結 >

9.6 小結

Sahara旨在為用戶提供大數據即服務能力。其應用場景主要包括:

1)充分利用OpenStack Iaas層的計算能力。

2)在OpenStack上快速配置和部署Hadoop集群的能力。例如,通過對Hadoop版本、集群結構、節點硬件信息等的簡單配置,Sahara既能快速部署Hadoop集群,也能支持集群的擴容和減容。

3)提供類似AWS EMR的分析即服務(Analytic-as-a-Service)的數據分析業務。

Sahara提供基本模式和EDP模式。基本模式要求用戶自己從底層搭建Hadoop虛擬機,建立集群,技術門檻較高。EDP模式則類似於AWS EMR服務,對底層的Hadoop集群操作和Hadoop業務操作進行了封裝,暴露給用戶的只有非常簡單的接口,從而大大降低了技術門檻。

Sahara、AWS EMR、Serengeti三者比較,各有優劣。Sahara EDP只需提供建立大數據集群所需的要素,並且將雲應用的使用與系統運維進行分離,從而提供了比AWS EMR更低的技術門檻。但從大數據整體解決方案能力來看,AWS EMR更勝一籌。Serengeti實現的是「應用虛擬化」,Sahara完成的是「應用雲化」,兩者有著本質區別。但在如何為搭建在虛擬機環境下的Hadoop集群提高性能和可靠性方面,Serengeti可作為Sahara的參考。