全國咨詢/投訴熱線:400-618-4000

Spark的集群安裝與配置簡介【大數據技術文章】

更新時間:2020年10月29日14時00分 來源:傳智播客 瀏覽次數:

以圖1所示的Spark集群為例,闡述Standalone模式下,Spark集群的安裝與配置方式。
圖1 Spark集群
  從圖1可以看出,我們要規劃的Spark集群包含一臺Master節點和兩臺Slave節點。其中,主機名hadoop01是Master節點,hadoop02和hadoop03是Slave節點。
  接下來,分步驟演示Spark集群的安裝與配置,具體如下。
  1.下載Spark安裝包
  ? Spark是Apache基金會面向全球開源的產品之一,用戶都可以從Apache Spark官網http://spark.apache.org/downloads.html下載使用。本書截稿時,Spark最新且穩定的版本是2.3.2,所以本書將以Spark2.3.2版本為例介紹Spark的安裝。Spark安裝包下載頁面如圖2所示。
圖2 Spark安裝包下載
  進入Spark下載頁面,選擇基于“Pre-built for Apache Hadoop 2.7 and later”的Spark2.3.2版本,這樣做的目的是保證Spark版本與本書安裝的Hadoop版本對應。
  2.解壓Spark安裝包
  首先將下載的[spark-2.3.2-bin-hadoop2.7.tgz](https://archive.apache.org/dist/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz)安裝包上傳到主節點hadoop01的/export/software目錄下,然后解壓到/export/servers/目錄,解壓命令如下。
$ tar -zxvf spark-2.3.2-bin-hadoop2.7.tgz -C /export/servers/
  為了便于后面操作,我們使用mv命令將Spark的目錄重命名為spark,命令如下。
$ mv spark-2.3.2-bin-hadoop2.7/ spark
  3.修改配置文件
  (1)進入spark/conf目錄修改Spark的配置文件spark-env.sh,將spark-env.sh.template配置模板文件復制一份并命名為spark-env.sh,具體命令如下。
$ cp spark-env.sh.template spark-env.sh
  修改spark-env.sh文件,在該文件添加以下內容:

  上述添加的配置參數主要包括JDK環境變量、Master節點的IP地址和Master端口號,由于當前節點服務器已經在/etc/hosts文件配置了IP和主機名的映射關系,因此可以直接填寫主機名。
  (2)復制slaves.template文件,并重命名為slaves,具體命令如下。
$ cp slaves.template slaves
  ? (3)通過“vi slaves”命令編輯slaves配置文件,主要是指定Spark集群中的從節點IP,由于在hosts文件中已經配置了IP和主機名的映射關系,因此直接使用主機名代替IP,添加內容如下。
  hadoop02
  hadoop03
  ? 上述添加的內容,代表集群中的從節點為hadoop02和hadoop03。
  4.分發文件
  修改完成配置文件后,將spark目錄分發至hadoop02和hadoop03節點,具體命令如下。
  $ scp -r /export/servers/spark/ hadoop02:/export/servers/
  $ scp -r /export/servers/spark/ hadoop03:/export/servers/
  至此,Spark集群配置完成了。
  5.啟動Spark集群
  ? Spark集群的啟動方式和啟動Hadoop集群方式類似,直接使用spark/sbin/start-all.sh腳本即可,在spark根目錄下執行下列命令:
  $ sbin/start-all.sh
  ? 執行命令后,如果沒有提示異常錯誤信息則表示啟動成功,如圖3所示。
圖3 啟動Spark集群
  啟動成功后,使用Jps命令查看進程,如圖4所示。
圖4 查看集群進程
  從圖4可以看出,當前hadoop01主機啟動了Master進程,hadoop02和hadoop03啟動了Worker進程,訪問Spark管理界面http://hadoop01:8080來查看集群狀態(主節點),Spark集群管理界面如圖5所示。
圖5 Spark集群管理界面
  至此,Spark集群安裝完畢,為了在任何路徑下可以執行Spark腳本程序,可以通過執行“vi /etc/profile”命令編輯profile文件,并在文件中配置Spark環境變量即可,這里就不再演示。


猜你喜歡:

大數據培訓:FTP文件上傳規范/a>

大數據自學好還是去培訓機構好?

人妻系列无码专区_漂亮人妻被中出中文字幕_人妻中文制服巨乳中文