首頁技術(shù)文章正文

Spark的集群安裝部署【大數(shù)據(jù)技術(shù)文章】

更新時(shí)間:2020-10-29 來源:黑馬程序員 瀏覽量:

以圖1所示的Spark集群為例,闡述Standalone模式下,Spark集群的安裝與配置方式。


1603941271585_31.jpg

圖1 Spark集群

  從圖1可以看出,我們要規(guī)劃的Spark集群包含一臺(tái)Master節(jié)點(diǎn)和兩臺(tái)Slave節(jié)點(diǎn)。其中,主機(jī)名hadoop01是Master節(jié)點(diǎn),hadoop02和hadoop03是Slave節(jié)點(diǎn)。

  接下來,分步驟演示Spark集群的安裝與配置,具體如下。

  1.下載Spark安裝包

   Spark是Apache基金會(huì)面向全球開源的產(chǎn)品之一,用戶都可以從Apache Spark官網(wǎng)http://spark.apache.org/downloads.html下載使用。本書截稿時(shí),Spark最新且穩(wěn)定的版本是2.3.2,所以本書將以Spark2.3.2版本為例介紹Spark的安裝。Spark安裝包下載頁面如圖2所示。


1603941280748_32.jpg

圖2 Spark安裝包下載

  進(jìn)入Spark下載頁面,選擇基于“Pre-built for Apache Hadoop 2.7 and later”的Spark2.3.2版本,這樣做的目的是保證Spark版本與本書安裝的Hadoop版本對(duì)應(yīng)。

  2.解壓Spark安裝包

  首先將下載的[spark-2.3.2-bin-hadoop2.7.tgz](https://archive.apache.org/dist/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz)安裝包上傳到主節(jié)點(diǎn)hadoop01的/export/software目錄下,然后解壓到/export/servers/目錄,解壓命令如下。

$ tar -zxvf spark-2.3.2-bin-hadoop2.7.tgz -C /export/servers/

  為了便于后面操作,我們使用mv命令將Spark的目錄重命名為spark,命令如下。

$ mv spark-2.3.2-bin-hadoop2.7/ spark

  3.修改配置文件

  (1)進(jìn)入spark/conf目錄修改Spark的配置文件spark-env.sh,將spark-env.sh.template配置模板文件復(fù)制一份并命名為spark-env.sh,具體命令如下。

$ cp spark-env.sh.template spark-env.sh

  修改spark-env.sh文件,在該文件添加以下內(nèi)容:

1603941386285_圖片1.png

 上述添加的配置參數(shù)主要包括JDK環(huán)境變量、Master節(jié)點(diǎn)的IP地址和Master端口號(hào),由于當(dāng)前節(jié)點(diǎn)服務(wù)器已經(jīng)在/etc/hosts文件配置了IP和主機(jī)名的映射關(guān)系,因此可以直接填寫主機(jī)名。

  (2)復(fù)制slaves.template文件,并重命名為slaves,具體命令如下。

$ cp slaves.template slaves

   (3)通過“vi slaves”命令編輯slaves配置文件,主要是指定Spark集群中的從節(jié)點(diǎn)IP,由于在hosts文件中已經(jīng)配置了IP和主機(jī)名的映射關(guān)系,因此直接使用主機(jī)名代替IP,添加內(nèi)容如下。

  hadoop02

  hadoop03

   上述添加的內(nèi)容,代表集群中的從節(jié)點(diǎn)為hadoop02和hadoop03。

  4.分發(fā)文件

  修改完成配置文件后,將spark目錄分發(fā)至hadoop02和hadoop03節(jié)點(diǎn),具體命令如下。

  $ scp -r /export/servers/spark/ hadoop02:/export/servers/

  $ scp -r /export/servers/spark/ hadoop03:/export/servers/

  至此,Spark集群配置完成了。

  5.啟動(dòng)Spark集群

   Spark集群的啟動(dòng)方式和啟動(dòng)Hadoop集群方式類似,直接使用spark/sbin/start-all.sh腳本即可,在spark根目錄下執(zhí)行下列命令:

  $ sbin/start-all.sh

   執(zhí)行命令后,如果沒有提示異常錯(cuò)誤信息則表示啟動(dòng)成功,如圖3所示。

1603941298464_33.jpg

圖3 啟動(dòng)Spark集群

  啟動(dòng)成功后,使用Jps命令查看進(jìn)程,如圖4所示。

1603941305774_34.jpg

圖4 查看集群進(jìn)程

  從圖4可以看出,當(dāng)前hadoop01主機(jī)啟動(dòng)了Master進(jìn)程,hadoop02和hadoop03啟動(dòng)了Worker進(jìn)程,訪問Spark管理界面http://hadoop01:8080來查看集群狀態(tài)(主節(jié)點(diǎn)),Spark集群管理界面如圖5所示。

1603941315371_35.jpg

圖5 Spark集群管理界面

  至此,Spark集群安裝完畢,為了在任何路徑下可以執(zhí)行Spark腳本程序,可以通過執(zhí)行“vi /etc/profile”命令編輯profile文件,并在文件中配置Spark環(huán)境變量即可,這里就不再演示。

猜你喜歡:

什么是spoop?Sqoop簡介

大數(shù)據(jù)在金融行業(yè)的應(yīng)用

學(xué)完大數(shù)據(jù)在企業(yè)將會(huì)負(fù)責(zé)哪些工作?

分享到:
在線咨詢 我要報(bào)名
和我們在線交談!