如何進行大數(shù)據Spark運行環(huán)境中的Standalone模式與配置

今天就跟大家聊聊有關如何進行大數(shù)據Spark運行環(huán)境中的Standalone模式與配置,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結了以下內容,希望大家根據這篇文章可以有所收獲。

站在用戶的角度思考問題,與客戶深入溝通,找到德令哈網站設計與德令哈網站推廣的解決方案,憑借多年的經驗,讓設計與互聯(lián)網技術結合,創(chuàng)造個性化、用戶體驗好的作品,建站類型包括:成都網站建設、網站制作、企業(yè)官網、英文網站、手機端網站、網站推廣、域名注冊、網絡空間、企業(yè)郵箱。業(yè)務覆蓋德令哈地區(qū)。

大數(shù)據Spark運行環(huán)境:Standalone模式與相關配置

Standalone模式

這里我們來看看只使用Spark自身節(jié)點運行的集群模式,也就是我們所謂的獨立部署(Standalone)模式。Spark的Standalone模式體現(xiàn)了經典的master-slave模式。

集群規(guī)劃:

如何進行大數(shù)據Spark運行環(huán)境中的Standalone模式與配置

1 解壓縮文件

將spark-3.0.0-bin-hadoop3.2.tgz.tgz文件上傳到Linux并解壓縮在指定位置

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module cd /opt/module  mv spark-3.0.0-bin-hadoop3.2 spark-standalone

2 修改配置文件

1) 進入解壓縮后路徑的conf目錄,修改slaves.template文件名為slaves

mv slaves.template slaves

2) 修改slaves文件,添加work節(jié)點

hadoop102hadoop103hadoop104

3) 修改spark-env.sh.template文件名為spark-env.sh

mv spark-env.sh.template spark-env.sh

4) 修改spark-env.sh文件,添加JAVA_HOME環(huán)境變量和集群對應的master節(jié)點

export JAVA_HOME=/opt/module/jdk1.8.0_212 SPARK_MASTER_HOST=hadoop102SPARK_MASTER_PORT=7077

注意:7077端口,相當于hadoop3.x內部通信的8020端口,此處的端口需要確認自己的虛擬機配置

5) 分發(fā)spark-standalone目錄

xsync spark-standalone

3 啟動集群

1) 執(zhí)行腳本命令:

sbin/start-all.sh

2) 查看三臺服務器運行進程

================hadoop102================ 3330 Jps 3238 Worker 3163 Master ================hadoop103================ 2966 Jps 2908 Worker ================hadoop104================ 2978 Worker 3036 Jps

3) 查看Master資源監(jiān)控Web UI界面: http://hadoop102:8080

4 提交應用

bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://hadoop102:7077 \ ./examples/jars/spark-examples_2.12-3.0.0.jar \ 10
  • --class表示要執(zhí)行程序的主類

  • --master spark://hadoop102:7077 獨立部署模式,連接到Spark集群

  • spark-examples_2.12-3.0.0.jar 運行類所在的jar包

  • 數(shù)字10表示程序的入口參數(shù),用于設定當前應用的任務數(shù)量

執(zhí)行任務時,會產生多個Java進程

如何進行大數(shù)據Spark運行環(huán)境中的Standalone模式與配置

執(zhí)行任務時,默認采用服務器集群節(jié)點的總核數(shù),每個節(jié)點內存1024M。

5 配置歷史服務

由于spark-shell停止掉后,集群監(jiān)控hadoop102:4040頁面就看不到歷史任務的運行情況,所以開發(fā)時都配置歷史服務器記錄任務運行情況。

1) 修改spark-defaults.conf.template文件名為spark-defaults.conf

mv spark-defaults.conf.template spark-defaults.conf

2) 修改spark-default.conf文件,配置日志存儲路徑

spark.eventLog.enabled          true spark.eventLog.dir               hdfs://hadoop102:8020/directory

注意:需要啟動hadoop集群,HDFS上的directory目錄需要提前存在。

sbin/start-dfs.sh hadoop fs -mkdir /directory

3) 修改spark-env.sh文件, 添加日志配置

export SPARK_HISTORY_OPTS=" -Dspark.history.ui.port=18080 -Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/directory -Dspark.history.retainedApplications=30"

注:寫成一行!!空格隔開!!!

  • 參數(shù)1含義:WEB UI訪問的端口號為18080

  • 參數(shù)2含義:指定歷史服務器日志存儲路徑

  • 參數(shù)3含義:指定保存Application歷史記錄的個數(shù),如果超過這個值,舊的應用程序信息將被刪除,這個是內存中的應用數(shù),而不是頁面上顯示的應用數(shù)。

4) 分發(fā)配置文件

xsync conf

5) 重新啟動集群和歷史服務

sbin/start-all.sh sbin/start-history-server.sh

6) 重新執(zhí)行任務

bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://hadoop102:7077 \ ./examples/jars/spark-examples_2.12-3.0.0.jar \ 10

7) 查看歷史服務:http://hadoop102:18080

6 配置高可用(HA)

所謂的高可用是因為當前集群中的Master節(jié)點只有一個,所以會存在單點故障問題。所以為了解決單點故障問題,需要在集群中配置多個Master節(jié)點,一旦處于活動狀態(tài)的Master發(fā)生故障時,由備用Master提供服務,保證作業(yè)可以繼續(xù)執(zhí)行。這里的高可用一般采用Zookeeper設置

集群規(guī)劃:

如何進行大數(shù)據Spark運行環(huán)境中的Standalone模式與配置

1) 停止集群

sbin/stop-all.sh

2) 啟動Zookeeper

3) 修改spark-env.sh文件添加如下配置

注釋如下內容: #SPARK_MASTER_HOST=hadoop102#SPARK_MASTER_PORT=7077  添加如下內容:#Master監(jiān)控頁面默認訪問端口為8080,但是會和Zookeeper沖突,所以改成8989,也可以自定義,訪問UI監(jiān)控頁面時請注意 SPARK_MASTER_WEBUI_PORT=8989  export SPARK_DAEMON_JAVA_OPTS=" -Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hadoop102,hadoop103,hadoop104 -Dspark.deploy.zookeeper.dir=/spark"

注:寫成一行!!空格隔開!!!

4) 分發(fā)配置文件

xsync conf/

5) 啟動集群

sbin/start-all.sh

6) 啟動hadoop103的單獨Master節(jié)點,此時hadoop103節(jié)點Master狀態(tài)處于備用狀態(tài)

[bigdata@hadoop103 spark-standalone]$ sbin/start-master.sh

7) 提交應用到高可用集群

bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://hadoop102:7077,hadoop103:7077 \ ./examples/jars/spark-examples_2.12-3.0.0.jar \ 10

8) 停止hadoop102的Master資源監(jiān)控進程

9) 查看hadoop103的Master 資源監(jiān)控Web UI,稍等一段時間后,hadoop103節(jié)點的Master狀態(tài)提升為活動狀態(tài)

看完上述內容,你們對如何進行大數(shù)據Spark運行環(huán)境中的Standalone模式與配置有進一步的了解嗎?如果還想了解更多知識或者相關內容,請關注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝大家的支持。

網頁標題:如何進行大數(shù)據Spark運行環(huán)境中的Standalone模式與配置
文章地址:http://muchs.cn/article38/ppjspp.html

成都網站建設公司_創(chuàng)新互聯(lián),為您提供微信小程序、網站排名、全網營銷推廣、微信公眾號定制開發(fā)、云服務器

廣告

聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

h5響應式網站建設