Spark3.3.0安裝-創(chuàng)新互聯(lián)

一、準(zhǔn)備安裝包

公司主營(yíng)業(yè)務(wù)：成都網(wǎng)站建設(shè)、成都網(wǎng)站制作、移動(dòng)網(wǎng)站開發(fā)等業(yè)務(wù)。幫助企業(yè)客戶真正實(shí)現(xiàn)互聯(lián)網(wǎng)宣傳，提高企業(yè)的競(jìng)爭(zhēng)能力。成都創(chuàng)新互聯(lián)公司是一支青春激揚(yáng)、勤奮敬業(yè)、活力青春激揚(yáng)、勤奮敬業(yè)、活力澎湃、和諧高效的團(tuán)隊(duì)。公司秉承以“開放、自由、嚴(yán)謹(jǐn)、自律”為核心的企業(yè)文化，感謝他們對(duì)我們的高要求，感謝他們從不同領(lǐng)域給我們帶來(lái)的挑戰(zhàn)，讓我們激情的團(tuán)隊(duì)有機(jī)會(huì)用頭腦與智慧不斷的給客戶帶來(lái)驚喜。成都創(chuàng)新互聯(lián)公司推出師宗免費(fèi)做網(wǎng)站回饋大家。

1、下載地址

Downloads | Apache Spark

我們這次用的Spark 3.3.0 (Jun 16 2022)? 版本

Apache Download Mirrors

2、將下載好的壓縮包上傳到服務(wù)器主節(jié)點(diǎn)的/opt/soft目錄下，如果網(wǎng)絡(luò)ok，可以直接wget下來(lái)

wget Apache Download Mirrors -P /opt/soft

3、解壓并設(shè)置軟連接

tar -xzvf spark-3.3.0-bin-hadoop3.tgz

ln -s spark-3.3.0-bin-hadoop3 spark-3.3.0

4、測(cè)試local模式

cd /opt/soft/spark-3.3.0/bin/

./spark-shell

二、環(huán)境準(zhǔn)備

1、安裝python3

可使用anaconda包（我這邊用的是自己的，或者去官網(wǎng)下載下也是可以的）

wget? http://10.x.x.2/data-images/anaconda3.tar.gz -P /opt/soft

ln -s /opt/soft/anaconda3/bin/python3 /usr/bin/python3

python3 -V

2、測(cè)試pyspark

cd /opt/soft/spark-3.3.0/bin/

./pyspark

三、Spark On Yarn 模式的環(huán)境搭建

1、添加CDH環(huán)境配置

軟鏈接hadoop/hive相關(guān)的配置文件到 conf目錄下

cd /opt/soft/spark-3.3.0/conf

ln -s /etc/hive/conf/hdfs-site.xml hdfs-site.xml

ln -s /etc/hive/conf/mapred-site.xml mapred-site.xml

ln -s /etc/hive/conf/yarn-site.xml yarn-site.xml

ln -s /etc/hive/conf/core-site.xml core-site.xml

ln -s /etc/hive/conf/hive-env.sh hive-env.sh

ln -s /etc/hive/conf/hive-site.xml hive-site.xml

2、添加spark配置

cd /opt/soft/spark-3.3.0/conf

2.1 spark-defaults.conf

cp spark-defaults.conf.template spark-defaults.conf

vim spark-defaults.conf

在配置文件底部添加下面的配置

# hive metastore的版本設(shè)置為 2.1.1

spark.sql.hive.metastore.version=2.1.1

# 引用 hive2.1.1 相關(guān)的jar包

spark.sql.hive.metastore.jars=/opt/cloudera/parcels/CDH/lib/hive/lib/*

# 設(shè)置 spark提交任務(wù)默認(rèn)的 yarn 隊(duì)列

spark.yarn.queue=root.users -----這里我先設(shè)置到公共區(qū)

2.2 spark-env.sh

cp spark-env.sh.template spark-env.sh

vi spark-env.sh

在配置文件底部添加下面的配置

export HADOOP_CONF_DIR=/etc/hadoop/conf # 添加 hadoop 配置文件的路徑

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=39888 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://nameservice1/user/spark3/spark3log"

# 添加 spark job history 相關(guān)參數(shù) 包括 web ui的端口[端口記得先做下沖突測(cè)試] / 緩存的spark作業(yè)日志數(shù)目 / 日志的hdfs路徑

2.3 log4j.properties

cp log4j.properties.template log4j.properties? # 復(fù)制log4j模板, 添加默認(rèn)的log4j配置

rootLogger.level = WARN

rootLogger.appenderRef.stdout.ref = console

log4j.appender.console=org.apache.log4j.ConsoleAppender

log4j.appender.console.target=System.err

log4j.appender.console.layout=org.apache.log4j.PatternLayout

log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}:%m%n

2.4 spark-sql命令

vi /opt/soft/spark-3.3.0/bin/spark-sql

在頭部添加SPARK_HOME配置，以避免使用 CDH 集群的 spark jar包

SPARK3_HOME=SPARK3_HOME=/opt/soft/spark-3.3.0

三、分發(fā)spark軟件包

將/opt/soft/spark-3.3.0整包發(fā)送到各個(gè)客戶端，并添加快捷命令

先壓縮包，然后放到oss上

使用spug或者ansible批量執(zhí)行

wget http://10.x.x.2/data-images/spark-3.3.0-dw.tar.gz -P /opt/soft

tar -xzvf /opt/soft/spark-3.3.0-dw.tar.gz -C /opt/soft

ln -s /opt/soft/spark-3.3.0/bin/pyspark /usr/bin/pyspark3

ln -s /opt/soft/spark-3.3.0/bin/spark-sql? /usr/bin/spark3-sql

ln -s /opt/soft/spark-3.3.0/bin/spark-submit /usr/bin/spark3-submit

echo? "export SPARK3_HOME=/opt/soft/spark-3.3.0">> /etc/profile

echo? "export PATH=$SPARK3_HOME/bin:$HBASE_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/bin:$PATH">> /etc/profile

四、spark on yarn 測(cè)試

# 進(jìn)入到 spark3.0.1 的 bin目錄

cd /opt/soft/spark-3.3.0/bin/

1、spark-sql測(cè)試??

spark3-sql --master yarn --name spark-sql-test

--master 集群模式，on yarn

--name application的name，自定義

2、pyspark測(cè)試

3、Spark-submit測(cè)試（on yarn）

spark3-submit --master yarn --conf "spark.pyspark.driver.python=/opt/soft/anaconda3/bin/python3" --conf "spark.pyspark.python=/opt/soft/anaconda3/bin/python3" ${SPARK3_HOME}/examples/src/main/python/pi.py 10

五、spark thriftserver 使用

啟動(dòng)spark thriftserver

注意需要添加啟動(dòng)端口號(hào)的配置

cd $SPARK_3_0_1_HOME/sbin

啟動(dòng)thriftserver

./start-thriftserver.sh \

--master yarn \

--executor-memory 512m \

--hiveconf hive.server2.thrift.port=10005

使用spark3.0.1 自帶的beeline進(jìn)行連接

你是否還在尋找穩(wěn)定的海外服務(wù)器提供商？創(chuàng)新互聯(lián)www.cdcxhl.cn海外機(jī)房具備T級(jí)流量清洗系統(tǒng)配攻擊溯源，準(zhǔn)確流量調(diào)度確保服務(wù)器高可用性，企業(yè)級(jí)服務(wù)器適合批量采購(gòu)，新人活動(dòng)首月15元起，快前往官網(wǎng)查看詳情吧

名稱欄目：Spark3.3.0安裝-創(chuàng)新互聯(lián)
當(dāng)前路徑：http://muchs.cn/article46/diehhg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供營(yíng)銷型網(wǎng)站建設(shè)、定制網(wǎng)站、定制開發(fā)、搜索引擎優(yōu)化、網(wǎng)站排名、微信公眾號(hào)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容