Spark系列(二)——Spark開發(fā)環(huán)境搭建

一、安裝Spark

1.1 下載并解壓

官方下載地址:http://spark.apache.org/downloads.html ,選擇 Spark 版本和對應的 Hadoop 版本后再下載:

成都創(chuàng)新互聯(lián)公司專注于中大型企業(yè)的成都網(wǎng)站建設(shè)、成都網(wǎng)站制作和網(wǎng)站改版、網(wǎng)站營銷服務(wù),追求商業(yè)策劃與數(shù)據(jù)分析、創(chuàng)意藝術(shù)與技術(shù)開發(fā)的融合,累計客戶上千家,服務(wù)滿意度達97%。幫助廣大客戶順利對接上互聯(lián)網(wǎng)浪潮,準確優(yōu)選出符合自己需要的互聯(lián)網(wǎng)運用,我們將一直專注品牌網(wǎng)站制作和互聯(lián)網(wǎng)程序開發(fā),在前進的路上,與客戶一起成長!

解壓安裝包:

# tar -zxvf  spark-2.2.3-bin-hadoop2.6.tgz

1.2 配置環(huán)境變量

# vim /etc/profile

添加環(huán)境變量:

export SPARK_HOME=/usr/app/spark-2.2.3-bin-hadoop2.6
export  PATH=${SPARK_HOME}/bin:$PATH

使得配置的環(huán)境變量立即生效:

# source /etc/profile

1.3 Local模式

Local 模式是最簡單的一種運行方式,它采用單節(jié)點多線程方式運行,不用部署,開箱即用,適合日常測試開發(fā)。

# 啟動spark-shell
spark-shell --master local[2]
  • local:只啟動一個工作線程;
  • local[k]:啟動 k 個工作線程;
  • *local[]**:啟動跟 cpu 數(shù)目相同的工作線程數(shù)。

進入 spark-shell 后,程序已經(jīng)自動創(chuàng)建好了上下文 SparkContext,等效于執(zhí)行了下面的 Scala 代碼:

val conf = new SparkConf().setAppName("Spark shell").setMaster("local[2]")
val sc = new SparkContext(conf)

二、詞頻統(tǒng)計案例

安裝完成后可以先做一個簡單的詞頻統(tǒng)計例子,感受 spark 的魅力。準備一個詞頻統(tǒng)計的文件樣本 wc.txt,內(nèi)容如下:

hadoop,spark,hadoop
spark,flink,flink,spark
hadoop,hadoop

在 scala 交互式命令行中執(zhí)行如下 Scala 語句:

val file = spark.sparkContext.textFile("file:///usr/app/wc.txt")
val wordCounts = file.flatMap(line => line.split(",")).map((word => (word, 1))).reduceByKey(_ + _)
wordCounts.collect

執(zhí)行過程如下,可以看到已經(jīng)輸出了詞頻統(tǒng)計的結(jié)果:

同時還可以通過 Web UI 查看作業(yè)的執(zhí)行情況,訪問端口為 4040

Spark 系列(二)—— Spark 開發(fā)環(huán)境搭建

三、Scala開發(fā)環(huán)境配置

Spark 是基于 Scala 語言進行開發(fā)的,分別提供了基于 Scala、Java、Python 語言的 API,如果你想使用 Scala 語言進行開發(fā),則需要搭建 Scala 語言的開發(fā)環(huán)境。

3.1 前置條件

Scala 的運行依賴于 JDK,所以需要你本機有安裝對應版本的 JDK,最新的 Scala 2.12.x 需要 JDK 1.8+。

3.2 安裝Scala插件

IDEA 默認不支持 Scala 語言的開發(fā),需要通過插件進行擴展。打開 IDEA,依次點擊 File=> settings=> plugins選項卡,搜索 Scala 插件 (如下圖)。找到插件后進行安裝,并重啟 IDEA 使得安裝生效。

Spark 系列(二)—— Spark 開發(fā)環(huán)境搭建

3.3 創(chuàng)建Scala項目

在 IDEA 中依次點擊 File=> New=> Project選項卡,然后選擇創(chuàng)建 Scala—IDEA 工程:

Spark 系列(二)—— Spark 開發(fā)環(huán)境搭建

3.4 下載Scala SDK

1. 方式一

此時看到 Scala SDK 為空,依次點擊 Create => Download ,選擇所需的版本后,點擊 OK 按鈕進行下載,下載完成點擊 Finish 進入工程。

Spark 系列(二)—— Spark 開發(fā)環(huán)境搭建

2. 方式二

方式一是 Scala 官方安裝指南里使用的方式,但下載速度通常比較慢,且這種安裝下并沒有直接提供 Scala 命令行工具。所以個人推薦到官網(wǎng)下載安裝包進行安裝,下載地址:https://www.scala-lang.org/download/

這里我的系統(tǒng)是 Windows,下載 msi 版本的安裝包后,一直點擊下一步進行安裝,安裝完成后會自動配置好環(huán)境變量。

Spark 系列(二)—— Spark 開發(fā)環(huán)境搭建

由于安裝時已經(jīng)自動配置好環(huán)境變量,所以 IDEA 會自動選擇對應版本的 SDK。

Spark 系列(二)—— Spark 開發(fā)環(huán)境搭建

3.5 創(chuàng)建Hello World

在工程 src 目錄上右擊 New=> Scala class創(chuàng)建 Hello.scala。輸入代碼如下,完成后點擊運行按鈕,成功運行則代表搭建成功。

Spark 系列(二)—— Spark 開發(fā)環(huán)境搭建

3.6 切換Scala版本

在日常的開發(fā)中,由于對應軟件(如 Spark)的版本切換,可能導致需要切換 Scala 的版本,則可以在 Project Structures 中的 Global Libraries 選項卡中進行切換。

Spark 系列(二)—— Spark 開發(fā)環(huán)境搭建

3.7 可能出現(xiàn)的問題

在 IDEA 中有時候重新打開項目后,右擊并不會出現(xiàn)新建 scala 文件的選項,或者在編寫時沒有 Scala 語法提示,此時可以先刪除 Global Libraries 中配置好的 SDK,之后再重新添加:

Spark 系列(二)—— Spark 開發(fā)環(huán)境搭建

另外在 IDEA 中以本地模式運行 Spark 項目是不需要在本機搭建 Spark 和 Hadoop 環(huán)境的。

更多大數(shù)據(jù)系列文章可以參見 GitHub 開源項目大數(shù)據(jù)入門指南

新聞名稱:Spark系列(二)——Spark開發(fā)環(huán)境搭建
當前鏈接:http://muchs.cn/article22/ijoojc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App設(shè)計、虛擬主機外貿(mào)建站、動態(tài)網(wǎng)站、手機網(wǎng)站建設(shè)小程序開發(fā)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站制作