如何利用Eclipse構建Spark集成開發(fā)環(huán)境

如何利用Eclipse構建Spark集成開發(fā)環(huán)境，相信很多沒有經(jīng)驗的人對此束手無策，為此本文總結了問題出現(xiàn)的原因和解決方法，通過這篇文章希望你能解決這個問題。

創(chuàng)新互聯(lián)建站-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設、高性價比亞東網(wǎng)站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫,直接使用。一站式亞東網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設找我們，業(yè)務覆蓋亞東地區(qū)。費用合理售后完善，十多年實體公司更值得信賴。

使用Maven編譯生成可直接運行在Hadoop 2.2.0上的Spark jar包，在此基礎上，介紹如何利用Eclipse構建Spark集成開發(fā)環(huán)境。

（1）準備工作

在正式介紹之前，先要以下軟硬件準備：

軟件準備：

Eclipse Juno版本（4.2版本），可以直接點擊這里下載：Eclipse 4.2

Scala 2.9.3版本，Window安裝程序可以直接點擊這里下載：Scala 2.9.3

Eclipse Scala IDE插件，可直接點擊這里下載：Scala IDE(for Scala 2.9.x and Eclipse Juno)

硬件準備

裝有Linux或者Windows操作系統(tǒng)的機器一臺

（2）構建Spark集成開發(fā)環(huán)境

我是在windows操作系統(tǒng)下操作的，流程如下：

步驟1：安裝scala 2.9.3：直接點擊安裝即可。

步驟2：將Eclipse Scala IDE插件中features和plugins兩個目錄下的所有文件拷貝到Eclipse解壓后對應的目錄中

步驟3：重新啟動Eclipse，點擊eclipse右上角方框按鈕，如下圖所示，展開后，點擊“Other….”，查看是否有“Scala”一項，有的話，直接點擊打開，否則進行步驟4操作。

如何利用Eclipse構建Spark集成開發(fā)環(huán)境

步驟4：在Eclipse中，依次選擇“Help” –> “Install New Software…”，在打開的卡里填入http://download.scala-ide.org/sdk/e38/scala29/stable/site，并按回車鍵，可看到以下內(nèi)容，選擇前兩項進行安裝即可。（由于步驟3已經(jīng)將jar包拷貝到eclipse中，安裝很快，只是疏通一下）安裝完后，重復操作一遍步驟3便可。

如何利用Eclipse構建Spark集成開發(fā)環(huán)境

（3）使用Scala語言開發(fā)Spark程序

在eclipse中，依次選擇“File” –>“New” –> “Other…” –> “Scala Wizard” –> “Scala Project”，創(chuàng)建一個Scala工程，并命名為“SparkScala”。

右擊“SaprkScala”工程，選擇“Properties”，在彈出的框中，按照下圖所示，依次選擇“Java Build Path” –>“Libraties” –>“Add External JARs…”，導入文章“Apache Spark：將Spark部署到Hadoop 2.2.0上”中給出的

assembly/target/scala-2.9.3/目錄下的spark-assembly-0.8.1-incubating- hadoop2.2.0.jar，這個jar包也可以自己編譯spark生成，放在spark目錄下的assembly/target/scala- 2.9.3/目錄中。

如何利用Eclipse構建Spark集成開發(fā)環(huán)境

跟創(chuàng)建Scala工程類似，在工程中增加一個Scala Class，命名為：WordCount，整個工程結構如下：

如何利用Eclipse構建Spark集成開發(fā)環(huán)境

WordCount就是最經(jīng)典的詞頻統(tǒng)計程序，它將統(tǒng)計輸入目錄中所有單詞出現(xiàn)的總次數(shù)，Scala代碼如下：

import org.apache.spark._ import SparkContext._ object WordCount {   def main(args: Array[String]) {     if (args.length != 3 ){       println("usage is org.test.WordCount <master> <input> <output>")       return     }     val sc = new SparkContext(args(0), "WordCount",     System.getenv("SPARK_HOME"), Seq(System.getenv("SPARK_TEST_JAR")))     val textFile = sc.textFile(args(1))     val result = textFile.flatMap(line => line.split("\\s+"))         .map(word => (word, 1)).reduceByKey(_ + _)     result.saveAsTextFile(args(2))   } }

在Scala工程中，右擊“WordCount.scala”，選擇“Export”，并在彈出框中選擇“Java” –> “JAR File”，進而將該程序編譯成jar包，可以起名為“spark-wordcount-in-scala.jar”，我導出的jar包下載地址是 spark-wordcount-in-scala.jar。

該WordCount程序接收三個參數(shù)，分別是master位置，HDFS輸入目錄和HDFS輸出目錄，為此，可編寫run_spark_wordcount.sh腳本：

# 配置成YARN配置文件存放目錄
export YARN_CONF_DIR=/opt/hadoop/yarn-client/etc/hadoop/
SPARK_JAR=./assembly/target/scala-2.9.3/spark-assembly-0.8.1-incubating-hadoop2.2.0.jar \
./spark-class org.apache.spark.deploy.yarn.Client \
–jar spark-wordcount-in-scala.jar \
–class WordCount \
–args yarn-standalone \
–args hdfs://hadoop-test/tmp/input \
–args hdfs:/hadoop-test/tmp/output \
–num-workers 1 \
–master-memory 2g \
–worker-memory 2g \
–worker-cores 2

需要注意以下幾點：WordCount程序的輸入?yún)?shù)通過“-args”指定，每個參數(shù)依次單獨指定，第二個參數(shù)是HDFS上的輸入目錄，需要事先創(chuàng)建好，并上傳幾個文本文件，以便統(tǒng)計詞頻，第三個參數(shù)是HDFS上的輸出目錄，動態(tài)創(chuàng)建，運行前不能存在。

直接運行run_spark_wordcount.sh腳本即可得到運算結果。

在運行過程中，發(fā)現(xiàn)一個bug，org.apache.spark.deploy.yarn.Client有一個參數(shù)“–name”可以指定應用程序名稱：

如何利用Eclipse構建Spark集成開發(fā)環(huán)境

但是使用過程中，該參數(shù)會阻塞應用程序，查看源代碼發(fā)現(xiàn)原來是個bug，該Bug已提交到Spark jira上：

// 位置：new-yarn/src/main/scala/org/apache/spark/deploy/yarn/ClientArguments.scala         case ("--queue") :: value :: tail =>           amQueue = value           args = tail           case ("--name") :: value :: tail =>           appName = value           args = tail //漏了這行代碼，導致程序阻塞           case ("--addJars") :: value :: tail =>           addJars = value           args = tail

因此，大家先不要使用“–name”這個參數(shù)，或者修復這個bug，重新編譯Spark。

（4）使用Java語言開發(fā)Spark程序

方法跟普通的Java程序開發(fā)一樣，只要將Spark開發(fā)程序包spark-assembly-0.8.1-incubating-hadoop2.2.0.jar作為三方依賴庫即可。

（5）總結

初步試用Spark On YARN過程中，發(fā)現(xiàn)問題還是非常多，使用起來非常不方便，門檻還是很高，遠不如Spark On Mesos成熟。

看完上述內(nèi)容，你們掌握如何利用Eclipse構建Spark集成開發(fā)環(huán)境的方法了嗎？如果還想學到更多技能或想了解更多相關內(nèi)容，歡迎關注創(chuàng)新互聯(lián)行業(yè)資訊頻道，感謝各位的閱讀！

網(wǎng)站名稱：如何利用Eclipse構建Spark集成開發(fā)環(huán)境
分享鏈接：http://muchs.cn/article0/picsio.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián)，為您提供外貿(mào)網(wǎng)站建設、網(wǎng)站收錄、企業(yè)網(wǎng)站制作、網(wǎng)站營銷、營銷型網(wǎng)站建設、全網(wǎng)營銷推廣

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容