大數(shù)據(jù)工具pyspark怎么用

本篇文章給大家分享的是有關(guān)大數(shù)據(jù)工具pyspark怎么用，小編覺(jué)得挺實(shí)用的，因此分享給大家學(xué)習(xí)，希望大家閱讀完這篇文章后可以有所收獲，話不多說(shuō)，跟著小編一起來(lái)看看吧。

我們提供的服務(wù)有：網(wǎng)站建設(shè)、成都做網(wǎng)站、微信公眾號(hào)開(kāi)發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認(rèn)證、尉犁ssl等。為成百上千家企事業(yè)單位解決了網(wǎng)站和推廣的問(wèn)題。提供周到的售前咨詢和貼心的售后服務(wù)，是有科學(xué)管理、有技術(shù)的尉犁網(wǎng)站制作公司

spark是目前大數(shù)據(jù)領(lǐng)域的核心技術(shù)棧，許多從事數(shù)據(jù)相關(guān)工作的小伙伴都想馴服它，變成"馴龍高手"，以便能夠駕馭成百上千臺(tái)機(jī)器組成的集群之龍來(lái)馳騁于大數(shù)據(jù)之海。

但大部分小伙伴都沒(méi)能成功做到這一點(diǎn)。有一部分小伙伴糾結(jié)在到底是學(xué)pyspark還是spark-scala上面遲遲未能出征，還有相當(dāng)一部分倒在了開(kāi)始的環(huán)境配置上，還有一些在幾十幾百個(gè)函數(shù)的用法中迷失了方向，還有少部分同學(xué)雖然掌握了一些簡(jiǎn)單用法，但是沒(méi)有掌握性能優(yōu)化技巧，一旦遇到真正復(fù)雜的大數(shù)據(jù)就毫無(wú)辦法。

一，pyspark or spark-scala

pyspark強(qiáng)于分析，spark-scala強(qiáng)于工程。

如果應(yīng)用場(chǎng)景有非常高的性能需求，應(yīng)該選擇spark-scala.

如果應(yīng)用場(chǎng)景有非常多的可視化和機(jī)器學(xué)習(xí)算法需求，推薦使用pyspark，可以更好地和python中的相關(guān)庫(kù)配合使用。

此外spark-scala支持spark graphx圖計(jì)算模塊，而pyspark是不支持的。

pyspark學(xué)習(xí)曲線平緩，spark-scala學(xué)習(xí)曲線陡峭。

從學(xué)習(xí)成本來(lái)說(shuō)，spark-scala學(xué)習(xí)曲線陡峭，不僅因?yàn)閟cala是一門(mén)困難的語(yǔ)言，更加因?yàn)樵谇胺降牡缆飞蠒?huì)有無(wú)盡的環(huán)境配置痛苦等待著讀者。

而pyspark學(xué)習(xí)成本相對(duì)較低，環(huán)境配置相對(duì)容易。從學(xué)習(xí)成本來(lái)說(shuō)，如果說(shuō)pyspark的學(xué)習(xí)成本是3，那么spark-scala的學(xué)習(xí)成本大概是9。

如果讀者有較強(qiáng)的學(xué)習(xí)能力和充分的學(xué)習(xí)時(shí)間，建議選擇spark-scala，能夠解鎖spark的全部技能，并獲得最優(yōu)性能，這也是工業(yè)界最普遍使用spark的方式。

如果讀者學(xué)習(xí)時(shí)間有限，并對(duì)Python情有獨(dú)鐘，建議選擇pyspark。pyspark在工業(yè)界的使用目前也越來(lái)越普遍。

二，本書(shū)學(xué)習(xí)方案

1，學(xué)習(xí)計(jì)劃

非常適合作為pyspark的工具手冊(cè)在工程落地時(shí)作為范例庫(kù)參考。

2，學(xué)習(xí)環(huán)境

全部源碼在jupyter中編寫(xiě)測(cè)試通過(guò)，建議通過(guò)git克隆到本地，并在jupyter中交互式運(yùn)行學(xué)習(xí)。

為了直接能夠在jupyter中打開(kāi)markdown文件，建議安裝jupytext，將markdown轉(zhuǎn)換成ipynb文件。

按照如下2個(gè)步驟配置單機(jī)版spark3.0.1環(huán)境進(jìn)行練習(xí)。

#step1: 安裝java8#jdk
#step2: 安裝pyspark,findsparkpip install -i

此外，也可以在和鯨社區(qū)的云端notebook中直接運(yùn)行pyspark，沒(méi)有任何環(huán)境配置痛苦。

import findspark

#指定spark_home,指定python路徑
spark_home = "/Users/liangyun/anaconda3/lib/python3.7/site-packages/pyspark"
python_path = "/Users/liangyun/anaconda3/bin/python"
findspark.init(spark_home,python_path)

import pyspark 
from pyspark import SparkContext, SparkConf
conf = SparkConf().setAppName("test").setMaster("local[4]")
sc = SparkContext(conf=conf)

print("spark version:",pyspark.__version__)
rdd = sc.parallelize(["hello","spark"])
print(rdd.reduce(lambda x,y:x+' '+y))

以上就是大數(shù)據(jù)工具pyspark怎么用，小編相信有部分知識(shí)點(diǎn)可能是我們?nèi)粘９ぷ鲿?huì)見(jiàn)到或用到的。希望你能通過(guò)這篇文章學(xué)到更多知識(shí)。更多詳情敬請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。

文章名稱：大數(shù)據(jù)工具pyspark怎么用
地址分享：http://muchs.cn/article26/iegjjg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供外貿(mào)建站、響應(yīng)式網(wǎng)站、靜態(tài)網(wǎng)站、定制網(wǎng)站、網(wǎng)站改版、手機(jī)網(wǎng)站建設(shè)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

大數(shù)據(jù)工具pyspark怎么用

一，pyspark or spark-scala

二，本書(shū)學(xué)習(xí)方案

一，pyspark or spark-scala

二，本書(shū)學(xué)習(xí)方案