spark內(nèi)核架構(gòu)解密(13)-創(chuàng)新互聯(lián)

本期主要介紹下spark的內(nèi)核架構(gòu)。spark的應用程序總體來說,主要包括兩部分,一部分是Driver,其包括了SparkConf和SparkContext,另一部分就是Executor,運行具體的業(yè)務邏輯。

創(chuàng)新互聯(lián)是一家以成都網(wǎng)站建設、網(wǎng)頁設計、品牌設計、軟件運維、seo優(yōu)化、小程序App開發(fā)等移動開發(fā)為一體互聯(lián)網(wǎng)公司。已累計為活動板房等眾行業(yè)中小客戶提供優(yōu)質(zhì)的互聯(lián)網(wǎng)建站和軟件開發(fā)服務。

 應用程序的提交有兩種方式,

    1、Driver進程運行在客戶端,對應用程序進行監(jiān)控。

   2、主節(jié)點指定某個worker節(jié)點啟動Driver,負責整個應用的監(jiān)控。

 Driver一般運行在一臺專門用來提交spark程序的機器上,這臺機器一般一定和spark cluster在同樣的網(wǎng)絡環(huán)境中(因為Driver要頻繁的和Execuotr進行通信,實質(zhì)上是CorarseGrainExecutorBackend),并且配置和普通的Worker節(jié)點一致??梢酝ㄟ^spark-submit去運行程序,與此同時可以指定運行的各種參數(shù),例如memory、cores...。實際生產(chǎn)環(huán)境寫shell腳本自動化配置和提交程序,當然當前的機器一定安裝了Spark,只不過當前機器不屬于集群罷了。

 Driver的核心是SparkContext,而SparkContext依賴于SparkConf。SparkContext在初始化的時候會創(chuàng)建DAGScheduler、TaskScheduler、SchedulerBackend。

 在實例化的過程中回向Master注冊應用程序,Master接受注冊,如果沒有問題,Master會為當前的應用程序分配AppId并分配計算資源。Master接受用戶提交的程序并給Worker發(fā)送指令為當前的應用程序分配計算資源。每個Worker節(jié)點默認情況下為當前的程序分配一個Executor,在Executor中通過線程池并發(fā)執(zhí)行。Worker節(jié)點收到Master發(fā)送的LaunchExecutor指令后,會創(chuàng)建ExecutorRunner實例,并調(diào)用start方法,來啟動CoarseGrainExecutorBackend進程。CoarseGrainExecutorBackend進程里有Executor,并且CoarseGrainExecutorBackend和Executor是一一對應的。Executor內(nèi)部會維護一個線程池,實際工作的時候,通過TaskRunner來封裝task,然后從ThreadPool獲取一條線程執(zhí)行task,執(zhí)行完后,線程會被回收復用。

 在spark中,Transformation操作是延遲計算的,當有action算子時才會觸發(fā)job。SparkContext會通過DAGScheduler把job中的RDD構(gòu)成的DAG劃分成不同的stage,每個stage內(nèi)部都是一系列業(yè)務邏輯完全相同但是處理數(shù)據(jù)不同的Tasks,構(gòu)成TaskSet。

 TaskScheduler和SchedulerBackend負責具體的task的執(zhí)行(遵循數(shù)據(jù)本地性)。

 一個應用程序有可能包含多個stage,最后一個Stage中的Task稱為ResultTask,產(chǎn)生job結(jié)果。其他前面的Stage中的Task都稱為ShuffleMapTask,作為下一個Stage的數(shù)據(jù)輸入,相當與MapReduce中的Mapper。

 整個Spark程序的運行,就是DAGScheduler把job劃分成不同的Stage,提交TaskSet給TaskScheduler,進而提交給Executor執(zhí)行(符合數(shù)據(jù)本地性),每個Task會計算RDD中的一個Partition,基于該Partition來具體執(zhí)行我們定義的一系列同一個Stage內(nèi)部的函數(shù),以此輪推...直到整個程序運行完成。

另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。

名稱欄目:spark內(nèi)核架構(gòu)解密(13)-創(chuàng)新互聯(lián)
當前網(wǎng)址:http://muchs.cn/article40/egceo.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站建設網(wǎng)站導航、ChatGPT、外貿(mào)建站營銷型網(wǎng)站建設、網(wǎng)站排名

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站建設