大數據學習內容有哪些?大數據學習路線圖-創(chuàng)新互聯(lián)

最近不少網友向我咨詢如何學習大數據技術?大數據怎么入門?怎么做大數據分析?數據科學需要學習那些技術?大數據的應用前景等等問題。由于大數據技術涉及內容太龐雜,大數據應用領域廣泛,而且各領域和方向采用的關鍵技術差異性也會較大,難以三言兩語說清楚,本文從數據科學和大數據關鍵技術體系角度,來說說大數據的核心技術什么,到底要怎么學習它,以及怎么避免大數據學習的誤區(qū),以供參考。

成都創(chuàng)新互聯(lián)公司是一家集網站建設,廣陵企業(yè)網站建設,廣陵品牌網站建設,網站定制,廣陵網站建設報價,網絡營銷,網絡優(yōu)化,廣陵網站推廣為一體的創(chuàng)新建站企業(yè),幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強企業(yè)競爭力??沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網需求。同時我們時刻保持專業(yè)、時尚、前沿,時刻以成就客戶成長自我,堅持不斷學習、思考、沉淀、凈化自己,讓我們?yōu)楦嗟钠髽I(yè)打造出實用型網站。

1.大數據應用的目標是普適智能

要學好大數據,首先要明確大數據應用的目標,我曾經講過大數據就好比萬金油,像百度幾年前提的框計算,這個框什么都能往里裝。為什么會這樣,因為大數據這個框太大,其終極目標是利用一系列信息技術實現海量數據條件下的人類深度洞察和決策智能化,最終走向普適的人機智能融合!這不僅是傳統(tǒng)信息化管理的擴展延伸,也是人類社會發(fā)展管理智能化的核心技術驅動力。通過大數據應用,面向過去,發(fā)現數據規(guī)律,歸納已知;面向未來,挖掘數據趨勢,預測未知。從而提高人們對事物的理解和決策處置能力,最終實現社會的普適智能。不管是商業(yè)智能,機器智能,人工智能,還是智能客服,智能問答,智能推薦,智慧醫(yī)療、智慧交通等相關技術和系統(tǒng),其本質都是朝著這一目標在演進。隨著云計算平臺和大數據技術的高速發(fā)展,獲得大數據基礎設施建設相關技術和支持越來越容易。同時,移動互聯(lián)網和物聯(lián)網技術所具備的全面數據采集能力,客觀上促進了大數據的積累和爆發(fā)。總之大數據就是個大框,什么都能往里裝,大數據源的采集如果用傳感器的話離不開物聯(lián)網、大數據源的采集用智能手機的話離不開移動互聯(lián)網,大數據海量數據存儲要高擴展就離不開云計算,大數據計算分析采用傳統(tǒng)的機器學習、數據挖掘技術會比較慢,需要做并行計算和分布式計算擴展,大數據要自動特征工程離不開深度學習、大數據要互動展示離不開可視化,而面向特定領域和多模態(tài)數據的大數據分析技術更是十分廣泛,金融大數據、交通大數據、醫(yī)療大數據、安全大數據、電信大數據、電商大數據、社交大數據,文本大數據、圖像大數據、視頻大數據…諸如此類等等范圍太廣,所以首先我們要搞清楚大數據應用的核心目標,這個明確之后,才利于結合不同行業(yè)特點把握住共性關鍵技術,從而有針對性的學習。
大數據學習內容有哪些?大數據學習路線圖

圖1 國外大數據企業(yè)關系圖,傳統(tǒng)信息技術企業(yè)也在向智能化發(fā)展,與新興大數據企業(yè)互為競爭和支持。

2.從大數據版圖看數據科學及其關鍵技術體系

明確大數據應用目標之后,我們再看看數據科學(Data Science),數據科學可以理解為一個跨多學科領域的,從數據中獲取知識的科學方法,技術和系統(tǒng)集合,其目標是從數據中提取出有價值的信息,它結合了諸多領域中的理論和技術,包括應用數學,統(tǒng)計,模式識別,機器學習,人工智能,深度學習,數據可視化,數據挖掘,數據倉庫,以及高性能計算等。圖靈獎得主Jim Gray把數據科學喻為科學的“第四范式”(經驗、理論、計算和數據驅動),并斷言因為信息技術的影響和數據的泛濫增長,未來不管什么領域的科學問題都將由數據所驅動。

在這里我還是要推薦下我自己建的大數據學習交流裙:532+二一八加上147,裙里都是學大數據開發(fā)的,如果你正在學習大數據 ,小編歡迎你加入,大家都是軟件開發(fā)黨,不定期分享干貨(只有大數據開發(fā)相關的),包括我自己整理的一份2018最新的大數據進階資料和高級開發(fā)教程,歡迎進階中和進想深入大數據的小伙伴
大數據學習內容有哪些?大數據學習路線圖

圖2 典型的數據科學過程:包括原始數據采集,數據預處理和清洗,數據探索式分析,數據計算建模,數據可視化和報表,數據產品和決策支持等。

傳統(tǒng)信息化技術多是在結構化和小規(guī)模數據上進行計算處理,大數據時代呢,數據變大了,數據多源異構了,需要智能預測和分析支持了,所以核心技術離不開機器學習、數據挖掘、人工智能等,另外還需考慮海量數據的分布式存儲管理和機器學習算法并行處理,所以數據的大規(guī)模增長客觀上促進了DT(Data Technology)技術生態(tài)的繁榮與發(fā)展,包括大數據采集、數據預處理、分布式存儲、NOSQL數據庫、多模式計算(批處理、在線處理、實時流處理、內存處理)、多模態(tài)計算(圖像、文本、視頻、音頻)、數據倉庫、數據挖掘、機器學習、人工智能、深度學習、并行計算、可視化等各種技術范疇和不同的層面??梢奃T這種新技術泛型生態(tài)下的大數據版圖十分龐雜,當然也有泡沫的成分存在,這個版圖也會時刻處于變化之中,就像PC時代的應用程序,互聯(lián)網上的網站,移動互聯(lián)網的APP,大數據時代的技術和產品也正處于優(yōu)勝劣汰的過程。下面我們來看2017版的大數據版圖:
大數據學習內容有哪些?大數據學習路線圖
大數據學習內容有哪些?大數據學習路線圖

圖3 國外和國內中關村大數據產業(yè)版圖(包括數據、技術、應用、企業(yè)等)

上述大數據版圖基本涵蓋了國外大數據相關技術和產業(yè)鏈(國內中關村版的大數據技術和企業(yè)還是太少,多是傳統(tǒng)信息技術企業(yè)在湊數),從大數據源,開源技術框架,大數據基礎設施建設,大數據核心的計算挖掘分析,大數據行業(yè)應用等方面進行了相關技術、產品和企業(yè)的展示。大數據產業(yè)鏈從數據源〉開源技術〉基礎設施〉分析計算〉行業(yè)應用到產品落地,每個鏈條環(huán)節(jié)和下轄的細分內容都涉及大量數據分析技術。不管是學習技術還是開發(fā)產品,分析和理解這個大數據產業(yè)版圖都十分必要。版圖細節(jié)不做贅述,我們重點從學習的角度來看DT(Data technology)技術泛型下包括那些核心技術,各技術領域之間是什么樣的邏輯關系,這是學習大數據首先要搞清楚的問題:

(1)機器學習(machine learning):首先我們說說機器學習,為什么先說它,因為機器學習是大數據處理承上啟下的關鍵技術,機器學習往上是深度學習、人工智能,機器學習往下是數據挖掘和統(tǒng)計學習。機器學習屬于計算機和統(tǒng)計學交叉學科,核心目標是通過函數映射、數據訓練、最優(yōu)化求解、模型評估等一系列算法實現讓計算機擁有對數據進行自動分類和預測的功能,機器學習領域包括很多種類的智能處理算法,分類、聚類、回歸、相關分析等每類下面都有很多算法進行支撐,如SVM,神經網絡,Logistic回歸,決策樹、EM、HMM、貝葉斯網絡、隨機森林、LDA等,無論是網絡排名的十大算法還是二十大算法,都只能說是冰山一角,隨著深度學習核心技術的突破性發(fā)展,機器學習算法得以高速擴張;總之大數據處理要智能化,機器學習是核心的核心,深度學習、數據挖掘、商業(yè)智能、人工智能,大數據等概念的核心技術就是機器學習,機器學習用于圖像處理和識別就是機器視覺,機器學習用于模擬人類語言就是自然語言處理,機器視覺和自然語言處理也是支撐人工智能的核心技術,機器學習用于通用的數據分析就是數據挖掘。深度學習(deep learning)是機器學習里面現在比較火的一個子領域,屬于原來人工神經網絡算法的一系列變種,由于在大數據條件下圖像,語音識別等領域的學習效果顯著,有望成為人工智能取得突破的關鍵性技術,所以各大研究機構和IT巨頭們都對其投入了極大的關注。

(2)數據挖掘(data mining),數據挖掘可以說是機器學習的一個超集,是一個較為寬泛的概念,類似于采礦,要從大量礦石里面挖出寶石,從海量數據里面挖掘有價值有規(guī)律的信息同理。數據挖掘核心技術來自于機器學習領域,如深度學習是機器學習中一類比較火的算法,當然也可以用于數據挖掘。還有傳統(tǒng)的商業(yè)智能(BI)領域也包括數據挖掘,OLAP多維數據分析可以做挖掘分析,甚至Excel基本的統(tǒng)計分析也可以做挖掘。關鍵是你的技術能否真正挖掘出有用的信息,然后這些信息可以指導決策。數據挖掘的提法比機器學習要早,應用范圍要廣,數據挖掘和機器學習是大數據分析的核心技術,互為支撐,為大數據處理提供相關模型和算法,而模型和算法是大數據處理的關鍵,探索式交互式分析、可視化分析、數據的采集存儲和管理等都較少用到學習模型。

(3)人工智能(artifical intelligence),AI和大數據是相互促進的關系,一方面,AI基礎理論技術的發(fā)展為大數據機器學習和數據挖掘提供了更豐富的模型和算法,如近幾年的深度學習一系列技術(強化學習、對抗學習等)和方法;另一方面,大數據為AI的發(fā)展提供了新的動力和燃料,數據規(guī)模大了之后,傳統(tǒng)機器學習算法面臨挑戰(zhàn),要做并行化、要加速要改進。AI的終極目標是機器智能化擬人化,機器能完成和人一樣的工作,人腦僅憑幾十瓦的功率,能夠處理種種復雜的問題,怎樣看都是很神奇的事情。雖然機器的計算能力比人類強很多,但人類的理解能力,感性的推斷,記憶和幻想,心理學等方面的功能,機器是難以比肩的,所以機器要擬人化很難單從技術角度把人工智能講清楚。人工智能與機器學習的關系,兩者的相當一部分技術、算法都是重合的,深度學習在計算機視覺和×××走步等領域取得了巨大的成功,比如谷歌自動識別一只貓,谷歌的AlpaGo還擊敗了人類頂級的專業(yè)圍棋手等。但深度學習在現階段還不能實現類腦計算,最多達到仿生層面,情感,記憶,認知,經驗等人類獨有能力機器在短期難以達到。

(4)其它大數據處理基礎技術,如圖4,大數據基礎技術包括計算機科學相關如編程、云計算、分布式計算、系統(tǒng)架構設計等方向,還有機器學習的理論基礎包括如算法、數據結構、概率論、代數、矩陣分析、統(tǒng)計學習、特征工程等方面;商業(yè)分析與理解如領域知識管理、產品設計、可視化等技術;數據管理如數據采集、數據預處理、數據庫、數據倉庫、信息檢索、多維分析、分布式存儲等技術。這些理論與技術是為大數據的基礎管理、機器學習和應用決策等多個方面服務的。
大數據學習內容有哪些?大數據學習路線圖

圖4 數據科學的技術維度

上圖是數據科學的5個技術維度,基本涵蓋了數據科學的關鍵支撐技術體系,從數據管理、計算機科學基礎理論技術、數據分析、商業(yè)理解決策與設計幾個方面進行了數據科學相關技術的梳理,其中計算機科學基礎理論方法與數據分析兩個板塊的學習內容是最多的,也是最重要的?,F階段的大數據產品和服務多是在數據管理版塊,分析板塊和業(yè)務決策板塊的對接是數據科學和大數據產業(yè)后續(xù)發(fā)展的關鍵突破點。

另外圖中的Art&Design版塊只列了交通溝通和可視化,其實還不夠,這個藝術(Art)還說明了數據科學與傳統(tǒng)信息化技術的本質不同,數據科學的核心能力是根據問題提出設想,再把設想轉化為學習模型,這種能力是要講藝術的,沒有這樣的設計藝術,計算機要智能化不是那么容易。為什么上升為藝術了?因為經驗告訴我們,把現實問題轉化為模型沒有標準答案,可選的模型不只一種,技術路線多樣,評價指標也有多個維度,甚至優(yōu)化方法也有很多種,機器學習的本質就是在處理這門藝術,給定原始數據、限制條件和問題描述,沒有標準答案,每種方案的選擇就是一種設想假設,需要具備利用精確的測試和實驗方法來驗證和證偽這些假設的能力,從這個層面講,未來所有科學問題以及商業(yè)、政府管理決策問題都將是數據科學問題,而機器學習是數據科學的核心。

3.大數據盲人摸象:如何構建完整的知識結構和分析能力

從數字化、信息化、網絡化到未來的智能化時代,移動互聯(lián)網、物聯(lián)網、云計算、大數據、人工智能等前沿信息技術領域,逐個火了一遍。也代表了信息技術發(fā)展的大趨勢,什么是大數據,大數據的技術范疇及其邏輯關系,估計很多人都是根據自己所熟悉的領域在盲人摸象(如圖5)。其實我這里講的盲人摸象并不是貶義,畢竟一個領域的學習到精通就是從盲人摸象式開始的。大數據、數據科學都是很虛的一個概念,分析目標和采用技術都包羅萬象,就好比寫程序,分前端和后端,分B/S和C/S,分嵌入式、企業(yè)應用和APP等,開發(fā)語言更是有數十種,不同方向所需要的技術也是大不相同。
大數據學習內容有哪些?大數據學習路線圖

圖5 大數據盲人摸象

所以怎么從點到面,構建大數據領域完整的知識結構和分析能力至關重要,某方面的技術和語言只是工具而已。大數據知識結構,就是既有精深的大數據基礎理論知識,又有廣博的知識面和應用全局觀,具有大數據產業(yè)發(fā)展所需要的最合理、最優(yōu)化、最關鍵的核心技術與知識體系。通過合理的知識結構和科學的大數據思維方法,提高大數據分析實戰(zhàn)技能。這個目標很大,但還是可以達到的,首先要搞清楚大數據產業(yè)鏈的情況,接下來要明確大數據技術棧也就是相關技術體系,最后定下學習目標和應用方向,是面對什么行業(yè)的數據,是關注存儲還是機器學習,數據規(guī)模是什么量級,數據類型是文本、圖像、網頁還是商業(yè)數據庫?每個方向所用技術有較大差異,需要找準學習的興趣點和切入點。
大數據學習內容有哪些?大數據學習路線圖

圖6 大數據技術棧與學習路線參考圖

上面這個大數據技術棧和學習路線圖,可以說是一個大數據學習的總綱,專業(yè)性很強,值得初學者深入研究和理解,對我在前面提到的數據科學技術體系來講,是更豐富的補充。比如基礎學習部分包括線性代數、關系代數、數據庫基礎、CAP理論、OLAP、多維數據模型、數據預處理ETL等都分析得很到位??傊髷祿W習不能像炒菜一樣,等到把所有材料準備好了才下鍋(因為這個領域技術體系龐雜應用目標廣泛,就算學個十年二十年也難以掌握其大部分核心理論技術),而是結合自己的興趣或工作需求,找一個點猛扎進去,掌握這個點的相關技術,深入理解其分析的流程、應用和評價等環(huán)節(jié),搞透徹一個點之后,再以點帶面,舉一反三,逐步覆蓋大數據各個領域,從而構建完整的知識結構和技術能力體系,這才是大數據學習的最佳路徑。

4.大數據要怎么學:數據科學特點與大數據學習誤區(qū)

(1)大數據學習要業(yè)務驅動,不要技術驅動:數據科學的核心能力是解決問題。大數據的核心目標是數據驅動的智能化,要解決具體的問題,不管是科學研究問題,還是商業(yè)決策問題,抑或是政府管理問題。所以學習之前要明確問題,理解問題,所謂問題導向、目標導向,這個明確之后再研究和選擇合適的技術加以應用,這樣才有針對性,言必hadoop,spark的大數據分析是不嚴謹的。不同的業(yè)務領域需要不同方向理論、技術和工具的支持。如文本、網頁要自然語言建模,隨時間變化數據流需要序列建模,圖像音頻和視頻多是時空混合建模;大數據處理如采集需要爬蟲、倒入導出和預處理等支持,存儲需要分布式云存儲、云計算資源管理等支持,計算需要分類、預測、描述等模型支持,應用需要可視化、知識庫、決策評價等支持。所以是業(yè)務決定技術,而不是根據技術來考慮業(yè)務,這是大數據學習要避免的第一個誤區(qū)。

(2)大數據學習要善用開源,不要重復造輪子:數據科學的技術基因在于開源。IT前沿領域的開源化已成不可逆轉的趨勢,Android開源讓智能手機平民化,讓我們跨入了移動互聯(lián)網時代,智能硬件開源將帶領跨入物聯(lián)網時代,以Hadoop和Spark為代表的大數據開源生態(tài)加速了去IOE(IBM、ORACLE、EMC)進程,倒逼傳統(tǒng)IT巨頭擁抱開源,谷歌和OpenAI聯(lián)盟的深度學習開源(以Tensorflow,Torch,Caffe等為代表)正在加速人工智能技術的發(fā)展。數據科學的標配語言R和Python更是因開源而生,因開源而繁榮,諾基亞因沒把握開源大勢而衰落。為什么要開源,這得益于IT發(fā)展的工業(yè)化和構件化,各大領域的基礎技術棧和工具庫已經很成熟,下一階段就是怎么快速組合、快速搭積木、快速產出的問題,不管是linux,anroid還是tensorflow,其基礎構件庫基本就是利用已有開源庫,結合新的技術方法實現,組合構建而成,很少在重復造輪子。另外,開源這種眾包開發(fā)模式,是一種集體智慧編程的體現,一個公司無法積聚全球工程師的開發(fā)智力,而一個GitHub上的明星開源項目可以,所以要善用開源和集體智慧編程,而不要重復造輪子,這是大數據學習要避免的第二個誤區(qū)。

(3)大數據學習要以點帶面,不貪大求全:數據科學要把握好碎片化與系統(tǒng)性。根據前文的大數據技術體系分析,我們可以看到大數據技術的深度和廣度都是傳統(tǒng)信息技術難以比擬的。我們的精力很有限,短時間內很難掌握多個領域的大數據理論和技術,數據科學要把握好碎片化和系統(tǒng)性的關系。何為碎片化,這個碎片化包括業(yè)務層面和技術層面,大數據不只是谷歌,亞馬遜,BAT等互聯(lián)網企業(yè),每一個行業(yè)、企業(yè)里面都有它去關注數據的痕跡:一條生產線上的實時傳感器數據,車輛身上的傳感數據,高鐵設備的運行狀態(tài)數據,交通部門的監(jiān)控數據,醫(yī)療機構的病例數據,政府部門的海量數據等等,大數據的業(yè)務場景和分析目標是碎片化的,而且相互之間分析目標的差異很大;另外,技術層面來講,大數據技術就是萬金油,一切服務于數據分析和決策的技術都屬于這個范疇,其技術體系也是碎片化的。那怎么把握系統(tǒng)性呢,不同領域的大數據應用有其共性關鍵技術,其系統(tǒng)技術架構也有相通的地方,如系統(tǒng)的高度可擴展性,能進行橫向數據大規(guī)模擴張,縱向業(yè)務大規(guī)模擴展,高容錯性和多源異構環(huán)境的支持,對原有系統(tǒng)的兼容和集成等等,每個大數據系統(tǒng)都應該考慮上述問題。如何把握大數據的碎片化學習和系統(tǒng)性設計,離不開前面提出的兩點誤區(qū),建議從應用切入、以點帶面,先從一個實際的應用領域需求出發(fā),搞定一個一個技術點,有一定功底之后,再舉一反三橫向擴展逐步理解其系統(tǒng)性技術。

(4)大數據學習要勇于實踐,不要紙上談兵:數據科學還是數據工程?大數據只有和特定領域的應用結合起來才能產生價值,數據科學還是數據工程是大數據學習要明確的關鍵問題,搞學術發(fā)paper數據科學OK,但要大數據應用落地,如果把數據科學成果轉化為數據工程進行落地應用,難度很大,這也是很多企業(yè)質疑數據科學價值的原因。且不說這種轉化需要一個過程,從業(yè)人員自身也是需要審視思考的。工業(yè)界包括政府管理機構如何引入研究智力,數據分析如何轉化和價值變現?數據科學研究人員和企業(yè)大數據系統(tǒng)開發(fā)工程人員都得想想這些關鍵問題。目前數據工程要解決的關鍵問題主線是數據(Data)>知識(Knowledge)>服務(Service),數據采集和管理,挖掘分析獲取知識,知識規(guī)律進行決策支持和應用轉化為持續(xù)服務。解決好這三個問題,才算大數據應用落地,那么從學習角度講,DWS就是大數據學習要解決問題的總目標,特別要注重數據科學的實踐應用能力,而且實踐要重于理論。從模型,特征,誤差,實驗,測試到應用,每一步都要考慮是否能解決現實問題,模型是否具備可解釋性,要勇于嘗試和迭代,模型和軟件包本身不是萬能的,大數據應用要注重魯棒性和實效性,溫室模型是沒有用的,訓練集和測試集就OK了嗎?大數據如何走出實驗室和工程化落地,一是不能閉門造車,模型收斂了就想當然萬事大吉了;二是要走出實驗室充分與業(yè)界實際決策問題對接;三是關聯(lián)關系和因果關系都不能少,不能描述因果關系的模型無助于解決現實問題;四是注重模型的迭代和產品化,持續(xù)升級和優(yōu)化,解決新數據增量學習和模型動態(tài)調整的問題。所以,大數據學習一定要清楚我是在做數據科學還是數據工程,各需要哪些方面的技術能力,現在處于哪一個階段等,不然為了技術而技術,是難以學好和用好大數據的。

(5)大數據學習的三個階段:不同階段的技術路線各有側重,把握主要矛盾。在大數據應用實施過程中,由于技術和成本考慮,不可能短時間內解決所有問題,大數據應用本身有其規(guī)律和特點,比如分析目標一定是要跟數據規(guī)模匹配,分析技術的采用取決于數據結構和數據源條件,數據集成一定要覆蓋比較全面的業(yè)務背景,關鍵環(huán)節(jié)數據不能有缺失等等。大數據學習可以根據應用目標分三個階段:

1)大數據基礎設施建設階段:這個階段的重點是把大數據存起來,管起來,能用起來,同時要考慮大數據平臺和原有業(yè)務系統(tǒng)的互通聯(lián)合問題。一句話,做好全局數據集成解決數據孤島問題!要完成大數據基礎設施系統(tǒng)建設開發(fā),需要明確數據采集、存儲和分析各層核心組件的選型和使用,搭建穩(wěn)定的大數據集群,或選擇私有云方案的服務集群,與生產系統(tǒng)并線運行,使待分析的歷史數據和實時數據得以采集并源源不斷流入大數據系統(tǒng)。這個階段的關鍵技術學習包括采集爬蟲、數據接口、分布式存儲、數據預處理ETL、數據集成、數據庫和數據倉庫管理、云計算和資源調度管理等等內容。

2)大數據描述性分析階段:此階段主要定位于離線或在線對數據進行基本描述統(tǒng)計和探索式可視化分析,對管理起來的大數據能進行海量存儲條件下的交互式查詢、匯總、統(tǒng)計和可視化,如果建設了BI系統(tǒng)的,還需整合傳統(tǒng)BI技術進行OLAP、KPI、Report、Chart、Dashboard等分析和初步的描述型數據挖掘分析。這個基礎分析階段是對數據集成質量的檢驗,也是對海量數據條件下的分布式存儲管理技術應用穩(wěn)定性的測試,同時要能替代或集成傳統(tǒng)BI的各類報表。這個階段的關鍵技術學習包括可視化、探索式交互式分析、多維分析、各類基本報表和圖表的查詢設計等等。

3)大數據高級預測分析和生產部署階段:在初步描述分析結果合理,符合預期目標,數據分布式管理和描述型分析穩(wěn)定成熟的條件下,可結合進一步智能化分析需求,采用如深度學習等適用海量數據處理的機器學習模型,進行高級預測性挖掘分析。并通過逐步迭代優(yōu)化挖掘模型和數據質量,形成穩(wěn)定可靠和性能可擴展的智能預測模型,并在企業(yè)相關業(yè)務服務中進行分析結果的決策支持,進行驗證、部署、評估和反饋。這個階段的關鍵技術包括機器學習建模、決策支持、可視化、模型部署和運維等。

在上述幾個階段的技術學習過程中,需要注意幾個關鍵問題:一是重視可視化和業(yè)務決策,大數據分析結果是為決策服務,而大數據決策的表現形式,可視化技術的優(yōu)劣起決定性作用;二是問問自己,Hadoop、Spark等是必須的嗎?要從整個大數據技術棧來考慮技術選型和技術路線的確定;三是建模問題處于核心地位,模型的選擇和評估至關重要,在課堂和實驗室中,多數模型的評估是靜態(tài)的,少有考慮其運行速度、實時性及增量處理,因此多使用復雜的臃腫模型,其特征變量往往及其復雜。而Kaggle競賽中的各種Boost方法,XGBDT、隨機森林等模型,在數據挖掘和機器學習教材中卻少有提及,所以要充分參考業(yè)界實戰(zhàn)經驗不能盡信書;四是開發(fā)語言的選擇,基礎框架系統(tǒng)Java是必須掌握的,應用級的機器學習和數據分析庫Python是必須掌握的,而要深入各種框架和學習庫的底層,C++是必須掌握的;五是模型的產品化,需要將實際數據通過管道設計轉換為輸入特征傳遞給模型,如何最小化模型在線上和線下的表現差距,這些都是要解決關鍵的問題。

(6)其它補充:Kaggle,眾包與培訓。眾包是一種基于互聯(lián)網的創(chuàng)新生產組織形式,企業(yè)利用網絡將工作分配出去,通過讓更合適的人群參與其中來發(fā)現創(chuàng)意和解決問題,如維基百科,還有IT資源社區(qū)GitHub,都是典型的眾包平臺。眾包+開源極大推動了IT產業(yè)的快速發(fā)展,當然Kaggle作為數據科學領域頂級的眾包平臺,其影響力遠不止于此(所以剛剛被谷歌收購)。企業(yè)和研究者可在Kaggle上發(fā)布數據,數據分析人員可在其上進行競賽以產生最好的模型。這一眾包模式本質就是集體智慧編程的體現,即有眾多策略可以用于解決幾乎所有預測建模問題,而分析人員不可能一開始就能找到最佳方案,Kaggle的目標就是通過眾包的形式來解決這一難題,進而使數據科學成為一場集體智慧運動。所以說要學好大數據,嚴重推薦去Kaggle沖沖浪,很好的歷練平臺。至于大數據培訓嘛,基礎理論和技術還不甚了解的情況下可以去培訓學習,有基礎之后還得靠自己多練多解決實際問題。

5.結論與展望

做個小結,大數據不是銀彈(Silver Bullet),大數據的興起只是說明了一種現象,隨著科技的高速發(fā)展,數據在人類生活和決策中所占的比重越來越大。面對如此廣度和深度的大數據技術棧和工具集,如何學習和掌握好大數據分析這種技能,猶如盲人摸象,冷暖自知。不過技術的學習和應用也是相通的,條條大路通羅馬,關鍵是要找準切入點,理論與實踐結合,有全局觀,工程化思維,對復雜系統(tǒng)設計開發(fā)與關鍵技術體系的主要矛盾要有所把握。熟悉大數據基礎理論與算法、應用切入、以點帶面、舉一反三、橫向擴展,從而構建完整的大數據知識結構和核心技術能力,這樣的學習效果就會好很多。

另外,技術發(fā)展也遵循量變到質變規(guī)律,人工智能+物聯(lián)網+大數據+云計算是四位一體發(fā)展的(時間有先后,但技術實質性突破都在最近幾年),未來智能時代的基礎設施、核心架構將基于這四個層面,這種社會演化趨勢也很明顯:農業(yè)時代〉工業(yè)時代〉互聯(lián)網時代〉智能化時代。在這個四位一體智能技術鏈條里面,物聯(lián)網重在數據采集,云計算重在基礎設施,大數據技術處于核心地位,人工智能則是發(fā)展目標,所以學習大數據技術還需要對這四個方面加以綜合研究和理解。

最后潑點冷水,簡單說說大數據的前景,未來大數據崗位需求不會有媒體宣傳的那么多,大數據具體工作不會有美國大片里那么炫酷,不要老盯著BAT,我國大數據的發(fā)展還處于初級階段??傊夹g歸于技術,實踐才能出真知,落地解決問題是關鍵,Palantir也是十年才磨出一劍。不過在大數據時代,人人都得懂點數據分析,這倒是最實在的,不懂編程?那就學Python吧,如果說人工智能時代的大媽和小學生都能編程的話,那一定用的是Python:)更多編程方面的分享請關注微信公眾號:程序員大牛!

另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。

網站題目:大數據學習內容有哪些?大數據學習路線圖-創(chuàng)新互聯(lián)
URL鏈接:http://muchs.cn/article10/dcjhgo.html

成都網站建設公司_創(chuàng)新互聯(lián),為您提供電子商務企業(yè)網站制作、定制網站響應式網站、網站策劃、云服務器

廣告

聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

搜索引擎優(yōu)化