大數(shù)據(jù)基本概念-創(chuàng)新互聯(lián)

大數(shù)據(jù)概念想必大家都不陌生,畢竟是近年來最熱門的話題之一。在計(jì)算機(jī)以及互聯(lián)網(wǎng)如此普及的今天,我們所有人每天都會(huì)在互聯(lián)網(wǎng)上產(chǎn)生大量的數(shù)據(jù),例如在淘寶瀏覽商品時(shí)會(huì)產(chǎn)生數(shù)據(jù),使用社交app進(jìn)行即時(shí)通訊時(shí)也會(huì)產(chǎn)生數(shù)據(jù),每天股市的上漲下跌及交易量也是數(shù)據(jù)......如此可見,每天互聯(lián)網(wǎng)上產(chǎn)生的數(shù)據(jù)是有多龐大,數(shù)據(jù)可謂是無處不在:

創(chuàng)新互聯(lián)科技有限公司專業(yè)互聯(lián)網(wǎng)基礎(chǔ)服務(wù)商,為您提供遂寧聯(lián)通機(jī)房,高防服務(wù)器租用,成都IDC機(jī)房托管,成都主機(jī)托管等互聯(lián)網(wǎng)服務(wù)。

大數(shù)據(jù)基本概念

但是數(shù)據(jù)量大,只是大數(shù)據(jù)概念的特征之一,大數(shù)據(jù)有4個(gè)特征簡稱4V特征:
大數(shù)據(jù)基本概念

在2001年,高德納分析員道格·萊尼在一份與其2001年的研究相關(guān)的演講中指出,數(shù)據(jù)增長有三個(gè)方向的挑戰(zhàn)和機(jī)遇:量(Volume),即數(shù)據(jù)多少;速(Velocity),即資料輸入、輸出的速度;類(Variety),即多樣性。

在萊尼的理論基礎(chǔ)上,IBM提出大數(shù)據(jù)的4V特征,得到了業(yè)界的廣泛認(rèn)可。第一,數(shù)量(Volume),即數(shù)據(jù)巨大,從TB級(jí)別躍升到PB級(jí)別;第二,多樣性(Variety),即數(shù)據(jù)類型繁多,不僅包括傳統(tǒng)的格式化數(shù)據(jù),還包括來自互聯(lián)網(wǎng)的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等;第三,速度(Velocity),即處理速度快,如果處理不夠高速則無法應(yīng)用在實(shí)時(shí)更新數(shù)據(jù)的場(chǎng)景上;第四,價(jià)值(Value),即追求高質(zhì)量的、有價(jià)值的數(shù)據(jù)。

大數(shù)據(jù)4V特征:

  • Volume 大量,既然叫大數(shù)據(jù),那么數(shù)據(jù)量肯定得大
  • Variety多樣性,數(shù)據(jù)可以多種結(jié)構(gòu),可以是結(jié)構(gòu)性數(shù)據(jù)、半結(jié)構(gòu)性數(shù)據(jù)以及非結(jié)構(gòu)性數(shù)據(jù)
  • Value價(jià)值,這些大量的數(shù)據(jù)需要能夠被挖掘出有價(jià)值的數(shù)據(jù),因?yàn)闊o價(jià)值的數(shù)據(jù)只是一堆占用存儲(chǔ)空間的垃圾
  • Velocity高速,數(shù)據(jù)的處理速度要快,時(shí)效性強(qiáng),因?yàn)楹芏鄨?chǎng)景下要實(shí)時(shí)更新、檢測(cè)數(shù)據(jù)

想要詳細(xì)了解大數(shù)據(jù)的4V特征可以參考以下文章:

http://www.mahaixiang.cn/sjfx/803.html
https://www.jianshu.com/p/b3281082edb3
https://www.leiphone.com/news/201410/NgTsZw3yDjEbk9on.html


大數(shù)據(jù)要解決的問題

大數(shù)據(jù)是要用來從中挖掘有價(jià)值的數(shù)據(jù)的,如果數(shù)據(jù)不能給企業(yè)帶來價(jià)值,不能給用戶帶來更好的體驗(yàn),那么這些數(shù)據(jù)就是無用的。而從數(shù)據(jù)中挖掘價(jià)值就是大數(shù)據(jù)要解決的問題,這就好像淘金、挖礦一樣,我們利用大數(shù)據(jù)技術(shù)從海量數(shù)據(jù)中挖掘有用的數(shù)據(jù),剔除無用的數(shù)據(jù):

大數(shù)據(jù)基本概念


大數(shù)據(jù)帶來的挑戰(zhàn)

大數(shù)據(jù)涉及到的技術(shù):

1.數(shù)據(jù)采集:
我們需要將分散的數(shù)據(jù)都采集起來,集中在一起,才能夠進(jìn)行數(shù)據(jù)的分析

2.數(shù)據(jù)存儲(chǔ):
將大量的數(shù)據(jù)采集起來后,存儲(chǔ)就是個(gè)問題,需要存儲(chǔ)空間足夠大

3.數(shù)據(jù)處理/分析/挖掘:
存儲(chǔ)的問題解決后,才開始對(duì)這些數(shù)據(jù)進(jìn)行處理,分析、挖掘有價(jià)值的數(shù)據(jù)出來

4.可視化:
最后就是將這些挖掘出來的數(shù)據(jù)進(jìn)行可視化、圖形化后呈現(xiàn)給別人看,總不可能讓你領(lǐng)導(dǎo)來看一堆數(shù)字或字符串吧

大數(shù)據(jù)在技術(shù)架構(gòu)上帶來的挑戰(zhàn):

1.對(duì)現(xiàn)有數(shù)據(jù)庫管理技術(shù)的挑戰(zhàn):
海量的數(shù)據(jù)想要存儲(chǔ)到傳統(tǒng)的關(guān)系型數(shù)據(jù)庫是不太現(xiàn)實(shí)的,雖然數(shù)據(jù)庫可以進(jìn)行集群,但是基本上也不能處理TB級(jí)以上的數(shù)據(jù)分析的,所以現(xiàn)階段無法使用結(jié)構(gòu)化的查詢及處理去解決這些問題

2.傳統(tǒng)數(shù)據(jù)庫技術(shù)并沒有考慮數(shù)據(jù)的多類別:
關(guān)系型數(shù)據(jù)庫的結(jié)構(gòu)都是庫 >> 表 >> 字段的關(guān)系結(jié)構(gòu),而大數(shù)據(jù)具有數(shù)據(jù)多樣化的特征,所以不好存儲(chǔ)

3.實(shí)時(shí)性的技術(shù)挑戰(zhàn):
數(shù)據(jù)所產(chǎn)生的價(jià)值會(huì)隨著時(shí)間的推移而降低,所以要讓數(shù)據(jù)實(shí)時(shí)展現(xiàn)是個(gè)問題

4.網(wǎng)絡(luò)架構(gòu)、數(shù)據(jù)中心、運(yùn)維的挑戰(zhàn):
由于數(shù)據(jù)一直呈大幅增長的狀態(tài),而數(shù)據(jù)又要實(shí)時(shí)地呈現(xiàn),這對(duì)網(wǎng)絡(luò)傳輸上是一個(gè)挑戰(zhàn)。而且數(shù)據(jù)量大,肯定得多臺(tái)服務(wù)器進(jìn)行存儲(chǔ),這就給數(shù)據(jù)中心以及運(yùn)維帶來一定的挑戰(zhàn)

大數(shù)據(jù)帶來的其他挑戰(zhàn):

1.數(shù)據(jù)隱私:
這個(gè)不用說,海量數(shù)據(jù)里肯定會(huì)包含一些用戶的隱私數(shù)據(jù),我們得保障這些數(shù)據(jù)不外泄

2.數(shù)據(jù)源復(fù)雜多樣:
之前也提到過大數(shù)據(jù)的特征之一就是數(shù)據(jù)的多樣性,如何處理好多樣的數(shù)據(jù)是個(gè)問題


如何應(yīng)對(duì)大數(shù)據(jù)帶來的挑戰(zhàn)

對(duì)于以上所說到的挑戰(zhàn),Google已經(jīng)有應(yīng)對(duì)這些挑戰(zhàn)的技術(shù)了:

  • MapReduce 可以解決計(jì)算效率的問題
  • Big Table 可以解決讀寫速度的問題
  • GFS 可以解決存儲(chǔ)容量的問題

大數(shù)據(jù)基本概念

但是,Google只發(fā)表了這些技術(shù)的論文,并沒有開源這些技術(shù),所以我們無法進(jìn)行使用。不過,好在Apache基金會(huì)模仿著Google的大數(shù)據(jù)技術(shù),開發(fā)出了Hadoop生態(tài)圈,Hadoop也是學(xué)習(xí)大數(shù)據(jù)技術(shù)必須要學(xué)的框架。

  • Hadoop里也有MapReduce
  • Hbase對(duì)應(yīng)著Big Table
  • HDFS對(duì)應(yīng)著GFS

大數(shù)據(jù)基本概念


如何學(xué)好大數(shù)據(jù)

1.學(xué)習(xí)一個(gè)框架,最好的方式就是查看它的官方,因?yàn)楣倬W(wǎng)上的文檔是最權(quán)威且最詳細(xì)的。

2.通過項(xiàng)目實(shí)戰(zhàn)對(duì)知識(shí)點(diǎn)進(jìn)行鞏固和融會(huì)貫通

3.參加一些社區(qū)活動(dòng):Meetup、開源社區(qū)大會(huì)、線下沙龍等,與他人交流有助于提升眼界

4.切記:多動(dòng)手、多練習(xí)、貴在堅(jiān)持

5.最好將英文學(xué)好,因?yàn)楹芏嗪玫募夹g(shù)論文以及文章都是英文的,而且官網(wǎng)的語言也是英文的

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

網(wǎng)頁題目:大數(shù)據(jù)基本概念-創(chuàng)新互聯(lián)
本文URL:http://muchs.cn/article20/dpgojo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供定制開發(fā)、微信公眾號(hào)定制網(wǎng)站、微信小程序搜索引擎優(yōu)化、品牌網(wǎng)站制作

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

微信小程序開發(fā)