大數(shù)據(jù)-創(chuàng)新互聯(lián)

目錄

創(chuàng)新互聯(lián)于2013年開(kāi)始,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項(xiàng)目成都做網(wǎng)站、網(wǎng)站設(shè)計(jì)網(wǎng)站策劃,項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢(mèng)想脫穎而出為使命,1280元雄縣做網(wǎng)站,已為上家服務(wù),為雄縣各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話:18982081108

一、數(shù)據(jù)采集、匯聚的方法和工具

1、線上行為采集

2、線下行為采集

3、互聯(lián)網(wǎng)數(shù)據(jù)采集

4、內(nèi)部數(shù)據(jù)匯聚

二、數(shù)據(jù)交換產(chǎn)品

1、數(shù)據(jù)源管理

2、離線數(shù)據(jù)交換

3、實(shí)時(shí)數(shù)據(jù)交換

三、數(shù)據(jù)存儲(chǔ)的選擇

1、在線與離線

2、OLTP與OLAP

3、存儲(chǔ)技術(shù)


構(gòu)建企業(yè)級(jí)的數(shù)據(jù)中臺(tái)第一步就是要實(shí)現(xiàn)各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)的互聯(lián)互通,從物理上打破數(shù)據(jù)孤島。主要通過(guò)數(shù)據(jù)匯聚和交換的能力來(lái)實(shí)現(xiàn)。在面對(duì)不同場(chǎng)景,根據(jù)數(shù)據(jù)類型、數(shù)據(jù)存儲(chǔ)要求等進(jìn)行不同方案的選擇。

一、數(shù)據(jù)采集、匯聚的方法和工具 1、線上行為采集

①客戶端埋點(diǎn)

全埋點(diǎn):在終端設(shè)備上記錄用戶所有的操作行為,一般在內(nèi)嵌SDK做一些初始化配置就可以實(shí)現(xiàn)全部收集行為的目的。也叫無(wú)痕埋點(diǎn)、無(wú)埋點(diǎn)等。優(yōu)點(diǎn):不用頻繁升級(jí),可獲取全量數(shù)據(jù) 缺點(diǎn):存儲(chǔ)、傳輸成本高

可視化埋點(diǎn):在終端設(shè)備上記錄用戶的一部分操作,一般通過(guò)服務(wù)端配置的方式有選擇性的記錄與保存。優(yōu)點(diǎn):不用頻繁發(fā)布,成本比全埋點(diǎn)低,比較靈活;缺點(diǎn):可能未收集到想要的數(shù)據(jù),需要重新配置等

代碼埋點(diǎn):根據(jù)需求定制每次的手機(jī)內(nèi)容,需要對(duì)相應(yīng)終端模塊進(jìn)行升級(jí)。優(yōu)點(diǎn):靈活性強(qiáng)、可以單獨(dú)設(shè)計(jì)方案,對(duì)對(duì)存儲(chǔ)、帶寬等可以做較多優(yōu)化;缺點(diǎn):成本高,維護(hù)難度大,升級(jí)周期長(zhǎng)。

②服務(wù)端埋點(diǎn)

服務(wù)端埋點(diǎn)常見(jiàn)的形態(tài)有HTTP服務(wù)器中的access_log,即所有web服務(wù)的日志數(shù)據(jù)。優(yōu)點(diǎn):降低客戶端的復(fù)雜度、提高信息安全;缺點(diǎn):無(wú)法采集客戶端不與服務(wù)端交互的信息。

2、線下行為采集

線下數(shù)據(jù)一般通過(guò)硬件采集,如Wifi探測(cè)針、攝像頭、傳感器等。

3、互聯(lián)網(wǎng)數(shù)據(jù)采集

這種數(shù)據(jù)采集方式一般采用網(wǎng)絡(luò)爬蟲(chóng),使用一種按照既定規(guī)則自動(dòng)抓取互聯(lián)網(wǎng)信息的程序或腳本,常用來(lái)做網(wǎng)站的自動(dòng)化測(cè)試和行為模擬。常見(jiàn)的網(wǎng)絡(luò)爬蟲(chóng)框架:Apache Nutch 2、WebMagic、Scrapy、PhpCrawl等,互聯(lián)網(wǎng)數(shù)據(jù)采集要遵守相應(yīng)的安全規(guī)范、協(xié)議等

4、內(nèi)部數(shù)據(jù)匯聚

①數(shù)據(jù)組織形式分類

結(jié)構(gòu)化數(shù)據(jù):規(guī)則、完整,能夠用二維表來(lái)表現(xiàn)的數(shù)據(jù),常見(jiàn)數(shù)據(jù)庫(kù)、excel中的數(shù)據(jù)。

半機(jī)構(gòu)化數(shù)據(jù):數(shù)據(jù)規(guī)則、完整,但不能通過(guò)二維表來(lái)表現(xiàn)的數(shù)據(jù),比如JSON、XML等復(fù)雜結(jié)構(gòu)

非機(jī)構(gòu)化數(shù)據(jù):數(shù)據(jù)不規(guī)則、不完整,也不能通過(guò)二維表來(lái)表現(xiàn),需要復(fù)雜的邏輯才能從中提取,如圖片、圖像、音頻等。

②數(shù)據(jù)時(shí)效和應(yīng)用場(chǎng)景分

離線:主要用于用戶大批量數(shù)據(jù)的周期性遷移,對(duì)時(shí)效性要求不高,一般采用分布式批量數(shù)據(jù)同步的方式,通過(guò)連接讀取數(shù)據(jù),讀取數(shù)據(jù)過(guò)程中可以有全量、增量的方式,通過(guò)統(tǒng)一處理后寫(xiě)入到目標(biāo)存儲(chǔ)。

實(shí)時(shí):主要面向低延時(shí)的數(shù)據(jù)應(yīng)用場(chǎng)景,一般通過(guò)增量日志或通知消息的方式實(shí)現(xiàn),業(yè)界有canal,flink等方式來(lái)實(shí)現(xiàn)。

③ETL和ELT

ETL(Extract-Transform-Load,抽取-轉(zhuǎn)換-存儲(chǔ)),抽取過(guò)程中加工,優(yōu)點(diǎn):節(jié)省存儲(chǔ),簡(jiǎn)化后續(xù)處理? 缺點(diǎn):數(shù)據(jù)不全或丟失,處理效率低

ELT(Extract-Load-Transform,抽取-存儲(chǔ)-轉(zhuǎn)換),抽取完成后進(jìn)行加工,優(yōu)點(diǎn):數(shù)據(jù)齊全,利用大數(shù)據(jù)等分布式后期處理效果更高? 缺點(diǎn):存儲(chǔ)占用較大,無(wú)用數(shù)據(jù)太多可能會(huì)造成效率低

④常見(jiàn)數(shù)據(jù)匯聚工具

Canal:一種通過(guò)偽裝自己為Mysql等slave,通過(guò)監(jiān)控日志變動(dòng)的數(shù)據(jù)推動(dòng)工具。常作為mysql數(shù)據(jù)變動(dòng)的數(shù)據(jù)收集工具,但其不適合多消費(fèi)和數(shù)據(jù)分發(fā)場(chǎng)景。

Sqoop:通用的大數(shù)據(jù)解決方案,在結(jié)構(gòu)化數(shù)據(jù)和HDFS之間進(jìn)行數(shù)據(jù)遷移的工具,基于Hadoop的MapReduce實(shí)現(xiàn)。優(yōu)勢(shì):特定場(chǎng)景,數(shù)據(jù)交換效率高。缺點(diǎn):定制程度高,不易操作,并且依賴MapReduce,功能擴(kuò)展性方面受到約束和限制。

DataX:阿里的一套插件式離線數(shù)據(jù)交換工具,它是基于進(jìn)程內(nèi)讀寫(xiě)直連的方式。

二、數(shù)據(jù)交換產(chǎn)品

前面介紹的工具一般都只能滿足一些單一的場(chǎng)景或者過(guò)程。為了滿足復(fù)雜的企業(yè)數(shù)據(jù)交換場(chǎng)景,我們需要一個(gè)完整的數(shù)據(jù)交換產(chǎn)品,包含數(shù)據(jù)源管理、離線數(shù)據(jù)處理、實(shí)時(shí)數(shù)據(jù)處理等等。

1、數(shù)據(jù)源管理

數(shù)據(jù)源的管理主要是管理數(shù)據(jù)所用的存儲(chǔ),用于平臺(tái)在做數(shù)據(jù)交換時(shí),可以方便地對(duì)外部存儲(chǔ)進(jìn)行相應(yīng)的管理。

數(shù)據(jù)源的分類:

關(guān)系型數(shù)據(jù)庫(kù):如Oracle、Mysql、SQL Server、Creenplum等

NoSQL存儲(chǔ):如HBase、Redis、Elasticsearch、Cassandra、MongoDB、Neo4j等

網(wǎng)絡(luò)及MQ:如Kafka、HTTP等

文件系統(tǒng):如HDFS、FTP、OSS、CSV、TXT、EXCEL等。

大數(shù)據(jù)相關(guān):如HIVE、Impala、Kudu、MaxCompute等

2、離線數(shù)據(jù)交換

離線數(shù)據(jù)交換時(shí)針對(duì)數(shù)據(jù)時(shí)效要求低、吞吐量大的場(chǎng)景,解決大規(guī)模數(shù)據(jù)的批量遷移問(wèn)題。

離線數(shù)據(jù)同步技術(shù)的亮點(diǎn):

①前置稽核

②數(shù)據(jù)轉(zhuǎn)換

③跨集群數(shù)據(jù)同步

④全量同步

⑤增量同步

3、實(shí)時(shí)數(shù)據(jù)交換

實(shí)時(shí)數(shù)據(jù)交換主要負(fù)責(zé)把數(shù)據(jù)庫(kù)、日志爬蟲(chóng)等數(shù)據(jù)實(shí)時(shí)接入Kafka、Hive、Oracle等存儲(chǔ)中。其兩個(gè)核心服務(wù)為:數(shù)據(jù)訂閱服務(wù)(Client Server)、數(shù)據(jù)消費(fèi)服務(wù)(Consumer Server)。

實(shí)時(shí)交換架構(gòu)圖示例:

三、數(shù)據(jù)存儲(chǔ)的選擇

數(shù)據(jù)的存儲(chǔ)我們一般要考慮數(shù)據(jù)的規(guī)模、數(shù)據(jù)生產(chǎn)方式以及數(shù)據(jù)的應(yīng)用方式,通過(guò)方面綜合考慮。

1、在線與離線

在線存儲(chǔ)是指存儲(chǔ)設(shè)備和所存儲(chǔ)的數(shù)據(jù)時(shí)刻保持“在線狀態(tài)”,可供用戶隨意讀取,滿足計(jì)算平臺(tái)對(duì)數(shù)據(jù)訪問(wèn)的速度要求。在線存儲(chǔ)一般為磁盤(pán)、磁盤(pán)陣列、云存儲(chǔ)等。

離線存儲(chǔ)是為了對(duì)在線存儲(chǔ)的數(shù)據(jù)進(jìn)行備份,已防可能發(fā)生的數(shù)據(jù)災(zāi)難。離線存儲(chǔ)的數(shù)據(jù)不會(huì)經(jīng)常被調(diào)用。常見(jiàn)的典型產(chǎn)品是硬盤(pán)、磁帶和光盤(pán)等。

2、OLTP與OLAP

OLTP和OLAP他們并不是競(jìng)爭(zhēng)或互斥關(guān)系,而是相互協(xié)作,合作共贏。

OLTP

OLAP

用戶

面向操作人員,支持日常操作

面向決策人員,支持管理需求

功能

日常操作處理

面向分析

DB設(shè)計(jì)

面向應(yīng)用,事務(wù)驅(qū)動(dòng)

面向主題,分析驅(qū)動(dòng)

數(shù)據(jù)

當(dāng)前的、最新的、細(xì)節(jié)的、二維的、分立的

歷史的、聚集的、多維的、集成的、統(tǒng)一的

存取

可更新,讀/寫(xiě)數(shù)十條記錄

不可更新的,但周期性刷新,讀上百萬(wàn)條記錄

工作單位

簡(jiǎn)單的事務(wù)

復(fù)雜的查詢

DB大小

100MB到GB級(jí)

100GB到TB級(jí)別

3、存儲(chǔ)技術(shù)

1、分布式系統(tǒng)

分布式系統(tǒng)常見(jiàn)包括分布式文件系統(tǒng)(存儲(chǔ)系統(tǒng)需要多種技術(shù)的協(xié)同工作,其中文件系統(tǒng)為其提供最底層存儲(chǔ)能力的支持)和分布式鍵值系統(tǒng)(用戶存儲(chǔ)關(guān)系簡(jiǎn)單的半結(jié)構(gòu)化數(shù)據(jù))

2、NoSQL數(shù)據(jù)庫(kù)

NoSQL的優(yōu)勢(shì),可以支持超大規(guī)模數(shù)據(jù)存儲(chǔ),靈活的數(shù)據(jù)模型很好支持web2.0應(yīng)用,具有強(qiáng)大的橫向擴(kuò)展能力等,典型的有:鍵值數(shù)據(jù)庫(kù)、列族數(shù)據(jù)庫(kù)、文檔數(shù)據(jù)庫(kù)和圖數(shù)據(jù)庫(kù)等,如:HBASE、MongoDB等。

3、云數(shù)據(jù)庫(kù)

云數(shù)據(jù)庫(kù)是基于云計(jì)算技術(shù)的一種共享基礎(chǔ)架構(gòu)方法,是部署和虛擬化在云計(jì)算環(huán)境中的數(shù)據(jù)庫(kù)。

你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機(jī)房具備T級(jí)流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級(jí)服務(wù)器適合批量采購(gòu),新人活動(dòng)首月15元起,快前往官網(wǎng)查看詳情吧

文章標(biāo)題:大數(shù)據(jù)-創(chuàng)新互聯(lián)
本文鏈接:http://muchs.cn/article42/cdecec.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供做網(wǎng)站、小程序開(kāi)發(fā)、定制開(kāi)發(fā)網(wǎng)站改版、關(guān)鍵詞優(yōu)化、響應(yīng)式網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

h5響應(yīng)式網(wǎng)站建設(shè)