目錄
創(chuàng)新互聯(lián)于2013年開(kāi)始,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項(xiàng)目成都做網(wǎng)站、網(wǎng)站設(shè)計(jì)網(wǎng)站策劃,項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢(mèng)想脫穎而出為使命,1280元雄縣做網(wǎng)站,已為上家服務(wù),為雄縣各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話:18982081108一、數(shù)據(jù)采集、匯聚的方法和工具
1、線上行為采集
2、線下行為采集
3、互聯(lián)網(wǎng)數(shù)據(jù)采集
4、內(nèi)部數(shù)據(jù)匯聚
二、數(shù)據(jù)交換產(chǎn)品
1、數(shù)據(jù)源管理
2、離線數(shù)據(jù)交換
3、實(shí)時(shí)數(shù)據(jù)交換
三、數(shù)據(jù)存儲(chǔ)的選擇
1、在線與離線
2、OLTP與OLAP
3、存儲(chǔ)技術(shù)
構(gòu)建企業(yè)級(jí)的數(shù)據(jù)中臺(tái)第一步就是要實(shí)現(xiàn)各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)的互聯(lián)互通,從物理上打破數(shù)據(jù)孤島。主要通過(guò)數(shù)據(jù)匯聚和交換的能力來(lái)實(shí)現(xiàn)。在面對(duì)不同場(chǎng)景,根據(jù)數(shù)據(jù)類型、數(shù)據(jù)存儲(chǔ)要求等進(jìn)行不同方案的選擇。
一、數(shù)據(jù)采集、匯聚的方法和工具 1、線上行為采集①客戶端埋點(diǎn)
全埋點(diǎn):在終端設(shè)備上記錄用戶所有的操作行為,一般在內(nèi)嵌SDK做一些初始化配置就可以實(shí)現(xiàn)全部收集行為的目的。也叫無(wú)痕埋點(diǎn)、無(wú)埋點(diǎn)等。優(yōu)點(diǎn):不用頻繁升級(jí),可獲取全量數(shù)據(jù) 缺點(diǎn):存儲(chǔ)、傳輸成本高
可視化埋點(diǎn):在終端設(shè)備上記錄用戶的一部分操作,一般通過(guò)服務(wù)端配置的方式有選擇性的記錄與保存。優(yōu)點(diǎn):不用頻繁發(fā)布,成本比全埋點(diǎn)低,比較靈活;缺點(diǎn):可能未收集到想要的數(shù)據(jù),需要重新配置等
代碼埋點(diǎn):根據(jù)需求定制每次的手機(jī)內(nèi)容,需要對(duì)相應(yīng)終端模塊進(jìn)行升級(jí)。優(yōu)點(diǎn):靈活性強(qiáng)、可以單獨(dú)設(shè)計(jì)方案,對(duì)對(duì)存儲(chǔ)、帶寬等可以做較多優(yōu)化;缺點(diǎn):成本高,維護(hù)難度大,升級(jí)周期長(zhǎng)。
②服務(wù)端埋點(diǎn)
服務(wù)端埋點(diǎn)常見(jiàn)的形態(tài)有HTTP服務(wù)器中的access_log,即所有web服務(wù)的日志數(shù)據(jù)。優(yōu)點(diǎn):降低客戶端的復(fù)雜度、提高信息安全;缺點(diǎn):無(wú)法采集客戶端不與服務(wù)端交互的信息。
2、線下行為采集線下數(shù)據(jù)一般通過(guò)硬件采集,如Wifi探測(cè)針、攝像頭、傳感器等。
3、互聯(lián)網(wǎng)數(shù)據(jù)采集這種數(shù)據(jù)采集方式一般采用網(wǎng)絡(luò)爬蟲(chóng),使用一種按照既定規(guī)則自動(dòng)抓取互聯(lián)網(wǎng)信息的程序或腳本,常用來(lái)做網(wǎng)站的自動(dòng)化測(cè)試和行為模擬。常見(jiàn)的網(wǎng)絡(luò)爬蟲(chóng)框架:Apache Nutch 2、WebMagic、Scrapy、PhpCrawl等,互聯(lián)網(wǎng)數(shù)據(jù)采集要遵守相應(yīng)的安全規(guī)范、協(xié)議等
4、內(nèi)部數(shù)據(jù)匯聚①數(shù)據(jù)組織形式分類
結(jié)構(gòu)化數(shù)據(jù):規(guī)則、完整,能夠用二維表來(lái)表現(xiàn)的數(shù)據(jù),常見(jiàn)數(shù)據(jù)庫(kù)、excel中的數(shù)據(jù)。
半機(jī)構(gòu)化數(shù)據(jù):數(shù)據(jù)規(guī)則、完整,但不能通過(guò)二維表來(lái)表現(xiàn)的數(shù)據(jù),比如JSON、XML等復(fù)雜結(jié)構(gòu)
非機(jī)構(gòu)化數(shù)據(jù):數(shù)據(jù)不規(guī)則、不完整,也不能通過(guò)二維表來(lái)表現(xiàn),需要復(fù)雜的邏輯才能從中提取,如圖片、圖像、音頻等。
②數(shù)據(jù)時(shí)效和應(yīng)用場(chǎng)景分
離線:主要用于用戶大批量數(shù)據(jù)的周期性遷移,對(duì)時(shí)效性要求不高,一般采用分布式批量數(shù)據(jù)同步的方式,通過(guò)連接讀取數(shù)據(jù),讀取數(shù)據(jù)過(guò)程中可以有全量、增量的方式,通過(guò)統(tǒng)一處理后寫(xiě)入到目標(biāo)存儲(chǔ)。
實(shí)時(shí):主要面向低延時(shí)的數(shù)據(jù)應(yīng)用場(chǎng)景,一般通過(guò)增量日志或通知消息的方式實(shí)現(xiàn),業(yè)界有canal,flink等方式來(lái)實(shí)現(xiàn)。
③ETL和ELT
ETL(Extract-Transform-Load,抽取-轉(zhuǎn)換-存儲(chǔ)),抽取過(guò)程中加工,優(yōu)點(diǎn):節(jié)省存儲(chǔ),簡(jiǎn)化后續(xù)處理? 缺點(diǎn):數(shù)據(jù)不全或丟失,處理效率低
ELT(Extract-Load-Transform,抽取-存儲(chǔ)-轉(zhuǎn)換),抽取完成后進(jìn)行加工,優(yōu)點(diǎn):數(shù)據(jù)齊全,利用大數(shù)據(jù)等分布式后期處理效果更高? 缺點(diǎn):存儲(chǔ)占用較大,無(wú)用數(shù)據(jù)太多可能會(huì)造成效率低
④常見(jiàn)數(shù)據(jù)匯聚工具
Canal:一種通過(guò)偽裝自己為Mysql等slave,通過(guò)監(jiān)控日志變動(dòng)的數(shù)據(jù)推動(dòng)工具。常作為mysql數(shù)據(jù)變動(dòng)的數(shù)據(jù)收集工具,但其不適合多消費(fèi)和數(shù)據(jù)分發(fā)場(chǎng)景。
Sqoop:通用的大數(shù)據(jù)解決方案,在結(jié)構(gòu)化數(shù)據(jù)和HDFS之間進(jìn)行數(shù)據(jù)遷移的工具,基于Hadoop的MapReduce實(shí)現(xiàn)。優(yōu)勢(shì):特定場(chǎng)景,數(shù)據(jù)交換效率高。缺點(diǎn):定制程度高,不易操作,并且依賴MapReduce,功能擴(kuò)展性方面受到約束和限制。
DataX:阿里的一套插件式離線數(shù)據(jù)交換工具,它是基于進(jìn)程內(nèi)讀寫(xiě)直連的方式。
二、數(shù)據(jù)交換產(chǎn)品前面介紹的工具一般都只能滿足一些單一的場(chǎng)景或者過(guò)程。為了滿足復(fù)雜的企業(yè)數(shù)據(jù)交換場(chǎng)景,我們需要一個(gè)完整的數(shù)據(jù)交換產(chǎn)品,包含數(shù)據(jù)源管理、離線數(shù)據(jù)處理、實(shí)時(shí)數(shù)據(jù)處理等等。
1、數(shù)據(jù)源管理數(shù)據(jù)源的管理主要是管理數(shù)據(jù)所用的存儲(chǔ),用于平臺(tái)在做數(shù)據(jù)交換時(shí),可以方便地對(duì)外部存儲(chǔ)進(jìn)行相應(yīng)的管理。
數(shù)據(jù)源的分類:
關(guān)系型數(shù)據(jù)庫(kù):如Oracle、Mysql、SQL Server、Creenplum等
NoSQL存儲(chǔ):如HBase、Redis、Elasticsearch、Cassandra、MongoDB、Neo4j等
網(wǎng)絡(luò)及MQ:如Kafka、HTTP等
文件系統(tǒng):如HDFS、FTP、OSS、CSV、TXT、EXCEL等。
大數(shù)據(jù)相關(guān):如HIVE、Impala、Kudu、MaxCompute等
2、離線數(shù)據(jù)交換離線數(shù)據(jù)交換時(shí)針對(duì)數(shù)據(jù)時(shí)效要求低、吞吐量大的場(chǎng)景,解決大規(guī)模數(shù)據(jù)的批量遷移問(wèn)題。
離線數(shù)據(jù)同步技術(shù)的亮點(diǎn):
①前置稽核
②數(shù)據(jù)轉(zhuǎn)換
③跨集群數(shù)據(jù)同步
④全量同步
⑤增量同步
3、實(shí)時(shí)數(shù)據(jù)交換實(shí)時(shí)數(shù)據(jù)交換主要負(fù)責(zé)把數(shù)據(jù)庫(kù)、日志爬蟲(chóng)等數(shù)據(jù)實(shí)時(shí)接入Kafka、Hive、Oracle等存儲(chǔ)中。其兩個(gè)核心服務(wù)為:數(shù)據(jù)訂閱服務(wù)(Client Server)、數(shù)據(jù)消費(fèi)服務(wù)(Consumer Server)。
實(shí)時(shí)交換架構(gòu)圖示例:
三、數(shù)據(jù)存儲(chǔ)的選擇數(shù)據(jù)的存儲(chǔ)我們一般要考慮數(shù)據(jù)的規(guī)模、數(shù)據(jù)生產(chǎn)方式以及數(shù)據(jù)的應(yīng)用方式,通過(guò)方面綜合考慮。
1、在線與離線在線存儲(chǔ)是指存儲(chǔ)設(shè)備和所存儲(chǔ)的數(shù)據(jù)時(shí)刻保持“在線狀態(tài)”,可供用戶隨意讀取,滿足計(jì)算平臺(tái)對(duì)數(shù)據(jù)訪問(wèn)的速度要求。在線存儲(chǔ)一般為磁盤(pán)、磁盤(pán)陣列、云存儲(chǔ)等。
離線存儲(chǔ)是為了對(duì)在線存儲(chǔ)的數(shù)據(jù)進(jìn)行備份,已防可能發(fā)生的數(shù)據(jù)災(zāi)難。離線存儲(chǔ)的數(shù)據(jù)不會(huì)經(jīng)常被調(diào)用。常見(jiàn)的典型產(chǎn)品是硬盤(pán)、磁帶和光盤(pán)等。
2、OLTP與OLAPOLTP和OLAP他們并不是競(jìng)爭(zhēng)或互斥關(guān)系,而是相互協(xié)作,合作共贏。
OLTP | OLAP | |
用戶 | 面向操作人員,支持日常操作 | 面向決策人員,支持管理需求 |
功能 | 日常操作處理 | 面向分析 |
DB設(shè)計(jì) | 面向應(yīng)用,事務(wù)驅(qū)動(dòng) | 面向主題,分析驅(qū)動(dòng) |
數(shù)據(jù) | 當(dāng)前的、最新的、細(xì)節(jié)的、二維的、分立的 | 歷史的、聚集的、多維的、集成的、統(tǒng)一的 |
存取 | 可更新,讀/寫(xiě)數(shù)十條記錄 | 不可更新的,但周期性刷新,讀上百萬(wàn)條記錄 |
工作單位 | 簡(jiǎn)單的事務(wù) | 復(fù)雜的查詢 |
DB大小 | 100MB到GB級(jí) | 100GB到TB級(jí)別 |
1、分布式系統(tǒng)
分布式系統(tǒng)常見(jiàn)包括分布式文件系統(tǒng)(存儲(chǔ)系統(tǒng)需要多種技術(shù)的協(xié)同工作,其中文件系統(tǒng)為其提供最底層存儲(chǔ)能力的支持)和分布式鍵值系統(tǒng)(用戶存儲(chǔ)關(guān)系簡(jiǎn)單的半結(jié)構(gòu)化數(shù)據(jù))
2、NoSQL數(shù)據(jù)庫(kù)
NoSQL的優(yōu)勢(shì),可以支持超大規(guī)模數(shù)據(jù)存儲(chǔ),靈活的數(shù)據(jù)模型很好支持web2.0應(yīng)用,具有強(qiáng)大的橫向擴(kuò)展能力等,典型的有:鍵值數(shù)據(jù)庫(kù)、列族數(shù)據(jù)庫(kù)、文檔數(shù)據(jù)庫(kù)和圖數(shù)據(jù)庫(kù)等,如:HBASE、MongoDB等。
3、云數(shù)據(jù)庫(kù)
云數(shù)據(jù)庫(kù)是基于云計(jì)算技術(shù)的一種共享基礎(chǔ)架構(gòu)方法,是部署和虛擬化在云計(jì)算環(huán)境中的數(shù)據(jù)庫(kù)。
你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機(jī)房具備T級(jí)流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級(jí)服務(wù)器適合批量采購(gòu),新人活動(dòng)首月15元起,快前往官網(wǎng)查看詳情吧
文章標(biāo)題:大數(shù)據(jù)-創(chuàng)新互聯(lián)
本文鏈接:http://muchs.cn/article42/cdecec.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供做網(wǎng)站、小程序開(kāi)發(fā)、定制開(kāi)發(fā)、網(wǎng)站改版、關(guān)鍵詞優(yōu)化、響應(yīng)式網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容