大數(shù)據(jù)開發(fā)過程中的5個通用步驟

2024-04-10 分類：網(wǎng)站建設(shè)

大數(shù)據(jù)的開發(fā)過程，如圖1-1所示。

圖 1-1大數(shù)據(jù)開發(fā)通用步驟圖

上圖只是一個簡化后的步驟和流程，實際開發(fā)中，有的步驟可能不需要，有的還需要增加步驟，有的流程可能更復(fù)雜，因具體情況而定。

下面以Google搜索引擎為例，來說明以上步驟。

對大數(shù)據(jù)以及人工智能概念都是模糊不清的，該按照什么線路去學(xué)習(xí)，學(xué)完往哪方面發(fā)展，想深入了解，想學(xué)習(xí)的同學(xué)歡迎加入大數(shù)據(jù)學(xué)習(xí)qq群：458345782，有大量干貨（零基礎(chǔ)以及進(jìn)階的經(jīng)典實戰(zhàn)）分享給大家，并且有清華大學(xué)畢業(yè)的資深大數(shù)據(jù)講師給大家免費授課，給大家分享目前國內(nèi)最完整的大數(shù)據(jù)高端實戰(zhàn)實用學(xué)習(xí)流程體系。從java和linux入手，其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相關(guān)知識一一分享！

1. 大數(shù)據(jù)采集

Google Spider是一個程序，運行在全球各地的Google服務(wù)器之中，Spider們非常勤奮，日夜不停地工作。

2008年Google數(shù)據(jù)表明，它們每天都會訪問大約200億個網(wǎng)頁，而在總量上，它們追蹤著300億個左右的獨立URL鏈接。

可以說，只要是互聯(lián)網(wǎng)上的網(wǎng)站，只要沒有在robots.txt文件禁止Spider訪問的話，其網(wǎng)頁基本上都會在很短的時間內(nèi)，被抓取到Google的服務(wù)器上。

全球的網(wǎng)頁，這是典型的大數(shù)據(jù)。因此，Google Spider所做的就是典型的大數(shù)據(jù)采集工作。

2. 大數(shù)據(jù)預(yù)處理

Google Spider爬取的網(wǎng)頁，無論是從格式還是結(jié)構(gòu)等，都不統(tǒng)一，為了便于后續(xù)處理，需要先做一些處理，例如，在存儲之前，先轉(zhuǎn)碼，使用統(tǒng)一的格式對網(wǎng)頁進(jìn)行編碼，這些工作就是預(yù)處理。

3. 大數(shù)據(jù)存儲

網(wǎng)頁經(jīng)過預(yù)處理后，就可以存儲到Google的服務(wù)器上。

2008年，Google已經(jīng)索引了全世界1萬億個網(wǎng)頁，到2014年，這個數(shù)字變成了30萬億個。

為了減少開銷，節(jié)約空間，Google將多個網(wǎng)頁文件合并成一個大文件，文件大小通常在1GB以上。

這還是15年以前的數(shù)字，那時，主流臺式機硬盤也就是60GB左右，1GB的文件在當(dāng)時可以說是大文件了。

為了實現(xiàn)這些大文件高效、可靠、低成本存儲，Google發(fā)明了一種構(gòu)建在普通商業(yè)機器之上的分布式文件系統(tǒng)：Google File System，縮寫為GFS，用來存儲文件（又稱之為非結(jié)構(gòu)化數(shù)據(jù)）。

網(wǎng)頁文件存儲下來后，就可以對這些網(wǎng)頁進(jìn)行處理了，例如統(tǒng)計每個網(wǎng)頁出現(xiàn)的單詞以及次數(shù)，統(tǒng)計每個網(wǎng)頁的外鏈等等。

這些被統(tǒng)計的信息，就成為了數(shù)據(jù)庫表中的一個屬性，每個網(wǎng)頁最終就會成為數(shù)據(jù)庫表中的一條或若干條記錄。

由于Google存儲的網(wǎng)頁太多，30萬億個以上，因此，這個數(shù)據(jù)庫表也是超級龐大的，傳統(tǒng)的數(shù)據(jù)庫，像Oracle等，根本無法處理這么大的數(shù)據(jù)，因此Google基于GFS，發(fā)明了一種存儲海量結(jié)構(gòu)化數(shù)據(jù)（數(shù)據(jù)庫表）的分布式系統(tǒng)Bigtable。

上述兩個系統(tǒng)（GFS和Bigtable）并未開源，Google僅通過文章的形式，描述了它們的設(shè)計思想。

所幸的是，基于Google的這些設(shè)計思想，時至今日，已經(jīng)出現(xiàn)了不少開源海量數(shù)據(jù)分布式文件系統(tǒng)，如HDFS等，也出現(xiàn)了許多開源海量結(jié)構(gòu)化數(shù)據(jù)的分布式存儲系統(tǒng)，如HBase、Cassandra等，它們分別用于不同類型大數(shù)據(jù)的存儲。

總之，如果采集過來的大數(shù)據(jù)需要存儲，要先判斷數(shù)據(jù)類型，再確定存儲方案選型；

如果不需要存儲（如有的流數(shù)據(jù)不需要存儲，直接處理），則直接跳過此步驟，進(jìn)行處理。

4. 大數(shù)據(jù)處理

網(wǎng)頁存儲后，就可以對存儲的數(shù)據(jù)進(jìn)行處理了，對于搜索引擎來說，主要有3步：

1）單詞統(tǒng)計：統(tǒng)計網(wǎng)頁中每個單詞出現(xiàn)的次數(shù)；

3）計算網(wǎng)頁級別：根據(jù)特定的排序算法，如PageRank，來計算每個網(wǎng)頁的級別，越重要的網(wǎng)頁，級別越高，以此決定網(wǎng)頁在搜索返回結(jié)果中的排序位置。

例如，當(dāng)用戶在搜索框輸入關(guān)鍵詞足球后，搜索引擎會查找倒排索引表，得到足球這個關(guān)鍵詞在哪些網(wǎng)頁（URL）中出現(xiàn)，然后，根據(jù)這些網(wǎng)頁的級別進(jìn)行排序，將級別最高的網(wǎng)頁排在最前面，返回給用戶，這就是點擊搜索后，看到的最終結(jié)果。

大數(shù)據(jù)處理時，往往需要從存儲系統(tǒng)讀取數(shù)據(jù)，處理完畢后，其結(jié)果也往往需要輸出到存儲。因此，大數(shù)據(jù)處理階段和存儲系統(tǒng)的交互非常頻繁。

大數(shù)據(jù)處理和前面大數(shù)據(jù)預(yù)處理，在技術(shù)上是相通的，只是所處階段不同；

此處理環(huán)節(jié)是大數(shù)據(jù)開發(fā)階段的一個必需的環(huán)節(jié)！

5. 大數(shù)據(jù)可視化

大數(shù)據(jù)可視化是將數(shù)據(jù)以圖形的方式展現(xiàn)出來，與純粹的數(shù)字表示相比，圖形方式更為直觀，更容易發(fā)現(xiàn)數(shù)據(jù)之間的規(guī)律。

例如，Google Analytics是一個網(wǎng)站流量分析工具，它統(tǒng)計每個用戶使用搜索引擎訪問網(wǎng)站的數(shù)據(jù)，然后得到每個網(wǎng)站的流量信息，包括網(wǎng)站每天的訪問次數(shù)，訪問量最多的頁面、用戶的平均停留時間、回訪率等，所有數(shù)據(jù)都以圖形的方式，直觀地顯示出來，如圖1-2所示

圖1-2 Google網(wǎng)站訪問量分析圖

非常感謝您讀完創(chuàng)新互聯(lián)的這篇文章："大數(shù)據(jù)開發(fā)過程中的5個通用步驟"，僅為提供更多信息供用戶參考使用或為學(xué)習(xí)交流的方便。我們公司提供：網(wǎng)站建設(shè)、網(wǎng)站制作、官網(wǎng)建設(shè)、SEO優(yōu)化、小程序制作等服務(wù)，歡迎聯(lián)系我們提供您的需求。

本文題目：大數(shù)據(jù)開發(fā)過程中的5個通用步驟
當(dāng)前網(wǎng)址：http://muchs.cn/news7/323057.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站排名、網(wǎng)站改版、網(wǎng)站策劃、品牌網(wǎng)站制作、云服務(wù)器、微信公眾號

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

網(wǎng)站建設(shè)seo優(yōu)化中關(guān)鍵詞部署的方法有哪些 2024-04-10
公司網(wǎng)站如何影響轉(zhuǎn)化率 2024-04-10
成都模板網(wǎng)站制作-模板網(wǎng)站建設(shè)公司-企業(yè)模板網(wǎng)站 2024-04-10
成都建站：如何選擇一個好域名? 2024-04-10
景區(qū)短視頻沒人看怎么辦？ 2024-04-10
成都網(wǎng)站建設(shè)如何提高關(guān)鍵字排名 2024-04-10
在設(shè)計搜索框需注意的幾點問題 2024-04-10