如何使用AmazonAthena和AmazonQuickSight進行天氣數(shù)據(jù)可視化分析

如何使用Amazon Athena和 Amazon QuickSight進行天氣數(shù)據(jù)可視化分析，很多新手對此不是很清楚，為了幫助大家解決這個難題，下面小編將為大家詳細講解，有這方面需求的人可以來學習下，希望你能有所收獲。

創(chuàng)新互聯(lián)專業(yè)提供成都主機托管四川主機托管成都服務器托管四川服務器托管，支持按月付款！我們的承諾：貴族品質(zhì)、平民價格，機房位于中國電信/網(wǎng)通/移動機房，成都服務器托管服務有保障！

隨著目前企業(yè)數(shù)字化轉型的推進，業(yè)務系統(tǒng)產(chǎn)生了大量數(shù)據(jù)，如何利用好這些海量數(shù)據(jù)成為企業(yè)IT運營面臨的一大難題。從傳統(tǒng)的方案來看，需要企業(yè)自行架設Hadoop集群，由于大數(shù)據(jù)分析對數(shù)據(jù)存儲和數(shù)據(jù)運算需求都比較高，所以硬件配置的需求也很高，導致整個項目成本高昂。

在使用了云服務器以后，可以解決本地數(shù)據(jù)中心的運維難題，并通過高標準高規(guī)格的硬件和數(shù)據(jù)中心提升了整體系統(tǒng)的穩(wěn)定性。但如果只是通過云服務器來部署，僅僅是解決了服務器運維的問題，并不能最大化的利用云端大數(shù)據(jù)分析服務的優(yōu)勢。

在AWS上除了提供托管Hadoop服務的EMR之外，還提供了很多大數(shù)據(jù)相關的分析服務，例如數(shù)據(jù)倉庫Redshift，實時數(shù)據(jù)處理Kinesis，ETL服務Glue等。

在AWS托管的服務上，您只需要為使用的資源付費，按需付費模式避免本地數(shù)據(jù)中心建設中的重資產(chǎn)投入，也避免了云服務器空閑時間導致的資源浪費。

今天我們來演示一種快速進行大數(shù)據(jù)分析的場景，無需架設服務器，實時使用SQL語言進行數(shù)據(jù)查詢。

背景和挑戰(zhàn)

全球氣候分析對于研究人員評估氣候變化對地球自然資本和生態(tài)系統(tǒng)資源的影響至關重要。這項活動需要高質(zhì)量的氣候數(shù)據(jù)集，這可能是具有挑戰(zhàn)性的工作，因為它們的規(guī)模和復雜性。

為了對他們的發(fā)現(xiàn)有信心，研究人員必須對他們研究的氣候數(shù)據(jù)集的來源有信心。例如，研究人員可能會試圖回答這樣的問題: 某個特定糧食生產(chǎn)區(qū)的氣候變化是否會影響糧食安全？他們必須能夠輕松地查詢權威和管理數(shù)據(jù)集。

美國國家環(huán)境信息中心(NCEI)維護著一個氣候數(shù)據(jù)集，這個數(shù)據(jù)集是基于全球氣象站的觀測數(shù)據(jù)。它是《全球歷史氣候網(wǎng)絡日報》(GHCN-D)ーー一個地面站每日天氣摘要的中央儲存庫。它由數(shù)以百萬計的有質(zhì)量保證的觀測數(shù)據(jù)組成，每天更新。

研究人員通過一個按年分隔存儲的FTP服務器，以CSV格式提供天氣數(shù)據(jù)。按年組織意味著一份完整的檔案需要超過255個文件，傳統(tǒng)上，一個研究人員要研究這個數(shù)據(jù)，需要把整個數(shù)據(jù)都下載到本地，為了保證使用最新的數(shù)據(jù)進行分析，他們必須每天重復下載這些數(shù)據(jù)。

解決方案

通過AWS與NOAA的大數(shù)據(jù)合作項目，現(xiàn)在可以在 AWS 上獲得 GHCN d 數(shù)據(jù)集的每日快照。這些數(shù)據(jù)可以通過 Amazon S3 bucket 公開訪問。已這種方式獲取數(shù)據(jù)有以下幾個好處：

這些數(shù)據(jù)可以通過S3在全球范圍內(nèi)進行訪問，用戶無需完整下載數(shù)據(jù)才能使用，每個人都可使用相同的一致的副本。
減少了分析的時間，通過我們本次演示的Athena和Insight服務，可以立即開始分析
研究的成本降低了，研究人員無需架設服務器和Hadoop集群，一旦分析完成，可以隨時關閉資源

本篇文章展示了一個使用Amazon S3，Amazon Athena，AWS Glue和Amazon QuickSight的工作流程，演示了人們從這個數(shù)據(jù)集中獲取洞察力的速度。

本次工作流遵循以下工作步驟：

從NOAA桶中提取數(shù)據(jù)文件，并將數(shù)據(jù)作為表格提供
使用SQL查詢表中的數(shù)據(jù)
演示如何通過查詢創(chuàng)建表并將這些表存儲在Amazon S3私有存儲桶中來加速分析
將數(shù)據(jù)做可視化便于展示

如何使用Amazon Athena和 Amazon QuickSight進行天氣數(shù)據(jù)可視化分析

工作流程

提取年度.csv文件并將其添加到Athena的表中
提取站點數(shù)據(jù)并將其添加到Athena的一個單獨的表格

年度文件提取

完整的每日天氣觀測數(shù)據(jù)按年份組織在 Amazon S3桶的一個文件夾中。 Csv 格式。數(shù)據(jù)的路徑是 s3://noaa-ghcn-pds/csv/ 。

每個文件都以1763年開始的年份命名.csv并且存儲直到當前年份。

進入Athena控制臺，點擊AWS Glue Data Catalogj進入Glue控制臺，在右側選擇表菜單，選擇手動添加表

如何使用Amazon Athena和 Amazon QuickSight進行天氣數(shù)據(jù)可視化分析

設置一個表名稱并添加一個數(shù)據(jù)庫

如何使用Amazon Athena和 Amazon QuickSight進行天氣數(shù)據(jù)可視化分析

再下一步選擇另一個賬戶的其他路徑，輸入NOAA的公共存儲桶位置 s3://noaa-ghcn-pds/csv/ 。

如何使用Amazon Athena和 Amazon QuickSight進行天氣數(shù)據(jù)可視化分析

接下來定義Schema

如何使用Amazon Athena和 Amazon QuickSight進行天氣數(shù)據(jù)可視化分析

添加以下列，使用string類型（字符串類型）
? id
? year_date
? element
? data_value
? m_flag
? q_flag
? s_flag
? obs_time

添加好后點擊完成，返回到Athena控制臺,可以在左側看到創(chuàng)建好的表，這里有些準備工作要做。在運行我們的第一個Athena查詢之前，要設置一個S3存儲桶用于存放查詢結果

如何使用Amazon Athena和 Amazon QuickSight進行天氣數(shù)據(jù)可視化分析

與此同時，我們也創(chuàng)建一些文件夾用于數(shù)據(jù)存放

[your_bucket_name]/stations_raw/
[your_bucket_name]/ghcnblog/
[your_bucket_name]/ghcnblog/stations/
[your_bucket_name]/ghcnblog/allyears/
[your_bucket_name]/ghcnblog/1836usa/

設置好之后，我們可以使用表預覽來創(chuàng)建一條查詢語句

如何使用Amazon Athena和 Amazon QuickSight進行天氣數(shù)據(jù)可視化分析

運行查詢可以看到我們的表中的數(shù)據(jù)

如何使用Amazon Athena和 Amazon QuickSight進行天氣數(shù)據(jù)可視化分析

使用CATS加速查詢

在剛才的查詢中我們可以看到查詢語句運行的速度不是很快，我們需要創(chuàng)建一個表使用CREATE TABLE AS SELECT (CTAS)來加速查詢

原因是在這個過程中，我們只提取一次數(shù)據(jù)，并將提取的數(shù)據(jù)以列格式(Parquet)存儲在私有的 Amazon S3 bucket 中

為了說明速度的提高，這里有兩個例子:

一個查詢計算所有不同的 id，也就是唯一的氣象站，大約需要55秒，掃描大約88gb 的數(shù)據(jù)。
對轉換后的數(shù)據(jù)進行同樣的查詢大約需要13秒鐘，并掃描大約5gb 的數(shù)據(jù)。

接下來是步驟：

打開Athena控制臺
創(chuàng)建一條新的查詢語句，并把其中的存儲桶名稱替換成你自己的

/*converting data to Parquet and storing it in a private bucket*/
CREATE table ghcnblog.tblallyears_qa
WITH (
  format='PARQUET', external_location='s3://[your-bucket-name]/ghcnblog/allyearsqa/'
) AS SELECT * FROM ghcnblog.tblallyears
WHERE q_flag = '';

注意將相應桶名稱和表名稱換成你剛才創(chuàng)建的。

運行后會看到有一個新的表出現(xiàn)在左側的庫里，接下來我們將會在這個新的表上繼續(xù)工作

如何使用Amazon Athena和 Amazon QuickSight進行天氣數(shù)據(jù)可視化分析

提取數(shù)據(jù)并把它添加到Athena的表中

站點文本文件包含有關氣象站的信息，例如位置、國籍和 ID。這些數(shù)據(jù)保存在一個獨立的文件中，不同于每年的觀察數(shù)據(jù)。我們需要導入這些數(shù)據(jù)來觀察天氣觀測的地理分布。雖然處理這個文件有點復雜，但是將這些數(shù)據(jù)導入Athena的步驟與我們已經(jīng)完成的相似。

為了導入這些數(shù)據(jù)我們將采取以下步驟：
1.下載 ghcnd-stations text file.
2.使用一個表格編輯器，例如Excel打開這個文件
3.另存為CSV文件
4.將這個csv文件上傳到之前建立的 [your_bucket_name]/stations_raw/文件夾
5.使用Glue添加表格，就像我們之前做的那樣

如何使用Amazon Athena和 Amazon QuickSight進行天氣數(shù)據(jù)可視化分析

在添加列步驟添加以下列
? id
? latitude
? longitude
? elevation
? state
? name
? gsn_flag
? hcn_flag
? wmo_id

點擊完成后我們看下表預覽，可以看到數(shù)據(jù)已經(jīng)導入成功

如何使用Amazon Athena和 Amazon QuickSight進行天氣數(shù)據(jù)可視化分析

6.接下來依然使用CATS將數(shù)據(jù)存儲為parquet格式

/*converting data to Parquet and storing it in a private bucket*/
CREATE table ghcnblog.tblghcnd_stations_qa
WITH (
  format='PARQUET', external_location='s3://athena-cx-bucket/ghcnblog/stations/'
) AS SELECT * FROM ghcnblog.tblghcnd_stations

至此，我們已經(jīng)準備好了數(shù)據(jù)并導入到Athena之中
簡單數(shù)據(jù)分析
接下來我們將演示幾個數(shù)據(jù)分析的例子

1.查詢從1763年以來觀測點的數(shù)量

SELECT count(*) AS Total_Number_of_Observations
FROM ghcnblog.tblallyears_qa;

如何使用Amazon Athena和 Amazon QuickSight進行天氣數(shù)據(jù)可視化分析

2．查詢地面站的數(shù)量

SELECT count(*) AS Total_Number_of_Stations
FROM ghcnblog.tblghcnd_stations_qa;

如何使用Amazon Athena和 Amazon QuickSight進行天氣數(shù)據(jù)可視化分析

3.地球平均氣象參數(shù)

下圖顯示了計算自1763年以來地球平均最高溫度(攝氏度)、平均最低溫度(攝氏度)和平均降雨量(毫米)查詢。在查詢中，我們必須將數(shù)據(jù)值從 String 變量轉換為 Real 變量。我們還必須除以10，因為溫度和降水量的測量值，是它們各自單位的十分之一。

有關這些細節(jié)和元素代碼(TMIB、 TMAX 和 PRCP)的詳細信息，請參閱自述文件。

SELECT element,
         round(avg(CAST(data_value AS real)/10),2) AS value
FROM ghcnblog.tblallyears_qa
WHERE element IN ('TMIN', 'TMAX', 'PRCP')
GROUP BY  element;

如果我們可以在這個數(shù)據(jù)集上運行簡單的查詢(比如這個查詢) ，并接受結果是正確的，那將會非常方便。前面的查詢假設自1763年以來，全世界的氣象站均勻平均地分布。事實上，氣象站的數(shù)量和分布隨時間而變化。

如何使用Amazon Athena和 Amazon QuickSight進行天氣數(shù)據(jù)可視化分析

4.可視化顯示地球上氣象站的數(shù)量增長情況

接下來我們要引入Amazon QuickSight.進行數(shù)據(jù)可視化展示，在實驗前您必須配置好QuickSight，包含注冊，授權QuickSight訪問Athena和S3。

打開QuickSight控制臺
點擊最右上角，賬戶菜單選擇管理QuickSight
選擇安全性和權限，確保連接了S3和Athena

如何使用Amazon Athena和 Amazon QuickSight進行天氣數(shù)據(jù)可視化分析

接著返回主菜單，選擇新分析，然后選擇新數(shù)據(jù)集，在下方數(shù)據(jù)源里選擇Athena，輸入我們在Athena創(chuàng)建的數(shù)據(jù)庫名字ghcnblog，然后點擊創(chuàng)建數(shù)據(jù)源

如何使用Amazon Athena和 Amazon QuickSight進行天氣數(shù)據(jù)可視化分析

選擇使用自定義SQL，輸入以下語句

SELECT DISTINCT id AS numberofstations,
substr(year_date,1,4) as year
FROM ghcnblog.tblallyears_qa
GROUP BY substr(year_date,1,4), id
ORDER BY substr(year_date,1,4)

如何使用Amazon Athena和 Amazon QuickSight進行天氣數(shù)據(jù)可視化分析

選擇確認查詢，并選擇直接查詢數(shù)據(jù)，點擊Visualize，在可視化圖表里選擇折線圖，把year數(shù)據(jù)作為X軸，把number_of_stations 作為值，即可得到一張全球氣象站數(shù)量的增長曲線圖

如何使用Amazon Athena和 Amazon QuickSight進行天氣數(shù)據(jù)可視化分析

美國氣象觀測站數(shù)量分析

1836年數(shù)據(jù)集中美國第一次設立氣象站。為了深入了解美國觀測的發(fā)展，我們從主數(shù)據(jù)源(tblallyears qa)中提取了美國數(shù)據(jù)的子集。從1836年到2016年，這個數(shù)據(jù)集每30年收集一次數(shù)據(jù)。此查詢生成一個大數(shù)據(jù)集。為了提高性能，使用前面描述的過程將查詢保存為存儲在 Amazon S3 bucket 中的表。在Athena中執(zhí)行以下語句。

CREATE TABLE ghcnblog.tbl1836every30thyear
WITH (
  format='PARQUET',
  external_location='s3://[your-bucket-name]/ghcnblog/1836every30years/'
) AS
SELECT TA.id as id, substr(TA.year_date,1,4) as year, TS.state, CAST(TS.longitude as real) as longitde, CAST(TS.latitude as real) as latitude, element, CAST(data_value as real) as data_value
FROM "ghcnblog".tblallyears_qa as TA, "ghcnblog".tblghcnd_stations_qa as TS
WHERE substr(TA.year_date,1,4) IN ('1836', '1866', '1896', '1926', '1956', '1986', '2016')
AND substr(TA.id,1,2) = 'US'
AND state <> 'PI'
AND TRIM(TA.id) = TRIM(TS.id)
GROUP BY TA.id, substr(TA.year_date,1,4), state, longitude, latitude, element, data_value;

然后在QuickSight中創(chuàng)建一個新的分析，使用創(chuàng)建好的新表作為數(shù)據(jù)源
并使用以下自定義SQL

SELECT DISTINCT(id) AS number_of_stations, year, state
FROM ghcnblog.tbl1836every30thyear
GROUP BY year, id, state
ORDER BY year

在接下來的可視化界面里，選擇地球上的點作為圖像類型，地理位置數(shù)據(jù)選擇state，size選擇氣象站數(shù)量，并使用總數(shù)統(tǒng)計，顏色選擇年份

如何使用Amazon Athena和 Amazon QuickSight進行天氣數(shù)據(jù)可視化分析

通過自定義SQL也可以計算出美國每個州的平均溫度等數(shù)據(jù)

如何使用Amazon Athena和 Amazon QuickSight進行天氣數(shù)據(jù)可視化分析

總結

通過本文演示，我們了解到通過Athena，Glue和QuickSight這個產(chǎn)品組合，可以快速的構建一個可視化大數(shù)據(jù)分析平臺，并且無需架設服務器和維護Hadoop集群。對于快速驗證分析數(shù)據(jù)，作出商業(yè)決策是非常便利的。

同時這些服務的計費也都是通過分析的數(shù)據(jù)量來收取，大大降低了資源的閑置成本，在數(shù)據(jù)分析得出結果后還可以把數(shù)據(jù)進一步存放到成本更低的S3 Glacier中歸檔，進一步節(jié)省成本。

看完上述內(nèi)容是否對您有幫助呢？如果還想對相關知識有進一步的了解或閱讀更多相關文章，請關注創(chuàng)新互聯(lián)行業(yè)資訊頻道，感謝您對創(chuàng)新互聯(lián)的支持。

當前名稱：如何使用AmazonAthena和AmazonQuickSight進行天氣數(shù)據(jù)可視化分析
分享地址：http://muchs.cn/article12/jojogc.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)頁設計公司、品牌網(wǎng)站制作、Google、外貿(mào)建站、微信小程序、網(wǎng)站排名

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉載內(nèi)容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載，或轉載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容