可視化和大數(shù)據(jù)面臨哪些挑戰(zhàn)以及如何解決

互聯(lián)網(wǎng)IDC圈6月16日?qǐng)?bào)道,在簡(jiǎn)化數(shù)據(jù)量和降低 大數(shù)據(jù)應(yīng)用 的復(fù)雜性中, 大數(shù)據(jù)分析 發(fā)揮著關(guān)鍵的作用。可視化是其中一個(gè)重要的途徑,它能夠幫助大數(shù)據(jù)獲得完整的數(shù)據(jù)視圖并挖掘數(shù)據(jù)的價(jià)值。大數(shù)據(jù)分析和可視化應(yīng)該無(wú)縫連接,這樣才能在大數(shù)據(jù)應(yīng)用中發(fā)揮大的功效。

成都創(chuàng)新互聯(lián)公司從2013年成立,先為惠山等服務(wù)建站,惠山等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢(xún)服務(wù)。為惠山企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問(wèn)題。

一、引言

數(shù)據(jù)可視化是將數(shù)據(jù)以不同形式展現(xiàn)在不同系統(tǒng)中,其中包括屬性和變量的單位信息?;诳梢暬l(fā)現(xiàn)數(shù)據(jù)的方法允許用戶(hù)使用不同的數(shù)據(jù)源,來(lái)創(chuàng)建自定義分析。先進(jìn)的分析集成了許多方法,為了支持交互式動(dòng)畫(huà)在臺(tái)式電腦、筆記本電腦或平板電腦、智能手機(jī)等移動(dòng)設(shè)備上創(chuàng)建圖形桌面。根據(jù)調(diào)查,表1顯示了數(shù)據(jù)可視化的好處。

可視化和大數(shù)據(jù)面臨哪些挑戰(zhàn)以及如何解決

表1.數(shù)據(jù)可視化工具的好處

對(duì)于可視化有以下幾點(diǎn)建議

大數(shù)據(jù)是大容量、高速度并且數(shù)據(jù)之間差異很大的數(shù)據(jù)集,因此需要新的處理方法來(lái)優(yōu)化決策的流程。大數(shù)據(jù)的挑戰(zhàn)在于數(shù)據(jù)采集、存儲(chǔ)、分析、共享、搜索和可視化。

1、“所有數(shù)據(jù)都必須可視化”:不要過(guò)分依賴(lài)可視化,一些數(shù)據(jù)不需要可視化方法來(lái)表達(dá)它的消息。

2、“只有好的數(shù)據(jù)才應(yīng)該做可視化”:簡(jiǎn)便的可視化可以便于找到錯(cuò)誤就像數(shù)據(jù)有助于發(fā)現(xiàn)有趣的趨勢(shì)一樣。

3、“可視化總是能做出正確的決定”:可視化并不能代替批判性思維。

4、“可視化將意味著準(zhǔn)確性”:數(shù)據(jù)可視化并不著重于顯示一個(gè)準(zhǔn)確的圖像,而是它可以表達(dá)出不同的效果。

可視化方法可通過(guò)創(chuàng)建表格、圖標(biāo)、圖像等直觀(guān)地表示數(shù)據(jù)。大數(shù)據(jù)可視化并不是傳統(tǒng)的小數(shù)據(jù)集。一些傳統(tǒng)的大數(shù)據(jù)可視化工具的延伸雖然已經(jīng)被開(kāi)發(fā)出來(lái),但這些遠(yuǎn)遠(yuǎn)不夠。在大規(guī)模數(shù)據(jù)可視化中, 許多研究人員用特征提取和幾何建模在實(shí)際數(shù)據(jù)呈現(xiàn)之前大大減少數(shù)據(jù)大小。當(dāng)我們?cè)谶M(jìn)行可視化大數(shù)據(jù)時(shí),選擇合適的數(shù)據(jù)也是非常重要的。

本文的目的是通過(guò)介紹傳統(tǒng)可視化方法及其在處理大數(shù)據(jù)時(shí)的擴(kuò)展方法,來(lái)展現(xiàn)大數(shù)據(jù)可視化的前沿技術(shù)。同時(shí)討論大數(shù)據(jù)可視化的挑戰(zhàn),并其取得的進(jìn)步。

在研究過(guò)程中,筆者首先尋找了近幾年通過(guò)大學(xué)圖書(shū)館系統(tǒng)發(fā)表的數(shù)據(jù)可視化相關(guān)論文。此階段筆者主要總結(jié)了傳統(tǒng)的數(shù)據(jù)可視化方法和該領(lǐng)域的新進(jìn)展。隨后筆者搜索了相關(guān)大數(shù)據(jù)可視化的論文,因?yàn)榇髷?shù)據(jù)是一個(gè)較新的領(lǐng)域,所以大多數(shù)的論文是在過(guò)去三年里發(fā)表的。同時(shí)筆者發(fā)現(xiàn)大多數(shù)傳統(tǒng)的數(shù)據(jù)可視化方法并不適用于大數(shù)據(jù),用一些從傳統(tǒng)的可視化中發(fā)展而來(lái)的方法來(lái)處理大數(shù)據(jù)也是遠(yuǎn)遠(yuǎn)不夠的。筆者著重關(guān)注大數(shù)據(jù)可視化的新方法、技術(shù)的進(jìn)步和大數(shù)據(jù)可視化的工具開(kāi)發(fā)以及隨之而來(lái)的挑戰(zhàn)。

二、常規(guī)數(shù)據(jù)可視化方法

許多傳統(tǒng)的數(shù)據(jù)可視化方法經(jīng)常被使用,比如表格、直方圖、散點(diǎn)圖、折線(xiàn)圖、柱狀圖、餅圖、面積圖、流程圖、泡沫圖表等以及圖表的多個(gè)數(shù)據(jù)系列或組合像時(shí)間線(xiàn)、維恩圖、數(shù)據(jù)流圖、實(shí)體關(guān)系圖等。此外,一些數(shù)據(jù)可視化方法經(jīng)常被使用,卻不像前面那些使用的廣泛,它們是平行坐標(biāo)式、樹(shù)狀圖、錐形樹(shù)圖和語(yǔ)義網(wǎng)絡(luò)等

平行坐標(biāo)被用于繪制多維度個(gè)體數(shù)據(jù)。平行坐標(biāo)在顯示多維數(shù)據(jù)時(shí)是非常有用的。圖1就是平行坐標(biāo);樹(shù)狀圖則是一種有效的可視化層次結(jié)構(gòu)方法。每個(gè)子矩形的面積代表一個(gè)測(cè)量,而它的顏色常被用來(lái)代表另一個(gè)測(cè)量的數(shù)據(jù)。圖2顯示了一個(gè)選擇流媒體音樂(lè)和視頻的樹(shù)狀圖,是在一個(gè)社交網(wǎng)絡(luò)社區(qū)獲得的數(shù)據(jù);錐形樹(shù)圖是另一種顯示分層數(shù)據(jù)的方法,如三維空間中的組織體,它的樹(shù)枝是錐生長(zhǎng)的形式;語(yǔ)義網(wǎng)絡(luò)是一個(gè)表示不同概念之間的邏輯關(guān)系的圖形。它生成有向圖,組合節(jié)點(diǎn)或頂點(diǎn),邊或弧,并在每個(gè)邊上做標(biāo)記。

可視化和大數(shù)據(jù)面臨哪些挑戰(zhàn)以及如何解決

圖1:平行坐標(biāo)

可視化和大數(shù)據(jù)面臨哪些挑戰(zhàn)以及如何解決

圖2:用樹(shù)圖跟蹤查看社交網(wǎng)絡(luò)流媒體服務(wù)的選擇

可視化并非僅僅是靜態(tài)形式,而應(yīng)當(dāng)是互動(dòng)的。交互式可視化可以通過(guò)縮放等方法進(jìn)行細(xì)節(jié)概述。它有如下的步驟

1、選擇:交互式根據(jù)用戶(hù)的興趣選擇數(shù)據(jù)實(shí)體或完整的數(shù)據(jù)集,以及它的子集。

2、鏈接:在多個(gè)視圖找到有用的信息,如圖3所示。

3、過(guò)濾:幫助用戶(hù)調(diào)節(jié)顯示的信息量,減少信息數(shù)量并且專(zhuān)注于用戶(hù)感興趣的信息。

重排或再映射:空間布局是最重要的視覺(jué)映射,重排信息的空間布局對(duì)產(chǎn)生不同的見(jiàn)解非常有效。

可視化和大數(shù)據(jù)面臨哪些挑戰(zhàn)以及如何解決

圖3:直方圖(上)和地理圖(底部)的數(shù)據(jù)集之間的互動(dòng)和連接

新的數(shù)據(jù)庫(kù)技術(shù)和前沿的網(wǎng)絡(luò)可視化方法可能是減少成本的重要因素,也有助于完善科研的進(jìn)程。隨著網(wǎng)絡(luò)時(shí)代的到來(lái),數(shù)據(jù)時(shí)時(shí)都在更新,大大減小了可視化的時(shí)效性。這些“低端”可視化通常用于商業(yè)分析和政府?dāng)?shù)據(jù)的開(kāi)放,但它們對(duì)科研沒(méi)有太大的幫助。許多科學(xué)家使用的可視化工具都不允許連接這些網(wǎng)絡(luò)工具。

三、大數(shù)據(jù)可視化面臨的挑戰(zhàn)

拓展性和動(dòng)態(tài)分析是可視化的兩個(gè)最主要的挑戰(zhàn)。根據(jù)數(shù)據(jù)量的大小,表2顯示了靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)的研究現(xiàn)狀。對(duì)大型動(dòng)態(tài)數(shù)據(jù),原本A問(wèn)題的答案和B問(wèn)題的答案也許在同時(shí)應(yīng)對(duì)AB兩個(gè)問(wèn)題時(shí)就不適用了。

可視化和大數(shù)據(jù)面臨哪些挑戰(zhàn)以及如何解決

表2:可視化分析的研究現(xiàn)狀和挑戰(zhàn)

基于可視化的方法迎接了四個(gè)“V”的挑戰(zhàn),并將它們轉(zhuǎn)化成以下的機(jī)遇。

體量(Volume):使用數(shù)據(jù)量很大的數(shù)據(jù)集開(kāi)發(fā),并從大數(shù)據(jù)中獲得意義。

多源(Variety):開(kāi)發(fā)過(guò)程中需要盡可能多的數(shù)據(jù)源。

高速(Velocity):企業(yè)不用再分批處理數(shù)據(jù),而是可以實(shí)時(shí)處理全部數(shù)據(jù)。

質(zhì)量(Value):不僅為用戶(hù)創(chuàng)建有吸引力的信息圖和熱點(diǎn)圖,還能通過(guò)大數(shù)據(jù)獲取意見(jiàn),創(chuàng)造商業(yè)價(jià)值。

大數(shù)據(jù)可視化的多樣性和異構(gòu)性(結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化)是一個(gè)大問(wèn)題。高速是大數(shù)據(jù)分析的要素。在大數(shù)據(jù)中,設(shè)計(jì)一個(gè)新的可視化工具并具有高效的索引并非易事。云計(jì)算和先進(jìn)的圖形用戶(hù)界面更有助于發(fā)展大數(shù)據(jù)的擴(kuò)展性。

可視化系統(tǒng)必須與非結(jié)構(gòu)化的數(shù)據(jù)形式(如圖表、表格、文本、樹(shù)狀圖還有其他的元數(shù)據(jù)等)相抗衡,而大數(shù)據(jù)通常是以非結(jié)構(gòu)化形式出現(xiàn)的。由于寬帶限制和能源需求,可視化應(yīng)該更貼近數(shù)據(jù),并有效地提取有意義的信息??梢暬浖?yīng)以原位的方式運(yùn)行。由于大數(shù)據(jù)的容量問(wèn)題,大規(guī)模并行化成為可視化過(guò)程的一個(gè)挑戰(zhàn)。而并行可視化算法的難點(diǎn)則是如何將一個(gè)問(wèn)題分解為多個(gè)可同時(shí)運(yùn)行的獨(dú)立的任務(wù)。

高效的數(shù)據(jù)可視化是大數(shù)據(jù)時(shí)代發(fā)展進(jìn)程中關(guān)鍵的一部分。大數(shù)據(jù)的復(fù)雜性和高維度催生了幾種不同的降維方法。然而,他們可能并不總是那么適用。高維可視化越有效,識(shí)別出潛在的模式、相關(guān)性或離群值的概率越高。

大數(shù)據(jù)可視化還有以下幾點(diǎn)問(wèn)題

視覺(jué)噪聲:在數(shù)據(jù)集中,大多數(shù)對(duì)象之間具有很強(qiáng)的相關(guān)性。用戶(hù)無(wú)法把他們分離作為獨(dú)立的對(duì)象來(lái)顯示。

信息丟失:減少可視數(shù)據(jù)集的方法是可行的,但是這會(huì)導(dǎo)致信息的丟失。

大型圖像感知:數(shù)據(jù)可視化不僅受限于設(shè)備的長(zhǎng)寬比和分辨率,也受限于現(xiàn)實(shí)世界的感受。

高速圖像變換:用戶(hù)雖然能觀(guān)察數(shù)據(jù),卻不能對(duì)數(shù)據(jù)強(qiáng)度變化做出反應(yīng)。

高性能要求:在靜態(tài)可視化幾乎沒(méi)有這個(gè)要求,因?yàn)榭梢暬俣容^低,性能的要求也不高。

可感知的交互的擴(kuò)展性也是大數(shù)據(jù)可視化面臨的挑戰(zhàn)??梢暬總€(gè)數(shù)據(jù)點(diǎn)都可能導(dǎo)致過(guò)度繪制而降低用戶(hù)的辨識(shí)能力,通過(guò)抽樣或過(guò)濾數(shù)據(jù)可以刪去離群值。查詢(xún)大規(guī)模數(shù)據(jù)庫(kù)的數(shù)據(jù)可能導(dǎo)致高延遲,降低交互速率。

在大數(shù)據(jù)的應(yīng)用程序中,大規(guī)模數(shù)據(jù)和高維度數(shù)據(jù)會(huì)使進(jìn)行數(shù)據(jù)可視化變得困難。當(dāng)前大多數(shù)大數(shù)據(jù)可視化工具在擴(kuò)展性、功能和響應(yīng)時(shí)間上表現(xiàn)非常糟糕。可視化分析過(guò)程中,不確定性是有效的考慮不確定性的可視化過(guò)程巨大挑戰(zhàn)。

可視化和大數(shù)據(jù)面臨許多的挑戰(zhàn),下面是一些可能的解決方法

1. 滿(mǎn)足高速需要:一是改善硬件,可以嘗試增加內(nèi)存和提高并行處理的能力。二是許多機(jī)器會(huì)用到的,將數(shù)據(jù)存儲(chǔ)好并使用網(wǎng)格計(jì)算方法。

2. 了解數(shù)據(jù):請(qǐng)合適的專(zhuān)業(yè)領(lǐng)域人士解讀數(shù)據(jù)。

3. 訪(fǎng)問(wèn)數(shù)據(jù)質(zhì)量:通過(guò)數(shù)據(jù)治理或信息管理確保干凈的數(shù)據(jù)十分必要。

4. 顯示有意義的結(jié)果:將數(shù)據(jù)聚集起來(lái)到一個(gè)更高層的視圖,在這里小型數(shù)據(jù)組和數(shù)據(jù)可以被有效地可視化。

5. 處理離群值:將數(shù)據(jù)中的離群值剔除或?yàn)殡x群值創(chuàng)建一個(gè)單獨(dú)的圖表。

四、大數(shù)據(jù)可視化的一些進(jìn)展

在大數(shù)據(jù)時(shí)代,可視化操作究竟是如何進(jìn)行的呢?首先可視化會(huì)為用戶(hù)提供一個(gè)總的概覽,再通過(guò)縮放和篩選,為人們提供其所需的更深入的細(xì)節(jié)信息??梢暬倪^(guò)程在幫助人們利用大數(shù)據(jù)獲取較為完整的客戶(hù)信息時(shí)起到了關(guān)鍵性作用。而錯(cuò)綜的關(guān)系是眾多大數(shù)據(jù)場(chǎng)景中的重要一環(huán),社交網(wǎng)絡(luò)或許就是最顯著的例子,想要通過(guò)文本或表格的形式理解其中的大數(shù)據(jù)信息是非常困難的;相反,可視化卻能夠?qū)⑦@些網(wǎng)絡(luò)的趨勢(shì)和固有模式展現(xiàn)地更為清晰。在形象體現(xiàn)社交網(wǎng)絡(luò)用戶(hù)之間的關(guān)系時(shí),通常使用的是基于云計(jì)算的可視化方法。通過(guò)相關(guān)性模型來(lái)描繪社交網(wǎng)絡(luò)中用戶(hù)節(jié)點(diǎn)的層次關(guān)系,這種方法能夠直觀(guān)地展示用戶(hù)的社會(huì)關(guān)系。此外,它還能借助利用云技術(shù)的海杜普軟件平臺(tái)(Hadoop)將可視化過(guò)程并行化,從而加快社交網(wǎng)絡(luò)的大數(shù)據(jù)收集。

大數(shù)據(jù)可視化可以通過(guò)多種方法來(lái)實(shí)現(xiàn),比如多角度展示數(shù)據(jù)、聚焦大量數(shù)據(jù)中的動(dòng)態(tài)變化,以及篩選信息(包括動(dòng)態(tài)問(wèn)詢(xún)篩選,星圖展示,和緊密耦合)等等。以下一些可視化方法是按照不同的數(shù)據(jù)類(lèi)型(大規(guī)模體數(shù)據(jù)、變化數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù))來(lái)進(jìn)行分析和分類(lèi)的

樹(shù)狀圖式:基于分層數(shù)據(jù)的空間填充可視化方法。

圓形填充式:樹(shù)狀圖式的直接替代。它使用圓形作為原始形狀,并能從更高級(jí)的分層結(jié)構(gòu)中引入更多的圓形。

旭日型:在樹(shù)狀圖可視化基礎(chǔ)上轉(zhuǎn)換到極坐標(biāo)系統(tǒng)。其中的可變參量由寬和高變成半徑和弧長(zhǎng)。

平行坐標(biāo)式:通過(guò)可視化分析,將不同帝鄉(xiāng)的多重?cái)?shù)據(jù)因素拓展開(kāi)來(lái)。

蒸汽圖式:堆疊區(qū)域圖的一種,數(shù)據(jù)圍繞一條中軸線(xiàn)展開(kāi),并伴隨流動(dòng)及有機(jī)形態(tài)。

循環(huán)網(wǎng)絡(luò)圖式:數(shù)據(jù)圍繞一個(gè)圓形排列,并按照它們自身的相關(guān)性比率由曲線(xiàn)相互連接。通常用不同的線(xiàn)寬或色彩飽和度測(cè)量數(shù)據(jù)對(duì)象的相關(guān)性。

可視化和大數(shù)據(jù)面臨哪些挑戰(zhàn)以及如何解決

表格3:可視化工具概覽

可視化和大數(shù)據(jù)面臨哪些挑戰(zhàn)以及如何解決

表格4:可視化工具的區(qū)分

傳統(tǒng)的數(shù)據(jù)可視化工具不足以被用來(lái)處理大數(shù)據(jù)。以下列舉了幾種將交互式大數(shù)據(jù)可視化的方法。首先,利用一個(gè)由可擴(kuò)展的直觀(guān)數(shù)據(jù)摘要群組成的設(shè)計(jì)空間可以將多種類(lèi)型的變化數(shù)據(jù)可視化,這些直觀(guān)的數(shù)據(jù)摘要通過(guò)數(shù)據(jù)簡(jiǎn)化(如聚合或抽樣)的方法得出。被應(yīng)用于特定區(qū)間的交互查詢(xún)方法(比如關(guān)聯(lián)和更新技術(shù))因此通過(guò)結(jié)合多元數(shù)據(jù)塊和并行查詢(xún)而被開(kāi)發(fā)出來(lái)。而更先進(jìn)的方法被運(yùn)用在一個(gè)基于瀏覽器的視覺(jué)分析系統(tǒng)——imMens上,來(lái)處理數(shù)據(jù)以及對(duì)GPU(圖像處理器)進(jìn)行渲染。

很多大數(shù)據(jù)可視化工具都是在Hadoop的平臺(tái)上運(yùn)行的。該平臺(tái)里的常用模塊有:Hadoop Common, HDFS(Hadoop Distributed File System),Hadoop YARN和Hadoop MapReduce。這些模塊能夠高效地分析大數(shù)據(jù)信息,但是卻缺乏足夠的可視化過(guò)程。下面將介紹一些具備可視化功能并實(shí)現(xiàn)交互式數(shù)據(jù)可視化的軟件

Pentaho:一款支持商業(yè)智能(BI)功能的軟件,如分析、控制面板、企業(yè)級(jí)報(bào)表以及數(shù)據(jù)挖掘;

Flare:實(shí)現(xiàn)在A(yíng)dobe視頻播放器中運(yùn)行的數(shù)據(jù)可視化;

JasperReports:擁有能夠從大數(shù)據(jù)庫(kù)中生成報(bào)告的全新軟件層;

Dygraphs:快速?gòu)椥缘拈_(kāi)放源Java描述語(yǔ)言圖表集合,能發(fā)現(xiàn)并處理不透明數(shù)據(jù)。

Datameer Analytics Solution and Cloudera:同時(shí)使用Datameer和Cloudera兩個(gè)軟件能使我們?cè)贖adoop平臺(tái)時(shí)更快捷、更容易。

Platfora:將Hadoop中的原始大數(shù)據(jù)轉(zhuǎn)換成交互式數(shù)據(jù)處理引擎。Platfora還有把內(nèi)存數(shù)據(jù)引擎模塊化的功能。

ManyEyes:IBM公司開(kāi)發(fā)的可視化工具。它可供用戶(hù)上傳數(shù)據(jù)并實(shí)現(xiàn)交互式可視化的公共網(wǎng)站。

Tableau:一款商業(yè)智能(BI)軟件,支持交互式和直觀(guān)數(shù)據(jù)分析,內(nèi)置內(nèi)存數(shù)據(jù)引擎來(lái)加速可視化處理。

Tableau系列軟件在處理大規(guī)模數(shù)據(jù)集時(shí)主要是依靠以下三種產(chǎn)品:Tableau Desktop,Tableau Sever和Tableau Pubilc。此外,Tableau還能內(nèi)嵌入Hadoop的基礎(chǔ)設(shè)備之中,利用Hive(基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具)將查詢(xún)結(jié)構(gòu)化并為內(nèi)存分析緩存信息。通過(guò)緩存信息,Hadoop集群延遲的可能性會(huì)大大減小。因此,Tableau軟件為用戶(hù)與大數(shù)據(jù)應(yīng)用提供了一個(gè)交互互動(dòng)機(jī)制。

大數(shù)據(jù)分析工具可以輕而易舉地處理ZB(十萬(wàn)億億字節(jié))和PB(千萬(wàn)億字節(jié))數(shù)據(jù),但它們往往不能將這些數(shù)據(jù)可視化。如今,主要大數(shù)據(jù)處理工具有Hadoop,High Performance Computing and Communications,Storm,ApacheDrill,RapidMiner和 Pentaho BI。數(shù)據(jù)可視化工具有NodeBox,R,Weka,Gephi,Google Chart API,F(xiàn)lot,D3,and http://Visual.ly等等。一種在RHadoop基礎(chǔ)上形成的大數(shù)據(jù)可視化算法分析整合模型已經(jīng)被提出,用來(lái)處理ZB和PB數(shù)據(jù)并以可視化的方式為我們提供較高價(jià)值的分析結(jié)果。它還與ZB和PB數(shù)據(jù)并行算法的設(shè)計(jì)相切合。

交互式可視化集群分析是我們用來(lái)探尋集群模式最直接的方法。其中最具有挑戰(zhàn)性的一點(diǎn)是可視化多維數(shù)據(jù),以便用戶(hù)交互式分析數(shù)據(jù)和認(rèn)識(shí)集群結(jié)構(gòu)。如今我們已經(jīng)開(kāi)發(fā)出優(yōu)化的星型坐標(biāo)可視化模型,來(lái)有效分析大數(shù)據(jù)交互集群,它與其他多維可視化方法(如平行坐標(biāo)和散點(diǎn)圖矩陣)相比,極可能是最具備擴(kuò)展性的大數(shù)據(jù)可視化技術(shù):

平行坐標(biāo)和散點(diǎn)圖矩陣通常被用來(lái)分析十個(gè)維度以?xún)?nèi)的數(shù)據(jù),而星型坐標(biāo)則可以處理數(shù)十個(gè)維度。

在基于密度代表的幫助下,星型坐標(biāo)式可視化自身得以擴(kuò)展。

基于星型坐標(biāo)的集群可視化并非是用于計(jì)算數(shù)據(jù)記錄中的兩兩距離;而是利用潛在映射模型的性能部分地保持這個(gè)位置關(guān)系。這一點(diǎn)在處理大數(shù)據(jù)上十分有用。

將大數(shù)據(jù)源直接可視化既不可能也不有效,因此通過(guò)分析數(shù)據(jù)減少大數(shù)據(jù)的量和降低其復(fù)雜程度就顯得十分重要。所以將可視化和分析相互整合才能使效能大化。IBM公司開(kāi)發(fā)的RAVE軟件已經(jīng)能夠?qū)⒖梢暬\(yùn)用到商業(yè)分析領(lǐng)域去分析并解決問(wèn)題。RAVE和可拓展的可視化性能讓我們能夠利用有效的可視化更好地理解大數(shù)據(jù)。同時(shí),其他的一些IBM產(chǎn)品,例如IBM® InfoSphere® BigInsights?和IBM SPSS® Analytic Catalyst,也同RAVE一起,利用交互可視化豐富用戶(hù)對(duì)大數(shù)據(jù)的洞察。例如InfoSphere BigInsights能夠幫助分析并發(fā)現(xiàn)隱藏在大數(shù)據(jù)中的商業(yè)信息,SPSS Analytic Catalyst使得大數(shù)據(jù)的準(zhǔn)備工作自動(dòng)化,加之選取合適的分析過(guò)程,最后通過(guò)交互式可視化呈現(xiàn)最終結(jié)果。

在沉浸式VR(虛擬現(xiàn)實(shí))平臺(tái)上進(jìn)行科學(xué)數(shù)據(jù)可視化當(dāng)下還在研究階段,其中包括軟件和便宜的商品硬件也在研究階段。這些具備潛在價(jià)值和創(chuàng)新力的多維數(shù)據(jù)可視化工具無(wú)疑為合作式數(shù)據(jù)可視化提供了便利。沉浸式可視化與傳統(tǒng)的“桌面式”可視化相比具備明顯的優(yōu)勢(shì),因?yàn)樗梢愿玫卣宫F(xiàn)數(shù)據(jù)景觀(guān)結(jié)構(gòu)并進(jìn)行更直觀(guān)的數(shù)據(jù)分析。它還應(yīng)是我們探索更高維度、更抽象大數(shù)據(jù)的基點(diǎn)之一。人類(lèi)固有的認(rèn)知模式(或者說(shuō)是視覺(jué)認(rèn)知)技能能夠通過(guò)使用與沉浸式VR相關(guān)的新型數(shù)據(jù)實(shí)現(xiàn)大化。

表格5是對(duì)以上大數(shù)據(jù)可視化軟件的SWOT分析總結(jié),其中的競(jìng)爭(zhēng)優(yōu)勢(shì)(Strengths)和機(jī)遇(Opportunities)是積極因素;競(jìng)爭(zhēng)劣勢(shì)(Weaknesses)和威脅(Threats)是消極因素。

可視化和大數(shù)據(jù)面臨哪些挑戰(zhàn)以及如何解決

表格5:對(duì)現(xiàn)今大數(shù)據(jù)可視化軟件的SWOT分析

五、結(jié)論

可視化既可以是靜態(tài)的,也可以是動(dòng)態(tài)的。交互式可視化通常引領(lǐng)著新的發(fā)現(xiàn),并且比靜態(tài)數(shù)據(jù)工具能夠更好的進(jìn)行工作。所以交互式可視化為大數(shù)據(jù)帶來(lái)了無(wú)限前景。在可視化工具和網(wǎng)絡(luò)(或者說(shuō)是Web瀏覽器工具)之間互動(dòng)的關(guān)聯(lián)和更新技術(shù)助推了整個(gè)科學(xué)進(jìn)程?;赪eb的可視化使我們可以及時(shí)獲取動(dòng)態(tài)數(shù)據(jù)并實(shí)現(xiàn)實(shí)時(shí)可視化。

一些傳統(tǒng)的大數(shù)據(jù)可視化工具的延伸并不具備實(shí)際應(yīng)用性。針對(duì)不同的大數(shù)據(jù)應(yīng)用,我們應(yīng)該開(kāi)發(fā)出更多新的方法。本文介紹了一些最新的大數(shù)據(jù)可視化方法并對(duì)這些軟件進(jìn)行了SWOT分析,以幫助我們能夠再此基礎(chǔ)上創(chuàng)新。大數(shù)據(jù)分析和可視化,二者的整合也讓大數(shù)據(jù)應(yīng)用更好地為人們所用。此外能夠有效幫助大數(shù)據(jù)可視化過(guò)程的沉浸式VR,也是我們處理高維度和抽象信息時(shí)強(qiáng)有力的新方法。

網(wǎng)站名稱(chēng):可視化和大數(shù)據(jù)面臨哪些挑戰(zhàn)以及如何解決
文章路徑:http://muchs.cn/article46/soeghg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供用戶(hù)體驗(yàn)企業(yè)建站、網(wǎng)站維護(hù)、靜態(tài)網(wǎng)站、做網(wǎng)站、網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

網(wǎng)站托管運(yùn)營(yíng)