大數(shù)據(jù)的真正價(jià)值在哪里?

互聯(lián)網(wǎng)IDC圈12月28日?qǐng)?bào)道:看一看所有與大數(shù)據(jù)相關(guān)的活動(dòng),我們應(yīng)該問(wèn)一個(gè)問(wèn)題:究竟有多少大數(shù)據(jù)在實(shí)際上是有用的。根據(jù)常識(shí)稍微思考一下,我們就會(huì)發(fā)現(xiàn)只有一小部分。

創(chuàng)新互聯(lián)專注于企業(yè)營(yíng)銷型網(wǎng)站建設(shè)、網(wǎng)站重做改版、江南網(wǎng)站定制設(shè)計(jì)、自適應(yīng)品牌網(wǎng)站建設(shè)、H5技術(shù)、商城建設(shè)、集團(tuán)公司官網(wǎng)建設(shè)、外貿(mào)網(wǎng)站制作、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁(yè)設(shè)計(jì)等建站業(yè)務(wù),價(jià)格優(yōu)惠性價(jià)比高,為江南等各大城市提供網(wǎng)站開(kāi)發(fā)制作服務(wù)。

我已經(jīng)與數(shù)據(jù)打交道超過(guò)40年。在前互聯(lián)網(wǎng)的時(shí)代,我們經(jīng)歷了所謂的數(shù)據(jù)過(guò)載(dataoverload)。結(jié)果后來(lái)我們發(fā)現(xiàn)數(shù)據(jù)本身其實(shí)是沒(méi)有價(jià)值的,只有一小部分被證明對(duì)實(shí)際商業(yè)決策有直接影響。銘記歷史教訓(xùn),現(xiàn)在最關(guān)鍵的問(wèn)題已經(jīng)變成了找到真正有用的數(shù)據(jù)。數(shù)據(jù)的量的確增加了,但值得注意的是:大部分的增長(zhǎng)都來(lái)源于非結(jié)構(gòu)化數(shù)據(jù)。

讓我先根據(jù)Webopedia的定義來(lái)解釋什么是非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是指沒(méi)有任何相同結(jié)構(gòu)的數(shù)據(jù)。例如,圖片、視頻、電子郵件、文件和文本都被認(rèn)為是一個(gè)數(shù)據(jù)集內(nèi)的非結(jié)構(gòu)化數(shù)據(jù)。

盡管每個(gè)單獨(dú)的文檔可能都包含基于其創(chuàng)建程序的特定結(jié)構(gòu)或格式,非結(jié)構(gòu)化數(shù)據(jù)也可以被認(rèn)為是“結(jié)構(gòu)松散的數(shù)據(jù)”,因?yàn)閿?shù)據(jù)源其實(shí)是具有結(jié)構(gòu)的,但數(shù)據(jù)集內(nèi)的所有數(shù)據(jù)包含的結(jié)構(gòu)可能不盡相同。與此相反,數(shù)據(jù)庫(kù)則是一種常見(jiàn)的“結(jié)構(gòu)化”數(shù)據(jù)。

所以回顧歷史,我們現(xiàn)在討論的除了數(shù)據(jù)超載還加上了一個(gè)新的變數(shù)——代表了大部分新增數(shù)據(jù)量的非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)代表著新的量的產(chǎn)生。我認(rèn)為,具有強(qiáng)大的數(shù)據(jù)分析能力同時(shí)能很好地把握行業(yè)標(biāo)準(zhǔn)并遵守規(guī)則的公司可以提供精確的過(guò)濾解決方案,從而為用戶鑒別出最有價(jià)值的數(shù)據(jù)。

多剝一點(diǎn)洋蔥(Onion)

盡管有眾多關(guān)于過(guò)濾和分析結(jié)構(gòu)化數(shù)據(jù)的解決方案不斷出現(xiàn),例如Splunk企業(yè)版,它可收集、索引和處理所有應(yīng)用程序、服務(wù)器和設(shè)備(物理、虛擬和云中)生成的可轉(zhuǎn)移操作的機(jī)器數(shù)據(jù)。在討論“Hadoop會(huì)帶來(lái)什么”時(shí),有很多人在爭(zhēng)論其優(yōu)缺點(diǎn),在這里我就不多加討論了。

我的觀點(diǎn)是,真正的挑戰(zhàn)是提供價(jià)格可取的,關(guān)于更復(fù)雜的過(guò)濾和實(shí)時(shí)分析非結(jié)構(gòu)化數(shù)據(jù)的解決方案。雖然所有類型的數(shù)據(jù)總量預(yù)計(jì)在未來(lái)五年中將增長(zhǎng)800%,其中80%將是非結(jié)構(gòu)化數(shù)據(jù)。

我建議具備數(shù)據(jù)建模、分析、OCL、本體模型的數(shù)據(jù)挖掘等能力的公司,可以通過(guò)提供既針對(duì)結(jié)構(gòu)化又針對(duì)非結(jié)構(gòu)化數(shù)據(jù)的解決方案來(lái)獲得一定優(yōu)勢(shì)。時(shí)至今日,仍然沒(méi)有公司可以真正提供能在海量大數(shù)據(jù)中精確定位和尋找的“神器”。

本體論在大數(shù)據(jù)中扮演什么角色?

本體論

正規(guī)來(lái)說(shuō),本體論將知識(shí)表示為在一個(gè)領(lǐng)域內(nèi)的分層結(jié)構(gòu),并通過(guò)一個(gè)共享的詞匯表來(lái)表示這些概念的類型、性質(zhì)和相互關(guān)系。

本體論是用于組織信息的結(jié)構(gòu)框架,可作為一種知識(shí)展現(xiàn)用于人工智能、語(yǔ)義網(wǎng)、系統(tǒng)工程、軟件工程、生物信息學(xué)、圖書館學(xué)、企業(yè)書簽和信息架構(gòu)。領(lǐng)域本體的創(chuàng)建也定義本體論和其企業(yè)組織架構(gòu)方面應(yīng)用的基礎(chǔ)。

本體論為什么重要?

因?yàn)樗刮覀冊(cè)趯ふ谊P(guān)鍵數(shù)據(jù)或趨勢(shì)時(shí)不需要整合系統(tǒng)和應(yīng)用程序。它是如何應(yīng)用的,哪些是實(shí)現(xiàn)它功能的重要元素?

本體論結(jié)合了一個(gè)本質(zhì)上非常靈活、基于圖形的語(yǔ)義模型和語(yǔ)義搜索,從而降低復(fù)雜數(shù)據(jù)集成的時(shí)間尺度和成本。本體論正在重新思考后谷歌世界中數(shù)據(jù)采集、數(shù)據(jù)關(guān)聯(lián)和數(shù)據(jù)遷移的項(xiàng)目。

為什么會(huì)有人想要發(fā)展本體論?

開(kāi)發(fā)本體的最常見(jiàn)的目標(biāo)之一是共享人們或軟件代理之間的對(duì)信息結(jié)構(gòu)的相同理解。例如,假設(shè)幾個(gè)不同的網(wǎng)站都包含醫(yī)療信息或提供醫(yī)療電子商務(wù)服務(wù)。如果這些網(wǎng)站共享和發(fā)布信息時(shí)所使用的術(shù)語(yǔ)背后潛在的本體論是相同的,那么計(jì)算機(jī)代理可以從這些不同的網(wǎng)站中提取和聚合信息。代理也可以使用這些聚合信息來(lái)回答用戶查詢或?qū)⑵渥鳛槠渌麘?yīng)用程序的輸入數(shù)據(jù)。

以一些明確的域假設(shè)作為具體實(shí)施的基礎(chǔ)使我們可以在關(guān)于域的知識(shí)發(fā)生改變時(shí)很容易地改變這些假設(shè)。關(guān)于編程語(yǔ)言代碼的硬編碼假設(shè)使得這些假設(shè)不僅很難找到和理解,更加難以被改變,特別是對(duì)沒(méi)有編程經(jīng)驗(yàn)的人。此外,對(duì)于領(lǐng)域知識(shí)的明確闡述對(duì)于必須學(xué)會(huì)這些術(shù)語(yǔ)在領(lǐng)域內(nèi)代表什么意思的新用戶也是很有幫助的。

通常一個(gè)領(lǐng)域的本體本身并不是一個(gè)目標(biāo)。開(kāi)發(fā)一個(gè)本體就類似于定義一組數(shù)據(jù)以及供其他程序使用時(shí)的結(jié)構(gòu)。解決問(wèn)題的方法、域獨(dú)立應(yīng)用程序和軟件代理都是將本體和基于本體的知識(shí)庫(kù)作為數(shù)據(jù)來(lái)使用的。

分類法與本體論間的區(qū)別是什么?

在信息管理領(lǐng)域中,人們經(jīng)常使用的兩個(gè)術(shù)語(yǔ)就是“分類法”和“本體論”,但人們卻往往不知道兩者之間的區(qū)別是什么。

在技術(shù)方面,本體論意味著更廣泛的信息范圍。人們通常把一個(gè)分類法稱為“樹(shù)”,以此延伸,本體論則更像是“森林”。本體論可以包含許多種分類法,每個(gè)分類法都有其特定的組織方式。

分類法一般只局限于特定的專題范圍,例如產(chǎn)品或醫(yī)療條件。當(dāng)你想通過(guò)添加結(jié)構(gòu)或上下文使非結(jié)構(gòu)化信息更容易被搜索時(shí),分類法是很有用的。例如,如果用分類法來(lái)標(biāo)記搜索索引中的文件,那么當(dāng)用戶用關(guān)鍵字搜索該內(nèi)容時(shí),分類法就可以作為給終端用戶的篩選選項(xiàng)顯示在搜索結(jié)果的左側(cè)。多種分類法可以結(jié)合起來(lái)作為過(guò)濾器來(lái)實(shí)現(xiàn)強(qiáng)效深度挖掘的搜索體驗(yàn)。這正是你所看到的許多大牌的電子商務(wù)網(wǎng)站如Amazon和Costco正在做的事情。

本體論可以被認(rèn)為更像一個(gè)網(wǎng)絡(luò),包含了所有概念之間的不同類型的聯(lián)系。本體可以包含無(wú)限種聯(lián)系,在不同的主題域的概念之間創(chuàng)建聯(lián)系相對(duì)更加容易。例如,你可以創(chuàng)建一個(gè)材料分類中的“木材”和產(chǎn)品分類中的“椅子”之間的聯(lián)系。關(guān)系類型可以是“例子”、“目的”或“部分”。

如果要?jiǎng)?chuàng)建一個(gè)可能會(huì)被用于處理高級(jí)自然語(yǔ)言或者文本分析的更復(fù)雜的信息模型,就會(huì)用到本體論。本體論可以讓你更好地理解在信息語(yǔ)料庫(kù)中的概念和因果關(guān)系。本體論還可以讓問(wèn)題回答引擎更加強(qiáng)大:例如,如果我搜索“誰(shuí)是第十六任總統(tǒng)?”引擎利用本體論就可以返回一個(gè)特定的結(jié)果:“亞伯拉罕-林肯”。

分享題目:大數(shù)據(jù)的真正價(jià)值在哪里?
鏈接URL:http://muchs.cn/article6/sdooog.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站維護(hù)、網(wǎng)站導(dǎo)航、用戶體驗(yàn)、定制網(wǎng)站面包屑導(dǎo)航、營(yíng)銷型網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

搜索引擎優(yōu)化