無(wú)法回避!那些制約大數(shù)據(jù)行業(yè)發(fā)展的問(wèn)題……

系列回顧:

嵐皋ssl適用于網(wǎng)站、小程序/APP、API接口等需要進(jìn)行數(shù)據(jù)傳輸應(yīng)用場(chǎng)景,ssl證書(shū)未來(lái)市場(chǎng)廣闊!成為成都創(chuàng)新互聯(lián)公司的ssl證書(shū)銷(xiāo)售渠道,可以享受市場(chǎng)價(jià)格4-6折優(yōu)惠!如果有意向歡迎電話(huà)聯(lián)系或者加微信:18980820575(備注:SSL證書(shū)合作)期待與您的合作!

趨勢(shì):大數(shù)據(jù)代表未來(lái),投資力度增強(qiáng)

獨(dú)家:最新大數(shù)據(jù)產(chǎn)業(yè)現(xiàn)狀和主要子行業(yè)介紹

36大數(shù)據(jù)專(zhuān)稿,拒絕轉(zhuǎn)載!

一、數(shù)據(jù)的歸屬權(quán)不清晰,數(shù)據(jù)資產(chǎn)型企業(yè)私密占有平臺(tái)數(shù)據(jù),制約著大數(shù)據(jù)的融合及發(fā)展。

阿里巴巴,這家集B2B、B2C、C2C電商平臺(tái)與第三方支付于一身的巨無(wú)霸企業(yè),在2009年前后開(kāi)始低調(diào)試水小貸業(yè)務(wù),并在之后成立了阿里金融事業(yè)部。基于阿里平臺(tái)所累積信用和行為數(shù)據(jù)的全新風(fēng)險(xiǎn)管理模式,快速靈活的放款審批流程,為需求旺盛但供給遠(yuǎn)遠(yuǎn)不足的小微企業(yè)小額信貸業(yè)務(wù)打開(kāi)了一條別樣的路。阿里金融從出現(xiàn)開(kāi)始便受到了廣泛關(guān)注和討論。許多機(jī)構(gòu)和個(gè)人都向往之,也對(duì)其模式了解得清楚明白,但均默默然而無(wú)法復(fù)制。究其原因,就在于“阿里平臺(tái)獨(dú)有的沉淀信用及行為數(shù)據(jù)”——數(shù)據(jù),阿里金融的獨(dú)門(mén)利器。

無(wú)論已有的金融交易軟件(如金太陽(yáng)、大智慧等),亦或電商平臺(tái)、O2O平臺(tái)、第三方支付平臺(tái),還是SNS 和其他交互數(shù)據(jù)源;現(xiàn)狀是——原始數(shù)據(jù)存儲(chǔ)在平臺(tái)后端,被平臺(tái)掌握者控制,數(shù)據(jù)的創(chuàng)造者(平臺(tái)用戶(hù)們)是否掌握與自己相關(guān)的數(shù)據(jù)取決于平臺(tái)的開(kāi)放性和接口提供。平臺(tái)企業(yè)們互相獨(dú)立地像挖礦一樣在沉淀數(shù)據(jù)中淘金,各自取得一些不錯(cuò)的成果,但事實(shí)上數(shù)據(jù)的私密占有也嚴(yán)重制約著大數(shù)據(jù)的廣泛應(yīng)用和整體發(fā)展。

那么,數(shù)據(jù)到底是誰(shuí)的?是平臺(tái)企業(yè)的,還是數(shù)據(jù)創(chuàng)造者(平臺(tái)用戶(hù))的?還是既是平臺(tái)企業(yè)的,也是平臺(tái)用戶(hù)的?什么樣的數(shù)據(jù)是公開(kāi)的,什么樣的數(shù)據(jù)是私密的?

一般認(rèn)為,原始數(shù)據(jù)沉淀在平臺(tái)上,平臺(tái)實(shí)際占有并可以使用,但在未獲授權(quán)的情況下不能提供給第三方,用戶(hù)對(duì)原始數(shù)據(jù)的占有獲取權(quán)及公開(kāi)程度基本取決于用戶(hù)與平臺(tái)達(dá)成的協(xié)議(多為安裝平臺(tái)軟件前的“用戶(hù)須知”部分,用戶(hù)除用腳投票外并無(wú)實(shí)際協(xié)議制定權(quán));而平臺(tái)對(duì)原始數(shù)據(jù)經(jīng)過(guò)統(tǒng)計(jì)提煉獲得的其他信息屬于平臺(tái)企業(yè)。

參考國(guó)外立法,數(shù)據(jù)是屬于個(gè)人的,平臺(tái)企業(yè)可以解除、使用數(shù)據(jù)不代表個(gè)人放棄對(duì)數(shù)據(jù)的所有權(quán)。國(guó)際立法趨勢(shì)上看,信息主體的權(quán)利正在強(qiáng)化,如信息主體的遺忘權(quán)、轉(zhuǎn)移權(quán);信息控制主體的責(zé)任更加明晰,如明確了負(fù)有個(gè)人信息保護(hù)義務(wù)的服務(wù)提供商范圍、要求服務(wù)提供商設(shè)置個(gè)人信息保護(hù)專(zhuān)職崗位,增加了服務(wù)提供商對(duì)侵權(quán)行為的通知義務(wù),便于用戶(hù)采取預(yù)防和減損措施。

國(guó)內(nèi)的政策法規(guī)方面:2012年12月28日,全國(guó)人大常委會(huì)出臺(tái)《全國(guó)人大常委會(huì)關(guān)于加強(qiáng)網(wǎng)絡(luò)信息保護(hù)的決定》,對(duì)網(wǎng)絡(luò)信息保護(hù)進(jìn)行了原則性的規(guī)定;2013年7月,工信部出臺(tái)《電信和互聯(lián)網(wǎng)用戶(hù)個(gè)人信息保護(hù)規(guī)定》;除此以外,《信息安全技術(shù)、公共及商用服務(wù)信息系統(tǒng)個(gè)人信息保護(hù)指南》作為我國(guó)首個(gè)個(gè)人信息保護(hù)的國(guó)家標(biāo)準(zhǔn),雖然不具有法律上的強(qiáng)制約束效力,但具有指南性,亦可作為衡量互聯(lián)網(wǎng)企業(yè)是否有過(guò)失的參考性標(biāo)準(zhǔn);目前,我國(guó)正在起草《電子商務(wù)法》,強(qiáng)化對(duì)平臺(tái)的監(jiān)管。

二、數(shù)據(jù)有效性將直接影響到大數(shù)據(jù)的應(yīng)用水平。

數(shù)據(jù)的質(zhì)量

大數(shù)據(jù)就像砂金礦,為了開(kāi)采出金子,人們需要不斷的淘沙,淘出沙金,然后再經(jīng)過(guò)冶煉獲得千足金。而數(shù)據(jù)質(zhì)量就相當(dāng)于砂金礦的含金量和成色,良好的數(shù)據(jù)質(zhì)量是挖掘價(jià)值的基本保障。

我們認(rèn)為,數(shù)據(jù)質(zhì)量主要涵蓋兩個(gè)大方面:一是基本質(zhì)量,包含準(zhǔn)確性、一致性、容量和更新率4個(gè)要點(diǎn);二是可應(yīng)用性,包含易識(shí)別性、易處理性、獲取及時(shí)性、遠(yuǎn)程訪(fǎng)問(wèn)性和智能性5個(gè)要點(diǎn);詳情見(jiàn)下表。

大數(shù)據(jù)

洗數(shù)據(jù)的難度

在大數(shù)據(jù)應(yīng)用中,有一項(xiàng)極其重要也極其困難的工作,那就是“洗數(shù)據(jù)”。洗數(shù)據(jù)就是把大量包含無(wú)效數(shù)據(jù)、分布雜亂無(wú)章的原始數(shù)據(jù)進(jìn)行歸并聚合,通過(guò)建立數(shù)據(jù)標(biāo)準(zhǔn)并執(zhí)行來(lái)取得我們需要的分析樣本的過(guò)程。

正所謂:Garbage In, Garbage Out! 數(shù)據(jù)挖掘的領(lǐng)域內(nèi)有一個(gè)觀(guān)點(diǎn):如果數(shù)據(jù)準(zhǔn)確度在60%的時(shí)候,你干出來(lái)的事,一定會(huì)被用戶(hù)罵;如果數(shù)據(jù)準(zhǔn)確度在80%左右,那么用戶(hù)會(huì)說(shuō),還不錯(cuò);只有數(shù)據(jù)準(zhǔn)確度到了90%的時(shí)候,用戶(hù)才會(huì)覺(jué)得真厲害。但是從數(shù)據(jù)準(zhǔn)確度從80%到90%要付出的成本要比60%到80%的付出大得多得多。大多數(shù)據(jù)的數(shù)據(jù)挖掘團(tuán)隊(duì)都會(huì)止步于70%這個(gè)地方,因?yàn)樵偻?,這就是一件相當(dāng)累的活,絕對(duì)少不了大量人力的工作。

我們這里使用用戶(hù)地址舉例說(shuō)明,因?yàn)榈刂肥怯脩?hù)自己填寫(xiě)的,有很多的坑,這就需要大量的洗數(shù)據(jù)工作。首先,第一類(lèi)是假/錯(cuò)地址,因?yàn)橛械纳碳易鞅谆蚴怯脩?hù)做測(cè)試,比如直接就輸入“該地址不存在”、“13243234asdfasdi”之類(lèi)的情況,這類(lèi)的地址可以通過(guò)程序識(shí)別出來(lái)。然后,很多情況是很難通過(guò)程序識(shí)別出來(lái),比如“宇宙路地球小區(qū)”,但這類(lèi)地址可以被人識(shí)別出來(lái)。甚至還有連人腦都無(wú)法識(shí)別的,比如“北京市東四環(huán)中路23號(hào)南航大廈5樓540室”,這個(gè)地址根本不存在。其次,第二類(lèi)是真地址,但是因?yàn)橛脩?hù)輸入不標(biāo)準(zhǔn),所以很難處理,比如將“建國(guó)門(mén)外大街” 縮寫(xiě)成 “建外大街”,“中國(guó)工商銀行”縮寫(xiě)成“工行”; 比 如錯(cuò)別字將“朝陽(yáng)門(mén)”寫(xiě)成“潮陽(yáng)門(mén)”;比如顛倒,將“東四環(huán)中路朝陽(yáng)公園” 和 “朝陽(yáng)公園(靠東四環(huán))”;比如別名,將有的寫(xiě)開(kāi)發(fā)商的小區(qū)名“東恒國(guó)際”,有的則寫(xiě)行政的地名“八里莊東里”等等等等。

大數(shù)據(jù)

像上面這樣的例子多得不能再多了,如果希望提高數(shù)據(jù)可應(yīng)用的程度,那么必然需要花大量人力通過(guò)編寫(xiě)程序和手動(dòng)挑選來(lái)淘洗數(shù)據(jù)。而隨著投入的邊際效用遞減,數(shù)據(jù)有效性的要求越高,則需要投入的成本就成倍甚至指數(shù)級(jí)增長(zhǎng)。

三、適宜海量數(shù)據(jù)處理的軟硬件成熟度不夠,成本太高,普及率低下。

從某種意義上來(lái)說(shuō),“大數(shù)據(jù)”一直存在,只是受限于時(shí)代和科技,因?yàn)槿狈ο鄳?yīng)的數(shù)據(jù)記錄、分析工具而無(wú)法實(shí)現(xiàn)。

市場(chǎng)上缺乏兼具業(yè)務(wù)場(chǎng)景普適性和海量數(shù)據(jù)處理能力的數(shù)據(jù)庫(kù)軟件大數(shù)據(jù)時(shí)代的到來(lái),使得電子商務(wù)、公共管理、SNS等領(lǐng)域幾乎每個(gè)與用戶(hù)相關(guān)的業(yè)務(wù)數(shù)據(jù)量都在億級(jí)別,某些平臺(tái)的日系統(tǒng)調(diào)用可能達(dá)到百億級(jí)別,而且歷史數(shù)據(jù)不能輕易刪除,所以需要能對(duì)TB甚至PB級(jí)數(shù)據(jù)進(jìn)行高速處理的數(shù)據(jù)庫(kù)。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),如Oracle,mysql, SQL Server等不能很好地滿(mǎn)足用戶(hù)需求,而較新的NoSQL數(shù)據(jù)庫(kù)也依然沒(méi)有達(dá)到適應(yīng)不同業(yè)務(wù)場(chǎng)景的需求,目前依然需要根據(jù)用戶(hù)不同的業(yè)務(wù)特征來(lái)選擇適合的數(shù)據(jù)庫(kù)軟件。

私有云和云服務(wù)普及程度太低

所有企業(yè)和個(gè)人都或多或少有大數(shù)據(jù)應(yīng)用的需求。但不同的實(shí)體有不同的出發(fā)點(diǎn),更在意安全和自主性的企業(yè)希望構(gòu)建屬于自己的私有云;應(yīng)用需求少,對(duì)成本更敏感的企業(yè)則需要在線(xiàn)的即時(shí)云服務(wù)。但受限于人們對(duì)云技術(shù)的接納程度、云服務(wù)的成本優(yōu)勢(shì)尚不明顯等原因,私有云和云服務(wù)普及程度偏低也大大限制了大數(shù)據(jù)的發(fā)展。

四、 數(shù)據(jù)尚未獲得真正意義上的定價(jià)和產(chǎn)業(yè)化。

數(shù)據(jù)的公開(kāi)性與歸屬權(quán)不清晰直接導(dǎo)致了數(shù)據(jù)融合工作被割裂到一個(gè)個(gè)的獨(dú)立的數(shù)據(jù)資產(chǎn)型平臺(tái)內(nèi)部。目前的大數(shù)據(jù)應(yīng)用更多是針對(duì)公開(kāi)數(shù)據(jù)和自有數(shù)據(jù)的價(jià)值挖掘,數(shù)據(jù)尚未獲得真正意義上的定價(jià)和產(chǎn)品化。

在數(shù)據(jù)共享相對(duì)成熟的金融體系,以銀行業(yè)為例,跨銀行間的數(shù)據(jù)共享通道是人民銀行與銀監(jiān)會(huì)分別牽頭、管理的征信系統(tǒng)與客戶(hù)風(fēng)險(xiǎn)統(tǒng)計(jì)系統(tǒng),均采取“報(bào)送數(shù)據(jù)才能享受共享”及“信貸主體本身可申請(qǐng)及授權(quán)查詢(xún)”的原則。在未納入眾多信托、小貸、互聯(lián)網(wǎng)金融等機(jī)構(gòu)數(shù)據(jù)的情況下,上述數(shù)據(jù)池的維護(hù)成本已經(jīng)非常高。那么多新的交易和交互數(shù)據(jù)源如何進(jìn)行互相融合,并形成一個(gè)個(gè)類(lèi)似于金融投資業(yè)的萬(wàn)得、同花順一樣在細(xì)分業(yè)務(wù)場(chǎng)景下成熟且具有應(yīng)用價(jià)值的產(chǎn)業(yè)化數(shù)據(jù)池?這是一個(gè)問(wèn)題。

數(shù)據(jù)的產(chǎn)業(yè)化,從破除阻礙的角度看并關(guān)鍵在于兩點(diǎn),一是數(shù)據(jù)的公開(kāi)性與歸屬權(quán)需要在法律及政策層面得到更明確的規(guī)范和指引,二是對(duì)同類(lèi)業(yè)務(wù)場(chǎng)景下不同平臺(tái)的數(shù)據(jù)制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn);從操作層面看,在應(yīng)用范圍的選擇上,不應(yīng)尋求一步到位或大而全,最好確定到具體的業(yè)務(wù)場(chǎng)景和產(chǎn)品形態(tài);從實(shí)現(xiàn)路徑看,寄望于行政力量介入模式(類(lèi)似于銀行間整合)的可行性不高,也許“平臺(tái)還數(shù)據(jù)于用戶(hù),通過(guò)第三方機(jī)構(gòu)公證數(shù)據(jù)真實(shí)性,用戶(hù)再授權(quán)進(jìn)行跨平臺(tái)融合”才是一條可以期待的路。

網(wǎng)頁(yè)名稱(chēng):無(wú)法回避!那些制約大數(shù)據(jù)行業(yè)發(fā)展的問(wèn)題……
文章地址:http://muchs.cn/article30/sdijso.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App設(shè)計(jì)外貿(mào)建站、標(biāo)簽優(yōu)化、網(wǎng)站維護(hù)、網(wǎng)站設(shè)計(jì)、ChatGPT

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

h5響應(yīng)式網(wǎng)站建設(shè)