丁力:從中美視角看“互聯(lián)網(wǎng)+”時代的中國開放數(shù)據(jù)

互聯(lián)網(wǎng)IDC圈9月1日報道,8月29日-30日在上海國際時尚中心舉行的D-Future數(shù)據(jù)時代峰會是七牛為大家?guī)淼囊粓鰯?shù)據(jù)盛筵,匯聚了業(yè)界領袖、行業(yè)專家,他們將從產(chǎn)業(yè)的角度和技術的角度來解讀數(shù)據(jù)從何而來,數(shù)據(jù)如何應用,數(shù)據(jù)重新構未來。

為濮陽等地區(qū)用戶提供了全套網(wǎng)頁設計制作服務,及濮陽網(wǎng)站建設行業(yè)解決方案。主營業(yè)務為網(wǎng)站設計制作、成都網(wǎng)站建設、濮陽網(wǎng)站設計,以傳統(tǒng)方式定制建設網(wǎng)站,并提供域名空間備案等一條龍服務,秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務。我們深信只要達到每一位用戶的要求,就會得到認可,從而選擇與我們長期合作。這樣,我們也可以走得更遠!

大會上全球首款語義網(wǎng)搜索引擎作者,語義分析、人工智能與社交圖譜分析專家丁力從中美視角來審視中國開放數(shù)據(jù)。

鼎立

丁力

以下是丁力演講內(nèi)容(根據(jù)速記整理):

丁力:各位好!今天非常有幸能夠作為第一個技術專家給大家作報告,這個是我的主題??赡芪艺f話有些慢,希望大家有問題的話向我提一下。

今天我這個報告,開始點就是從這個數(shù)據(jù)和信息之間的關系開始,說我們今天各位都講了數(shù)據(jù)有很多價值,我們可以通過數(shù)據(jù)分析,讓這些價值得以實現(xiàn),這樣很好。其實數(shù)據(jù)的價值被用戶真正應用了以后,它才能真正成為一個社會的財富,而想實現(xiàn)這個數(shù)據(jù)分析,從我們數(shù)據(jù)的獲取、積累到數(shù)據(jù)的分析,其實還有一點比較有意思的地方,我這個原始數(shù)據(jù)不這些數(shù)據(jù)放在這很好,我怎么用,我很強的,數(shù)據(jù)挖掘,很牛,但是你得把數(shù)據(jù)轉化好,然后關聯(lián)起來我才能用,中間的話,就產(chǎn)生了一個鴻溝,這個鴻溝就是我今天要講話題,待會兒我們可以看看這里面有什么有意思的東西。

想必各位都是有家的人,不管自己一個人在家還是二人世界還是家里有了孩子,有了孩子以后,一定會想我得買個房子,或者找一個好的房子住下來讓我的孩子有一個高的教育環(huán)境,怎么辦我得想我得找學區(qū)房這個事情放在美國有意思。買學區(qū)房是不是離學校近就好,不一定有的房子不屬于這個邊界。那怎么辦?我們現(xiàn)在做了一個數(shù)據(jù)的聚合,各種各樣的數(shù)據(jù)包括地圖數(shù)據(jù)、學校學區(qū),你看這個地方,這些數(shù)據(jù)它們聚合在一塊才能形成有效的應用,單獨一個數(shù)據(jù)說我這有一個房子價值170萬美元,對于購房者這些信息不夠,也達不到真正的社會價值應用。所以說數(shù)據(jù)的完整對我們來講是一個非常關鍵的事。

說到數(shù)據(jù)聚合,大家討論說,那我數(shù)據(jù)從哪里來?一方面,我們可以網(wǎng)上搜。2009年的時候,美國總統(tǒng)奧巴馬上臺的第一天,簽署了我們要讓政府的數(shù)據(jù)更為公開,讓老百姓、納稅人能夠免費獲取這些信息。那么六年以后發(fā)生了什么事?這是美國政府開放數(shù)據(jù)的網(wǎng)站,這個是官網(wǎng)。大概將近16萬數(shù)據(jù)集覆蓋了各個領域,超過500億特家公司,正在有效利用這些政府數(shù)據(jù)實現(xiàn)經(jīng)濟價值,而這些公司中不乏有上億美元的公司,這些大家熟悉有不太熟悉的,有房地產(chǎn)、新能源的、有地圖的,還有旅游的。開放數(shù)據(jù)在全球領域是什么概念呢?2013年在報告里說,開放數(shù)據(jù)屬于可以好好利用,每年可以給世界帶來超過3萬億美元的數(shù)據(jù)增值,如果我們開放出那就不可想像了。

開放數(shù)據(jù)具體來講是什么事?這是一個很好的例子。一個教授說,美國和中國是什么關系,我們怎么對比,如果這個事情現(xiàn)在發(fā)生有應用已經(jīng)做了,有論文已經(jīng)講了,可是放在十年前放在五年前我們怎么做,就去挖掘數(shù)據(jù)、尋找數(shù)據(jù),然后就去關聯(lián)起來。不僅有國家、本國,有自己的貨幣,還有匯率這些數(shù)據(jù)找到了,我們十年前找不到數(shù)據(jù),現(xiàn)在我們找到了。第二步,還要把它們統(tǒng)計,形成一個統(tǒng)一的,然后我們才能基于美元的標準下做一個對比。

像這樣的例子,還有很多。為什么會有這些呢?因為我們從2009年在美國的大學,我們在這個學校里面,從美國政府的開放數(shù)據(jù)網(wǎng)站,2009年上線開始我們就和它合作。致力于連接數(shù)據(jù)、知識圖譜的技術,利用于這些開放政府數(shù)據(jù)過程中,這個過程,讓大家做這個成本降的更低渦之做得更快,未必做得很好看,但是我們告訴我們所有開發(fā)者說這件事沒有那么難,是很容易的,而且能夠很快做出一個原形讓我們很快驗證我們的想法,這時候創(chuàng)業(yè)就是一個路子。這里面我們看看訪客的數(shù)據(jù),奧巴馬也可以美國英國阿富汗投資側重點是什么東西,甚至可以研究一下股票,股票的變化和推特里面的消息有什么關系,這些數(shù)據(jù)我們從各行各業(yè),有的從政府獲得,有的從政府之外獲得的,這些數(shù)據(jù)通過技術聚合在一塊,形成了可以被用的架構。最終幫助我們開發(fā)者做出原形,讓他們能夠直接可視化的方式做一個結果,并不包括我們剛才講的數(shù)據(jù)挖掘,我們現(xiàn)在只是把數(shù)據(jù)展示出來,這樣已經(jīng)讓人解決了很多問題。

在這個過程中,我們還遇到很好玩的,美國開放這個數(shù)據(jù),針對于癌癥患者,覺得還不錯,我們可視化以后就發(fā)現(xiàn),這個過程中,為我們展示了很多可能性,當數(shù)據(jù)通過這些展示在客戶中,我們很多沒有預期到的都會發(fā)生。

這個是我們的成果之一,第一就是說一方面我們應用作為實際的應用,為我們科研領域產(chǎn)生重大貢獻,剛才我們做的工作在2001年的國際大會上,因為我們在美國政府數(shù)據(jù)中的貢獻獲得了它提供的二等獎。第二個我們在實質(zhì)上操作中,把它為全世界提供了免費開放數(shù)據(jù)數(shù)量提供了一倍多。雖然看起來,可能只有不到六分之一大小的數(shù)據(jù)題是從政府來的,政府數(shù)據(jù)大,覆蓋領域全面,所以不止是音樂、論文的數(shù)據(jù),而是覆蓋了國際民生各個領域,這樣讓數(shù)據(jù)的價值可用性提高了很多。

我們剛才說了Mashup,到底什么是Mashup。Mashup可以以多種形式產(chǎn)生,這個也是基于開發(fā)的重要層面。一個是數(shù)據(jù)層面的Mashup,一個是可視化的層面的Mashup,就是說我們有不同的工具,把它也設置了起來,下面兩張屏幕就是不同的地圖和圖表的方式,最后我們還可以在應用層次做可視化的Mashup。這個需要什么呢?就是需要你說的這個地方是我說的地方,不要到時候你說中國的,然后我是美國的,這個過程中,需要大家有一點點共同的協(xié)議,能夠說,我們說的是同一間事,待會兒我們講的就是這個技術。

我們做這個工作,從技術上帶講的話,也涉及了很多具體的技術細節(jié),這是我們的一個架構圖,最底下數(shù)據(jù)的提供者,它不只是包括企業(yè)、個人都是數(shù)據(jù)的提供者,這些數(shù)據(jù)的提供者,它總是要提供數(shù)據(jù)的,它提供數(shù)據(jù)的話,習大大說我們要開發(fā)數(shù)據(jù),就都放在網(wǎng)上了。這個是自下而上的方式,而且它有一個問題,我們的數(shù)據(jù)要放到什么程度,是直接到網(wǎng)上大家都可以用,還是要變成特別厲害,變成更漂亮可以分析的數(shù)據(jù)呢?這個大家都不知道,怎么辦,不知道怎么辦沒關系。我們還有另外的方向,我們要做一個買房的應用怎么辦,我就要這樣,這幾個數(shù)據(jù),這個時候數(shù)據(jù)皮球來了??纯从袥]有這個數(shù)據(jù)能不能開放一下,他說我們給你一個數(shù)據(jù)你要什么級別,逐漸形成一個需求驅動,數(shù)據(jù)提供的體系,這個對數(shù)據(jù)生態(tài)圈有一個非常大的影響。我們說開放的程度也分為不同的層次,最低層我把數(shù)據(jù)有一個名單,說我有這個數(shù)據(jù),但是你得跟我要,給我打電話就行了,還有一個那就把數(shù)據(jù)放在網(wǎng)上我不在乎,但是這個數(shù)據(jù)就這樣,你愛要不要,這個數(shù)據(jù)放在這,你隨便處理,我不做進一步處理,更進一步,它可以說我把這個數(shù)據(jù),不是通過一本書我給你發(fā)過一個郵件或者七牛傳過來電子版,更進一步我是一個好人,麻煩數(shù)據(jù)庫變成CSV,更進一步我就不給你做開放格式了,你可以目前很容易打開,同時我還可以做的很規(guī)整,北京市或者北京這兩個不同的詞讓你感覺到做數(shù)據(jù)不是很難。

進一步我們會發(fā)現(xiàn),不同層次的話,是按需求來決定的,不是想像當中我把數(shù)據(jù)全都生成,全部做成最高標準,成本很高。另外一方面,它解決的問題,要從數(shù)據(jù)的清理到觀點  查詢,都可以讓用戶把數(shù)據(jù)串聯(lián)起來。這個過程中,我們常規(guī)的方法,就是說我們請幾個小姑娘來做數(shù)據(jù)清理。更進一步想法,我們考慮用機器學習的方法,自然語言處理的方法,把數(shù)據(jù)華自動化處理,降低我們的人工成本這是很重要的關鍵,也是我們很感興趣的一個研究方向。

在2012年的時候,我獨導采編了雜志的文章,吸引了美國、英國、澳大利亞國家的開放政府數(shù)據(jù)負責人投稿,講講他們發(fā)展的跡象,中間分析他們的結果,我們看到一個到底我們還有什么問題。這個結果,我們需要更多的數(shù)據(jù)在網(wǎng)上,讓更多數(shù)據(jù)互聯(lián)起來,然生更多的應用,我們就提出了三個挑戰(zhàn),能不能有一百萬數(shù)據(jù)放在網(wǎng)上,讓大家公開,能不能讓這一百萬數(shù)據(jù)變得互聯(lián)起來,讓它們產(chǎn)生更大的價值,還有能不能做一百萬應用讓全民都成為這些數(shù)據(jù)的受益者。

同樣在中國,這樣的問題也確實存在。要想解決這些問題,我們一個個來解決,這是創(chuàng)始人,我們就出了這么一個產(chǎn)業(yè),在座的各位都是拜他所賜。你既然要數(shù)據(jù),那就把數(shù)據(jù)放上去,不要等還沒整理好,就直接放上去。放上數(shù)據(jù)我們看看這個情況,在中文數(shù)據(jù)領域的話,5年前還是慘不忍睹,當時我們做美國政府數(shù)據(jù)時候,中國有沒有開放數(shù)據(jù),那好吧,我們到統(tǒng)計局隨便拿一個數(shù)據(jù)。到了今天,包括在上海市都有開放數(shù)據(jù)平臺,包括門外上海開放數(shù)據(jù)挑戰(zhàn)賽,這是很可喜的事情。第二大家都已經(jīng)喜聞樂見,各種各樣的數(shù)據(jù)開放平臺,還有數(shù)據(jù)的交易中心,所以中文數(shù)據(jù)并沒有我們想像的那么悲慘,數(shù)據(jù)那么少,地方的確這些數(shù)據(jù)還缺少互聯(lián)。

另外一個方向,我們有這些數(shù)據(jù)的話,我們還可以有其他什么方法?我們還可以從網(wǎng)頁上獲取數(shù)據(jù),或者從開放獲得數(shù)據(jù),這些數(shù)據(jù)盡可能讓數(shù)據(jù)提供商以更簡易更有效的數(shù)據(jù),藏在數(shù)據(jù)之下的暴露出來,這樣需要很多的工具和努力。

在我們這個過程中,值得一提在中國特色或者全球特色,數(shù)據(jù)API成為一個非常有意思的東西。如果我們單單把公開的數(shù)據(jù)放在網(wǎng)上放在網(wǎng)頁上下載,第一感覺,放在網(wǎng)上別人一下在多虧,現(xiàn)在大家都想,我們利用API,一來可以控制全線,第二我可以讓人持續(xù)訪問,我可以把數(shù)據(jù)更新體現(xiàn)出來。所說數(shù)據(jù)API將來會是一個非常重要的角色。

第二個問題,其實是今天的重點,我們當時有一個數(shù)據(jù),我們分析數(shù)據(jù)中間的,我們需要其中兩個很關鍵的技術,一個是圖譜,一個是語義搜索。旁邊這張圖,1990年他說我們要做網(wǎng),這是它最初對萬維網(wǎng)的構想。知識圖譜也是類似,也是互聯(lián),讓大家能夠共享。

知識圖譜到底是什么?大家都提了很多次,很多時候我們說就是谷歌做的圖譜,微軟做的,這兩個詞不一樣,我們想做一個知識庫,但是我們知識庫跟他們不一樣,事實在一個知識庫里面,我們就看到這樣一個東西,一個是實體,我們不管看到范爺,還是春哥都是一個實體。他們關聯(lián)起來,某某人是王菲的前夫這就是一個關系,再進一步來講,我們有這些關系,到時候用怎么查得到,大家很糾結前夫到底是哪個,大家有一個統(tǒng)一的說法,最近也不叫最近,今年大家也在不斷努力,用這個詞。這里面就涉及到,我有一些通用的名詞,概念,讓大家能夠共享。再之后,有了詞、有了網(wǎng)站我們怎么表示,我們一個想法就是關系數(shù)據(jù)庫,有些比較復雜,不然我們也不會有這個。過程中我們在語義網(wǎng),為這個事情提出一個想法,我們能不能找一個更簡單的知識表示方法,SPO,王菲是前妻。中英文表達方式不太一樣這是一個順序的關系。這個例子帶講,它的導演,他是一個人,要找導演的話,就是一個人,這個導演這部電影。

知識圖譜在這個里面跟以前知識圖譜有一個很大的區(qū)別,有幾個比較重要的東西,知識圖譜來源不像傳統(tǒng)知識圖譜,我們一個要作坊或者一個領域專家,我們坐下來花一年時間整理,放在這是不夠。在這個過程中,還有很大一部分,數(shù)據(jù)來自開放,知識圖譜數(shù)據(jù)在量級上比小小知識庫高出很多,我們有很多實力而不是簡單的一兩個單位而已。第二個知識圖譜要跟自然語言結合起來,不會專門給你添表,就是自然語言表述出來。同時當我們做搜索,或者進行應用的時候,知識圖譜又要嫁接,說這是我們結構化的表示,這是用戶真實需求,知識圖譜要能夠通過一些知識表示的方面,讓這個過程變得更為完善,所以說知識圖譜在某種程度上講不簡單是一個知識庫,而是自然語言緊密結合的知識庫。

這里面另外一個知識圖譜,我們4月22號,要做一個MU5186這個很好,我們訂飛機票,收到這樣一個消息。最簡單的說法,MU5186是表現(xiàn)的東西,其實表現(xiàn)夠了。你現(xiàn)在說時間是什么時候,航班號是什么時候,我給你解析出來,編輯航班號,就簡單了,我們給你查,查可以查這個鋼板,這天航班從哪開始出發(fā),這個很重要,從哪個機場哪個航站樓出發(fā),如果大家常去機場,如果北京機場、上海機場有很多航站樓的時候,去錯了航站樓那就慘了。有了這個數(shù)據(jù),我們這個數(shù)據(jù)就是完全不用人工,就是機器把數(shù)據(jù)補全,這樣還是不夠,我們知道MU5186我只能得到這張卡片這是登機牌什么時候去登機,那我怎么去,我打車我去納,還是要說具體的航站樓這時候就有地圖,告訴你去航站樓。

我這有一個例子,我從上海到北京,但是一旦顯示出來,顯示出虹橋那邊,不注意文字,但是地圖很明顯,離那么遠,那就不是虹橋是浦東。這個過程中,可以看到數(shù)據(jù)在不斷被細化,補全,這個過程中,語義理解、數(shù)據(jù)服務、知識圖譜都起到了不同的作用。

另外一個關鍵是語義搜索,語義搜索它是跟語義知識圖譜緊密結合,沒有知識圖譜我們也談不上具體的語義搜索只是結構化數(shù)據(jù)查詢或者是數(shù)據(jù)查詢。語義搜索有很多關鍵技術,真正讓知識圖譜這個知識,直接和人的需求產(chǎn)生對接。這個地方,它常見的應用常見,就包括語義匹配,很簡單,我剛才說MU5186這可以匹配出來這是一個航班號,可以找到,這從自然語言這句話,對應在知識圖譜中有這樣一個時間、節(jié)點,這時候我們開始在結構化數(shù)據(jù)領域進行操作。

第二,語義理解跟語義匹配差別,語義匹配是單獨匹配一個點,MU東航5186是航班號,語義理解是某年某月某日的東西,甚至我不說我還能夠有其他方法,可以比出來他在說什么,今天是什么時候,還是通過幾點方式,進一步理解你原來說4月22號而不是4月21號,語義理解在這個過程中也是一個非常關鍵的語義搜索過程。進一步最常見我們就是說rich snippet,在谷歌、百度各種搜索已經(jīng)被完全釋放出來,我們自然語言文本,我們同時也把語義搜索的結構,也被匹配上去,我們有例子看。排序、問答,所以說到最后語義搜索就是一個智能的助理,他說我想訂一張票從北京到上海,他就可以說現(xiàn)在在上海然后去北京,你現(xiàn)在走不了就明天,或者按照你常規(guī)的時間,來給你派。通過對個人的知識圖譜,整合,它能夠幫你說我搞清楚你明天早上一大早飛機,幫你形成一個你想找到的一個答案。這個過程中,我們講對接,從人到機器產(chǎn)生的數(shù)據(jù)這是很重要的。

這個例子,大家都見過。

更多的數(shù)據(jù),這個數(shù)據(jù)的發(fā)展,談到數(shù)據(jù)生態(tài)圈,大家都講數(shù)據(jù)生態(tài)圈,我們要讓數(shù)據(jù)生態(tài)圈發(fā)展。剛才我們已經(jīng)說了,架構讓需求化和層次化的服務,讓數(shù)據(jù)能夠更好流動起來。這里面還有另外一件事,就是講Licnese,這個地方很有意思,美國政府數(shù)據(jù)完全公開免費,但是別的國家不一樣,而且在中國這個情況又必須特殊,所有政府數(shù)據(jù)版權歸國家所有,各個國家包括百度開放地圖的時候,也是冒了很多風險。但是事情就是說在我們數(shù)據(jù)生態(tài)圈里面很重要的問題,將來我們一方面數(shù)據(jù)免費讓大家用,另外一方面我們能不能考慮一些,讓大家共享的方式,讓大家都能從數(shù)據(jù)分享中獲得價值。

這里面總結了一下我們解決數(shù)據(jù)生態(tài)圈里面的一些重要方法,包括數(shù)據(jù)發(fā)布、數(shù)據(jù)功能知識圖譜的發(fā)展,語義搜索技術的發(fā)展等等。簡而言之,如果我們想要發(fā)展這個生態(tài)圈,還是要盡可能有這么一個基本原則,那就是各盡其能。我們希望在不久的將來我們也能夠做到。但是在目前為止,我們按照分配,都能夠讓大家有更高的積極性,把這個架構搭起來。

關于我自己的話,時間有限,只能講講自己,那就是一個數(shù)據(jù)民工,從北大畢業(yè)以后,去美國輾轉各地,見證了各種重要事情的發(fā)展,包括智能助理、知識圖譜、語義搜索、開放政府數(shù)據(jù)的各項重大事情的發(fā)展,作一個見證人還是比較有意思的,到目前為止,到我創(chuàng)業(yè)之前為止,我感覺有一件很大的事,我們做研究,找了這么多技術,幫了這么多人,也幫大家做一些實質(zhì)性的東西,我們就把這些技術帶到實際應用里面來。做什么呢?我們現(xiàn)在做一些小小的創(chuàng)業(yè)工作,把剛才我們知識圖譜還有語義理解這兩個東西做好、做到極致。讓人民群眾能夠在知識生態(tài)圈中,你得到了數(shù)據(jù),我?guī)湍憬馕鲞@個數(shù)據(jù),幫你把數(shù)據(jù)關聯(lián)起來,分析,看到價值。大家有空嘗試一下,我們這個,以后還有更新的東西給大家推出,謝謝!

當前題目:丁力:從中美視角看“互聯(lián)網(wǎng)+”時代的中國開放數(shù)據(jù)
文章出自:http://www.muchs.cn/article16/chgsgg.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站建設、做網(wǎng)站、域名注冊、ChatGPT、網(wǎng)站策劃網(wǎng)站營銷

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站制作