人工智能在搜索算法中的作用與優(yōu)勢

2021-04-07    分類: 網(wǎng)站建設

ai ,人工智能

2016 年以來,it行業(yè)大的技術(shù)突破應該是人工智能了,不僅在一年左右時間,在最后一個人類曾經(jīng)自以為機器很難戰(zhàn)勝人類的游戲項目上完勝人類,更是出現(xiàn)了逆天的alphago zero,完全不用借鑒人類知識,自學 3 天就超越了人類。


人工智能領域最牛x的公司,國外是google,國內(nèi)是百度。都是搜索引擎。這恐怕也不是什么巧合,而是因為搜索引擎是最適合開發(fā)人工智能的公司,他們擁有大量的數(shù)據(jù),包括文字、圖片、視頻,還有地圖、路況、用戶使用數(shù)據(jù)等等。


搜索引擎公司的ai成果在多大程度上運用到了他們的核心業(yè)務-搜索中?他們都沒有明確地對外說明,從搜索工程師的零碎發(fā)言中猜測,至少目前還沒有大規(guī)模使用,并沒有改變搜索算法的基礎。畢竟人工智能雖然概念存在了幾十年,但效果突飛猛進只是近幾年的事,還沒有出現(xiàn)通用人工智能,在圍棋這種規(guī)則簡單明確的領域中牛x,遷移到規(guī)則模糊的系統(tǒng)中,比如搜索,還需要一些時間。


但我想,人工智能大規(guī)模應用于搜索算法是早晚的事。據(jù)說以前百度大搜索部門和人工智能/深度學習部門之間是有些矛盾的,現(xiàn)在吳恩達離開了百度,陸奇對百度又進行了很多人事調(diào)整,搜索部門對人工智能的排斥也許就大大降低了。


其實人工智能已經(jīng)在搜索算法中有所運用。舉兩個例子。


百度dnn模型

前幾個月看到了百度朱凱華的一篇《ai賦能的搜索和對話交互》演講報道。數(shù)年前和朱凱華還做過一次訪談,那時候他還是google的主任架構(gòu)師,是著名的熊貓算法的主要參與者之一,現(xiàn)在他是百度的首席架構(gòu)師了。演講內(nèi)容很多,感興趣的搜索標題就能找到全文,很值得深入讀一下。這么長時間制作行業(yè)很少人注意到這篇這么有價值的關(guān)于搜索算法的公開信息,還是挺意外的。


演講里提到了百度 2013 年上線的dnn模型,極大提高了語義相關(guān)性的判斷范圍和準確性, 2013 年百度相關(guān)性提高的34%來自于dnn模型, 2014 年全年相關(guān)性提升的25%來自dnn模型。dnn模型使用的就是深度學習方法,通過 100 億的用戶點擊數(shù)據(jù)訓練模型,有超過 1 億個參數(shù)。下面介紹的google rankbrain是 2015 年上線的,所以百度是世界上第一個將人工智能應用到實際搜索算法中的公司。


簡單說,就是對同一個查詢詞,模型分析了真實用戶點擊了的頁面的標題,和沒有點擊的頁面標題,從而更深入理解哪些標題是滿足了用戶需求的。經(jīng)常出現(xiàn)的情況是,頁面標題并不包含查詢詞,用戶卻更愿意點擊這些頁面,說明這些頁面滿足了用戶需求,這些頁面的標題,即使不包含查詢詞,也是與查詢詞語義相關(guān)的。這是經(jīng)典的頁面-關(guān)鍵詞相關(guān)性算法無法計算出來的。


演講中提到的例子: 


在dnn上線之前,用戶搜索“ghibli車頭任何放置車牌“時,由于相關(guān)信息很少,沒有什么頁面是以這個查詢詞為標題或者頁面出現(xiàn)這些關(guān)鍵詞的,所以搜索結(jié)果質(zhì)量不高,傳統(tǒng)搜索算法只能按關(guān)鍵詞匹配返回一些ghibli相關(guān)信息,卻沒幾乎有“車頭任何放置車牌”的信息。


dnn上線之后的搜索結(jié)果是這樣的:


可以看到,搜索結(jié)果中還是沒有以“ghibli車頭任何放置車牌“為標題的頁面,但解決了用戶的需要,算法理解了“前”、“前面”和“車頭”是一個意思,“放哪里啊”、“怎么裝”、“咋掛”和“任何放置“是一個意思,所以”ghibli車牌咋掛“這種頁面回答了“ghibli車頭任何放置車牌“這個查詢,雖然他們包含的關(guān)鍵詞是不一樣的。


這種對相關(guān)性的理解不是傳統(tǒng)以關(guān)鍵詞匹配為基礎的搜索算法能算出來的,而是真實用戶的點擊數(shù)據(jù)告訴搜索算法的。用戶搜索“ghibli車頭任何放置車牌“時,經(jīng)常點擊”ghibli車牌咋掛“、”ghibli前面車牌照怎么裝“這些頁面,dnn模型被訓練后知道,這些詞之間是語義相關(guān)的。


google rankbrain

2015 年上線的google rankbrain解決的也是對查詢詞的深入理解問題,尤其是比較長尾的詞,找到與用戶查詢詞不完全匹配、但其實很好回答了用戶查詢的那些頁面。和百度dnn是非常類似的。google沒有具體說明rankbrain的訓練方法,估計和百度dnn也是類似的。


2015 年rankbrain上線時,15%的查詢詞經(jīng)過rankbrain處理, 2016 年所有查詢詞都要結(jié)果rankbrain處理。


google自己經(jīng)常舉的rankbrain例子是這個查詢:what’s the title of the consumer at the highest level of a food chain這個查詢詞相當長尾,完全匹配的結(jié)果比較少,而且查詢中的幾個詞容易有歧義,比如consumer通常是消費者的意思,food chain也可以理解為餐飲連鎖,但這個完整的查詢和商場、消費者、飯館之類的意思沒有任何關(guān)系,rankbrain能理解其實用戶問的是食物鏈頂端的物種是什么名字。同樣,搜索結(jié)果不能按照傳統(tǒng)的關(guān)鍵詞匹配來處理。


這種長尾查詢數(shù)量很大,每天google收到的查詢里有15%是以前都沒出現(xiàn)過的。這種查詢要靠關(guān)鍵詞匹配就比較難以找到高質(zhì)量頁面,數(shù)量太少,甚至沒有,但理解了查詢的語義和意圖,就能找到滿足用戶需求的、關(guān)鍵詞并不完全匹配的頁面。


對制作的影響以后再詳細寫,這里只是先簡單提示一下:頁面要包含關(guān)鍵詞,這在目前的關(guān)鍵詞制作過程中是必然的,現(xiàn)在搜索引擎能理解兩句不同的話意思是一樣的了,以后創(chuàng)作或編輯頁面內(nèi)容時,是不是還一定要包含關(guān)鍵詞呢?

名稱欄目:人工智能在搜索算法中的作用與優(yōu)勢
文章網(wǎng)址:http://www.muchs.cn/news36/106586.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供響應式網(wǎng)站、軟件開發(fā)、服務器托管、動態(tài)網(wǎng)站網(wǎng)站建設、營銷型網(wǎng)站建設

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都做網(wǎng)站