解決標(biāo)簽,爬行,以及用戶生成的內(nèi)容

2016-08-10    分類: 網(wǎng)站建設(shè)

解決標(biāo)簽,爬行,以及用戶生成的內(nèi)容
解決標(biāo)簽蔓延:爬行預(yù)算,復(fù)制內(nèi)容,以及用戶生成的內(nèi)容
先進(jìn)的搜索引擎優(yōu)化|咨詢|技術(shù)SEO
打擊壞的辯解書呆子的指導(dǎo),重復(fù)的用戶生成的數(shù)據(jù),統(tǒng)計(jì)的內(nèi)容,和純粹的意志的力量。

這里是情況。你有一百萬(wàn)個(gè)產(chǎn)品網(wǎng)站。你的競(jìng)爭(zhēng)對(duì)手有很多相同的產(chǎn)品。你需要獨(dú)特的內(nèi)容。你是做什么的?每個(gè)人都做同樣的事情-你轉(zhuǎn)向用戶生成的內(nèi)容。問(wèn)題解決了,對(duì)吧?

用戶生成的內(nèi)容(UGC)可以是一個(gè)非常有價(jià)值的內(nèi)容和組織來(lái)源,幫助您建立自然語(yǔ)言描述和人為驅(qū)動(dòng)的網(wǎng)站內(nèi)容組織。網(wǎng)站利用用戶創(chuàng)建內(nèi)容的一個(gè)共同特征是標(biāo)簽,隨處可見,從電子商務(wù)網(wǎng)站到博客。網(wǎng)站管理員可以利用標(biāo)簽功率網(wǎng)站搜索,創(chuàng)建分類和產(chǎn)品瀏覽類別,并提供網(wǎng)站內(nèi)容豐富的描述。

這是一個(gè)合乎邏輯和實(shí)際的方法,但如果不加以控制會(huì)導(dǎo)致棘手的SEO問(wèn)題。對(duì)于大型網(wǎng)站,手動(dòng)調(diào)節(jié)數(shù)以百萬(wàn)計(jì)的用戶提交的標(biāo)簽可能是繁瑣的(如果不是完全不可能)。但是,未標(biāo)記的標(biāo)簽會(huì)產(chǎn)生大量?jī)?nèi)容稀疏、內(nèi)容重復(fù)和內(nèi)容擴(kuò)展的大規(guī)模問(wèn)題。在我們的案例研究下面,來(lái)自不同公司的三個(gè)技術(shù)SEO聯(lián)手解決大規(guī)模標(biāo)簽擴(kuò)展問(wèn)題。該項(xiàng)目是由Jacob Bohall,在蜂巢的數(shù)字營(yíng)銷副總裁,而計(jì)算統(tǒng)計(jì)服務(wù)是由J.R. Oakes適應(yīng)合作伙伴和Russ瓊斯MOZ提供。讓我們潛水。


什么是標(biāo)簽蔓延?

我們定義標(biāo)簽蔓延的不受限制的增長(zhǎng)獨(dú)特的,用戶貢獻(xiàn)的標(biāo)簽產(chǎn)生大量的重復(fù)頁(yè)面和不必要的爬行空間。標(biāo)簽蔓延產(chǎn)生的URL可能被列為門戶頁(yè)面,頁(yè)面出現(xiàn)只存在的目的是建立一個(gè)索引在一個(gè)詳盡的關(guān)鍵字?jǐn)?shù)組。你可能見過(guò)這在其最基本的形式在帖子在博客的標(biāo)簽,這就是為什么大多數(shù)SEO推薦一個(gè)毯子”NOINDEX,遵循“在標(biāo)簽頁(yè)的WordPress網(wǎng)站。這種簡(jiǎn)單的方法可以是一個(gè)有效的解決方案,為小博客網(wǎng)站,但往往不是解決方案的主要電子商務(wù)網(wǎng)站,更依賴于標(biāo)簽進(jìn)行分類的產(chǎn)品。

以下三個(gè)標(biāo)簽云代表用戶生成的術(shù)語(yǔ)與不同的股票照片的列表。注:用戶行為通常是盡可能多的標(biāo)簽,以確保他們的產(chǎn)品大限度地暴露。

美國(guó)航空母艦約克鎮(zhèn)號(hào),約克鎮(zhèn),CV,cvs-10,好人李察,革命戰(zhàn)爭(zhēng)的船舶、軍艦、海軍船、軍艦,攻擊航母,愛國(guó)點(diǎn),標(biāo)志性建筑,歷史性的船只,埃塞克斯級(jí)航母,水,海洋

船舶、船只、約克鎮(zhèn)、戰(zhàn)艇,愛國(guó)者足尖,舊軍艦,歷史地標(biāo),航母、軍艦、海軍艦艇,海軍艦艇,看,海洋

約克船舶、軍艦和航母,歷史軍事船只的美國(guó)航空母艦約克鎮(zhèn)號(hào)航空母艦

你可以看到,每個(gè)用戶產(chǎn)生的有價(jià)值的信息的照片,這是我們將要使用的為相關(guān)股票的圖像創(chuàng)建可轉(zhuǎn)位的分類依據(jù)。然而,在任何類型的規(guī)模,我們有直接的威脅:

細(xì)內(nèi)容:只有少數(shù)產(chǎn)品共享用戶生成的標(biāo)簽,當(dāng)用戶創(chuàng)建一個(gè)更具體的/定義標(biāo)簽,例如“cvs-10”

重復(fù)和類似的內(nèi)容:這些標(biāo)簽會(huì)重疊,如“美國(guó)航空母艦約克鎮(zhèn)號(hào)”與“約克,“船”與“船”的“簡(jiǎn)歷”與“cvs-10,”等。

壞的內(nèi)容:通過(guò)不正當(dāng)?shù)母袷?,拼寫錯(cuò)誤,冗長(zhǎng)的標(biāo)簽,斷字和類似的錯(cuò)誤創(chuàng)造,由用戶。

現(xiàn)在,你明白什么是標(biāo)簽蔓延和它如何負(fù)面影響你的網(wǎng)站,我們?nèi)绾尾拍芙鉀Q這個(gè)問(wèn)題的規(guī)模?

提出的解決方案

在糾正標(biāo)簽擴(kuò)展,我們有一些基本的(在表面上)的問(wèn)題來(lái)解決。我們需要有效地檢查數(shù)據(jù)庫(kù)中的每個(gè)標(biāo)記,并將它們分組,以便采取進(jìn)一步的行動(dòng)。首先,我們確定一個(gè)標(biāo)簽的質(zhì)量(有可能是有人搜索這個(gè)標(biāo)簽,它拼寫正確,它是商業(yè)的,它是用于許多產(chǎn)品)和第二,我們確定是否有另一個(gè)標(biāo)簽非常相似,它具有較高的質(zhì)量。

確定好的標(biāo)簽:我們定義了一個(gè)好的標(biāo)簽作為術(shù)語(yǔ)能夠貢獻(xiàn)的意義,并很容易作為一個(gè)索引頁(yè)在搜索結(jié)果。這也需要識(shí)別一個(gè)“主”標(biāo)簽來(lái)表示類似的術(shù)語(yǔ)組。

識(shí)別壞標(biāo)簽:我們想孤立的標(biāo)簽不應(yīng)該出現(xiàn)在我們的數(shù)據(jù)庫(kù)中,由于拼寫錯(cuò)誤,重復(fù),可憐的格式,高歧義,或可能導(dǎo)致低質(zhì)量的頁(yè)面。

好與壞標(biāo)簽標(biāo)簽:我們認(rèn)為我們的許多最初的“壞標(biāo)簽”可能是一個(gè)系列的副本,即復(fù)數(shù)/奇異、技術(shù)/俚語(yǔ),聯(lián)用/非聯(lián)用,動(dòng)詞,和其他的莖。也有可能是兩個(gè)短語(yǔ)指同一件事,像“約克船舶”和“美國(guó)航空母艦約克鎮(zhèn)號(hào)。“我們需要確定這些關(guān)系的每一個(gè)“壞”的標(biāo)簽。

對(duì)于這個(gè)項(xiàng)目的啟發(fā),我們的樣本標(biāo)簽數(shù)據(jù)庫(kù)包括超過(guò)2000000個(gè)“獨(dú)特”的標(biāo)簽,使這幾乎是不可能的壯舉,以手工完成。雖然理論上我們可以利用機(jī)械土耳其人或類似的平臺(tái)得到“手動(dòng)”審查,這種方法的早期測(cè)試被證明是不成功的。我們需要一個(gè)程序化的方法(實(shí)際上是一些方法),我們可以稍后在添加新標(biāo)簽時(shí)重現(xiàn)。

方法
保持心中的目標(biāo)識(shí)別好的標(biāo)簽,標(biāo)簽和標(biāo)簽的壞標(biāo)簽,好與壞的標(biāo)簽,我們雇了十幾個(gè)方法,包括:拼寫校正,出價(jià)值,標(biāo)簽的搜索量,獨(dú)特的訪客,標(biāo)簽數(shù)、堵塞、詞干提取、Jaccard指數(shù),Jaro Winkler距離波特,關(guān)鍵字規(guī)劃分組,維基百科歧,和k-均值的詞向量聚類。每一種方法都幫助我們確定標(biāo)簽是否有價(jià)值,如果沒有,幫助我們確定一個(gè)替代標(biāo)簽是有價(jià)值的。

拼寫校正

方法:一個(gè)明顯的問(wèn)題與用戶生成的內(nèi)容是拼寫錯(cuò)誤的發(fā)生。我們會(huì)經(jīng)常發(fā)現(xiàn)拼寫錯(cuò)誤,分號(hào)后的字母“L”或詞的開頭或結(jié)尾有意想不到的人物。幸運(yùn)的是,Linux具有內(nèi)置的拼寫檢查稱為一個(gè)我們能夠使用來(lái)解決大量的問(wèn)題。

好處:這提供了一個(gè)快速,早期的勝利,這是相當(dāng)容易識(shí)別壞標(biāo)簽時(shí),他們組成的詞不包括在字典或包括字符,這是簡(jiǎn)單的莫名其妙(如分號(hào)中間的一個(gè)字)。此外,如果修正后的詞或短語(yǔ)出現(xiàn)在標(biāo)簽列表,我們可以信任修正的短語(yǔ)作為一個(gè)潛在的好的標(biāo)簽,并將拼錯(cuò)的詞好標(biāo)簽。因此,這種方法有助于我們兩個(gè)過(guò)濾不良標(biāo)簽(拼錯(cuò)的詞)和找到好的標(biāo)簽(拼寫校正的術(shù)語(yǔ))

局限性:這種方法大的局限在于正確拼寫單詞或短語(yǔ)的組合對(duì)用戶或搜索引擎不一定有用。例如,數(shù)據(jù)庫(kù)中的標(biāo)簽很多都是多個(gè)標(biāo)簽在用戶空間分隔,而不是逗號(hào)分隔的提交標(biāo)簽串連。因此,標(biāo)簽可能包括拼寫正確的術(shù)語(yǔ),但仍然是無(wú)用的搜索值。此外,有大量字典的限制,特別是域名,品牌和互聯(lián)網(wǎng)俚語(yǔ)。為了適應(yīng)這種情況,我們?cè)黾恿艘粋€(gè)個(gè)人的字典,包括根據(jù)Quantcast排名最前的10000域,幾千個(gè)品牌,和一個(gè)俚語(yǔ)詞典。雖然這是有幫助的,仍然有一些錯(cuò)誤的建議,需要處理。例如,我們看到“purfect”正確的“好”盡管是一個(gè)貓的形象和流行文化有關(guān)的。我們也注意到一些用戶參考這句話“這款,”purrrfect,”purrrrfect,”purrfeck等,“最終,我們不得不依靠其他指標(biāo)來(lái)決定我們是否可信的拼寫建議。

買入價(jià)值

方法:雖然標(biāo)簽可能是好的,在某種意義上說(shuō),它是描述性的,我們想要的標(biāo)簽,商業(yè)相關(guān)。使用標(biāo)簽或標(biāo)簽短語(yǔ)的每次點(diǎn)擊成本證明是有用的,以確保這個(gè)詞可以吸引買家,而不僅僅是游客。

好處:這種方法的一個(gè)偉大的特點(diǎn)是,它往往有一個(gè)高信號(hào)噪聲比。大部分的標(biāo)簽,具有很高的材料往往是商業(yè)相關(guān)的搜索頻繁足以列入“好標(biāo)簽”。在許多情況下,我們可以確信一個(gè)標(biāo)簽只是在這個(gè)度量就好。

局限性:然而,出價(jià)值度量也有一些很大的局限性。對(duì)于初學(xué)者來(lái)說(shuō),谷歌關(guān)鍵詞策劃者的消歧問(wèn)題顯而易見。谷歌結(jié)合相關(guān)的關(guān)鍵詞搜索量和共產(chǎn)黨一起報(bào)告時(shí)的數(shù)據(jù),這意味著一個(gè)標(biāo)簽,如“Facbook”將返回相同的數(shù)據(jù)為“臉譜網(wǎng)”。顯然,我們寧愿地圖“Facbook”到“臉譜網(wǎng)”而不是保持標(biāo)簽,所以在某些情況下,中共度量不足以確定好標(biāo)簽。出價(jià)值的進(jìn)一步限制是獲取CPC數(shù)據(jù)的難點(diǎn)。谷歌現(xiàn)在需要運(yùn)行有效的AdWords廣告系列獲得中國(guó)共產(chǎn)黨的價(jià)值。這是不是簡(jiǎn)單的壯舉,看看5000000關(guān)鍵詞在谷歌關(guān)鍵詞規(guī)劃師,即使你有足夠的帳戶。幸運(yùn)的是,我們覺得歷史數(shù)據(jù)足夠可信,所以我們不需要獲得新的數(shù)據(jù)。

標(biāo)簽的搜索量

方法:與CPC相似,我們可以使用搜索量來(lái)確定標(biāo)簽的潛在值。不過(guò),我們必須小心,不要依賴于標(biāo)簽本身,因?yàn)闃?biāo)簽可能是通用的,它使流量與產(chǎn)品本身無(wú)關(guān)。例如,標(biāo)簽“美國(guó)航空母艦約克鎮(zhèn)號(hào)可能有幾百的搜索一個(gè)月,但“美國(guó)航空母艦約克鎮(zhèn)號(hào)T恤”獲得0。對(duì)于我們索引中的所有標(biāo)簽,我們跟蹤了標(biāo)簽的搜索量以及產(chǎn)品名稱,以確保我們對(duì)潛在產(chǎn)品流量有了很好的估計(jì)。

好處:像CPC,這個(gè)度量做了一個(gè)很好的工作,鞏固我們的標(biāo)簽數(shù)據(jù)集只關(guān)鍵字,有可能提供流量。在絕大多數(shù)情況下,如果“標(biāo)簽+產(chǎn)品”有搜索量,我們可以確信這是一個(gè)好術(shù)語(yǔ)。

局限性:不幸的是,這種方法是受害者的相同的消歧問(wèn)題,中共提出。由于谷歌集團(tuán)的條款一起,有可能在某些情況下,兩個(gè)標(biāo)簽將給予相同的指標(biāo)。例如:“浮船,”pontoonboat,“浮船,“浮船,”船劃船,”和“浮船”在同一流量組還包括像“游艇”、“游艇標(biāo)簽。”此外,沒有占在這個(gè)度量關(guān)鍵詞難度。一些標(biāo)簽,當(dāng)結(jié)合產(chǎn)品類型、產(chǎn)品關(guān)鍵詞,獲得可觀的流量卻永遠(yuǎn)是遙不可及的模板標(biāo)簽頁(yè)。

獨(dú)特的訪客

方法:這個(gè)方法是顯而易見的:保護(hù)已經(jīng)收到來(lái)自谷歌的流量標(biāo)記。我們出口了所有的標(biāo)簽從谷歌分析,已收到搜索流量從谷歌在過(guò)去12個(gè)月。一般來(lái)說(shuō),這應(yīng)該是一個(gè)相當(dāng)安全的條款列表。

好處:當(dāng)與客戶進(jìn)行實(shí)驗(yàn)工作時(shí),能夠給他們一個(gè)幾乎可以保證改進(jìn)的方案總是很好的。因?yàn)槲覀兡軌虮Wo(hù)標(biāo)簽已經(jīng)收到的交通標(biāo)簽他們好(在絕大多數(shù)情況下),我們可以確??蛻粲泻芨叩睦麧?rùn),從我們所做的變化和風(fēng)險(xiǎn)最小的任何交通損失。

局限性:不幸的是,即使這種方法并不好。如果一個(gè)產(chǎn)品(或一組產(chǎn)品)具有足夠高的權(quán)限,包括一個(gè)標(biāo)簽的差的變化,那么壞的變種將排名和接收流量。我們必須使用其他策略來(lái)驗(yàn)證我們的選擇,從這個(gè)方法,并設(shè)計(jì)了一種方法,以鼓勵(lì)標(biāo)簽交換索引的正確版本的期限。

標(biāo)簽數(shù)

描述:標(biāo)簽使用的頻率往往是一個(gè)強(qiáng)烈的信號(hào),我們可以信任的標(biāo)簽,尤其是當(dāng)與其他類似的標(biāo)簽相比。通過(guò)計(jì)算每個(gè)標(biāo)簽在網(wǎng)站上使用的次數(shù),我們可以將最后一組值得信賴的標(biāo)簽偏向于這些更受歡迎的術(shù)語(yǔ)。

好處:這是一個(gè)偉大的決勝指標(biāo),當(dāng)我們有兩個(gè)標(biāo)簽非常相似,但需要選擇只有一個(gè)。例如,有時(shí)一個(gè)詞組兩變種被完全接受(如版本和無(wú)連字符)。我們可以簡(jiǎn)單地推遲一個(gè)具有較高的標(biāo)簽數(shù)。

局限性:標(biāo)簽頻率的明顯限制是許多最頻繁的標(biāo)簽過(guò)于通用而不實(shí)用。標(biāo)簽“藍(lán)色”是不是特別有用,當(dāng)它只是幫助人們找到“藍(lán)色T恤”這個(gè)詞是

詞干提取

方法:詞干提取的工作類似于堵塞。然而,而不是使用一個(gè)規(guī)則集除信件到達(dá)干編輯的話,lemmatization試圖地圖的術(shù)語(yǔ),其最簡(jiǎn)單的詞典形式,如WordNet,并返回一個(gè)規(guī)范的“引理”這個(gè)詞。想想一個(gè)粗略的方式是詞干提取簡(jiǎn)化字。這里有一個(gè)API來(lái)檢查出。

好處:這種方法往往比堵塞更好。術(shù)語(yǔ)“船”,“運(yùn)”,“船”都映射到“船舶”,這種方法,而“航運(yùn)”或“托運(yùn)人”,這是具有不同的含義,盡管有相同的干,保留。您可以創(chuàng)建一個(gè)數(shù)組的“引理”從短語(yǔ)可以比較其他短語(yǔ)解決詞序問(wèn)題。這被證明是一個(gè)更可靠的方法分組比詞干的變化。

局限性:與許多方法一樣,映射相關(guān)術(shù)語(yǔ)的上下文可能是困難的。詞干提取可以上下文提供更好的過(guò)濾器,但這樣做通常依賴于詞的形式(名詞,形容詞,識(shí)別等)適當(dāng)?shù)赜成涞揭粋€(gè)根詞。由于用戶生成的內(nèi)容不一致,假設(shè)所有的詞都是形容詞形式(描述產(chǎn)品)或名詞形式(產(chǎn)品本身)是不準(zhǔn)確的。這種不一致可以呈現(xiàn)出瘋狂的結(jié)果。例如,“脫衣襪”的目的是作為一個(gè)標(biāo)簽,襪子的顏色帶在他們身上,如“條紋襪”,或它可能是“脫衣襪”或其他一些綁腿,這將是一個(gè)匹配只發(fā)現(xiàn)如果有其他產(chǎn)品和標(biāo)簽比較的背景。此外,它不創(chuàng)建所有相關(guān)的詞之間的關(guān)聯(lián),只是文本衍生工具,所以你仍然在尋找一個(gè)規(guī)范之間的郵差,快遞,托運(yùn)人等

Jaccard指數(shù)

方法:Jaccard指數(shù)是衡量交叉相似系數(shù)在聯(lián)盟?,F(xiàn)在,不要跑了,只是,其實(shí)很簡(jiǎn)單。

想象一下,你有兩堆3個(gè)彈珠:紅色,綠色和藍(lán)色的第一,紅色,綠色和黃色的第二。這兩個(gè)樁的“交集”是紅色和綠色,因?yàn)閮蓚€(gè)樁有這兩種顏色。“聯(lián)合”將是紅色,綠色,藍(lán)色和黃色,因?yàn)檫@是所有顏色的完整列表。Jaccard指數(shù)為2(紅色和綠色)除以4(紅色,綠色,藍(lán)色,黃色)。因此,這兩樁Jaccard指數(shù)將是5。較高的Jaccard指數(shù),更相似的兩套。

那么這與標(biāo)簽有什么關(guān)系呢?嗯,想象一下,我們有兩個(gè)標(biāo)簽:“海洋”和“海”,我們可以得到一個(gè)列表中的所有已標(biāo)記為“海洋”和“海洋產(chǎn)品。”最后,我們把這兩個(gè)集合的Jaccard指數(shù)。分?jǐn)?shù)越高,他們的相關(guān)性越大。也許我們發(fā)現(xiàn),70%的產(chǎn)品與標(biāo)簽“海洋”也有標(biāo)簽“海”,我們現(xiàn)在知道,這兩個(gè)是相當(dāng)好的相關(guān)。然而,當(dāng)我們運(yùn)行相同的測(cè)量比較“地下室”或“平,“我們發(fā)現(xiàn)他們只有Jaccard指數(shù)02。盡管它們?cè)谌宋锓矫娣浅O嗨疲鼈儏s意味著完全不同的東西。我們可以排除將兩個(gè)術(shù)語(yǔ)映射在一起。

優(yōu)點(diǎn):使用Jaccard指數(shù)的大好處是它可以讓我們找到高度相關(guān)的標(biāo)簽可能有共同的絕對(duì)沒有文本的特點(diǎn),很可能有一個(gè)過(guò)于相似或重復(fù)的結(jié)果集。雖然大多數(shù)的指標(biāo),我們認(rèn)為到目前為止幫助我們找到“好”或“壞”的標(biāo)簽,Jaccard指數(shù)可以幫助我們找到“相關(guān)”的標(biāo)簽,而無(wú)需做任何復(fù)雜的機(jī)器學(xué)習(xí)。

局限性:當(dāng)然有用,Jaccard指數(shù)的方法有其自身的問(wèn)題。我們遇到的大問(wèn)題是與標(biāo)簽一起使用幾乎所有的時(shí)間,但不是替代彼此。例如,考慮標(biāo)簽“魯思寶貝”和他的綽號(hào),“蘇丹特警”。后者只發(fā)生在產(chǎn)品的標(biāo)簽上也有“魯思寶貝”的標(biāo)簽(因?yàn)檫@是他的一個(gè)綽號(hào)),所以他們有很高的Jaccard指數(shù)。然而,谷歌并沒有將這兩個(gè)術(shù)語(yǔ)映射在一起,所以我們更喜歡保留這個(gè)昵稱,而不是簡(jiǎn)單地將其重定向到“貝貝魯思”,如果我們要確定什么時(shí)候我們應(yīng)該同時(shí)保留兩個(gè)標(biāo)簽,或者我們應(yīng)該將一個(gè)標(biāo)簽重定向到另一個(gè)標(biāo)簽時(shí),我們需要深入挖掘。作為一個(gè)獨(dú)立的,這種方法也并不充分,在確定的情況下,用戶總是拼錯(cuò)的標(biāo)簽或使用不正確的語(yǔ)法,他們的產(chǎn)品基本上沒有“聯(lián)盟成為孤兒。”

Jaro Winkler距離

方法:有幾個(gè)編輯距離和字符串相似性度量,我們?cè)谡麄€(gè)過(guò)程中使用。編輯距離僅僅是衡量一個(gè)單詞如何改變另一個(gè)單詞有多么困難。例如,最基本的編輯距離度量的Levenshtein距離之間的“Russ Jones”和“Russell Jones”是3(你要加“E”、“L”和“L”將Russ羅素)。這可以用來(lái)幫助我們找到類似的單詞和短語(yǔ)。在我們的例子中,我們使用一個(gè)特定的編輯距離的措施稱為“Jaro Winkler距離”使高優(yōu)先級(jí)的詞和短語(yǔ),起初是相似的。例如,“棒球”將更接近“Baseballer”比“籃球”因?yàn)椴町愂窃趯W(xué)期結(jié)束。

好處:編輯距離度量幫助我們找到許多標(biāo)簽非常相似的變種,特別是當(dāng)變量是不是拼寫錯(cuò)誤。這是特別有價(jià)值的使用與Jaccard指數(shù)指標(biāo)結(jié)合,因?yàn)槲覀兛梢詫⑸弦粋€(gè)字符無(wú)關(guān)的度量字符水平的度量(即一個(gè)關(guān)心標(biāo)簽中的字母和一個(gè)不)。

限制:編輯距離度量可以是一種愚蠢。根據(jù)Jaro Winkler的距離,“棒球”和“籃球”更相關(guān)的一個(gè)比“棒球”和“投手”和“捕手”,“團(tuán)團(tuán)”和“圓”有一個(gè)可怕的編輯距離度量,而“圓”和“磅”看上去很相似。編輯距離根本不能孤立使用找到類似的標(biāo)簽。

關(guān)鍵詞規(guī)劃分組

方法:雖然谷歌的選擇相結(jié)合的關(guān)鍵字相似的關(guān)鍵字預(yù)測(cè)交通問(wèn)題,它實(shí)際上為我們提供了一種新的方法來(lái)識(shí)別高度相關(guān)的術(shù)語(yǔ)。每當(dāng)兩個(gè)標(biāo)簽共享相同的指標(biāo),從谷歌關(guān)鍵詞規(guī)劃師(每月平均流量,歷史流量,CPC,和競(jìng)爭(zhēng)),我們可以得出這樣的結(jié)論:有一個(gè)增加的機(jī)會(huì),這兩個(gè)相互關(guān)聯(lián)。

好處:這種方法對(duì)于縮寫詞(特別是難以檢測(cè))非常有用。雖然谷歌集團(tuán)共同首席運(yùn)營(yíng)官和首席運(yùn)營(yíng)官,你可以想象,像上面提到的標(biāo)準(zhǔn)方法可能有問(wèn)題檢測(cè)的關(guān)系。

限制:這種方法大的缺點(diǎn)是,它創(chuàng)造了眾多的誤報(bào)少受歡迎的條款。有太多的關(guān)鍵詞,每年的搜索量平均為10,每月搜索10次,并有黨和競(jìng)爭(zhēng)的0。因此,我們不得不限制使用這種方法更流行的術(shù)語(yǔ),只有極少數(shù)的比賽。

維基百科的消歧

方法:上面的許多方法是很好的分組相似/相關(guān)的條款,但不提供一個(gè)高信心的方法確定“主”的術(shù)語(yǔ)或短語(yǔ)代表一組相關(guān)/重復(fù)的術(shù)語(yǔ)。雖然可以考慮測(cè)試所有標(biāo)簽對(duì)英語(yǔ)語(yǔ)言模型,缺乏流行文化的引用和短語(yǔ),使它不可靠。為了有效地做到這一點(diǎn),我們發(fā)現(xiàn)維基百科是一個(gè)值得信賴的來(lái)源,以確定適當(dāng)?shù)钠磳?,時(shí)態(tài),格式和詞序?yàn)槿魏谓o定的標(biāo)簽。例如,如果用戶標(biāo)記的產(chǎn)品為“魔戒”,“魔戒”,“魔戒”,“很難確定哪些標(biāo)簽應(yīng)該是選(當(dāng)然我們不需要所有的3)。如果你搜索維基百科的這些條款,你會(huì)看到他們重定向到標(biāo)題為“指環(huán)王”的網(wǎng)頁(yè),在許多情況下,我們可以相信他們的典型變體作為“好標(biāo)簽”,請(qǐng)注意,我們不鼓勵(lì)刮任何網(wǎng)站或違反其使用條款。維基百科確實(shí)提供了一個(gè)可以用于研究目的的整個(gè)數(shù)據(jù)庫(kù)的導(dǎo)出。

好處:當(dāng)標(biāo)簽可以映射到維基百科條目,這種方法被證明是一個(gè)非常有效的提供驗(yàn)證,標(biāo)簽有潛在的價(jià)值,或創(chuàng)建一個(gè)參考點(diǎn)的相關(guān)標(biāo)簽。


k-均值向量聚類

方法:最后,我們?cè)噲D將標(biāo)簽為一個(gè)子集更有意義的標(biāo)簽使用Word嵌入和k-均值聚類。一般來(lái)說(shuō),參與的過(guò)程轉(zhuǎn)化為符號(hào)(單詞)的標(biāo)簽,然后精煉的詞性(名詞、動(dòng)詞、形容詞),和最后的lemmatizing令牌(“藍(lán)襯衫”變成了“藍(lán)衫”)。從那里,我們將所有標(biāo)記為一個(gè)自定義Word2vec嵌入模型的基礎(chǔ)上加入每個(gè)令牌陣列向量。我們創(chuàng)建了一個(gè)標(biāo)簽陣列和數(shù)據(jù)集的每個(gè)標(biāo)簽的向量數(shù)組,然后跑k-均值的標(biāo)簽的總數(shù)為百分之10多點(diǎn)的價(jià)值。起初,我們測(cè)試了30000個(gè)標(biāo)簽,并取得了合理的結(jié)果。

以上分類列被選中的Kmeans質(zhì)心。注意如何處理匹配的“海邊”到“海灘”和“沿海”到“海灘”。

好處:這種方法似乎做了一個(gè)很好的工作找到標(biāo)簽和他們的類別之間的語(yǔ)義比字符驅(qū)動(dòng)。“藍(lán)色襯衫”可能與“服裝”相匹配,這顯然是不可能的,因?yàn)樵谙蛄靠臻g中沒有語(yǔ)義關(guān)系。

局限性:最終,我們遇到的主要缺點(diǎn)是試圖運(yùn)行k-均值滿二百萬(wàn)標(biāo)簽而結(jié)束了200000類(重心)。sklearn Python允許多個(gè)并行工作,但只有在質(zhì)心的初始化,在這種情況下是11的意思,即使你跑在60核心處理器,并行工作的數(shù)量被初始化的數(shù)量有限,在這種情況下,又是11。我們嘗試PCA(主成分分析),以減少矢量尺寸(300至10),但結(jié)果總體較差。最后,因?yàn)榍度胪ǔJ腔跅l件概率封閉語(yǔ)料庫(kù)中對(duì)他們進(jìn)行訓(xùn)練了,有比賽,你可以理解為什么他們匹配,但顯然沒有正確的類別(如“第十九個(gè)世紀(jì)的藝術(shù)”被選為一類“第十八世紀(jì)的藝術(shù)”)。最后,環(huán)境問(wèn)題和字嵌入顯然遭受認(rèn)識(shí)的差異之間的“鴨子”(動(dòng)物)和“鴨子”(行動(dòng))。

把它一起

使用上述方法的組合,我們能夠開發(fā)出一系列的方法的信心分?jǐn)?shù),可以應(yīng)用到任何標(biāo)簽在我們的數(shù)據(jù)集,產(chǎn)生一個(gè)啟發(fā)式如何考慮每個(gè)標(biāo)簽前進(jìn)。這些是案例級(jí)別的戰(zhàn)略,以確定適當(dāng)?shù)姆椒?。我們表示如下?/p>

好標(biāo)簽:這主要是作為我們的“不接觸”的條款已經(jīng)收到來(lái)自谷歌的流量列表。經(jīng)過(guò)一些確認(rèn)練習(xí),名單擴(kuò)展到包括獨(dú)特的條款與排名潛力,商業(yè)吸引力,獨(dú)特的產(chǎn)品集,以提供給客戶。例如,這個(gè)類別的啟發(fā)式可能看起來(lái)像這樣:

如果標(biāo)簽與維基百科條目相同

標(biāo)簽+產(chǎn)品估計(jì)搜索流量和

標(biāo)簽有CPC值

馬克“好標(biāo)簽”

好的標(biāo)簽:這代表,我們想保留的產(chǎn)品和他們的描述有關(guān),因?yàn)樗麄兛梢栽诰W(wǎng)站上用來(lái)添加背景的一頁(yè),但不保證自己的可轉(zhuǎn)位的空間。這些標(biāo)簽映射被重定向或canonicaled到大師”,“但仍包含在一個(gè)網(wǎng)頁(yè)的主題相關(guān)度,自然語(yǔ)言查詢,長(zhǎng)尾搜索,例如,啟發(fā)這類可能看起來(lái)像這樣:

如果標(biāo)簽與維基百科條目相同,但

標(biāo)簽+產(chǎn)品沒有搜索量

矢量標(biāo)簽匹配“好標(biāo)簽”

馬克作為“好標(biāo)簽”,并重定向到“好標(biāo)簽”

別壞標(biāo)簽:這個(gè)分組代表壞標(biāo)簽映射到一個(gè)置換。這些標(biāo)簽將被刪除,并用修正的版本替換。這是最常見的拼寫錯(cuò)誤或發(fā)現(xiàn)通過(guò)堵塞/詞干提取等,占主導(dǎo)地位的替代被確定。例如,這個(gè)類別的啟發(fā)式可能看起來(lái)像這樣:

如果標(biāo)簽是不相同的維基百科或向量空間和

標(biāo)簽+產(chǎn)品沒有搜索量

標(biāo)簽沒有卷

標(biāo)簽維基百科條目匹配“好標(biāo)簽”

馬克為“映射”的壞標(biāo)簽

要?jiǎng)h除的壞標(biāo)簽:這些標(biāo)簽被標(biāo)記為不好標(biāo)簽的壞標(biāo)簽。從本質(zhì)上講,這些需要從我們的數(shù)據(jù)庫(kù)完全刪除。這最后一組代表最壞的最壞的感覺,標(biāo)簽的存在可能會(huì)被認(rèn)為是一個(gè)負(fù)面指標(biāo)的網(wǎng)站質(zhì)量??紤]了字符長(zhǎng)度的標(biāo)簽,缺乏維基百科條目,無(wú)法映射到字向量,沒有以前的流量,沒有預(yù)測(cè)的流量或CPC值,等等,在許多情況下,這些都是廢話短語(yǔ)。

總之,我們能夠減少87.5%的標(biāo)簽的數(shù)量,鞏固了網(wǎng)站的一個(gè)合理的,有針對(duì)性的,有用的一組標(biāo)簽,適當(dāng)?shù)亟M織語(yǔ)料庫(kù),而不浪費(fèi)爬行預(yù)算或限制用戶參與。


結(jié)論:高級(jí)白帽SEO

這是近九年前,一個(gè)著名的黑帽SEO稱為白帽SEO是簡(jiǎn)單、陳舊,缺乏創(chuàng)新和。他聲稱,“先進(jìn)的白帽SEO”是一個(gè)矛盾--它根本不存在。我很自豪當(dāng)時(shí)回應(yīng)他的要求使用數(shù)字技術(shù)的蜂巢我稱它為“第二頁(yè)偷獵。”這是一個(gè)偉大的技術(shù),但它蒼白的方法,我們現(xiàn)在看到的比較成熟的今天。我從來(lái)沒有設(shè)想的深度或廣度的技術(shù)水平,這將開發(fā)白帽子SEO社區(qū)處理獨(dú)特但持久的問(wèn)題面臨著網(wǎng)站管理員。

我真誠(chéng)地懷疑這里的大多數(shù)讀者將有特定的標(biāo)簽蔓延的問(wèn)題,上面所述。我會(huì)很幸運(yùn),如果你們中的一些人已經(jīng)碰到它。我希望這篇文章可以糾正我們?nèi)魏温嫲酌盨EO那么膚淺或停滯和激勵(lì)那些在我們的空間給他們工作。

文章標(biāo)題:解決標(biāo)簽,爬行,以及用戶生成的內(nèi)容
URL標(biāo)題:http://muchs.cn/news/20755.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App設(shè)計(jì)、網(wǎng)站改版小程序開發(fā)、手機(jī)網(wǎng)站建設(shè)、服務(wù)器托管關(guān)鍵詞優(yōu)化

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

營(yíng)銷型網(wǎng)站建設(shè)