搜索引擎如何識(shí)別非原創(chuàng)文章

2021-10-26 分類(lèi)：網(wǎng)站建設(shè)

在百度，谷歌等常用搜索引擎上我們搜索一個(gè)文章，常常會(huì)發(fā)現(xiàn)有大量相同的文章，這是由于網(wǎng)站上的文章大多數(shù)是互相抄錄而導(dǎo)致的，但是，隨著搜索引擎技術(shù)不斷地發(fā)展和進(jìn)步，搜索引擎識(shí)也能慢慢地認(rèn)別非創(chuàng)文章，下面我們來(lái)解析一下搜索引擎識(shí)別非原創(chuàng)文章的一些方法。

第一，搜索引擎會(huì)過(guò)濾漢字常用的符號(hào):,。!‘“”(){}[]等，同時(shí)也會(huì)過(guò)濾“地，的，了，呢，啊，”之類(lèi)的重復(fù)率非常之高的對(duì)排名無(wú)幫助的無(wú)用詞語(yǔ)。

第二，那就是根據(jù)關(guān)鍵詞來(lái)進(jìn)行有機(jī)的篩選，因?yàn)閷?duì)于網(wǎng)站的內(nèi)容來(lái)說(shuō)關(guān)鍵詞基本上是不會(huì)變的，而判定原創(chuàng)和偽原創(chuàng)主要的方法就是對(duì)關(guān)鍵詞的分析，如果兩篇文章的關(guān)鍵詞出現(xiàn)在相似的位置，那么就會(huì)被搜索引擎認(rèn)為這兩篇文章其中一篇是偽原創(chuàng)的!

這么說(shuō)大家恐怕還不是很明白，那么就讓筆者通過(guò)具體的實(shí)例來(lái)給大家做一下介紹!首先計(jì)算機(jī)會(huì)取出兩篇文章，然后就開(kāi)始通過(guò)程序分析了!

1：先設(shè)定一個(gè)比例，比如定義為M，標(biāo)注按照0.5的系數(shù)!

2：把文章a根據(jù)字?jǐn)?shù)分成三段，B篇文章也分成三段，然后就根據(jù)算法將文字轉(zhuǎn)變成計(jì)算機(jī)識(shí)別的符號(hào)，這個(gè)符號(hào)我們姑且用aDSDFaGFaG來(lái)表示，當(dāng)然正確的符號(hào)應(yīng)該是按照二進(jìn)制代碼表示的!

3：當(dāng)把a(bǔ)、B兩篇文章都轉(zhuǎn)變成符號(hào)后，計(jì)算機(jī)就開(kāi)始來(lái)進(jìn)行比較分析了，這時(shí)候相似度會(huì)出現(xiàn)一個(gè)比例，如果超過(guò)第一步設(shè)定的比例是0.5的話，說(shuō)明兩篇文章是相似雷同的，一旦發(fā)現(xiàn)雷同搜素引擎自然就會(huì)尋找其他參數(shù)來(lái)決定誰(shuí)是原創(chuàng)和偽原創(chuàng)了!

第三，搜索引擎識(shí)別文章的偽原創(chuàng)主要是在原文章上對(duì)標(biāo)題識(shí)別，更改同義詞，刪減或增加一些語(yǔ)句，重寫(xiě)首尾兩段，修改段落的次序等來(lái)識(shí)別是否與原文章有所區(qū)別的目的。經(jīng)過(guò)以上步驟的修改，搜索引擎就可以識(shí)別文章是否是原創(chuàng)了，一般來(lái)說(shuō)，在網(wǎng)站更新過(guò)一篇文章并且被收錄以后，他會(huì)把收錄在數(shù)據(jù)庫(kù)里的兩個(gè)相近內(nèi)容頁(yè)面X和Y各切割為很多個(gè)獨(dú)立的區(qū)塊(a)，并將這些獨(dú)立的區(qū)塊進(jìn)行比較，當(dāng)這些區(qū)塊相同部分的數(shù)量超過(guò)了搜索引擎所設(shè)定的閥值Z的時(shí)候，他就會(huì)認(rèn)為X和Y其中有一個(gè)是轉(zhuǎn)載的內(nèi)容。這里把內(nèi)容分成a塊區(qū)域，即指搜索引擎的分詞技術(shù)。判斷重復(fù)區(qū)塊是否超過(guò)閥值Z，就是指搜索引擎的索引技術(shù)。當(dāng)然，X 和Y的值是搜索引擎自己的算法設(shè)定的，不同的搜索引擎算法的設(shè)定也不同，我們更是無(wú)從得知，不過(guò)我們可以從上面的模型分析出很多有用的東西。

第一，X值和Y值決定了搜索引擎判斷轉(zhuǎn)載內(nèi)容的能力。Z值越大，a值越小時(shí)，搜索引擎分辨轉(zhuǎn)載內(nèi)容的能力就越高;反之，就越低。這兩個(gè)值是由搜索引擎算法間的協(xié)調(diào)和算法所消耗的資源等多方面因素決定的，所以搜索引擎并不會(huì)一味追求高的分辨能力。

第二，從模型中可以看出上面所提到的偽原創(chuàng)辦法對(duì)搜索引擎并非十分有效。他們是通過(guò)分區(qū)來(lái)判斷內(nèi)容的重復(fù)性，與內(nèi)容的順序沒(méi)有很大關(guān)系，所以調(diào)整段落次序的方法是并不可行。其他的幾種偽原創(chuàng)方法，包括增減、重寫(xiě)內(nèi)容，替換同義詞等，它們的有效性在一定程度上由N值和M值大小所決定。搜索引擎發(fā)展至今，算法已經(jīng)頗為成熟，分辨內(nèi)容重復(fù)的能力也已經(jīng)十分有效了，所以增加、刪除內(nèi)容，替換部分內(nèi)容并不能讓搜索引擎將偽原創(chuàng)的文章當(dāng)做原創(chuàng)了。

通上如上幾種方法，搜索引擎基本上可以識(shí)別90%的文章是否為原創(chuàng)文章，而搜索引擎識(shí)別是否為原創(chuàng)文章有更多的方法。

本文標(biāo)題：搜索引擎如何識(shí)別非原創(chuàng)文章
轉(zhuǎn)載來(lái)于：http://www.muchs.cn/news40/132940.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供移動(dòng)網(wǎng)站建設(shè)、品牌網(wǎng)站制作、網(wǎng)站改版、全網(wǎng)營(yíng)銷(xiāo)推廣、響應(yīng)式網(wǎng)站、網(wǎng)站排名

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容