搜索引擎如何識(shí)別非原創(chuàng)文章

2021-10-26    分類(lèi): 網(wǎng)站建設(shè)

在百度,谷歌等常用搜索引擎上我們搜索一個(gè)文章,常常會(huì)發(fā)現(xiàn)有大量相同的文章,這是由于網(wǎng)站上的文章大多數(shù)是互相抄錄而導(dǎo)致的,但是,隨著搜索引擎技術(shù)不斷地發(fā)展和進(jìn)步,搜索引擎識(shí)也能慢慢地認(rèn)別非創(chuàng)文章,下面我們來(lái)解析一下搜索引擎識(shí)別非原創(chuàng)文章的一些方法。

第一,搜索引擎會(huì)過(guò)濾漢字常用的符號(hào):,。!‘“”(){}[]等,同時(shí)也會(huì)過(guò)濾“地,的,了,呢,啊,”之類(lèi)的重復(fù)率非常之高的對(duì)排名無(wú)幫助的無(wú)用詞語(yǔ)。

第二,那就是根據(jù)關(guān)鍵詞來(lái)進(jìn)行有機(jī)的篩選,因?yàn)閷?duì)于網(wǎng)站的內(nèi)容來(lái)說(shuō)關(guān)鍵詞基本上是不會(huì)變的,而判定原創(chuàng)和偽原創(chuàng)主要的方法就是對(duì)關(guān)鍵詞的分析,如果兩篇文章的關(guān)鍵詞出現(xiàn)在相似的位置,那么就會(huì)被搜索引擎認(rèn)為這兩篇文章其中一篇是偽原創(chuàng)的!

這么說(shuō)大家恐怕還不是很明白,那么就讓筆者通過(guò)具體的實(shí)例來(lái)給大家做一下介紹!首先計(jì)算機(jī)會(huì)取出兩篇文章,然后就開(kāi)始通過(guò)程序分析了!

1:先設(shè)定一個(gè)比例,比如定義為M,標(biāo)注按照0.5的系數(shù)!

2:把文章a根據(jù)字?jǐn)?shù)分成三段,B篇文章也分成三段,然后就根據(jù)算法將文字轉(zhuǎn)變成計(jì)算機(jī)識(shí)別的符號(hào),這個(gè)符號(hào)我們姑且用aDSDFaGFaG來(lái)表示,當(dāng)然正確的符號(hào)應(yīng)該是按照二進(jìn)制代碼表示的!

3:當(dāng)把a(bǔ)、B兩篇文章都轉(zhuǎn)變成符號(hào)后,計(jì)算機(jī)就開(kāi)始來(lái)進(jìn)行比較分析了,這時(shí)候相似度會(huì)出現(xiàn)一個(gè)比例,如果超過(guò)第一步設(shè)定的比例是0.5的話,說(shuō)明兩篇文章是相似雷同的,一旦發(fā)現(xiàn)雷同搜素引擎自然就會(huì)尋找其他參數(shù)來(lái)決定誰(shuí)是原創(chuàng)和偽原創(chuàng)了!

第三,搜索引擎識(shí)別文章的偽原創(chuàng)主要是在原文章上對(duì)標(biāo)題識(shí)別,更改同義詞,刪減或增加一些語(yǔ)句,重寫(xiě)首尾兩段,修改段落的次序等來(lái)識(shí)別是否與原文章有所區(qū)別的目的。經(jīng)過(guò)以上步驟的修改,搜索引擎就可以識(shí)別文章是否是原創(chuàng)了,一般來(lái)說(shuō),在網(wǎng)站更新過(guò)一篇文章并且被收錄以后,他會(huì)把收錄在數(shù)據(jù)庫(kù)里的兩個(gè)相近內(nèi)容頁(yè)面X和Y各切割為很多個(gè)獨(dú)立的區(qū)塊(a),并將這些獨(dú)立的區(qū)塊進(jìn)行比較,當(dāng)這些區(qū)塊相同部分的數(shù)量超過(guò)了搜索引擎所設(shè)定的閥值Z的時(shí)候,他就會(huì)認(rèn)為X和Y其中有一個(gè)是轉(zhuǎn)載的內(nèi)容。這里把內(nèi)容分成a塊區(qū)域,即指搜索引擎的分詞技術(shù)。判斷重復(fù)區(qū)塊是否超過(guò)閥值Z,就是指搜索引擎的索引技術(shù)。當(dāng)然,X 和Y的值是搜索引擎自己的算法設(shè)定的,不同的搜索引擎算法的設(shè)定也不同,我們更是無(wú)從得知,不過(guò)我們可以從上面的模型分析出很多有用的東西。

第一,X值和Y值決定了搜索引擎判斷轉(zhuǎn)載內(nèi)容的能力。Z值越大,a值越小時(shí),搜索引擎分辨轉(zhuǎn)載內(nèi)容的能力就越高;反之,就越低。這兩個(gè)值是由搜索引擎算法間的協(xié)調(diào)和算法所消耗的資源等多方面因素決定的,所以搜索引擎并不會(huì)一味追求高的分辨能力。

第二,從模型中可以看出上面所提到的偽原創(chuàng)辦法對(duì)搜索引擎并非十分有效。他們是通過(guò)分區(qū)來(lái)判斷內(nèi)容的重復(fù)性,與內(nèi)容的順序沒(méi)有很大關(guān)系,所以調(diào)整段落次序的方法是并不可行。其他的幾種偽原創(chuàng)方法,包括增減、重寫(xiě)內(nèi)容,替換同義詞等,它們的有效性在一定程度上由N值和M值大小所決定。搜索引擎發(fā)展至今,算法已經(jīng)頗為成熟,分辨內(nèi)容重復(fù)的能力也已經(jīng)十分有效了,所以增加、刪除內(nèi)容,替換部分內(nèi)容并不能讓搜索引擎將偽原創(chuàng)的文章當(dāng)做原創(chuàng)了。

通上如上幾種方法,搜索引擎基本上可以識(shí)別90%的文章是否為原創(chuàng)文章,而搜索引擎識(shí)別是否為原創(chuàng)文章有更多的方法。

本文標(biāo)題:搜索引擎如何識(shí)別非原創(chuàng)文章
轉(zhuǎn)載來(lái)于:http://www.muchs.cn/news40/132940.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供移動(dòng)網(wǎng)站建設(shè)品牌網(wǎng)站制作、網(wǎng)站改版全網(wǎng)營(yíng)銷(xiāo)推廣、響應(yīng)式網(wǎng)站網(wǎng)站排名

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都網(wǎng)頁(yè)設(shè)計(jì)公司