網(wǎng)站優(yōu)化之防止網(wǎng)站被采集

2016-08-09    分類: 網(wǎng)站建設(shè)

采集就是使用程序通過自動(dòng)化操作復(fù)制數(shù)據(jù)。
首先說明,只要是能讓瀏覽器訪問的,就沒有不能采集的。
但是可以通過一定的手段讓采集變得非常麻煩,進(jìn)而在大量數(shù)據(jù)的情況下延遲采集完成時(shí)間,加大采集難度。
一般的情況略過不說,幾種情況比較特別的:
1、驗(yàn)證來路,cookie,session這些,比如PHP可以用fsockopen自定義HTTPHeader,基本上這些方法沒什么效果。
2、限速,限制某段時(shí)間內(nèi)打開頁面數(shù)量。這個(gè)只是推遲了下,大部分時(shí)間效果一般。比如某站限制一分鐘之內(nèi)只能打開30個(gè)網(wǎng)頁,頁面大小平均30K,則用迅雷批量下載就OK了,設(shè)置限速為2K,一覺醒來什么都好了。這個(gè)方法效果也基本沒有。
3、比較特別的方法,設(shè)置一個(gè)數(shù)量級(jí)的閥值,達(dá)到這樣數(shù)量后,必須驗(yàn)證方能繼續(xù),比如打開10個(gè)頁面需要輸入驗(yàn)證碼,這個(gè)時(shí)候只需要保證驗(yàn)證碼不可識(shí)別,分配一個(gè)session,以后的瀏覽過程中用session保證用戶合法性,這樣不影響后續(xù)訪問,同時(shí)可以有效防止采集。
4、第三條對(duì)蜘蛛是致命的,此時(shí)可通過手機(jī)蜘蛛IP段,放行,其它的按照嚴(yán)格規(guī)則來。
5、3+4真是無敵的嗎?遠(yuǎn)非可以高枕無憂,比如此站有10萬個(gè)頁面,則設(shè)置100個(gè)代理,在閥值前循環(huán)使用代理,這樣實(shí)際上繞過了3的限制。
6、還有別的辦法嗎?不能,因?yàn)槟愕木W(wǎng)站能用瀏覽器打開。

網(wǎng)頁標(biāo)題:網(wǎng)站優(yōu)化之防止網(wǎng)站被采集
轉(zhuǎn)載源于:http://www.muchs.cn/news/41719.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供搜索引擎優(yōu)化App設(shè)計(jì)、面包屑導(dǎo)航、企業(yè)建站商城網(wǎng)站、云服務(wù)器

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

綿陽服務(wù)器托管