查看ip是否是真的百度蜘蛛Baiduspider的IP

最后查看網(wǎng)站日志發(fā)現(xiàn)有很多陌生的ip一直在訪問網(wǎng)站,想知道這些ip是別人在爬網(wǎng)站數(shù)據(jù),還是直接有用的ip呢?


創(chuàng)新互聯(lián)建站介紹反查IP識(shí)別真假百度蜘蛛

windows系統(tǒng)

??可以使用nslookup ip命令反解ip來 判斷是否來自Baiduspider的抓取。

??打開命令處理器

??輸入nslookup xxx.xxx.xxx.xxx(IP地址)就能解析ip, 來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以.baidu.com 或.baidu.jp 的格式命名,非 .baidu.com 或 .baidu.jp 即為冒充。

linux系統(tǒng)

??可以使用host ip命令反解ip來判斷是否來自Baiduspider的抓取。Baiduspider的hostname以 .baidu.com 或 .baidu.jp 的格式命名,非 .baidu.com 或 .baidu.jp 即為冒充。

mac os系統(tǒng)

??可以使用dig 命令反解ip來 判斷是否來自Baiduspider的抓取。

??打開命令處理器 輸入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以 .baidu.com 或.baidu.jp 的格式命名,非 .baidu.com 或 .baidu.jp 即為冒充。


查看ip是否是真的百度蜘蛛Baiduspider

我們經(jīng)常在網(wǎng)站日志中看到各種爬蟲抓取記錄,最常見的就是百度蜘蛛等搜索引擎,以百度為例,通常我們判斷是否是百度蜘蛛抓取看用戶代理字符串也就是User-Agent,但是User-Agent是可以模擬的,所以很多時(shí)候也會(huì)有虛假的模擬偽裝成百度蜘蛛來抓取,這時(shí)候我們就需要學(xué)會(huì)分辨真?zhèn)巍?/p>

百度蜘蛛IP


首先是百度User-Agent代理字符串,百度官方公布的有如下User-Agent:

移動(dòng)UA:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

PC UA:Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

新增渲染UA:

移動(dòng)UA:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

PC UA:Mozilla/5.0 (compatible;Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

需要注意的是百度新增了一個(gè)移動(dòng)的User-Agent,和一個(gè)PC的User-Agent。我們知道了百度蜘蛛的User-Agent,如何正確識(shí)別和判斷某條抓取是否是真實(shí)的百度蜘蛛。

如何識(shí)別百度蜘蛛

1、選我們需要通過關(guān)鍵詞找User-Agent中是否包含Baiduspider;

2、如果想?yún)^(qū)分移動(dòng)和PC的蜘蛛的話,我們還需要在結(jié)果中再進(jìn)行關(guān)鍵詞過濾,移動(dòng)端的User-Agent包含:Android 、iPhone、Mobile等三個(gè)中至少一個(gè)。

3、通過上述操作我們可以分辨出哪些抓取是百度蜘蛛抓取,但并不能分辨真?zhèn)巍?/p>


創(chuàng)新互聯(lián)實(shí)戰(zhàn)實(shí)操判斷百度蜘蛛真?zhèn)?

1、驗(yàn)證百度蜘蛛真?zhèn)挝覀円话闶褂玫氖荄NS反查IP的方式來進(jìn)行判斷,選我們需要找到上述抓取記錄中蜘蛛的IP。

DNS反查IPnslookup

DNS反查IPnslookup

2、以windows操作系統(tǒng)為例,開始運(yùn)行中輸入cmd 彈出窗口中輸入 nslookup (上述IP地址),判斷百度蜘蛛的真?zhèn)?,真是百度蜘蛛結(jié)果中會(huì)返回以*.baidu.com 或*.baidu.jp 的格式命名hostname,如不包含則為假百度蜘蛛。

3、也有在線百度蜘蛛真?zhèn)尾樵児ぞ呖芍苯硬樵儭?/p>


除了上面的方面我們還可以了解一些百度蜘蛛IP段判斷網(wǎng)站是什么樣的百度蜘蛛在爬取網(wǎng)站內(nèi)容

百度蜘蛛IP優(yōu)質(zhì)段

116.179.32.*:新版百度蜘蛛,高權(quán)重段,一般抓取文章頁。IP段位于山西陽泉聯(lián)通。百度云計(jì)算陽泉中心位于世界最大中文搜索引擎百度公司創(chuàng)始人李彥宏的家鄉(xiāng)山西省陽泉經(jīng)濟(jì)開發(fā)區(qū)東區(qū)。

220.181.108.75:重點(diǎn)抓取更新文章的內(nèi)頁達(dá)到90%,8%抓取首頁,2%其他。權(quán)重IP 段,爬過的文章或首頁基本24小時(shí)放出來。

220.181.108.77:專用抓首頁IP權(quán)重段,一般返回代碼是304 0 0 代表未更新。

220.181.108.80:專用抓取首頁IP權(quán)重段,一般返回代碼是304 0 0 代表未更新。

220.181.108.82:抓取tag頁面。

220.181.108.83:專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。

220.181.108.86:專用抓取首頁IP權(quán)重段,一般返回代碼是304 0 0 代表未更新。

220.181.108.89:專用抓取首頁IP權(quán)重段,一般返回代碼是304 0 0 代表未更新。

220.181.108.91:屬于綜合的,主要抓取首頁和內(nèi)頁或其他,屬于權(quán)重IP 段,爬過的文章或首頁基本24小時(shí)放出來。

220.181.108.92:同上98%抓取首頁,可能還會(huì)抓取其他 (不是指內(nèi)頁),屬于權(quán)重IP段此段爬過的文章或首頁基本24小時(shí)放出來。

220.181.108.94:專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。

220.181.108.93:重點(diǎn)抓取內(nèi)頁,爬過的文章或首頁基本24小時(shí)放出來。

220.181.108.95:這個(gè)是百度抓取首頁的專用IP,如是220.181.108段的話,基本來說你的網(wǎng)站會(huì)天天隔夜快照,絕對(duì)錯(cuò)不了的。

220.181.108.97:專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。

220.181.108.115:重點(diǎn)抓取內(nèi)頁,爬過的文章或首頁基本24小時(shí)放出來。

220.181.108.119:專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。

220.181.108.156 重點(diǎn)抓取內(nèi)頁,爬過的文章或首頁基本24小時(shí)放出來。

220.181.108.158:重點(diǎn)抓取內(nèi)頁,爬過的文章或首頁基本24小時(shí)放出來。

220.181.108.184:重點(diǎn)抓取內(nèi)頁,爬過的文章或首頁基本24小時(shí)放出來。

220.181.108.180:重點(diǎn)抓取內(nèi)頁,爬過的文章或首頁基本24小時(shí)放出來。

220.181.108.*:主要是抓取首頁占80%,內(nèi)頁占30%,這此爬過的文章或首頁,絕對(duì)24小時(shí)內(nèi)放出來和隔夜快照的!一般成功抓取返回代碼都是 200 0 0返回304 0 0代表網(wǎng)站沒更新,蜘蛛來過,如果是 200 0 64別擔(dān)心這不是K站,可能是網(wǎng)站是動(dòng)態(tài)的,所以返回就是這個(gè)代碼。

百度蜘蛛IP普通段

60.172.229.61:代表百度蜘蛛IP造訪,準(zhǔn)備抓取你東西,抓取網(wǎng)頁的百度蜘蛛。

61.129.45.72:代表百度蜘蛛IP造訪,準(zhǔn)備抓取你東西,抓取網(wǎng)頁的百度蜘蛛。

61.135.162.*:代表百度蜘蛛IP造訪,準(zhǔn)備抓取你東西,抓取網(wǎng)頁的百度蜘蛛。

61.135.168.*:抓取圖片的百度蜘蛛。

121.14.89.* :這個(gè)ip段作為度過新站考察期,很少。通常有它光顧的時(shí)候,網(wǎng)站基本上是沒有排名的。

123.15.**.**:百度圖片爬蟲。

123.125.66.*:代表百度蜘蛛IP造訪,準(zhǔn)備抓取你東西,抓取網(wǎng)頁的百度蜘蛛。

123.125.71.* 抓取內(nèi)頁收錄的,權(quán)重較低,爬過此段的內(nèi)頁文章暫時(shí)被收錄但不放出來,因不是原創(chuàng)或采集文章。

124.166.232.*:可能為新版新站專屬百度蜘蛛。

125.90.88.*:廣東茂名市電信也屬于百度蜘蛛IP 主要造成成分,是新上線站較多,還有使用過站長工具,或SEO綜合檢測造成的,沒有多大用。

159.226.50.* :百度蜘蛛。

180.76.5.*:百度蜘蛛北京聯(lián)通。

180.76.5.87:百度蜘蛛北京電信。

210.72.225.*:這個(gè)ip段不間斷巡邏各站,就是路過一下。

220.181.7.*:代表百度蜘蛛IP造訪,準(zhǔn)備抓取你東西,抓取網(wǎng)頁的百度蜘蛛。

百度蜘蛛IP垃圾段

百度自家

61.135.186.* :百度聯(lián)盟爬蟲,百度統(tǒng)計(jì)。

61.135.165.134:百度競價(jià)蜘蛛北京聯(lián)通。

61.135.169.*:百度公司內(nèi)部專用IP;

111.206.198.*:百度渲染蜘蛛,專門抓取js、css和圖片用的,百度站長工具落地著陸頁檢測IP。

111.206.221.*:百度渲染蜘蛛,專門抓取js、css和圖片用的,百度站長工具落地著陸頁檢測IP。

117.34.74.66:百度競價(jià)蜘蛛西安市電信。

118.122.188.194:百度競價(jià)蜘蛛。

119.63.196.9:百度競價(jià)蜘蛛。

123.125.67.* :百度站長工具的IP sitemap。

125.39.78.185:百度競價(jià)蜘蛛天津聯(lián)通。

203.119.241.*:百度主動(dòng)推送的IP。

220.181.51.*:百度站長工具的IP sitemap。

220.181.108.120:抓取/robots.txt。

220.181.108.146:抓取/robots.txt。

百度沙盒

123.125.68.*:這個(gè)蜘蛛經(jīng)常來,別的來的少,表示網(wǎng)站可能要進(jìn)入沙盒了,或被者降權(quán)。

180.76.15.*:降權(quán)蜘蛛,有這個(gè)ip說明網(wǎng)站不會(huì)在收錄了,一直到這個(gè)ip段消失。

220.181.68.*:每天這個(gè)IP 段只增不減很有可能進(jìn)沙盒或K站。

其他

42.194.242.213:搜外滴滴友鏈抓取專用蜘蛛。

61.147.98.146:站長工具模仿的百度蜘蛛。

61.188.39.16:站長工具模仿的百度蜘蛛。

113.98.254.245:站長工具模仿的百度蜘蛛。

117.21.220.245:站長工具模仿的百度蜘蛛。

117.28.255.42:站長工具模仿的百度蜘蛛。

121.10.141.* :114站長工具箱。

124.248.34.52:搜外站長工具蜘蛛。

180.149.130.*:偽裝百度蜘蛛IP。

222.77.187.33:該IP為站長站友鏈檢測偽蜘蛛IP位于福建省福州市。

本文標(biāo)題:查看ip是否是真的百度蜘蛛Baiduspider的IP
文章地址:http://muchs.cn/article20/dgcdjo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站設(shè)計(jì)、用戶體驗(yàn)、微信公眾號(hào)、建站公司、Google電子商務(wù)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站建設(shè)