小編給大家分享一下如何從UserAgent識(shí)別搜索引擎并判斷真假蜘蛛,希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去探討吧!
創(chuàng)新互聯(lián)公司從2013年成立,是專(zhuān)業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項(xiàng)目網(wǎng)站制作、做網(wǎng)站網(wǎng)站策劃,項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢(mèng)想脫穎而出為使命,1280元寧津做網(wǎng)站,已為上家服務(wù),為寧津各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話(huà):18980820575
一般搜索引擎去爬取一個(gè)網(wǎng)站時(shí),首先是去讀取網(wǎng)站的robots.txt 文件,看看網(wǎng)站管理員有沒(méi)有在該文件設(shè)置禁止某些蜘蛛,或禁止訪(fǎng)問(wèn)
哪些路徑。然而一些流氓蜘蛛不會(huì)顧及robots.txt 文件,想爬哪就爬哪。這種情況管理員只能通過(guò)應(yīng)用程序去識(shí)別判斷,是否限制某些訪(fǎng)
問(wèn)。
識(shí)別搜索引擎
通過(guò)UserAgent 字符串來(lái)識(shí)別,下面例子是使用Go 來(lái)實(shí)現(xiàn)
簡(jiǎn)單的是通過(guò)正則來(lái)識(shí)別:
spiderReg = regexp.MustCompile(`(?i)bot|crawl|spider|slurp|sohu-search|lycos|robozilla|google|Baidu`)
上面的正則就能識(shí)別大多數(shù)搜索引擎,使用方法:
if spiderReg.MatchString(r.Header.Get("User-Agent")) { // 對(duì)搜索引擎作響應(yīng) }
如果要想要從UserAgent 里分析出更多的信息,可借助一些庫(kù)來(lái)解析,如下面:
import "github.com/mssola/user_agent" ua = user_agent.UserAgent{} ua.Parse("Mozilla/5.0 (compatible; Googlebot/2.1;+http://www.google.com/bot.html)") fmt.Printf("%v\n", ua.Bot()) // => true name, version = ua.Browser() fmt.Printf("%v\n", name) // => Googlebot fmt.Printf("%v\n", version) // => 2.1
識(shí)別真假
UserAgent 字符串可以在 http 請(qǐng)求時(shí)設(shè)置,任何一個(gè)客戶(hù)端都可以偽造成一個(gè)搜索引擎去訪(fǎng)問(wèn)你的網(wǎng)站。可以通過(guò)下面兩個(gè)步驟去識(shí)別真正的搜索引擎。
在 *nix 系統(tǒng)下使用 host 命令,使用方法如下面兩個(gè)示例:
$ host 207.46.13.178 178.13.46.207.in-addr.arpa domain name pointer msnbot-207-46-13-178.search.msn.com. $ host msnbot-207-46-13-178.search.msn.com msnbot-207-46-13-178.search.msn.com has address 207.46.13.178 $ host 203.208.60.24 24.60.208.203.in-addr.arpa domain name pointer crawl-203-208-60-24.googlebot.com. $ host crawl-203-208-60-24.googlebot.com crawl-203-208-60-24.googlebot.com has address 203.208.60.24
解釋一下上面的過(guò)程,首先通過(guò)來(lái)訪(fǎng) IP 作DNS反向查詢(xún),得到相關(guān)域名,再把得到的域名再做一次查詢(xún),得到 IP,與原來(lái)的IP 相同才是比較靠譜的搜索引擎。
Go 語(yǔ)言里的 net 包可以實(shí)現(xiàn)這樣的查詢(xún):
names, err := net.LookupAddr(ip) addrs, err := net.LookupHost(name)
通過(guò)這種方式建立一個(gè)IP白名單,就可以屏蔽掉一些來(lái)路不明的蜘蛛。
看完了這篇文章,相信你對(duì)如何從UserAgent識(shí)別搜索引擎并判斷真假蜘蛛有了一定的了解,想了解更多相關(guān)知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!
網(wǎng)站題目:如何從UserAgent識(shí)別搜索引擎并判斷真假蜘蛛
路徑分享:http://muchs.cn/article10/joocdo.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供Google、電子商務(wù)、做網(wǎng)站、定制開(kāi)發(fā)、商城網(wǎng)站、手機(jī)網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)