YandexBot是什么搜索引擎蜘蛛

2024-04-07    分類: 網(wǎng)站建設(shè)

YandexBot 是俄羅斯搜索引擎 Yandex 的網(wǎng)絡(luò)爬蟲,用于索引網(wǎng)頁(yè)內(nèi)容,從而幫助 Yandex 的搜索引擎提供相關(guān)的搜索結(jié)果。它是 Yandex 服務(wù)的重要組成部分,負(fù)責(zé)收集和分析互聯(lián)網(wǎng)上的數(shù)據(jù),以提供準(zhǔn)確和及時(shí)的搜索結(jié)果。

對(duì)于網(wǎng)站管理員和開發(fā)者來(lái)說(shuō),了解YandexBot的工作原理和如何與其交互是非常重要的。例如,通過(guò)配置網(wǎng)站的 robots.txt 文件,可以告訴 YandexBot 哪些頁(yè)面可以被索引,哪些頁(yè)面應(yīng)該被排除。這有助于網(wǎng)站管理員更好地控制其在 Yandex 搜索引擎中的表現(xiàn)。

此外,了解 YandexBot 的訪問(wèn)模式也有助于識(shí)別潛在的惡意行為或?yàn)E用情況。如果發(fā)現(xiàn) YandexBot 的訪問(wèn)模式異常,如頻繁訪問(wèn)或請(qǐng)求大量數(shù)據(jù),可能需要進(jìn)行進(jìn)一步的調(diào)查以確保網(wǎng)站的安全和穩(wěn)定。

總之,YandexBot 是 Yandex 搜索引擎的重要組成部分,對(duì)于網(wǎng)站管理員和開發(fā)者來(lái)說(shuō),了解其工作原理和如何與其交互是非常重要的。

我們經(jīng)常會(huì)受到大量的 YandexBot 訪問(wèn),我們知道 YandexBot 是 Yandex 的搜索引擎的爬蟲。

大量的 YandexBot 訪問(wèn),不僅給服務(wù)器造成了非常大的壓力,同時(shí)也會(huì)使正常訪客訪問(wèn)網(wǎng)站變慢,影響體驗(yàn)。

基于以上原因,我們不得不限制 YandexBot 的訪問(wèn),但是需要注意的一點(diǎn):限制 Yandex 訪問(wèn)會(huì)損失 Yandex 帶給我們的流量,由于限制了 Yandex 的爬蟲索引我們的網(wǎng)站,所以當(dāng)用戶在 Yandex 搜索我們網(wǎng)站的主題詞時(shí),不會(huì)有任何展示,所以也不會(huì)給我們帶來(lái)任何流量。

如果 Yandex 沒(méi)有給我們帶來(lái)任何訪客,那我們就屏蔽它吧!

Yandex 支持具有高級(jí)功能的 Robots Exclusion 協(xié)議。

當(dāng)抓取一個(gè)網(wǎng)站時(shí),Yandex 機(jī)器人會(huì)加載 robots.txt 文件。如果對(duì)該文件的最新請(qǐng)求顯示某個(gè)網(wǎng)站頁(yè)面或部分被禁止,機(jī)器人就不會(huì)索引它們。

Yandex robots.txt 文件的要求

Yandex 機(jī)器人可以正確處理 robots.txt,但是需要滿足以下要求:

文件大小不超過(guò) 500KB。

它是一個(gè)名為 "robots "的TXT文件, robots.txt。

該文件位于網(wǎng)站的根目錄中。

該文件可供機(jī)器人使用:托管網(wǎng)站的服務(wù)器以 HTTP 代碼回應(yīng),狀態(tài)為 200 OK。檢查服務(wù)器的響應(yīng)

如果文件不符合要求,該網(wǎng)站被認(rèn)為是開放索引的,也就是 Yandex 搜索引擎可以任意訪問(wèn)網(wǎng)頁(yè)內(nèi)容。

Yandex 支持從位于一個(gè)網(wǎng)站的 robots.txt 文件重定向到位于另一個(gè)網(wǎng)站的文件。在這種情況下,目標(biāo)文件中的指令被考慮在內(nèi)。這種重定向在移動(dòng)網(wǎng)站時(shí)可能很有用。

Yandex 訪問(wèn) robots.txt 的一些規(guī)則

在 robots.txt 文件中,機(jī)器人會(huì)檢查以 User-agent: 開頭的記錄,并尋找字符 Yandex(大小寫不重要)或 *。如果 User-agent: Yandex 字符串被檢測(cè)到,User-agent: * 字符串會(huì)被忽略。如果 User-agent: Yandex和 User-agent: * 字符串未被發(fā)現(xiàn),機(jī)器人將被視為具有無(wú)限的訪問(wèn)權(quán)限。

你可以為 Yandex 機(jī)器人輸入單獨(dú)的指令。

例如下面的一些示例:

User-agent: YandexBot # 用于索引爬蟲的寫法

Disallow: /*id=

User-agent: Yandex # 將會(huì)對(duì)所有 YandexBot 起效

Disallow: /*sid= # 除了主要的索引機(jī)器人

User-agent: * # 對(duì) YandexBot 不會(huì)起作用

Disallow: /cgi-bin 

根據(jù)標(biāo)準(zhǔn),你應(yīng)該在每個(gè) User-agent 指令前插入一個(gè)空行。#字符指定了注釋。在這個(gè)字符之后的所有內(nèi)容,直到第一個(gè)換行,都將被忽略。

robots.txt Disallow 與 Allow 指令

Disallow 指令,使用此指令禁止索引站點(diǎn)部分或單個(gè)頁(yè)面。例子:

包含機(jī)密數(shù)據(jù)的頁(yè)面。

帶有站點(diǎn)搜索結(jié)果的頁(yè)面。

網(wǎng)站流量統(tǒng)計(jì)。

重復(fù)頁(yè)面。

各種日志。

數(shù)據(jù)庫(kù)服務(wù)頁(yè)面。

下面是 Disallow 指令的示例:

User-agent: Yandex

Disallow: / # 禁止對(duì)整個(gè)網(wǎng)站進(jìn)行抓取

User-agent: Yandex

Disallow: /catalogue # 禁止抓取以 /catalogue 開頭的頁(yè)面。

User-agent: Yandex

Disallow: /page? # 禁止抓取含有參數(shù)的 URL 的頁(yè)面

robots.txt Allow 指令

該指令允許索引站點(diǎn)部分或單個(gè)頁(yè)面。下面是示例:

User-agent: Yandex

Allow: /cgi-bin

Disallow: /

# 禁止索引任何頁(yè)面,除了以'/cgi-bin'開頭的網(wǎng)頁(yè)

User-agent: Yandex

Allow: /file.xml

# 允許索引 file.xml 文件

robots.txt 組合指令

相應(yīng)的用戶代理塊中的 Allow 和 Disallow 指令會(huì)根據(jù) URL 前綴長(zhǎng)度(從最短到最長(zhǎng))進(jìn)行排序,并按順序應(yīng)用。如果有幾個(gè)指令與一個(gè)特定的網(wǎng)站頁(yè)面相匹配,機(jī)器人會(huì)選擇排序列表中的最后一個(gè)指令。這樣,robots.txt 文件中指令的順序就不會(huì)影響機(jī)器人使用它們的方式。

# robots.txt 文件示例:

User-agent: Yandex

Allow: /

Allow: /catalog/auto

Disallow: /catalog


User-agent: Yandex

Allow: /

Disallow: /catalog

Allow: /catalog/auto

# 禁止索引以 '/catalog' 開頭的頁(yè)面

IP 地址屏蔽
我們通過(guò) list crawlers YandexBot 查看到 YandexBot 的 IP 地址,我們直接將這些 IP 加入到黑名單里就可以了,我以 Ubuntu 操作系統(tǒng)為例,如何將 IP 加入到防火墻的黑名單里面:

sudo iptables -A INPUT -s 213.180.203.82 -j DROP

上面的 IP 地址就是我們通過(guò) list crawlers YandexBot 頁(yè)面查詢到的 IP ,直接一個(gè)一個(gè)的 IP 輸入就可以了,一個(gè)一行。

好處:直接且迅速。

缺點(diǎn):可能漏掉一些 YandexBot 的 IP 地址。

通過(guò) User-agent 屏蔽 YandexBot

通過(guò)我的這一篇文章:yandex bot user agent,我們可以看到每個(gè) YandexBot 的具體 User-agent,我們?cè)?Nginx 里面可以這樣屏蔽具體的 User-agent:

if ($http_user_agent ~* "Yandex") 

    return 403; 
}
這樣我們就可以通過(guò) User-agent 屏蔽 YandexBot 的目的了。

優(yōu)點(diǎn):可以迅速直接的屏蔽 YandexBot。

通過(guò) robots.txt 屏蔽 YandexBot

前面文章我已經(jīng)具體介紹過(guò)如何通過(guò) robots.txt 屏蔽 YandexBot 了,在此不多說(shuō),需要的可以看這篇文章:block yandex bot

優(yōu)點(diǎn):符合官方的規(guī)范要求。

缺點(diǎn):Yandex 的有些爬蟲并不遵守 robots.txt 協(xié)議,使用 robots.txt 協(xié)議也就無(wú)法屏蔽了。

總結(jié)

這篇文章使用了三種方式屏蔽 YandexBot,并且介紹了優(yōu)缺點(diǎn),總有一種方法適合你。如夠你的網(wǎng)站市場(chǎng)在俄羅斯千萬(wàn)不要把它給屏蔽了。

網(wǎng)站欄目:YandexBot是什么搜索引擎蜘蛛
當(dāng)前地址:http://www.muchs.cn/news18/322668.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站內(nèi)鏈、App開發(fā)、用戶體驗(yàn)、搜索引擎優(yōu)化、移動(dòng)網(wǎng)站建設(shè)、域名注冊(cè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

綿陽(yáng)服務(wù)器托管