YandexBot是什么搜索引擎蜘蛛

2024-04-07 分類：網(wǎng)站建設(shè)

YandexBot 是俄羅斯搜索引擎 Yandex 的網(wǎng)絡(luò)爬蟲，用于索引網(wǎng)頁(yè)內(nèi)容，從而幫助 Yandex 的搜索引擎提供相關(guān)的搜索結(jié)果。它是 Yandex 服務(wù)的重要組成部分，負(fù)責(zé)收集和分析互聯(lián)網(wǎng)上的數(shù)據(jù)，以提供準(zhǔn)確和及時(shí)的搜索結(jié)果。

對(duì)于網(wǎng)站管理員和開發(fā)者來(lái)說(shuō)，了解YandexBot的工作原理和如何與其交互是非常重要的。例如，通過(guò)配置網(wǎng)站的 robots.txt 文件，可以告訴 YandexBot 哪些頁(yè)面可以被索引，哪些頁(yè)面應(yīng)該被排除。這有助于網(wǎng)站管理員更好地控制其在 Yandex 搜索引擎中的表現(xiàn)。

此外，了解 YandexBot 的訪問(wèn)模式也有助于識(shí)別潛在的惡意行為或?yàn)E用情況。如果發(fā)現(xiàn) YandexBot 的訪問(wèn)模式異常，如頻繁訪問(wèn)或請(qǐng)求大量數(shù)據(jù)，可能需要進(jìn)行進(jìn)一步的調(diào)查以確保網(wǎng)站的安全和穩(wěn)定。

總之，YandexBot 是 Yandex 搜索引擎的重要組成部分，對(duì)于網(wǎng)站管理員和開發(fā)者來(lái)說(shuō)，了解其工作原理和如何與其交互是非常重要的。

我們經(jīng)常會(huì)受到大量的 YandexBot 訪問(wèn)，我們知道 YandexBot 是 Yandex 的搜索引擎的爬蟲。

大量的 YandexBot 訪問(wèn)，不僅給服務(wù)器造成了非常大的壓力，同時(shí)也會(huì)使正常訪客訪問(wèn)網(wǎng)站變慢，影響體驗(yàn)。

基于以上原因，我們不得不限制 YandexBot 的訪問(wèn)，但是需要注意的一點(diǎn)：限制 Yandex 訪問(wèn)會(huì)損失 Yandex 帶給我們的流量，由于限制了 Yandex 的爬蟲索引我們的網(wǎng)站，所以當(dāng)用戶在 Yandex 搜索我們網(wǎng)站的主題詞時(shí)，不會(huì)有任何展示，所以也不會(huì)給我們帶來(lái)任何流量。

如果 Yandex 沒(méi)有給我們帶來(lái)任何訪客，那我們就屏蔽它吧！

Yandex 支持具有高級(jí)功能的 Robots Exclusion 協(xié)議。

當(dāng)抓取一個(gè)網(wǎng)站時(shí)，Yandex 機(jī)器人會(huì)加載 robots.txt 文件。如果對(duì)該文件的最新請(qǐng)求顯示某個(gè)網(wǎng)站頁(yè)面或部分被禁止，機(jī)器人就不會(huì)索引它們。

Yandex robots.txt 文件的要求

Yandex 機(jī)器人可以正確處理 robots.txt，但是需要滿足以下要求：

文件大小不超過(guò) 500KB。

它是一個(gè)名為 "robots "的TXT文件， robots.txt。

該文件位于網(wǎng)站的根目錄中。

該文件可供機(jī)器人使用：托管網(wǎng)站的服務(wù)器以 HTTP 代碼回應(yīng)，狀態(tài)為 200 OK。檢查服務(wù)器的響應(yīng)

如果文件不符合要求，該網(wǎng)站被認(rèn)為是開放索引的，也就是 Yandex 搜索引擎可以任意訪問(wèn)網(wǎng)頁(yè)內(nèi)容。

Yandex 支持從位于一個(gè)網(wǎng)站的 robots.txt 文件重定向到位于另一個(gè)網(wǎng)站的文件。在這種情況下，目標(biāo)文件中的指令被考慮在內(nèi)。這種重定向在移動(dòng)網(wǎng)站時(shí)可能很有用。

Yandex 訪問(wèn) robots.txt 的一些規(guī)則

在 robots.txt 文件中，機(jī)器人會(huì)檢查以 User-agent: 開頭的記錄，并尋找字符 Yandex（大小寫不重要）或 *。如果 User-agent: Yandex 字符串被檢測(cè)到，User-agent: * 字符串會(huì)被忽略。如果 User-agent: Yandex和 User-agent: * 字符串未被發(fā)現(xiàn)，機(jī)器人將被視為具有無(wú)限的訪問(wèn)權(quán)限。

你可以為 Yandex 機(jī)器人輸入單獨(dú)的指令。

例如下面的一些示例：

User-agent: YandexBot # 用于索引爬蟲的寫法

Disallow: /*id=

User-agent: Yandex # 將會(huì)對(duì)所有 YandexBot 起效

Disallow: /*sid= # 除了主要的索引機(jī)器人

User-agent: * # 對(duì) YandexBot 不會(huì)起作用

Disallow: /cgi-bin

根據(jù)標(biāo)準(zhǔn)，你應(yīng)該在每個(gè) User-agent 指令前插入一個(gè)空行。＃字符指定了注釋。在這個(gè)字符之后的所有內(nèi)容，直到第一個(gè)換行，都將被忽略。

robots.txt Disallow 與 Allow 指令

Disallow 指令，使用此指令禁止索引站點(diǎn)部分或單個(gè)頁(yè)面。例子：

包含機(jī)密數(shù)據(jù)的頁(yè)面。

帶有站點(diǎn)搜索結(jié)果的頁(yè)面。

網(wǎng)站流量統(tǒng)計(jì)。

重復(fù)頁(yè)面。

各種日志。

數(shù)據(jù)庫(kù)服務(wù)頁(yè)面。

下面是 Disallow 指令的示例：

User-agent: Yandex

Disallow: / # 禁止對(duì)整個(gè)網(wǎng)站進(jìn)行抓取

User-agent: Yandex

Disallow: /catalogue # 禁止抓取以 /catalogue 開頭的頁(yè)面。

User-agent: Yandex

Disallow: /page? # 禁止抓取含有參數(shù)的 URL 的頁(yè)面

robots.txt Allow 指令

該指令允許索引站點(diǎn)部分或單個(gè)頁(yè)面。下面是示例：

User-agent: Yandex

Allow: /cgi-bin

Disallow: /

# 禁止索引任何頁(yè)面，除了以'/cgi-bin'開頭的網(wǎng)頁(yè)

User-agent: Yandex

Allow: /file.xml

# 允許索引 file.xml 文件

robots.txt 組合指令

相應(yīng)的用戶代理塊中的 Allow 和 Disallow 指令會(huì)根據(jù) URL 前綴長(zhǎng)度（從最短到最長(zhǎng)）進(jìn)行排序，并按順序應(yīng)用。如果有幾個(gè)指令與一個(gè)特定的網(wǎng)站頁(yè)面相匹配，機(jī)器人會(huì)選擇排序列表中的最后一個(gè)指令。這樣，robots.txt 文件中指令的順序就不會(huì)影響機(jī)器人使用它們的方式。

# robots.txt 文件示例:

User-agent: Yandex

Allow: /

Allow: /catalog/auto

Disallow: /catalog

User-agent: Yandex

Allow: /

Disallow: /catalog

Allow: /catalog/auto

# 禁止索引以 '/catalog' 開頭的頁(yè)面

IP 地址屏蔽
我們通過(guò) list crawlers YandexBot 查看到 YandexBot 的 IP 地址，我們直接將這些 IP 加入到黑名單里就可以了，我以 Ubuntu 操作系統(tǒng)為例，如何將 IP 加入到防火墻的黑名單里面：

sudo iptables -A INPUT -s 213.180.203.82 -j DROP

上面的 IP 地址就是我們通過(guò) list crawlers YandexBot 頁(yè)面查詢到的 IP ，直接一個(gè)一個(gè)的 IP 輸入就可以了，一個(gè)一行。

好處：直接且迅速。

缺點(diǎn)：可能漏掉一些 YandexBot 的 IP 地址。

通過(guò) User-agent 屏蔽 YandexBot

通過(guò)我的這一篇文章：yandex bot user agent，我們可以看到每個(gè) YandexBot 的具體 User-agent，我們?cè)?Nginx 里面可以這樣屏蔽具體的 User-agent：

if ($http_user_agent ~* "Yandex")
{
return 403;
}
這樣我們就可以通過(guò) User-agent 屏蔽 YandexBot 的目的了。

優(yōu)點(diǎn)：可以迅速直接的屏蔽 YandexBot。

通過(guò) robots.txt 屏蔽 YandexBot

前面文章我已經(jīng)具體介紹過(guò)如何通過(guò) robots.txt 屏蔽 YandexBot 了，在此不多說(shuō)，需要的可以看這篇文章：block yandex bot

優(yōu)點(diǎn)：符合官方的規(guī)范要求。

缺點(diǎn)：Yandex 的有些爬蟲并不遵守 robots.txt 協(xié)議，使用 robots.txt 協(xié)議也就無(wú)法屏蔽了。

總結(jié)

這篇文章使用了三種方式屏蔽 YandexBot，并且介紹了優(yōu)缺點(diǎn)，總有一種方法適合你。如夠你的網(wǎng)站市場(chǎng)在俄羅斯千萬(wàn)不要把它給屏蔽了。

網(wǎng)站欄目：YandexBot是什么搜索引擎蜘蛛
當(dāng)前地址：http://www.muchs.cn/news18/322668.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站內(nèi)鏈、App開發(fā)、用戶體驗(yàn)、搜索引擎優(yōu)化、移動(dòng)網(wǎng)站建設(shè)、域名注冊(cè)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

成都做網(wǎng)站中值得合理規(guī)避的四點(diǎn) 2024-04-07
成都網(wǎng)站建設(shè)公司排名:合適你公司的才是好的 2024-04-07
云看朝陽(yáng)，鏈接世界，朝陽(yáng)區(qū)國(guó)際版門戶網(wǎng)站上線！ 2024-04-07
網(wǎng)站怎么做關(guān)鍵詞排名優(yōu)化? 2024-04-07
常見的VPS和VDS虛擬化技術(shù) 2024-04-07
定制型成都網(wǎng)站建設(shè)需遵循的幾大準(zhǔn)則 2024-04-07
外貿(mào)建設(shè)網(wǎng)站制作 2024-04-07