如何使用robots.txt阻止搜尋引擎爬(抓取)你的網(wǎng)站?

2023-12-23 分類：網(wǎng)站建設(shè)

為了你的網(wǎng)站可以被別人搜尋到，搜尋引擎爬蟲，有時(shí)也稱為搜尋機(jī)器人(bots)或是搜尋蜘蛛(spiders)，會(huì)爬取你的網(wǎng)站，搜尋有變動(dòng)的內(nèi)容并且重新更新搜尋引擎的搜尋檢索。

如何用robts.txt 這個(gè)檔案去控制搜尋蜘蛛
網(wǎng)站站長可以使用robots.txt這個(gè)文件，來指導(dǎo)搜尋蜘蛛應(yīng)該如何爬取這個(gè)網(wǎng)站，當(dāng)搜尋引擎爬取網(wǎng)站時(shí)，會(huì)先讀取robots.tx 文件，并且依照規(guī)則爬取網(wǎng)站。

※ robots.txt 規(guī)則雖然是重要的，但是搜尋機(jī)器人不一定會(huì)遵守 robot.txt 規(guī)則，它只是一個(gè)執(zhí)行方針。
※ 以Google而言，要設(shè)定Crawl-delay，是必須在Google管理工具裡設(shè)定。
※ 對(duì)于浮濫爬取你的網(wǎng)站的劣質(zhì)搜尋蜘蛛，應(yīng)該研究如何憑藉.htaccess裡的User-agent去阻擋不好的搜尋蜘蛛。

編輯與創(chuàng)建robots.txt 文件
Robots.txt 文件是必須放在網(wǎng)站根目錄裡，如果你的網(wǎng)址是example.com 是可以讀取到的。

網(wǎng)址位置：

http://example.com/robots.txt

伺服器位置：

/home/userna5/public_html/robots.txt

如果沒有這個(gè)檔案的話，你可以使用純文件檔案建立一個(gè)新的robots.txt文件。

搜尋引擎的使用者代理
以搜尋引擎蜘蛛的User-agent來說，使用robots.txt文件來控制，是最普通的規(guī)范方式。

當(dāng)搜尋蜘蛛爬取網(wǎng)站時(shí)，他們會(huì)以使用者代理User-agent來識(shí)別、以下提供些參考范例

前三名美國最常發(fā)現(xiàn)的搜尋引擎使用者代理：
Googlebot
Yahoo! Slurp
bingbot

最常被阻擋的搜尋引擎使用者代理：
AhrefsBot
Baiduspider
Ezooms
MJ12bot
YandexBot

搜尋引擎蜘蛛是會(huì)以robots.txt文件規(guī)則來抓取網(wǎng)站
robots.txt 文件有許多的規(guī)則，可以控制搜尋蜘蛛如何爬取你得網(wǎng)站。

User-agent：可以具體指定哪一個(gè)User-agent是適用的，如*是萬用搭配于全部的User-agent。

Disallow:設(shè)定檔案或是資料夾，不允許被搜尋蜘蛛爬取。

設(shè)定全部搜尋引擎延遲爬取
如果你的網(wǎng)站有1000頁，搜尋蜘蛛可能在幾分鐘內(nèi)檢索全部的網(wǎng)站，然而這有可能導(dǎo)致系統(tǒng)資源使用過度，在短時(shí)間內(nèi)讓全部的網(wǎng)頁超過負(fù)荷，導(dǎo)致網(wǎng)頁無法瀏覽。

延遲30秒的時(shí)間，將允許搜尋蜘蛛在8.3小時(shí)內(nèi)檢索1000張網(wǎng)頁。

延遲500秒的時(shí)間，將允許搜尋蜘蛛在5.8天內(nèi)檢索1000張網(wǎng)頁。

你也可以設(shè)定Crawl-delay：所有的搜尋蜘蛛立即搜尋。

User-agent: *
Crawl-delay: 30

允許搜尋蜘蛛爬取全部網(wǎng)站
在預(yù)設(shè)空白情況下，搜尋引擎蜘蛛還是會(huì)爬取你的網(wǎng)站，不過你還是可以指定它是允許的。

User-agent: *
Disallow:

不允許搜尋蜘蛛爬取全部網(wǎng)站
User-agent: *
Disallow: /

不允許搜尋蜘蛛爬取特定一個(gè)網(wǎng)站
你可以運(yùn)用這些規(guī)則，不允許特定的搜尋引擎蜘蛛爬取你的網(wǎng)站。

User-agent: Baiduspider
Disallow: /

不允許全部搜尋蜘蛛爬取特定的檔案
如果有些檔案如contactus.htm, index.htm, 或是store.htm我們不想要搜尋蜘蛛爬取，我可以使用：

User-agent: *
Disallow: /contactus.htm
Disallow: /index.htm
Disallow: /store.htm

除了指定的以外，不允許全部搜尋蜘蛛爬取
如果我們只想讓Googlebot爬取我們的/private/目錄，但是不允許其他搜尋蜘蛛爬取，我們可以這樣使用：

User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: /private/

當(dāng)Googlebot讀取我的robots.txt文件時(shí)，會(huì)去理解文件內(nèi)容，不會(huì)禁止全部目錄的爬取。

如果想只想要一網(wǎng)頁部被抓取檢索請(qǐng)參考(使用標(biāo)籤來阻擋搜尋蜘蛛檢索網(wǎng)頁)

網(wǎng)站標(biāo)題：如何使用robots.txt阻止搜尋引擎爬(抓取)你的網(wǎng)站?
新聞來源：http://www.muchs.cn/news14/310014.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供App設(shè)計(jì)、移動(dòng)網(wǎng)站建設(shè)、網(wǎng)站建設(shè)、外貿(mào)建站、網(wǎng)站設(shè)計(jì)公司、云服務(wù)器

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

分析國內(nèi)電商行業(yè)職場薪酬 2023-12-23
外貿(mào)網(wǎng)站開發(fā)具體步驟應(yīng)該怎么做 2023-12-23
成都小程序開發(fā)為互聯(lián)網(wǎng)時(shí)代帶來哪些變化？ 2023-12-23
成都網(wǎng)站建設(shè)優(yōu)化到底是優(yōu)化什么 2023-12-23
美國服務(wù)器的數(shù)據(jù)加密的方式 2023-12-23
利用博客流量做網(wǎng)站推廣 2023-12-23
了解美國服務(wù)器租用是否便宜 2023-12-23