看完秒懂robots.txt寫法和注意事項

2020-09-14 分類：網站建設

robots.txt直接放在網站根目錄下，是蜘蛛訪問網站時，第一個抓取的文件。robots.txt是告訴蜘蛛網站的哪些文件允許抓取，哪些文件不允許抓取，甚至可以指定特定的蜘蛛能不能抓取特定的文件。沒有抓取就沒有收錄，沒有收錄就沒有排名。所以作為第一蜘蛛訪問的文件，寫好robots.txt是很重要的，寫好robots.txt后，一定要再檢查一兩遍，以防出錯。這里總結下robots.txt寫法，讓你看完秒懂robots.txt寫法和注意事項 。

一.robots.txt具體作用

1.對搜索引擎做出規(guī)定，抓取或者不抓取。

2.由于有些信息規(guī)定了不讓抓取，所以可以保護到一些必要的信息，比如：網站后臺，用戶信息。

3.節(jié)省搜索引擎抓取資源。

二.robots.txt規(guī)則

1.User-agent，用于告訴識別蜘蛛類型。比如，User-agent: Baiduspider 就是指百度蜘蛛。

各類蜘蛛列舉如下：

百度蜘蛛：Baiduspider

谷歌機器人：GoogleBot

360蜘蛛：360Spider

搜狗蜘蛛：Sogou News Spider

雅虎蜘蛛：“Yahoo! Slurp China” 或者 Yahoo!

有道蜘蛛：Youdaobot 或者 Yodaobot

Soso蜘蛛：Sosospider

2.Allow，允許蜘蛛抓取指定目錄或文件，默認是允許抓取所有。

3.Disallow，不允許蜘蛛抓取指定目錄或文件。

4.通配符，“*”，匹配0或多個任意字符。

5.終止符，“$”，可以匹配以指定字符結尾的字符。

舉個例子：下面是一個wordpress程序的robots.txt

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /wp-content/plugins

Disallow: /wp-content/themes

Disallow: /feed

Disallow: /*/feed

Disallow: /comments/feed

Disallow: /*.js$

Disallow: /*?*

Sitemap: http://www.cdhuace.com/sitemap.xml

解釋：

User-agent: *：對所有搜索引擎都使用下面的規(guī)則。

Disallow: /wp-admin/：不讓蜘蛛抓取根目錄下的wp-admin文件夾。

Disallow: /*.js$：不讓蜘蛛抓取根目錄下所有的js文件。

Disallow: /*?*：不抓取所有的動態(tài)鏈接。

Sitemap: http://www.cdhuace.com/sitemap.xml：給蜘蛛提供網站地圖，方便蜘蛛抓取網站內容。

三.robots.txt注意事項

1.如果你希望搜索引擎收錄網站上所有的內容，那么就不要建立robots.txt文件。

2.如果同時存在動態(tài)和靜態(tài)鏈接，那么建議屏蔽動態(tài)鏈接。

3.robots.txt只能是屏蔽站內文件的，對站外文件沒有屏蔽功能。

4.User-agent，Allow，Disallow，Sitemap的首字母都是大寫的。

5.User-agent，Allow，Disallow，Sitemap的冒號后面都是有空格的，沒有寫空格直接寫接下來的內容會出錯。

6.網站通常會屏蔽搜索結果頁面。因為搜索結果頁和正常展示的內容頁相比，標題和內容上相同的，而這兩個頁面鏈接是不同的。那搜索引擎該將這篇文章歸屬于哪個內鏈呢?這樣就會造成內鏈之間相互競爭，造成內部資源損耗。

比如上面舉的例子，那個wordpress程序，在沒有設置偽靜態(tài)，還是動態(tài)鏈接的時候，搜索結果頁面鏈接都包含有/?s=，而標題和內容與正常展示的動態(tài)鏈接內容頁重復，可以通過Disallow: /?=*來屏蔽搜索結果頁面。

而現在那個wordpress程序已經設置了偽靜態(tài)，也設置了Disallow: /*?*，Disallow: /*?*本身就包含了Disallow: /?=*，所以Disallow: /?=*這句寫不寫都沒有關系

7.建議屏蔽js文件。Disallow: /*.js$，以 .js 結尾的路徑統(tǒng)統(tǒng)被屏蔽，這樣就屏蔽了js文件。

8.路徑是區(qū)分大小寫的。Disallow: /ab/ 和 Disallow: /Ab/ 是不一樣的。

9.robots.txt會暴露網站相關目錄，寫robots.txt時要考慮到這一點。

10.有些seo會將文件直接備份在服務器中，文件是 .zip 格式，然后在robots.txt中屏蔽。個人不建議這樣，這就是明顯告訴人家你的備份文件位置。建議文件和數據都備份到本地。

11.一些特殊規(guī)則對比：

①Disallow: /和Disallow: / ab (/后面有個空格，再有ab)是一樣的，/后面多了個空格，蜘蛛之認空格前面那一段，就是Disallow: /，所以兩個都是屏蔽整站的。

②Disallow: /ab和Disallow: /ab*是一樣的。比如兩個都能屏蔽http://域名/ab，http://域名/abc，http://域名/abcd。

③Disallow: /ab/和Disallow: /ab是不一樣的。很明顯，Disallow: /ab范圍更廣，包含了Disallow: /ab/。因為Disallow: /ab/只能屏蔽http：//域名/ab/，http：//域名/ab/....這樣的路徑，也就是只能屏蔽ab目錄和ab目錄下的文件不被蜘蛛抓取。

四.驗證robots.txt文件的正確性和是否生效

當我們寫好了robots.txt文件后，怎么確定文件的正確性呢?上傳到服務器根目錄后，怎么判斷robots.txt文件是否生效了呢?這時我們可以借助百度資源平臺Robots。比如輸入樂呵SEO測試服網址，得到如下結果。

驗證robots.txt文件是否生效

檢測到robots.txt文件的內容

驗證robots.txt文件的正確性

結果證明，http://wordpress.cdhuace.com/robots.txt這個文件沒有語法錯誤，并且已經生效了。

若是想測試某一個目錄或者文件是否被屏蔽了，百度也是提供了工具的。如下圖，由于 http://wordpress.cdhuace.com 是測試服，我屏蔽了所有文件。所以無論我輸入根目錄下的任何目錄或者任何文件，都是檢測不到的，也就是說蜘蛛是抓取不到的。

輸入了后臺目錄wp-admin：

后臺目錄檢測結果：

經過測試，其他文件和目錄頁也檢測不到，所以這個功能還是很好用的。

更多robots.txt內容，可以參考百度提供的文檔哦。https://ziyuan.baidu.com/college/courseinfo?id=267&page=12

robots.txt寫法和注意事項就總結到這里了，內容相對細致，結合了例子講解會很容易看懂，希望對您有所幫助咯。

分享文章：看完秒懂robots.txt寫法和注意事項
轉載源于：http://www.muchs.cn/news/86283.html

成都網站建設公司_創(chuàng)新互聯，為您提供外貿建站、面包屑導航、商城網站、網站排名、靜態(tài)網站、用戶體驗

聲明：本網站發(fā)布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創(chuàng)新互聯

猜你還喜歡下面的內容

詳解：網站質量與搜索效果不匹配的問題 2020-09-13
SEO優(yōu)化工作中如何針對長尾關鍵詞進行優(yōu)化 2020-09-13
網站內部優(yōu)化教程之網站內容怎么更新？ 2020-09-13
SEO新站與老站，如何解決網站降權問題？ 2020-09-13
網站怎么優(yōu)化？百度官方發(fā)布有關搜索網頁標題規(guī)范說明 2020-09-13