帝國(guó)cms蜘蛛來(lái)訪記錄 帝國(guó)cms phpcms

在linux系統(tǒng)下,如何查看百度蜘蛛爬取日志

這個(gè)要根據(jù)你容器的不同來(lái)決定的,

目前成都創(chuàng)新互聯(lián)公司已為近千家的企業(yè)提供了網(wǎng)站建設(shè)、域名、雅安服務(wù)器托管、成都網(wǎng)站托管、企業(yè)網(wǎng)站設(shè)計(jì)、荔城網(wǎng)站維護(hù)等服務(wù),公司將堅(jiān)持客戶導(dǎo)向、應(yīng)用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長(zhǎng),共同發(fā)展。

默認(rèn)的路徑是你安裝時(shí)候指定的

如果用的LNMP之類的安裝包

你可以在SHELL下

whereisnginx

找到相應(yīng)的路徑之后

在NGINX下的CONF文件夾里看配置文件,日志文件如果記錄了話

在配置文件里有路徑的,這個(gè)還是比較麻煩現(xiàn)在的都是使用系統(tǒng)類似的有dedecms,wordpress,帝國(guó)cms,搜外6系統(tǒng)可以直接在根目錄下或者功能統(tǒng)計(jì)里面直接查看百度蜘蛛爬取日志。

如何查看蜘蛛訪問網(wǎng)站的記錄

對(duì)于很多做網(wǎng)站的新手來(lái)說(shuō),都沒有經(jīng)過系統(tǒng)地授課進(jìn)行網(wǎng)絡(luò)技術(shù)和建站知識(shí)學(xué)習(xí),做網(wǎng)站都是靠自學(xué),遇到難題在論壇發(fā)帖提問,更不會(huì)懂得網(wǎng)站優(yōu)化,對(duì)于較基本操作——通過網(wǎng)站日志看蜘蛛來(lái)訪情況都不知到哪里看,怎么看。前兩天看到很多人發(fā)帖提問,回復(fù)者的答案卻比較精煉,不具體,提問者還是云里霧里的,現(xiàn)我就以自己的網(wǎng)站來(lái)系統(tǒng)地操作一次,提交給大家參考,有說(shuō)錯(cuò)的地方,請(qǐng)批評(píng)指正。

1、打開FTP登錄軟件,我用的是FlashFXP,登錄空間FTP

登錄FTP后,你會(huì)發(fā)現(xiàn)根目錄下有一個(gè)wwwlogs文件夾,(有的是weblog,注:不同的服務(wù)器空間生成的日志文件目錄名稱不一樣,僅供參考,一般文件夾中包含Log字符的就是日志文件夾)。

2、打開wwwlogs文件夾后,里面有一些以日期格式特征為文件名的.gz后綴結(jié)尾的文件,這些就是我們需要下載到本地的日志文件。

3、下載到電腦桌面后,解壓縮打開,里面是一個(gè)記事本格式的文件,打開文件,看到的是下圖這樣的代碼,我下載的是3月7日的那個(gè)文件。

4、分析代碼

上圖1是百度蜘蛛的IP地址;

2是蜘蛛來(lái)訪日期時(shí)間(2012年3月6日1時(shí)21分22秒),3月7日的日志文件記錄的是從3月6日凌晨開始,至3月7日1時(shí)11分39秒整個(gè)時(shí)間段的n多次來(lái)訪記錄);

3是百度蜘蛛baiduspider

4是我網(wǎng)站被訪問的網(wǎng)頁(yè)地址;

5是sogou 搜狗蜘蛛的來(lái)訪,同樣也能看到時(shí)間和被訪網(wǎng)頁(yè)。

如果是簡(jiǎn)單的查看,您可以在記事本中搜索baiduspider ,如果想精確分析,可借助一些專用的分析軟件。分析下哪些時(shí)間段百度蜘蛛來(lái)的最頻繁,那么我們就在這個(gè)時(shí)間段更新我們的網(wǎng)站內(nèi)容,很容易被百度收錄的。

通過分析蜘蛛來(lái)訪紀(jì)錄,可以了解本站的大體情況,而不用再為百度不放出內(nèi)頁(yè)或者不收錄的問題而苦惱了。

蜘蛛來(lái)訪正常,可以確切的說(shuō),搜索引擎對(duì)你的站很友好的,堅(jiān)持更新自己的網(wǎng)站,會(huì)有不錯(cuò)的收錄的。

注:有些共享IP空間可能不支持日志功能,對(duì)于獨(dú)立ip虛擬主機(jī)則提供每天的日志下載,而實(shí)在沒有可以日志功能的空間可以參考使用蜘蛛爬行插件的一些方法進(jìn)行分析。

怎么查看蜘蛛抓取情況

百度用于抓取網(wǎng)頁(yè)的程序叫做Baiduspider - 百度蜘蛛,我們查看網(wǎng)站被百度抓取的情況主要是分析,網(wǎng)站日志里百度蜘蛛Baiduspider的活躍性:抓取頻率,返回的HTTP狀態(tài)碼。

查看日志的方式:

過FTP,在網(wǎng)站根目錄找到一個(gè)日志文件,文件名一般包含log,下載解壓里面的記事本,這即是網(wǎng)站的日志,記錄了網(wǎng)站被訪問和操作的情況。因?yàn)楦鱾€(gè)服務(wù)器和主機(jī)的情況不同,不同的主機(jī)日志功能記錄的內(nèi)容不同,有的甚至沒有日志功能。

日志內(nèi)容如下:

61.135.168.22 - - [11/Jan/2009:04:02:45 +0800] "GET /bbs/thread-7303-1-1.html HTTP/1.1" 200 8450 "-" "Baiduspider+(+)"

分析:

/bbs/thread-7303-1-1.html 代表,抓取/bbs/thread-7303-1-1.html 這個(gè)頁(yè)面。

200 代表成功抓取。

8450 代表抓取了8450個(gè)字節(jié)。

如果你的日志里格式不是如此,則代表日志格式設(shè)置不同。

很多日志里可以看到 200 0 0和200 0 64 則都代表正常抓取。

抓取頻率是通過查看每日的日志里百度蜘蛛抓取次數(shù)來(lái)獲知。抓取頻率并沒有一個(gè)規(guī)范的時(shí)間表或頻率數(shù)字,我們一般通過多日的日志對(duì)比來(lái)判斷。當(dāng)然,我們希望百度蜘蛛每日抓取的次數(shù)越多越好。

讓蜘蛛經(jīng)常光臨

文章需要經(jīng)常更新

蜘蛛就和一個(gè)人一樣,想要吸引它,必須要有最新鮮的內(nèi)容。如果都是一些老舊的內(nèi)容,誰(shuí)還會(huì)還看呢?每天或者數(shù)天一篇新的原創(chuàng)文章能夠很好地勾引蜘蛛,同時(shí)也能夠讓更多的訪客來(lái)你的網(wǎng)站上留下足跡。

頁(yè)面簡(jiǎn)潔,保證打開速度

一個(gè)干凈、簡(jiǎn)潔的頁(yè)面能夠比一個(gè)滿是廣告、無(wú)用信息的頁(yè)面更頁(yè)面更能夠吸引用戶,這對(duì)于蜘蛛也是。越少的需要抓取的內(nèi)容,越快的打開速度,能夠保證蜘蛛的高效率抓取,蜘蛛來(lái)訪的頻率也會(huì)越高。

內(nèi)部鏈接結(jié)構(gòu)良好,無(wú)死鏈和大量重復(fù)鏈

蜘蛛的爬行除了抓取頁(yè)面,還通過頁(yè)面上的鏈接進(jìn)行“行走”。如果正好步入了一個(gè)死鏈,正如同步入深淵一般,蜘蛛可能需要一段時(shí)間之后才能繼續(xù)抓取。同樣的,如果有大量的重復(fù)鏈接,一直爬到這個(gè)頁(yè)面上去,蜘蛛就會(huì)認(rèn)為這個(gè)頁(yè)面沒有太大的意義,甚至?xí)V古佬小?/p>

為蜘蛛指路——建設(shè)網(wǎng)站地圖

網(wǎng)站地圖就好比是一個(gè)指向標(biāo),唯有清晰明了的指向標(biāo)才能指引蜘蛛的去向。方便快捷的道路也會(huì)勾引來(lái)更多的蜘蛛。

每個(gè)頁(yè)面都有完整的meta標(biāo)簽

擁有完整的meta標(biāo)簽可以更快地告訴蜘蛛這個(gè)頁(yè)面里有什么,提高蜘蛛的抓取效率。這主要包括keywords(關(guān)鍵詞)和description(描述),如果想讓meta更完美,可以加上generator(作者)、robots(蜘蛛)、copyright(版權(quán))等等。

確保服務(wù)器能夠正常運(yùn)作,避免宕機(jī)

在建網(wǎng)站之前,就要考慮好選擇一個(gè)穩(wěn)定的服務(wù)器,寧可多花點(diǎn)錢,也不要貪小便宜。穩(wěn)定的運(yùn)作能夠使蜘蛛更好地進(jìn)行抓取并不中斷,還能容納下更多勾引來(lái)的蜘蛛。

確保服務(wù)器返回信息正常

千萬(wàn)不要限制服務(wù)器返回信息,這對(duì)于蜘蛛來(lái)說(shuō)很重要。一旦無(wú)法獲取到正確的返回信息,蜘蛛將會(huì)迷失方向。

監(jiān)測(cè)蜘蛛的爬行

可以利用日志知道蜘蛛正在抓取哪些頁(yè)面,知己知彼,方能根據(jù)蜘蛛的喜好對(duì)頁(yè)面進(jìn)行調(diào)整,以勾引來(lái)更多的蜘蛛。

利用Google管理員工具查看爬行速度

可以利用Google專門為站長(zhǎng)提供的管理員工具對(duì)蜘蛛的爬行速度進(jìn)行查看,合理分配資源,以達(dá)到更高的抓取速度和勾引更多的蜘蛛。

增加網(wǎng)站的外鏈

這一條和第三點(diǎn)相類似,因?yàn)橹┲氲耐ㄟ^鏈接爬行。別的網(wǎng)站上也有蜘蛛,就可以想辦法將蜘蛛勾引過來(lái),這辦法就是在網(wǎng)站上發(fā)外鏈。

怎么查看百度蜘蛛有沒有來(lái)過我的網(wǎng)站

判斷蜘蛛有沒有來(lái)過自己的網(wǎng)站可以查看IIS日志代碼。 或者聯(lián)系空間商開通了蜘蛛訪問記錄也可以。如果你的空間商給你的空間支持查詢蜘蛛訪問記錄的話??梢栽趂tp找到WebLog的文件夾,具體步驟如下:1. 打開FTP登陸軟件(這里以FlashFxp為例),登陸你的空間FTP。登陸進(jìn)FTP后,你會(huì)發(fā)現(xiàn)在根目錄下有一個(gè)WebLog的文件夾 (注:不同的IDC空間生成的日志文件目錄名稱不一樣,僅供參考.一般文件夾中包含Log字符的都是日志文件夾) 2.打開WebLog目錄后,里面有一些以日期格式特征為文件名的.gz后綴結(jié)尾的文件.這些就是我們需要下載到本地的日志文件. 3.打開壓縮文件,發(fā)現(xiàn)里面只有一個(gè)以.log結(jié)尾的日志文件,我們需要的就是這個(gè)文件了. 4.解壓后,打開日志文件.Ctrl+F查找baidu.com/search 特征字符(這里以百度蜘蛛為例) 通過分析蜘蛛來(lái)訪紀(jì)錄,可以了解本站的大體情況,而不用再為百度不放出內(nèi)頁(yè)或者不收錄的問題而苦惱了. 蜘蛛來(lái)訪正常,可以確切的說(shuō),搜索引擎對(duì)你的站很友好的,堅(jiān)持更新自己的網(wǎng)站,會(huì)有不錯(cuò)的收錄的.注:有些共享IP空間可能不支持日志功能.對(duì)于獨(dú)立ip虛擬主機(jī)則提供每天的日志下載.而實(shí)在沒有可以日志功能的空間可以參考使用 蜘蛛爬行插件 的一些方法進(jìn)行分析.

分享文章:帝國(guó)cms蜘蛛來(lái)訪記錄 帝國(guó)cms phpcms
當(dāng)前地址:http://muchs.cn/article10/doeepdo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供ChatGPT、網(wǎng)站導(dǎo)航營(yíng)銷型網(wǎng)站建設(shè)、云服務(wù)器品牌網(wǎng)站制作、電子商務(wù)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站建設(shè)