我們要學(xué)會如何分析網(wǎng)站日志,通過網(wǎng)站日志文件我們可以很清楚的看到有哪些搜索引擎蜘蛛光臨我們的網(wǎng)站,蜘蛛都爬取了哪些目錄以及通過日志我們還可以發(fā)現(xiàn)網(wǎng)站表面上看不到的問題,如404等,網(wǎng)站默認(rèn)是允許所有蜘蛛進(jìn)行抓取,大家可以通過根目錄下的robots.txt文件來控制蜘蛛的抓取目錄以及允許哪些蜘蛛過來,這里就robots.txt文件怎么寫就詳細(xì)說了,北京匯仁智杰網(wǎng)絡(luò)科技有限公司的權(quán)威講師就為大家簡單介紹一下如何分析網(wǎng)站日志:
1、各搜索引擎抓取本站的情況:
每個搜索引擎都有自己的蜘蛛名稱(機(jī)器人),通過網(wǎng)站日志可以看到哪些搜索引擎來光臨自己的網(wǎng)站,爬取了哪些目錄,以及蜘蛛過來的時間等,如百度蜘蛛是Baiduspider,我么可以Ctrl+F查找一下,查看百度是什么時間過來,抓取了哪些頁面,通過查看蜘蛛爬取目錄或頁面的頻率我們還能知道哪個目錄或頁面最吸引蜘蛛。
2、網(wǎng)站目錄抓取和收錄情況
一般網(wǎng)站的結(jié)構(gòu)是樹形或扁平結(jié)構(gòu),蜘蛛按照網(wǎng)站結(jié)構(gòu)目錄一層一層的抓取是合理的,如果發(fā)現(xiàn)某個目錄爬取頻率比較高,但是收錄的內(nèi)容少,這時候就要注意這個目錄下頁面(內(nèi)容)的質(zhì)量了,就算寫不了原創(chuàng),也要注意深度偽原創(chuàng),千萬不要大量采集。
3、頁面的抓取時間
通過網(wǎng)站日志可以分析每個頁面的抓取次數(shù)和抓取時間,從而了解蜘蛛的喜好和抓取規(guī)律,包括哪個時間點來的比較頻繁,如果有新頁面想要搜索引擎盡快收錄,我們可以在搜索引擎蜘蛛爬取最頻繁的頁面上(如首頁)加入新頁面的入口,而且最好在蜘蛛來的最頻繁的那個時間點之前添加好新的內(nèi)容。
4、頁面狀態(tài)碼
http狀態(tài)碼,SEO常見的有301,302和404,蜘蛛每爬取頁面都會返回一個狀態(tài)碼,如果是200代表正常,如果是301說明這個頁面是跳轉(zhuǎn)頁面,如果是302代表臨時跳轉(zhuǎn),最重要的是404錯誤碼,如果發(fā)現(xiàn)某個抓取返回的是404,我們要趕快診斷一下說明原因返回404(誤刪還是移走了),網(wǎng)站最好都設(shè)置一個404的頁面,這樣才對蜘蛛顯得友好,遇到404的頁面鏈接,百度站長工具有提交死鏈的工具,也去提交一下,讓百度知道并處理。
其實分析網(wǎng)站日志很簡單,看一遍就知道規(guī)律了,ip+時間+蜘蛛名+返回碼+抓取目錄,一條記錄就這么多內(nèi)容,沒什么繁雜看不懂的。