期筆者對大約50多位剛從事或已經(jīng)從事1-2年的seoer做了個小調(diào)查,其中包括很多面試者,真正在工作中能分析到日志的seoer比例非常非常的少,在問到訪問日志在seo所起到的作用,很多seoer都直搖頭,或者僅僅知道一些皮毛并未親手操作過,其主要原因還是在公司平臺中并未有機會去實踐,下面筆者分享下自己對網(wǎng)站原始訪問日志的認識:
什么是訪問日志
網(wǎng)站訪問日志是記錄web服務(wù)器接收處理請求以及運行時錯誤等各種原始信息的以.log結(jié)尾的文件,確切的講,應(yīng)該是服務(wù)器日志。它的作用是讓我們seoer可以清楚的得知用戶在什么IP、什么時間、用什么操作系統(tǒng)、什么瀏覽器、什么分辨率顯示器的情況下訪問了你網(wǎng)站的哪個頁面,是否訪問成功。
什么時候我們需要去分析日志及日志特征
我們會天天都去分析日志嗎?不會的,因為日志分析比較枯燥,一般都是每月或者半月分析一次。這種分析屬于日常分析,如果您的網(wǎng)站一直都比較正常那可以每月分析一次,或者可以簡單的分析一次。
其實日志更多是在網(wǎng)站出現(xiàn)異常的時候,會觀察半個月日志,集中分析蜘蛛的動向。比如會分析是不是網(wǎng)站404,robots設(shè)置異;蛘邟祚R等問題造成蜘蛛消失,逐兒去查找解決問題。
下面是從筆者日常分析的日志中取的一條訪問記錄:
119.254.22.200 - - [10/Apr/2012:00:04:54 +0800] "GET /bbjk/index.html HTTP/1.0" 200 25269 "-" "Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"
119.254.22.200 為用戶訪問ip
10/Apr/2012:00:04:54 +0800 為訪問日期 -時區(qū)
GET /bbjk/index.html HTTP/1.0 根據(jù)HTTP/1.1 協(xié)議 抓取(域名下)/bbjk/index.html 這個頁面(GET表示服務(wù)器動作)
200 服務(wù)器響應(yīng)狀態(tài)碼
25269 為頁面字節(jié)數(shù)。
Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) 為搜狗蜘蛛特征。
注意:任何蜘蛛都僅僅為網(wǎng)站的普通用戶。不要以為蜘蛛非常的強大,很多人還認為網(wǎng)站若禁止登錄查看內(nèi)容,蜘蛛都能爬取登陸后的頁面內(nèi)容,這是不可能的。除非網(wǎng)站做了蜘蛛專屬手段。
怎么去分析網(wǎng)站訪問日志
曾記得在幾年前,筆者剛接觸seo的時候,工具稀少的年代,筆記一直都喜歡手工
去分析訪問日志,當然手工分析很費時費力,再這里只講解下筆者最喜歡手工分析日志中的幾點。
筆者現(xiàn)在手工分析一般都集中在研究每日蜘蛛在網(wǎng)站上爬行規(guī)律與網(wǎng)站更新數(shù)據(jù)之間的關(guān)系。當然每個網(wǎng)站需根據(jù)自己來觀察,最后會有一個非常完美的規(guī)律。
筆者會把每日的蜘蛛訪問時間按時間段排序統(tǒng)計成報表,
比如:2012-4-18 1-2點爬行5次
2-3點爬行3次
3-4點爬行10次
如果你細心的話可以做個走勢圖就非常直觀。這種統(tǒng)計一般都是在網(wǎng)站剛建立后和網(wǎng)站出異常后加強分析日志,日常運營中,更多注重的是分析出蜘蛛每日的爬行規(guī)律然后定時的放出充量文章,增加收錄。
手工分析日志都是比較枯燥的,有時會影響心情,不過現(xiàn)在工具繁盛的年代,我們也借助工具來達到事半功倍。
筆者比較推薦的是光年日志分析工具。該工具非常簡單,筆者不在此演示,有興趣的自己百度,它的優(yōu)點在于能在生成的報告中清晰的告訴我們蜘蛛爬行異常,與頁面抓取痕跡。比如404. 唯一遺憾的是目前筆者還未找到一款工具帶有分析蜘蛛爬行規(guī)律生成走勢圖的工具。
注意:在日志分析中,很多時候我們都是想從日志中尋找到問題,以便改進我們的自身的問題,所以需要特別關(guān)注404,301等狀態(tài)碼。
真假蜘蛛辨別
為什么會出現(xiàn)真假蜘蛛,主要是因為現(xiàn)在信息繁盛,很多采集工具為不讓對方發(fā)現(xiàn)自己的痕跡都模擬蜘蛛的痕跡來下載數(shù)據(jù)源。所以會造成很多seoer誤認為蜘蛛大量的抓取頁面卻發(fā)現(xiàn)收錄并未增加的現(xiàn)象。下面筆者告訴大家比較容易辨認真假蜘蛛和一些特別注意的地方。
1, 真蜘蛛
220.181.108.96 - - [07/Apr/2012:01:22:21 +0800] "GET /site/sex/index.php HTTP/1.1" 302 20 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
這是筆者某網(wǎng)站的日志片段,我拿出ip,在win系統(tǒng)下cmd登錄dos框下輸入nslookup 220.181.108.96 查看回顯:
如上圖,若是百度蜘蛛,他會直接回顯百度的域名。
2, 假蜘蛛
假蜘蛛比較經(jīng)典的就是chinaz的查詢工具了,他就是模擬百度蜘蛛的,他的ip為125.90.88.96 我們反查后并未出現(xiàn)百度域名。有興趣的可以nslookup 125.90.88.96下,筆者就不截圖了。
一般假蜘蛛的存在形式為:XXX.XXX.XXX.XXX - - [07/Apr/2012:01:22:21 +0800] "GET /site/sex/index.php HTTP/1.1" 302 20 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
看著跟真的一樣,唯獨ip就是貓膩!
3, 特殊情況的蜘蛛
1) cdn加速后,造成ip混亂。
此類情況出現(xiàn)一般是網(wǎng)站在做了cdn加速后,再去查看apache服務(wù)器的訪問日志的時候發(fā)現(xiàn)很多蜘蛛的痕跡ip都非常的類似,如果按照百度官方出的辨別手法nslookup ip 后肯定為匿名,因為這些ip都是cdn節(jié)點ip,所以會造成誤解。若開啟cdn后,蜘蛛實際訪問次數(shù)一般都<=日志中蜘蛛總數(shù)值。
2) 百度匿名蜘蛛的存在性討論。
匿名蜘蛛?百度工程師lee一直強調(diào)百度蜘蛛是不會匿名去訪問網(wǎng)站的,但筆者從網(wǎng)上查閱資料,加上筆者某個站的數(shù)據(jù)推測,筆者認為會有兩種情況:
第一種:假如真的存在匿名蜘蛛,這很明顯與lee的話有悖。所以這點我們可以去辯證的去理解,假如存在,匿名蜘蛛會做什么,很多seoer包括筆者都猜測可能會存在用此類蜘蛛去驗證網(wǎng)站是否對蜘蛛與用戶做了不同的待遇。所以此種情況,做賊就不要心虛嘛,老老實實做站吧。
第二種:可能是百度的上班族們在公司訪問了你的網(wǎng)站,百度員工也是人,他們也有七情六欲,或許你的網(wǎng)站被他們某人發(fā)現(xiàn)了,訪問了你的網(wǎng)站后,從而留下了百度ip,造成了誤解。(其實百度很多部門都是一直在做收集客戶資料的,比如網(wǎng)盟部門)
注意:對于真假蜘蛛的辨別一定要多方面考慮,切勿只拿ip來判斷就斷定真?zhèn)巍?/p>
本文來自廊坊膠體磨www.www.fillse.com