又大又肥水又多|age动漫官方网站|ZoomkooL牧场视频猪|新国产欧美一区二区三区|不卡一区中文字幕电影|双腿打开揉弄高潮漫画H|艳妇电影K8

多快好省

效果好 · 省錢

SEO研究,搜索引擎收錄問題

編輯:億企寶 更新日期:2016-05-20

google04年推出sandbox后,百度終于也在去年提高了新站收錄的標準,seo的門檻變得比以前更高了,很多時候新站的收錄都成了一個問題,為什么搜索引擎不收錄我的網站呢?為什么我的網站收錄比其他人慢?根據常見程度排序,搜索引擎收錄問題歸納起來有以下幾方面的原因,大家可以對照著看自己的網站屬于哪一種:

  1、內容違法

這種行為一般較罕見,違反國家法律以及法規的網頁,一般搜索引擎是不會收錄的,百度在"站長FAQ"(http://www.baidu.com/search/guide.html#1)中明確指出不收錄"不符合國家法律和法規規定"的網頁, 谷歌在這方面還是在努力中,但是隨著google中國化進程的深入,對于違法內容的打擊勢必越來越嚴厲,如果大家有興趣可以對照搜索幾個色情論壇……這個具體我就不舉例子了。

  2、robots協議有誤

由于robots協議的復雜性,導致有小部分站長在創建robots協議的出現錯誤誤導了spider,常見的錯誤有以下幾種:

(1)、 顛倒了順序

錯誤寫成:

User-agent: *

Disallow: GoogleBot

正確的應該是:

User-agent: GoogleBot

Disallow: *

(2)、把多個禁止命令放在一行中

例如錯誤寫成:

Disallow: /css/ /cgi-bin/ /images/

正確的應該是:

Disallow: /css/

Disallow: /cgi-bin/

Disallow: /images/

(3)、行前有大量空格

例如寫成:

Disallow: /cgi-bin/

盡管在標準沒有談到這個,但是這種方式很容易出問題。

(4)、404重定向到另外一個頁面

當Robot訪問很多沒有設置robots.txt文件的站點時,會被自動404重定向到另外一個Html頁面。這時Robot常常會以處理robots.txt文件的方式處理這個Html頁面文件。雖然一般這樣沒有什么問題,但是最好能放一個空白的robots.txt文件在站點根目錄下。

(5)、采用大寫。例如

USER-AGENT: EXCITE

DISALLOW:

雖然標準是沒有大小寫的,但是目錄和文件名應該小寫:

user-agent:GoogleBot

disallow:

(6)、語法中只有Disallow,沒有Allow

錯誤的寫法是:

User-agent: Baiduspider

Disallow: /john/

allow: /jane/

(7)、忘記了斜杠/

錯誤寫作:

User-agent: Baiduspider

Disallow: css

正確的應該是:

User-agent: Baiduspider

Disallow: /css/

……

對于robots協議,飛翔豬建議大家創建robots協議之前仔細閱讀一些robots協議的教程,例如百度的幫助文件"禁止搜索引擎收錄的方法(http://www.baidu.com/search/robots.html)" 就十分詳細,google的網站管理員工具中,也有"分析 robots.txt","生成 robots.txt"兩個工具,大家可以充分利用起來。

  3、網站設計問題

這種情況在前幾年的企業站中比較常見,最常見的情況是,整站flash,整站js,蜘蛛無法抓取,對于這樣的網站,改版是最好的選擇,相關討論很多,這邊就不贅述了

  4、網站不穩定

網站不穩定影響收錄的情況是相對比較多見,他對spider的抓取有2種影響,一種是,剛好spider抓取頁面的時候你的網站無法訪問,spider認為你的網站沒有內容,相當長的一段時間不會繼續訪問,造成收錄延遲,或者是spider抓取的過程中遇到了太多的錯誤,某一頁面時而可以被抓取時而不可以被抓取,讓搜索引擎認為你無法為訪問者提供有用的內容——畢竟如果用戶從搜索結果點擊進去以后出現一個404頁面是讓搜索引擎很難接受的——網站不穩定的原因也包括2種情況,一種是服務器不穩定,很多站長貪圖便宜,使用一些比較便宜的主機,往往每臺機子上放置了數百個網站,建議站長最好選擇一些比較知名的idc購買主機,譬如新網互聯,時代互聯,西部數碼。還有一種情況,網站的程序不穩定,例如 http://www.law158.com/長期無法被收錄,從iis訪問日志中,發現蜘蛛抓取的頁面出現了多次無法訪問的情況,原來該站上線之初,由于程序員在編寫程序時,不注意程序的執行效率的優化,導致一部分動態頁面占用了過多的資源,訪問用戶一多馬上出現Service Unavailable 提示。對于這種情況,思路就是排查占用過多資源的頁面,一般而言,程序的執行時間越長,占用的資源也就越多,越容易出現Service Unavailable錯誤,一般的動態頁面執行時間不應該超過325ms,因此我建議該站管理員在動態頁面加入一段查看程序執行時間的代碼,代碼如下

程序頂部:starttime=timer

程序尾部:response.Write (timer- starttime)&"ms"

經過排查了幾個執行時間超過350ms的問題頁面以后,網站訪問情況趨于穩定,一個更新周期以后網站就被收錄了。

  5、關聯懲罰

所謂城門失火,殃及池魚,如果某個網站被搜索引擎封殺,同時你的網站又不幸地被搜索引擎判定,2者之間有密切的關系,那么很遺憾,收錄就是不可能的事情了,特別是百度,對于一些站群,垃圾站,seo過度站點的封殺極為嚴厲。關聯懲罰分為三種,域名關聯,服務器關聯,鏈接關聯。

(1)、域名關聯。Google在早期的一項專利說明文檔中有提到,whois信息可以被搜索引擎檢索到并利用于結果排序中。因此,搜索引擎可以通過whois信息判斷某個網站的歸屬,譬如你制作了一個垃圾站http://www.a.com/被搜索引擎封殺,而后,又以相同的whois申請了一個http://www.b.com、 的域名做另外一個網站,那么http://www.b.com/可能不會被收錄,因為搜索引擎根據whois資料里的信息判斷2個網站的所有者是相同的,當然,這邊只是舉例而已,一般而言,因為1個站被懲罰而觸發域名關聯的幾率是比較小的。有個群友的網站,17washu點com,whois資料與他之前所做過的幾個被k的垃圾站相同,因此該站迄今仍未收錄,為了防止轉載的站點誤鏈此站上面域名做了處理。對于這種情況,建議各位站長在申請域名的時候,不要每個域名的whois信息都一樣。

(2)、服務器/ip關聯。如果你和被搜索引擎懲罰過的網站處于同一臺服務器,或者共用一個ip,那么搜索引擎可能不會收錄你的內容。不過在國內,由于多數使用的是虛擬主機,因此幾百個站共用一個ip或者一臺服務器也是常見的,這種情況無需擔憂,但是如果是與朋友合租,一臺服務器只放了幾個站點,其中有個站點是被懲罰過的,那么就要小心了,應當考慮更換服務器。例如不久前朋友讓我看的一個站,http://www.177liuxue.com/長期以來一直沒有被收錄,排除了其他因素以后,通過http://www.114best.com/ip/的同ip反查功能發現,該站和1個被k的qq空間站,還有一個幾個月沒被收錄的私服站為鄰,這才知道未被收錄的原因。更換了服務器以后,本次更新周期就被收錄了。

(3)、鏈接關聯。Goolge 的"網站管理員指南"(http://www.google.com/support/webmasters/bin/answer.py?answer=35769#design)中提到,"請不要參與旨在提高您的網站排名或 PageRank 的鏈接方案。 尤其要避免鏈接到違禁的網站或"惡鄰"",明確指出鏈接向有問題的網站,可能導致排名或者收錄問題。這就要求站長在選擇友情鏈接的時候擦亮眼睛,除了看pr以外,還應該查看網站在百度等其他搜索引擎的收錄情況,網站本身的內容質量,避免與"惡鄰"為伍。

  6、內容質量不高

百度在"站長FAQ"中指出,百度不收錄"復制自互聯網上的高度重復性的內容。" Goolge 的"網站管理員指南"也用了專門一節談論"原創內容很少或非原創內容" http://www.google.com/support/webmasters/bin/answer.py?answer=66361,如果你的網站內容是互聯網上轉載過很多遍的,或者根本沒有內容,那么spider可能會一去不復返,例如http://www.zhaoche51.com/此站建立于今年7月初,baiduspider從7月14日光顧一次抓取了300多個頁面以后就沒有再光顧過,后來我仔細查看了該站的iis日志,發現了baiduspider光顧的日志如下:

[18822] 2008-07-14 08:48:32 W3SVC746795306 222.74.81.18 www.zhaoche51.com GET /station.asp c=畢節 80 - 61.135.168.160 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0

[18823] 2008-07-14 08:48:32 W3SVC746795306 222.74.81.18 www.zhaoche51.com GET /station.asp c=延安 80 - 61.135.168.160 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0

[18837] 2008-07-14 08:48:36 W3SVC746795306 222.74.81.18 www.zhaoche51.com GET /station.asp c=鄂州 80 - 61.135.168.160 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0

[18839] 2008-07-14 08:48:38 W3SVC746795306 222.74.81.18 www.zhaoche51.com GET /bus.asp id=136 80 - 61.135.168.160 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0

[18840] 2008-07-14 08:48:38 W3SVC746795306 222.74.81.18 www.zhaoche51.com GET /station.asp c=陽江 80 - 61.135.168.160 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0

非常遺憾的是,baiduspider所抓取的頁面都只是程序自動生成的一個框架頁(如/station.asp?c=陽江),并沒有實質的內容!這就導致了百度認為這個網站目前根本沒有價值,長達22天未再訪問此站。對此,我建議大家,網站還未做好,內容還未填充的框架,盡量不要給提交給百度或者與朋友交換友情鏈接,這樣將導致搜索引擎認為你網站當前不具備收錄價格,而無法在當次收錄周期中被收錄。

  7、spider入口不足

有部分網站能夠很快被搜索引擎收錄,而有部分網站在內容完全的情況下,卻要一兩個月才會被搜索引擎收錄,這里面,牽引蜘蛛去抓取網站是一個很重要的方面,一個新站建成以后,比如告知搜索引擎該站的網址,以往都是采用向搜索引擎提交網址的方式告知,如百度的提交入口http://www.baidu.com/search/url_submit.html,google的網站提交入口http://www.google.com/addurl/?hl=zh-CN&continue=/addurl,但是傳說,手工提交網址容易遭到人工審核,遭遇不必要的麻煩,因此現在更多的是不提交,在一些網站上做個鏈接,讓spider自然地循著鏈接抓取到新網站的內容,這里有一個常見的錯誤是,很多人以為隨便做個鏈接就可以,結果是蜘蛛在你鏈接做好以后1,2個月才姍姍來遲,收錄那更是遙遠的事情了,指向新站的鏈接來源,應該是spider訪問頻繁,而且最好內容和你的網站相關的,spider訪問頻繁,你的鏈接才會更快地被spider所識別,內容和新站相關,鏈接才會被spider認為比較有抓取價值。

以上7個方面,是筆者在工作中遇到的一些搜索引擎收錄問題整理而成,成文倉促難免遺漏,敬請高手不吝賜教,歡迎到筆者博客http://www.001pp.com 多提寶貴意見,同時,Seo暨網站運營交流qq群54338195,歡迎您的加入,以上內容為本文不可分割之部分,轉載須保留。