国产情侣在线不卡视频,91天堂视频在线观看

SEO研究,搜索引擎收錄問題

編輯：億企寶 更新日期：2016-05-20

google04年推出sandbox后，百度終于也在去年提高了新站收錄的標(biāo)準(zhǔn)，seo的門檻變得比以前更高了，很多時候新站的收錄都成了一個問題，為什么搜索引擎不收錄我的網(wǎng)站呢?為什么我的網(wǎng)站收錄比其他人慢?根據(jù)常見程度排序，搜索引擎收錄問題歸納起來有以下幾方面的原因，大家可以對照著看自己的網(wǎng)站屬于哪一種：

　　1、內(nèi)容違法

這種行為一般較罕見，違反國家法律以及法規(guī)的網(wǎng)頁，一般搜索引擎是不會收錄的，百度在"站長FAQ"(http://www.baidu.com/search/guide.html#1)中明確指出不收錄"不符合國家法律和法規(guī)規(guī)定"的網(wǎng)頁，谷歌在這方面還是在努力中，但是隨著google中國化進(jìn)程的深入，對于違法內(nèi)容的打擊勢必越來越嚴(yán)厲，如果大家有興趣可以對照搜索幾個色情論壇……這個具體我就不舉例子了。

　　2、robots協(xié)議有誤

由于robots協(xié)議的復(fù)雜性，導(dǎo)致有小部分站長在創(chuàng)建robots協(xié)議的出現(xiàn)錯誤誤導(dǎo)了spider，常見的錯誤有以下幾種：

(1)、顛倒了順序

錯誤寫成：

User-agent: *

Disallow: GoogleBot

正確的應(yīng)該是：

User-agent: GoogleBot

Disallow: *

(2)、把多個禁止命令放在一行中

例如錯誤寫成：

Disallow: /css/ /cgi-bin/ /images/

正確的應(yīng)該是：

Disallow: /css/

Disallow: /cgi-bin/

Disallow: /images/

(3)、行前有大量空格

例如寫成：

Disallow: /cgi-bin/

盡管在標(biāo)準(zhǔn)沒有談到這個，但是這種方式很容易出問題。

(4)、404重定向到另外一個頁面

當(dāng)Robot訪問很多沒有設(shè)置robots.txt文件的站點(diǎn)時，會被自動404重定向到另外一個Html頁面。這時Robot常常會以處理robots.txt文件的方式處理這個Html頁面文件。雖然一般這樣沒有什么問題，但是最好能放一個空白的robots.txt文件在站點(diǎn)根目錄下。

(5)、采用大寫。例如

USER-AGENT: EXCITE

DISALLOW:

雖然標(biāo)準(zhǔn)是沒有大小寫的，但是目錄和文件名應(yīng)該小寫：

user-agent:GoogleBot

disallow:

(6)、語法中只有Disallow，沒有Allow

錯誤的寫法是：

User-agent: Baiduspider

Disallow: /john/

allow: /jane/

(7)、忘記了斜杠/

錯誤寫作：

User-agent: Baiduspider

Disallow: css

正確的應(yīng)該是：

User-agent: Baiduspider

Disallow: /css/

……

對于robots協(xié)議，飛翔豬建議大家創(chuàng)建robots協(xié)議之前仔細(xì)閱讀一些robots協(xié)議的教程，例如百度的幫助文件"禁止搜索引擎收錄的方法(http://www.baidu.com/search/robots.html)" 就十分詳細(xì)，google的網(wǎng)站管理員工具中，也有"分析 robots.txt"，"生成 robots.txt"兩個工具，大家可以充分利用起來。

　　3、網(wǎng)站設(shè)計(jì)問題

這種情況在前幾年的企業(yè)站中比較常見，最常見的情況是，整站flash，整站js，蜘蛛無法抓取，對于這樣的網(wǎng)站，改版是最好的選擇，相關(guān)討論很多，這邊就不贅述了

　　4、網(wǎng)站不穩(wěn)定

網(wǎng)站不穩(wěn)定影響收錄的情況是相對比較多見，他對spider的抓取有2種影響，一種是，剛好spider抓取頁面的時候你的網(wǎng)站無法訪問，spider認(rèn)為你的網(wǎng)站沒有內(nèi)容，相當(dāng)長的一段時間不會繼續(xù)訪問，造成收錄延遲，或者是spider抓取的過程中遇到了太多的錯誤，某一頁面時而可以被抓取時而不可以被抓取，讓搜索引擎認(rèn)為你無法為訪問者提供有用的內(nèi)容——畢竟如果用戶從搜索結(jié)果點(diǎn)擊進(jìn)去以后出現(xiàn)一個404頁面是讓搜索引擎很難接受的——網(wǎng)站不穩(wěn)定的原因也包括2種情況，一種是服務(wù)器不穩(wěn)定，很多站長貪圖便宜，使用一些比較便宜的主機(jī)，往往每臺機(jī)子上放置了數(shù)百個網(wǎng)站，建議站長最好選擇一些比較知名的idc購買主機(jī)，譬如新網(wǎng)互聯(lián)，時代互聯(lián)，西部數(shù)碼。還有一種情況，網(wǎng)站的程序不穩(wěn)定，例如 http://www.law158.com/長期無法被收錄，從iis訪問日志中，發(fā)現(xiàn)蜘蛛抓取的頁面出現(xiàn)了多次無法訪問的情況，原來該站上線之初，由于程序員在編寫程序時，不注意程序的執(zhí)行效率的優(yōu)化，導(dǎo)致一部分動態(tài)頁面占用了過多的資源，訪問用戶一多馬上出現(xiàn)Service Unavailable 提示。對于這種情況，思路就是排查占用過多資源的頁面，一般而言，程序的執(zhí)行時間越長，占用的資源也就越多，越容易出現(xiàn)Service Unavailable錯誤，一般的動態(tài)頁面執(zhí)行時間不應(yīng)該超過325ms，因此我建議該站管理員在動態(tài)頁面加入一段查看程序執(zhí)行時間的代碼，代碼如下

程序頂部：starttime=timer

程序尾部：response.Write (timer- starttime)&"ms"

經(jīng)過排查了幾個執(zhí)行時間超過350ms的問題頁面以后，網(wǎng)站訪問情況趨于穩(wěn)定，一個更新周期以后網(wǎng)站就被收錄了。

　　5、關(guān)聯(lián)懲罰

所謂城門失火，殃及池魚，如果某個網(wǎng)站被搜索引擎封殺，同時你的網(wǎng)站又不幸地被搜索引擎判定，2者之間有密切的關(guān)系，那么很遺憾，收錄就是不可能的事情了，特別是百度，對于一些站群，垃圾站，seo過度站點(diǎn)的封殺極為嚴(yán)厲。關(guān)聯(lián)懲罰分為三種，域名關(guān)聯(lián)，服務(wù)器關(guān)聯(lián)，鏈接關(guān)聯(lián)。

(1)、域名關(guān)聯(lián)。Google在早期的一項(xiàng)專利說明文檔中有提到，whois信息可以被搜索引擎檢索到并利用于結(jié)果排序中。因此，搜索引擎可以通過whois信息判斷某個網(wǎng)站的歸屬，譬如你制作了一個垃圾站http://www.a.com/被搜索引擎封殺，而后，又以相同的whois申請了一個http://www.b.com、的域名做另外一個網(wǎng)站，那么http://www.b.com/可能不會被收錄，因?yàn)樗阉饕娓鶕?jù)whois資料里的信息判斷2個網(wǎng)站的所有者是相同的，當(dāng)然，這邊只是舉例而已，一般而言，因?yàn)?個站被懲罰而觸發(fā)域名關(guān)聯(lián)的幾率是比較小的。有個群友的網(wǎng)站，17washu點(diǎn)com，whois資料與他之前所做過的幾個被k的垃圾站相同，因此該站迄今仍未收錄，為了防止轉(zhuǎn)載的站點(diǎn)誤鏈此站上面域名做了處理。對于這種情況，建議各位站長在申請域名的時候，不要每個域名的whois信息都一樣。

(2)、服務(wù)器/ip關(guān)聯(lián)。如果你和被搜索引擎懲罰過的網(wǎng)站處于同一臺服務(wù)器，或者共用一個ip，那么搜索引擎可能不會收錄你的內(nèi)容。不過在國內(nèi)，由于多數(shù)使用的是虛擬主機(jī)，因此幾百個站共用一個ip或者一臺服務(wù)器也是常見的，這種情況無需擔(dān)憂，但是如果是與朋友合租，一臺服務(wù)器只放了幾個站點(diǎn)，其中有個站點(diǎn)是被懲罰過的，那么就要小心了，應(yīng)當(dāng)考慮更換服務(wù)器。例如不久前朋友讓我看的一個站，http://www.177liuxue.com/長期以來一直沒有被收錄，排除了其他因素以后，通過http://www.114best.com/ip/的同ip反查功能發(fā)現(xiàn)，該站和1個被k的qq空間站，還有一個幾個月沒被收錄的私服站為鄰，這才知道未被收錄的原因。更換了服務(wù)器以后，本次更新周期就被收錄了。

(3)、鏈接關(guān)聯(lián)。Goolge 的"網(wǎng)站管理員指南"(http://www.google.com/support/webmasters/bin/answer.py?answer=35769#design)中提到，"請不要參與旨在提高您的網(wǎng)站排名或 PageRank 的鏈接方案。尤其要避免鏈接到違禁的網(wǎng)站或"惡鄰""，明確指出鏈接向有問題的網(wǎng)站，可能導(dǎo)致排名或者收錄問題。這就要求站長在選擇友情鏈接的時候擦亮眼睛，除了看pr以外，還應(yīng)該查看網(wǎng)站在百度等其他搜索引擎的收錄情況，網(wǎng)站本身的內(nèi)容質(zhì)量，避免與"惡鄰"為伍。

　　6、內(nèi)容質(zhì)量不高

百度在"站長FAQ"中指出，百度不收錄"復(fù)制自互聯(lián)網(wǎng)上的高度重復(fù)性的內(nèi)容。" Goolge 的"網(wǎng)站管理員指南"也用了專門一節(jié)談?wù)?quot;原創(chuàng)內(nèi)容很少或非原創(chuàng)內(nèi)容" http://www.google.com/support/webmasters/bin/answer.py?answer=66361，如果你的網(wǎng)站內(nèi)容是互聯(lián)網(wǎng)上轉(zhuǎn)載過很多遍的，或者根本沒有內(nèi)容，那么spider可能會一去不復(fù)返，例如http://www.zhaoche51.com/此站建立于今年7月初，baiduspider從7月14日光顧一次抓取了300多個頁面以后就沒有再光顧過，后來我仔細(xì)查看了該站的iis日志，發(fā)現(xiàn)了baiduspider光顧的日志如下：

[18822] 2008-07-14 08:48:32 W3SVC746795306 222.74.81.18 www.zhaoche51.com GET /station.asp c=畢節(jié) 80 - 61.135.168.160 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0

[18823] 2008-07-14 08:48:32 W3SVC746795306 222.74.81.18 www.zhaoche51.com GET /station.asp c=延安 80 - 61.135.168.160 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0

[18837] 2008-07-14 08:48:36 W3SVC746795306 222.74.81.18 www.zhaoche51.com GET /station.asp c=鄂州 80 - 61.135.168.160 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0

[18839] 2008-07-14 08:48:38 W3SVC746795306 222.74.81.18 www.zhaoche51.com GET /bus.asp id=136 80 - 61.135.168.160 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0

[18840] 2008-07-14 08:48:38 W3SVC746795306 222.74.81.18 www.zhaoche51.com GET /station.asp c=陽江 80 - 61.135.168.160 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0

非常遺憾的是，baiduspider所抓取的頁面都只是程序自動生成的一個框架頁(如/station.asp?c=陽江)，并沒有實(shí)質(zhì)的內(nèi)容!這就導(dǎo)致了百度認(rèn)為這個網(wǎng)站目前根本沒有價值，長達(dá)22天未再訪問此站。對此，我建議大家，網(wǎng)站還未做好，內(nèi)容還未填充的框架，盡量不要給提交給百度或者與朋友交換友情鏈接，這樣將導(dǎo)致搜索引擎認(rèn)為你網(wǎng)站當(dāng)前不具備收錄價格，而無法在當(dāng)次收錄周期中被收錄。

　　7、spider入口不足

有部分網(wǎng)站能夠很快被搜索引擎收錄，而有部分網(wǎng)站在內(nèi)容完全的情況下，卻要一兩個月才會被搜索引擎收錄，這里面，牽引蜘蛛去抓取網(wǎng)站是一個很重要的方面，一個新站建成以后，比如告知搜索引擎該站的網(wǎng)址，以往都是采用向搜索引擎提交網(wǎng)址的方式告知，如百度的提交入口http://www.baidu.com/search/url_submit.html，google的網(wǎng)站提交入口http://www.google.com/addurl/?hl=zh-CN&continue=/addurl，但是傳說，手工提交網(wǎng)址容易遭到人工審核，遭遇不必要的麻煩，因此現(xiàn)在更多的是不提交，在一些網(wǎng)站上做個鏈接，讓spider自然地循著鏈接抓取到新網(wǎng)站的內(nèi)容，這里有一個常見的錯誤是，很多人以為隨便做個鏈接就可以，結(jié)果是蜘蛛在你鏈接做好以后1，2個月才姍姍來遲，收錄那更是遙遠(yuǎn)的事情了，指向新站的鏈接來源，應(yīng)該是spider訪問頻繁，而且最好內(nèi)容和你的網(wǎng)站相關(guān)的，spider訪問頻繁，你的鏈接才會更快地被spider所識別，內(nèi)容和新站相關(guān)，鏈接才會被spider認(rèn)為比較有抓取價值。

以上7個方面，是筆者在工作中遇到的一些搜索引擎收錄問題整理而成，成文倉促難免遺漏，敬請高手不吝賜教，歡迎到筆者博客http://www.001pp.com 多提寶貴意見，同時，Seo暨網(wǎng)站運(yùn)營交流qq群54338195，歡迎您的加入，以上內(nèi)容為本文不可分割之部分，轉(zhuǎn)載須保留。

上一條：百度排名研究,網(wǎng)站怎樣才能受到百度的青睞
下一條：SEO靜態(tài)真的還有用嗎

返回列表

多快好省

效果好 · 省錢

SEO研究,搜索引擎收錄問題