
Yahoo推出的新搜索引擎機(jī)器人叫YahooSlurp。
YahooSlurp跟GoogleBot一樣,順著每個(gè)HREF鏈接找到網(wǎng)站。它不會(huì)抓取SRC鏈接,如圖片或框架。如果優(yōu)化一個(gè)使用了框架的網(wǎng)站,要使用 nos 標(biāo)簽。
YahooSlurp可以跟蹤動(dòng)態(tài)頁面鏈接,但Yahoo還是建議用文本鏈接來指向動(dòng)態(tài)頁面,因此做一個(gè)網(wǎng)站地圖仍然是優(yōu)化的好方法。YahooSlurp尊重一般robot.txt聲明。
yahoo不強(qiáng)調(diào)鏈接廣泛度,yahoo很重視標(biāo)簽,yahoo比google更重視域名中的關(guān)鍵詞,yahoo會(huì)抓取html注釋(用”"引起來的文字、代碼)
Google注重語義分析和鏈接,Yahoo注重title和H1,H2,H3。 Google比Yahoo更新的快得多。
把頁面本身優(yōu)化好,就能在Yahoo中取得很好的排名,而這些頁面優(yōu)化都是自己可以控制的,所以說Yahoo優(yōu)化比Google優(yōu)化更容易,所用時(shí)間更短,特別是對于熱門關(guān)鍵詞,兩者的區(qū)別更明顯。從另一個(gè)角度來說,能把Google優(yōu)化好的人,不一定水平有多高,可能只不過是手頭有較多的鏈接資源可以利用;若服務(wù)期過了以后,把指向你的鏈接一撤,你的排名就會(huì)掉下來。而若能把Yahoo優(yōu)化好,說明你的網(wǎng)頁優(yōu)化本身是好的,你的排名基礎(chǔ)是扎實(shí)的,你的服務(wù)商為你做了一些扎扎實(shí)實(shí)的工作。
特別強(qiáng)調(diào)一下Google的強(qiáng)大的語義分析能力。在Google中搜”seo入門”, 結(jié)果排在第一名的是一個(gè)關(guān)于”seo基礎(chǔ)”的網(wǎng)頁。這個(gè)網(wǎng)頁針對”seo基礎(chǔ)”作了很好的優(yōu)化。我看了這個(gè)網(wǎng)頁的源文件,沒有出現(xiàn)一個(gè)”入門”。這個(gè)網(wǎng)站是個(gè)新站,PR為0,為什么這個(gè)內(nèi)頁會(huì)排在很多含”seo入門”的網(wǎng)頁之前?而且第一頁中有七個(gè)頁面都是針對”seo基礎(chǔ)”的,并用紅體字突出顯示,足見 Google把”入門”和”基礎(chǔ)”看成極為接近的詞。再在Yahoo中搜”seo入門”,發(fā)現(xiàn)排在前三頁的沒有針對”seo基礎(chǔ)”的,全都針對”seo入門”。Google知道哪些詞在多大程度上詞義相近。
索引擎Yahoo的分類體系及性能評價(jià)
目前很多的搜索引擎都是將人工編制的等級式主題目錄和計(jì)算機(jī)檢索軟件提供的關(guān)鍵詞等檢索手段結(jié)合起來,完成網(wǎng)絡(luò)信息資源的組織任務(wù)。Yahoo就是這種等級式主題指南類搜索引擎的典型代表。
Yahoo 的魅力,就在于它的可瀏覽式等級主題索引。按照主題建立分類索引,提供全面的分類體系結(jié)構(gòu),并結(jié)合高質(zhì)量的檢索軟件,Yahoo成功地建立起了一套獨(dú)特的信息管理和組織機(jī)制,使得對網(wǎng)絡(luò)信息的全面檢索變成現(xiàn)實(shí)?,F(xiàn)對Yahoo的類目體系、分類原理、檢索方式、性能評價(jià)等作進(jìn)一步的探討。
一、類目體系
Yahoo 由14個(gè)基本大類組成,包括Art&Humanities(藝術(shù)與人文)、Business&Economy(商業(yè)與經(jīng)濟(jì))、 Computers&Internet(電腦與網(wǎng)際網(wǎng)路/網(wǎng)絡(luò))、Education(教育)、Entertainment(娛樂)、 Government(政府)、Health(健康與醫(yī)藥)、News&Media(新聞與媒體)、Recreation&Sports(休閑與運(yùn)動(dòng))、 Reference(參考資料)、Regional(國家與地區(qū))、Science(科學(xué))、SocialScience(社會(huì)科學(xué))、 Society&Culture(社會(huì)與文化)。
根據(jù)其擁有的信息或網(wǎng)站的多寡及知識組織的需要程度,每一個(gè)基本類目下細(xì)分不同層次的次類目或子類目,愈往下的子類目中的網(wǎng)站其主題愈特定。它建立了一個(gè)由類目、子類目等構(gòu)成的可供瀏覽的相當(dāng)詳盡的目錄等級結(jié)構(gòu)。其類目設(shè)計(jì)合理,結(jié)構(gòu)完整、全面,類目等級層次鮮明,各級詳略、寬泛程度不一,從而為網(wǎng)上豐富的信息資源的歸類,尤其是確切歸類提供了基礎(chǔ)。
二、分類原理
InternetScoutProject 的分類專家AimeeGlassel認(rèn)為,“印度著名分類專家和圖書館專家阮崗納贊的冒號分類法理論體系與Yahoo網(wǎng)絡(luò)信息資源的主體目錄之間存在著密切的聯(lián)系”,從而揭示了Yahoo應(yīng)用分面分析方法進(jìn)行網(wǎng)絡(luò)信息資源的分類實(shí)質(zhì)。具體說來,可從以下幾點(diǎn)來深入地理解Yahoo的分面分類原理或基本過程。
1. 采用寬泛的主題領(lǐng)域建立分類索引
為了使其分類體系既具有無限的容納性,又具有相當(dāng)?shù)膶V感?,Yahoo采用較為寬泛的主題領(lǐng)域,通過分析兼綜合的方法建立較為完整的分類索引。這與分面分類的思想不謀而合,因?yàn)閷⒅R分為寬泛的類目即分面,多方面地反映主題內(nèi)容以避免列舉式類表的線性單向式的結(jié)構(gòu)正是阮崗納贊冒號分類法的主要原則所在。
2. 根據(jù)上下文進(jìn)行信息內(nèi)容的組合
從Yahoo 的分類結(jié)構(gòu)外表看,也許會(huì)認(rèn)為它與敘詞表很相近,因?yàn)閅ahoo也是使用詞匯而非符號來組成相應(yīng)的概念詞串。但是,從組合類目的能力看,它遠(yuǎn)遠(yuǎn)比普通的敘詞表復(fù)雜得多。通過分析Web頁面的內(nèi)容特征,得到由Yahoo分類體系結(jié)構(gòu)中某些類目詞組成的概念詞串或標(biāo)引詞串,將其放入相應(yīng)的類目層次中。在Yahoo的概念詞串或檢索詞串中包含的獨(dú)立的詞匯都含有自身的名字,但是一旦與其它詞組合,則產(chǎn)生了一個(gè)上下文關(guān)系,擁有了一深層次的涵義。從這一點(diǎn)上說來,與分面分類法也是極為相似的。
3.利用冒號標(biāo)記信息內(nèi)容
現(xiàn)以“20世紀(jì)60年代印度在肺結(jié)核治療方面的研究”作為待分類標(biāo)引的信息內(nèi)容來具體考察兩者的標(biāo)記制度:
在阮崗納贊的冒號分類法中,該內(nèi)容標(biāo)引為:L,45;421;6;253;f.44‘N5
用詞代替相應(yīng)的符號,則為:
Medicine,Lungs;Tuberculosis:Treatment;X-ray:Research.India‘1950
如果將分面公式中的相應(yīng)標(biāo)點(diǎn)符號用冒號代替,由此所形成的字符串形式就是在Yahoo中用于描述信息內(nèi)容的 方法,相應(yīng)地表示為:
Health:DiseasesandConditions:Tuberculosis
可見兩者在信息描述上何其相似!Yahoo利用冒號作為統(tǒng)一的分隔符進(jìn)行了信息內(nèi)容的組織和描述,既保留了 原先的分面標(biāo)記的特點(diǎn),又在一定程度上簡化了標(biāo)記制度,從而極大地提高了信息分類標(biāo)引的效率。
4. 提供不同的分類路徑入口
“虛擬的信息集合”是Yahoo的一大優(yōu)點(diǎn),體現(xiàn)在其擁有的概念模式和引用次序(即分面排列次序)的靈活性上。在傳統(tǒng)的圖書館中,一本書只能放在書架的某一固定位置上。但在數(shù)字化的世界里,電子信息資源卻不用再限制在唯一的物理位置上。我們可以將某一信息源分到類目結(jié)構(gòu)的不同位置上。通過將分面分析方法應(yīng)用到網(wǎng)絡(luò)信息資源的組織中,Yahoo能夠?yàn)槟骋恍畔⒃丛谄渚薮蟮姆诸惖燃壗Y(jié)構(gòu)中提供不同的路徑分支入口,這樣就使其能夠從不同的路徑,為檢索相同內(nèi)容的不同用戶提供服務(wù),從而完成查詢。
例如,現(xiàn)欲查找美國Wisconsin-Madison大學(xué)所在的網(wǎng)頁,Yahoo就能提供如下幾種分類或檢索路徑:
(1)若從Regional:類目入手,則相應(yīng)的分類路徑為:Regional:U.S.States:Wisconsin:Cities:Madison:Education:CollegesandUniversities:
UniversityofWisconsin-Madison。
(2)若從Education類目入手,開始的幾級路徑為:Education:HigherEducation: CollegesandUniversities,在CollegesandUniversities目錄下選擇地理區(qū)域的子類目 “UnitedStates@”后,可以看到,又返回到Regional目錄下,之后就與上述路徑相同了。其中的奧妙就在于符號“@”的運(yùn)用,它提供類似于相關(guān)參照(crossreference)的作用,能夠指引用戶由某一子類目進(jìn)入Yahoo的瀏覽性等級結(jié)構(gòu)的其它分支中。
三、檢索方式
Yahoo 能夠提供簡單檢索和細(xì)節(jié)檢索。前者主要檢索其分類結(jié)構(gòu)中的一級目錄,后者可使用關(guān)鍵詞構(gòu)成布爾邏輯式進(jìn)行檢索,其檢索軟件主要由OpenText公司提供。兩者的結(jié)合堪稱珠聯(lián)壁合:一個(gè)提供強(qiáng)大的高質(zhì)量的主題指南目錄,另一個(gè)則提供高水平的檢索工具。而且,Yahoo在檢索時(shí),也不光檢索自身的主題目錄,同時(shí)也會(huì)相應(yīng)地檢索OpenText公司提供的收有100萬Web文件的OpenText數(shù)據(jù)庫。
誠然, Yahoo在檢索方式上上存在著一些缺陷,如:只能進(jìn)行關(guān)鍵詞檢索,并且只支持布爾算符and和or,未提供near等,但通過在其主頁的末尾提供了其它引擎如ALTAVISTA、LYCOS等的超鏈接,指引用戶進(jìn)入這些地方去搜索,從而彌補(bǔ)了Yahoo的若干缺陷。因此,從總體上說來,Yahoo仍然是 WWW上最流行的查詢工具之一。
四、性能評價(jià)
作為主題指南類搜索引擎的典范,Yahoo具有以下優(yōu)點(diǎn):
1. 主題目錄與檢索軟件的完美結(jié)合
采用分面分析的方法,由信息管理專家編制主題目錄,反映了人們在選擇和組織信息時(shí)的知識和智慧,提高了目錄編制的質(zhì)量。同時(shí),按照主題目錄以人工為主對提交的網(wǎng)頁進(jìn)行篩選、歸類和組織,也能不斷克服單純由搜索軟件自動(dòng)完成分類的缺陷,增強(qiáng)分類的條理性。嵌入相應(yīng)的檢索軟件或工具,并與之相集成,提供高質(zhì)、高效的檢索服務(wù),從而加快了系統(tǒng)的反映速度,提高了檢索的準(zhǔn)確性,使得檢索結(jié)果更接近用戶的信息需求。
2. 信息檢索難度的降低
Yahoo 的數(shù)據(jù)庫按照14個(gè)大類(各大類下又包含數(shù)量不等的小類)組織,其分類體系非常詳盡,因此是進(jìn)行寬泛主題檢索的良好起點(diǎn),特別是對于那些新用戶和模糊需求的用戶而言,選擇瀏覽可逐級展開的主題索引比構(gòu)造檢索式要自然得多。并且,在用戶所在的類目下,顯示了該級別的類目包含的條目數(shù),如果用戶認(rèn)為數(shù)量過多,還可在此范圍內(nèi)使用關(guān)鍵詞檢索。Yahoo的目錄特征和利用上下文的服務(wù)使得能夠?qū)崿F(xiàn)快速和容易的檢索,從而在一定程度上降低了互聯(lián)網(wǎng)信息檢索的難度,提高了系統(tǒng)的用戶友好性。
3. 檢索結(jié)果的分類選擇
Yahoo由分類路徑入手,最終將檢索結(jié)構(gòu)分成類目輸出,從而將極大地推動(dòng)信息的選擇。它還對結(jié)果列表中的相應(yīng)內(nèi)容進(jìn)行必要加工,加上一些描述的詞組或句子,方便用戶瀏覽并選擇:如:〔*〕或〔cool〕標(biāo)記表明該結(jié)果項(xiàng)在內(nèi)容和版面設(shè)計(jì)都優(yōu)于其他項(xiàng);〔new〕表明是最近3日內(nèi)收錄的最新內(nèi)容;以及上述提及過的以“@”表示相關(guān)參照,以括號里的數(shù)字表示收錄的文件數(shù)量等等。另外,Yahoo增加了結(jié)果顯示的類型,可以以相關(guān)網(wǎng)站、相關(guān)網(wǎng)頁、新聞等形式輸出相應(yīng)的檢索結(jié)果??偠灾?,為了更好地實(shí)現(xiàn)為用戶服務(wù)的目的,Yahoo正不斷開發(fā)新的途徑和方法用以改善信息檢索服務(wù)。
在總結(jié)Yahoo所具有的優(yōu)勢的同時(shí),也應(yīng)注意它的缺陷,這些缺陷往往也正是主題指南類搜索引擎的共同弊病所在:
1、由于互聯(lián)網(wǎng)信息的迅猛增長,使得采集信息的速度遠(yuǎn)遠(yuǎn)比不上網(wǎng)絡(luò)資源的增長速度,更勿論編制主題目錄的速度了。這就造成了所建立的數(shù)據(jù)庫規(guī)模較小,且在某些類目下收集的文件數(shù)量有限等缺點(diǎn),使得用戶經(jīng)常“乘興而來,敗興而歸”,滿足不了相應(yīng)的信息需求。
2、簡單檢索表中檢索詞之間缺省設(shè)置為“.or.”,且內(nèi)含的自動(dòng)截詞功能,使得在檢索中往往會(huì)出現(xiàn)許多不相關(guān)的文件,導(dǎo)致查準(zhǔn)率降低。
3、為了適應(yīng)不同用戶的查詢或檢索需求,Yahoo對相同的信息內(nèi)容往往能提供不同的路徑入口,并以符號“@”建立相應(yīng)的參照。這一方面加大了分類工作的難度,另一方面也使得其分類的一致性難以得到確切保障,所以,經(jīng)常出現(xiàn)從某一路徑入手,卻無法查到Y(jié)ahoo中所包含的信息內(nèi)容的現(xiàn)象。
4、待收錄的網(wǎng)頁或其它信息內(nèi)容的復(fù)雜度的增加也在無形之中加大了確切分類的難度,如與ActiveX技術(shù)相關(guān)的文獻(xiàn)就很難在Yahoo中確切歸類。
5、為了編制高質(zhì)量的主題目錄并跟上網(wǎng)絡(luò)資源發(fā)展的速度,必須投入相當(dāng)大的人力、物力和財(cái)力,且對從事該項(xiàng)工作的人員的素質(zhì)要求也日漸提高。否則,將無法很好地保證其主題目錄的質(zhì)量,也就從根本上無法提供優(yōu)質(zhì)的服務(wù)。
五、啟示和建議
Yahoo 最關(guān)鍵也是最成功之處就在于它為搜索引擎,尤其是主題指南類的搜索引擎的設(shè)計(jì)和開發(fā)樹立了“摸板”。借鑒Yahoo先進(jìn)的搜索引擎經(jīng)驗(yàn),進(jìn)一步完善網(wǎng)絡(luò)信息資源尤其是中文信息資源的組織和管理,是歷史賦予我們的責(zé)任?,F(xiàn)就建立網(wǎng)上中文信息資源的高質(zhì)、高效的“導(dǎo)航器”,提出以下幾點(diǎn)建議:
1、Yahoo在數(shù)字化信息的組織中成功地應(yīng)用分面分析的思想,建立起了一套完整、全面、等級層次鮮明的主題目錄體系以提高信息組織的質(zhì)量,這一點(diǎn)值得我們借鑒與學(xué)習(xí)。
目前,國內(nèi)的許多中文引擎或者因沒有分類路徑入口,而不能跟上未來形勢的發(fā)展;或者因目錄體系缺乏必要的分類主題理論基礎(chǔ),而給信息的確切歸類和準(zhǔn)確檢索帶來了一系列的困難。我們并不一定要照搬Yahoo的分類模式。在具體的編制過程中,應(yīng)從中國人的思維習(xí)慣、檢索習(xí)慣出發(fā),結(jié)合國內(nèi)已有的主題分類的理論體系(如:《中圖法》等),建立所需的分類框架。
2、應(yīng)逐步增大數(shù)據(jù)庫的規(guī)模,從而奠定成功的信息檢索的物質(zhì)基礎(chǔ)。建議可以通過兩種方式補(bǔ)充數(shù)據(jù)庫的內(nèi)容:一是鼓勵(lì)用戶將自己網(wǎng)頁的地址(URL)通過聯(lián)機(jī)表格遞交,二是由自身的巡視軟件不斷去發(fā)現(xiàn)網(wǎng)上新出現(xiàn)的文件,將之歸入數(shù)據(jù)庫,在補(bǔ)充的過程中,也應(yīng)注意數(shù)據(jù)庫內(nèi)容的定期更新。關(guān)于這一點(diǎn),現(xiàn)在的一些中文搜索引擎做得還很不夠,往往只知盲目地填充信息,卻缺乏對庫內(nèi)容應(yīng)有的維護(hù)工作,導(dǎo)致數(shù)據(jù)庫龐大臃腫,檢索效率低,信息內(nèi)容陳舊,查準(zhǔn)率差。
3、鑒于單純依賴手工進(jìn)行信息歸類效率低的缺陷,應(yīng)在這方面加強(qiáng)研究,考慮是否可將目前在文本環(huán)境中已經(jīng)實(shí)現(xiàn)并在進(jìn)一步完善的自動(dòng)分類、自動(dòng)標(biāo)引和自動(dòng)文摘等處理信息內(nèi)容的手段用到網(wǎng)絡(luò)信息資源的組織上來。手工和機(jī)器輔助的結(jié)合,定能提高工作效率,改善信息組織、管理的質(zhì)量。
另外,應(yīng)繼續(xù)加強(qiáng)檢索軟件的研制和開發(fā)工作。WWW網(wǎng)頁內(nèi)容多由圖像、動(dòng)畫、聲音、視頻等多媒體信息構(gòu)成。應(yīng)積極探索這一類信息的檢索途徑,而不僅限于關(guān)鍵詞檢索方式。目前,對多媒體信息的存儲(chǔ),標(biāo)引和檢索正日益引起計(jì)算機(jī)和信息管理領(lǐng)域人士的注意。應(yīng)密切跟蹤這方面技術(shù)的發(fā)展,并將其切實(shí)應(yīng)用到中文引擎的檢索軟件的編制上來。
4、參與信息采集、篩選和組織工作的人員素質(zhì)的高低將直接或間接影響到編制的主題分類體系的質(zhì)量。因此,各個(gè)從事網(wǎng)絡(luò)信息服務(wù)業(yè)的部門或企業(yè),尤其是開發(fā)中文搜索引擎的部門或企業(yè),應(yīng)切實(shí)加強(qiáng)人員的培訓(xùn),特別是加強(qiáng)他們在信息分類組織、計(jì)算機(jī)檢索等方面的能力。網(wǎng)絡(luò)信息資源的組織和開發(fā)是一項(xiàng)艱難而又富有前途的工作,廣大的圖書情報(bào)界人士、信息管理和計(jì)算機(jī)領(lǐng)域的專家應(yīng)盡快轉(zhuǎn)變觀念,加入到開發(fā)的行列中來,從而不斷提高隊(duì)伍的素質(zhì)。
四、性能評價(jià)
作為主題指南類搜索引擎的典范,Yahoo具有以下優(yōu)點(diǎn):
1. 主題目錄與檢索軟件的完美結(jié)合
采用分面分析的方法,由信息管理專家編制主題目錄,反映了人們在選擇和組織信息時(shí)的知識和智慧,提高了目錄編制的質(zhì)量。同時(shí),按照主題目錄以人工為主對提交的網(wǎng)頁進(jìn)行篩選、歸類和組織,也能不斷克服單純由搜索軟件自動(dòng)完成分類的缺陷,增強(qiáng)分類的條理性。嵌入相應(yīng)的檢索軟件或工具,并與之相集成,提供高質(zhì)、高效的檢索服務(wù),從而加快了系統(tǒng)的反映速度,提高了檢索的準(zhǔn)確性,使得檢索結(jié)果更接近用戶的信息需求。
2. 信息檢索難度的降低
Yahoo 的數(shù)據(jù)庫按照14個(gè)大類(各大類下又包含數(shù)量不等的小類)組織,其分類體系非常詳盡,因此是進(jìn)行寬泛主題檢索的良好起點(diǎn),特別是對于那些新用戶和模糊需求的用戶而言,選擇瀏覽可逐級展開的主題索引比構(gòu)造檢索式要自然得多。并且,在用戶所在的類目下,顯示了該級別的類目包含的條目數(shù),如果用戶認(rèn)為數(shù)量過多,還可在此范圍內(nèi)使用關(guān)鍵詞檢索。Yahoo的目錄特征和利用上下文的服務(wù)使得能夠?qū)崿F(xiàn)快速和容易的檢索,從而在一定程度上降低了互聯(lián)網(wǎng)信息檢索的難度,提高了系統(tǒng)的用戶友好性。
3. 檢索結(jié)果的分類選擇
Yahoo由分類路徑入手,最終將檢索結(jié)構(gòu)分成類目輸出,從而將極大地推動(dòng)信息的選擇。它還對結(jié)果列表中的相應(yīng)內(nèi)容進(jìn)行必要加工,加上一些描述的詞組或句子,方便用戶瀏覽并選擇:如:〔*〕或〔cool〕標(biāo)記表明該結(jié)果項(xiàng)在內(nèi)容和版面設(shè)計(jì)都優(yōu)于其他項(xiàng);〔new〕表明是最近3日內(nèi)收錄的最新內(nèi)容;以及上述提及過的以“@”表示相關(guān)參照,以括號里的數(shù)字表示收錄的文件數(shù)量等等。另外,Yahoo增加了結(jié)果顯示的類型,可以以相關(guān)網(wǎng)站、相關(guān)網(wǎng)頁、新聞等形式輸出相應(yīng)的檢索結(jié)果??偠灾瑸榱烁玫貙?shí)現(xiàn)為用戶服務(wù)的目的,Yahoo正不斷開發(fā)新的途徑和方法用以改善信息檢索服務(wù)。
在總結(jié)Yahoo所具有的優(yōu)勢的同時(shí),也應(yīng)注意它的缺陷,這些缺陷往往也正是主題指南類搜索引擎的共同弊病所在:
1、由于互聯(lián)網(wǎng)信息的迅猛增長,使得采集信息的速度遠(yuǎn)遠(yuǎn)比不上網(wǎng)絡(luò)資源的增長速度,更勿論編制主題目錄的速度了。這就造成了所建立的數(shù)據(jù)庫規(guī)模較小,且在某些類目下收集的文件數(shù)量有限等缺點(diǎn),使得用戶經(jīng)常“乘興而來,敗興而歸”,滿足不了相應(yīng)的信息需求。
2、簡單檢索表中檢索詞之間缺省設(shè)置為“.or.”,且內(nèi)含的自動(dòng)截詞功能,使得在檢索中往往會(huì)出現(xiàn)許多不相關(guān)的文件,導(dǎo)致查準(zhǔn)率降低。
3、為了適應(yīng)不同用戶的查詢或檢索需求,Yahoo對相同的信息內(nèi)容往往能提供不同的路徑入口,并以符號“@”建立相應(yīng)的參照。這一方面加大了分類工作的難度,另一方面也使得其分類的一致性難以得到確切保障,所以,經(jīng)常出現(xiàn)從某一路徑入手,卻無法查到Y(jié)ahoo中所包含的信息內(nèi)容的現(xiàn)象。
4、待收錄的網(wǎng)頁或其它信息內(nèi)容的復(fù)雜度的增加也在無形之中加大了確切分類的難度,如與ActiveX技術(shù)相關(guān)的文獻(xiàn)就很難在Yahoo中確切歸類。
5、為了編制高質(zhì)量的主題目錄并跟上網(wǎng)絡(luò)資源發(fā)展的速度,必須投入相當(dāng)大的人力、物力和財(cái)力,且對從事該項(xiàng)工作的人員的素質(zhì)要求也日漸提高。否則,將無法很好地保證其主題目錄的質(zhì)量,也就從根本上無法提供優(yōu)質(zhì)的服務(wù)。
五、啟示和建議
Yahoo 最關(guān)鍵也是最成功之處就在于它為搜索引擎,尤其是主題指南類的搜索引擎的設(shè)計(jì)和開發(fā)樹立了“摸板”。借鑒Yahoo先進(jìn)的搜索引擎經(jīng)驗(yàn),進(jìn)一步完善網(wǎng)絡(luò)信息資源尤其是中文信息資源的組織和管理,是歷史賦予我們的責(zé)任?,F(xiàn)就建立網(wǎng)上中文信息資源的高質(zhì)、高效的“導(dǎo)航器”,提出以下幾點(diǎn)建議:
1、Yahoo在數(shù)字化信息的組織中成功地應(yīng)用分面分析的思想,建立起了一套完整、全面、等級層次鮮明的主題目錄體系以提高信息組織的質(zhì)量,這一點(diǎn)值得我們借鑒與學(xué)習(xí)。
目前,國內(nèi)的許多中文引擎或者因沒有分類路徑入口,而不能跟上未來形勢的發(fā)展;或者因目錄體系缺乏必要的分類主題理論基礎(chǔ),而給信息的確切歸類和準(zhǔn)確檢索帶來了一系列的困難。我們并不一定要照搬Yahoo的分類模式。在具體的編制過程中,應(yīng)從中國人的思維習(xí)慣、檢索習(xí)慣出發(fā),結(jié)合國內(nèi)已有的主題分類的理論體系(如:《中圖法》等),建立所需的分類框架。
2、應(yīng)逐步增大數(shù)據(jù)庫的規(guī)模,從而奠定成功的信息檢索的物質(zhì)基礎(chǔ)。建議可以通過兩種方式補(bǔ)充數(shù)據(jù)庫的內(nèi)容:一是鼓勵(lì)用戶將自己網(wǎng)頁的地址(URL)通過聯(lián)機(jī)表格遞交,二是由自身的巡視軟件不斷去發(fā)現(xiàn)網(wǎng)上新出現(xiàn)的文件,將之歸入數(shù)據(jù)庫,在補(bǔ)充的過程中,也應(yīng)注意數(shù)據(jù)庫內(nèi)容的定期更新。關(guān)于這一點(diǎn),現(xiàn)在的一些中文搜索引擎做得還很不夠,往往只知盲目地填充信息,卻缺乏對庫內(nèi)容應(yīng)有的維護(hù)工作,導(dǎo)致數(shù)據(jù)庫龐大臃腫,檢索效率低,信息內(nèi)容陳舊,查準(zhǔn)率差。
3、鑒于單純依賴手工進(jìn)行信息歸類效率低的缺陷,應(yīng)在這方面加強(qiáng)研究,考慮是否可將目前在文本環(huán)境中已經(jīng)實(shí)現(xiàn)并在進(jìn)一步完善的自動(dòng)分類、自動(dòng)標(biāo)引和自動(dòng)文摘等處理信息內(nèi)容的手段用到網(wǎng)絡(luò)信息資源的組織上來。手工和機(jī)器輔助的結(jié)合,定能提高工作效率,改善信息組織、管理的質(zhì)量。
另外,應(yīng)繼續(xù)加強(qiáng)檢索軟件的研制和開發(fā)工作。WWW網(wǎng)頁內(nèi)容多由圖像、動(dòng)畫、聲音、視頻等多媒體信息構(gòu)成。應(yīng)積極探索這一類信息的檢索途徑,而不僅限于關(guān)鍵詞檢索方式。目前,對多媒體信息的存儲(chǔ),標(biāo)引和檢索正日益引起計(jì)算機(jī)和信息管理領(lǐng)域人士的注意。應(yīng)密切跟蹤這方面技術(shù)的發(fā)展,并將其切實(shí)應(yīng)用到中文引擎的檢索軟件的編制上來。
4、參與信息采集、篩選和組織工作的人員素質(zhì)的高低將直接或間接影響到編制的主題分類體系的質(zhì)量。因此,各個(gè)從事網(wǎng)絡(luò)信息服務(wù)業(yè)的部門或企業(yè),尤其是開發(fā)中文搜索引擎的部門或企業(yè),應(yīng)切實(shí)加強(qiáng)人員的培訓(xùn),特別是加強(qiáng)他們在信息分類組織、計(jì)算機(jī)檢索等方面的能力。網(wǎng)絡(luò)信息資源的組織和開發(fā)是一項(xiàng)艱難而又富有前途的工作,廣大的圖書情報(bào)界人士、信息管理和計(jì)算機(jī)領(lǐng)域的專家應(yīng)盡快轉(zhuǎn)變觀念,加入到開發(fā)的行列中來,從而不斷提高隊(duì)伍的素質(zhì)。 雅虎免費(fèi)收錄程序
繼雅虎推出付費(fèi)收錄模式Site Match之后,又推出一款新型免費(fèi)收錄模式。通過這種收錄程序,用戶只需輸入頂級頁面的完整的URL地址,雅虎的爬行程序就可以尋找到剩余的網(wǎng)頁,并且在索引過程中自動(dòng)檢測并剔除死鏈接。
進(jìn)入“免費(fèi)收錄”需要雅虎的注冊帳戶,進(jìn)入后可以看到如下的說明:
“輸入希望提交的網(wǎng)頁完整URL地址,必須包含http://前綴(例如,http://www.Yahoo.com).只需輸入網(wǎng)站的頂級頁面,我們的爬行程序便可以搜索到你的網(wǎng)站中的剩余網(wǎng)頁。我們將在索引過程中自動(dòng)檢測并剔除死鏈接。
所提交URL被程序索引到需要幾周的時(shí)間,請耐心等待。”
與站點(diǎn)匹配相比較可以看到免費(fèi)提交的網(wǎng)站不會(huì)受到質(zhì)量復(fù)核,沒有報(bào)告服務(wù),雖然雅虎聲明可以被爬行程序搜索到剩余的網(wǎng)頁,但目前為之,我們還沒有獲得任何數(shù)據(jù),說明雅虎對剩余網(wǎng)頁的索引深度和數(shù)量。
目前雅虎提交的方式共有四種。登錄雅虎搜索站點(diǎn),在提交網(wǎng)站(submit your site)中,可以看到這四種提交方式,分別是Site Match(站點(diǎn)匹配);Pay-For-Performance(競價(jià) 排名);Free URL submission(免費(fèi)收錄);Yahoo!Directory(雅虎目錄收錄)。具體描述如下:
* Site Match(站點(diǎn)匹配)保證收錄進(jìn)雅虎搜索數(shù)據(jù)庫并顯示在合作伙伴站點(diǎn)中;每24小時(shí)更新一次;提供跟蹤報(bào)告,優(yōu)化顯示效果;站點(diǎn)復(fù)核保證相關(guān)性,有助于提高站點(diǎn)的顯示效果。
* Pay-For-Performance(競價(jià)排名):基于關(guān)鍵詞的廣告形式,保證在雅虎搜索及合作站點(diǎn)中排名顯示。
* Free URL submission(免費(fèi)收錄):將網(wǎng)站收錄進(jìn)雅虎搜索的建議性方式。(需要注冊帳戶)。
* Yahoo!Directory(雅虎目錄收錄):將網(wǎng)站收錄進(jìn)雅虎目錄的建議性方式。
Yahoo更新和最準(zhǔn)確的登陸和發(fā)布頁面 http://search.yahoo.com/info/submit.html
Yahoo!英文的基本收錄標(biāo)準(zhǔn)
交費(fèi)登錄Yahoo英文網(wǎng)站的方法:
需要向Yahoo支付299美元(成人內(nèi)容或服務(wù)網(wǎng)站需支付美元$600,并且在Business and Economy/Shopping and Services/Sex下的適當(dāng)目錄申請)
1. 但即使是您支付了美元$299,也不保證您的網(wǎng)站一定被Yahoo收錄;
2. 即使網(wǎng)站被Yahoo收錄,也不保證是您遞交網(wǎng)站時(shí)所選擇的目錄;Yahoo工作人員 有權(quán)更改目錄;
3.即使網(wǎng)站被Yahoo收錄,也不保證是你遞交網(wǎng)站時(shí)所填寫的注釋,即網(wǎng)站說明。
而且,您的網(wǎng)站被Yahoo收錄,或者被Yahoo拒絕收錄,$299美元也將不被Yahoo退還。向Yahoo支付$299,僅意味著,Yahoo的編輯訪問您的網(wǎng)站,以Yahoo的收錄標(biāo)準(zhǔn)決定是否收錄您的網(wǎng)站,并保證在7個(gè)工作日內(nèi)答復(fù)您。
如果您的網(wǎng)站被拒絕收錄,Yahoo的編輯將在7個(gè)工作日內(nèi)通過電子郵件形式告訴您被拒絕收錄的原因,您還有一次機(jī)會(huì),在收到Y(jié)ahoo給您發(fā)的拒絕信的30天內(nèi),您可以再次遞交申請,這次您不用再交任何費(fèi)用,如果這次您再次被Yahoo拒絕,您的網(wǎng)站將再也沒有資格被收錄到Y(jié)ahoo目錄里。
當(dāng)您的網(wǎng)站被Yahoo收錄后,您還必須每年向Yahoo支付美元$299,該費(fèi)用是Yahoo的編輯對您的網(wǎng)站的復(fù)核費(fèi)用,您必須在到期的前15個(gè)工作日支付下年的審核費(fèi)用,如果您沒有及時(shí)支付,您的網(wǎng)站將被從Yahoo的目錄中刪除。 自動(dòng)門
被Yahoo收錄的最低標(biāo)準(zhǔn):
(1)如果是商業(yè)網(wǎng)站,網(wǎng)站必須具有正式的商業(yè)名字,并在網(wǎng)站顯著位置顯示。
(2)網(wǎng)站必須定位明確。
(3)網(wǎng)站沒有被Yahoo目錄收錄。
(4)保證所遞交網(wǎng)站,其內(nèi)容在Yahoo目錄里是“惟一”內(nèi)容。比如,您已經(jīng)向Yahoo遞交了一個(gè)網(wǎng)站A,您又申請了一個(gè)域名,并又建立了一個(gè)網(wǎng)站 B,網(wǎng)站A與網(wǎng)站B內(nèi)容相同或“換湯不換藥”(雖然語言上有些改動(dòng),但實(shí)質(zhì)上還是一個(gè)內(nèi)容),這時(shí)您就不能再向Yahoo遞交網(wǎng)站B。
(5)如果網(wǎng)站是有地域特征的網(wǎng)站,必須有詳細(xì)的地址。
(6)沒有‘正在建設(shè)網(wǎng)頁’。
(7)您的網(wǎng)站鏈接全部有效,并指向相關(guān)內(nèi)容。
(8)網(wǎng)站必須是英文網(wǎng)頁,或者有英文版。
(9)您的網(wǎng)站兼容多種瀏覽器,比如,不是純Java網(wǎng)站。
(10)您的網(wǎng)站必須24小時(shí)與互聯(lián)網(wǎng)相連。
Site Match - Yahoo 站點(diǎn)匹配收錄方式
Site Match(站點(diǎn)匹配)保證收錄進(jìn)雅虎搜索數(shù)據(jù)庫并顯示在合作伙伴站點(diǎn)中;每24小時(shí)更新一次;提供跟蹤報(bào)告,優(yōu)化顯示效果;站點(diǎn)復(fù)核保證相關(guān)性,有助于提高站點(diǎn)的顯示效果。
與之前的付費(fèi)收錄程序相同,此程序按照網(wǎng)站的規(guī)模分為兩個(gè)版本?;景姹痉Q為Site Match,適合于少于1000URL的網(wǎng)站。自助服務(wù)的工作格式與Inktomi的前Site Submit程序相似??梢灾苯油ㄟ^Overture直接注冊此程序,也可以通過授權(quán)代理商。
Site Match 定價(jià)基于提交年費(fèi),首個(gè)URL交納$49,第2-10個(gè)URL費(fèi)用為$29/個(gè),第11-999個(gè)URL費(fèi)用為$10/個(gè)。除了用于復(fù)核的年費(fèi)還應(yīng)支付點(diǎn)擊費(fèi)用。大多數(shù)URL的點(diǎn)擊費(fèi)用為15美分,屬于特定目錄(如旅游)的URL點(diǎn)擊費(fèi)用為30美分。
對于規(guī)模超過1000URL的網(wǎng)站,雅虎提供了Site Match Xchange程序,無須年費(fèi),只需按照所屬目錄支付每點(diǎn)擊不超過1美元的點(diǎn)擊費(fèi)用。
Yahoo更新和最準(zhǔn)確的登陸和發(fā)布頁面
http://search.yahoo.com/info/submit.html
(作者Kevin Lee|2004/10/08,編譯lela)
作者Kevin Lee,Did-it.com的創(chuàng)始人之一兼CEO。自1996年Dit-it.com成立,Kevin及其公司員工便以幫助搜索營銷客戶成功為己任,利用優(yōu)秀的策略及技術(shù)優(yōu)化客戶的付費(fèi)排名及付費(fèi)收錄搜索活動(dòng)。Kevin同時(shí)也是搜索引擎營銷專業(yè)組織(SEMPO)創(chuàng)立理事之一,同時(shí)任職于互動(dòng)營銷者協(xié)會(huì)(the Association of Interactive Marketers)下SEM 委員會(huì),互動(dòng)廣告署(the Interactive Advertising Bureau)搜索委員會(huì)。知名的營銷通訊站點(diǎn)marketing.briefme.com也是由其發(fā)布。作為一位知名的SEO/SEM專家,Kevin Lee的作品經(jīng)常被許多知名新聞媒體所轉(zhuǎn)載,包括the Wall St. Journal《華兒街日報(bào)》、Business Week《商業(yè)周刊》、the San Jose Mercury News《圣何塞信史報(bào)》、Catalog Age《目錄年代》。他也經(jīng)常出席行業(yè)大會(huì)并且是也是一位備受尊重的出色的發(fā)言人。Kevin喜歡公開在出版物或私下共同探討各種竅門、策略,他本人在 1992年獲得了耶魯大學(xué)管理學(xué)院的MBA碩士學(xué)位.