
Yahoo推出的新搜索引擎機(jī)器人叫YahooSlurp。
YahooSlurp跟GoogleBot一樣,順著每個(gè)HREF鏈接找到網(wǎng)站。它不會(huì)抓取SRC鏈接,如圖片或框架。如果優(yōu)化一個(gè)使用了框架的網(wǎng)站,要使用 nos 標(biāo)簽。
YahooSlurp可以跟蹤動(dòng)態(tài)頁(yè)面鏈接,但Yahoo還是建議用文本鏈接來(lái)指向動(dòng)態(tài)頁(yè)面,因此做一個(gè)網(wǎng)站地圖仍然是優(yōu)化的好方法。YahooSlurp尊重一般robot.txt聲明。
yahoo不強(qiáng)調(diào)鏈接廣泛度,yahoo很重視標(biāo)簽,yahoo比google更重視域名中的關(guān)鍵詞,yahoo會(huì)抓取html注釋?zhuān)ㄓ?rdquo;"引起來(lái)的文字、代碼)
Google注重語(yǔ)義分析和鏈接,Yahoo注重title和H1,H2,H3。 Google比Yahoo更新的快得多。
把頁(yè)面本身優(yōu)化好,就能在Yahoo中取得很好的排名,而這些頁(yè)面優(yōu)化都是自己可以控制的,所以說(shuō)Yahoo優(yōu)化比Google優(yōu)化更容易,所用時(shí)間更短,特別是對(duì)于熱門(mén)關(guān)鍵詞,兩者的區(qū)別更明顯。從另一個(gè)角度來(lái)說(shuō),能把Google優(yōu)化好的人,不一定水平有多高,可能只不過(guò)是手頭有較多的鏈接資源可以利用;若服務(wù)期過(guò)了以后,把指向你的鏈接一撤,你的排名就會(huì)掉下來(lái)。而若能把Yahoo優(yōu)化好,說(shuō)明你的網(wǎng)頁(yè)優(yōu)化本身是好的,你的排名基礎(chǔ)是扎實(shí)的,你的服務(wù)商為你做了一些扎扎實(shí)實(shí)的工作。
特別強(qiáng)調(diào)一下Google的強(qiáng)大的語(yǔ)義分析能力。在Google中搜”seo入門(mén)”, 結(jié)果排在第一名的是一個(gè)關(guān)于”seo基礎(chǔ)”的網(wǎng)頁(yè)。這個(gè)網(wǎng)頁(yè)針對(duì)”seo基礎(chǔ)”作了很好的優(yōu)化。我看了這個(gè)網(wǎng)頁(yè)的源文件,沒(méi)有出現(xiàn)一個(gè)”入門(mén)”。這個(gè)網(wǎng)站是個(gè)新站,PR為0,為什么這個(gè)內(nèi)頁(yè)會(huì)排在很多含”seo入門(mén)”的網(wǎng)頁(yè)之前?而且第一頁(yè)中有七個(gè)頁(yè)面都是針對(duì)”seo基礎(chǔ)”的,并用紅體字突出顯示,足見(jiàn) Google把”入門(mén)”和”基礎(chǔ)”看成極為接近的詞。再在Yahoo中搜”seo入門(mén)”,發(fā)現(xiàn)排在前三頁(yè)的沒(méi)有針對(duì)”seo基礎(chǔ)”的,全都針對(duì)”seo入門(mén)”。Google知道哪些詞在多大程度上詞義相近。
索引擎Yahoo的分類(lèi)體系及性能評(píng)價(jià)
目前很多的搜索引擎都是將人工編制的等級(jí)式主題目錄和計(jì)算機(jī)檢索軟件提供的關(guān)鍵詞等檢索手段結(jié)合起來(lái),完成網(wǎng)絡(luò)信息資源的組織任務(wù)。Yahoo就是這種等級(jí)式主題指南類(lèi)搜索引擎的典型代表。
Yahoo 的魅力,就在于它的可瀏覽式等級(jí)主題索引。按照主題建立分類(lèi)索引,提供全面的分類(lèi)體系結(jié)構(gòu),并結(jié)合高質(zhì)量的檢索軟件,Yahoo成功地建立起了一套獨(dú)特的信息管理和組織機(jī)制,使得對(duì)網(wǎng)絡(luò)信息的全面檢索變成現(xiàn)實(shí)?,F(xiàn)對(duì)Yahoo的類(lèi)目體系、分類(lèi)原理、檢索方式、性能評(píng)價(jià)等作進(jìn)一步的探討。
一、類(lèi)目體系
Yahoo 由14個(gè)基本大類(lèi)組成,包括Art&Humanities(藝術(shù)與人文)、Business&Economy(商業(yè)與經(jīng)濟(jì))、 Computers&Internet(電腦與網(wǎng)際網(wǎng)路/網(wǎng)絡(luò))、Education(教育)、Entertainment(娛樂(lè))、 Government(政府)、Health(健康與醫(yī)藥)、News&Media(新聞與媒體)、Recreation&Sports(休閑與運(yùn)動(dòng))、 Reference(參考資料)、Regional(國(guó)家與地區(qū))、Science(科學(xué))、SocialScience(社會(huì)科學(xué))、 Society&Culture(社會(huì)與文化)。
根據(jù)其擁有的信息或網(wǎng)站的多寡及知識(shí)組織的需要程度,每一個(gè)基本類(lèi)目下細(xì)分不同層次的次類(lèi)目或子類(lèi)目,愈往下的子類(lèi)目中的網(wǎng)站其主題愈特定。它建立了一個(gè)由類(lèi)目、子類(lèi)目等構(gòu)成的可供瀏覽的相當(dāng)詳盡的目錄等級(jí)結(jié)構(gòu)。其類(lèi)目設(shè)計(jì)合理,結(jié)構(gòu)完整、全面,類(lèi)目等級(jí)層次鮮明,各級(jí)詳略、寬泛程度不一,從而為網(wǎng)上豐富的信息資源的歸類(lèi),尤其是確切歸類(lèi)提供了基礎(chǔ)。
二、分類(lèi)原理
InternetScoutProject 的分類(lèi)專(zhuān)家AimeeGlassel認(rèn)為,“印度著名分類(lèi)專(zhuān)家和圖書(shū)館專(zhuān)家阮崗納贊的冒號(hào)分類(lèi)法理論體系與Yahoo網(wǎng)絡(luò)信息資源的主體目錄之間存在著密切的聯(lián)系”,從而揭示了Yahoo應(yīng)用分面分析方法進(jìn)行網(wǎng)絡(luò)信息資源的分類(lèi)實(shí)質(zhì)。具體說(shuō)來(lái),可從以下幾點(diǎn)來(lái)深入地理解Yahoo的分面分類(lèi)原理或基本過(guò)程。
1. 采用寬泛的主題領(lǐng)域建立分類(lèi)索引
為了使其分類(lèi)體系既具有無(wú)限的容納性,又具有相當(dāng)?shù)膶?zhuān)指性,Yahoo采用較為寬泛的主題領(lǐng)域,通過(guò)分析兼綜合的方法建立較為完整的分類(lèi)索引。這與分面分類(lèi)的思想不謀而合,因?yàn)閷⒅R(shí)分為寬泛的類(lèi)目即分面,多方面地反映主題內(nèi)容以避免列舉式類(lèi)表的線性單向式的結(jié)構(gòu)正是阮崗納贊冒號(hào)分類(lèi)法的主要原則所在。
2. 根據(jù)上下文進(jìn)行信息內(nèi)容的組合
從Yahoo 的分類(lèi)結(jié)構(gòu)外表看,也許會(huì)認(rèn)為它與敘詞表很相近,因?yàn)閅ahoo也是使用詞匯而非符號(hào)來(lái)組成相應(yīng)的概念詞串。但是,從組合類(lèi)目的能力看,它遠(yuǎn)遠(yuǎn)比普通的敘詞表復(fù)雜得多。通過(guò)分析Web頁(yè)面的內(nèi)容特征,得到由Yahoo分類(lèi)體系結(jié)構(gòu)中某些類(lèi)目詞組成的概念詞串或標(biāo)引詞串,將其放入相應(yīng)的類(lèi)目層次中。在Yahoo的概念詞串或檢索詞串中包含的獨(dú)立的詞匯都含有自身的名字,但是一旦與其它詞組合,則產(chǎn)生了一個(gè)上下文關(guān)系,擁有了一深層次的涵義。從這一點(diǎn)上說(shuō)來(lái),與分面分類(lèi)法也是極為相似的。
3.利用冒號(hào)標(biāo)記信息內(nèi)容
現(xiàn)以“20世紀(jì)60年代印度在肺結(jié)核治療方面的研究”作為待分類(lèi)標(biāo)引的信息內(nèi)容來(lái)具體考察兩者的標(biāo)記制度:
在阮崗納贊的冒號(hào)分類(lèi)法中,該內(nèi)容標(biāo)引為:L,45;421;6;253;f.44‘N5
用詞代替相應(yīng)的符號(hào),則為:
Medicine,Lungs;Tuberculosis:Treatment;X-ray:Research.India‘1950
如果將分面公式中的相應(yīng)標(biāo)點(diǎn)符號(hào)用冒號(hào)代替,由此所形成的字符串形式就是在Yahoo中用于描述信息內(nèi)容的 方法,相應(yīng)地表示為:
Health:DiseasesandConditions:Tuberculosis
可見(jiàn)兩者在信息描述上何其相似!Yahoo利用冒號(hào)作為統(tǒng)一的分隔符進(jìn)行了信息內(nèi)容的組織和描述,既保留了 原先的分面標(biāo)記的特點(diǎn),又在一定程度上簡(jiǎn)化了標(biāo)記制度,從而極大地提高了信息分類(lèi)標(biāo)引的效率。
4. 提供不同的分類(lèi)路徑入口
“虛擬的信息集合”是Yahoo的一大優(yōu)點(diǎn),體現(xiàn)在其擁有的概念模式和引用次序(即分面排列次序)的靈活性上。在傳統(tǒng)的圖書(shū)館中,一本書(shū)只能放在書(shū)架的某一固定位置上。但在數(shù)字化的世界里,電子信息資源卻不用再限制在唯一的物理位置上。我們可以將某一信息源分到類(lèi)目結(jié)構(gòu)的不同位置上。通過(guò)將分面分析方法應(yīng)用到網(wǎng)絡(luò)信息資源的組織中,Yahoo能夠?yàn)槟骋恍畔⒃丛谄渚薮蟮姆诸?lèi)等級(jí)結(jié)構(gòu)中提供不同的路徑分支入口,這樣就使其能夠從不同的路徑,為檢索相同內(nèi)容的不同用戶(hù)提供服務(wù),從而完成查詢(xún)。
例如,現(xiàn)欲查找美國(guó)Wisconsin-Madison大學(xué)所在的網(wǎng)頁(yè),Yahoo就能提供如下幾種分類(lèi)或檢索路徑:
(1)若從Regional:類(lèi)目入手,則相應(yīng)的分類(lèi)路徑為:Regional:U.S.States:Wisconsin:Cities:Madison:Education:CollegesandUniversities:
UniversityofWisconsin-Madison。
(2)若從Education類(lèi)目入手,開(kāi)始的幾級(jí)路徑為:Education:HigherEducation: CollegesandUniversities,在CollegesandUniversities目錄下選擇地理區(qū)域的子類(lèi)目 “UnitedStates@”后,可以看到,又返回到Regional目錄下,之后就與上述路徑相同了。其中的奧妙就在于符號(hào)“@”的運(yùn)用,它提供類(lèi)似于相關(guān)參照(crossreference)的作用,能夠指引用戶(hù)由某一子類(lèi)目進(jìn)入Yahoo的瀏覽性等級(jí)結(jié)構(gòu)的其它分支中。
三、檢索方式
Yahoo 能夠提供簡(jiǎn)單檢索和細(xì)節(jié)檢索。前者主要檢索其分類(lèi)結(jié)構(gòu)中的一級(jí)目錄,后者可使用關(guān)鍵詞構(gòu)成布爾邏輯式進(jìn)行檢索,其檢索軟件主要由OpenText公司提供。兩者的結(jié)合堪稱(chēng)珠聯(lián)壁合:一個(gè)提供強(qiáng)大的高質(zhì)量的主題指南目錄,另一個(gè)則提供高水平的檢索工具。而且,Yahoo在檢索時(shí),也不光檢索自身的主題目錄,同時(shí)也會(huì)相應(yīng)地檢索OpenText公司提供的收有100萬(wàn)Web文件的OpenText數(shù)據(jù)庫(kù)。
誠(chéng)然, Yahoo在檢索方式上上存在著一些缺陷,如:只能進(jìn)行關(guān)鍵詞檢索,并且只支持布爾算符and和or,未提供near等,但通過(guò)在其主頁(yè)的末尾提供了其它引擎如ALTAVISTA、LYCOS等的超鏈接,指引用戶(hù)進(jìn)入這些地方去搜索,從而彌補(bǔ)了Yahoo的若干缺陷。因此,從總體上說(shuō)來(lái),Yahoo仍然是 WWW上最流行的查詢(xún)工具之一。
四、性能評(píng)價(jià)
作為主題指南類(lèi)搜索引擎的典范,Yahoo具有以下優(yōu)點(diǎn):
1. 主題目錄與檢索軟件的完美結(jié)合
采用分面分析的方法,由信息管理專(zhuān)家編制主題目錄,反映了人們?cè)谶x擇和組織信息時(shí)的知識(shí)和智慧,提高了目錄編制的質(zhì)量。同時(shí),按照主題目錄以人工為主對(duì)提交的網(wǎng)頁(yè)進(jìn)行篩選、歸類(lèi)和組織,也能不斷克服單純由搜索軟件自動(dòng)完成分類(lèi)的缺陷,增強(qiáng)分類(lèi)的條理性。嵌入相應(yīng)的檢索軟件或工具,并與之相集成,提供高質(zhì)、高效的檢索服務(wù),從而加快了系統(tǒng)的反映速度,提高了檢索的準(zhǔn)確性,使得檢索結(jié)果更接近用戶(hù)的信息需求。
2. 信息檢索難度的降低
Yahoo 的數(shù)據(jù)庫(kù)按照14個(gè)大類(lèi)(各大類(lèi)下又包含數(shù)量不等的小類(lèi))組織,其分類(lèi)體系非常詳盡,因此是進(jìn)行寬泛主題檢索的良好起點(diǎn),特別是對(duì)于那些新用戶(hù)和模糊需求的用戶(hù)而言,選擇瀏覽可逐級(jí)展開(kāi)的主題索引比構(gòu)造檢索式要自然得多。并且,在用戶(hù)所在的類(lèi)目下,顯示了該級(jí)別的類(lèi)目包含的條目數(shù),如果用戶(hù)認(rèn)為數(shù)量過(guò)多,還可在此范圍內(nèi)使用關(guān)鍵詞檢索。Yahoo的目錄特征和利用上下文的服務(wù)使得能夠?qū)崿F(xiàn)快速和容易的檢索,從而在一定程度上降低了互聯(lián)網(wǎng)信息檢索的難度,提高了系統(tǒng)的用戶(hù)友好性。
3. 檢索結(jié)果的分類(lèi)選擇
Yahoo由分類(lèi)路徑入手,最終將檢索結(jié)構(gòu)分成類(lèi)目輸出,從而將極大地推動(dòng)信息的選擇。它還對(duì)結(jié)果列表中的相應(yīng)內(nèi)容進(jìn)行必要加工,加上一些描述的詞組或句子,方便用戶(hù)瀏覽并選擇:如:〔*〕或〔cool〕標(biāo)記表明該結(jié)果項(xiàng)在內(nèi)容和版面設(shè)計(jì)都優(yōu)于其他項(xiàng);〔new〕表明是最近3日內(nèi)收錄的最新內(nèi)容;以及上述提及過(guò)的以“@”表示相關(guān)參照,以括號(hào)里的數(shù)字表示收錄的文件數(shù)量等等。另外,Yahoo增加了結(jié)果顯示的類(lèi)型,可以以相關(guān)網(wǎng)站、相關(guān)網(wǎng)頁(yè)、新聞等形式輸出相應(yīng)的檢索結(jié)果。總而言之,為了更好地實(shí)現(xiàn)為用戶(hù)服務(wù)的目的,Yahoo正不斷開(kāi)發(fā)新的途徑和方法用以改善信息檢索服務(wù)。
在總結(jié)Yahoo所具有的優(yōu)勢(shì)的同時(shí),也應(yīng)注意它的缺陷,這些缺陷往往也正是主題指南類(lèi)搜索引擎的共同弊病所在:
1、由于互聯(lián)網(wǎng)信息的迅猛增長(zhǎng),使得采集信息的速度遠(yuǎn)遠(yuǎn)比不上網(wǎng)絡(luò)資源的增長(zhǎng)速度,更勿論編制主題目錄的速度了。這就造成了所建立的數(shù)據(jù)庫(kù)規(guī)模較小,且在某些類(lèi)目下收集的文件數(shù)量有限等缺點(diǎn),使得用戶(hù)經(jīng)常“乘興而來(lái),敗興而歸”,滿(mǎn)足不了相應(yīng)的信息需求。
2、簡(jiǎn)單檢索表中檢索詞之間缺省設(shè)置為“.or.”,且內(nèi)含的自動(dòng)截詞功能,使得在檢索中往往會(huì)出現(xiàn)許多不相關(guān)的文件,導(dǎo)致查準(zhǔn)率降低。
3、為了適應(yīng)不同用戶(hù)的查詢(xún)或檢索需求,Yahoo對(duì)相同的信息內(nèi)容往往能提供不同的路徑入口,并以符號(hào)“@”建立相應(yīng)的參照。這一方面加大了分類(lèi)工作的難度,另一方面也使得其分類(lèi)的一致性難以得到確切保障,所以,經(jīng)常出現(xiàn)從某一路徑入手,卻無(wú)法查到Y(jié)ahoo中所包含的信息內(nèi)容的現(xiàn)象。
4、待收錄的網(wǎng)頁(yè)或其它信息內(nèi)容的復(fù)雜度的增加也在無(wú)形之中加大了確切分類(lèi)的難度,如與ActiveX技術(shù)相關(guān)的文獻(xiàn)就很難在Yahoo中確切歸類(lèi)。
5、為了編制高質(zhì)量的主題目錄并跟上網(wǎng)絡(luò)資源發(fā)展的速度,必須投入相當(dāng)大的人力、物力和財(cái)力,且對(duì)從事該項(xiàng)工作的人員的素質(zhì)要求也日漸提高。否則,將無(wú)法很好地保證其主題目錄的質(zhì)量,也就從根本上無(wú)法提供優(yōu)質(zhì)的服務(wù)。
五、啟示和建議
Yahoo 最關(guān)鍵也是最成功之處就在于它為搜索引擎,尤其是主題指南類(lèi)的搜索引擎的設(shè)計(jì)和開(kāi)發(fā)樹(shù)立了“摸板”。借鑒Yahoo先進(jìn)的搜索引擎經(jīng)驗(yàn),進(jìn)一步完善網(wǎng)絡(luò)信息資源尤其是中文信息資源的組織和管理,是歷史賦予我們的責(zé)任?,F(xiàn)就建立網(wǎng)上中文信息資源的高質(zhì)、高效的“導(dǎo)航器”,提出以下幾點(diǎn)建議:
1、Yahoo在數(shù)字化信息的組織中成功地應(yīng)用分面分析的思想,建立起了一套完整、全面、等級(jí)層次鮮明的主題目錄體系以提高信息組織的質(zhì)量,這一點(diǎn)值得我們借鑒與學(xué)習(xí)。
目前,國(guó)內(nèi)的許多中文引擎或者因沒(méi)有分類(lèi)路徑入口,而不能跟上未來(lái)形勢(shì)的發(fā)展;或者因目錄體系缺乏必要的分類(lèi)主題理論基礎(chǔ),而給信息的確切歸類(lèi)和準(zhǔn)確檢索帶來(lái)了一系列的困難。我們并不一定要照搬Yahoo的分類(lèi)模式。在具體的編制過(guò)程中,應(yīng)從中國(guó)人的思維習(xí)慣、檢索習(xí)慣出發(fā),結(jié)合國(guó)內(nèi)已有的主題分類(lèi)的理論體系(如:《中圖法》等),建立所需的分類(lèi)框架。
2、應(yīng)逐步增大數(shù)據(jù)庫(kù)的規(guī)模,從而奠定成功的信息檢索的物質(zhì)基礎(chǔ)。建議可以通過(guò)兩種方式補(bǔ)充數(shù)據(jù)庫(kù)的內(nèi)容:一是鼓勵(lì)用戶(hù)將自己網(wǎng)頁(yè)的地址(URL)通過(guò)聯(lián)機(jī)表格遞交,二是由自身的巡視軟件不斷去發(fā)現(xiàn)網(wǎng)上新出現(xiàn)的文件,將之歸入數(shù)據(jù)庫(kù),在補(bǔ)充的過(guò)程中,也應(yīng)注意數(shù)據(jù)庫(kù)內(nèi)容的定期更新。關(guān)于這一點(diǎn),現(xiàn)在的一些中文搜索引擎做得還很不夠,往往只知盲目地填充信息,卻缺乏對(duì)庫(kù)內(nèi)容應(yīng)有的維護(hù)工作,導(dǎo)致數(shù)據(jù)庫(kù)龐大臃腫,檢索效率低,信息內(nèi)容陳舊,查準(zhǔn)率差。
3、鑒于單純依賴(lài)手工進(jìn)行信息歸類(lèi)效率低的缺陷,應(yīng)在這方面加強(qiáng)研究,考慮是否可將目前在文本環(huán)境中已經(jīng)實(shí)現(xiàn)并在進(jìn)一步完善的自動(dòng)分類(lèi)、自動(dòng)標(biāo)引和自動(dòng)文摘等處理信息內(nèi)容的手段用到網(wǎng)絡(luò)信息資源的組織上來(lái)。手工和機(jī)器輔助的結(jié)合,定能提高工作效率,改善信息組織、管理的質(zhì)量。
另外,應(yīng)繼續(xù)加強(qiáng)檢索軟件的研制和開(kāi)發(fā)工作。WWW網(wǎng)頁(yè)內(nèi)容多由圖像、動(dòng)畫(huà)、聲音、視頻等多媒體信息構(gòu)成。應(yīng)積極探索這一類(lèi)信息的檢索途徑,而不僅限于關(guān)鍵詞檢索方式。目前,對(duì)多媒體信息的存儲(chǔ),標(biāo)引和檢索正日益引起計(jì)算機(jī)和信息管理領(lǐng)域人士的注意。應(yīng)密切跟蹤這方面技術(shù)的發(fā)展,并將其切實(shí)應(yīng)用到中文引擎的檢索軟件的編制上來(lái)。
4、參與信息采集、篩選和組織工作的人員素質(zhì)的高低將直接或間接影響到編制的主題分類(lèi)體系的質(zhì)量。因此,各個(gè)從事網(wǎng)絡(luò)信息服務(wù)業(yè)的部門(mén)或企業(yè),尤其是開(kāi)發(fā)中文搜索引擎的部門(mén)或企業(yè),應(yīng)切實(shí)加強(qiáng)人員的培訓(xùn),特別是加強(qiáng)他們?cè)谛畔⒎诸?lèi)組織、計(jì)算機(jī)檢索等方面的能力。網(wǎng)絡(luò)信息資源的組織和開(kāi)發(fā)是一項(xiàng)艱難而又富有前途的工作,廣大的圖書(shū)情報(bào)界人士、信息管理和計(jì)算機(jī)領(lǐng)域的專(zhuān)家應(yīng)盡快轉(zhuǎn)變觀念,加入到開(kāi)發(fā)的行列中來(lái),從而不斷提高隊(duì)伍的素質(zhì)。
四、性能評(píng)價(jià)
作為主題指南類(lèi)搜索引擎的典范,Yahoo具有以下優(yōu)點(diǎn):
1. 主題目錄與檢索軟件的完美結(jié)合
采用分面分析的方法,由信息管理專(zhuān)家編制主題目錄,反映了人們?cè)谶x擇和組織信息時(shí)的知識(shí)和智慧,提高了目錄編制的質(zhì)量。同時(shí),按照主題目錄以人工為主對(duì)提交的網(wǎng)頁(yè)進(jìn)行篩選、歸類(lèi)和組織,也能不斷克服單純由搜索軟件自動(dòng)完成分類(lèi)的缺陷,增強(qiáng)分類(lèi)的條理性。嵌入相應(yīng)的檢索軟件或工具,并與之相集成,提供高質(zhì)、高效的檢索服務(wù),從而加快了系統(tǒng)的反映速度,提高了檢索的準(zhǔn)確性,使得檢索結(jié)果更接近用戶(hù)的信息需求。
2. 信息檢索難度的降低
Yahoo 的數(shù)據(jù)庫(kù)按照14個(gè)大類(lèi)(各大類(lèi)下又包含數(shù)量不等的小類(lèi))組織,其分類(lèi)體系非常詳盡,因此是進(jìn)行寬泛主題檢索的良好起點(diǎn),特別是對(duì)于那些新用戶(hù)和模糊需求的用戶(hù)而言,選擇瀏覽可逐級(jí)展開(kāi)的主題索引比構(gòu)造檢索式要自然得多。并且,在用戶(hù)所在的類(lèi)目下,顯示了該級(jí)別的類(lèi)目包含的條目數(shù),如果用戶(hù)認(rèn)為數(shù)量過(guò)多,還可在此范圍內(nèi)使用關(guān)鍵詞檢索。Yahoo的目錄特征和利用上下文的服務(wù)使得能夠?qū)崿F(xiàn)快速和容易的檢索,從而在一定程度上降低了互聯(lián)網(wǎng)信息檢索的難度,提高了系統(tǒng)的用戶(hù)友好性。
3. 檢索結(jié)果的分類(lèi)選擇
Yahoo由分類(lèi)路徑入手,最終將檢索結(jié)構(gòu)分成類(lèi)目輸出,從而將極大地推動(dòng)信息的選擇。它還對(duì)結(jié)果列表中的相應(yīng)內(nèi)容進(jìn)行必要加工,加上一些描述的詞組或句子,方便用戶(hù)瀏覽并選擇:如:〔*〕或〔cool〕標(biāo)記表明該結(jié)果項(xiàng)在內(nèi)容和版面設(shè)計(jì)都優(yōu)于其他項(xiàng);〔new〕表明是最近3日內(nèi)收錄的最新內(nèi)容;以及上述提及過(guò)的以“@”表示相關(guān)參照,以括號(hào)里的數(shù)字表示收錄的文件數(shù)量等等。另外,Yahoo增加了結(jié)果顯示的類(lèi)型,可以以相關(guān)網(wǎng)站、相關(guān)網(wǎng)頁(yè)、新聞等形式輸出相應(yīng)的檢索結(jié)果。總而言之,為了更好地實(shí)現(xiàn)為用戶(hù)服務(wù)的目的,Yahoo正不斷開(kāi)發(fā)新的途徑和方法用以改善信息檢索服務(wù)。
在總結(jié)Yahoo所具有的優(yōu)勢(shì)的同時(shí),也應(yīng)注意它的缺陷,這些缺陷往往也正是主題指南類(lèi)搜索引擎的共同弊病所在:
1、由于互聯(lián)網(wǎng)信息的迅猛增長(zhǎng),使得采集信息的速度遠(yuǎn)遠(yuǎn)比不上網(wǎng)絡(luò)資源的增長(zhǎng)速度,更勿論編制主題目錄的速度了。這就造成了所建立的數(shù)據(jù)庫(kù)規(guī)模較小,且在某些類(lèi)目下收集的文件數(shù)量有限等缺點(diǎn),使得用戶(hù)經(jīng)常“乘興而來(lái),敗興而歸”,滿(mǎn)足不了相應(yīng)的信息需求。
2、簡(jiǎn)單檢索表中檢索詞之間缺省設(shè)置為“.or.”,且內(nèi)含的自動(dòng)截詞功能,使得在檢索中往往會(huì)出現(xiàn)許多不相關(guān)的文件,導(dǎo)致查準(zhǔn)率降低。
3、為了適應(yīng)不同用戶(hù)的查詢(xún)或檢索需求,Yahoo對(duì)相同的信息內(nèi)容往往能提供不同的路徑入口,并以符號(hào)“@”建立相應(yīng)的參照。這一方面加大了分類(lèi)工作的難度,另一方面也使得其分類(lèi)的一致性難以得到確切保障,所以,經(jīng)常出現(xiàn)從某一路徑入手,卻無(wú)法查到Y(jié)ahoo中所包含的信息內(nèi)容的現(xiàn)象。
4、待收錄的網(wǎng)頁(yè)或其它信息內(nèi)容的復(fù)雜度的增加也在無(wú)形之中加大了確切分類(lèi)的難度,如與ActiveX技術(shù)相關(guān)的文獻(xiàn)就很難在Yahoo中確切歸類(lèi)。
5、為了編制高質(zhì)量的主題目錄并跟上網(wǎng)絡(luò)資源發(fā)展的速度,必須投入相當(dāng)大的人力、物力和財(cái)力,且對(duì)從事該項(xiàng)工作的人員的素質(zhì)要求也日漸提高。否則,將無(wú)法很好地保證其主題目錄的質(zhì)量,也就從根本上無(wú)法提供優(yōu)質(zhì)的服務(wù)。
五、啟示和建議
Yahoo 最關(guān)鍵也是最成功之處就在于它為搜索引擎,尤其是主題指南類(lèi)的搜索引擎的設(shè)計(jì)和開(kāi)發(fā)樹(shù)立了“摸板”。借鑒Yahoo先進(jìn)的搜索引擎經(jīng)驗(yàn),進(jìn)一步完善網(wǎng)絡(luò)信息資源尤其是中文信息資源的組織和管理,是歷史賦予我們的責(zé)任?,F(xiàn)就建立網(wǎng)上中文信息資源的高質(zhì)、高效的“導(dǎo)航器”,提出以下幾點(diǎn)建議:
1、Yahoo在數(shù)字化信息的組織中成功地應(yīng)用分面分析的思想,建立起了一套完整、全面、等級(jí)層次鮮明的主題目錄體系以提高信息組織的質(zhì)量,這一點(diǎn)值得我們借鑒與學(xué)習(xí)。
目前,國(guó)內(nèi)的許多中文引擎或者因沒(méi)有分類(lèi)路徑入口,而不能跟上未來(lái)形勢(shì)的發(fā)展;或者因目錄體系缺乏必要的分類(lèi)主題理論基礎(chǔ),而給信息的確切歸類(lèi)和準(zhǔn)確檢索帶來(lái)了一系列的困難。我們并不一定要照搬Yahoo的分類(lèi)模式。在具體的編制過(guò)程中,應(yīng)從中國(guó)人的思維習(xí)慣、檢索習(xí)慣出發(fā),結(jié)合國(guó)內(nèi)已有的主題分類(lèi)的理論體系(如:《中圖法》等),建立所需的分類(lèi)框架。
2、應(yīng)逐步增大數(shù)據(jù)庫(kù)的規(guī)模,從而奠定成功的信息檢索的物質(zhì)基礎(chǔ)。建議可以通過(guò)兩種方式補(bǔ)充數(shù)據(jù)庫(kù)的內(nèi)容:一是鼓勵(lì)用戶(hù)將自己網(wǎng)頁(yè)的地址(URL)通過(guò)聯(lián)機(jī)表格遞交,二是由自身的巡視軟件不斷去發(fā)現(xiàn)網(wǎng)上新出現(xiàn)的文件,將之歸入數(shù)據(jù)庫(kù),在補(bǔ)充的過(guò)程中,也應(yīng)注意數(shù)據(jù)庫(kù)內(nèi)容的定期更新。關(guān)于這一點(diǎn),現(xiàn)在的一些中文搜索引擎做得還很不夠,往往只知盲目地填充信息,卻缺乏對(duì)庫(kù)內(nèi)容應(yīng)有的維護(hù)工作,導(dǎo)致數(shù)據(jù)庫(kù)龐大臃腫,檢索效率低,信息內(nèi)容陳舊,查準(zhǔn)率差。
3、鑒于單純依賴(lài)手工進(jìn)行信息歸類(lèi)效率低的缺陷,應(yīng)在這方面加強(qiáng)研究,考慮是否可將目前在文本環(huán)境中已經(jīng)實(shí)現(xiàn)并在進(jìn)一步完善的自動(dòng)分類(lèi)、自動(dòng)標(biāo)引和自動(dòng)文摘等處理信息內(nèi)容的手段用到網(wǎng)絡(luò)信息資源的組織上來(lái)。手工和機(jī)器輔助的結(jié)合,定能提高工作效率,改善信息組織、管理的質(zhì)量。
另外,應(yīng)繼續(xù)加強(qiáng)檢索軟件的研制和開(kāi)發(fā)工作。WWW網(wǎng)頁(yè)內(nèi)容多由圖像、動(dòng)畫(huà)、聲音、視頻等多媒體信息構(gòu)成。應(yīng)積極探索這一類(lèi)信息的檢索途徑,而不僅限于關(guān)鍵詞檢索方式。目前,對(duì)多媒體信息的存儲(chǔ),標(biāo)引和檢索正日益引起計(jì)算機(jī)和信息管理領(lǐng)域人士的注意。應(yīng)密切跟蹤這方面技術(shù)的發(fā)展,并將其切實(shí)應(yīng)用到中文引擎的檢索軟件的編制上來(lái)。
4、參與信息采集、篩選和組織工作的人員素質(zhì)的高低將直接或間接影響到編制的主題分類(lèi)體系的質(zhì)量。因此,各個(gè)從事網(wǎng)絡(luò)信息服務(wù)業(yè)的部門(mén)或企業(yè),尤其是開(kāi)發(fā)中文搜索引擎的部門(mén)或企業(yè),應(yīng)切實(shí)加強(qiáng)人員的培訓(xùn),特別是加強(qiáng)他們?cè)谛畔⒎诸?lèi)組織、計(jì)算機(jī)檢索等方面的能力。網(wǎng)絡(luò)信息資源的組織和開(kāi)發(fā)是一項(xiàng)艱難而又富有前途的工作,廣大的圖書(shū)情報(bào)界人士、信息管理和計(jì)算機(jī)領(lǐng)域的專(zhuān)家應(yīng)盡快轉(zhuǎn)變觀念,加入到開(kāi)發(fā)的行列中來(lái),從而不斷提高隊(duì)伍的素質(zhì)。 雅虎免費(fèi)收錄程序
繼雅虎推出付費(fèi)收錄模式Site Match之后,又推出一款新型免費(fèi)收錄模式。通過(guò)這種收錄程序,用戶(hù)只需輸入頂級(jí)頁(yè)面的完整的URL地址,雅虎的爬行程序就可以尋找到剩余的網(wǎng)頁(yè),并且在索引過(guò)程中自動(dòng)檢測(cè)并剔除死鏈接。
進(jìn)入“免費(fèi)收錄”需要雅虎的注冊(cè)帳戶(hù),進(jìn)入后可以看到如下的說(shuō)明:
“輸入希望提交的網(wǎng)頁(yè)完整URL地址,必須包含http://前綴(例如,http://www.Yahoo.com).只需輸入網(wǎng)站的頂級(jí)頁(yè)面,我們的爬行程序便可以搜索到你的網(wǎng)站中的剩余網(wǎng)頁(yè)。我們將在索引過(guò)程中自動(dòng)檢測(cè)并剔除死鏈接。
所提交URL被程序索引到需要幾周的時(shí)間,請(qǐng)耐心等待。”
與站點(diǎn)匹配相比較可以看到免費(fèi)提交的網(wǎng)站不會(huì)受到質(zhì)量復(fù)核,沒(méi)有報(bào)告服務(wù),雖然雅虎聲明可以被爬行程序搜索到剩余的網(wǎng)頁(yè),但目前為之,我們還沒(méi)有獲得任何數(shù)據(jù),說(shuō)明雅虎對(duì)剩余網(wǎng)頁(yè)的索引深度和數(shù)量。
目前雅虎提交的方式共有四種。登錄雅虎搜索站點(diǎn),在提交網(wǎng)站(submit your site)中,可以看到這四種提交方式,分別是Site Match(站點(diǎn)匹配);Pay-For-Performance(競(jìng)價(jià) 排名);Free URL submission(免費(fèi)收錄);Yahoo!Directory(雅虎目錄收錄)。具體描述如下:
* Site Match(站點(diǎn)匹配)保證收錄進(jìn)雅虎搜索數(shù)據(jù)庫(kù)并顯示在合作伙伴站點(diǎn)中;每24小時(shí)更新一次;提供跟蹤報(bào)告,優(yōu)化顯示效果;站點(diǎn)復(fù)核保證相關(guān)性,有助于提高站點(diǎn)的顯示效果。
* Pay-For-Performance(競(jìng)價(jià)排名):基于關(guān)鍵詞的廣告形式,保證在雅虎搜索及合作站點(diǎn)中排名顯示。
* Free URL submission(免費(fèi)收錄):將網(wǎng)站收錄進(jìn)雅虎搜索的建議性方式。(需要注冊(cè)帳戶(hù))。
* Yahoo!Directory(雅虎目錄收錄):將網(wǎng)站收錄進(jìn)雅虎目錄的建議性方式。
Yahoo更新和最準(zhǔn)確的登陸和發(fā)布頁(yè)面 http://search.yahoo.com/info/submit.html
Yahoo!英文的基本收錄標(biāo)準(zhǔn)
交費(fèi)登錄Yahoo英文網(wǎng)站的方法:
需要向Yahoo支付299美元(成人內(nèi)容或服務(wù)網(wǎng)站需支付美元$600,并且在Business and Economy/Shopping and Services/Sex下的適當(dāng)目錄申請(qǐng))
1. 但即使是您支付了美元$299,也不保證您的網(wǎng)站一定被Yahoo收錄;
2. 即使網(wǎng)站被Yahoo收錄,也不保證是您遞交網(wǎng)站時(shí)所選擇的目錄;Yahoo工作人員 有權(quán)更改目錄;
3.即使網(wǎng)站被Yahoo收錄,也不保證是你遞交網(wǎng)站時(shí)所填寫(xiě)的注釋?zhuān)淳W(wǎng)站說(shuō)明。
而且,您的網(wǎng)站被Yahoo收錄,或者被Yahoo拒絕收錄,$299美元也將不被Yahoo退還。向Yahoo支付$299,僅意味著,Yahoo的編輯訪問(wèn)您的網(wǎng)站,以Yahoo的收錄標(biāo)準(zhǔn)決定是否收錄您的網(wǎng)站,并保證在7個(gè)工作日內(nèi)答復(fù)您。
如果您的網(wǎng)站被拒絕收錄,Yahoo的編輯將在7個(gè)工作日內(nèi)通過(guò)電子郵件形式告訴您被拒絕收錄的原因,您還有一次機(jī)會(huì),在收到Y(jié)ahoo給您發(fā)的拒絕信的30天內(nèi),您可以再次遞交申請(qǐng),這次您不用再交任何費(fèi)用,如果這次您再次被Yahoo拒絕,您的網(wǎng)站將再也沒(méi)有資格被收錄到Y(jié)ahoo目錄里。
當(dāng)您的網(wǎng)站被Yahoo收錄后,您還必須每年向Yahoo支付美元$299,該費(fèi)用是Yahoo的編輯對(duì)您的網(wǎng)站的復(fù)核費(fèi)用,您必須在到期的前15個(gè)工作日支付下年的審核費(fèi)用,如果您沒(méi)有及時(shí)支付,您的網(wǎng)站將被從Yahoo的目錄中刪除。 自動(dòng)門(mén)
被Yahoo收錄的最低標(biāo)準(zhǔn):
(1)如果是商業(yè)網(wǎng)站,網(wǎng)站必須具有正式的商業(yè)名字,并在網(wǎng)站顯著位置顯示。
(2)網(wǎng)站必須定位明確。
(3)網(wǎng)站沒(méi)有被Yahoo目錄收錄。
(4)保證所遞交網(wǎng)站,其內(nèi)容在Yahoo目錄里是“惟一”內(nèi)容。比如,您已經(jīng)向Yahoo遞交了一個(gè)網(wǎng)站A,您又申請(qǐng)了一個(gè)域名,并又建立了一個(gè)網(wǎng)站 B,網(wǎng)站A與網(wǎng)站B內(nèi)容相同或“換湯不換藥”(雖然語(yǔ)言上有些改動(dòng),但實(shí)質(zhì)上還是一個(gè)內(nèi)容),這時(shí)您就不能再向Yahoo遞交網(wǎng)站B。
(5)如果網(wǎng)站是有地域特征的網(wǎng)站,必須有詳細(xì)的地址。
(6)沒(méi)有‘正在建設(shè)網(wǎng)頁(yè)’。
(7)您的網(wǎng)站鏈接全部有效,并指向相關(guān)內(nèi)容。
(8)網(wǎng)站必須是英文網(wǎng)頁(yè),或者有英文版。
(9)您的網(wǎng)站兼容多種瀏覽器,比如,不是純Java網(wǎng)站。
(10)您的網(wǎng)站必須24小時(shí)與互聯(lián)網(wǎng)相連。
Site Match - Yahoo 站點(diǎn)匹配收錄方式
Site Match(站點(diǎn)匹配)保證收錄進(jìn)雅虎搜索數(shù)據(jù)庫(kù)并顯示在合作伙伴站點(diǎn)中;每24小時(shí)更新一次;提供跟蹤報(bào)告,優(yōu)化顯示效果;站點(diǎn)復(fù)核保證相關(guān)性,有助于提高站點(diǎn)的顯示效果。
與之前的付費(fèi)收錄程序相同,此程序按照網(wǎng)站的規(guī)模分為兩個(gè)版本?;景姹痉Q(chēng)為Site Match,適合于少于1000URL的網(wǎng)站。自助服務(wù)的工作格式與Inktomi的前Site Submit程序相似??梢灾苯油ㄟ^(guò)Overture直接注冊(cè)此程序,也可以通過(guò)授權(quán)代理商。
Site Match 定價(jià)基于提交年費(fèi),首個(gè)URL交納$49,第2-10個(gè)URL費(fèi)用為$29/個(gè),第11-999個(gè)URL費(fèi)用為$10/個(gè)。除了用于復(fù)核的年費(fèi)還應(yīng)支付點(diǎn)擊費(fèi)用。大多數(shù)URL的點(diǎn)擊費(fèi)用為15美分,屬于特定目錄(如旅游)的URL點(diǎn)擊費(fèi)用為30美分。
對(duì)于規(guī)模超過(guò)1000URL的網(wǎng)站,雅虎提供了Site Match Xchange程序,無(wú)須年費(fèi),只需按照所屬目錄支付每點(diǎn)擊不超過(guò)1美元的點(diǎn)擊費(fèi)用。
Yahoo更新和最準(zhǔn)確的登陸和發(fā)布頁(yè)面
http://search.yahoo.com/info/submit.html
(作者Kevin Lee|2004/10/08,編譯lela)
作者Kevin Lee,Did-it.com的創(chuàng)始人之一兼CEO。自1996年Dit-it.com成立,Kevin及其公司員工便以幫助搜索營(yíng)銷(xiāo)客戶(hù)成功為己任,利用優(yōu)秀的策略及技術(shù)優(yōu)化客戶(hù)的付費(fèi)排名及付費(fèi)收錄搜索活動(dòng)。Kevin同時(shí)也是搜索引擎營(yíng)銷(xiāo)專(zhuān)業(yè)組織(SEMPO)創(chuàng)立理事之一,同時(shí)任職于互動(dòng)營(yíng)銷(xiāo)者協(xié)會(huì)(the Association of Interactive Marketers)下SEM 委員會(huì),互動(dòng)廣告署(the Interactive Advertising Bureau)搜索委員會(huì)。知名的營(yíng)銷(xiāo)通訊站點(diǎn)marketing.briefme.com也是由其發(fā)布。作為一位知名的SEO/SEM專(zhuān)家,Kevin Lee的作品經(jīng)常被許多知名新聞媒體所轉(zhuǎn)載,包括the Wall St. Journal《華兒街日?qǐng)?bào)》、Business Week《商業(yè)周刊》、the San Jose Mercury News《圣何塞信史報(bào)》、Catalog Age《目錄年代》。他也經(jīng)常出席行業(yè)大會(huì)并且是也是一位備受尊重的出色的發(fā)言人。Kevin喜歡公開(kāi)在出版物或私下共同探討各種竅門(mén)、策略,他本人在 1992年獲得了耶魯大學(xué)管理學(xué)院的MBA碩士學(xué)位.