一般說來,在網(wǎng)站建設(shè)中,總是希望搜索引擎的機(jī)器人能夠盡可能地在網(wǎng)站內(nèi)爬行,收錄網(wǎng)站盡可能多的頁面,要實(shí)現(xiàn)這一點(diǎn),需要在網(wǎng)頁設(shè)計(jì)與制作時(shí)盡可能照顧搜索引擎Spider,避免或減少使用圖片、Flash、JavaScript等。但是,對(duì)大多數(shù)網(wǎng)站而言,往往也存在著部分私密性數(shù)據(jù)不想公諸于眾,比如網(wǎng)站的后臺(tái)程序部分,比如存放于Internet網(wǎng)站服務(wù)器上的企業(yè)內(nèi)部信息頁面等,對(duì)這部分不希望被搜索引擎收錄的內(nèi)容,應(yīng)如何控制搜索引擎Spider對(duì)其的爬行與索引呢?
Matt Cutts近日提供了一個(gè)控制Googlebot索引網(wǎng)頁的說明,盡管他所言只是針對(duì)Google,但適用于大多數(shù)搜索引擎,簡要?dú)w納如下:
在網(wǎng)站/目錄級(jí)別,推薦使用 .htaccess文件來對(duì)網(wǎng)站的私密部分加以密碼保護(hù),這是最安全的作法,目前各搜索引擎的Spider對(duì)密碼保護(hù)的內(nèi)容都是無能為力的。同時(shí),.htaccess也可將初級(jí)的入侵者拒之門外。不過,.htaccess文件只在Unix/Linux下起作用,國內(nèi)流行的Windows 平臺(tái)服務(wù)器則無法使用這一功能。
*