在網(wǎng)站/目錄級別,也可以使用robots.txt來控制搜索引擎抓取,這也是不支持.htaccess文件的Windows 平臺服務(wù)器下的的必須選擇。不過,與采用.htaccess文件的方式,控制權(quán)完全掌握在網(wǎng)站建設(shè)者手中相比,robots.txt能否完全控制搜索引擎的Spider取決于搜索引擎是不是嚴(yán)格遵循robots.txt文件的要求,如Baidu的Spider就曾多次被質(zhì)疑。
在網(wǎng)頁級別,在html文件中使用meta標(biāo)簽,“noindex”標(biāo)簽將告訴搜索引擎的Spider該頁面拒絕收錄,“nofollow”標(biāo)簽則告訴搜索引擎的Spider該網(wǎng)頁內(nèi)的所有鏈接拒絕爬行。同樣地,這些標(biāo)簽Googlebot能夠很好地辨識并遵循,但有些搜索引擎則未必。
在鏈接級別,可以為某個(gè)單獨(dú)的鏈接使用“nofollow”標(biāo)簽。
如果要保護(hù)的內(nèi)容已經(jīng)被Google收錄,可以使用google的網(wǎng)址刪除系統(tǒng)。一般說來,這是最后的手段,要慎重地使用,在Google索引中被刪除的內(nèi)容在180天內(nèi)不會被重新收錄。具體可參考Google的幫助。
當(dāng)然,要完全杜絕私密內(nèi)容被搜索引擎、被別人看到,最有效的還是不要將其放在面向公眾訪問的Internet服務(wù)器上。
*