站長之家(ChinaZ.com) 7月2日 消息:據(jù)外媒報(bào)道,谷歌希望將幾十年前的拒絕蜘蛛?yún)f(xié)議 (REP)變成為官方互聯(lián)網(wǎng)標(biāo)準(zhǔn)。為了推動(dòng)該項(xiàng)計(jì)劃,谷歌正在制作自己的 robots.txt 解析器開源。
據(jù)venturebeat介紹,早在 1994 年,荷蘭軟件工程師Martijn Koster就提出了REP標(biāo)準(zhǔn),它幾乎已經(jīng)成為網(wǎng)站用來告訴自動(dòng)爬蟲程序的哪些部分不應(yīng)該被處理的標(biāo)準(zhǔn)。例如谷歌的網(wǎng)頁抓取機(jī)器人Googlebot(類似百度蜘蛛)在為網(wǎng)站建立索引時(shí)會(huì)掃描robots.txt文件,以檢查應(yīng)該忽略哪些部分的特殊說明。它最大限度地減少了無意義的索引,有時(shí)會(huì)隱藏敏感信息。此外,這些文件并不僅僅用于給出直接的爬行指令,還可以填充某些關(guān)鍵字,以改善搜索引擎優(yōu)化,以及其他用例。
不過,谷歌認(rèn)為需要對(duì)其爬蟲技術(shù)進(jìn)行改進(jìn),該公司正在公開尋找用于解碼robots.txt解析器,試圖建立一個(gè)真正的網(wǎng)絡(luò)爬行標(biāo)準(zhǔn)。理想情況下,這將從如何揭開robots.txt文件神秘面紗,并創(chuàng)造更多通用格式。
谷歌倡議向國際互聯(lián)網(wǎng)工程任務(wù)組提交自己方法,將“更好地定義”爬蟲應(yīng)該如何處理 robots.txt,并減少一些意外。
該草案并不完全可用,但它將不僅適用于網(wǎng)站,還包括最小文件大小、設(shè)置最大一天緩存時(shí)間以及在服務(wù)器出現(xiàn)問題時(shí)讓網(wǎng)站休息。
(舉報(bào))