《關于網(wǎng)絡爬蟲的那些事:干掉偽裝的爬蟲》文章已經(jīng)歸檔,站長之家不再展示相關內(nèi)容,下文是站長之家的自動化寫作機器人,通過算法提取的文章重點內(nèi)容。這只AI還很年輕,歡迎聯(lián)系我們幫它成長:
在關于網(wǎng)絡爬蟲的那些事(一)提到,如果爬蟲偽裝自己的User-Agent信息,就必須尋找新的辦法來封殺爬蟲了...
一些網(wǎng)絡爬蟲為了避免被網(wǎng)站以識別User-Agent的方式封殺,就修改了自己的User-Agent信息,通常偽裝成WindowsXP上的IE6瀏覽器,也有偽裝成Firefox瀏覽器的...
JavaEye自己的流量統(tǒng)計系統(tǒng)盡管并不是為了甄別爬蟲而編寫的,但是他可以幫助甄別網(wǎng)絡爬蟲...
這種爬蟲是最難以甄別的爬蟲,如果精心編寫,甚至可以欺騙Google的服務器...
根據(jù)經(jīng)驗來說,一個C段地址每天超過3000次訪問已經(jīng)肯定是一個大公司在訪問JavaEye了,可如果該來源C段并非出自像阿里巴巴,IBM中國公司,搜狐,騰訊這樣的公司地址,就可以99%斷定是網(wǎng)絡爬蟲,直接用iptables干掉該C段地址...
......
本文由站長之家用戶“robbin”投稿,本平臺僅提供信息索引服務。由于內(nèi)容發(fā)布時間超過平臺更新維護時間,為了保證文章信息的及時性,內(nèi)容觀點的準確性,平臺將不提供完整的內(nèi)容展現(xiàn),本頁面內(nèi)容僅為平臺搜索索引使用。需閱讀完整內(nèi)容的用戶,請聯(lián)系作者獲取原文。
(舉報)