Mar 29

自从2月份的大改动后,来自百度搜索来源锐减,流量下降70%以上,不知道何时才能恢复。现在全部流量70%来自Google,而正常的中文站百度的流量贡献基本都是google 1.5-2倍左右。

但仔细看看,我的计数器流量去继续快速迈向百万,很明显已经失真。通过Wordpress的Wassup插件可以看到,过去一周实际访问量1500左右,1000都是各种爬虫,剩下的500才是真实访问。

把Wassup的源代码拿出来看看,原来是查的浏览器的UserAgent,其代码里面的 wGetSpider函数,就是一个巨大的各种feed reader和搜索引擎爬虫的列表,百度一类的中文爬虫还不在其列,不过这些爬虫的主要关键字倒是一致xxxxbot,xxxxCrawl,xxxSpider,集中优势兵力消灭掉这些就差不多了,虽然还有很多像adsense用MediaPartners这种名字的,但来自几个大搜索引擎的主要兵力都被解决了

下面的代码还包括了原来通过 HTTP_REFERER判断,如果是通过本站内部的访问就不计数的功能

$userAgent = (isset($_SERVER['HTTP_USER_AGENT']) ? $_SERVER['HTTP_USER_AGENT'] : ”);
$urlfrom = (isset($_SERVER['HTTP_REFERER']) ? $_SERVER['HTTP_REFERER'] : ”);
$sitefrom=substr($urlfrom,7,20);
if (eregi(“dzxr.com”, $sitefrom)||eregi(“bot”, $userAgent)||eregi(“spider”, $userAgent)||eregi(“crawler”, $userAgent))

{跳过计数器加法..}

PS: 测试用的方法是利用firefox在about:config 页面设置自己的UserAgent。。同样的方法去骗feedsky也很容易:)

相关文章:

written by dzxr \\ tags: , , ,

One Ping to “计数器过滤搜索引擎的网络爬虫”

  1. 疯狂的计数器 | 电子笑容 dzxr.com Says:

    [...] 用Google Analytics已经3年多,日均访问量从初始的300+增长到1500+,然后随着自己和Google的不断优化,目前唯一身份访问者人数终于只剩下150+,于此同时,自己的计数器过滤搜索引擎的网络爬虫以来,不但没有得到抑制,却是疯狂增长,短短1年3个月,就从刚到100万飙到了250万。这样下去还得了,岂不成了国家统计局的计数器了,于是最近集中进行了专项治理: [...]


Leave a Reply

i3Theme sponsored by Top 10 Web Hosting, Hosting in Colombia and Web Hosting Reviews

Copyright © 2001-2010 dzxr.com 给我发邮件 All Rights Reserved 保留所有权利 蜀ICP备05004894号