|
Mar
29
|
自从2月份的大改动后,来自百度搜索来源锐减,流量下降70%以上,不知道何时才能恢复。现在全部流量70%来自Google,而正常的中文站百度的流量贡献基本都是google 1.5-2倍左右。
但仔细看看,我的计数器流量去继续快速迈向百万,很明显已经失真。通过Wordpress的Wassup插件可以看到,过去一周实际访问量1500左右,1000都是各种爬虫,剩下的500才是真实访问。
把Wassup的源代码拿出来看看,原来是查的浏览器的UserAgent,其代码里面的 wGetSpider函数,就是一个巨大的各种feed reader和搜索引擎爬虫的列表,百度一类的中文爬虫还不在其列,不过这些爬虫的主要关键字倒是一致xxxxbot,xxxxCrawl,xxxSpider,集中优势兵力消灭掉这些就差不多了,虽然还有很多像adsense用MediaPartners这种名字的,但来自几个大搜索引擎的主要兵力都被解决了
下面的代码还包括了原来通过 HTTP_REFERER判断,如果是通过本站内部的访问就不计数的功能
$userAgent = (isset($_SERVER['HTTP_USER_AGENT']) ? $_SERVER['HTTP_USER_AGENT'] : ”);
$urlfrom = (isset($_SERVER['HTTP_REFERER']) ? $_SERVER['HTTP_REFERER'] : ”);
$sitefrom=substr($urlfrom,7,20);
if (eregi(“dzxr.com”, $sitefrom)||eregi(“bot”, $userAgent)||eregi(“spider”, $userAgent)||eregi(“crawler”, $userAgent))
{跳过计数器加法..}
PS: 测试用的方法是利用firefox在about:config 页面设置自己的UserAgent。。同样的方法去骗feedsky也很容易:)
All Rights Reserved 保留所有权利

07月 31st, 2009 at 21:47
[...] 用Google Analytics已经3年多,日均访问量从初始的300+增长到1500+,然后随着自己和Google的不断优化,目前唯一身份访问者人数终于只剩下150+,于此同时,自己的计数器过滤搜索引擎的网络爬虫以来,不但没有得到抑制,却是疯狂增长,短短1年3个月,就从刚到100万飙到了250万。这样下去还得了,岂不成了国家统计局的计数器了,于是最近集中进行了专项治理: [...]