自从2月份的大改动后,来自百度搜索来源锐减,流量下降70%以上,不知道何时才能恢复。现在全部流量70%来自Google,而正常的中文站百度的流量贡献基本都是google 1.5-2倍左右。
但仔细看看,我的计数器流量去继续快速迈向百万,很明显已经失真。通过Wordpress的Wassup插件可以看到,过去一周实际访问量1500左右,1000都是各种爬虫,剩下的500才是真实访问。
把Wassup的源代码拿出来看看,原来是查的浏览器的UserAgent,其代码里面的 wGetSpider函数,就是一个巨大的各种feed reader和搜索引擎爬虫的列表,百度一类的中文爬虫还不在其列,不过这些爬虫的主要关键字倒是一致xxxxbot,xxxxCrawl,xxxSpider,集中优势兵力消灭掉这些就差不多了,虽然还有很多像adsense用MediaPartners这种名字的,但来自几个大搜索引擎的主要兵力都被解决了
下面的代码还包括了原来通过 HTTP_REFERER判断,如果是通过本站内部的访问就不计数的功能
$userAgent = (isset($_SERVER['HTTP_USER_AGENT']) ? $_SERVER['HTTP_USER_AGENT'] : ”);
$urlfrom = (isset($_SERVER['HTTP_REFERER']) ? $_SERVER['HTTP_REFERER'] : ”);
$sitefrom=substr($urlfrom,7,20);
if (eregi(“dzxr.com”, $sitefrom)||eregi(”bot”, $userAgent)||eregi(”spider”, $userAgent)||eregi(”crawler”, $userAgent))
{跳过计数器加法..}
PS: 测试用的方法是利用firefox在about:config 页面设置自己的UserAgent。。同样的方法去骗feedsky也很容易:)
保留所有权利
最新评论