Jul 31

用Google Analytics已经3年多,日均访问量从初始的300+增长到1500+,然后随着自己和Google的不断优化,目前唯一身份访问者人数终于只剩下150+,于此同时,自己的计数器过滤搜索引擎的网络爬虫以来,不但没有得到抑制,却是疯狂增长,短短1年3个月,就从刚到100万飙到了250万。这样下去还得了,岂不成了国家统计局的计数器了,于是最近集中进行了专项治理:

1)增强爬虫的识别,UserAgent除了bot,crawler,spider关键词外,还增加了
“/Feedfetcher-Google/”, “/Mediapartners-Google/”,    “/Scooter/”,    “/Yahoo! Slurp/”,    “/FAST Enterprise Crawler/”,    “/grub-client-/”,       “/NameProtect/i”,    “/ZyBorg/i”,    “/worio bot heritrix/i”,    “/Ask Jeeves/”,    “/libwww-perl/i”
目前尚未发现漏网之鱼。欢迎大家补充
2)增加了对攻击性扫描的处理,根据自己的监控,除去这些各种爬虫,还有一种非正常访问很多,UserAgent为Mozilla/4.0,尝试访问wwwroot等asp漏洞(我可是php啊),这种无聊而低级的扫描来自各个不同的IP,封都封不完。其实wordpress都帮我用404页面处理了,我也才发现原来的404页面上有计数器,赶紧拿掉。
3)修改避免重复计数的算法,将原来对HTTP_REFERER中指定位置含dzxr.com的判断改为判断任意位置含dzxr.com。

整治完计算器,当然也要优化下Google Analyticator:
4)优化Wordpress 的Google Analyticator插件配置,将Google Analyticator的代码放在页首而不是页尾,删除若干如Wassup这种耗资源的插件,清理数据库。恩,做了个测试,清楚缓存后,访问dzxr.com,读出全部页面也就5秒以内了,甚好

到发稿时截止,计数器计数下降到每小时50次左右的水平,约为治理前的20%,取得了阶段性胜利。至于Google Analytics的情况,因为其是基于cookie计算,更为保守合理,还需要进一步观察其是否有预期的增长。

相关文章:

written by dzxr \\ tags: , ,


2 Responses to “疯狂的计数器”

  1. 1. hyi104 Says:

    喜欢折腾data啊,职业病?

    Reply

    dzxr reply on 08月 1st, 2009 13:18:

    恩,病得还不轻

    Reply

Leave a Reply

i3Theme sponsored by Top 10 Web Hosting, Hosting in Colombia and Web Hosting Reviews

Copyright © 2001-2010 dzxr.com 给我发邮件 All Rights Reserved 保留所有权利 蜀ICP备05004894号