|
Jul
31
|
用Google Analytics已经3年多,日均访问量从初始的300+增长到1500+,然后随着自己和Google的不断优化,目前唯一身份访问者人数终于只剩下150+,于此同时,自己的计数器过滤搜索引擎的网络爬虫以来,不但没有得到抑制,却是疯狂增长,短短1年3个月,就从刚到100万飙到了250万。这样下去还得了,岂不成了国家统计局的计数器了,于是最近集中进行了专项治理:
1)增强爬虫的识别,UserAgent除了bot,crawler,spider关键词外,还增加了
“/Feedfetcher-Google/”, “/Mediapartners-Google/”, “/Scooter/”, “/Yahoo! Slurp/”, “/FAST Enterprise Crawler/”, “/grub-client-/”, “/NameProtect/i”, “/ZyBorg/i”, “/worio bot heritrix/i”, “/Ask Jeeves/”, “/libwww-perl/i”
目前尚未发现漏网之鱼。欢迎大家补充
2)增加了对攻击性扫描的处理,根据自己的监控,除去这些各种爬虫,还有一种非正常访问很多,UserAgent为Mozilla/4.0,尝试访问wwwroot等asp漏洞(我可是php啊),这种无聊而低级的扫描来自各个不同的IP,封都封不完。其实wordpress都帮我用404页面处理了,我也才发现原来的404页面上有计数器,赶紧拿掉。
3)修改避免重复计数的算法,将原来对HTTP_REFERER中指定位置含dzxr.com的判断改为判断任意位置含dzxr.com。
整治完计算器,当然也要优化下Google Analyticator:
4)优化Wordpress 的Google Analyticator插件配置,将Google Analyticator的代码放在页首而不是页尾,删除若干如Wassup这种耗资源的插件,清理数据库。恩,做了个测试,清楚缓存后,访问dzxr.com,读出全部页面也就5秒以内了,甚好
到发稿时截止,计数器计数下降到每小时50次左右的水平,约为治理前的20%,取得了阶段性胜利。至于Google Analytics的情况,因为其是基于cookie计算,更为保守合理,还需要进一步观察其是否有预期的增长。
All Rights Reserved 保留所有权利

08月 1st, 2009 at 13:06
喜欢折腾data啊,职业病?
Reply
dzxr reply on 08月 1st, 2009 13:18:
恩,病得还不轻
Reply