文章摘要
这篇文章介绍了利用Bash脚本统计网站蜘蛛数量的方法。脚本的主要功能是循环遍历指定的域名列表(`domain`)和搜索引擎列表(`spider`),并在每个域名的日志文件中统计指定搜索引擎的访问次数。脚本会输出到指定日志目录,并且可以配置成每天定时任务运行。需要注意的是,脚本需在Linux环境下运行,且要在脚本文件中设置700权限。
说明:
spider是蜘蛛标识,domain是要统计蜘蛛的站点域名,只统计当天的蜘蛛。
如果需要记录/分析每天的蜘蛛情况,可以将脚本添加定时任务(23:59)执行,并追加输出到txt文件。
例如:将脚本命名为spider.sh 保存,再使用crontab命令添加定时任务(注意:spider.sh文件需要700权限)。
59 23 * * * sh /www/spider.sh>>/www/spider.txt
代码粗陋,还望各位笑纳。高手可以各自完善。 提供liunx格式的脚本下载 防止windows跟liunx的编辑软件冲突导致代码出问题!
#!/bin/bash m="$(date +%m)" case $m in "01") m='Jan';; "02") m='Feb';; "03") m='Mar';; "04") m='Apr';; "05") m='May';; "06") m='Jun';; "07") m='Jul';; "08") m='Aug';; "09") m='Sep';; "10") m='Oct';; "11") m='Nov';; "12") m='Dec';; esac d="$(date +%d)" spider=( Googlebot Baiduspider baiduboxapp Sogou YisouSpider 360Spider Bytespider ) domain=( www.1004619.com ) for j in ${domain[*]}; do echo $j for i in ${spider[*]}; do echo -e "$i " `cat /www/wwwlogs/$j.log |grep $d/$m|grep $i|wc -l` done echo "--------------------------------------------------------" done