supesite 定时自动采集 详细设置

发表于

配置要求:服务器需要支持cron修改添加权限
1、在supesite根目录下建立myhz.com_caiji.php和myhz.com_admincp.php两个文件
2、在supesite的admin目录下建立myhz.com_robots.php
(三个文件的权限要求可读,可执行,内容请下载,下载地址:http://bbs.myhz.com/viewthread.php?tid=1812&extra=page%3D1
需要注意的是myhz.com_caiji.php中有两个地方,域名要修改成你自己的
<?php
echo date("Y-m-d H:i:s");
echo "\n";
caiji("http://news.myhz.com/myhz.com_admincp.php?action=robots&op=robot&clearcache=1&robotid=".$argv[1]);//这里news.myhz.com换成你的网址
echo date("Y-m-d H:i:s");
Function caiji($next)
{
echo $next."\n";
$ch2 = curl_init();  
$user_agent = "Baiduspider+(+http://www.baidu.com/search/spider.htm)";
curl_setopt($ch2, CURLOPT_URL, $next);  
curl_setopt($ch2, CURLOPT_HEADER, false);  
curl_setopt($ch2, CURLOPT_RETURNTRANSFER, 1);  
curl_setopt($ch2, CURLOPT_USERAGENT, $user_agent);  
$orders = curl_exec($ch2);  
//echo '';  
//echo strip_tags($orders);  
//echo '';  
curl_close($ch2);
$str=strip_tags($orders);
$start="window.location.replace('";
$end="setTimeout";
$siteurl="http://news.myhz.com"; //这里news.myhz.com换成你的网址
$a=strpos($str,$start);
$b=strpos($str,$end);
if ((!$a) or (!$b))
return(0);
$len=$b-$a-strlen($start);
$c=strip_tags(substr($str, $a+strlen($start), $len));
$next=$siteurl.trim(str_replace("');","",str_replace("}","",$c)));
if ($next==$siteurl)
echo "\n";
else
caiji($next);
}
?>

3、在后台添加采集的机器人,并记录机器人ID。
4、运行命令crontab -e(linux或unix系统),根据需要,添加自动运行的脚本,格式如下,运行的频率、php文件地址和机器人ID需要根据自己的需要来修改:
5 * * * * /usr/bin/php /htdocs/myhz.com_caiji.php 1 
10 * * * * /usr/bin/php /htdocs/myhz.com_caiji.php 2

#(注释:5 * * * *
表示每个小时的第5分钟运行一次,/usr/bin/php是运行程序php的地址,/htdocs/myhz.com_caiji.php是采集脚本
myhz.com_caiji.php的地址,1是采集机器人ID)