当我们需要采集网络上的某个网页内容时,如果目标网站上的图片做了防盗链的话,我们直接采集过来的图片在自己网站上是不可用的。那么我们使用程序将目标网站上的图片下载到我们网站服务器上,然后就可调用图片了。
本文将使用PHP实现采集远程图片功能。基本流程:
1、获取目标网站图片地址。
2、读取图片内容。
3、创建要保存图片的路径并命名图片名称。
4、写入图片内容。
5、完成。
我们通过写几个函数来实现这一过程。
函数make_dir()建立目录。判断要保存的图片文件目录是否存在,如果不存在则创建目录,并且将目录设置为可写权限。
复制代码 代码如下:function make_dir($path){
if(!file_exists($path)){//不存在则建立
$mk=@mkdir($path,0777); //权限
@chmod($path,0777);
}
return true;
}
函数read_filetext()取得图片内容。使用fopen打开图片文件,然后fread读取图片文件内容。
复制代码 代码如下:
function read_filetext($filepath){
$filepath=trim($filepath);
$htmlfp=@fopen($filepath,"r");
//远程
if(strstr($filepath,"://")){
while($data=@fread($htmlfp,500000)){
$string.=$data;
}
}
//本地
else{
$string=@fread($htmlfp,@filesize($filepath));
}
@fclose($htmlfp);
return $string;
}
函数write_filetext()写文件,将图片内容fputs写入文件中,即保存图片文件。
复制代码 代码如下:
function write_filetext($filepath,$string){
//$string=stripSlashes($string);
$fp=@fopen($filepath,"w");
@fputs($fp,$string);
@fclose($fp);
}
函数get_filename()获取图片名称,也可以自定义要保存的文件名。
复制代码 代码如下:
function get_filename($filepath){
$fr=explode("/",$filepath);
$count=count($fr)-1;
return $fr[$count];
}
然后将几个函数组合,在函数save_pic()中调用,最后返回保存后的图片路径。
复制代码 代码如下:
function save_pic($url,$savepath=''){
//处理地址
$url=trim($url);
$url=str_replace(" ","%20",$url);
//读文件
$string=read_filetext($url);
if(empty($string)){
echo '读取不了文件';exit;
}
//文件名
$filename = get_filename($url);
//存放目录
make_dir($savepath); //建立存放目录
//文件地址
$filepath = $savepath.$filename;
//写文件
write_filetext($filepath,$string);
return $filepath;
}
最后一步就是调用save_pic()函数保存图片,我们使用以下代码做测试。
复制代码 代码如下:
//目标图片地址
$pic = "http://img0.pconline.com.cn/pconline/1205/06/2776119_end1_thumb.jpg";
//保存目录
$savepath = "images/";
echo save_pic($pic,$savepath);
实际应用中,我们可能会采集某个站点的内容,比如产品信息,包括采集防盗链的图片保存到网站上服务器上。这时我们可以使用正则匹配页面内容,将页面中相匹配的图片都找出来,然后分别下载到网站服务器上,完成图片的采集。以下代码仅供测试:
复制代码 代码如下:
function get_pic($cont,$path){
$pattern_src = '/<[img|IMG].*"](.*"].*"[OK]..!";
}
}
然后我们通过分析页面内容,将主体内容找出来,调用get_pic()实现图片的保存。
复制代码 代码如下:
//我们采集太平洋电脑网上一篇关于手机报道内容页的图片
$url = "http://gz.pconline.com.cn/321/3215791.html";
$content = file_get_contents($url);//获取网页内容
$preg = '#<div class="art_con">(.*)<div class="ivy620 ivy620Ex"></div>#iUs';
preg_match_all($preg, $content, $arr);
$cont = $arr[1][0];
get_pic($cont,'img/');
以上代码笔者亲测,可以采集图片,但是还有些场景没考虑进去,比如目标网站做了302多次跳转的,目标网站做了多种防采集的,留给喜欢折腾的同学去试试吧。
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
稳了!魔兽国服回归的3条重磅消息!官宣时间再确认!
昨天有一位朋友在大神群里分享,自己亚服账号被封号之后居然弹出了国服的封号信息对话框。
这里面让他访问的是一个国服的战网网址,com.cn和后面的zh都非常明白地表明这就是国服战网。
而他在复制这个网址并且进行登录之后,确实是网易的网址,也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情,因为以前都没有出现这样的情况,现在突然提示跳转到国服战网的网址,是不是说明了简体中文客户端已经开始进行更新了呢?
更新日志
- 凤飞飞《我们的主题曲》飞跃制作[正版原抓WAV+CUE]
- 刘嘉亮《亮情歌2》[WAV+CUE][1G]
- 红馆40·谭咏麟《歌者恋歌浓情30年演唱会》3CD[低速原抓WAV+CUE][1.8G]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[320K/MP3][193.25MB]
- 【轻音乐】曼托凡尼乐团《精选辑》2CD.1998[FLAC+CUE整轨]
- 邝美云《心中有爱》1989年香港DMIJP版1MTO东芝首版[WAV+CUE]
- 群星《情叹-发烧女声DSD》天籁女声发烧碟[WAV+CUE]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[FLAC/分轨][748.03MB]
- 理想混蛋《Origin Sessions》[320K/MP3][37.47MB]
- 公馆青少年《我其实一点都不酷》[320K/MP3][78.78MB]
- 群星《情叹-发烧男声DSD》最值得珍藏的完美男声[WAV+CUE]
- 群星《国韵飘香·贵妃醉酒HQCD黑胶王》2CD[WAV]
- 卫兰《DAUGHTER》【低速原抓WAV+CUE】
- 公馆青少年《我其实一点都不酷》[FLAC/分轨][398.22MB]
- ZWEI《迟暮的花 (Explicit)》[320K/MP3][57.16MB]