PHP爬虫实例-4K壁纸爬取测试
所需积分 5 5249
PHP爬虫实例,4K壁纸爬取测试。本实例的目标网站是一个叫《彼岸网》的壁纸网站,使用技术是 QueryList(php爬虫库)。
只要爬取.clearfix li>a>img
元素里面的src
属性和alt
属性即可获得图片url和图片标题,实现代码如下
// 采集规则 $rules = [ // 表示 获取类型为.clearfix li a img 元素的 alt属性值 "title"=>[".clearfix li a img","alt"], // 表示 获取类型为.clearfix li a img 元素的 src属性值 "link"=>[".clearfix li a img","src"], ];
执行
// $url 要爬取的页面网站 $url = "https://pic.netbian.com/index_2.html"; // 'UTF-8','GB2312':设置编码格式 ,执行获取数据 $data = (new QueryList)->Query($url,$rules,'','UTF-8','GB2312')->data; // $data 是一个数组,爬虫获得的数据如下 [ { "title": "澶澶 灏濂 缁杈瀛 姹借溅4kㄦ极澹绾", "link": "/uploads/allimg/220702/224637-16567731978388.jpg" }, { "title": "浠濂充 搴 缇濂 椴 辩e缇4k缇濂冲绾", "link": "/uploads/allimg/220702/222610-1656771970e92c.jpg" }, { "title": "杩ㄧ濂 缃 妤 娓扮濂4k澹绾", "link": "/uploads/allimg/220702/222125-1656771685f559.jpg" }, ]
可以根据网址实现遍历爬取整个网站壁纸
第二页https://pic.netbian.com/index_2.html
第三页https://pic.netbian.com/index_3.html
依次类推
我们只需 动态变更网站$url
即可,爬网第一张后,$start + 1
开始爬取第二页,依次爬取,直到完成所有
$start = $start + 1; $url = "https://pic.netbian.com/4k/index_".$start.".html";
展开
您还没有登录,请 登录 后发表评论!
提示:请勿发布广告垃圾评论,否则封号处理!!