PHP爬虫实例-4K壁纸爬取测试
所需积分 5 6884

PHP爬虫实例,4K壁纸爬取测试。本实例的目标网站是一个叫《彼岸网》的壁纸网站,使用技术是 QueryList(php爬虫库)。
只要爬取.clearfix li>a>img
元素里面的src
属性和alt
属性即可获得图片url和图片标题,实现代码如下
- // 采集规则
- $rules = [
- // 表示 获取类型为.clearfix li a img 元素的 alt属性值
- "title"=>[".clearfix li a img","alt"],
- // 表示 获取类型为.clearfix li a img 元素的 src属性值
- "link"=>[".clearfix li a img","src"],
- ];
执行
- // $url 要爬取的页面网站
- $url = "https://pic.netbian.com/index_2.html";
- // 'UTF-8','GB2312':设置编码格式 ,执行获取数据
- $data = (new QueryList)->Query($url,$rules,'','UTF-8','GB2312')->data;
- // $data 是一个数组,爬虫获得的数据如下
- [
- { "title": "澶澶 灏濂 缁杈瀛 姹借溅4kㄦ极澹绾", "link": "/uploads/allimg/220702/224637-16567731978388.jpg" },
- { "title": "浠濂充 搴 缇濂 椴 辩e缇4k缇濂冲绾", "link": "/uploads/allimg/220702/222610-1656771970e92c.jpg" },
- { "title": "杩ㄧ濂 缃 妤 娓扮濂4k澹绾", "link": "/uploads/allimg/220702/222125-1656771685f559.jpg" },
- ]
可以根据网址实现遍历爬取整个网站壁纸
第二页https://pic.netbian.com/index_2.html
第三页https://pic.netbian.com/index_3.html
依次类推
我们只需 动态变更网站$url
即可,爬网第一张后,$start + 1
开始爬取第二页,依次爬取,直到完成所有
- $start = $start + 1;
- $url = "https://pic.netbian.com/4k/index_".$start.".html";
展开
您还没有登录,请 登录 后发表评论!
提示:请勿发布广告垃圾评论,否则封号处理!!