聊聊node中怎么借助第三方开源库实现网站爬取功能

 2576

本篇文章给大家介绍一下node中借助第三方开源库轻松实现网站爬取功能的方法,希望对大家有所帮助!


聊聊node中怎么借助第三方开源库实现网站爬取功能


nodejs实现网站爬取功能

第三方库介绍

request 对网络请求的封装

cheerio node 版本的 jQuery

mkdirp 创建多层的文件夹目录

实现思路

通过request获取指定 url 内容

通过cheerio找到页面中跳转的路径(去重)

通过mkdirp创建目录

通过fs创建文件,将读取的内容写入

拿到没有访问的路径重复以上执行步骤

代码实现

  1. const fs = require("fs");
  2. const path = require("path");
  3. const request = require("request");
  4. const cheerio = require("cheerio");
  5. const mkdirp = require("mkdirp");
  6. // 定义入口url
  7. const homeUrl = "https://www.baidu.com";
  8. // 定义set存储已经访问过的路径,避免重复访问
  9. const set = new Set([homeUrl]);
  10. function grab(url) {
  11.   // 校验url规范性
  12.   if (!url) return;
  13.   // 去空格
  14.   url = url.trim();
  15.   // 自动补全url路径
  16.   if (url.endsWith("/")) {
  17.     url += "index.html";
  18.   }
  19.   const chunks = [];
  20.   // url可能存在一些符号或者中文,可以通过encodeURI编码
  21.   request(encodeURI(url))
  22.     .on("error", (e) => {
  23.       // 打印错误信息
  24.       console.log(e);
  25.     })
  26.     .on("data", (chunk) => {
  27.       // 接收响应内容
  28.       chunks.push(chunk);
  29.     })
  30.     .on("end", () => {
  31.       // 将相应内容转换成文本
  32.       const html = Buffer.concat(chunks).toString();
  33.       // 没有获取到内容
  34.       if (!html) return;
  35.       // 解析url
  36.       let { host, origin, pathname } = new URL(url);
  37.       pathname = decodeURI(pathname);
  38.       // 通过cheerio解析html
  39.       const $ = cheerio.load(html);
  40.       // 将路径作为目录
  41.       const dir = path.dirname(pathname);
  42.       // 创建目录
  43.       mkdirp.sync(path.join(__dirname, dir));
  44.       // 往文件写入内容
  45.       fs.writeFile(path.join(__dirname, pathname), html, "utf-8", (err) => {
  46.         // 打印错误信息
  47.         if (err) {
  48.           console.log(err);
  49.           return;
  50.         }
  51.         console.log(`[${url}]保存成功`);
  52.       });
  53.       // 获取到页面中所有a元素
  54.       const aTags = $("a");
  55.       Array.from(aTags).forEach((aTag) => {
  56.         // 获取到a标签中的路径
  57.         const href = $(aTag).attr("href");
  58.         // 此处可以校验href的合法或者控制爬去的网站范围,比如必须都是某个域名下的
  59.         // 排除空标签
  60.         if (!href) return;
  61.         // 排除锚点连接
  62.         if (href.startsWith("#")) return;
  63.         if (href.startsWith("mailto:")) return;
  64.         // 如果不想要保存图片可以过滤掉
  65.         // if (/\.(jpg|jpeg|png|gif|bit)$/.test(href)) return;
  66.         // href必须是入口url域名
  67.         let reg = new RegExp(`^https?:\/\/${host}`);
  68.         if (/^https?:\/\//.test(href) && !reg.test(href)) return;
  69.         // 可以根据情况增加更多逻辑
  70.         let newUrl = "";
  71.         if (/^https?:\/\//.test(href)) {
  72.           // 处理绝对路径
  73.           newUrl = href;
  74.         } else {
  75.           // 处理相对路径
  76.           newUrl = origin + path.join(dir, href);
  77.         }
  78.         // 判断是否访问过
  79.         if (set.has(newUrl)) return;
  80.         if (newUrl.endsWith("/") && set.has(newUrl + "index.html")) return;
  81.         if (newUrl.endsWith("/")) newUrl += "index.html";
  82.         set.add(newUrl);
  83.         grab(newUrl);
  84.       });
  85.     });
  86. }
  87. // 开始抓取
  88. grab(homeUrl);

总结

简单的网页爬虫就完成了,可以把homeUrl改成自己想要爬取的网站试试。


TAG标签:
本文网址:https://www.zztuku.com/index.php/detail-10473.html
站长图库 - 聊聊node中怎么借助第三方开源库实现网站爬取功能
申明:本文转载于《掘金社区》,如有侵犯,请 联系我们 删除。

评论(0)条

您还没有登录,请 登录 后发表评论!

提示:请勿发布广告垃圾评论,否则封号处理!!

    编辑推荐