聊聊node中怎么借助第三方开源库实现网站爬取功能
2576
本篇文章给大家介绍一下node中借助第三方开源库轻松实现网站爬取功能的方法,希望对大家有所帮助!
nodejs实现网站爬取功能
第三方库介绍
request 对网络请求的封装
cheerio node 版本的 jQuery
mkdirp 创建多层的文件夹目录
实现思路
通过
request
获取指定 url 内容通过
cheerio
找到页面中跳转的路径(去重)通过
mkdirp
创建目录通过
fs
创建文件,将读取的内容写入拿到没有访问的路径重复以上执行步骤
代码实现
- const fs = require("fs");
- const path = require("path");
- const request = require("request");
- const cheerio = require("cheerio");
- const mkdirp = require("mkdirp");
- // 定义入口url
- const homeUrl = "https://www.baidu.com";
- // 定义set存储已经访问过的路径,避免重复访问
- const set = new Set([homeUrl]);
- function grab(url) {
- // 校验url规范性
- if (!url) return;
- // 去空格
- url = url.trim();
- // 自动补全url路径
- if (url.endsWith("/")) {
- url += "index.html";
- }
- const chunks = [];
- // url可能存在一些符号或者中文,可以通过encodeURI编码
- request(encodeURI(url))
- .on("error", (e) => {
- // 打印错误信息
- console.log(e);
- })
- .on("data", (chunk) => {
- // 接收响应内容
- chunks.push(chunk);
- })
- .on("end", () => {
- // 将相应内容转换成文本
- const html = Buffer.concat(chunks).toString();
- // 没有获取到内容
- if (!html) return;
- // 解析url
- let { host, origin, pathname } = new URL(url);
- pathname = decodeURI(pathname);
- // 通过cheerio解析html
- const $ = cheerio.load(html);
- // 将路径作为目录
- const dir = path.dirname(pathname);
- // 创建目录
- mkdirp.sync(path.join(__dirname, dir));
- // 往文件写入内容
- fs.writeFile(path.join(__dirname, pathname), html, "utf-8", (err) => {
- // 打印错误信息
- if (err) {
- console.log(err);
- return;
- }
- console.log(`[${url}]保存成功`);
- });
- // 获取到页面中所有a元素
- const aTags = $("a");
- Array.from(aTags).forEach((aTag) => {
- // 获取到a标签中的路径
- const href = $(aTag).attr("href");
- // 此处可以校验href的合法或者控制爬去的网站范围,比如必须都是某个域名下的
- // 排除空标签
- if (!href) return;
- // 排除锚点连接
- if (href.startsWith("#")) return;
- if (href.startsWith("mailto:")) return;
- // 如果不想要保存图片可以过滤掉
- // if (/\.(jpg|jpeg|png|gif|bit)$/.test(href)) return;
- // href必须是入口url域名
- let reg = new RegExp(`^https?:\/\/${host}`);
- if (/^https?:\/\//.test(href) && !reg.test(href)) return;
- // 可以根据情况增加更多逻辑
- let newUrl = "";
- if (/^https?:\/\//.test(href)) {
- // 处理绝对路径
- newUrl = href;
- } else {
- // 处理相对路径
- newUrl = origin + path.join(dir, href);
- }
- // 判断是否访问过
- if (set.has(newUrl)) return;
- if (newUrl.endsWith("/") && set.has(newUrl + "index.html")) return;
- if (newUrl.endsWith("/")) newUrl += "index.html";
- set.add(newUrl);
- grab(newUrl);
- });
- });
- }
- // 开始抓取
- grab(homeUrl);
总结
简单的网页爬虫就完成了,可以把homeUrl改成自己想要爬取的网站试试。
本文网址:https://www.zztuku.com/index.php/detail-10473.html
站长图库 - 聊聊node中怎么借助第三方开源库实现网站爬取功能
申明:本文转载于《掘金社区》,如有侵犯,请 联系我们 删除。
您还没有登录,请 登录 后发表评论!
提示:请勿发布广告垃圾评论,否则封号处理!!