宝塔面板根据访问协议头屏蔽字节跳动爬虫
5202
最近,字节跳动搜索引擎的爬虫疯狂爬取全网资源,导致一些小网站服务器不堪重负,严重的直接使网站宕机。
我们有很多方法可屏蔽掉爬虫,比如 robot.txt ,但是貌似字节跳动旗下的今日头条爬虫比较流氓,他不遵守这个!还有一个通过屏蔽IP的方式,但是一般爬虫的IP地址比较多,这个也挺麻烦。
这里站长图库介绍一种方法,有一定的效果,如下:
nginx在站点的设置,配置文件中 server{ } 中添加
#禁止爬虫工具的抓取 if ($http_user_agent ~* "Bytespider|YisouSpider") { return 403; }
注:Bytespider 为字节跳动爬虫的协议头
Apache:
在伪静态里设置 这里以thinkphp为例!
<IfModule mod_rewrite.c> RewriteEngine on RewriteCond %{REQUEST_FILENAME} !-d RewriteCond %{REQUEST_FILENAME} !-f RewriteRule ^(.*)$ index.php [L,E=PATH_INFO:$1] #禁止爬虫工具的抓取 RewriteCond %{HTTP_USER_AGENT} "^.*Bytespider.*|.*YisouSpider.*$" [NC] RewriteRule ^(.*)$ - [R=404,L] </IfModule>
以上,就是根据访问协议头屏蔽字节跳动爬虫的方法,希望能对大家有所帮助!
本文网址:https://www.zztuku.com/index.php/detail-7692.html
站长图库 - 宝塔面板根据访问协议头屏蔽字节跳动爬虫
申明:如有侵犯,请 联系我们 删除。
您还没有登录,请 登录 后发表评论!
提示:请勿发布广告垃圾评论,否则封号处理!!