识别User Agent屏蔽一些Web爬虫防采集

2023-06-01 09:52:32

识别User Agent屏蔽了一些Web爬虫防收集

from:https://jamesqi.com/%E5%8D%9A%E5%AE%A2/%E8%AF%86%E5%88%ABUser_Agent%E5%B1%8F%E8%94%BD%E4%B8%80%E4%BA%99bweb%E7%88%AC%E8%99%AB%99%98%B2%E9%87%87%E9%9%96%

　　自从我们成为一个网站以来，大量的爬虫自动捕获我们的内容一直是一个问题，预防收集是一个长期的任务，这是我五年前的博客文章：“Apache设置屏蔽IP地址和URL网站禁止收集”，此外，您还可以识别User Agent在Apache中设置的代码例子如下：

RewriteCond %{HTTP_USER_AGENT} ^(.*)(DTS\sagent|Creative\sautoupdate|httrack|yisouspider|SemrushBot)(.*)$RewriteRule .* - [F,L]

　　屏蔽User Agent为空代码：

RewriteCond %{HTTP_USER_AGENT} ^$RewriteRule .* - [F]

　　屏蔽Referer和User Agent都是空的代码:

RewriteCond %{HTTP_REFERER} ^$ [NC]RewriteCond %{HTTP_USER_AGENT} ^$ [NC]RewriteRule .* - [F]

　　以下是一些常见的收集软件或机器爬虫的User，可以屏蔽列出Agent的特征关键词供参考：

User-Agent
DTS Agent
HttpClient
Owlin
Kazehakase
Creative AutoUpdate
HTTrack
YisouSpider
baiduboxapp
Python-urllib
python-requests
SemrushBot
SearchmetricsBot
MegaIndex
Scrapy
EMail Exractor
007ac9
ltx71

　　其他也可以考虑屏蔽：

Mail.RU_Bot：https://www.tulingxueyuan.cn/d/file/p/20230601/t00b0yjh1ze Commons-HttpClient
Apache-HttpClient
BDCbot
ECCP
Nutch
cr4nk
MJ12bot
MOT-MPx220
Y!OASIS/TEST
libwww-perl

　　主流搜索引擎的特点一般不屏蔽：

Google
Baidu
Yahoo
Slurp
yandex
YandexBot
MSN

　　不要轻易屏蔽一些常见的浏览器或通用代码：

FireFox
Apple
PC
Chrome
Microsoft
Android
Mail
Windows
Mozilla
Safar
Macintosh

19908451513

467805942@qq.com

识别User Agent屏蔽一些Web爬虫防采集