首页 > 图灵资讯 > 技术篇>正文

识别User Agent屏蔽一些Web爬虫防采集

2023-06-01 09:52:32

识别User Agent屏蔽了一些Web爬虫防收集

from:https://jamesqi.com/%E5%8D%9A%E5%AE%A2/%E8%AF%86%E5%88%ABUser_Agent%E5%B1%8F%E8%94%BD%E4%B8%80%E4%BA%99bweb%E7%88%AC%E8%99%AB%99%98%B2%E9%87%87%E9%9%96%

  自从我们成为一个网站以来,大量的爬虫自动捕获我们的内容一直是一个问题,预防收集是一个长期的任务,这是我五年前的博客文章:“Apache设置屏蔽IP地址和URL网站禁止收集”,此外,您还可以识别User Agent在Apache中设置的代码例子如下:

RewriteCond %{HTTP_USER_AGENT} ^(.*)(DTS\sagent|Creative\sautoupdate|httrack|yisouspider|SemrushBot)(.*)$RewriteRule .* - [F,L]

  屏蔽User Agent为空代码:

RewriteCond %{HTTP_USER_AGENT} ^$RewriteRule .* - [F]

  屏蔽Referer和User Agent都是空的代码:

RewriteCond %{HTTP_REFERER} ^$ [NC]RewriteCond %{HTTP_USER_AGENT} ^$ [NC]RewriteRule .* - [F]

  以下是一些常见的收集软件或机器爬虫的User,可以屏蔽 列出Agent的特征关键词供参考:

  • User-Agent
  • DTS Agent
  • HttpClient
  • Owlin
  • Kazehakase
  • Creative AutoUpdate
  • HTTrack
  • YisouSpider
  • baiduboxapp
  • Python-urllib
  • python-requests
  • SemrushBot
  • SearchmetricsBot
  • MegaIndex
  • Scrapy
  • EMail Exractor
  • 007ac9
  • ltx71

  其他也可以考虑屏蔽:

  • Mail.RU_Bot:https://www.tulingxueyuan.cn/d/file/p/20230601/t00b0yjh1ze Commons-HttpClient
  • Apache-HttpClient
  • BDCbot
  • ECCP
  • Nutch
  • cr4nk
  • MJ12bot
  • MOT-MPx220
  • Y!OASIS/TEST
  • libwww-perl

  主流搜索引擎的特点一般不屏蔽:

  • Google
  • Baidu
  • Yahoo
  • Slurp
  • yandex
  • YandexBot
  • MSN

  不要轻易屏蔽一些常见的浏览器或通用代码:

  • FireFox
  • Apple
  • PC
  • Chrome
  • Microsoft
  • Android
  • Mail
  • Windows
  • Mozilla
  • Safar
  • Macintosh

上一篇 tensorflow实现svm iris二分类——本质上在使用梯度下降法求解线性回归(loss是定制的而已)
下一篇 gle set of weights. In Fig. 6, we show our model can perform region-based retrieval and referring ba

文章素材均来源于网络,如有侵权,请联系管理员删除。