1 | Nginx被爬虫的服务器,会在某个时间点CPU占用骤增, 不同时间段CPU占用较高(也可能会出现内存溢出等问题)。如果服务器有web业务,那么基本可以确定被爬虫了... |
反爬虫
首先对爬虫IP进行屏蔽
1 | 策略: 通过awk筛选日志,找出访问量较高的可以IP地址进行屏蔽。 |
Nginx判断UA处理反爬虫
1 | 这个时候就有充足的时间通过一些手段进行反爬虫处理了... |
将下面的if语句放在nginx配置文件的server或者location代码区域内【不能放在http区域】。
1 | #禁止指定UA及UA为空的访问(常见UA列表详见附录) |
生效
1 | 添加此配置之后,验证语法:nginx -t |
测试
1 | curl -I -A "spiderman" https://xx.xxx.com |
自行筛选屏蔽UA
1 | log筛选命令: |
附录:常见的爬虫UA
常见搜索引擎爬虫的User-Agent
1 | 百度爬虫 |
网络上常见的垃圾UA列表
1 | 内容采集: |
参考:运维之美
- 本文作者: GaryWu
- 本文链接: https://garywu520.github.io/2018/06/12/Nginx反爬虫/
- 版权声明: 本博客所有文章除特别声明外,均采用 MIT 许可协议。转载请注明出处!