找回密码
 立即注册
查看: 892|回复: 7

AI爬虫大规模爬取网站内容,导致网站打不开,附解决方案

[复制链接]

1

主题

2

回帖

13

积分

新手上路

积分
13
孤僻成性3p 发表于 2025-5-9 10:35:59 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
AI工具的爬虫疯狂抓取网站内容,导致网站一直加载中,就是无法正常访问(看日志才发现早就被爬了,只是网站没有挂才没发现), 搜解决方法的时候看到了这篇帖子,跟着进行了操作,同时使用豆包AI进行分析,结合豆包给出的方案一起使用,这里分享下。



方案一先是通过宝塔面板 Nginx 免费防火墙插件的 User-Agent 过滤了 AI 爬虫,参考了@雨天榕树  大佬在评论区分享的资料链接:https://www.52txr.cn/2025/banaicurl.html
有我根据自身情况新增的爬虫


  1. (ScrapyIAwarioBotIAI2Bot|Ai2Bot-Dolma|aiHitBot|anthropic-ai|ChatGPT-User|Claude-Web|ClaudeBot|cohere-ai|cohere-training-data-crawler|Diffbot|DuckAssistBot|GPTBot|img2dataset|OAI-SearchBot|Perplexity-User|PerplexityBot|PetalBot|Scrapy|SemrushBot-OCOB|TikTokSpider|VelenPublicWebCrawler|YouBot)
复制代码
又是用 robots.txt 限制 AI 爬虫和百度的爬取频率


  1. # 百度蜘蛛:允许访问,但限制抓取间隔
  2. User-Agent: Baiduspider
  3. Crawl-delay: 5

  4. # AI爬虫及特殊工具:禁止访问整个网站
  5. User-Agent: Scrapy
  6. Disallow: /
  7. User-Agent: AwarioBotI
  8. Disallow: /
  9. User-agent: SemrushBot-BA
  10. Disallow: /
  11. User-agent: SemrushBot-SI
  12. Disallow: /
  13. User-agent: SemrushBot-SWA
  14. Disallow: /
  15. User-agent: SplitSignalBot
  16. Disallow: /
  17. User-agent: SemrushBot-OCOB
  18. Disallow: /
  19. User-agent: SemrushBot-FT
  20. Disallow: /
  21. User-Agent: AI2Bot
  22. Disallow: /
  23. User-Agent: Ai2Bot-Dolma
  24. Disallow: /
  25. User-Agent: aiHitBot
  26. Disallow: /
  27. User-Agent: Amazonbot
  28. Disallow: /
  29. User-Agent: anthropic-ai
  30. Disallow: /
  31. User-Agent: Applebot
  32. Disallow: /
  33. User-Agent: Applebot-Extended
  34. Disallow: /
  35. User-Agent: Brightbot 1.0
  36. Disallow: /
  37. User-Agent: Bytespider
  38. Disallow: /
  39. User-Agent: CCBot
  40. Disallow: /
  41. User-Agent: ChatGPT-User
  42. Disallow: /
  43. User-Agent: Claude-Web
  44. Disallow: /
  45. User-Agent: ClaudeBot
  46. Disallow: /
  47. User-Agent: cohere-ai
  48. Disallow: /
  49. User-Agent: cohere-training-data-crawler
  50. Disallow: /
  51. User-Agent: Cotoyogi
  52. Disallow: /
  53. User-Agent: Crawlspace
  54. Disallow: /
  55. User-Agent: Diffbot
  56. Disallow: /
  57. User-Agent: DuckAssistBot
  58. Disallow: /
  59. User-Agent: FacebookBot
  60. Disallow: /
  61. User-Agent: Factset_spyderbot
  62. Disallow: /
  63. User-Agent: FirecrawlAgent
  64. Disallow: /
  65. User-Agent: FriendlyCrawler
  66. Disallow: /
  67. User-Agent: Google-Extended
  68. Disallow: /
  69. User-Agent: GoogleOther
  70. Disallow: /
  71. User-Agent: GoogleOther-Image
  72. Disallow: /
  73. User-Agent: GoogleOther-Video
  74. Disallow: /
  75. User-Agent: GPTBot
  76. Disallow: /
  77. User-Agent: iaskspider/2.0
  78. Disallow: /
  79. User-Agent: ICC-Crawler
  80. Disallow: /
  81. User-Agent: ImagesiftBot
  82. Disallow: /
  83. User-Agent: img2dataset
  84. Disallow: /
  85. User-Agent: imgproxy
  86. Disallow: /
  87. User-Agent: ISSCyberRiskCrawler
  88. Disallow: /
  89. User-Agent: Kangaroo Bot
  90. Disallow: /
  91. User-Agent: Meta-ExternalAgent
  92. Disallow: /
  93. User-Agent: Meta-ExternalFetcher
  94. Disallow: /
  95. User-Agent: NovaAct
  96. Disallow: /
  97. User-Agent: OAI-SearchBot
  98. Disallow: /
  99. User-Agent: omgili
  100. Disallow: /
  101. User-Agent: omgilibot
  102. Disallow: /
  103. User-Agent: Operator
  104. Disallow: /
  105. User-Agent: PanguBot
  106. Disallow: /
  107. User-Agent: Perplexity-User
  108. Disallow: /
  109. User-Agent: PerplexityBot
  110. Disallow: /
  111. User-Agent: PetalBot
  112. Disallow: /
  113. User-Agent: Scrapy
  114. Disallow: /
  115. User-Agent: SemrushBot-OCOB
  116. Disallow: /
  117. User-Agent: SemrushBot-SWA
  118. Disallow: /
  119. User-Agent: Sidetrade indexer bot
  120. Disallow: /
  121. User-Agent: TikTokSpider
  122. Disallow: /
  123. User-Agent: Timpibot
  124. Disallow: /
  125. User-Agent: VelenPublicWebCrawler
  126. Disallow: /
  127. User-Agent: Webzio-Extended
  128. Disallow: /
  129. User-Agent: YouBot
  130. Disallow: /
复制代码
结果发现还是打不开
方案二(一起使用)豆包给的方案:宝塔面板全局的 NGINX 配置文件中添加(在 http { 内添加)


  1. # 1. 定义百度蜘蛛的User-Agent匹配规则(必须在http块内)
  2.     map $http_user_agent $is_baidu_spider {
  3.         default 0;
  4.         "~*Baiduspider" 1;  # 匹配百度蜘蛛的 User-Agent
  5.     }


  6.     # 2. 定义限流区域(限制百度蜘蛛的请求频率)
  7.      limit_req_zone $binary_remote_addr$is_baidu_spider zone=baidu_spider:10m rate=100r/m;
  8.     # rate=300r/m:每个IP每分钟最多300次请求(可根据服务器性能调整)
复制代码
然后到网站配置规则里添加(在 server { 内添加)
  1. # ------------------------ 缩略图专用优化(匹配完整路径) ------------------------
  2.     # 匹配 /_data/i/upload/ 目录下的所有图片文件(含时间子目录,如 /2024/08/08/)
  3.     location ~* ^/_data/i/upload/.*\.(jpg|jpeg|png|webp|avif|heic|heif)$ {
  4.         # 强缓存1年(CDN/浏览器均可缓存)
  5.         add_header Cache-Control "public, max-age=31536000";
  6.         # 兼容旧浏览器(30天缓存)
  7.         expires 30d;
  8.         # 关闭缩略图访问日志(减少磁盘IO)
  9.         access_log /dev/null;
  10.         # 继承全局防盗链规则(非法 Referer 已被拦截,无需重复判断)
  11.     }
  12.    
  13.    
  14.     # ------------------------ AI 爬虫与原图保护 ------------------------
  15.     # 定义需拦截的 User-Agent(AI 爬虫 + 恶意工具)
  16.     set $block_ua 0;
  17.     if ($http_user_agent ~* "(HTTrack|Apache-HttpClient|harvest|audit|dirbuster|pangolin|nmap|sqln|hydra|Parser|libwww|BBBike|sqlmap|w3af|owasp|Nikto|fimap|havij|zmeu|BabyKrokodil|netsparker|httperf|SF|AI2Bot|Ai2Bot-Dolma|aiHitBot|ChatGPT-User|ClaudeBot|cohere-ai|cohere-training-data-crawler|Diffbot|DuckAssistBot|GPTBot|img2dataset|OAI-SearchBot|Perplexity-User|PerplexityBot|Scrapy|TikTokSpider|VelenPublicWebCrawler)") {
  18.         set $block_ua 1;
  19.     }

  20.     # 放行合法搜索引擎(百度、谷歌等)
  21.     if ($http_user_agent ~* "(Baiduspider|Googlebot|bingbot|YandexBot|Sogou web spider|Bytespider)") {
  22.         set $block_ua 0;
  23.     }

  24.     # 针对原图目录(/upload/)强化拦截(仅拦截恶意 UA,不影响正常用户)
  25.     location ~* ^/upload/ {
  26.         if ($block_ua = 1) {
  27.             return 403;
  28.         }
  29.         try_files $uri $uri/ =404;
  30.     }
  31.    
  32.    
  33.     # ------------------------ 对动态页面限流(仅百度蜘蛛受影响) ------------------------
  34.     location ~* ^/(picture.php|index.php) {
  35.         # 直接应用限流(仅当 $is_baidu_spider=1 时,限流生效)
  36.         limit_req zone=baidu_spider burst=20 nodelay;

  37.         # 原有 PHP 处理逻辑(如 include enable-php-84.conf)
  38.         include enable-php-84.conf;
  39.     }
  40.    

  41.     # ------------------------ 其他配置 ------------------------   
复制代码
缩略图什么的是我网站使用的,根据实际情况修改。
方案三拉黑搜素引擎和 AI 蜘蛛的 IP 段(会导致网站内容不被收录)网站缓过来了在解除试下
回复

使用道具 举报

0

主题

1

回帖

12

积分

新手上路

积分
12
bhtl 发表于 2025-5-9 10:36:21 | 显示全部楼层
技术的大佬可以分析下方案二会不会对网站有什么不好的影响
回复 支持 反对

使用道具 举报

0

主题

2

回帖

14

积分

新手上路

积分
14
dqm5384 发表于 2025-5-9 10:36:29 | 显示全部楼层
屏蔽下AI蜘蛛
回复 支持 反对

使用道具 举报

0

主题

2

回帖

14

积分

新手上路

积分
14
mahuman 发表于 2025-5-9 10:36:38 | 显示全部楼层
一律按CC处理,60秒访问超40次,拉黑IP封3600秒,解封后再次触发,封禁自动叠加
回复 支持 反对

使用道具 举报

0

主题

1

回帖

12

积分

新手上路

积分
12
sinalook 发表于 2025-5-9 10:36:46 | 显示全部楼层
网站弄成内部私密站,相当于知识星球,会员才可以看,就解决ai抓取问题了
回复 支持 反对

使用道具 举报

1

主题

2

回帖

17

积分

新手上路

积分
17
hijacker 发表于 2025-5-9 10:36:53 | 显示全部楼层
回复 支持 反对

使用道具 举报

0

主题

1

回帖

12

积分

新手上路

积分
12
limao100 发表于 2025-5-9 10:37:01 | 显示全部楼层
维基百科都扛不住了
回复 支持 反对

使用道具 举报

11

主题

10

回帖

131

积分

注册会员

积分
131
湖光倒影 发表于 2025-5-9 10:37:10 | 显示全部楼层
为分享干货点赞!我都是直接封IP,很多ai都是不讲武德,模仿用户访问,太损了。
回复 支持 反对

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies

本版积分规则

Archiver|手机版|小黑屋|IDCeve

GMT+8, 2025-11-4 17:35 , Processed in 0.046568 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表