搜索爬虫“Bingbot”不遵守robots.txt规则过度抓取网站的解决方法

Bingbot是Bing用于抓取或“蜘蛛”网络的爬虫的名称。Bingbot的工作是在Internet上的网站上查找新的和更新的页面,以便对其进行处理以进行索引。抓取网站时,Bingbot会查看robots.txt以获取网站所有者的特殊说明。Bingbot尊重robots.txt指令,包括crawl-delay:设置,并且在没有crawl-delay的情况下,尊重来自网站管理员在爬行控制功能中的输入。

一般来说,Bingbot可以很好地确定它应该多频繁地访问网站上的页面,同时考虑robots.txt和抓取控制规则和提示。我们称之为“爬行礼貌”。但是,仍然可能存在觉得Bingbot不够礼貌并且访问页面而不是工作(过度爬网)的情况。

如果认为Bingbot过度抓取网站或不遵守robots.txt规则,可以按照以下步骤操作:

  • 验证看到的机器人流量实际上来自有效的Bingbot服务器。为此,不仅可以查看User-Agent字符串(任何人都可以轻松欺骗该字符串),还可以查看IP地址并使用验证Bingbot工具来获得结论;https://www.bing.com/toolbox/verify-bingbot
  • 一旦确认这涉及真正的Bingbot流量,可以按如下方式减少爬虫流量(如果还没有这样做的话);
    • 使用爬行控制功能在繁忙时间降低爬行速度;
    • 如果这还不够,请在robots.txt中添加crawl-delay:指令:Bing支持从1到20的整数值。每个数字映射到我们划分24小时抓取周期的时间片的长度(以秒为单位).在这种情况下,值1意味着允许我们在每个1秒的时间片上最多发送一个请求;这很慢,但对于较小的站点来说仍然足够。20非常慢,这意味着在24小时的爬网周期中,每20秒的时间片只允许一个请求;
  • 如果执行了以上的步骤,但问题仍然存在,可以联系Bing网站管理员支持。填写必填字段并在“遇到什么类型的问题?”下拉菜单中,选择“Under-Crawling or Over-Crawling query”并描述遇到的问题。可以在24-48小时内收到回复。当报告过度抓取问题时,支持团队会要求在下一步中提供服务器日志样本,以显示一段时间内Bingbot的活动,因此请确保准备好这些样本。

👋 感谢您的观看!

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享