搜索爬虫“Bingbot”不遵守robots.txt规则过度抓取网站的解决方法

Bingbot是Bing用于抓取或“蜘蛛”网络的爬虫的名称。Bingbot的工作是在Internet上的网站上查找新的和更新的页面，以便对其进行处理以进行索引。抓取网站时，Bingbot会查看robots.txt以获取网站所有者的特殊说明。Bingbot尊重robots.txt指令，包括crawl-delay:设置，并且在没有crawl-delay的情况下，尊重来自网站管理员在爬行控制功能中的输入。

一般来说，Bingbot可以很好地确定它应该多频繁地访问网站上的页面，同时考虑robots.txt和抓取控制规则和提示。我们称之为“爬行礼貌”。但是，仍然可能存在觉得Bingbot不够礼貌并且访问页面而不是工作（过度爬网）的情况。

如果认为Bingbot过度抓取网站或不遵守robots.txt规则，可以按照以下步骤操作：

验证看到的机器人流量实际上来自有效的Bingbot服务器。为此，不仅可以查看User-Agent字符串（任何人都可以轻松欺骗该字符串），还可以查看IP地址并使用验证Bingbot工具来获得结论；https://www.bing.com/toolbox/verify-bingbot
一旦确认这涉及真正的Bingbot流量，可以按如下方式减少爬虫流量（如果还没有这样做的话）；
- 使用爬行控制功能在繁忙时间降低爬行速度；
- 如果这还不够，请在robots.txt中添加crawl-delay:指令：Bing支持从1到20的整数值。每个数字映射到我们划分24小时抓取周期的时间片的长度（以秒为单位）.在这种情况下，值1意味着允许我们在每个1秒的时间片上最多发送一个请求；这很慢，但对于较小的站点来说仍然足够。20非常慢，这意味着在24小时的爬网周期中，每20秒的时间片只允许一个请求；
如果执行了以上的步骤，但问题仍然存在，可以联系Bing网站管理员支持。填写必填字段并在“遇到什么类型的问题？”下拉菜单中，选择“Under-Crawling or Over-Crawling query”并描述遇到的问题。可以在24-48小时内收到回复。当报告过度抓取问题时，支持团队会要求在下一步中提供服务器日志样本，以显示一段时间内Bingbot的活动，因此请确保准备好这些样本。

👋 感谢您的观看！

版权声明 1、文章版权归作者所有，未经允许请勿转载。
2、本站所有文章，如无特殊说明或标注，均为本站原创发布。任何在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们邮箱：526009505@qq.com进行处理。
3、咨询请联系QQ：526009505

THE END

优化技术
# SEO优化

搜索爬虫“Bingbot”不遵守robots.txt规则过度抓取网站的解决方法

如果认为Bingbot过度抓取网站或不遵守robots.txt规则，可以按照以下步骤操作：

DuckDuckGo搜索引擎使用方法

网站出现403 Forbidden错误原因以及解决方法

欢迎关注[鹿泽笔记]微信公众号

优良中差五个等级是怎么分的？

小红书营销策略流量分发逻辑（CES评分流量分发模型）解析

深圳SEO优化技术如何对博客网站进行调整

seo网页排名下降的原因是什么？

自媒体平台图片尺寸汇总

1688关键词优化四大步骤，1688怎么优化产品排名？

视频直播切片剪辑软件哪个好用？