必应抓取蜘蛛爬虫概述Overview of Bing crawlers (user-agents)

必应抓取蜘蛛爬虫是我们优化网站在bing的表现时所需要了解的,而如果我们不熟悉的话,那么可能会限制部分蜘蛛的正常抓取。

Bing目前运营着五个主要的爬虫:

爬虫名称说明user-agents
BingbotBingbot 是我们的标准爬虫,可以处理我们每天的大部分爬虫需求。Bingbot 使用不同类型的用户代理字符串。Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/ Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) W.X.Y.Z Safari/537.36 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36  (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)   我们定期将网页渲染引擎更新为 Microsoft Edge 的最新稳定版本。因此,“WXYZ”将替换为我们正在使用的最新 Microsoft Edge 版本,例如“80.0.345.0”。
AdIdxBotAdIdxBot 是 Bing Ads 使用的爬网程序。AdIdxBot 抓取广告并跟踪这些广告中的网站以进行质量控制。就像 Bingbot 一样,AdIdxBot 也有“桌面”和“移动”变体。Mozilla/5.0 (compatible; adidxbot/2.0; +http://www.bing.com/bingbot.htm) Mozilla/5.0 (iPhone; CPU iPhone OS 7_0 like Mac OS X) AppleWebKit/537.51.1 (KHTML, like Gecko) Version/7.0 Mobile/11A465 Safari/9537.53 (compatible; adidxbot/2.0; +http://www.bing.com/bingbot.htm) Mozilla/5.0 (Windows Phone 8.1; ARM; Trident/7.0; Touch; rv:11.0; IEMobile/11.0; NOKIA; Lumia 530) like Gecko (compatible; adidxbot/2.0; +http://www.bing.com/bingbot.htm)
BingPreviewBingPreview 为 Bing 生成页面快照。您可以在此处找到有关 BingPreview 的更多详细信息https://blogs.bing.com/webmaster。请注意,BingPreview 有“桌面”和“移动”变体。Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/W.X.Y.Z Safari/537.36 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36  (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
MicrosoftPreviewMicrosoftPreview 生成 Microsoft 产品的页面快照。请注意,MicrosoftPreview 有“桌面”和“移动”变体。Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; MicrosoftPreview/2.0; +https://aka.ms/MicrosoftPreview) Chrome/W.X.Y.Z Safari/537.36 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36  (compatible; MicrosoftPreview/2.0; +https://aka.ms/MicrosoftPreview)

验证真实性

可以使用用户代理字符串识别Bing爬虫。但是,用户代理字符串很容易被伪造,因此并非每个带有这些用户代理字符串的请求都来自真正的Bing爬虫。要确定请求是否来自Bing爬虫,请查找用户代理字符串,但请记住,用户代理字符串可能被伪造。

抓取频率

要控制我们的爬虫与你的网站抓取频率,有两个选择:

  • 可以配置Robots.txt文件来告诉Bing爬虫如何抓取网站内容。
  • 使用Bing Webmaster Tools爬虫预设,可以使用抓取控制工具按小时控制抓取速度。

反馈问题

如果发现Bingbot或任何其他爬虫存在抓取问题,直接去bing官方反馈即可。

bing抓取是很频繁的,有时候我们会忽略很多的蜘蛛类型,看自己需要吧。

👋 感谢您的观看!

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享