爬取速率是指谷歌机器人访问网站的速率——即它每秒/分钟能向主机发送多少请求而不使服务器超载。新内容和更新内容的索引速度取决于谷歌如何设定这个频率,对于大型网站,爬取预算的实际使用情况也很重要。
爬行评分、爬行预算——基础知识
爬行速率是一个技术限制:谷歌机器人在发现性能下降(响应时间增加或5xx错误)之前,能向主机发出的最大并行连接和请求次数。这是一个动态参数——谷歌不断调整参数,测试服务器对负载的响应。
而爬取预算则是谷歌在特定时间内能抓取且希望抓取的域名中URL数量、调用结果、爬取速率(服务器能“处理”多少)和爬取需求(谷歌回报内容的盈利能力)。实际上,预算问题出现在拥有数十万甚至数百万子页面的网站,这些网站很容易将资源“生成”重复、筛选和无关页面。
最重要的区别——一眼就能看到
| 元素 | 爬行速率 | Crawl budget – budżet URL |
|---|---|---|
| 定义 | 单位时间内对主机的最大 Googlebot 请求次数。 | 谷歌在特定时间内能够抓取并希望抓取的页面数量。 |
| 约束 | 服务器性能、错误、响应时间。 | URL的重要性与质量、结构、重复。 |
| 谁受影响最深 | 服务器资源有限(容易过载)。 | 大型、广泛的网站(电子商务、门户网站)。 |
谷歌如何逐步设定爬行速率
谷歌依赖两种机制:爬行速率限制(服务器能承受的速率)和爬行需求(扫描的需求)。当服务器响应迅速且产生很少的5xx错误时,爬取速率限制会增加;当响应时间增加或出现拥堵时,爬取速率限制会降低。
爬取需求取决于内容的受欢迎程度和重要性(链接、域名权威、用户信号)以及网站变更的频率。网站上经常更新的版块(如新闻、博客、变动的电子商务优惠)被优先考虑,访问频率高于静态信息子页面。
影响爬行频率的因素
最强的爬行阻碍是服务器性能:响应缓慢、加载时间突然激增和5xx错误会让我们立即限制爬行速度,以免“增加”负载。另一方面,快速托管、合理的缓存、CDN和轻量级代码使Googlebot能够安全地增加请求数量并更频繁刷新重要URL。
同样非常重要的是:网站的受欢迎程度(外部链接、域名权威)、良好的信息架构和强大的内部链接,使Googlebot能够轻松访问新的关键子页面。过多的参数、重复、过滤或质量低劣且内容薄会浪费爬取预算,因为机器人会“停留”低价值地址,降低了真正想推送的页面。
我们在实践中能做什么
从2024年开始,Search Console不再有手动爬取速率滑块,因此我们主要通过技术和结构优化间接发挥实际影响。其基础是快速、稳定的服务器(TTFB和平均响应时间尽量低)、5xx错误限制,以及对特别繁重资源(如大型图形、脚本)的控制——如有必要,如果这些资源对理解内容不关键,我们可以在robots.txt中屏蔽。
在Search Console的“爬取统计”报告中,我们可以看到每日请求量、平均响应时间和检索资产类型,这些都能帮助我们发现爬取率下降和谷歌访问过少的页面。接下来,值得组织“垃圾”URL(参数、重复、测试子页面),改进XML网站地图,并保持逻辑性且尽可能简单的导航结构,使最重要的地址距离首页只需1-2次点击,并且能定期获得爬取预算中的“部分”。
👋 感谢您的观看!