Google爬虫如何工作,Googlebot如何影响SEO?

如果人们负责索引页面,谁知道会产生什么结果呢,但是有那么多的页面需要抓取,也许我们现在都在谷歌工作。幸运或不幸,机器人对此负责——准确地说是谷歌机器人。它们会自动发现、扫描和索引数十亿个网页,以便在搜索结果中提供给用户。Googlebot本身是主要的爬虫,就像一个研究人员,使用先进的算法来分析页面的内容、结构和质量。

从头开始的Googlebot–Google爬虫的特征和类型

Googlebot,通常也称为爬虫或蜘蛛,是搜索生态系统中最重要的元素之一。它使用不同类型的客户端——Googlebot不是一个单一的单元——它是一支由负责网站定位的小型机器人组成的团队。其中,有两个最重要的:

  • Googlebot桌面–使用台式电脑充当互联网用户。
  • Googlebot智能手机–“充当”典型的手机用户。

这两种类型的抓取工具在robots.txt文件中都遵循相同的指令,这意味着无法有选择地定位Googlebot智能手机或Googlebot桌面版和robots.txt。

然而,谷歌提供了更多的服务,为了让用户对它们感到满意,这家公司还配备了额外的机器人,专门从事不同的任务。以下列表将对此事进行一些阐明:

Googlebot 类型目的描述
适用于智能手机的 Googlebot在移动设备上模拟用户移动优先索引基础;对于移动可见性至关重要
谷歌机器人电脑模拟桌面用户补充桌面扫描
Googlebot 图片收集图像将图像索引到图像搜索引擎
谷歌机器人视频收集视频为视频内容编制索引
Googlebot 新闻信息内容的收集为 Google 新闻编入索引文章
其他(例如,对于 CSS/JS)帮助下载渲染页面所需的文件

在大多数情况下,Google主要将内容的移动版本编入索引,因此大多数扫描请求将使用移动爬虫发出,少数扫描请求将使用桌面爬虫发出。这是因为移动优先索引政策在2023年和2024年初全面实施。

谷歌机器人如何工作?通过索引优化排名

为了使网站出现在SERP中,它必须经历一个复杂的三步过程,该过程部分由Googlebot执行。这些步骤是爬网、索引和排名。

在第一个页面上,机器人在网络上搜索新的和更新的页面。它们主要通过分析已知网站上遇到的链接来发现URL。识别出新字符串后,Googlebot就会开始索引编制过程。第一步是检查robots.txt网站文件,其中包含有关算法可以访问哪些地址的指令。谷歌试图以尽可能类似于典型用户访问的方式模拟网站。在渲染过程中,机器人会分析文本内容、关键字、标题标签和alt属性,以确定页面的主题和上下文。因此,Googlebot会“充当”移动或桌面用户来收集所有必要的信息。

算法使用额外的聚类扩展其映射,其中包括最能代表给定选定关键短语的页面。但是,应该记住,机器人的活动对谷歌来说是宝贵的资源——因此计算机可以处理的数据存在一定的限制。HTML文件或其他受支持的文本文件的最大大小为15MB。下一步是什么?即使还有大量数据需要处理,机器人也会继续前进。

最后一步是显示搜索结果。当用户输入查询时,Google会在其索引中搜索匹配的页面,并显示它认为最相关的页面。SERP结果的创建是一个非常广泛的话题,在完全不同的时代。

机器人的访问管理,即算法和索引

幸运的是,我们并非完全没有防御能力。首先,我们有一个robots.txt文件可供使用,它是管理机器人访问网站的基本工具。我们可以键入两种主要类型的命令——允许和不允许。

用户代理:*
允许:

这意味着访问域的机器人可以扫描所有子页面。诚然,这条规则不是强制性的——网站默认允许所有机器人进入。

用户代理:Googlebot
不允许:/category

此指令意味着扫描机器人不会考虑/category中的页面。在/标签后留空格会导致机器人暂停对整个站点的访问。

阻止特定页面索引的另一种方法是在页面的<head>部分中使用noindex元标记。它告诉搜索引擎不要为相关网站编制索引,因此不会出现在搜索结果中。

robots.txt中的阻止问题

即使我们用robots.txt文件锁定页面,它仍然可以被索引。如何?尽管Google通常遵循配置中包含的指令,但当其他人创建指向被阻止子页面的链接时,此阻止将不再有效。机器人不会执行扫描请求,但它确实能够为其编制索引。然后,它基于来自其他来源的信息,通向上述地址的链接位于这些来源。可以尝试解决这个问题——放置在链接的<a>标签中的nofollow属性建议机器人不要追踪给定的链接。然而,这对它们来说只是一个暗示——它们会做它们认为正确的事情。

那么应该记住什么呢?简而言之-当想要禁止机器人进入网站时,Disallow功能(在robots.txt文件中)很有用。例如,在阻止管理面板时,它效果很好。重要的是,正如我们提到的,这并不能保证该地址不会出现在搜索结果中(它之前可能已被索引)。当我们不希望给定的子页面出现在SERP中,但希望其内容由机器人处理时,noindex属性(用于<head>部分)很有用——例如,它可以是隐私政策或感谢页面。

如何影响和分析机器人的动作?

与许多不同情况一样,Google Search Console是最有帮助的。它是监控网站上Google机器人活动的基本工具。在诊断中心,只需输入完整的URL,系统就会准备一份关于索引状态的报告。

网站站长还可以验证请求是否确实来自Googlebot。他们将服务器日志中的IP地址与Google提供的公共IP地址列表进行比较。

然而,这并不是唯一的选择。这家公司还提供连接到Indexing API——一种编程工具,允许网站所有者在添加或删除任何子页面时通知Google。该软件在相对频繁地对网站进行更改的情况下特别有用。

不要得罪机器人,否则SEO的线程

索引网站会影响排名——这是不可否认的。不幸的是,收集信息并浏览站点地图的机器人部分负责将指向我们服务的链接放置在SERP中的位置。因此,应尽一切努力使爬虫尽可能简单,并为我们在搜索结果中提供良好的可见性。搜索引擎机器人是Google本身的信使,它们检查该域是否值得关注。

常见问题

超过15MB的页面内容会怎样?

在扫描过程中,任何超过Googlebot限制的内容都会被忽略。这意味着放置在非常大页面末尾的任何信息、关键字或链接可能不会被分析。

Googlebot多久访问一次网站?

访问频率不是恒定的,取决于许多因素。更新频繁且具有大量权限的页面每天最多可以扫描几次。较小、维护频率较低的更新通常每隔几周甚至更少访问一次。但是,可能会建议Google使用Search Console重新分析特定网址。

Googlebot会扫描隐藏在书签、手风琴或其他可展开内容中的内容吗?

通常,在移动优先索引编制的上下文中,Googlebot会按照移动用户看到的方式呈现网页。因此,它能够分析最初隐藏在交互元素中的文本。

由于移动优先索引已到位,我可以忽略网站的桌面版本吗?

绝对不是。尽管谷歌主要使用移动版本进行评估和排名,但桌面版本仍然作为补充资源。但更重要的是,桌面用户仍然占互联网流量的很大一部分——所以失去它将是一种耻辱。

👋 感谢您的观看!

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享