seo爬虫何时以及如何使用seo逻辑抓取HTML站点地图

 2024年6月27日 16:05:59     33  

文章目录

了解使用可视化HTML站点地图比仅仅依赖网站的导航结构或XML站点地图更有意义的实例。

多年来,我改变了对HTML站点地图的看法,以前永远不需要它们,小型和大型网站应始终具有清晰的导航结构。但是现在不是,小站点和大型站点同样适合网站地图。

什么是站点地图,为什么要使用它们?

在网络的早期,许多网站都是有机增长的。信息架构师未根据最佳实践对网站进行适当规划。他们从头开始,网站管理员在需要时以通常远非可用的方式添加内容。

那是博客、社交媒体或内容管理系统出现之前的日子。当构建站点时,是使用HTML自己完成的。

在大多数情况下,是在文本编辑器中手动编码 HTML,使用混乱的所见即所得编辑器(如 Dreamweaver)或最早的定制构建且非常笨重的 CMS工具之一。无论哪种方式,网站结构很快就会变得混乱。

因此,出于必要,人们开始在他们的网站上添加站点地图,以了解日益严重的混乱情况。这些站点地图是用纯HTML创建的,看起来像任何其它网页,部分原因是它们显示的是地图而不是书面内容。后来搜索引擎引入了所谓的XML站点地图,旨在取代手动“搜索引擎提交”。

25年后,HTML站点地图不再受青睐。但是我们真的可以停止使用HTML站点地图吗?

HTML与XML站点地图——可见与不可见

简而言之,HTML和XML站点地图之间的主要区别在于HTML站点地图通常对网站访问者可见,而XML站点地图则不是。(后者主要用于搜索引擎。)

XML站点地图标准于 2007 年底由Google、Yahoo和Bing(当时的 MSN)等搜索引擎引入。

默认情况下,它们的格式无法很好地显示或无法供人类阅读。相反,此类站点地图主要用于确保搜索引擎正确和更快地建立索引。

另一方面,仅仅因为资源在XML站点地图上并不意味着Google和Bing会为其编制索引,或者即使它在索引中也可以找到。

为什么我们应该专门为谷歌创建站点地图?

多年来,谷歌告诉我们要为用户而不是搜索引擎创建网站。为什么在站点地图方面破例,只为谷歌和其它搜索引擎创建它们?

这让我想知道其它SEO策略是否对搜索机器人显示一个东西而对网站访问者显示不同的东西也可能是个好主意。

不管怎样,谷歌是这么说的,所以我们必须听,对吧?Google不喜欢HTML站点地图而更喜欢XML肯定是有原因的。

XML站点地图通常是自动化的,并且包括在线发布的所有内容。

在WordPress上,有许多工具可以为创建站点地图。2020 年,WordPress 终于在其核心中添加了XML站点地图支持,因此甚至不需要外部插件。

XML代码格式也是机器可读的,而HTML则比较乱。尽管有错误,HTML仍必须工作。

因此,归根结底,XML站点地图的创建主要在幕后进行,没有容易出错的人工干预。此外,大多数人永远不会看到XML站点地图,他们甚至不知道在哪里可以找到它,因为它没有在站点上任何可见的地方链接。

使XML站点地图为人们所用,幸运的是,总有一些中间立场。不必使XML站点地图不可见。

我们可以像处理任何HTML页面一样使用样式表格式化XML站点地图。

只要XML出现,这种技术就一直有效。

确实有一段时间,似乎XML将取代HTML作为 Web标准,或者它是一种折衷方案,称为 XHTML。

出于兼容性原因,这没有发生。尽管XHTML格式更清晰且更不容易出错。当发生错误时,网站确实崩溃了。

相反,随着HTML5的引入,浏览器接受了大概编码的网站,以简化发布,但以自动抓取为代价。

现在已经理想地创建了一个XML站点地图,无需编码技能的人也可以阅读该站点地图。请记住,它仍然是拥有的所有内容的列表。但是仍然可以考虑为网站访问者创建一个可读的HTML站点地图。

HTML站点地图改善了整体用户体验,尤其是:

辅助功能。

可发现性。

可查找性。

可用性。

这些仍然是 HTML站点地图最强大的用例,就像在之前在Google开始使用链接进行索引和排名之前以及引入XML站点地图。

版权声明:鹿泽 发表于 3个月前,共 1604 字。
转载请注明:seo爬虫何时以及如何使用seo逻辑抓取HTML站点地图 | 鹿泽笔记

您可能感兴趣的