谷歌SEO:什么是抓取错误?

图片[1]-谷歌SEO:什么是抓取错误?-小师评

网络爬虫(也称为蜘蛛或机器人)是访问(或“爬行”)网络页面的程序。搜索引擎使用爬虫来发现内容,然后将其编入索引,即存储在其庞大的数据库中。这些程序通过跟踪您网站上的链接来发现您的内容。但由于抓取错误,这个过程并不总是顺利。在我们深入研究这些错误以及如何解决它们之前,让我们先从基础知识开始。

 

什么是抓取错误?

 

当搜索引擎抓取工具无法按照正常方式浏览您的网页时,就会出现抓取错误。发生这种情况时,Google 等搜索引擎无法充分探索和理解您网站的内容或结构。这是一个问题,因为抓取错误可能会阻止您的页面被发现。 这意味着它们无法被编入索引、出现在搜索结果中或为您的网站带来自然(免费)流量。Google 将抓取错误分为两类:网站错误和 URL 错误。让我们来探讨一下。

 

1. 站点错误

 

网站错误是可能影响整个网站的抓取错误。服务器、DNS 和 robots.txt 错误是最常见的。

 

2. 服务器错误

 

当服务器阻止页面加载时,会发生服务器错误(返回 5xx HTTP 状态代码)。以下是最常见的服务器错误:

 

  • 内部服务器错误 (500):服务器无法完成请求。 但当无法获得更具体的错误时,也可以触发它。

  • 错误网关错误 (502):一台服务器充当网关并从另一台服务器接收到无效响应

  • 服务不可用错误(503):服务器当前不可用,通常是在服务器正在修复或更新时

  • 网关超时错误(504):一台服务器充当网关,没有及时收到另一台服务器的响应。 就像网站流量过多时一样。

 

当搜索引擎不断遇到 5xx 错误时,它们会降低网站的抓取速度。这意味着像 Google 这样的搜索引擎可能无法发现并索引您的所有内容。Google 可能会从其索引中删除经常出现 5xx 问题的网址。 因此,请务必使用站点审核来跟踪任何 5xx 错误

 

3. DNS 错误

 

域名系统 (DNS) 错误是指搜索引擎无法连接到您的域。所有网站和设备都至少有一个互联网协议 (IP) 地址,用于在网络上唯一标识它们。DNS 通过将域名与 IP 地址进行匹配,使人和计算机能够更轻松地相互通信。如果没有 DNS,我们将手动输入网站的 IP 地址,而不是键入其 URL。DNS 错误比服务器错误少见,但您可能会遇到以下情况:

 

  • DNS超时:您的DNS服务器没有及时回复搜索引擎的请求

  • DNS 查找:搜索引擎无法访问您的网站,因为您的 DNS 服务器无法找到您的域名

4. Robots.txt 错误

 

当搜索引擎无法检索您的 robots.txt 文件时,就会出现 Robots.txt 错误。您的 robots.txt 文件告诉搜索引擎可以抓取哪些页面以及不能抓取哪些页面。以下是该文件的三个主要部分以及每个部分的作用:

 

  • 用户代理:这一行标识爬虫。 “*”表示该规则适用于所有搜索引擎机器人。

  • 禁止/允许:此行告诉搜索引擎机器人是否应该抓取您的网站或网站的某些部分

  • 站点地图:此行指示您的站点地图位置

 

将站点地图索引 URL(包含所有站点地图的主站点地图)添加到 robots.txt 文件中。 帮助爬虫更快地发现和理解您网站的结构。

 

5. 网址错误

 

与网站错误不同,URL 错误仅影响网站上特定页面的可抓取性。

 

6. 404 错误

 

404 错误意味着搜索引擎机器人无法找到该 URL,这是最常见的 URL 错误之一。它发生在以下情况:

 

  • 您更改了页面的 URL,但未更新指向该页面的旧链接

  • 您已从网站中删除了页面或文章,但未添加重定向

  • 您的链接已损坏——例如,URL 中有错误

 

如今大多数公司都使用自定义 404 页面。这些自定义页面改善了用户体验。 并让您与网站的设计和品牌保持一致。

 

7. 403 禁止错误

 

403禁止错误意味着服务器拒绝了爬虫的请求。 这意味着服务器理解该请求,但爬虫无法访问该 URL。服务器权限问题是 403 错误背后的主要原因。服务器权限定义用户和管理员对文件夹或文件的权限。我们可以将权限分为三类:读、写、执行。例如,如果您没有读取权限,您将无法访问 URL。

 

有故障的 .htaccess 文件是 403 错误的另一个经常出现的原因。.htaccess 文件是 Apache 服务器上使用的配置文件。它对于配置设置和实施重定向很有帮助。但是 .htaccess 文件中的任何错误都可能导致 403 错误等问题。

 

8. 重定向循环

 

当页面 A 重定向到页面 B,页面 B 重定向到页面 A 时,就会发生重定向循环。结果就是无限循环的重定向会阻止访问者和爬虫访问您的内容。这可能会阻碍你的排名。

 

如何查找抓取错误?

 

Google Search Console 是一款出色的工具,可为识别抓取错误提供宝贵的帮助。

 

  • 前往您的 GSC 帐户,然后单击左侧边栏上的“设置”。

  • 然后,单击“抓取统计”选项卡旁边的“打开报告”。

  • 向下滚动查看 Google 是否注意到您网站上的抓取问题。

  • 单击任何问题,例如 5xx 服务器错误。

  • 您将看到与您选择的错误匹配的 URL 的完整列表。

 

现在,您可以一一解决它们。

 

如何修复抓取错误?

 

我们现在知道如何识别抓取错误,下一步是更好地了解如何修复它们。您可能会经常遇到 404 错误,好消息是它们很容易修复。您可以使用重定向来修复 404 错误。使用 301 重定向进行永久重定向,因为它们允许您保留一些原始页面的权限。 并使用 302 重定向进行临时重定向。

 

如何选择重定向的目标 URL?

 

以下是一些最佳实践:

 

  • 如果内容仍然存在,则添加到新 URL 的重定向

  • 如果内容不再存在,则添加重定向到处理相同或高度相似主题的页面

 

部署重定向有三种主要方法。

 

第一种方法是使用插件。

 

以下是一些最流行的 WordPress 重定向插件:

 

  • 重定向

  • Yoast SEO(仅适用于高级计划)

  • 301 重定向

 

第二种方法是直接在服务器配置文件中添加重定向。

 

以下是 Apache 服务器上 .htaccess 文件上的 301 重定向的样子。

 

重定向 301 https://www.yoursite.com/old-page/ https://www.yoursite.com/new-page/

 

您可以将此行分为四个部分:

 

  • 重定向:指定我们要重定向流量

  • 301:表示重定向代码,说明这是一个永久重定向

  • https://www.yoursite.com/old-page/:标识要重定向的 URL

  • https://www.yoursite.com/new-page/:标识要重定向到的 URL

 

如果您是初学者,我们不推荐此选项。因为如果您不确定自己在做什么,可能会对您的网站产生负面影响。因此,如果您选择走这条路,请务必与开发人员合作。最后,如果您使用 Wix 或 Shopify,则可以直接从后端添加重定向。如果您使用的是 Wix,请滚动到网站控制面板的底部–然后点击“营销和搜索引擎优化”下的“搜索引擎优化”–单击“工具和设置”部分下的“转到 URL 重定向管理器”–然后,单击右上角的“+新重定向”按钮将显示一个弹出窗口。 在这里,您可以选择重定向类型,输入要重定向的旧 URL 以及要定向到的新 URL。

 

如果您使用 Shopify,请遵循以下步骤:

 

  • 登录您的帐户,然后点击“销售渠道”下的“在线商店”。

  • 然后,选择“导航”。

  • 从这里,转到“查看 URL 重定向”。

  • 单击“创建 URL 重定向”按钮。

  • 输入您希望将访问者重定向至的旧 URL 以及要将访问者重定向至的新 URL。 “输入“/”以定位您商店的主页。)

  • 最后,保存重定向。

 

损坏的链接(指向无法找到的页面的链接)也可能是 404 错误背后的原因。 那么,让我们看看如何使用站点审核工具快速识别损坏的链接并修复它们。

 

损坏的链接指向不存在的页面或资源。假设您正在撰写一篇新文章,并且想要添加一个指向“yoursite.com/about”的“关于”页面的内部链接。链接上的任何拼写错误都会创建损坏的链接。因此,如果您忘记了字母“b”并输入“yoursite.com/aout”而不是“yoursite.com/about”,您将收到断开链接错误。损坏的链接可能是内部(指向您网站上的另一个页面)或外部(指向另一个网站)。

 

要查找损坏的链接,请配置站点审核(如果尚未配置)。然后,转到“问题”选项卡。现在,在表格顶部的搜索栏中输入“内部链接”,以查找与损坏链接相关的问题。单击问题中的蓝色可点击文本即可查看受影响 URL 的完整列表。要修复这些问题,请更改链接、恢复丢失的页面或将 301 重定向添加到网站上的另一个相关页面。

 

写在最后

 

为了确保您的网站可以被抓取(并建立索引和排名),您应该首先使其对搜索引擎友好。如果不是,您的页面可能不会显示在搜索结果中。因此,您不会带来任何自然流量。使用站点审核工具可以轻松查找和修复可爬行性和可索引性问题。您甚至可以将其设置为定期自动抓取您的网站。 确保您随时了解需要解决的任何爬网错误。

© 版权声明
THE END
喜欢就支持一下吧
点赞80 分享