SEO抓取的基本原理

原文 https://moz.com/blog/fundamentals-of-crawling-whiteboard-friday

今天我们将谈论所有爬行的事情。重要的是要理解的是，爬网对于每个网站都是必不可少的，因为如果您的内容没有被爬行，那么您就没有机会在Google搜索中获得任何真正的可见性。

因此，当您真正考虑它时，爬行是基本的，这全都基于Googlebot的某种善变的注意力。很多时候，人们说如果您有一个爬行问题，这真的很容易理解。您登录Google搜索控制台，转到“排除报告”，并且看到您是否发现了状态，目前尚未索引。

如果您这样做，您会有一个爬行问题，如果没有，则不会。在某种程度上，这是事实，但这并不是那么简单，因为如果您对新内容有爬行问题，那就是告诉您的。但这不仅是要使您的新内容拖延。您还需要确保您的内容被大大更新时被爬走，这不是您在Google Search Console中看到的内容。

但是，假设您已经刷新了一篇文章，或者您已经进行了重要的技术SEO更新，您只会在Google爬行并处理该页面后看到这些优化的好处。或另一方面，如果您进行了大型的技术优化，那么它没有被爬走，并且实际上损害了您的网站，那么直到Google爬行网站之前，您都不会看到危害。

因此，从本质上讲，如果Googlebot慢慢爬行，您将无法快速失败。因此，现在我们需要谈论以一种非常有意义的方式测量爬网，因为同样，当您登录Google搜索控制台时，您现在进入爬网统计报告。您会看到爬网的总数。

我对任何说您需要最大程度地爬行的人都遇到了重大问题，因为爬行的总数绝对只不过是虚荣心的。如果我的爬行量是10倍，那并不一定意味着我关心的内容的索引增加了10倍。

它与我的服务器上的重量更大，这会花费更多的钱。因此，这与爬行的数量无关。这是关于爬行的质量。这就是我们需要开始测量爬网的方式，因为我们需要做的就是查看创建或更新的内容何时以及GoogleBot需要多长时间爬行该内容之间的时间。

创建或更新之间的时差以及第一个GoogleBot爬网，我将其称为爬网功效。因此，测量爬行功效应该相对简单。您进入数据库，然后在时间或更新的时间导出创建的时间，然后进入日志文件，然后获得下一个GoogleBot爬网，并计算时间差异。

但是，让我们成为现实。对于我们很多人来说，访问日志文件和数据库并不是最简单的事情。因此，您可以有一个代理。您可以做的是您可以从XML站点地点查看您从SEO角度关心的URL的最后一个修改的日期时间，这是XML站点地点中唯一应该在XML站点中的网站，您可以去和您可以去，您可以去和查看URL检查API的最后一次爬网时间。

我真正喜欢URL检查API的是，如果您正在积极查询的URL，那么您也可以在更改时获得索引状态。因此，有了这些信息，您实际上也可以开始计算索引功效得分。

因此，查看您完成重新发布或完成第一个出版物时，要花费多长时间才能索引该页面？因为，实际上，爬行而没有相应的索引并不是真正有价值的。因此，当我们开始查看此内容并计算了实际时间时，您可能会看到它在几分钟之内，可能是几个小时，可能是几天，可能是从创建或更新URL到GoogleBot爬上它的几周。

如果这是很长的时间，我们实际上该怎么办？好吧，在过去的几年中，搜索引擎及其合作伙伴一直在谈论他们如何帮助我们作为SEO更有效地爬网。毕竟，这符合他们的最大利益。从搜索引擎的角度来看，当他们更有效地爬我们时，它们可以更快地获得我们的宝贵内容，并且能够向搜索者（搜索者）展示这一点。

这也是他们可以拥有一个很好的故事的地方，因为爬行会给我们和我们的环境带来很多重量。它会引起很多温室气体。因此，通过更有效的爬行，它们实际上也可以帮助地球。这是您也应该关心这一点的另一个动机。因此，他们花了很多努力来释放API。

我们有两个API。我们拥有Google索引API和IndexNow。 Google索引API，Google多次说：“实际上，只有在网站上有职位发布或广播结构化数据时，您才能使用它。” 许多人已经对此进行了测试，许多人证明这是错误的。

您可以使用Google索引API爬网。但这是爬网预算和最大化爬网数量的想法证明自己是有问题的地方，因为尽管您可以将这些URL与Google索引API爬行，但如果它们没有页面上的结构化数据，但它没有影响。关于索引。

1,880 / 5,000

翻译结果

因此，您要在服务器上施加的所有爬行重量，并且所有投资以与Google索引API集成的时间都浪费了。那是SEO的努力，您可以将其他地方放置在其他地方。长话短说，Google索引API，工作发布，实时视频，非常好。其他一切，不值得您时间。好的。让我们继续进行索引。 Indexnow最大的挑战是Google不使用此API。显然，他们有自己的。因此，这并不意味着忽略它。 Bing使用它，Yandex使用它，并且许多SEO工具以及CRM和CDN也使用它。因此，通常，如果您在这些平台之一中，并且您会看到，哦，有一个索引的API，那么可能会有能力并进入索引。所有这些集成的好处是，它可以像在开关上切换并整合了一样简单。出于三个原因，这似乎很诱人，非常令人兴奋，漂亮，轻松赢得胜利，但要小心。第一个原因是您的目标受众。如果您只是在该开关上切换，那么您将告诉诸如Yandex，Big Russian搜索引擎等搜索引擎有关所有URL。现在，如果您的网站位于俄罗斯，那就做得很好。如果您的网站位于其他地方，则可能不是一件好事。您将为您的服务器上的所有Yandex机器人爬行，而不是真正吸引目标受众的费用。我们作为SEO的工作不是为了最大程度地提高服务器上的爬行和重量。我们的工作是接触，参与和转换我们的目标受众。因此，如果您的目标受众不使用Bing，则他们不使用Yandex，请考虑一下这是否适合您的业务。第二个原因是实施，特别是如果您使用工具。您正在依靠该工具对索引API进行了正确的实现。

因此，例如，完成此集成的CDN之一不会在创建，更新或删除某些内容时发送事件。他们宁愿每次要求URL发送事件。这意味着他们正在向indexnow api进行ping ping，其中很多由robots.txt专门阻止的URL。

或者，也许他们正在向索引API播放一大堆与SEO无关的URL，您不希望搜索引擎知道，并且他们无法通过您的网站上的爬网链接找到，但是所有的突然，因为您只是对其进行了切换，所以他们现在知道这些URL存在，它们将继续索引它们，这可能会开始影响您的域名诸如您的域名。

这将在您的服务器上放置不必要的重量。最后的原因是它确实提高了功效，如果您认为这非常适合您的目标受众，则必须对自己的网站进行测试。但是，从我在网站上的测试中，我了解到的是，当我对此进行切换以及测量重要的KPI，爬网功效，索引功效时，实际上并没有帮助我爬网上的URL 被自然地爬行和索引。

因此，尽管它确实触发了爬行，但无论是否触发索引，爬行都会以相同的速度发生。因此，如果它实际上按照您希望它与这些工具一起使用的方式，则将其整合到API或测试中的所有努力都是浪费的机会成本。搜索引擎实际上将通过爬网支持我们的最后一个区域是在Google搜索控制台中使用手动提交的。

这实际上是一种真正有用的工具。它通常会在大约一个小时内触发爬网，并且在大多数情况下，不是全部，而是大多数情况下，爬网确实会对影响产生积极影响。但是，当然，有一个挑战，在手动提交方面的挑战是，您在24小时内仅限于10个URL。

现在，不要仅仅因为这个原因而无视它。如果您拥有10个非常有价值的URL，并且您正在努力抓住这些URL，那绝对值得参加并进行此提交。您还可以编写一个简单的脚本，只需单击一个按钮，它将每天为您每天在该搜索控制台中提交10个URL。

但是它确实有其局限性。因此，实际上，搜索引擎正在尽力而为，但是他们不会为我们解决这个问题。因此，我们确实必须自助。您能做的三件事将对您的爬网功效和索引功效产生有意义的影响？

您应该将注意力集中在XML站点上的第一个领域，确保它们优化。当我谈论优化的XML站点地图时，我说的是最后一个修改日期时间的站点地图，该站点将尽可能接近数据库中的创建时间或更新时间。您的许多开发团队自然而然地做到了，因为对他们来说很有意义，就是用Cron的工作来运行这一点，他们每天都会经营一次克朗。

因此，也许您是在上午8:00重新发布文章，他们在晚上11:00进行Cron Job，因此您在Google或其他搜索引擎机器人之间都有所有的时间，实际上并不知道您已经知道您已经知道您更新了该内容，因为您尚未使用XML站点地图告诉他们。因此，将实际事件和XML站点上的报道事件结合在一起确实非常重要。

您可以做的第二件事是您的内部链接。因此，在这里，我在谈论您所有与SEO相关的内部链接。查看您的网站链接。在您的移动设备上有面包屑。这不仅是桌面。确保与SEO相关的过滤器可爬网。确保您有相关的内容链接来构建这些孤岛。

这是您必须进入手机的东西，关闭JavaScript，然后确保您可以在没有JavaScript的情况下实际上浏览这些链接，因为如果您不能，GoogleBot不能在第一波索引，而且，如果Googlebot不能在第一波索引上进行索引，那将对您的索引功效分数产生负面影响。

然后，您要做的最后一件事是减少参数的数量，尤其是跟踪参数。现在，我非常了解您需要诸如UTM标签参数之类的东西，以便您可以看到电子邮件流量来自哪里，您可以看到您的社交流量来自哪里，您可以看到推送通知流量的来源，但是 Googlebot没有理由需要跟踪URL。

如果Googlebot确实爬网，他们实际上会伤害您，尤其是如果您没有正确的索引指令。因此，您可以做的第一件事就是使它们不可爬行。而不是使用问号来启动您的UTM参数字符串，而是使用哈希。它仍然可以在Google Analytics（分析）中完美跟踪，但是Google或任何其他搜索引擎不可爬网

Dicky's Space

SEO抓取的基本原理

翻译结果

翻译结果

Search

Categories

Recent Posts

Tags