原文 https://moz.com/blog/fundamentals-of-crawling-whiteboard-friday
今天我们将谈论所有爬行的事情。 重要的是要理解的是,爬网对于每个网站都是必不可少的,因为如果您的内容没有被爬行,那么您就没有机会在Google搜索中获得任何真正的可见性。
因此,当您真正考虑它时,爬行是基本的,这全都基于Googlebot的某种善变的注意力。 很多时候,人们说如果您有一个爬行问题,这真的很容易理解。 您登录Google搜索控制台,转到“排除报告”,并且看到您是否发现了状态,目前尚未索引。
如果您这样做,您会有一个爬行问题,如果没有,则不会。 在某种程度上,这是事实,但这并不是那么简单,因为如果您对新内容有爬行问题,那就是告诉您的。 但这不仅是要使您的新内容拖延。 您还需要确保您的内容被大大更新时被爬走,这不是您在Google Search Console中看到的内容。
但是,假设您已经刷新了一篇文章,或者您已经进行了重要的技术SEO更新,您只会在Google爬行并处理该页面后看到这些优化的好处。 或另一方面,如果您进行了大型的技术优化,那么它没有被爬走,并且实际上损害了您的网站,那么直到Google爬行网站之前,您都不会看到危害。
因此,从本质上讲,如果Googlebot慢慢爬行,您将无法快速失败。 因此,现在我们需要谈论以一种非常有意义的方式测量爬网,因为同样,当您登录Google搜索控制台时,您现在进入爬网统计报告。 您会看到爬网的总数。
我对任何说您需要最大程度地爬行的人都遇到了重大问题,因为爬行的总数绝对只不过是虚荣心的。 如果我的爬行量是10倍,那并不一定意味着我关心的内容的索引增加了10倍。
它与我的服务器上的重量更大,这会花费更多的钱。 因此,这与爬行的数量无关。 这是关于爬行的质量。 这就是我们需要开始测量爬网的方式,因为我们需要做的就是查看创建或更新的内容何时以及GoogleBot需要多长时间爬行该内容之间的时间。
创建或更新之间的时差以及第一个GoogleBot爬网,我将其称为爬网功效。 因此,测量爬行功效应该相对简单。 您进入数据库,然后在时间或更新的时间导出创建的时间,然后进入日志文件,然后获得下一个GoogleBot爬网,并计算时间差异。
但是,让我们成为现实。 对于我们很多人来说,访问日志文件和数据库并不是最简单的事情。 因此,您可以有一个代理。 您可以做的是您可以从XML站点地点查看您从SEO角度关心的URL的最后一个修改的日期时间,这是XML站点地点中唯一应该在XML站点中的网站,您可以去和您可以去,您可以去和 查看URL检查API的最后一次爬网时间。
我真正喜欢URL检查API的是,如果您正在积极查询的URL,那么您也可以在更改时获得索引状态。 因此,有了这些信息,您实际上也可以开始计算索引功效得分。
因此,查看您完成重新发布或完成第一个出版物时,要花费多长时间才能索引该页面? 因为,实际上,爬行而没有相应的索引并不是真正有价值的。 因此,当我们开始查看此内容并计算了实际时间时,您可能会看到它在几分钟之内,可能是几个小时,可能是几天,可能是从创建或更新URL到GoogleBot爬上它的几周 。
如果这是很长的时间,我们实际上该怎么办? 好吧,在过去的几年中,搜索引擎及其合作伙伴一直在谈论他们如何帮助我们作为SEO更有效地爬网。 毕竟,这符合他们的最大利益。 从搜索引擎的角度来看,当他们更有效地爬我们时,它们可以更快地获得我们的宝贵内容,并且能够向搜索者(搜索者)展示这一点。
这也是他们可以拥有一个很好的故事的地方,因为爬行会给我们和我们的环境带来很多重量。 它会引起很多温室气体。 因此,通过更有效的爬行,它们实际上也可以帮助地球。 这是您也应该关心这一点的另一个动机。 因此,他们花了很多努力来释放API。
我们有两个API。 我们拥有Google索引API和IndexNow。 Google索引API,Google多次说:“实际上,只有在网站上有职位发布或广播结构化数据时,您才能使用它。” 许多人已经对此进行了测试,许多人证明这是错误的。
您可以使用Google索引API爬网。 但这是爬网预算和最大化爬网数量的想法证明自己是有问题的地方,因为尽管您可以将这些URL与Google索引API爬行,但如果它们没有页面上的结构化数据,但它没有影响。 关于索引。
翻译结果
翻译结果
因此,您要在服务器上施加的所有爬行重量,并且所有投资以与Google索引API集成的时间都浪费了。 那是SEO的努力,您可以将其他地方放置在其他地方。 长话短说,Google索引API,工作发布,实时视频,非常好。 其他一切,不值得您时间。 好的。 让我们继续进行索引。 Indexnow最大的挑战是Google不使用此API。 显然,他们有自己的。 因此,这并不意味着忽略它。 Bing使用它,Yandex使用它,并且许多SEO工具以及CRM和CDN也使用它。 因此,通常,如果您在这些平台之一中,并且您会看到,哦,有一个索引的API,那么可能会有能力并进入索引。 所有这些集成的好处是,它可以像在开关上切换并整合了一样简单。 出于三个原因,这似乎很诱人,非常令人兴奋,漂亮,轻松赢得胜利,但要小心。 第一个原因是您的目标受众。 如果您只是在该开关上切换,那么您将告诉诸如Yandex,Big Russian搜索引擎等搜索引擎有关所有URL。 现在,如果您的网站位于俄罗斯,那就做得很好。 如果您的网站位于其他地方,则可能不是一件好事。 您将为您的服务器上的所有Yandex机器人爬行,而不是真正吸引目标受众的费用。 我们作为SEO的工作不是为了最大程度地提高服务器上的爬行和重量。 我们的工作是接触,参与和转换我们的目标受众。 因此,如果您的目标受众不使用Bing,则他们不使用Yandex,请考虑一下这是否适合您的业务。 第二个原因是实施,特别是如果您使用工具。 您正在依靠该工具对索引API进行了正确的实现。
因此,例如,完成此集成的CDN之一不会在创建,更新或删除某些内容时发送事件。 他们宁愿每次要求URL发送事件。 这意味着他们正在向indexnow api进行ping ping,其中很多由robots.txt专门阻止的URL。
或者,也许他们正在向索引API播放一大堆与SEO无关的URL,您不希望搜索引擎知道,并且他们无法通过您的网站上的爬网链接找到,但是所有的 突然,因为您只是对其进行了切换,所以他们现在知道这些URL存在,它们将继续索引它们,这可能会开始影响您的域名诸如您的域名。
这将在您的服务器上放置不必要的重量。 最后的原因是它确实提高了功效,如果您认为这非常适合您的目标受众,则必须对自己的网站进行测试。 但是,从我在网站上的测试中,我了解到的是,当我对此进行切换以及测量重要的KPI,爬网功效,索引功效时,实际上并没有帮助我爬网上的URL 被自然地爬行和索引。
因此,尽管它确实触发了爬行,但无论是否触发索引,爬行都会以相同的速度发生。 因此,如果它实际上按照您希望它与这些工具一起使用的方式,则将其整合到API或测试中的所有努力都是浪费的机会成本。 搜索引擎实际上将通过爬网支持我们的最后一个区域是在Google搜索控制台中使用手动提交的。
这实际上是一种真正有用的工具。 它通常会在大约一个小时内触发爬网,并且在大多数情况下,不是全部,而是大多数情况下,爬网确实会对影响产生积极影响。 但是,当然,有一个挑战,在手动提交方面的挑战是,您在24小时内仅限于10个URL。
现在,不要仅仅因为这个原因而无视它。 如果您拥有10个非常有价值的URL,并且您正在努力抓住这些URL,那绝对值得参加并进行此提交。 您还可以编写一个简单的脚本,只需单击一个按钮,它将每天为您每天在该搜索控制台中提交10个URL。
但是它确实有其局限性。 因此,实际上,搜索引擎正在尽力而为,但是他们不会为我们解决这个问题。 因此,我们确实必须自助。 您能做的三件事将对您的爬网功效和索引功效产生有意义的影响?
您应该将注意力集中在XML站点上的第一个领域,确保它们优化。 当我谈论优化的XML站点地图时,我说的是最后一个修改日期时间的站点地图,该站点将尽可能接近数据库中的创建时间或更新时间。 您的许多开发团队自然而然地做到了,因为对他们来说很有意义,就是用Cron的工作来运行这一点,他们每天都会经营一次克朗。
因此,也许您是在上午8:00重新发布文章,他们在晚上11:00进行Cron Job,因此您在Google或其他搜索引擎机器人之间都有所有的时间,实际上并不知道您已经知道您已经知道您 更新了该内容,因为您尚未使用XML站点地图告诉他们。 因此,将实际事件和XML站点上的报道事件结合在一起确实非常重要。
您可以做的第二件事是您的内部链接。 因此,在这里,我在谈论您所有与SEO相关的内部链接。 查看您的网站链接。 在您的移动设备上有面包屑。 这不仅是桌面。 确保与SEO相关的过滤器可爬网。 确保您有相关的内容链接来构建这些孤岛。
这是您必须进入手机的东西,关闭JavaScript,然后确保您可以在没有JavaScript的情况下实际上浏览这些链接,因为如果您不能,GoogleBot不能在第一波索引, 而且,如果Googlebot不能在第一波索引上进行索引,那将对您的索引功效分数产生负面影响。
然后,您要做的最后一件事是减少参数的数量,尤其是跟踪参数。 现在,我非常了解您需要诸如UTM标签参数之类的东西,以便您可以看到电子邮件流量来自哪里,您可以看到您的社交流量来自哪里,您可以看到推送通知流量的来源,但是 Googlebot没有理由需要跟踪URL。
如果Googlebot确实爬网,他们实际上会伤害您,尤其是如果您没有正确的索引指令。 因此,您可以做的第一件事就是使它们不可爬行。 而不是使用问号来启动您的UTM参数字符串,而是使用哈希。 它仍然可以在Google Analytics(分析)中完美跟踪,但是Google或任何其他搜索引擎不可爬网