爬虫抓取资源优化 (一个网站的SEO流量如何3个月翻倍)

Via:https://www.botify.com/blog/crawl-budget-optimization

如果您在自己的网站上发布一个页面,Google 会对其进行索引和排名吗?

不一定!

事实上,我们的数据表明谷歌遗漏了大型网站上大约一半的页面。

为了让页面显示在搜索结果中并为您的网站带来流量,Google 必须先对其进行抓取。 用谷歌自己的话来说,“抓取是网站进入谷歌搜索结果的七点。”

但是,由于 Google 没有无限的时间和资源来一直抓取网络上的每个页面,因此并非所有页面都会被抓取。

这就是 SEO 所说的抓取预算,优化它可能是您网站流量增长的关键。

1.什么是抓取预算?

抓取预算是搜索引擎可以并希望在任何给定网站上抓取的最大页面数。 Google 通过权衡抓取速率限制和抓取需求来确定抓取预算。

抓取速度限制:您的网页速度、抓取错误以及在 Google Search Console 中设置的抓取限制(网站所有者可以选择减少 Googlebot 对其网站的抓取)都会影响您的抓取速度限制。

抓取需求:您的页面的受欢迎程度以及它们的新鲜程度或陈旧程度会影响您的抓取需求。

2.抓取预算的历史

早在 2009 年,谷歌就承认它只能找到一部分在线内容,并鼓励网站管理员优化抓取预算。

“互联网是一个很大的地方; 新的内容一直在被创造。 Google 的资源数量有限,因此当面临几乎无限数量的在线可用内容时,Googlebot 只能找到并抓取该内容的一部分。 然后,在我们抓取的内容中,我们只能索引一部分。”

SEO 和网站管理员开始越来越多地谈论抓取预算,这促使 Google 在 2017 年发布了帖子“抓取预算对 Googlebot 意味着什么”。 这篇文章阐明了谷歌如何看待抓取预算,以及他们如何计算它。(https://webmasters.googleblog.com/2017/01/what-crawl-budget-means-for-googlebot.html)

3.我需要担心抓取预算这件事吗?

如果您在较小的网站上工作,则可能不需要担心抓取预算。

根据谷歌的说法,“抓取预算不是大多数网站管理员必须担心的。 如果一个网站的 URL 少于几千个,大多数情况下它会被有效地抓取

但是,如果您在大型网站上工作,尤其是那些根据 URL 参数自动生成页面的网站,您可能希望优先处理有助于 Google 了解抓取内容和时间的活动。

4.如何检查网站的抓取预算?

无论您在一个拥有一千或一百万个 URL 的网站上工作,您都可能希望自己检查一下是否存在抓取预算问题,而不是相信 Google 的话。

检查您的抓取预算并发现 Google 是否遗漏了您的某些网页的最佳方法是将您网站架构中的网页总数与 Googlebot 抓取的网页数量进行比较。

这需要站点爬虫和日志文件分析器。(来自botify的产品)

将日志分析与 URL 分段结合使用

从您的日志文件中,您可以看到 Google 每月在您的网站上抓取的网址数量。 这是您的 Google 抓取预算

将您的日志文件与完整的站点抓取分析相结合,以了解您的爬网预算是如何花费的。 按页面类型对该数据进行细分,以显示搜索引擎正在抓取您网站的哪些部分以及频率。

您网站中最重要的部分是如何被抓取的?

使用爬行维恩图

在高层次上查看 Googlebot 正在抓取与未抓取的页面比例的最佳方法之一是抓取维恩图。

此维恩图中的两个圆圈代表您的站点架构中的页面(仅由 Botify 抓取)、站点架构之外的页面(仅由 Google 抓取,也称为“孤立页面”)以及由 Google 和 Botify 抓取的页面。

Google 抓取的页面仅代表在您的抓取预算方面可能的改进空间。 如果这些页面未链接到您网站上的任何位置,但 Google 仍在查找和抓取它们,则您可能会浪费一些抓取预算。

抓取比率因站点而异。 在各行各业中,对于未经优化的网站,Google 每月平均仅抓取 40% 的战略网址。 这是网站上 60% 的页面没有被定期抓取,并且可能没有被编入索引或提供给搜索者。

5.什么是抓取预算优化?

抓取预算优化是帮助 Googlebot 和其他搜索引擎抓取更多重要内容并将其编入索引的过程。

您可以通过三种主要方式执行此操作:

让 Google 和其他搜索引擎远离您不想编入索引的页面

帮助他们更快地找到您的重要内容

提高重要页面的流行度和新鲜度

6,如何进行 抓取预算优化?

优化您的抓取预算与增加您的抓取预算(即让 Google 在其网站上花费更多时间)一样重要,也可以让 Google 更明智地花费他们已经分配给您网站的时间。

这包括:

阻止 Google 抓取您的非规范网址
通过优化 JavaScript 来缩短页面加载时间
最大限度地减少抓取错误和非 200 状态代码
在 Google Search Console 中检查您的抓取速度限制
提高页面的受欢迎程度
刷新陈旧内容

这里提一下提高受欢迎程度,谷歌判断页面受欢迎程度或至少相对重要性的一种方式是查看页面的深度。 页面深度(或“点击深度”)是从主页进入页面所需的点击次数。

在 Botify 中,您可以使用页面深度报告来更好地了解页面深度如何影响 Google 抓取您网站的方式。 在此示例中,您可以看到 Google 抓取的 URL 数量从大约第三个级别开始显着下降。

一个网站如何将抓取速度提高 19 倍以使其自然搜索流量翻倍

一个大型在线汽车市场网站来到 Botify 时遇到了一个大问题——他们网站上 99% 的页面对谷歌是不可见的。 说说爬虫预算优化的必要性。

以下是他们将抓取速度提高 19 倍所采取的确切步骤:

抓取站点结构中的所有页面
导入日志文件以了解 Google 正在/未抓取哪些页面
识别站点结构中所有不可索引的页面
更新robots.txt文件,防止执行步骤2后发现爬行浪费
改进内部链接,包括减少页面深度和大修其面包屑结构
更新了站点地图以仅包含可索引的 URL

详细案例可见pdf(下载地址:

改进抓取可以提高您的收入

在拥有数百万个页面的网站上应用这些优化可以带来大量机会 – 不仅是您的抓取预算,还有您网站的流量和收入!

这是因为 SEO 漏斗原则,它表明爬行阶段的改进对排名、流量和收入阶段也有下游好处,您的利益相关者肯定会对此感到高兴。

抓取预算不仅仅是技术问题。 这是一个收入的事情。 因此,将机器人和访客带到网站的核心页面很有必要!。

Tags:

Search


Categories


Tags