via https://moz.com/blog/what-is-index-bloat-whiteboard-friday

Moz的粉丝们,周五快乐。今天我想谈谈索引膨胀。
这是一个相当常见的问题,尤其会影响大型网站,但有时中型网站也会中招。我想说的是,如果你在中型或大型网站工作,这绝对是你应该关注的问题。至少应该检查过一次。它确实影响了很多网站。值得检查一下这是否会影响到你。这是我和很多其他SEO人员长期以来以及最近都看到过非常好效果的一个领域。尽管如此,我认为在行业内,这个问题相对而言并没有得到很好的总结和讨论,这其中有一些原因,我稍后会讲到。
理解索引膨胀
(图示:说明索引膨胀如何发生以及如何识别它)
但在深入讨论之前,我只想解释一下这个概念。我放了这张图是为了提供一点背景,这样我接下来要说的内容就更容易理解了。这个外框,也就是整个图,代表了你网站上的所有URL,所有可能存在、可以存在的URL,包括没人试过的参数等等,也就是能返回200状态码和一个有效页面的最大可能的URL集合。
在这个大集合里面,我画了一些更小的子集。下一个是Google已发现的URL。如果Google看到了这个URL——可能还没爬取,可能还没索引,但已经看到了这个URL,知道它存在——这就是下一个子集。如果你的红色框和蓝色框之间差距很大,那可能意味着存在抓取预算方面的问题。但这并不是我们今天要讨论的内容。
如果一个URL已被发现,它不一定被索引。所以已索引的URL是另一个更小的子集。如果URL已被发现但未被索引,可能也有一些原因。Google可能根据其他信号认为该页面不重要;你可能设置了不让它索引;你可能给了一个noindex标签之类的。所以这又是一个更小的子集。同样,我们今天也不一定讨论这个差距。
然后是已索引的页面与有实际流量的页面。什么算作页面有实际流量可能因网站而异。你可以有自己的定义。但是,如果已索引的URL数量与获得任何有意义的非零流量的URL数量之间存在巨大差距,那就意味着存在索引膨胀问题,这就是我今天想讨论的内容。
不要错过任何影响网站流量的问题
使用Moz Pro快速查找并修复技术性SEO问题。
什么不是索引膨胀
索引膨胀不是抓取预算,也不是关键词蚕食。
在我深入之前,为了完全讲清楚,我想快速区分一下我刚才提到的几个概念。我说的不是抓取预算。如前所述,抓取预算是当你有很多URL,Google根本不会去抓取它们。也许你产生URL的速度太快了,你网站上的URL数量非常非常大。这可能影响新闻网站,或者有时影响大型论坛。
我也不是讨论关键词蚕食。这是一个相关的概念。通常,当你有大量已索引页面没有流量时,是因为它们的主题太相似了。但从理论上讲,一个只有三个页面的网站也可能存在关键词蚕食问题,如果它们都大致关于同一件事的话。这并非我今天要讲的重点。我讲的是一个更大规模的问题。
所以我们专门讨论我之前提到的黄色框和绿色框之间的差异。在所有已索引的URL中,有多少是Google根本懒得发送任何有意义的流量或在搜索结果中展示的?
为什么索引膨胀是个问题?
我们为什么在乎?为什么这是个问题?那又怎样?我有大量已索引页面没有流量,有什么大不了的?
首先,我们得推测一下Google是如何处理这些页面的,为什么会这样,以及为什么我们看到了这样的结果。这主要是基于行业内的经验,Google从来没有为我们明确解释过。但我们怀疑,如果你有很多页面没有获得流量,这会传递一个质量信号,这个信号可能会影响你的整个网站,或者至少是网站的某些部分。因此,如果你有大量页面内容非常单薄、没什么实质内容,或者用户点进去后发现它们没有回答问题、有点多余,然后又返回到搜索结果,这可能会影响你的整个网站。这是我们关心这个问题的部分原因。
另一个原因是,正如我刚才提到的关键词蚕食,以及一些其他的技术性SEO问题。这可能是其他问题的症状。如果你在网站上生成大量被索引的URL,用老派的SEO思维来考虑PageRank,这会造成很多流失,因为Google会把你网站上本可以集中到那些真正有潜力带来流量的页面上的PageRank,稀释到所有这些页面上。
索引膨胀的常见原因有哪些?
博客、UGC和产品页面都可能导致索引膨胀。
一些常见的原因。如果我们有所有这些被索引但没有流量的URL,在很多网站上这种情况不应该发生,对吧?如果你有一个编辑政策,你会根据需求不断审查和创建页面,你希望这不会发生。
但在很多网站上,这种情况确实会发生,常见原因大致有两类。这只是基于我作为顾问过去所见所闻。一是如果你有博客或用户生成内容(UGC),你往往会生成大量主题相似的单薄页面。
我过去合作过一些网站,它们有个博客,用来发布各种业务公告:雇了新员工、开了新分店、得了某个奖、办了圣诞派对,或者任何新闻稿之类的东西都往博客上发。结果就是海量的被索引页面,而这些页面从一开始就不是为了获得搜索流量而设计的。
同样,如果你有一个论坛板块或类似的东西,用户也会做同样的事情。他们会根据自己正在想的事情生成各种帖子。这些都会被索引。这可以是流量的来源,但也可能是大量主题非常相似的单薄URL的来源。
我想到的第二类原因是列表或产品页面。想象一下房地产网站、二手车网站、招聘信息板,或者任何类似的市场平台。你会看到大量这样的页面出现又消失。一个招聘信息会创建一个页面,几个月后会被撤下。这种情况一直在发生。这些都是价值很低、非常具体的页面,大多数永远不会获得任何流量。
类似地,在电商网站上,特别是大型电商网站,有很多单独的商品。其中一些会非常长尾,实际上永远不会获得任何流量,因为它们和其他页面太相似了。
如何减少索引膨胀
减少索引膨胀有三个步骤。
在这两种情况下,你都可能产生大量基本上没有流量的URL。那么,我们实际能对此做些什么,或者决定是否要对此采取行动呢?”
1. 找出几乎没有流量的 URL
所以,我会采取的第一步是找出那些几乎没有流量的 URL。我过去经常使用的一个经验法则是:它们平均每月是否少于一次点击?你可以设定一个非常低的标准。在受此问题影响严重的网站上,你仍然会发现很多页面在大多数情况下实际上流量为零。
顺便提醒一下,如果你是从自然搜索的角度来看这个问题,也请务必检查其他渠道。你不希望不小心移除掉那些对社交媒体团队或邮件营销团队等来说其实很重要的东西。
2. 优化那些有机会的页面
接下来,优化那些有机会的页面。这是一个比较笼统的说法。但如果你发现的这些页面中,有些过去曾经获得大量流量,但现在过时了;或者你认为它们确实有高质量的内容,可能只是被某个技术性 SEO 问题拖累了——那么请找出那些真正值得处理的页面。例如,它们可能拥有很多外部链接。你不希望把这种潜在的价值一股脑全部清除掉。如果可以的话,对它们进行优化。
3. 合并或剔除你无法优化的页面
然后,剩下的就是大量没有流量、你也认为没有任何机会的页面。针对它们,有几种不同的处理方式,你可能需要混合使用。
对于任何现有或潜在的、意图匹配或主题非常相似的页面,你的处理方式基本上是一样的。举个例子,如果你有一个非常具体的产品页面,但同时有一个关于同样产品的分类页面,而这个产品已经不再有库存了,那么你可以考虑使用 canonical 标签或 301 重定向。显然,如果你还想让那个 URL 可以访问,就用 canonical;如果那个页面已经完全多余,不需要再让任何人看到它了,就用 301。
同样,这适用于页面的意图、目的和内容都非常相似的情况。如果你认为某些内容值得整合,你甚至可以把要整合到的那个页面做成包含所有零散页面最佳内容的页面。你可以选择新建一个 URL,也可以使用现有的 URL。你不必已经有一个好的页面。你可以选择创建一个全新的页面,专门针对这个主题做得更好,而不是保留所有这些旧页面,而它们没有一个特别有价值。
对于那些你确实不打算满足其意图的页面,或者完全是多余的、从来没有任何价值的页面,你可以直接返回 404 状态码或者添加 noindex 标签。同样,如果你不再需要这个页面被访问,就用 404。如果你确实需要它(比如被其他渠道使用),但又不想被索引,就用 noindex。这是一个相当极端的步骤。如果可能的话,我会尽量避免这样做。如果页面匹配度不高,Google 不一定会通过重定向或 canonical 传递全部的权重,但如果是 404,那肯定不会有任何传递。而使用 noindex,最终也不会传递。Google 最终会停止抓取带有 noindex 的页面。所以,这应该是你希望避免的做法。但实际上,可能还是会有一些页面属于这一类。
是的,这就是我过去自己遵循的流程。我从中看到了很好的效果。我也看到很多其他 SEO 人士在讨论这个方法,特别是在“有帮助内容更新”之后,以及过去的熊猫算法更新期间,我认为它们的运作方式很可能很相似。
欢迎告诉我你的进展。非常感谢。
