TF-IDF:它是Google排名因素吗?

via https://www.searchenginejournal.com/ranking-factors/tf-idf/

了解什么是TF-IDF,其工作原理,为什么它是SEO词典的一部分,以及最重要的是 – Google是否将其用作排名因素。

TF-IDF是什么,它真的可以帮助您的SEO策略?

您会被原谅,以为“那些疯狂的SEO人……他们接下来会怎么想?”

但是,这不是这个思想领袖或试图造成新短语的情况。

在本章中,您将了解什么是TF-IDF,其工作原理,为什么它是SEO词典的一部分,以及最重要的是 – Google是否将其用作排名因素。

主张:TF-IDF是排名因素
如果您想了解有关此主题的更多信息,那么您将看到一些狂野的头条新闻,以使您觉得自己想错过了今年的预算:

SEO的TF-IDF:什么有效,什么无效。
TF-IDF:最佳内容优化工具SEO不使用。
TF IDF SEO:如何用TF-IDF压碎竞争对手。
TF-IDF是您缺少的SEO战术吗?

TF-IDF作为排名因素的证据
让我们从此开始:什么是TF-IDF?

术语频率 – 反向文档频率(Term frequency–inverse document frequency)是信息检索字段的术语。

这是一个表达任何给定单词对文档集合的统计重要性的数字。

用简单的语言,文档集合中出现单词越多,它越重要,那么术语的重量就越重。

与搜索有什么关系?

好吧,Google是一个巨大的信息检索系统。

假设您有500个文档的集合,并且您想按照[摇滚和滚动]的相关顺序对它们进行排名。

等式的第一部分,项频率(TF)将要:

忽略不包含所有三个单词的文档。
计算每个剩余文档中每个项出现的次数。
文档长度的因素。

系统最终是每个文档的TF数字。

但是,仅这个数字就可能是有问题的。

根据该术语,您仍然可能最终得到一堆文档,并且没有真正与查询最相关的线索。

下一步,倒数文档频率(IDF),使您的TF更加上下文。

文档频率=在整个文档集合中计数术语。

逆=反转最常见的术语的重要性。

在这里,系统从等式中删除了术语[和],因为我们可以看到它在所有500个文档中都如此频繁地发生,以至于与此特定查询无关。

我们不希望文档具有最高的最高情况。

文档对[摇摆]和[滚动]的加权最高,而文本长度正常化的文档更有可能与寻求有关[摇摆和滚动]信息的人有关。

反对TF-IDF作为排名因素的证据
随着文档收集的大小和多样性的增长,该度量收缩的实用性。

Google的John Mueller谈到了这一点,并解释了

“这是一个相当古老的指标,多年来的情况已经发展了很多。 还有许多其他指标。”

我认为这不是一个因素。 我认为他很清楚地说,这已经不再那么重要了。

尽管人们喜欢相信穆勒(Mueller)试图将其中的一个人拖到他们身上,但他不可能对此进行融合。

识别哪些文档包含搜索者查询的单词是返回响应的必要第一步。

但是,话虽如此,这是一个旧的指标,它本身并不有用。

在Google大小的指数中,TF-IDF可以做的最好的方法是带回数百万或数十亿的结果。

您可以优化吗?

不。

试图优化TF-IDF意味着尝试达到某种关键字密度,这就是称为关键字填充。

不要那样做。

尽管如此,这并不意味着这个概念对SEO专业人士无关。

TF-IDF作为排名因素:我们的判断

Google是否在其搜索排名算法中使用TF-IDF,甚至可能作为其算法的基础部分?
我们说的绝对不是。

为什么? 因为这是一个古老的(在技术时期)信息检索概念。

如今,Google具有评估网页的较高方式(例如,单词矢量,余弦相似性和其他自然语言处理方法)。

知道用户是否正在搜索的单词出现在文档中,并且仅是第一步。

如果没有多种其他分析来确定诸如专业知识,权威性和信任,那么TF-IDF并没有多大考虑。

这意味着TF-IDF不是您可以用来优化网站的工具或策略。

您不能使用TF-IDF进行任何有用的分析,也不能使用它来改进SEO,因为它需要整个搜索结果的库来对付计算。

此外,我们不仅毕业了,不仅仅想知道哪些关键字用于使用它们的使用方式以及出现了哪些相关主题,以确保上下文和意图与我们自己相匹配。

使用术语tf-idf和语义搜索互换的SEO专业人士误解了TF-IDF。

这只是对文档集合中单词出现的频率的衡量标准。

最重要的是:了解如何评估内容,但是这些知识并不总是必须在SEO清单上产生另一个项目。

除非您要建立自己的信息检索系统,否则TF-IDF是一个有趣的事物,因为它是过去的日子,并继续前进。

Tags:

Search


Categories


Tags