揭露与祛魅生成式信息检索:SEO领域中的虚假信息

原文地址:https://www.womenintechseo.com/knowledge/generative-information-retrieval-seo-misinformation

长期以来,SEO行业一直背负着制造谣言或对搜索引擎运作机制进行主观解读的名声,其部分原因在于我们这个领域恰好处在市场营销与计算机科学的尴尬交汇点。与付费搜索或纯粹的计算机科学及工程学不同,大量SEO知识具有主观性,建立在程度不一的非完美实验和有根据的推测之上,争论者之间的经验和视角也相去甚远。

我们这个行业缺乏确定的答案,再加上主要由利益相关者驱动的、寻求能“扭转局面”的简单杠杆的渴望,加剧了这种状况。

毕竟,“看情况”是我们行业的标志性口号,细微差别和不确定性在此占据主导。

毫不意外的是,随着大型语言模型及其作为生成工具在搜索环境中的应用日益广泛,错误信息的传播潜力被进一步放大。这为更多SEO谣言的涌入打开了闸门,使它们得以加入那些长期循环争论的话题行列,例如“子域名与子文件夹之争”、“301与302重定向之辨”以及“点击量是否影响排名”等。

我们正处于一个激动人心的技术搜索交汇点,但变革的速度也造成了暂时的知识真空。来自信息检索、自然语言处理、机器学习和计算机科学等领域的新概念正不断涌入我们的领域。

因此,我们面临着一条“错误信息高速公路”,它因围绕生成式AI和生成式信息检索的新谣言,以及其他所有谣言和周期性讨论而不断膨胀。对领域外术语的曲解和滥用,让我们在本就最具挑战性的时期,面临着更大的困惑。

SEO神话的根源
虽然SEO神话滋生繁衍的原因有很多,但对专利的误读和夸大宣传无疑是其中重要的因素。

搜索专利法非常复杂,因为解读它不仅需要法律知识,还需要对搜索和信息检索有深刻的理解——这是一种罕见且独特的能力组合,备受爱戴的已故专家比尔·斯劳斯基将其掌握得淋漓尽致。凭借其数十年的搜索经验以及早前作为律师的职业生涯和正式资质,比尔为我们提供了几乎明确无误且广泛的专利解读。

人们普遍认为“专利就意味着投入生产”,这更加剧了混淆,因为在大多数情况下,专利从未投入实际应用。申请专利的原因多种多样,其中包括战略资产防御。这些“防御性专利”的注册是为了阻止竞争对手实施替代解决方案,或在竞争激烈的行业中用作法律筹码。此外,不仅专利本身需要正确解读,其附带的参考文献部分也常常引用了大量学术论文。

当脱离上下文时,搜索、信息检索和自然语言处理研究人员发表的学术论文就极易被误解。这些论文不仅语言晦涩难懂、枯燥乏味,且穿插着数学公式;它们还会参考和引用大量其他学术论文,为了完全理解每篇论文试图建立在前人研究基础上的来龙去脉,这些被引用的文献也必须阅读。

我怀疑,一丝谄媚式的回声室效应和盲从心理也在AI SEO相关错误信息的传播中扮演了角色。随着GEO、AEO等概念的兴起,相应地也有越来越多的人试图最大化利用这一新机遇,并重新将自己定位为引领潮流的先锋。

我们都很清楚,SEO正在发展(机遇也在增加),但其中一些缺乏严谨性的信息分享方式,却搅浑了水,并有风险在我们进入AI时代搜索的下一阶段时,进一步将SEO行业的声音推向“江湖郎中”的既定印象。

我们都在尽可能快地学习行业的新变化,但这海量涌现的新发展,也可能带来一种倾向,即当我们被问及许多问题而不知道答案时,我们不愿意承认。

于是,我们抓住学术论文中断章取义的原话、无法复现的实验(公平地说,大多数研究都无法复现)、随机抽取的用于执行单一任务或策略的Colab脚本以及其他SEO神话,来概率性地填补知识空白——这颇有些类似于我们都抱怨其输出内容荒谬的大语言模型的那种幻觉特性。

那么,让我们来看看一些造成不确定性的、跨领域或新术语解读的例子吧。

分块、”信息增益”与LLMs.txt:SEO领域的解读

最近涌现的SEO术语试图寻找新的”调控杠杆”,但它们很可能犯下了范畴错误,混淆了生成式AI、生成式信息检索和经典信息检索系统的内部工程原理,与搜索引擎对外进行内容排名和呈现的方式。其中两个可能的例子便是”分块”和”信息增益”。

分块

目前流传最广的SEO”杠杆”之一认为,SEO人员的工作就是为LLM(大语言模型)爬虫创建”块”(内容的微小片段),以期在AI概览/AI模式以及LLM中获得更高的可见度。

诚然,由于上下文窗口的大小限制,目前在自然语言处理的内容预处理阶段,”分块”仍然是必要的。但重要的是要明白,”分块”并不是一个用于评估或排名的指标。

分块旨在确保信息不丢失,并支持诸如向量嵌入、检索增强生成或其他自然语言处理流程等技术过程,作为知识检索的一种机制。我们可以用任意数量的Python脚本,在Google Colab或类似平台上对文本运行分块脚本。通过模拟分块来了解预处理阶段可能发生什么,这确实很有趣。在Kaggle、Hugging Face等平台上有大量的示例,许多Python数据分析师也乐于分享这些内容。

分块不是SEO人员的职责

可以说,试图在前端对内容进行分块并非SEO人员的职责。尝试分块会偏离自然的、以人为中心的文本,除了向SEO同行展示我们也能玩转分块之外,几乎没有什么长期价值。它可能像许多”广撒网”式的AI技术一样,带来一些短期影响。怎么做是你的自由,但在我看来,这是一种短期策略,其长期益处值得商榷。

原因如下:

分块方法多种多样

首先,分块有多种类型(毫无疑问也存在混合技术),每种方法服务于不同的计算需求以及自然语言处理或机器学习用例,无论是用于检索增强生成还是其他检索或上下文理解任务。

最简单的固定大小分块因其低成本和高速度,至今仍是主流行业标准。但其局限性在于,它基于字符数、词数、令牌数或预定义的边界进行截断,完全不考虑上下文价值。

相比之下,基于句子、段落和文档的分块将文本分割成更大的片段,包含更多上下文信息,但计算成本也更高。更新的、先进但昂贵的分块方法则利用语义方法,或结合语义、层次结构和回退技术的递归组合。其他分块技术还包括滑动窗口、基于主题、基于模态、自主式和AI驱动的动态分块。其中一些方法因成本过高,很少会在大规模生产中实际应用。

但是……谷歌在其支撑AI概览多步推理能力的Gemini模型中使用了哪种分块方法?OpenAI又在ChatGPT中使用了哪种呢?

答案当然是:我们不知道

如同现代自然语言处理和信息检索的大多数方面一样,所使用的方法会根据具体任务而变化。这与查询匹配(有时是简单的关键词匹配,有时需要调用更多机器学习驱动的方法)同理——”看情况”。

那么,如果我们连具体实施了哪种分块方法都不知道,又如何能复制”好的做法”呢?再者,我们试图将内容分解成小块来”帮忙”,会不会反而因为内容支离破碎而无意中破坏了用户体验?

也许最重要的是,”分块”并非”面向未来”的策略——针对LLM当前的局限性进行优化是毫无意义的。随着LLM和搜索引擎自身分块方法的不断进步,那些看起来自然、以人为中心的内容终将胜出,而经过人工SEO和刻意分块的内容则会像被操纵的拇指一样突兀,极易受到未来算法更新的负面影响。

事实上,在最近一期《Search off the Record》播客中,谷歌的丹尼·沙利文明确表示,谷歌不希望SEO人员将内容切成碎片(他已就此问题内部咨询了搜索工程师),并声称这对搜索引擎无效,即使目前对LLM有效,未来也不会奏效。沙利文接着重申,随着搜索引擎致力于奖励为人类而非爬虫创建的、自然的内容,短期的”黑科技”长期来看是行不通的。

虽然我们自己摆弄这些方法,以显示我们能和最顶尖的人一样”玩转分块”(我开玩笑),并增长见识,这固然有趣,但作为一项可操作的SEO”杠杆”,其长期价值非常有限。我们切莫让为机器服务的分块和”AI垃圾”,成为新一代SEO从业者眼中类似”文章 spinning”那样的”熊猫算法”版本。

混淆”分块”与”语义结构”

“分块”与清晰的”语义结构”之间存在着显著差异,而这一点似乎也是造成混淆的部分原因。有些文章提倡”分块”,但提供的例子却仅仅是语义结构化的内容——一个已经存在了几十年的概念。

语义结构不同于SEO”分块”

语义标题在早期的信息检索论文中一直被视为具有额外权重,H1到H6标题的重要性递减也有明确记载。顺便提一句,这种方法是当今网站所有者很少充分利用的(你应该改变这一点)。

语义结构已经存在了几十年,在实际应用中,它可以粗略地定义为网站或其他知识库中文档内部的一种清晰的瀑布式层级结构。它提供的是内容部分(而非”块”)重要性递减的指引,有点像新闻写作中的倒金字塔结构。

语义结构和倒金字塔式的内容确实都有价值,但它们都不是”分块”。

几十年来,维基百科一直通过其结构化、链接化和半结构化的数据系统(使用语义标题、表格、有序列表和无序列表)来完美地组织内容。这种内容结构化为用户、搜索引擎以及那些试图消除歧义、理解文档各部分内容的爬虫都增加了价值。

表格数据也属于结构化数据,因为它实际上是关系型数据库中的常见内容类型,但却很少被归类为结构化数据的一种。

无序列表和有序列表在精选摘要等地方出现频率很高,这并非巧合,因为与杂乱的非结构化文本相比,它们具有易于提取且含义清晰的特点。

在上下文提取/检索增强生成时代,”段落索引”又当如何?

还记得”段落索引”吗?那是2020/2021年左右的热门话题,当时谷歌宣布他们将开始尝试独立理解页面的部分内容,而不再仅仅将页面视为一个整体。当时,谷歌和各种网络研讨会上提供的例子,通常都围绕一篇虚构的博客文章展开,文章主要关于狗,但其中有一小段提到了猫,或者反之。

谷歌现在希望能够将与猫相关的查询,独立于与狗相关的查询部分,对关于猫的那段内容进行排名,尤其是在缺乏非结构化语义内容(即由不了解SEO的内容创作者自然生成的内容)的情况下。虽然这是搜索领域的特定技术,但鉴于这些技术的迭代和演进性质,以及文献中”段落索引”和基于BERT的系统之间的关联,这些技术与搜索引擎或生成式信息检索预处理端的”分块”技术之间,很可能存在一些交叉。

这或许又是一个理由,说明为什么SEO人员无需过度介入将内容切碎的工作——搜索爬虫和LLM爬虫很可能已经走在了前面,并且一直在努力进一步改进;它们希望看到”自然内容是什么样的”,以此作为其整体方法的一部分。

“信息增益”

另一个近期流行起来、可能被误解且主要源自其他领域的热门术语是”信息增益”。

SEO领域对”信息增益”的解读

这个术语在SEO领域的版本,主要源自一个谷歌专利:《上下文估计链接信息增益》。它在当今的SEO讨论中被广泛接受,被视为一个有意义的、可操作的指标。但实际上,这是一个模糊且难以衡量、只能努力追求的概念。

我之前已经提到过解读专利的挑战,因为它需要结合法律术语、学术知识和搜索理解。虽然SEO社区对该专利中”信息增益”的含义看法不一,但普遍的共识是,谷歌的意思是:如果在两个内容片段之间进行选择,能提供最多信息附加值的那个片段,将因其”信息增益”而被视为排名的优选(即,该片段的价值高于其竞争对手的页面)。

这个概念听起来很容易理解,因为其解释的目的似乎与字面意思完美契合。

这种”信息增益”的概念也与早已确立的”摩天大楼技术”不谋而合。”摩天大楼技术”是一种著名的外链建设方法,其目标是找出竞争对手用来获取高质量外链的内容,然后复制并改进它(即给摩天大楼再加一层),随后再去获取同样的外链。

因此,尽管”信息增益”在SEO领域似乎是一个新概念,但它与现有的其他概念并无太大差异,尽管这项专利的发现似乎为在SEO增值的”摩天大楼”上再添一层提供了一些验证。

问题是——作为整体策略的一部分,哪个SEO人员会不自然地试图为内容增值呢?

这是这项工作的基本要求之一:识别强大的竞争对手内容,寻找改进这些内容的方法,使其更具相关性、更精确、更有价值。

我猜想,绝大多数SEO人员早已在进行某种形式的竞争对手分析,并实施类似的方法,而且在谷歌那项“信息增益”专利被报道之前,他们已经这样做了很多年。

“信息增益”在机器学习领域的真正含义

在任何搜索引擎中输入“信息增益”进行查询,你会发现,占主导地位的搜索结果并非指向SEO领域所采用的术语版本。因为当你从算法和机器学习的角度深入探究时,“信息增益”有着重要得多的含义。这个术语的内涵非常深广。

机器学习意义上的“信息增益”,其核心是“熵”的概念,即对信息中不确定性水平的度量。它最初源自一篇被引用超过11.8万次的学术论文——《通信的数学理论》。该文作者克劳德·香农,被誉为“信息论之父”,他建立了熵的数学框架,将其作为一个关键原理。香农作为数学家的遗产,以及他的工作对机器学习领域的最终贡献是如此深远,以至于Anthropic公司将他们著名的大语言模型命名为“Claude”,就是为了纪念他。

后来,罗斯·昆兰将香农的工作专门适配到了机器学习时代,他利用“信息增益”作为决策树中的分割标准。决策树是最流行的机器学习分类器之一(其回归版本则用于分类和回归预测模型)。

毫无疑问,搜索引擎在日常工作中,会在决策树(或由决策树组成的“森林”,即随机森林)中,利用信息增益或熵来充当分类器或回归器,但这很可能远超单一专利的范畴,因为分类和回归模型是人工智能和机器学习领域最基础、最核心的内容。

这并不是说谷歌专利中的“信息增益”没有价值,但当我们从机器学习中汲取这个更为人熟知的概念,并理解它被用于在分类或预测时对数据进行决策分割时,这确实为我们提供了更深层的背景:信息增益或许可以被用来理解一个页面相对于某个主题或类别的“纯度”,而不是去理解内容能增加多少额外价值。

类别纯度或主题聚焦度,其本身就是一种“增益”。而且我们从机器学习中已经知道,这正是决策树分类器更广泛的工作原理——用于理解数据分割的纯度如何。

在搜索引擎内部,以及生成式信息检索和生成式AI的各个层面,信息增益可能被应用的其他领域还包括:确定重复或近乎重复页面的权威版本(这很可能就是那项“信息增益”专利本身所指的);基于与某个主题的相关性和/或精确度的分割,来决定将哪些页面加入爬行计划(特别是在围绕特定主题的聚焦爬行中);或者在资源有限的情况下,用于决定允许的遍历深度,或决策树叶子节点在进行进一步分割前应提供的最低价值水平。

谷歌的搜索团队并未证实他们会按照SEO评论员在各种文章中解读的方式,来使用信息增益。但我们清楚知道,信息增益在机器学习决策树中是如何被明确使用的。这两种解读,一种是主观的推测,另一种则是既定的事实。

LLMs.txt——尚无定论

另一个正在流传的概念是LLMs.txt。

LLMs.txt被吹捧为一种通过添加.txt文件来引导AI爬虫进行内容发现的手段,其方式类似于robots.txt。robots.txt是互联网工程任务组的一个协议,由马丁·科斯特于1994年创立,在IETF文档中拥有自己的RFC文件。

LLMs.txt包含一个重要内容的摘要,以提高令牌化效率,以及类似robots.txt的允许和禁止指令。它也被提议作为一个协议。

听起来很合理,对吧?

那么问题出在哪?

问题在于,目前没有主流搜索引擎(也几乎没有哪个AI爬虫)认可LLMs.txt是一个可行的协议。强有力的证据表明,这种提议的、用于提高AI搜索发现度的新SEO方法目前毫无意义——几位SEO研究人员的测试显示,几乎没有AI爬虫会去获取LLMs.txt文件。

然而,许多SEO工具和内容管理系统提供商不顾一切地继续推行,为本就谣言四起的SEO行业又添了一把火。在一些工具的SEO审计板块中,创建和添加LLMs.txt文件已经被列为保障良好自然搜索健康的建议,而且没有任何质疑、警告或解释。

支持LLMs.txt的理由

LLMs.txt日益流行的部分原因在于,支持其使用的论点确实有一些听起来相当合理,因为抓取网站内容对生成式信息检索和生成式AI系统来说是一个巨大的挑战。绝大多数AI爬虫无法渲染JavaScript,这使得谷歌在从使用客户端JavaScript的网站检索内容方面拥有显著优势。因此,通过LLMs.txt提供一个重要内容或令牌的简洁摘要确实有一定道理。此外,能够选择将哪些内容提供给AI爬虫,而不是让它们肆意抓取、影响主机负载,这也合情合理。

让事情更加复杂的是,尽管谷歌 repeatedly 声称他们不支持、将来也不会支持LLMs.txt这个协议,但他们自己的几个开发者网站上却突然出现了LLMs.txt文件。不久之后,这些LLMs.txt文件又从许多此类平台上消失了,而谷歌一直坚称他们不会向自己的内部团队提供SEO建议。

我觉得,谷歌自己的开发人员都认为需要将LLMs.txt添加到他们的网站,这最清楚地说明了流传的SEO神话的影响力。

LLMs.txt未来会怎样,尚不得而知。也许随着时间的推移,这个提议的解决方案会被接受为公认的协议。但我猜想,更有可能的是,AI爬虫最终能够成功渲染和检索JavaScript内容,或者通过机器学习学习到整个文档集合中最重要数据块的位置。

在我看来,现在就将添加LLMs.txt文件作为标准做法推荐给网站所有者,并助长那些推动SEO领域的可疑且含糊不清的言论,还为时过早。

https://chat.deepseek.com/a/chat/s/5cf65b4f-2246-4681-95f4-2daec4b61f2b#:~:text=%E5%9B%9E%E5%BD%92%E5%9F%BA%E7%A1%80%EF%BC%9A%E6%8B%A8%E5%BC%80,%E6%89%B9%E5%88%A4%E6%80%A7%E6%80%9D%E8%80%83%E3%80%82

Leave a Reply

Your email address will not be published. Required fields are marked *

Leave a Reply

Your email address will not be published. Required fields are marked *