信息检索的演进:从词汇到神经

via https://ipullrank.com/ai-search-manual/ir-evolution

“前神经时代基础:早期信息检索系统与词法搜索

最早的搜索引擎并非为理解含义而构建,而是为匹配字符串而生。在20世纪60和70年代,康奈尔大学的 SMART 等系统建立了倒排索引这一核心架构,此后的四十年中,该架构主导了信息检索领域。

如果你从未见过它的实际运作,可以想象一下参考书末尾的索引:每个词条后面都列出了它出现的页码。在信息检索中,那些“页”就是文档,而“页码”则是“倒排列表”——即包含该词条的所有文档的有序引用。

其工作流程很简单:将文本分词,提取词干为基本形式,并存储它们的位置。当查询到来时,系统将其分解为词元,查找每个词元的倒排列表,然后合并这些列表以找到包含全部或大部分词元的文档。随后,系统会根据 TF-IDF(词频-逆文档频率)等统计指标,以及后来的 BM25(最佳匹配25)对结果进行排序。

这是一个纯粹的词法过程。如果你搜索“automobile(汽车)”,你永远不会看到只写了“car(车)”的页面——除非有人将该同义词硬编码到系统中。如果你输入“running shoes(跑鞋)”,可能会错过“sneakers(运动鞋)”,除非它们被归在相同的词条下。

在 SEO 的头二十年里,这种机械的字面匹配决定了所有策略。页面被精心设计以精确匹配关键词,因为搜索系统本身无法可靠地将相关词汇联系起来。该领域的核心策略(关键词研究、精确匹配定位、关键词密度优化)都是对这些局限性的直接回应。你是在用索引自身原始的语言与之对话。

超越这种局限的尝试始于20世纪90年代的潜在语义索引(LSI)。LSI 试图通过奇异值分解将词-文档矩阵分解为潜在因子,从而推断词项之间的关系。理论上,它可以在不依赖显式同义词库的情况下将“automobile”和“car”联系起来。但在实践中,它的计算成本高昂,容易受噪声干扰,并且难以随着新内容的到来而轻松更新。它是对词法检索的巧妙修补,而非根本性的转变。

到 AltaVista、Lycos 和 Yahoo 等早期网络搜索引擎索引数亿个网页时,词法匹配在词汇变异和多义性的重压下已不堪重负。谷歌的 PageRank 通过权威性帮助筛选结果,但它并未解决底层的语义鸿沟。系统可以判断哪些页面被链接最多,但无法判断哪些页面最符合你查询的真实含义。

嵌入的兴起

到2010年代初期,网络的巨大规模和多样性,加之机器学习的进步,为更具语义感知能力的检索方法奠定了基础。突破来自计算语言学中一个看似简单的思想:分布式假说。正如英国语言学家 J.R. Firth 那句名言:“观其伴,知其义。”

其核心洞见是:我们不再将词视为离散的符号,而是可以将它们表示为连续向量空间中的点,其中点之间的邻近度反映了含义的相似性。两个词在这个空间中越接近,它们就越可能在相似的上下文中使用。从符号匹配到几何推理的这一飞跃,成为了嵌入(embedding)的概念基础。

2013年,Tomas Mikolov、Jeff Dean(计算机科学界的 Chuck Norris)及其在谷歌的同事们发布了 Word2Vec,这是一对神经网络架构——连续词袋(CBOW)和 Skip-gram——能够从海量文本中学习这些向量表示。CBOW 根据上下文预测目标词;Skip-gram 则相反,根据目标词预测上下文词。两者都训练一个浅层神经网络,其隐藏层的权重构成了嵌入矩阵。

结果令人震惊。Word2Vec 不仅能将同义词聚类在一起,还能通过向量算术捕捉类比关系。著名的例子:

vector(“国王”) – vector(“男人”) + vector(“女人”) ≈ vector(“女王”)

这些并非硬编码规则,而是从数据中的共现模式中自然涌现出来的。机器第一次拥有了一个可数值化、可操作、可跨任务迁移的含义表示。

检索系统开始以两种方式采用嵌入:

  1. 基于嵌入的查询扩展:系统不再仅匹配输入的词项,而是可以从向量空间中拉取附近的词项,即时添加“语义同义词”。
  2. 稠密排序信号:可以将文档和查询映射到同一个向量空间中,相关性可以通过它们嵌入之间的余弦相似度来衡量,从而补充或取代传统的词法分数。

下一步的发展是将这一能力从词扩展到更大的单元。Paragraph Vector(Doc2Vec)将嵌入扩展到整个文档。通用句子编码器(USE)以及后来的 Sentence-BERT(SBERT)进一步完善了这一过程,为句子和段落生成高质量的嵌入,并针对语义相似度进行了优化。这使得将索引中的每个文档嵌入为一个固定长度的向量,并直接在含义层面(而非仅仅匹配词项)执行最近邻搜索成为可能。

在谷歌、必应及其他搜索引擎中,稠密嵌入首先出现在重排序阶段。词法引擎会检索出一个候选文档集合(例如,BM25 得分最高的前1000个),然后神经模型根据语义相似度对它们重新评分。这种混合方法保留了倒排索引的效率,同时受益于嵌入带来的语义覆盖范围。

从优化的角度来看,这是一次结构性的转变。突然间,只要你的内容含义相同,即使查询中从未提及你的精确关键词,你也有可能被检索到。但这也意味着关键词堆砌在很大程度上失去了其机械优势。战场正在从词项匹配转向含义匹配。”

谷歌的表示

到2010年代中期,谷歌早已超越仅将嵌入用于词或文档的范畴。如果说 Word2Vec 及其后继者为我们提供了一种数值化表示含义的方法,那么谷歌的下一个飞跃就是将其在搜索生态系统中关心的所有事物都嵌入其中。其目标不仅是改善检索,更是要创建一个统一的语义框架,使得任何对象——一个网站、一位作者、一个实体、一个用户画像——都可以在同一个高维空间中相互比较。

这是现代搜索中最少被讨论但影响最深远的转变之一。因为一旦你可以将任何事物表示为向量,就能测量出在词法空间中不可见的关系。

网站

整个网站和子域名现在都被表示为域名级的嵌入,这些嵌入捕捉了它们的主题足迹和权威性。谷歌如今不仅仅分析一个网站今天为什么词条排名,而是可以嵌入随时间积累的聚合内容和链接模式。例如,一个持续发布越野跑装备深度评测的网站,会在向量空间的“耐力运动装备”区域形成一个密集的簇。

然后,当一个新的查询到来时,检索系统不仅会寻找匹配的页面,还会倾向于选择那些嵌入位于查询嵌入附近的域名。这就是主题权威在幕后运作的一部分。即使你的具体页面在词法上匹配不多,该域名的“语义声誉”也能将其拉入候选集。

从 GEO(生成式引擎优化)的角度来看,这强化了为什么主题聚类和内容深度至关重要。你不仅是在构建页面,更是在训练你的域名嵌入,使其占据语义空间中的正确位置。

作者

谷歌还会为个体作者构建嵌入,数据来源包括署名、链接、结构化数据以及跨站点的发布模式。这些向量编码了主题专业性和可靠性信号。一位在可信赖的上下文中持续被引用为“运动医学”领域文章的作者,其嵌入将紧密围绕该领域聚类,谷歌可以根据查询意图来提升或抑制该作者的内容。

这与“E-E-A-T”(经验、专业性、权威性、可信赖性)直接相关——不是作为一个检查清单,而是作为一个可以与相关主题匹配的向量画像。这也解释了为什么作者身份的一致性、结构化作者页面以及跨站点的可信度对于生成式包含越来越重要。

实体

谷歌知识图谱中的每个实体(人、地点、组织、概念)都有一个嵌入。这些向量基于多语言和多模态数据,使谷歌不仅能将“埃菲尔铁塔”与“巴黎”和“古斯塔夫·埃菲尔”联系起来,还能连接到类似的结构、建筑风格和历史事件。

这展现了基于实体的搜索的全部威力:能够在不依赖共享语言或表面形式的情况下推理关系。如果一个日语查询写了“鉄の塔”(铁塔),谷歌仍然可以将其与英语、法语或任何其他语言中关于埃菲尔铁塔的文档联系起来。

对于 GEO 而言,这意味着你的实体覆盖度、结构化标记以及与知识图谱中权威节点的链接,直接影响你如何被嵌入和检索。

用户

谷歌武器库中最强大也最不透明的嵌入,或许是代表用户的那些嵌入。这些向量基于多年的搜索历史、点击模式、停留时间、设备使用情况、位置轨迹以及跨谷歌服务的交互行为构建而成,是一份行为指纹。

当用户搜索“jaguar”时,系统不仅查看查询的嵌入,还会考虑用户的嵌入——后者可能表明该用户偏好豪华汽车、野生动物纪录片,甚至是某支运动队。检索过程随后可以重新排列候选结果,以反映个性化的意图。

尽管作为 SEO 从业者我们看不到这些嵌入,但它们在 GEO 中很重要,因为这意味着没有两个用户真正看到相同的生成式输出。内容不仅必须匹配通用的查询空间,还必须足够健壮,能够为各种用户嵌入提供上下文效用。”

Transformer 架构(2017 年)

直到 2017 年,即便有了嵌入技术带来的提升,检索系统仍然受限于具有显著架构约束的模型。序列建模由循环神经网络(RNN)及其改进版本——长短期记忆网络(LSTM)和门控循环单元(GRU)——来处理。这些架构一次处理一个输入词元,并向前传递一个隐藏状态。这使得它们天然适合序列处理,但在计算上也本质上是顺序的——限制了并行性,并减慢了在大规模数据集上的训练速度。

RNN 还难以在长跨度上保持上下文。即使有了 LSTM 的门控机制,随着与相关词元距离的增加,含义仍可能“漂移”。这给段落检索等任务带来了瓶颈,因为单个相关细节可能深藏在一篇千字文档中。

突破出现在 2017 年 6 月,Vaswani 等人发表了《Attention Is All You Need》。这篇论文引入了 Transformer 架构,它用一种称为“自注意力”的机制完全取代了循环。自注意力不再一次处理一个词元,而是允许序列中的每个词元直接“关注”所有其他词元,并决定哪些词元对于解释其含义最相关。

在 Transformer 中,每个词元被表示为一个向量,自注意力计算注意力权重——本质上就是表示一个词元应在多大程度上影响另一个词元的分数。这些权重用于在每一层创建具有上下文感知能力的表示。至关重要的是,该架构是完全可并行化的,从而实现了巨大的速度提升,并使得在海量语料上进行训练成为可能。

对于信息检索而言,自注意力是一场革命。这意味着查询和文档的表示可以捕捉长距离依赖和微妙的关系,而不会随着距离增加而丢失信息。Transformer 能够理解“陆地上最快的动物”指的是“猎豹”,即使“猎豹”出现在一个长段落的最后一句。

BERT 与搜索中的上下文嵌入

Transformer 在搜索中最直接的应用出现在 2018 年底,谷歌整合了 BERT(来自 Transformer 的双向编码器表示)。BERT 以双向方式训练 Transformer,意味着它同时为每个词元考虑完整的左侧和右侧上下文。它产生的嵌入是上下文相关的。例如,“river bank”中的“bank”的向量与“bank account”中的“bank”完全不同。

在谷歌搜索中,BERT 首先被部署用于改善段落级理解,使得搜索引擎即使确切的查询词没有出现在同一个句子中,也能检索并高亮相关的片段。相比 Word2Vec 时代的嵌入,这实际上更进一步缩小了语义鸿沟。那些曾经返回边缘相关匹配的查询,现在可以呈现出更直接相关的结果,因为该模型更能理解完整上下文中的意图。

BERT 也改变了排序流程。谷歌不再仅仅依赖静态的文档嵌入,而是可以共同重新编码查询和候选文档以评估语义契合度,从而实现更精细的实时重排序。

GPT 与生成式转向

当 BERT 主导聚焦于检索的领域时,GPT 家族(生成式预训练 Transformer)展示了 Transformer 的另一面:生成。GPT 不像 BERT 那样使用掩码语言建模,而是采用自回归方式进行训练,即根据之前的所有词元预测下一个词元。这使得它极其擅长大规模地生成连贯、上下文相关的文本。

此后,GPT 的方法通过检索增强生成(RAG)与检索结合了起来。在 RAG 中,一个检索器模型找出相关段落,然后一个生成器模型将它们合成为自然语言的答案。在生成式搜索系统中,检索和生成这两个组件越来越多地由 Transformer 驱动,并且常常是联合训练或微调的。

“MUM 与多模态演进

到 2021 年,谷歌已经将 BERT 等 Transformer 集成到搜索中,用于上下文敏感的检索。但下一个重大飞跃将不仅仅是更好地理解文本——而是要理解任何格式、跨任何语言的信息,并将其连接到一个推理过程中。

这一飞跃在 2021 年 Google I/O 大会上以 MUM(多任务统一模型)的名义亮相。谷歌宣称 MUM 比 BERT 强大一千倍,但真正的重点不是这个数字,而是它的范围:MUM 在设计上是多模态、多任务和多语言的。

多模态检索与理解

传统的信息检索流程将每种模态(文本、图像、音频、视频)视为独立的孤岛,各自拥有专门的检索系统。MUM 通过同时在多种模态上进行训练,推倒了这些高墙。在实践中,这意味着同一个底层模型可以处理一个关于攀登富士山的问题,其中既包含文本(“秋天攀登富士山需要准备什么?”),也包含一张图片(一张你的登山靴照片)。

MUM 可以从文本旅行博客、装备评测视频、摄影徒步地图,甚至音频采访中检索相关结果——然后在它们之间进行推理以形成答案。这是可能的,因为模型学习了一个共享的嵌入空间,其中来自不同模态的内容可以直接进行比较。因此,展示如何绑冰爪的视频片段可以与描述该过程的文本位于同一个向量邻域中。

对于 GEO 而言,这一点至关重要:如果你只考虑文本,你就遗漏了整整几个检索通道。图像的替代文本、结构化的视频转录文本和音频索引元数据现在同样成为生成式包含中的一等公民。

多任务推理

MUM 的“多任务”部分意味着它可以在一个统一的流程中同时处理检索、分类、摘要、翻译和推理。

例如,如果你问“比较十月份富士山的步道状况与五月份雷尼尔山的步道状况”,MUM 可以:

  • 从天气 API、步道报告和旅行论坛检索相关数据
  • 翻译关于富士山状况的日语报告
  • 分类哪些来源是当前且相关的
  • 用你偏好的语言综合出一个比较性的答案

以前,这些步骤可能需要多个离散的系统,并在它们之间进行交接。现在,它们可以在一个 Transformer 模型内完成,从而减少延迟并提高最终输出的一致性。

跨语言能力

MUM 在 75 种以上语言上进行训练,能够在查询语言和内容语言不匹配的情况下实现跨语言检索。这使得模型能够跨越语言障碍获取高质量的来源,极大地扩展了生成式答案的证据池。

例如,一个关于在多洛米蒂山区徒步的英语搜索,可以检索并翻译一份近期意大利语的山地导游评论,而该评论尚未被英语媒体覆盖。从 GEO 的角度来看,这意味着任何语言的内容都可能成为全球检索中的竞争威胁——或资产。

MUVERA 与高效多向量检索的推进

如果说 MUM 代表了谷歌向多模态、多任务推理的飞跃,那么 MUVERA(于 2025 年推出)则解决了现代检索中另一个同样关键的挑战:在不牺牲性能的前提下扩展多向量搜索架构。

多向量模型(如 ColBERT)使用多个嵌入来表示每个查询或文档,通常每个词元对应一个嵌入。它们通过倒角相似度来计算相关性,该相似度衡量查询中的每个词元与其在文档中最接近的词元的对齐程度。这种方法能产生更精细的检索决策,尤其适用于长篇幅或异构内容,但计算成本巨大,尤其是在大规模索引和检索过程中。

MUVERA 引入了一个巧妙的解决方案:它将每一组嵌入(无论是文档还是查询的)转换为一个单一的固定维度编码(FDE)。FDE 是紧凑的向量,能够在数学保证下近似多向量的相似度,从而通过现有的最大内积搜索(MIPS)系统进行检索。

从高层次来看,这项工作实现了:

  • 效率:用快速、单向量的内积比较(衡量两个向量之间相似度的指标)取代昂贵的多向量相似度计算。
  • 准确性保持:FDE 能够近似两组点之间的倒角相似度距离(且误差可控),从而保持了精度。
  • 理论基础:MUVERA 提供了形式化的 ε-近似界限(使用更小的样本来评估大型数据集的准确性),首次实现了从多向量检索到单向量检索的原则性归约。
  • 实际影响:在 BEIR(信息检索基准测试,用于测试模型在未见过的全新数据上的表现)等基准检索数据集上,与之前最先进的系统(例如 PLAID,一种通过剪枝不相关文档来优化性能的延迟交互驱动系统)相比,MUVERA 的召回率提高了约 10%,延迟降低了约 90%。在达到相同召回率水平下,它检索的候选结果数量减少了 2 到 5 倍。

这个过程简洁而优雅:通过一种数据无关的分区方法将多向量表示转换为 FDE;使用标准的最大内积搜索(MIPS)引擎快速检索一个近似的候选集合;然后仅针对这个较小的集合计算精确的倒角相似度以进行最终排序。这种混合方法同时实现了扩展性和精度。

嵌入作为通用语言

在神经信息检索时代,嵌入是所有一切的基础:检索、排序、个性化、综合以及安全检查。它们使得跨模态和跨语言的直接比较成为可能,推倒了词法搜索永远无法跨越的孤岛。

GEO 思维模式的转变是清晰的:成功在于占据嵌入空间中的正确邻域。这意味着在文本、媒体和实体上持续地生产内容,使其在语义上与您希望主导的意图集群保持一致。

从检索到生成式综合

如果说从词法索引到神经嵌入的演进是教机器理解语言,那么生成式搜索的兴起则是教它们流利、有说服力地将语言反馈给我们,并以一种重塑可见性得失的方式。

我们已经从匹配关键词,到匹配含义,再到与那些实时检索和综合信息的系统进行交互。在这种新范式中,检索层不仅仅是排序的前奏——它是一个主动的守门人,决定你的内容碎片(如果有的话)哪些能够进入 AI 的综合答案。

在探讨了嵌入、Transformer 和多模态推理如何重新定义了搜索机制之后,GEO 实践者面临的下一项挑战是学习如何衡量、映射并影响其内容在生成式输出中出现的位置和方式。与熟悉的带有蓝色链接的 SERP 不同,这些系统不会提供一组稳定的十个结果和一个可见的排名位置。它们更像选择性的编辑,将多个来源的片段编织在一起,同时丢弃它们所看到的大部分内容。

我们现在的重点转向跟踪 AI 搜索可见性所需的策略、工具和分析框架。第 7 章将从剖析平台本身开始,从 AI 概览、ChatGPT 到新兴挑战者如 Perplexity 和 Copilot。我们将研究它们各自如何获取和归属内容,它们的透明度(或不透明性)对衡量意味着什么,以及在塑造你在它们答案中的存在方面存在哪些机会。

简而言之,如果本章是机器的蓝图,那么下一章将是关于学习如何解读机器的输出,从而为你的 GEO 策略提供信息并放大其效果。

Leave a Reply

Your email address will not be published. Required fields are marked *

Leave a Reply

Your email address will not be published. Required fields are marked *