如何出现在AI搜索结果中(GEO核心

via https://ipullrank.com/ai-search-manual/geo

无论是 Google 搜索中的 AI 概览、ChatGPT 中的对话式回复,还是 Perplexity 中的综合答案,内容创作者和企业现在面临的问题是如何在所有这些地方出现。

让我们来看一些可能实现这一目标的方法。

具体性和可提取的数据点

生成式引擎在其摘要中会验证、比较,并且经常引用内容。在这个过程中,具体的事实、数字、日期和可量化的数据点成为关键信号。你的内容越具体,就越有可能被选择、综合和呈现。

重点关注:

  • 包含具体的统计数据和可量化的事实:AI 更倾向于清晰的数字而非模糊的概括,例如使用‘85% 的用户’而不是‘大多数用户’。
  • 使用完整的日期,而不仅仅是年份或短语:模型使用时间戳来评估内容的新鲜度和上下文。写‘截至 2024 年 4 月’或‘在 2021 年至 2023 年之间’比‘近年来’能让模型更清晰。
  • 以可提取的格式呈现数据:使用表格、项目符号列表或明确标注的指标,例如‘Google 的 AI 概览在 2024 年 5 月出现在 51.4% 的美国搜索查询中’。
  • 用指向可信来源的链接支持主张:当引用数字或研究时,尽可能引用原始数据。这能提高你的感知权威性,并为模型提供可追踪的验证来源。

可衡量的数据有助于 AI 系统评估内容是否可信,从而使它们能够更自信地总结、跨多个来源对齐事实,并将你的内容识别为答案中可靠的贡献部分。

结构化数据与元信号

生成式 AI 模型可以在不阅读页面上每个词的情况下,消除主题歧义、识别实体并确定内容的有用性。它们已经超越了简单的关键词匹配,更加依赖结构化信号来解读和重组信息。Schema 标记、元描述和其他结构提示为它们提供了所需的清晰度,以在页面级别和单个元素内部理解你内容的含义、关系和效用。

这些信号不仅能提高可发现性,还能增强你在生成式输出中的包含度。

如果你要创建一个健壮的、机器可读的知识库,就必须超越 Schema.org,提供额外的指导层次。

以下是一些改进结构化数据的方法:

  • 自定义本体(Ontologies):本体是一个特定领域的、机器可读的正式地图。它定义了关键实体、它们的属性以及它们之间的关系。虽然 Schema.org 提供了通用词汇表,但自定义本体允许你为独特的内容创建更详细、更具体的模式。这对于拥有超出 Schema 范畴的精确信息的专业网站尤其有用,例如制药、银行和金融服务。
  • 内部知识图谱:内部知识图连接你所有内容的实体及其关系。它是你自己私有的 Google 知识图谱版本,创建一个相互关联的内容网络,使其在语义上完整。
  • 结构化内容 CMS:传统的 CMS 平台通常以页面为中心。结构化 CMS 允许你创建实体(例如‘弗吉尼亚州里士满’),并将它们映射到多个内容中。这使得维护内部知识图谱更加容易,并能显著增强 AI 对你内容的理解。

重点关注:

  • 在适用处使用 schema 标记
  • 实施与你的内容一致的结构化数据类型。对于 GEO 最有影响力的一些类型包括:
    • FAQPage:用于直接的问答格式
    • Product 和 Offer:用于商业相关内容
    • Organization 和 Person:用于实体消歧
    • HowTo:用于分步说明
    • ReviewEvent 和 Article:用于及时性和观点性内容
  • 全面而不仅仅是合规:仅仅通过富结果测试等验证工具是不够的。你定义实体、属性和关系越充分,AI 提取和重用你内容的上下文就越多。
  • 添加并维护准确的元描述:虽然元描述不是排名因素,但它经常出现在传统搜索摘要中,并可能影响 AI 系统如何总结或预览你的内容。确保它们简洁、具有描述性并与内容目的保持一致。
  • 使用清晰的标题层级和内部结构:正确使用 <h1><h2> 和 <p> 标签有助于搜索引擎和 LLM 分割和解释内容。这种结构清晰性有助于分块、摘要和实体提取。
  • 避免过度使用通用或不相关的标记:不要标记所有东西。滥用结构化数据(例如将 FAQPage 标记应用于内部链接列表)可能导致 Google 忽略它。专注于诚实、良好对齐的标记,反映实际的页面内容。

论坛与 UGC 的优先级

对于涉及故障排查、产品比较、亲身经历或小众用例的查询,AI 系统通常会优先考虑用户生成的内容(UGC)和论坛讨论。生成式模型看重这类内容,因为它反映了真实、多样、情境化的见解,而这些见解往往无法在更精致的品牌内容中找到。

随着 Google 的 Hidden Gems 更新以及 Reddit 和 Quora 的摘录在 AI 概览和对话式结果中越来越频繁地出现,这一趋势变得更加明显。

UGC 优先级

重点关注:

  • 理解何时 UGC 更受青睐。AI 系统倾向于在以下场景中展示论坛或用户讨论内容:
    • 技术故障排查和变通方法
    • 第一手产品反馈
    • 真实世界的使用技巧
    • “最好的……是哪个?”或“有没有人试过……”这类查询
  • 鼓励在你自己的平台上进行结构化贡献。如果你管理一个包含用户输入(例如评论、问答、论坛)的网站,请引导贡献者:
    • 使用完整的句子
    • 包含具体结果或配置(例如“当我在 Mac M1 上使用 X 时……”,而不是仅仅说“没用”)
    • 使用换行或项目符号分隔多部分答案。AI 模型偏爱结构化的语言,因为它更容易提取、总结和转述。
  • 尽可能使用清晰的标记来标记 UGC:使用 schema.org 的 ReviewQAPage 或 DiscussionForumPosting 来帮助搜索和 AI 系统识别用户响应并适当排序。
  • 针对内容效用进行优化。对于 UGC 密集的查询,回复的原始性可以是一种优势。AI 经过训练可以检测效用信号,例如:
    • 答案是否解决了用户的问题
    • 是否包含步骤或解释
    • 其他人是否点赞或回复了它(即互动作为质量的信号)
  • 监控 AI 如何展示公开的 UGC:AI 概览和 Perplexity 经常引用 Reddit 帖子、YouTube 评论和小众论坛。追踪发生这种情况的时间和方式,可以洞察非正式内容如何影响生成式摘要。

AI 引擎越来越倾向于超越企业博客和产品页面,去寻找真实人类问题的答案。对于 GEO 而言,这意味着内容策略应该考虑到你的受众在哪里以及如何分享见解。

高质量、实体丰富、对嵌入友好的语言

在传统 SEO 中,内容相关性通常意味着将正确的关键词放在正确的位置。但在 GEO 的背景下,关键词密度的重要性不如清晰度、相关性以及你的内容映射到向量空间的能力。

生成式 AI 系统通过将语言编码为称为嵌入的向量表示来工作。这些嵌入捕捉的是概念之间的关系,而不仅仅是词语之间的关系。你的内容越清晰、语义越丰富,AI 模型就越容易解析、理解和重用。

高质量、实体丰富、对嵌入友好的语言

重点关注:

  • 使用明确定义的实体写作:使用精确的语言来标识正在讨论的主要主题或概念。例如,不要说“这个工具”,而是说“Google Search Console”。命名实体(如品牌、人物、产品和地点)有助于 LLM 更有效地解析含义。
  • 使用一致的术语:为每个概念选择一个术语,并在你的内容中一致地使用它。LLM 难以处理同义词或模糊短语。重复精确的术语可以强化实体嵌入。
  • 包含修饰语和描述符:大小、功能、位置和目的等限定词有助于区分相似的实体。例如,“企业级 SEO 机构”比单纯的“机构”传达了更多含义。

清晰度助力在生成式系统中的可见性。你的目标是帮助模型在主题之间建立准确、有意义的关联。这使你的内容更容易被检索,并且作为 AI 回复的一部分更有用。

然而,这还不是全部。创建优质内容时的考虑可以更加深入。

分词(Tokenization)

分词是将文本分割成称为词元(tokens)的更小单元的过程。这些单元可以是词、子词,甚至是字符。这是大多数自然语言处理任务的基础步骤,对于分析文本、计算关键词密度以及为 BERT 等模型准备输入至关重要。分词也可用于保护敏感数据或处理大量数据。

示例:

对于句子“Google Search is evolving with AI Overviews”,分词可能会产生以下词元:“Google”;“Search”;“is”;“evolving”;“with”;“AI”;“Overviews”;以及“.”。

词性标注(POS Tagging)

词性标注为句子中的每个单词分配一个语法类别(例如名词、动词、形容词、副词)。这有助于模型理解文本的句法结构,这是诸如依存句法分析、命名实体识别和信息提取等更复杂的 NLP 任务的基础。

它还能很好地澄清多义词的歧义,并展示句子的语法结构,从而有助于 AI 搜索获得更好的语义理解。

示例:

对于句子“Optimizing content helps improve visibility in AI-driven search”,词性标注可能将“Optimizing”标记为动词,“content”标记为名词,“helps”标记为动词,“improve”标记为动词,“visibility”标记为名词,以此类推。

命名实体识别(NER)

命名实体识别是识别和分类文本中命名实体(人物、组织、地点、日期等)的任务。NER 对语义搜索、知识图谱构建、内容分类以及理解文档中提及的关键概念至关重要,它是聊天机器人、情感分析工具和搜索引擎的重要组成部分。它常用于医疗保健、金融、人力资源、客户支持和高等教育等行业。

示例:

在句子“Google and OpenAI are leading companies in the AI search space”中,NER 会将“Google”识别为 ORG(组织),也将“OpenAI”识别为 ORG。

词形还原(Lemmatization)与词干提取(Stemming)

词形还原和词干提取都是将单词简化为其基本形式或词根形式的方法。它们帮助信息检索系统和深度学习模型在文本分类、聚类和索引等任务中识别相关词汇。

  • 词形还原 将单词还原为其词典形式(lemma),确保根词本身是一个有效的词,并考虑单词的含义。
  • 词干提取 是一个更粗糙的过程,它从单词末尾切掉后缀以获得词干形式(stem)。不过,这个词干可能不是一个有效的词。

在 SEO 和 AI 搜索中,词形还原通常更受语义任务的青睐,因为它能更好地保留含义,从而实现更准确的关键词匹配和理解。

示例:

对于句子“Users were searching for optimized articles regularly”,

  • 词干提取可能产生:“user”;“were”;“search”;“for”;“optim”;“articl”;“regular”
  • 词形还原可能产生:“user”;“be”;“search”;“for”;“optimize”;“article”;“regularly”

语义分块(Semantic Chunking)

生成式引擎会提取片段(一个句子、段落或列表)并用它们来构建答案。因此,如果你的内容被埋没在长篇叙事中,它可能会被跳过。另一方面,如果它被清晰地分块且自包含,就会变得更有用。

为了提高被包含在生成式回复中的机会,你的内容需要被划分为清晰、自包含的块,每个块独自表达一个完整的想法。这种方法称为语义分块。

重点关注:

  • 每个段落一个想法:每个段落应清晰地传达一个要点。避免在一个段落中混合多个概念。Gemini 和 ChatGPT 等生成式系统会按段落分割页面,并且通常一次选择一个进行总结。
  • 使用项目符号和列表以提高清晰度:项目符号、清单和分步说明指示了层级关系,并帮助模型理解想法之间的关系。
  • 使用表格行和带标签的数据块:表格将信息分解为可预测、易于消化的格式。使用它们列出比较、功能集、定义或数据摘要——但要确保每一行即使单独阅读也有意义。
  • 避免依赖上下文的措辞:依赖“这个”、“那个”或“它”等代词而没有明确主语的句子,在脱离原始来源时可能会失去含义。使用具体名词并复述关键术语,以确保每个块都能独立工作。
  • 在内容块前添加简洁的标题:标题帮助 AI 模型对相关内容进行分组,并理解每个部分的范围。当模型选择要展示哪个块时,标题也充当标记。

将每个段落、项目符号或表格行视为一个潜在的独立答案。语义分块使你的内容更易提取、更易引用,并且更有可能出现在 AI 驱动平台上的摘要、精选答案或对话式结果中。

语义三元组

随着生成式引擎变得越来越复杂,它们更加依赖概念之间的结构化关系。支持这一点最有效的方法之一就是使用语义三元组来写作:即简单的主语-谓语-宾语短语,清晰地陈述事实。

语义三元组通过识别实体、建立联系并构建一个相互关联的概念网络,帮助搜索引擎更好地理解上下文,从而提供比单纯关键词更丰富的上下文信息。这些三元组是知识图谱的构建块,它们允许 AI 系统理解实体之间的关系,从而实现更智能的搜索结果、事实核查以及为 AI 概览提供结构化数据。

重点关注:

  • 编写清晰的主语-谓语-宾语陈述句:它们帮助 Gemini 和 Claude 等模型识别实体并将其映射到结构化的关系中。
    • “巴黎位于法国。”
    • “ChatGPT 由 OpenAI 创建。”
    • “Schema 标记提高了内容的可发现性。”
  • 使用一致的名词和动词:对关键主题和动作坚持使用常规的特定术语。重复可以强化向量空间中的清晰度,并帮助 AI 模型映射重复出现的关系。
  • 让每个句子成为一个完整、自包含的想法:避免像‘这个’或‘那个’这样模糊的指代。与其说‘这提高了可见性’,不如说‘Schema 标记提高了搜索结果中的可见性’。
  • 使用简单、易读的语言:当措辞直接且没有不必要的复杂性时,AI 表现更好。除非你同时定义了术语,否则避免使用行话。
  • 保持句子简短,段落紧凑:简短、清晰的段落更容易让 AI 准确地分块和总结。它们也能帮助读者浏览和记住关键点。

依存句法分析(Dependency Parsing)

依存句法分析通过展示词语之间作为‘核心词’和‘依存词’的关系来分析句子的语法结构。它创建一个树状结构,揭示词语之间的句法关系(例如,哪个词修饰哪个词,或主谓关系)。对于 AI 搜索而言,这对于理解句子含义、共指消解和准确的信息提取至关重要。

一个依存关系通常涉及两个词:一个充当核心词,另一个充当其子节点。

示例:

对于句子“The quick brown fox jumps over the lazy dog”,依存句法分析会显示“quick”和“brown”修饰“fox”,“jumps”是根动词,“fox”是“jumps”的主语,“dog”是“over”的宾语。

斯坦福大学的 Daniel Jurafsky 和 James Martin 创建了这张图来描绘依存句法分析的不同部分:

(此处为示意图描述)

共指消解(Co-reference Resolution)

共指消解是识别文本中所有指向同一现实世界实体的表达式的任务。在“张三去了商店。他买了牛奶”这句话中,我们将‘他’或‘张三’这样的语言表达式称为指称项,将‘张三’称为所指对象。两个或多个指向同一话语实体的表达式被称为共指

对于 AI 搜索来说,共指消解对于理解文档的完整上下文、知道文本中在讨论谁、准确总结信息以及在代词或同义词被用来指代同一实体的情况下回答复杂问题至关重要。

示例:

以这段文本为例:“谷歌发布了一个新的 AI 模型。这家公司预计它将彻底改变搜索。他们计划明年推出它。”共指消解会将“谷歌”、“这家公司”和“他们”链接到同一实体(谷歌)。

关键词提取(TF-IDF, TextRank)

关键词提取是一项自动化信息处理任务,它识别文本中最重要的一些词或短语,以提供文本摘要。两种关键词提取技术包括:

  • TF-IDF (词频-逆文档频率):一种统计度量,用于评估一个词在文档集合中对某篇文档的相关性。它随着该词在文档中出现的次数增加而增加,但同时会被该词在整个语料库中的出现频率所抵消。
  • TextRank:一种基于图的排序算法,通过分析词语的共现关系来识别重要的句子或关键词。

这两者对于理解文档的主要主题、针对特定关键词优化内容,以及为 SEO 和 AI 搜索制定内容策略都非常重要。

示例:

对于一篇题为“AI 在 SEO 中的未来”的博客文章,关键词提取可能会识别出诸如“AI”、“SEO”、“未来”、“搜索”、“优化”、“排名”等术语。

主题建模(Topic Modeling)

主题建模算法发现文档集合中出现的抽象主题。它们自动聚类那些在文档中经常一起出现的词语,目的是识别词组以及潜在的主题和议题。

向量空间中的主题建模

一些比较流行的模型包括:

  • 潜在狄利克雷分配(LDA):一种生成式概率模型,假设文档是主题的混合,而主题是词语的混合。
  • 非负矩阵分解(NMF):一种线性代数技术,将文档-词项矩阵分解为两个矩阵,分别代表文档-主题分布和主题-词项分布(NMF 和 LDA 都适用于对长篇文本数据进行主题建模)。
  • 基于 BERT 的主题建模(BERTopic):利用 Transformer 嵌入创建稠密的文档表示,然后对这些嵌入进行聚类以发现主题。

主题建模对于内容差距分析、理解用户跨查询的意图、对相似内容进行分组,以及为 SEO 制定内容聚类策略都很有效。

示例:

分析一组 SEO 文章可能会揭示诸如“链接建设策略”、“页面 SEO 优化”、“技术 SEO 审计”和“用于 SEO 的内容营销”等主题。

情感分析(Sentiment Analysis)

情感分析(或观点挖掘)确定一段文本背后的情感基调,是积极的、消极的还是中立的。

在 SEO 中,情感分析可用于分析客户评论、社交媒体提及和竞争对手内容,以衡量品牌认知度并确定需要改进的领域。对于 AI 搜索,理解情感会影响结果排名和个性化推荐。

示例:

以下是对客户评论进行情感分析的示例:

  • “这个工具太棒了,强烈推荐!” = 积极
  • “客户支持太糟糕了。” = 消极
  • “这篇文章提供了一些信息。” = 中性

文本摘要(Text Summarization)

文本摘要将较长的文本压缩为更短、更连贯的版本。为此,它使用两种不同的方法:

  • 抽取式摘要:直接从原始文本中识别并提取关键句子或短语来形成摘要。
  • 生成式摘要:生成新的句子和短语来创建重要信息的摘要,这些信息可能在原始文本中并不直接存在。这种方法通常需要先进的自然语言理解模型,在信息混乱或非结构化的情境下往往能给出更好的结果。

摘要对于生成 AI 概览、创建元描述、总结长篇文章以便快速浏览,以及为 AI 搜索结果生成简洁的内容片段都至关重要。

示例:

对于一篇题为“搜索引擎中的机器学习”的长篇文章,抽取式摘要可能会挑选出主要的主题句,而生成式摘要可能会合成一个全新的、简洁的概述。

实体链接/消歧

实体链接(又称实体消歧)是将从文本中提取的命名实体映射到知识库中唯一、无歧义的条目的过程。

实体链接对于语义搜索至关重要,因为它能确保搜索引擎准确理解查询所指的实体,从而实现更精确的结果,并让 AI 系统更深入地理解内容。

示例:

在句子‘Apple released a new iPhone’中,‘Apple’会被链接到苹果公司(组织)。在‘I ate an apple’中,‘apple’会被链接到苹果(水果)。

文本分类(Text Classification)

文本分类是为文本片段分配预定义类别或标签的任务,使计算机能够解释和组织大量数据。它具有高度的通用性,可用于:

  • 垃圾邮件检测:将电子邮件或评论分类为垃圾邮件或非垃圾邮件
  • 内容分类:将文章分配到不同主题(例如‘技术’、‘金融’、‘健康’)
  • 用户意图分类:确定用户查询背后的目的

在 SEO 中,文本分类帮助搜索引擎对内容进行分类以更好地组织,识别低质量内容,并理解页面的主题相关性。在 AI 搜索中,它有助于过滤不相关的结果并结构化信息以实现更好的检索。

示例:

  • 新闻文章 = ‘技术’类别
  • 博客评论‘好文章!’ = ‘非垃圾邮件’

词嵌入(Word Embeddings)

词嵌入是捕捉词语语义含义的稠密向量表示。含义相似的词在这个多维空间中彼此距离更近,这有助于文本分类、情感分析和机器翻译等任务。

Gemini 嵌入是 Google DeepMind 开发的一种先进嵌入模型,建立在 Gemini 之上,为从单词到较长短语的各种文本粒度提供了一种统一的、生成上下文感知嵌入的方法。它支持超过 250 种语言的文本,还能处理代码。

Gemini 嵌入可用于分类、相似性搜索、聚类、排序和检索等任务。

示例:

‘国王’的嵌入在语义上会接近‘女王’和‘王子’,而向量运算‘国王 – 男人 + 女人’的结果会接近‘女王’。

文档嵌入(Document Embeddings)

文档嵌入(或句子嵌入)是捕捉整个文档或句子语义含义的向量表示。它们允许比较较大文本块之间的相似性。

生成文档嵌入的三种方法是:

  • Doc2Vec:一种将每个文档映射到固定长度向量的技术,使用户能够捕捉整个文档或段落的语义含义。
  • Sentence-BERT:对原始 BERT 模型的改进,使用孪生网络和三胞胎网络结构来生成具有语义意义的句子嵌入。
  • 通用句子编码器(USE):一个预训练的文本模块,提供将句子转换为向量表示的句子嵌入模型。

示例:

一篇关于‘可持续能源’的文章的文档嵌入,会与其他关于可再生能源的文章的嵌入接近,但会远离关于‘古罗马历史’的文章。

抄袭检测(Plagiarism Detection)

抄袭检测用于识别文本被复制而未正确注明出处的实例。利用 Gemini 嵌入可以实现 robust 的语义抄袭检查,不仅能检测出完全相同的副本,还能检测出高度相似的改写内容。这对于维护内容原创性和避免搜索引擎处罚至关重要。

示例:

将一篇新生成的文章与现有文章语料库进行比较,根据语义接近度检测被复制的短语或段落。

异常检测(Anomaly Detection)

异常检测用于识别数据中的异常模式或离群值。在面向 SEO 的自然语言处理中,这可以应用于内容质量检测,例如检测:

  • 可读性分数的突然下降
  • 异常的关键词填充模式
  • 某内容类型的异常低或高的词数
  • 评论中负面情绪的激增

这有助于主动识别可能影响 SEO 表现的潜在内容问题,或指示需要审查的内容,例如错误、异常事件或潜在欺诈。

示例:

多篇文章中突然大量使用一个看似不相关的关键词,或者某条评论的情感分数与其他评论相比极端异常。

可读性评分(Readability Scoring)

可读性评分用于评估阅读和理解一段文本的难易程度。在 SEO 中,优化可读性可以改善用户体验、降低跳出率并使内容更易于访问,所有这些都间接向搜索引擎传递了质量信号,并且是影响 AI 概览的直接因素。

可读性测试包括:

  • Flesch-Kincaid
  • Gunning Fog
  • SMOG(简易迷雾指数)

所有这些指标都考虑句子长度、单词长度和音节数等因素,来确定文本的大致阅读水平,或者说一个人需要多少年的教育才能理解它。

示例:

一篇复杂的学术论文可读性得分较低,而一篇简单的博客文章得分较高。

语义搜索(向量搜索)

语义搜索理解查询背后的含义和意图,超越了关键词匹配。它使用像 Gemini 这样的强大嵌入来查找与查询语义相似的文档,即使文档中不包含确切的关键词。这是现代 AI 驱动的搜索引擎的基石,能够提供更相关、更细致的结果。

示例:

搜索‘可持续能源’可能会返回关于‘可再生能源’、‘太阳能电池板’或‘风力发电场’的结果,即使文档中没有出现‘可持续能源’这个确切的短语。

从何处开始 GEO?

在 AI 搜索中获得可见性没有一刀切的公式,但模式正变得清晰。结构化数据、语义清晰度、具体的语言和技术可访问性,都在 AI 系统如何评估和使用内容中发挥着作用——这些系统被训练来理解的不仅仅是词语,还有含义、上下文和有用性。

GEO 处于技术 SEO、内容策略和 NLP 的交叉点。做好它意味着了解模型如何解读网络,并向它们提供可以信任、提取和重用的内容。

创建此类内容需要关注相关性。为可见性而设计最相关的内容涉及语义评分、优化段落和测试向量嵌入。在下一章中,我们将更深入地探讨相关性工程的过程

Leave a Reply

Your email address will not be published. Required fields are marked *

Leave a Reply

Your email address will not be published. Required fields are marked *