面向生成式搜索的技术性SEO:为AI代理进行优化

via https://searchengineland.com/technical-seo-generative-search-optimizing-ai-agents-473039

控制 AI 机器人如何访问你的网站,为内容提取构建结构化信息,并提高你在 AI 生成答案中被引用的机会。

技术性 SEO 的范畴已超越索引,扩展到内容如何被发现和使用——尤其是在 AI 系统生成答案而非列出页面的当下。

对于生成式引擎优化(GEO)而言,底层的工具和框架大体保持不变,但你的实施方式决定了你的内容是被呈现出来,还是被忽视。

这意味着要关注 AI 代理如何访问你的网站、内容如何为提取而构建,以及它在生成的回答中能被多可靠地解释和重用。

代理访问控制:管理机器人的边界

从技术角度来看,robots.txt 是你 SEO 工具库中已经使用的工具。你需要在文件中添加正确的爬虫规则,为特定的机器人授予相应的权限。

例如,你可能希望像 GPTBot 这样的训练模型能够访问你的 /public/ 文件夹,但不能访问 /private/ 文件夹,那么你需要做类似这样的设置:

text

User-agent: GPTBot
Allow: /public/
Disallow: /private/

你还需要在模型训练与实时搜索及引用之间做出决定。你可以考虑禁止 GPTBot 而允许 OAI-SearchBot。

在你的 robots.txt 中,还需要考虑 Perplexity 和 Claude 的相关标准,它们与以下机器人绑定:

Claude

  • ClaudeBot(训练)
  • Claude-User(检索/搜索)
  • Claude-SearchBot

Perplexity

  • PerplexityBot(爬虫)
  • Perplexity-User(搜索者)

除了代理访问控制,还有一个新的协议 —— llms.txt,这是一个基于 Markdown 的标准,为 AI 代理提供了一种结构化的方式来访问和理解你的内容。

虽然它尚未集成到每个代理的算法或设计中,但这是一个值得关注的协议。例如,Perplexity 提供了 llms.txt,你可以在这里查看。你会遇到两种形式的 llms.txt:

  • llms.txt:一个简洁的链接地图。
  • llms-full.txt:文本内容的聚合文件,使得代理无需抓取你的整个网站。

即使谷歌和其他 AI 工具目前没有读取 llms.txt,也值得为将来的使用而适配。你可以在下面看到 John Mueller 对此的回复:

(John Mueller 关于 llms.txt 的回复截图)

可提取性:让内容成为“片段就绪”

GEO 更侧重于信息块(或称“片段”),以提供精确的答案。内容臃肿是可提取性面临的一个问题,这意味着 AI 检索在以下方面会遇到困难:

  • JavaScript 执行
  • 面向关键词优化的内容(而非面向实体优化的内容)
  • 薄弱的内容结构,无法提供清晰、简洁的答案

你需要让核心内容对用户、机器人和代理都可见。使用语义 HTML 可以更轻松地实现这一目标,例如:

  • <article>
  • <section>
  • <aside>

目标是什么?将核心事实与模板化内容区分开,这样你的网站就能出现在答案块中。保持上下文窗口精简,使 AI 代理无需截断即可阅读你的页面。创建内容片段将同时为搜索引擎和代理机器人提供养分。

结构化数据:知识图谱的连接组织

Schema.org 长期以来一直是获取富摘要的首选工具,但它也正在演变为一种在线连接你实体的方式。我这么说是什么意思呢?在 2026 年,你可以(而且应该)优先考虑使用以下这些 schema:

  • Organization 和 sameAs:一种将你的网站与关于你的已验证实体(如 Wikipedia、LinkedIn 或 Crunchbase)联系起来的方式。
  • FAQPage 和 HowTo:你内容中容易实现的部分,例如常见问题或操作指南内容。
  • SignificantLink:一种向代理指明“嘿,这是一个权威的信息支柱”的指令。

为代理连接信息和数据,能让你的网站或业务更容易在这些平台上被呈现。一旦掌握了基础,你就可以专注于性能和新鲜度了。


获取搜索营销人员信赖的新闻通讯。

在此处输入您的电子邮件。
立即注册!
查看条款。


性能与新鲜度:真相的延迟

AI 不断在互联网上搜寻,以维护新鲜的数据集。如果信息过时,平台对用户的价值就会降低,这就是为什么检索增强生成(RAG)必须成为你的一个关注焦点。

RAG 允许 AI 模型(如 ChatGPT)在运行时通过提示词将外部上下文注入到回答中。你希望你的网站成为 AI 实时搜索的一部分,这意味着要遵循前面章节的建议。此外,还要关注页面速度、服务器响应时间和错误等因素。

除了 RAG,还要为你的内容添加“最后更新”信号。<time datetime=""> 是实现这一目标的一种方式,同时配合 schema 头部信息,这些对于以下类型的查询至关重要:

  • 新闻类查询
  • 技术类查询

现在你可以开始通过审计来衡量你的成功,看看你的努力如何为客户转化为实际成果。

深入了解:在 AI 时代如何保持内容新鲜


衡量成功:GEO 技术审计

你已经准备好了一切,整装待发,但如果没有审计,就无法设定成功的基准。需要重点关注的几个审计领域是:

  • 引用份额:排名仍然存在,但现在是时候也要关注提及次数了。你可以手动完成这项工作,但对于大型网站,你需要使用像 Semrush 这样的工具。
  • 日志文件分析:代理是否在访问你的网站?如果是,哪些代理在访问哪里?你可以通过日志分析来实现,甚至可以使用 AI 来帮助解析所有数据。
  • 零点击引荐:自定义跟踪参数可以帮助你识别流量来源和“阅读更多”链接,但它们只能描绘部分图景。你还需要意识到,代理可能会附加你的参数,这可能会影响你真实的引荐数据。

衡量成功可以向你展示你努力的有效性,并确保你拥有可以分享给客户或管理层的 KPI。


将 GEO 扩展到 2027 年

为 2027 年准备你的 GEO 策略,需要你改变对待技术性 SEO 的方式,但它仍然建立在你当前的努力之上。你需要尽可能多地实现自动化,尤其是在拥有数百万个自定义 GPT 的世界里。

手动优化?抛弃它,转而采用一种无需无尽人力的可扩展方案。

长期以来,技术性 SEO 一直是网站排名的核心,确保你为搜索机器人和爬虫提供一个易于抓取和索引的资产。

现在呢?它正在转变。

你的网站必须成为全球模型事实上的真实来源,而这只有通过使用你手头的工具才能实现。

从你的 robots.txt 开始,逐步向上处理结构、碎片化数据和可提取性。随着时间的推移审计你的成功,并不断调整你的努力,直到看到积极的结果。然后,通过自动化进行扩展。

Leave a Reply

Your email address will not be published. Required fields are marked *

Leave a Reply

Your email address will not be published. Required fields are marked *