AI可抓取性:SEO从业者确保AI搜索可见度须知

原文:https://www.womenintechseo.com/knowledge/ai-crawlability-for-ai-search/

AI驱动搜索的兴起,为线上可见度引入了一项新的、不容妥协的要求:AI可抓取性

在一个问答引擎能够提及或引用你的品牌之前,其网络爬虫首先必须能够找到并理解你的内容。如果它们做不到,那么无论你传统的SEO表现多么强劲,你的品牌在AI搜索中都等同于隐形。

本文将剖析这一新挑战,探讨AI爬虫的工作方式、哪些因素会阻碍它们,并向您展示如何判断您的网站在多大程度上正被AI抓取和理解。

AI爬虫如何工作
要获取最大化AI搜索可见度所需的关键洞察,理解AI爬虫与搜索引擎爬虫(谷歌、必应等使用的)有何不同至关重要。

AI爬虫不执行JavaScript
AI爬虫与搜索引擎爬虫的一个主要区别在于它们处理JavaScript的方式。JavaScript是一种编程语言,常用于创建网站上的交互功能,例如导航菜单、实时内容更新和动态表单。品牌方常依赖JavaScript来提升用户体验或提供个性化内容。

与谷歌爬虫(谷歌爬虫在初次访问网站后可以处理和渲染JavaScript)不同,大多数AI爬虫不执行JavaScript。这通常是由于大规模渲染动态内容所需的高昂资源成本。因此,AI爬虫仅访问网站提供的原始HTML,而忽略任何由JavaScript加载或修改的内容。

这意味着,如果你的网站严重依赖JavaScript来呈现关键内容,你必须确保相同的信息能在初始HTML中被访问到,否则AI爬虫可能无法正确解读和处理你的内容。

设想一个像家得宝这样的品牌,使用JavaScript加载关键产品信息、客户评论或价格表。对于网站访客,这些细节无缝呈现。但是,由于AI爬虫不处理JavaScript,这些动态呈现的元素将不会被问答引擎看到或索引。这会严重影响你的内容在AI回答中的呈现方式,因为重要信息对这些系统而言可能完全不可见。

抓取速度和频率差异
在Conductor公司,我们发现AI引擎抓取我们内容的频率高于传统搜索引擎爬虫,在我们的客户内容中也观察到了类似的模式。尽管这不是一个硬性规定,但在某些情况下,我们看到AI爬虫访问我们页面的次数是谷歌或必应的100倍以上。

这意味着新发布或优化的内容有可能在发布当天就被AI搜索抓取到。但正如SEO一样,如果内容质量不高、缺乏独特性或技术架构不完善,AI也不太可能将其作为可靠来源进行推荐、提及或引用。请记住,第一印象至关重要。

为何给AI爬虫留下良好第一印象比传统爬虫更重要
对于像谷歌这样的传统搜索引擎,你有一个安全网。如果你需要修复或更新一个页面,可以通过Google Search Console请求重新索引。但对于AI机器人来说,这种手动覆盖机制并不存在。你无法要求它们回来重新评估一个页面。

这大大提高了初始抓取的重要性。如果一个问答引擎访问你的网站并发现内容单薄或存在技术错误,它可能需要很长时间才会再次抓取——如果它还会回来的话。你必须确保从发布那一刻起,你的内容就已准备就绪且技术架构完善,因为你可能没有第二次机会来留下关键的第一印象。

计划性爬虫足以保障AI可抓取性吗?
在AI搜索热潮兴起之前,许多团队依赖每周甚至每月一次的计划性网站爬虫来发现技术问题。从SEO监控的角度看,这并不是一个理想的解决方案,而考虑到AI搜索爬虫的速度和不可预测性,现在这已经不再可行。因为一个阻碍AI爬虫访问你网站的问题,可能会在几天甚至几周内都未被察觉。由于AI爬虫可能不会再访你的网站,这可能会在你从报告中发现问题之前,就严重损害你的品牌在问答引擎中的权威性。这就是为什么实时监控对于在AI搜索中取得成功如此关键。

聚焦:Conductor案例分析
让我们以conductor.com上的内容为例。在我们的研究中,我们利用了Conductor Monitoring的AI爬虫活动功能,发现ChatGPT和Perplexity不仅比谷歌和必应更频繁地抓取页面,而且在发布后,它们抓取页面的速度也比传统搜索引擎爬虫更快。

(截图:来自Conductor Monitoring的AI可抓取性数据,表格比较了ChatGPT、Perplexity、谷歌和必应的月度抓取频率。)

下方截图(摄于页面发布五天后)显示,ChatGPT访问该页面的频率大约是谷歌的八倍,而Perplexity访问频率大约是谷歌的三倍。这非常显著,说明了问答引擎引用你内容的速度有多快,以及AI/大语言模型爬虫获取更新和优化的频率可能有多高。

(截图:Conductor Monitoring中的搜索引擎活动表,比较ChatGPT、Perplexity、谷歌桌面版和移动版、必应的月度抓取频率和最近访问时间戳。)

下方截图中的折线图显示了自发布日期7月24日以来,各引擎的抓取频率。虽然谷歌移动版在7月24日最先抓取了该内容,但在24小时内,Perplexity的抓取次数已与之持平,而ChatGPT的抓取次数则是其三倍。

此细分显示了搜索引擎和问答引擎爬虫访问的频率,以及最近一次访问的日期。

如您所见,在抓取频率方面,谷歌已基本赶上问答引擎,谷歌桌面版每月访问页面的次数略高于Perplexity,略低于ChatGPT。

然而,必应和谷歌移动版的访问次数仍然远少于任一问答引擎。

(截图:Conductor Monitoring中的折线图,显示AI机器人和搜索引擎(包括ChatGPT、Perplexity、谷歌、必应)随时间的每日抓取活动。)

核心要点

  • 新内容可能在发布当天就被问答引擎和大语言模型抓取。 因此,创建新内容、优化现有内容并追踪其表现以确保可抓取性,对于维护和建立品牌在AI领域的权威性与可见度至关重要。
  • 大语言模型抓取你内容的频率可能远高于传统搜索引擎。 这背后可能有很多原因,并且目前尚不完全清楚是什么触发了问答引擎去抓取某个网站或内容。这正是实时监控能发挥巨大作用的地方。它可以显示哪些页面正在被抓取、哪些没有被抓取,以及频率如何,从而让你找到优化的机会。
  • 如果AI不经常抓取你的网站,很可能意味着内容或底层技术存在问题。 审计你内容的质量、技术健康度以及网站的整体健康状况,以确保你的内容能够轻松地被大语言模型抓取和索引。

哪些因素会阻碍AI爬虫以及如何修复?

多种技术问题会阻碍AI爬虫正常访问、索引和理解你的内容。具体而言,以下因素会影响AI机器人抓取你内容的能力:

过度依赖JavaScript
与传统搜索机器人不同,大多数AI爬虫不渲染JavaScript,只能看到页面的原始HTML。这意味着任何依赖JavaScript加载的关键内容或导航元素对AI爬虫来说都不可见,从而阻止问答引擎充分理解和引用这些内容。

缺少结构化数据/Schema
使用Schema(或称结构化数据)来明确标注作者、关键主题和发布日期等内容元素,是最大化AI可见性的最重要因素之一。它能帮助大语言模型分解和理解你的内容。如果没有它,你将使问答引擎更难以高效解析你的页面。

技术问题
你网站上的链接是否会将访客导向404页面?你的网站加载速度慢吗?像核心网页指标差、抓取间隙、死链这样的技术问题,会影响问答引擎理解和抓取你网站的方式。如果这些问题持续数天或数周,它们将阻止AI高效、正确地抓取你的内容,进而影响你网站的权威性、专业性和AI搜索可见度。

受限/需授权访问的内容
一个常见的困惑点是AI机器人是否能绕过登录墙抓取受限内容。需要明确的是:大语言模型及其爬虫无法访问需要填写表单、用户登录、密码或付费订阅的内容。

AI爬虫以未登录用户的身份运行。这意味着登录页面或付费墙周围的内容变得至关重要。内容中心、落地页或登录页面上的元数据——标题标签、描述和Schema标记——是大语言模型将抓取并用来代表你专业性的内容。落地页本身实际上成为了在AI搜索中被引用或提及的”代表性资产”。

实用资源: 想了解如何在潜在客户生成与可见度之间取得平衡,请查看这份关于《受限内容与AI可发现性》的指南。

托管服务商可能默认屏蔽LLM机器人
即使你的robots.txt文件设置得完美无缺,一些SEO从业者发现,他们为使内容可抓取而做的工作,可能会被CMS或托管服务商的设置所破坏。许多共享托管平台和云防火墙默认会阻止新的或无法识别的用户代理,包括LLM爬虫,以此作为防止网络抓取的安全措施。

你可能需要主动检查和配置主机级防火墙或托管服务商的Web应用程序防火墙设置。如果某个LLM爬虫被阻止,解决方案通常是向你的主机支持团队请求解除阻止,或在防火墙设置中将该机器人的IP范围加入白名单,而不仅仅是调整robots.txt文件。

你应该在robots.txt中允许哪些AI爬虫?
SEO和AEO从业者面临的最常见问题之一是如何管理越来越多的、访问其网站的新的AI和大语言模型用户代理。关键在于平衡:允许合法的爬虫获得可见性,同时防范恶意的抓取工具。

  • 主要的、合法的大语言模型爬虫: 虽然新的机器人不断涌现,但像OpenAI的GPTBot、Perplexity的PerplexityBot以及其他大型科技公司潜在的爬虫等主要引擎的机器人通常应被允许。这些是最有可能产生高价值引用和可见度的来源。
  • 如何验证一个机器人: 始终根据引擎所有者发布的公开记录核对机器人的IP地址。声称是合法用户代理但来自未知IP地址的机器人应予以阻止。
  • 限流与阻止: 如果合法机器人导致负载问题,可以实施crawl-delay指令或主机级限流(而非完全阻止)来管理资源使用,同时仍允许索引。只阻止那些未经验证、滥用或明确标记为抓取工具的用户代理。

如何判断你的网站是否可被抓取?
如果你不知道问题出在哪里,就无法修复。你需要深入了解你的内容表现如何,以及是否存在任何阻碍AI/大语言模型抓取你网站和内容的障碍。

在日志文件中追踪AI爬虫
了解你网站真实的AI可抓取性的第一步是分析服务器日志。虽然专门的监控平台是终极解决方案,但对于任何SEO或AEO从业者来说,识别爬虫模式都至关重要。

  • 如何识别AI爬虫: 寻找独特的用户代理,如GPTBot、PerplexityBot或CCBot。在日志中筛选这些代理,将显示它们的访问量和频率。
  • 健康的AI抓取活动是什么样的: 健康的模式显示对你高权威和最新更新的页面进行频繁且深入的抓取。它应该反映出前面讨论过的高频率,通常比传统搜索机器人更频繁地访问关键页面。
  • 识别异常的阻止或失败: AI机器人访问量突然下降,或与其用户代理关联的大量4xx或5xx响应,都预示着静默失败。这意味着你的内容很可能被防火墙、服务器错误或错误的robots.txt指令所阻止。

投资实时解决方案来追踪AI爬虫活动
从传统SEO的角度来看,你可以检查服务器日志或Google Search Console来确认谷歌爬虫是否访问过某个页面。对于AI搜索,这种确定性的水平并不存在。AI爬虫的用户代理是新的、多种多样的,并且常常被标准分析和日志文件分析器所遗漏。

这就是为什么了解你的网站是否真正能被AI抓取的唯一方法是拥有一个专用的、持续运行的监控平台,专门跟踪AI机器人的活动。没有一个能够识别来自OpenAI、Perplexity和其他问答引擎爬虫的解决方案,你就只能靠猜测。了解你网站的可抓取性是第一步;一旦你能看到网站上的AI爬虫活动,你就可以利用实时数据的好处来优化你的策略。

实时监控对AI可抓取性有什么好处?
由于AEO/GEO和AI问答引擎可见度仍处于起步阶段,该行业正在试验优化AEO并成为问答引擎信赖的首选来源的方法。

Conductor Monitoring旨在通过7×24小时智能监控和一套功能套件帮助你驾驭这一转变,这些功能提供了关于AI机器人是否、何时以及在何处抓取你内容的洞察。通过Conductor Monitoring,你可以看到:

  • AI爬虫活动: 跟踪爬虫访问可以显示大语言模型是否再次访问你的网站,或者它们是否只访问过一次且没有返回。这就是我们在conductor.com案例研究中展示的情况,我们展示了AI抓取我们的Profound对比落地页的速度有多快。
  • 抓取频率细分: 此功能提示你哪些页面可能受益于优化和/或审查。如果一个大语言模型在数小时甚至数天内没有访问某个页面,可能意味着该页面存在技术或内容相关问题,使其在AI搜索中被引用的可能性很低。
  • Schema追踪: 你可以在Conductor中创建一个自定义细分,以便在任何页面发布时(如果该页面没有相关的Schema标记)收到警报。这让你了解你的关键页面是否有Schema,或者你是否应该添加它以使问答引擎机器人更容易抓取和理解你的内容。
  • 性能监控(核心网页指标): 集成了Conductor Lighthouse网页指标的客户可以查看他们的用户体验性能评分。如果这个数字很低,意味着问答引擎抓取你内容的可能性较低。
    • 我们的一位客户,一家市场领先的工业技术公司,拥有一个庞大的网站和多个子域名,他们曾难以全面监管。网站的某些部分运行得很好,而另一些则有改进空间。这导致了网站性能和用户体验的不一致。借助Conductor Monitoring,该团队能够监控其每个子域名,识别性能问题,并在其AI搜索可见度受到影响之前解决它们。
  • 实时警报: 实时警报会在网站任何页面出现问题时立即通知你,一经发现即刻通知。然后,这些问题会根据影响程度进行优先级排序,以便你可以对最重要的事项采取行动,并保持强大的技术健康状况。

实时监控带来的不同:Conductor Monitoring客户案例研究
艾默生是全球自动化领域的领导者,致力于改造工业制造业。艾默生网站拥有超过100万个独立网页,并在30多个不同的地区运营。

要自行抓取和监控所有这些页面是一项艰巨的任务,尤其是考虑到每种语言和地区的细微差别。因此,艾默生仅抓取其美国英语地区的页面就需要数天时间,导致问题长时间未被发现。等到他们发现问题时,其性能和可见度(无论是在AI搜索还是传统搜索引擎中)已经受到了影响。

艾默生团队决定利用Conductor Monitoring来7×24小时抓取和监控其超过100万个页面的内容,以及复杂的业务和产品细分。Conductor Monitoring会在任何问题出现时提醒团队,甚至根据业务影响对问题进行优先级排序以进行分类处理。这使得团队能够轻松识别问题并采取行动解决。

总体而言,Conductor Monitoring帮助艾默生将技术问题减少了50%,并提高了其在问答引擎中的可发现性。

想亲自试试吗?通过Conductor Monitoring免费试用,获得所需的7×24小时监控,以监督和优化网站的每一页。

快速见效措施以提升AI可抓取性
以下是你可以采用的一些举措,以提高你的内容被AI爬虫抓取和理解的机会,从而增加在AI搜索中的引用和提及。

  • 以HTML格式提供关键内容,以确保其对于不渲染JavaScript的爬虫可见。
  • 在影响较大的页面上添加Schema标记,如文章Schema、作者Schema和产品Schema,使问答引擎机器人更容易抓取和理解它们。
  • 确保作者身份和内容时效性,包括作者信息、利用内部思想领袖和主题专家,并保持内容更新。作者信息向大语言模型表明谁创建了内容,有助于建立专业性和权威性。
  • 监控核心网页指标,因为你的性能评分直接关系到用户体验。如果你的用户体验未优化,问答引擎提及或引用它的可能性就会降低。
  • 使用实时监控平台进行持续的可抓取性检查,在问题影响你的可见度之前发现它们。

所有这些都归结为确保你从技术和用户体验的角度关注你的网站。AI正在改变很多关于人们在线搜索和与品牌互动的方式,但它并没有改变一个事实,即问答引擎和搜索引擎仍然希望将用户引导至技术上稳健的、专业且权威的网站。

故障排除:为什么AI平台会显示不正确或过时的信息?
当问答引擎显示不准确或不一致的信息时,许多团队会感到沮丧。在排查不正确或过时信息时,请牢记以下几点:

  • AI回答可能使用缓存或聚合来源: 大语言模型在海量数据集上进行训练,可能引用数周或数月前缓存的信息,或从第三方来源(而非直接来自你的网站)聚合的信息。你的最新优化可能不会立即反映出来。
  • 可抓取性影响准确性,但不是唯一因素: 无法抓取你网站的AI机器人会显示过时信息。然而,即使它能抓取你的网站,其回答生成是一个独立的层面。始终检查你的网站是否实施了优化的Schema,并确保你的内容包含清晰的作者/发布日期,以尽量减少这种情况发生。
  • 诊断不正确信息的步骤: 首先,验证该页面最近是否被抓取过。如果已抓取,问题可能出在内容质量或存在冲突的外部数据源上。

最后总结
搜索格局已经发生了根本性的变化。依赖计划性抓取和传统排名跟踪来了解你的在线表现的日子已经一去不复返了。正如我们所看到的,问答引擎发展迅速,你品牌的可见度可能在瞬间改变。保持领先需要一种新的敏捷性和洞察力水平,而昨天的工具已无法提供。

由实时智能驱动的积极主动的AEO策略至关重要。通过持续关注AI爬虫活动、性能评分、Schema实施和作者信号,你可以停止猜测,开始做出数据驱动的决策,从而保护并扩大你在AI搜索中的影响力。

在这个新时代取得成功,不仅仅是修复已损坏的部分,更是建立一个问答引擎信任并推广的、有弹性的数字存在。通过利用我们介绍的实时监控功能,你可以获得关于网站技术健康状况和AI可抓取性的单一事实来源,将被动应急转为主动的可持续增长策略。

Leave a Reply

Your email address will not be published. Required fields are marked *

Leave a Reply

Your email address will not be published. Required fields are marked *