原文地址:https://nectivdigital.com/new-data-study-what-queries-is-chatgpt-using-behind-the-scenes/

终于能写下这篇文章,我实在难掩激动之情。 围绕如何为ChatGPT优化网站已有诸多讨论,但相关的数据研究却不多见。本文将改变这一现状——我们通过对ChatGPT实际执行搜索的深度研究,帮助SEO从业者更准确地理解针对它的优化策略究竟如何奏效。

让我们开始吧!

ChatGPT搜索的背景
我们知道用户从ChatGPT获取信息,但ChatGPT实际获取信息的方式有两种:

  1. 利用其内置知识库直接回答问题
  2. 当不知答案时,执行搜索以获取信息基础

这是一个非常简单的示例,展示了当ChatGPT自身无法回答时,如何通过搜索来建立信息依据:

(示例图:ChatGPT在未知答案时触发搜索)

关于ChatGPT是否使用谷歌搜索索引来执行此操作,一直存在很多争论。我个人认为它确实使用了(这是一篇很好的相关文章),但这个问题改日再议。重要的是理解:当ChatGPT使用搜索时,SEO从业者对呈现的信息拥有更大的控制权。此时的ChatGPT本质上成了搜索引擎的封装外壳。因此,若能弄清大语言模型搜索的频率和内容,我们优化起来就会更加得心应手。

有趣的是,你实际上可以在ChatGPT内部看到这些查询。通过特定流程,你可以定位到它返回的JSON文件,其中会显示某次搜索中使用的查询语句。

(示例图:展示查询数据的JSON文件)

所以数据是存在的,只是获取不太方便。虽然有像ChatGPT Search Capture这样的工具,让你通过点击就能查看单个聊天中的查询,但此前我们一直无法大规模提取这些数据……直到现在。

大规模提取ChatGPT的查询扩展数据
这里我必须大力称赞我的Nectiv联合创始人Jason Melman。他既是出色的SEO专家,也是优秀的开发者,这让我们能实现一些非常酷的想法。前几周他告诉我,可能找到了大规模提取ChatGPT查询的方法。仅用一个下午,他就在我们的AI Tracker中添加了这项功能,让我们能够检查ChatGPT使用的查询。

(工具界面截图:展示查询提取功能)

我们立刻意识到必须大规模实施这项研究。这将帮助我们识别更清晰的趋势,准确理解ChatGPT搜索查询的工作机制。在Slack上反复沟通后,我们成功通过AI Tracker上传了8500条提示词,并大规模提取了ChatGPT的查询扩展数据。

研究方法论
在本研究中,我们分析了Nectiv AI Tracker中的8500多条提示词。接着,我们分析了这些提示词是否触发了搜索,并对触发了搜索的案例提取了所有搜索查询。研究覆盖了9个不同垂直领域:美妆、电商、信用卡、时尚、职业与工作、本地服务、软件、房地产和旅游。在分析过程中,我们既关注了整体数据集的总体趋势,也深入研究了这些关键垂直领域的特定规律。

需要说明的是,提示词追踪本身存在一定模糊性。本研究的目标是试图分析当用户具有商业/购买意图时(例如“最佳女士连衣裙”、“纽约到洛杉矶航班”),ChatGPT如何进行搜索。通过这种方式,我们可以确定需要哪些内容来对接ChatGPT在这些购买漏斗末端所执行的搜索。

ChatGPT查询扩展核心发现
接下来,让我们深入分析结果。首先看ChatGPT的整体数据:

  • 总搜索次数:2,648次
  • 触发搜索的提示词占比:31%
  • 平均单次搜索查询数:2.17条
  • 每条查询平均词数:5.48个

这意味着,在本数据集中,接近三分之一的提问会触发ChatGPT执行搜索。

在所有垂直领域中,ChatGPT通常执行约2次搜索来获取信息。其搜索查询平均长度也较长,每条查询平均使用5-6个词。这意味着它会搜索像“土耳其顶级租车公司评价”或“顶级飞行员夹克品牌”这类短语,比我们通常追踪和优化的多数查询要稍长一些。

ChatGPT会进行多少次查询扩展?
“查询扩展”是指大语言模型并非只执行一次搜索,它可能进行多次。例如,谷歌就展示过其系统会通过8条以上的查询来为用户查找信息。

如前所述,整个数据集的平均搜索次数是2次。但有趣的是,当按搜索次数分组时,执行3次搜索的情况最为常见,记录到了1,279次。

尽管数据中没有显示,但我们记录到一个执行了4次查询的案例。这让我相信,ChatGPT最多进行4次查询扩展。

查询扩展使用的词数是多少?
我们知道ChatGPT的查询平均较长,每条查询平均在5-6个词之间,具体为5.48个词。Semrush的一项研究估计,美国地区的谷歌搜索平均词长为3.4个词。这意味着ChatGPT的搜索查询平均比标准谷歌搜索长61%。

但仅看平均值还不够。实际上,观察数据集会发现,查询长度可能更长。

事实上,这样对查询词长进行分组后,你会发现大多数查询倾向于更长。具体来说,77%的查询长度在5个词或以上。

值得注意的是,数据集中查询的最大长度为12个词。部分示例如下:

  • ROOMS to go credit card pre approval rooms to go credit preapproval
  • best interchange rate credit card USA interchange fee rates credit card issuer
  • compare Razer Phone models Razer Phone 2 Razer Phone 1 user reviews

虽然不确定12个词是否为上限,但查询长度不太可能超过这个数。

不同行业触发ChatGPT搜索的频率有何差异?
我们想评估的另一点是,ChatGPT在不同行业中启用搜索功能的频率。各行业情况不同,我们推测某些行业的搜索可能更频繁。我们对所有提示词进行了分类,以观察这一趋势:

一些非常有趣的发现包括:

  • 本地服务类意图的提示词触发搜索极为频繁。在我们的数据集中,它执行了565次搜索,在所有相关实例中,59%都会触发查询。因此,如果你从事本地服务,ChatGPT极有可能通过搜索来呈现你的信息。
  • 广义的电商类意图也很可能利用搜索功能,触发率为41%。
  • 信用卡时尚类意图最不可能触发ChatGPT搜索,触发率分别仅为18%和19%。

为了更直观地展示,我们还制作了这张图表,显示各垂直领域搜索次数相对于平均水平的增减情况

不同行业的查询扩展模式有何差异?
在分析整体数据时,我们发现ChatGPT平均对每条提示词执行约2.1次查询。我们还想了解按行业细分后是否存在显著差异。从各行业整体来看,大多数行业的查询次数似乎都围绕2次这个基准线浮动:

然而,某些行业的差异足够明显,值得关注:

  • 职业与工作领域触发ChatGPT搜索的次数最多,在数据集中平均每次接近3次查询。
  • 软件行业的查询扩展次数也高于平均水平,平均为2.68次。
  • 尽管本地服务触发搜索的实例数量最多,但其平均查询扩展次数最少,仅为1.67次,是所有垂直领域中的最低值。

查询词长是否因行业而异?
我们想分析的另一个有趣问题是,查询词长是否因行业不同而变化。ChatGPT是否在某些行业需要搜索更长的查询(长尾词),而在其他行业则不然。简短的答案是:似乎没有。目前,大多数行业的每条查询词长都在5-6个词左右。

不过,信用卡房地产行业的查询词长确实最高(超过6个词)。

ChatGPT在搜索哪些类型的查询?
这部分数据价值最高,但也最难分析。最主要的原因是,ChatGPT生成什么查询本质上取决于输入的提示词。因此,这部分数据自然会严重偏向于我提示词中使用的语言以及我选择关注的行业。然而,无论你选择什么提示词或行业,其搜索方式都存在一些清晰的N元词组(NGram)模式。

为了分析这一点,我采用了以下逻辑来筛选适用的N元词组:

  1. 该N元词组或其同义词未在原始提示词中使用。
  2. 该N元词组至少在3个不同的数据集中出现。

根据此逻辑,以下是整个数据集中最常见的五个N元词组:

这些是关键发现,因为它们是优化内容以对接ChatGPT查询扩展时需要重点关注的词汇。我们来分析其中几个:

  • 评价:目前最流行的词组,出现了702次。ChatGPT经常搜索产品、服务或软件的评价。
  • 2025:ChatGPT非常关注信息的新鲜度和当前年份。就像在标题标签中添加年份并每年更新的传统SEO技巧一样,这可能有助于提升在ChatGPT中的可见度。
  • 功能:我原以为这个词只会出现在“软件”数据集中,但它也出现在电商、时尚甚至信用卡数据集中。ChatGPT使用“功能”这个术语来了解产品(例如“ASICS Gel Kayano 29 与 30 的功能对比”、“大通蓝宝石至尊卡功能”)。
  • 对比:ChatGPT似乎希望与对比产品的内容建立联系(例如“最佳电子商务商业软件平台对比”)。创作将你的产品与他人进行对比的内容可能是一个有效的策略。

当然,这些N元词组会根据你关注的行业而变化。

例如,深入分析软件行业,我发现了“工具”、“定价”等新兴词组,而“功能”、“免费”等词组的出现则更加突出。

结论
我希望这些数据对你有价值。既然知道我们能够提取这些数据,我几乎感到有责任为行业社区进行分析,以便我们都能理解ChatGPT的工作原理。希望这能为我们所有人提供一些关于如何更好地为未来搜索进行优化的见解。

最后说明一下:如果你有兴趣更好地了解自身的查询扩展情况或在大语言模型中的可见度,请随时联系我们。我们可以为你提供一些初始的追踪数据,帮助你更好地理解你的ChatGPT搜索格局。


Leave a Reply

Your email address will not be published. Required fields are marked *