原文地址:https://sparktoro.com/blog/new-research-ais-are-highly-inconsistent-when-recommending-brands-or-products-marketers-should-take-care-when-tracking-ai-visibility/

问题所在: 过去几年里,企业为追踪其品牌和产品在人工智能中的可见度投入了巨额资金。据估计,每年在这类新型搜索分析上的花费已超过1亿美元。然而,我发现完全没有研究能证明,当要求AI工具列出品牌/产品推荐时,其推荐结果是否具备足够的一致性,从而能产出有效的可见度指标。关于AI准确性的研究有很多(事实上,我们这项工作就以卡内基梅隆大学的《评估LLM一致性:用户基线vs代理指标》为模型),但在回答ChatGPT、Claude或Google AI等工具生成的推荐列表是否足够一致、从而值得有效追踪这个问题上…… 一片空白。

如果你向ChatGPT请求品牌推荐列表100次,会得到多少种不同的答案?
什么鬼?! 任何认真的高管,怎么可能在没有得到这个基本问题(以及由此衍生的几十个重要后续问题)答案的情况下,就心甘情愿地花费数千甚至数百万美元购买AI追踪服务?

解决方案: 每当我看到又有品牌将本就不断缩减的营销预算砸在“追踪AI排名”上时,与其每次都怒火中烧,我决定亲自(在他人帮助下)开展这项研究。帕特里克·奥唐奈是我的一位老朋友(我们经常一起玩《龙与地下城》),去年他加入了西雅图的AI追踪领域初创公司Gumshoe.ai。利益冲突?嗯,也许吧。但鉴于我本身就是一个坚定的怀疑论者,早已认定AI追踪是场骗局,而帕特里克冷静沉稳,能获取数百万个AI响应数据点,并且愿意运用他的数学专业背景和编程技能,这使他成为了绝佳的研究伙伴。而且我保证(你也会看到),在研究过程中我毫不留情地质询了所有环节。

我们实验的假设是: AI工具生成的推荐列表随机性太高,而用户的提示词又千差万别,以至于试图追踪某个品牌/产品在特定主题领域或用户意图下的排名或可见度是毫无意义的(钱太多的品牌还不如直接付钱给ChatGPT等公司,买它们即将推出的广告产品中的曝光数据)。

第一步: 找一群人反复运行相同的AI提示词,并记录结果。

我们的选择是: 我们选取了美国最受欢迎的三款AI工具:ChatGPT、Claude,以及谷歌搜索的“AI概览”(如果未显示AI概览,则使用“AI模式”)。600名志愿者通过这三款工具,总共执行了2,961次测试,针对12组不同的提示词。他们将AI工具的回复复制并粘贴到调查表中,随后由帕特里克(以及我的新任幕僚长克里斯蒂·莫里森)将这些回复整理、规范化为有序的产品/品牌结果列表。

那么,这些品牌列表的差异性究竟有多大呢?

上图所示提示语——“预算在300美元以内,适合业余家庭厨师使用的顶级厨师刀品牌和型号有哪些?”——是我们为面向消费者的产品类别选定的十二个提示语之一。我们试图涵盖多个行业领域以及各种推荐品牌/产品数量预期不同的场景。

下方,我将十二组提示语(每组重复测试60-100次)所产生的、极其丰富的品牌/产品列表组合进行了可视化呈现:

图中绿色(ChatGPT)、橙色(Claude)和蓝色(Google AI)柱状图分别展示了AI针对提示语所推荐的独特品牌、产品及实体的数量。虽然数据分布看似散乱,但实际上这与AI语料库中围绕该主题的文档常提及的实体数量密切相关(例如,洛杉矶的沃尔沃经销商不足十家,而近期出版的科幻小说却有成千上万)。同时,粉色散点状标记(绘制在次坐标轴上)显示了AI工具给出的平均回答数量(这是另一个使排名/可见度问题复杂化的因素)。

如果你向某个AI工具进行一百次品牌/产品推荐请求,几乎每次回答都会在以下三个方面呈现独特性:

  1. 所呈现的列表内容不同
  2. 推荐的排序顺序不同
  3. 列表中的项目数量不同(有时AI只给出2-3条推荐,而同样频繁地会给出10条或更多)

那么,这些AI工具在呈现列表时的不一致性究竟有多高?下图揭示了一个极具说服力的事实

从数学角度量化来看: 如果你向ChatGPT或Google AI提出100次相同请求,任意两次得到完全相同品牌列表的概率低于1%。Claude在百次请求中给出两次相同列表的概率略高一些,但以相同顺序呈现的概率甚至更低。

实际上,在推荐排序顺序方面,AI工具的回答随机性极高——你大概需要尝试一千次,才可能看到两次顺序完全相同的列表。而且我们甚至没有收集AI如何描述每个品牌,或推荐背后情感倾向(正面/负面)的数据。

核心结论是: AI无法提供一致的品牌或产品推荐列表。如果你对某次回答不满意,或者你的品牌没有出现在期望的位置,多问几次就好了

正如我上周在Gaetano DiNardi的LinkedIn帖子中精炼指出的,AI可见度”专家”完全可以武器化这种认知,就像几十年前那些不靠谱的SEO销售员所做的一样。买家务必谨慎。

说得更尖锐些,让我们想象一个必须获取最佳信息的极端场景:家人罹患癌症。你急忙打开谷歌的AI模式,询问美国西海岸最好的癌症治疗医院,愿意不惜一切代价旅行和支付费用,只为给亲人争取最大的生存希望。

然而,当谷歌(通过AI概览或AI模式)给出回复时,那份列表——无论看起来多么深思熟虑、引证翔实——其随机性之高,即便你重复提问上百次,也几乎不可能看到两次完全相同、排序一致的列表。

我坚信,每当AI工具提供推荐列表时,都应附上免责声明:每次生成的列表都是从候选池中进行统计抽样的随机选择与排序。这些结果并非官方背书,其排序或选择也不遵循任何特定标准——本质上只是AI模型中那种“刺激的自动补全”:基于语料库(及使用RAG时提取的结果)中频繁共现的token序列而产生的关联组合。

在信任AI回答方面,研究者已用极具说服力的数据表明,对于新闻、政治、科学、历史等领域的事实性陈述,AI的准确率高达90%以上。然而,当被问及某个领域的最佳品牌或产品时,关于AI给出的推荐,我却找不到任何类似的可靠性分析。而我可以肯定,数以百万计的用户正将对AI事实性陈述的信任,直接延伸到了产品推荐领域,全然未察觉AI背后的运作机制及其结果的不一致性。

难道这种随机混乱毫无规律可循吗?

随机的列表、随机的顺序、随机的结果数量——我们甚至还未涉及用户提问方式的差异性。然而,关于“是否存在任何有意义的衡量指标”这个问题,简短的答案(出人意料的是)是:存在。实际上,我最初关于“AI品牌推荐列表过于随机,导致追踪完全无效”的假设,(很可能)是错的。以下是我观点转变的过程

图中绿色、橙色及蓝色柱状图显示的是:在每个测试提示词及对应AI模型的数据集中,出现频率位列前三的推荐项分别被提及的次数。例如,当要求Google的AI推荐精通电商领域的数字营销顾问时,在95次回复中,Smartsites机构出现了85次。

这具有实际意义。

即使推荐排名的随机性几乎使其失去参考价值,但同一个提示词在数十次乃至上百次运行中,某些品牌反复出现的频率高低,确实能反映出AI系统在关联该提示意图时,更倾向于(或更不倾向于)认为哪些品牌是合适的答案。因此,衡量这种出现频率的百分比,(很可能)是一种合理的方式,用以了解你的实体在AI的备选集合中是较为突出还是几乎不被考虑。

再举一例:当向Google的AI征求该领域的推荐时,在73次回复中,男性时尚影响力人物亚当·加拉格尔仅出现了36次。

通过反复运行相同提示词,我们能够合理评估AI备选集的多样性或同质性,并了解哪些推荐更可能(或更不可能)被普遍提及。

进一步的数据表明,一个品牌在特定主题领域中出现的频率,可能与其在该领域的相对知名度甚至模型本身的关联性较小,而更多地取决于AI可从中选择的潜在推荐对象数量。以“面向SaaS初创企业的云计算服务商”为例,AI工具认为合适的选项数量有限,因此其响应的配对相关性(我们直接借鉴自卡内基梅隆大学研究者的响应相似度衡量方法)相对较高,而平均排名差异则较低。这一规律在ChatGPT、Claude和Google AI中均表现一致。

现在观察针对近期出版的科幻小说推荐的同类柱状与散点图示。你会发现其配对相关性较低,而平均排名差异相对较高(Google AI的表现尤为明显)。相较于SaaS云计算服务商,该领域的推荐结果更具随机性,因为AI工具可选择的书籍选项数量要庞大得多。

让我们再简要回顾西海岸癌症治疗医院的例子。在ChatGPT的结果中,洛杉矶的希望之城医院出现在71次回答中的69次:可见率达到97%。

那么,在ChatGPT显示的医院“排名”中,它只在25次回答中被列为第一位推荐。它是否真的是西海岸实际“最好”的癌症治疗医院?任何一个理智的人会想到要把同一个问题向ChatGPT重复提问100次来获得这个答案吗?这种持续的高可见度与回复中不一致的排名位置,究竟意味着什么?

坦白说,除了让我们更了解ChatGPT模型的运作机制,特别是“希望之城”医院在其语料库中的突出程度外,我不确定这有什么其他含义。相比研究之前,我现在更不信任ChatGPT、Google AI或Claude给出的“答案列表”了,更不会从答案中的排名位置去直觉推断任何意义。

关于可信度,我的结论是:如果你真想了解AI的推荐集合,你需要反复多次提问;通常至少需要60-100次,然后计算平均值,接着可能需要查看传统搜索结果以发现任何新事物,最后还要对照其他数据源来核对那些可能已不存在的品牌/产品(在本项目过程中,AI工具推荐了不少已不活跃的社交影响者、已注销的TikTok账号和已倒闭的西雅图豪华房地产中介)。

但是,至少就衡量可见度而言,这种做法似乎具备一定的统计有效性。

在进行这项研究工作的95%阶段时,我还未曾亲眼见过Gumshoe产品的实际运行界面。因此,当帕特里克向我展示他们的操作界面时,那些能见度数据的分布情况与研究发现高度吻合,这让我颇感意外,也是一种令人欣喜的不谋而合。

他们的系统生成了一套合成提示词(即由AI自动生成的查询语句),并在所有主流AI模型上运行这些提示,随后生成这幅热力图,用以展示在AI工具的考虑集合中,我们的品牌相对于其他品牌的可见度高低分布。帕特里克甚至已将这个Gumshoe平台上的研究项目公开,所有人都可以亲自查看报告并进行交互分析。

等等! 合成提示词能否合理替代真人向AI工具输入的真实查询?人们实际使用的提示词究竟有多大的差异性?此外,这种由真实用户产生的提示词多样性,对AI响应中品牌的可追踪性又意味着什么?

如果你正在思考这些问题,那么恭喜——你已经走在了成千上万盲目投入数百万资金购买AI追踪工具的企业前面。 因为,朋友们,这确实是个巨大的漏洞。即使可见度百分比是一个合理的指标,即便能用让数学专业者信服的统计显著性来计算它,AI追踪领域仍存在一个巨大的黑洞:提示词本身

因此,我再次回头找到参与调研的志愿者,请求他们协助进一步探索。

在收集的142份回复中,几乎找不出两个在我看来勉强相似的提示词。这让我意识到,向AI提问与使用谷歌搜索截然不同——人们不会将自己的搜索意图压缩成最少、最合乎逻辑的2到5个关键词,而是会发挥创意、展现个性,提出高度具体甚至略显奇特的问题。

为了推进研究,我们需要将量化指标(上文已尝试用更易理解的方式呈现)与调研参与者创造的、差异巨大的提示词进行对应分析。我们再次借鉴了卡内基梅隆大学的研究方法,计算了每对提示词之间的语义相似度,并将其可视化如下:

总体来看,这些提示词的语义相似度仅为0.081。用烹饪来比喻的话,这就像宫保鸡丁和花生酱——虽然核心食材有重叠(都含花生),但除了“含花生的食物”这一共同点外,它们本质上并不相近。

那么,AI追踪算是彻底失败了吗?毕竟这玩意儿就是个华而不实的噱头呗?兰德最初的假设果然没错。既然一切都是瞎猜,那还追踪个什么劲呢?

先别急着下结论。

在完全否定“AI可见度”作为指标的合理性之前,我们需要验证:这些由人类创造的、高度多样化的AI提示词,是否会在AI工具生成的品牌推荐列表中,产生与合成提示词集合或最初使用的任意提示词集合截然不同的结果。这将是最关键的测试:如果所有这些像“宫保鸡丁”和“花生酱”一样天差地别的提示词(实际上都是关于“该为家人买哪款耳机”),却反复生成相似的推荐结果,那么AI可见度追踪或许并非完全是“江湖骗术”。

好的,针对「为旅行的家人选择最佳耳机」这一主题,我们运行了142条由人类精心撰写的提示词,并进行了多次重复测试,最终收集了近千条AI回复(精确来说是994条)。在这些回复中,像Bose、Sony、Sennheiser、Apple这样的耳机品牌出现了55-77%的频率——这与我们先前在更聚焦的场景(如洛杉矶沃尔沃经销商、面向SaaS初创企业的云计算提供商、西海岸癌症治疗医院等主题)中,从调研者结果里观察到的前三名品牌出现频率高度相似

为了确认这不是一个小众品牌领域的偶然现象,我继续让AI推荐其他类型的耳机(如游戏、播客、降噪等),结果得到了截然不同的答案列表。这些差异巨大的列表告诉我:尽管人们撰写提示词的方式千差万别,文本分析的语义相似度得分也很低,但AI工具仍然捕捉到了这142条提示词背后核心的、根本的意图,并从一组相对稳定的品牌集合中给出了答案——这个集合的规模与多样性,并不比我们在其他十几条提示词的大范围研究中看到的更庞大或更奇特。

研究接近尾声,但我们还尝试了最后一个实验——在一个超级宽泛的B2B领域(类似于科幻小说的场景),以验证在广阔的商业品类中,独特的人工撰写提示词是否会产生预期的、更广泛的答案范围。于是,我们请小组成员输入了一条提示词,为朋友的咖啡店寻找品牌设计机构。

结果再次呈现出高度的独特性——提示词的语义相似度(或者说缺乏相似度)与之前的测试处于相近水平。而当我们通过Gumshoe将这些各不相同的提示词提交给AI工具分析时,又一次得到了完全符合预期的数据反馈

当Gumshoe对其分析系统生成的耳机推荐提示词进行可见度百分比与排名统计时,头部品牌通常能达到90%-100%的可见度;而在品牌设计机构的推荐测试中,可见度数值则集中在30%-40%的区间。值得一提的是,他们的系统还能生成更美观、更易读的图表来综合呈现这些数据(相比之下,我因时间有限未能完成更精细的数据可视化处理,在此致歉)

这一切进一步印证了一个观点:无论是人工撰写还是系统生成的提示词,在大量测试中得出的可见度百分比,很可能能较好地反映品牌在真实AI回答中的实际出现情况。

我继续就方法论问题向帕特里克提出质询,但就连我之前的一个假设(认为AI工具的API可能会缓存结果,导致其表现出的推荐差异小于普通网络用户实际体验到的差异)也有初步数据表明,这可能并非我原本预设的那样无法逾越的障碍

需要说明的是,我们并未针对这一问题进行详尽研究,投入的精力也不及本研究中探讨的其他问题,因此这仍是一个开放议题。但这并非唯一待解的问题。AI追踪工具(或独立研究者)需要在我们止步之处继续深入。我们需要更大的样本量、成千上万条提示词、更庞大的用户群体,以及更专业的统计学专家来开展此类分析并回答以下问题:

  • 需要运行多少次提示词测试,才能获得关于品牌相对可见度的、具备统计学意义的可靠答案
  • API调用产生的推荐多样性,能否真实反映用户手动输入提示词所获得的结果?相似度有多高?差异何在?
  • 要获得关于某个领域/意图的、具有统计学意义的答案,需要多少种不同的提示词?这个数量是否会因领域不同而变化?

然而,尽管存在这些不足和悬而未决的问题,我仍为我们所做的工作感到自豪。

我们虽然没有提供绝对的、决定性的证据来证明“AI可见度百分比”是最佳且最有用的指标,但这项研究很大程度上消除了我对此类实践的怀疑,基本推翻了我最初假设的一半,并通过证明在AI工具中追踪“排名位置”是多么鲁莽,验证了假设的另一半


研究结论

需要更多数据,更多研究者应深入探讨这些问题。 任何销售AI追踪服务的人,如果未能就此发布透明、公开、可供审查的报告,都应该感到羞愧。如果帕特里克和我在运营多家公司的业余时间都能做到,想想还有谁应该能做到?那些拥有庞大数据科学团队的、获得风险投资支持的行业巨头们。

好了,以下是我们的研究发现总结:

  • AI极少给出两次完全相同的品牌或推荐列表(无论问题为何,概率都低于1%)。
  • AI几乎从不以相同顺序给出相同的品牌/推荐列表,即使在像“洛杉矶沃尔沃经销商”或“SaaS云计算提供商”这样选择有限的领域也是如此(无论问题为何,概率都低于千分之一)。
  • 这些工具本质上是概率引擎:它们被设计为每次生成独特的答案。将它们视为可靠或一致的信息来源,已被证明是毫无意义的。
  • 用户几乎从不创建相似的提示词,即使他们的意图相同。在真实世界中纷繁复杂的AI提问环境下,AI针对某个领域给出的品牌/推荐答案,其多样性很可能远高于我们此次受控实验所揭示的情况。
  • 精确测量你的品牌在AI答案中的出现情况是徒劳的。 但如果你运行足够多的提示词、测试足够多的次数,可以获得一个类似投镖靶盘图案的结果,用于比较你与其他品牌的相对位置。我已改变最初的观点,现在认为在数十到数百条提示词上多次运行后得出的可见度百分比,是一个合理的指标
  • 但是,任何提供“AI中排名位置”的工具都纯属扯淡。

如果你读完本报告后只做一件事,那么拜托了,市场人员、分析师和各位高管:请停止向那些不提供基于统计数据、可公开审查研究的AI追踪产品砸钱。 在你花费一分钱追踪AI可见度之前,务必确保你的服务商能回答我们在此提出的问题,并且展示他们的计算方法和数据。

非常感谢Gumshoe的帕特里克·奥唐奈(作为本研究合作伙伴)、克里斯蒂·莫里森(负责数据标准化与研究审阅),以及林赛·珀金、赛勒斯·谢泼德、达伦·肖和阿曼达·纳蒂维达德(感谢你们审阅本研究的草稿)。

方法论细节

最后但同样重要的是,关于我们的研究方法,以下是一些常见问题解答:

1. 你们是否有资质进行这项研究?是否经过科学界同行评审?我凭什么相信你们的结果?

我特别喜欢这些问题,因为它们隐含的潜台词往往是:“我不相信你的结果,但我也懒得做任何工作去验证或反驳它们。”不,我/我们并非专业研究者或拥有认证的数据科学家。我曾在数字营销领域发表过数十项研究成果,被美国国会、司法部及数百家知名媒体引用,但这并不能让我成为专业人士。而我真心希望更多有资质的研究者能受我们的研究设计和公开成果启发,就此主题开展更深入、达到科学期刊发表质量的研究。但如果你的怀疑情绪非常强烈,或认为我们的研究过程存在重大缺陷,请务必重复这些实验并发表你的工作——我甚至会从这里链接过去,并撤回我们研究中不准确的观点/指出我们的缺陷。

2. 我们是否对调研参与者的AI工具使用方法施加了任何限制?

没有。除了要求大家使用相同的模型和提示词外,我们没有要求参与者手动调整ChatGPT的“温度”设置、确保所有人位于同一国家、使用桌面端而非移动设备,或统一开启/关闭历史记录等。我们想了解真实世界用户通常体验到的差异程度,因此只要求每个人按自己使用这些工具的默认习惯进行操作。有些人是有大量历史记录和自定义设置的长期用户,有些人则是首次使用我们所要求的AI产品。因此,我们相信我们所展示的,正是“普通”用户以其各种日常方式使用这些AI工具时,预期会遇到的回答分布情况。

3. 能否向我们展示完整的提示词和原始数据?

可以。事实上,我们非常欢迎你这样做。帕特里克精心创建了一个AI一致性实验结果微型网站,你可以在那里尽情浏览每条提示词、回复及各项指标。事先提醒:网站没有部署在大型服务器上,加载速度可能较慢。

4. 我们是否尝试通过调整AI工具的“温度”设置来减少差异性?

没有。我们要求所有运行报告的人员保持他们通常的设置(无论是个人设置还是默认设置)。而Gumshoe在向AI服务请求数据时,使用的是未经修改的(即标准版)API调用。

5. 我们是否通过限制调研参与者提交提示词与获取回复的时间范围来控制变量?

在一定程度上是的。每项调研请求的运行时间约为七天,然后关闭。这些请求在2025年11月和12月进行,因此更新/升级后的模型产生的差异,可能与我们在此期间发现的结果有所不同。

最后的请求: 请将这项研究分享给你所在组织、机构或行业团体中需要看到它的人。每一个身处AI追踪与品牌测量领域及其周边的人都应该了解这些内容。


Leave a Reply

Your email address will not be published. Required fields are marked *