原文地址:https://foundationinc.co/lab/geo-metrics
当有人问ChatGPT“最适合小企业的CRM是什么?”时,搜索结果是没有第二页的。你的品牌要么出现在那个回答中,要么就完全隐形。这是你死我活的竞争,伙计。
正因如此,生成引擎优化 (GEO) 已成为当前每位营销人员的优先事项。但你怎么知道你的品牌在由大语言模型驱动的多个平台中处于什么位置呢?
与SEO或付费媒体不同,GEO没有先例可循,归因几乎不可能实现。那些对传统内容营销有效的常规投资回报率框架在这里行不通。
GEO需要一套全新的指标——一套为零点击环境和AI主导的发现过程而构建的指标。让我们来剖析一下如何以一种反映买家在AI优先环境中实际发现和评估品牌的方式来衡量GEO。
为什么生成引擎优化需要新指标
营销圈里有一场愈演愈烈的争论,争论激烈却无实质进展。一方认为:“GEO不过是SEO换了个新名字。”另一方则宣称:“SEO已死——AI搜索改变了一切。”
但他们都忽略了关键点。
真正的问题不在于GEO是取代还是延伸了SEO,而在于我们依赖了数十年的指标——排名、自然流量、点击率——根本无法捕捉到当买家直接从AI获得答案时发生的情况。关于术语的辩论掩盖了真正的问题:传统归因模型在零点击环境中失效了,而我们的指标还没有跟上。
零点击环境中的归因问题
GEO在传统追踪手段失效的地方运作。当有人向ChatGPT咨询软件推荐,得到一个包含你品牌的回答,然后三天后才访问你的网站——你没有办法将这些点串联起来。
正如Foundation的战略副总裁James Scherer所言:
“(投资回报率)完全取决于公司如何设置其营销漏斗。GEO在ChatGPT、AI概览、Reddit帖子等零点击环境中运作,而你无法在自己不拥有的平台上追踪用户行为。当‘触点’发生在你的生态系统之外时,多点触达归因模型就失效了。”
想想看,当一个潜在客户在你注册表的“您是如何听说我们的”一栏勾选“ChatGPT”时,功劳该归谁?
- 是优化网站以适应大语言模型抓取的技术团队?
- 是构建了被AI引用的对比页面的SEO团队?
- 是争取到行业出版物提及的公关团队?
- 是在一个常被引用的Reddit帖子中做出贡献的社区经理?
- 还是其YouTube视频出现在回答中的内容团队?
诚实的答案是,他们所有人都做出了贡献。这正是为什么使用传统归因模型来孤立地衡量GEO的投资回报率如此困难,并且常常适得其反。
但这并不意味着追踪你的生成引擎优化表现是徒劳的。绝非如此。然而,你确实需要扩展当前的追踪范围,纳入公关风格的品牌知名度指标,这些指标可以让你真实地了解正在发生的情况以及如何改进。
GEO是品牌知名度建设,而非效果营销
重新构建对GEO投资的认知,或许能帮助你接受其所带来的归因局限性。
确实,你可以在Google Analytics中捕捉到来自AI的引荐流量。你也可以设置表单来追踪来自ChatGPT的引荐。事实上,今年早些时候,Tally报告称其新用户中有25%在潜在客户捕获表单上勾选了“AI搜索”。Docebo的收入营销副总裁也曾分享,他们13%的高意向线索来自AI发现。
但对大多数品牌而言,GEO的功能更像公关、品牌活动、思想领导力倡议或行业活动赞助,而非效果营销。它影响买家行为并强化市场地位,但无法提供清晰、直接的收入归因。典型的投资回报率计算方式无法公正地衡量这些努力。
应将GEO视为基础设施投资,而非战术性营销支出。 就像在证明直接影响收入之前投资CRM系统,或在计算精确投资回报率之前制定品牌指南一样,GEO代表了在AI主导的研究环境中竞争所需的基础设施。
因此,品牌不应再执着于那个老旧的“投资回报率”问题,而需要重新思考:在买家使用的每一个AI平台上,将阵地拱手让给竞争对手的机会成本有多大?
这种思维的转变为一种测量框架打开了大门,该框架能向你展示AI提及你品牌的频率以及它们对你的评价。换句话说,它衡量了你有多大可能成为一段始于AI工具的买家旅程的一部分。
GEO测量的三大支柱
如果传统的SEO和自有渠道追踪方法行不通,那什么方法可行呢?答案是围绕三大支柱构建的追踪系统:
- 可见度(他们能看到我吗?)
- 引用(他们信任我吗?)
- 情感(他们喜欢我吗?)
每个支柱回答了关于你品牌在AI生成回答中地位的不同问题。
- 可见度 告诉你你是否被提及。
- 引用 告诉你AI是否认为你是值得链接的可信来源。
- 情感 告诉你这种可见度是在帮助还是损害你的品牌。
三者缺一不可。一个品牌可能拥有高可见度但情感负面——频繁出现却被描述为价格过高或过时。也可能在少数出现的回答中获得极高的情感评价,但几乎毫无可见度。这些支柱共同作用,为你提供完整的图景。
以下是每个支柱内具体指标的细分:
| 指标类别 | 指标名称 | 衡量内容 |
|---|---|---|
| 可见度 | 模型份额 (SoM) | 你的品牌在响应相关类别提示(如“最佳有机床垫”)时出现的百分比。 |
| 生成位置 | 如果AI输出一个列表(如在“前十名”列表中排名第1 vs 第5),你的数字排名。 | |
| 查询覆盖度 | 你品牌所出现的用例或意图的多样性,包括AI从单个提示生成的扩展“分支”查询。 | |
| 引用 | 引用频率 | AI将可点击链接或脚注包含到你域的频率。 |
| 来源权威性 | AI在提及你时引用的第三方网站的质量(例如《纽约时报》、Reddit、G2)。 | |
| 引用偏移 | 随着模型轮换信息来源,你品牌的覆盖范围被竞争对手替换的频率。 | |
| 情感 | 情感得分 | 用于描述你品牌的定性基调(正面、中性、负面)。 |
| 幻觉率 | 事实性错误信息出现的频率(例如错误定价、不存在的功能)。 | |
| 对比定位 | 你的品牌相对于竞争对手是如何被描述的(例如“不错,但存在更便宜的替代品”)。 |
让我们逐一分析这些指标的重要性、追踪方法及管控策略。但在开始前,需先说明Foundation团队衡量GEO(生成式引擎优化)指标的基准方法。
Foundation如何追踪GEO指标
本节将穿插展示Profound平台案例——这是Foundation内部采用的AI可见度监测平台,用于结合自有方法评估GEO表现。Profound能自动化执行多AI平台指令测试、追踪引述来源,并持续监测舆情动向。此处我们以法律科技品牌Clio的GEO指标为例进行解析,该品牌不仅是行业领导者,在AI可见度方面也表现突出。其他如Otterly.AI、Semrush的AI工具包及人工审核方法也能捕获类似数据(后续将详细探讨)。目前只需明确:通过合适的工具与流程,这些指标均可实现有效追踪。
1) 可见度与存在感指标(对方能看到我吗?)
可见度指标回应了GEO最核心的问题:当用户向AI咨询您所在领域时,您的品牌是否会被提及?这类指标构成了评估体系的基石——若缺乏可见度,其他一切指标都将失去意义。即便拥有完美的舆情数据和权威引述,若品牌根本未被AI检索到,这些信号便毫无价值。
(来源:https://foundationinc.co/lab/geo-metrics)

“让我们从汤姆·罗奇提出的新概念’份额’说起——模型可见度。这里最重要的观念转变在于:GEO(生成式引擎优化)的核心不再是’声量份额’,而是’模型可见度’。模型可见度衡量的是,当用户在多个人工智能模型中输入特定类别指令时,你的品牌出现在回复中的频率。这就是新时代的市场份额——如果品牌未被纳入模型的检索范围,就意味着在该查询中’不存在’。
追踪方法:在ChatGPT、Perplexity、Gemini、谷歌AI概览及Copilot等平台测试你的核心指令词,统计品牌出现的回复比例。Profound工具支持跨平台自动化监测。以Clio为例,其仪表盘显示可见度份额从ChatGPT的32.9%到Gemini的47.8%不等,而最大竞品MyCase的数据仅约为其一半。

提升策略:确保品牌名称在网站、媒体报道及第三方内容中,与相关关键词和概念形成结构性关联。人工智能在特定领域场景下接触品牌信息的频次越高,品牌被调用的可能性就越大。
生成式排名:这个概念类似于搜索引擎结果排名,但追踪的是品牌在AI生成答案中的平均位置。当ChatGPT生成’X领域五大工具’列表时,你的品牌位列第几?是首推选项还是需要向下滚动?这在GEO领域至关重要:因为大语言模型生成清单时,首位品牌通常会获得’X被广泛认为是……最佳选择’的肯定式表述,后续品牌则被归入’其他选项包括’的补充说明。这种语言框架即便未明确排序,也向用户传递了偏好信号。
追踪方法:监测核心指令词在AI生成列表中的平均排名。Profound数据显示Clio平均位列3.2名——意味着在多数查询中至少有两个品牌排在前面,这与他们领先的模型可见度形成有趣反差。

提升策略:争取在高权威网站的对比型内容(如’最佳……’清单)中曝光。大语言模型尤其倾向引用这类对比内容——清单类内容约占全部引用的30%。在这些榜单中占据首位,能显著提升在AI答案中优先呈现的几率。(信息来源:https://foundationinc.co/lab/geo-metrics)”
查询覆盖度
查询覆盖度衡量的是,当人工智能通过整合多种购买意图来构建答案时,你的品牌是否能在所有相关查询中被呈现。出现在”便宜的CRM软件”的搜索结果中,与出现在”符合医疗合规要求的企业级CRM”的搜索结果中,意义截然不同——两者虽都有价值,但对应着不同的受众群体和购买阶段的关键差异。
这里的核心复杂性在于:用户实际输入的问题,往往只是人工智能评估的众多查询之一。当有人提问”最适合远程团队的项目管理工具是什么?”时,模型会将这一指令扩展为多个相关的高意图查询来搜集答案。这一被称为查询扩展的过程,最终决定了哪些品牌会被AI呈现。
追踪方法:
- 选定核心指令词:从15-20个与高意向购买场景相关的问题入手,包括品类查询、对比查询以及你希望出现的”最佳……”类问题。
- 绘制扩展路径:使用Profound的扩展追踪功能(或手动运行指令并记录引用来源),观察每个初始指令会衍生出哪些查询。例如,”适合小型律所的高评分营销公司有哪些?”可能会扩展出涵盖地域(英国、美国、加拿大)、时间修饰(2025年)及句式变体的多种查询版本。
- 识别覆盖缺口:对比你与竞争对手的出现范围。那些竞争对手出现而你缺席的扩展查询,正是最具提升潜力的机会点。
提升策略:
针对你未覆盖到的具体扩展查询,创建长尾内容。这通常需要建设细分用例页面、对比型内容以及本地化变体,从而在模型应对整个查询集合时,训练其认知你品牌的全场景适用性。

引用频率
该指标追踪人工智能引用你网站链接或明确将你列为信息源的频率。以Perplexity为例,它会清晰地向用户展示所提供信息的来源。
追踪方法:需按平台分别追踪引用频率,因为谷歌AI概览、Perplexity和ChatGPT的引用机制各不相同。Clio在其行业中以7.3%的引用份额领先——超过其后四个域名的总和。
提升策略:发布需要引证验证的原创数据、白皮书或独家定义。可引用的数据能让AI有理由链接回你的网站,而非进行无归属的转述。
需谨记:AI模型将持续优化以提升用户体验,这意味着各项AI可见度指标都可能波动。在此情境下,战略性调整至关重要,正如Josh Blyskal所言:
引用漂移
AI搜索引擎基于概率运作,意味着它们极少生成两次完全相同的答案。它们并非依赖固定数据库,而是预测下一个最合适的词汇,这导致其引用的来源波动显著——即使对同一问题也是如此。
引用漂移度量的是这种不稳定性,追踪当模型在不同数据点间轮换时,你的品牌内容被竞争者替换或完全消失的频率。
追踪方法:在不同会话中多次运行相同指令,记录你的品牌出现与被替换的频率。高波动率意味着你的存在不稳定。
提升策略:通过来源多元化应对波动性。确保你的品牌在多个高权威域名中被提及和链接——包括你的官网、G2、一线媒体及垂直论坛。你在资源池中拥有的”中奖券”越多,即使AI逐渐偏离某些来源,它仍有可能选中你的某一信息源。
来源权威性
当AI讨论你的品牌或竞争对手时,它引用了哪些网站作为信息来源?来源权威性涉及识别哪些第三方网站在你所属品类中驱动最多的AI引用,进而优先确保在这些URL上获得曝光。
这一点至关重要,因为AI引擎更信任第三方验证而非品牌自述。通过G2评论、福布斯榜单或行业分析师报告被引用,其分量远重于自家博客文章。
追踪方法:追踪你的来源构成——包括自有网站、G2/Capterra、Reddit、行业刊物及新闻媒体。Clio在Perplexity的188个页面中累计获得400次引用,值得注意的是,许多引用来自第三方评测网站而非其自有内容。
提升策略:将数字公关重点投向那些已在AI答案中具有高可见度的渠道——主流新闻媒体、权威评测网站和行业分析师。先确定哪些第三方来源在你的品类中带来最多AI引用,再集中资源在这些URL上建立存在感。(信息来源:https://foundationinc.co/lab/geo-metrics)
来源权威性
这一点至关重要,因为AI引擎更信赖第三方验证而非品牌自述。通过G2评测、福布斯榜单或行业分析师报告获得的引用,其影响力远高于品牌自主发布的博客内容。
追踪方法:分析你的引用来源构成——对比自有网站、G2/Capterra等评测平台、Reddit社区、行业刊物及新闻媒体的占比。例如Clio在Perplexity的188个页面中累计获得400次引用,值得注意的是其中大量引用来自第三方评测网站而非其自有内容。
提升策略:将数字公关资源集中投向已在AI答案中具备高可见度的渠道,包括主流新闻媒体、权威评测网站和行业分析师。关键在于识别哪些第三方来源在你所在领域驱动着最多的AI引用,并优先确保在这些URL上建立品牌存在感。
内容所有权(适用于Reddit等社区平台)
如果你的竞争对手正在Reddit上积极推广,你也应当参与其中。更重要的是,需要关注那些在该平台上具有”造王效应”的关键讨论帖。
对于此类社区平台,需追踪你的品牌发起或实质性参与了多少核心讨论,并与同行业其他品牌进行对比。Reddit帖文被大语言模型引用的频率极高,但挑战在于:一旦帖子被锁定或归档,竞争对手就将永久占据该话题的叙事权——你无法在已关闭的对话中添加自己的声音。
某金融服务客户在三个月内,将其在100个核心Reddit讨论帖中的被提及量从12条提升至73条。更重要的是,其中53次提及的排序均高于竞争对手。这不仅是边际改善,更意味着AI系统呈现其品牌形象的方式发生了根本性转变。
支柱三:情感与品牌安全指标(AI是否对我持有好感?)
可见度和引用能让你进入AI的答案,而情感倾向则决定这种曝光是福是祸。这类指标构成了你的品牌安全防线。
如果AI正在建议用户避开你的品牌,那么高频被提及将毫无意义。在一个无法直接掌控叙事的环境中,情感监测变得至关重要。(信息来源:https://foundationinc.co/lab/geo-metrics)
可见度与引用能让你进入AI的响应,而情感倾向则决定了这种曝光是福是祸。这些指标构成了你的品牌安全防线——若AI正在引导用户避开你的品牌,那么高频被提及便毫无意义。在一个无法直接掌控叙事的环境中,监测情感倾向变得至关重要

情感评分
情感评分用于衡量AI对你品牌的描述倾向——积极、中性还是消极。即使你在可见度排名第一,若AI给出”X品牌虽最受欢迎,但用户常抱怨其定价过高且客服不佳”这类评价,这种带毒的榜首反而有害无益:缺乏积极情感的可见度可能弊大于利。
追踪方法:将被提及内容按积极、中性、消极分类,并追踪长期趋势。Clio的情感分析显示其74.8%的提及为积极评价,AI常突出其”操作便捷””界面友好”等特质;而25.2%的负面评价多集中于”自定义功能有限”——这类具体可改进的反馈。

提升策略:主动管理Trustpilot、Reddit等平台的用户评价,因为AI在情感判断时高度倚重用户生成内容。情感评分突然转向负面是亟待关注的重要预警信号。
幻觉率
该指标追踪AI对品牌事实性错误陈述的频率:错误定价、将已停产产品列为在售、功能描述失实、与竞品混淆等。这些幻觉随时可能演变为品牌安全危机。
追踪方法:建立准确性监控日志,通过截图记录所有幻觉现象,并将对应指令录入电子表格进行长期追踪(月度、季度等)。
提升策略:使用清晰的组织结构和产品结构化数据标记,让机器人能准确”读取”事实而无须猜测。部分错误可通过更新自有内容修正;其余则需通过影响AI引用的第三方来源来解决。
竞争定位
当你与竞品同时出现在AI响应中时,谁被优先提及?这就是竞争定位。你在响应序列中的排序深刻影响大语言模型的表述逻辑——若持续在AI响应中居于竞品之后,大语言模型将据此构建品牌关系认知。
追踪方法:追踪共享提及场景下的输赢比率,识别你持续落后的具体查询场景。
提升策略:在”关于我们”页面及所有内容中清晰阐述独特卖点,让AI不仅感知你的存在,更理解你的差异化价值。优先针对落后领域进行优化调整。
三大支柱定义明晰后,后续工作将转入常态化运营:建立可复制的跨平台GEO(生成式引擎优化)衡量体系。
如何实施GEO(生成式引擎优化)测量
目前虽未有统一的”AI版谷歌分析”,但相关工具生态正快速发展。好消息是您有多种选择——从全自动的企业级平台到适合任何预算的手动方案。关键在于选择与资源匹配且能提供行动依据数据的方法。
自动化路径:GEO工具
多个自动化GEO追踪平台已涌现,该领域正快速成熟。G2的GEO工具排名显示当前市场格局:Otterly.AI(73分)、Semrush(70分)和Scrunch AI(67分)在用户评分中领先,Airops、GenRank.io、Hall、BrightEdge、Waikay及Quattr位列前十。不同工具侧重不同需求:
- Profound提供引用图谱、竞争份额分析、查询扩展追踪及本文Clio案例所示的仪表盘视图
- Otterly.AI专注于跨大语言模型的AI搜索监测与品牌追踪
- Airops和GenRank.io提供AI搜索的工作流自动化与排名追踪
- Semrush、Ahrefs、Moz等传统SEO工具也正加入GEO阵营,将其搜索引擎追踪专长延伸至AI领域
手动审计方法
对于小型品牌、详细基线评估,或仅为补充GEO工具数据,我们的团队采用手动方案。以下是我们使用Profound为客户执行的流程:
- 定义”黄金指令”——筛选客户实际向AI工具提问的15-20个核心问题。这些问题与传统关键词不同,更具对话性、更具体,且常包含多重条件。需纳入漏斗底层的修饰词,如”最佳””顶级””[竞品]替代方案”及”[A品牌]对比[B品牌]”等
- 运行隐身测试:在ChatGPT、Gemini、Perplexity和Claude的新会话中执行指令,避免个性化偏差。需测试非品牌品类查询,而非仅含品牌名的搜索
- 建立评分卡:为每个指令记录:是否出现?排名位置?情感倾向?引用来源?信息准确性?评分卡帮助您识别真正影响可见度和购买决策的指令,而非将每个LLM提及等同视之
当您的品牌开始在高意图LLM响应中持续出现时,影响力将变得可衡量,而评分卡能清晰指示下一步优化方向。使用以下简易优先级框架识别关键指令:
- 高商业价值+低AI可见度 = 立即优先(最大机会点)
- 高流量查询+高可见度 = 维护更新(巩固现有成果)
- 低流量+高可见度 = 分析原因(可能赢了无关紧要的查询)
- 低价值+低可见度 = 降低优先级(非每场战役都值得投入)
选定工具与方法论后,最后一步是建立监测节奏——既要保持信息同步,又避免陷入数据洪流。(信息来源
测量节奏
不同指标需要不同的监测频率。有些信号每周变化,有些则需要数月才能获得有效评估。无论您正处于GEO方案规划初期还是已进入实施阶段,都需要掌握以下测量节奏要点:
周度监测
在主流AI平台对20个核心指令进行可见度审计,追踪出现情况、排名位置、情感倾向及引用来源。此举可捕捉快速变化与竞争动态。
月度汇总
将周度数据整合为可见度份额趋势图,分析引用频率与来源构成,记录幻觉修正进展及”从零到提及”计划的实施成效。
季度深潜
开展跨平台情感分析与存在度评估,更新竞争基准指标,根据实效调整策略方向。
半年度校准
将GEO指标与业务指标关联——包括品牌搜索趋势、销售对话主题及输赢模式分析。此阶段将构建持续投入的决策依据。
框架本身是清晰的,关键在于持续执行并让数据指引优先级。
立即开始测量重点:即刻构建您的GEO战略
GEO的投资回报率如同良好声誉的回报——虽难以精确计算,但当竞争对手主导您所在领域的AI对话时,您必将感受到其缺失的代价。AI搜索的发展从未放缓,每月都有更多买家开始在ChatGPT、Perplexity和AI概览中启动调研。
当下建立测量框架(追踪跨平台可见度、引用与情感)的品牌将获得持续优化所需的数据基础,而观望者只能追赶那些早已通过优化占据默认推荐位的竞争对手。三大支柱提供框架,监测工具提供数据,测量节奏赋予章法——最后只待执行落地。
准备好构建您的GEO测量框架了吗?请联系领先的GEO服务机构,探讨如何助力您追踪并提升AI可见度。

Leave a Reply