深入探讨ChatGPT-5的web.search()功能

ChatGPT 5现已发布，Profound团队的Josh迅速跟进，帮助深入解析该搜索服务的运作机制。

看到Charlie分享了GPT5的潜在系统提示（我说“潜在”，是因为仍不确定能否获得极其精准的信息），我决定仔细研究对话事件流中的情况——它与ChatGPT 4.1有何不同？这对我们的工作方式会产生影响吗？

关键问题/观察

目前尚处早期阶段，仍需大量研究，但初步发现如下：

若想真正理解我们需要在哪些搜索引擎中保持可见性，针对SonicBerry内部搜索服务引文来源的研究比以往更为重要。

SonicBerry是单纯聚合结果，还是在提交给GPT5前会对结果重新排序？若存在重排序机制，采用哪些信号指标？这点至关重要。

初步测试中尚未发现扇出（fan-out）案例，但这不表示该现象不存在或不可见。

针对以下场景的分类器将极大帮助我们理解搜索实现方式（查询次数、分层搜索等）：
a) 何时需要搜索
b) 搜索复杂度层级
开展大规模研究并追踪随时间推移的变化，这对AI搜索领域极具实践意义。

SonicBerry付费版与免费版在使用时是否存在质量或完整性的差异？抑或仅用于追踪目的？这种差异源于供应商接入方式（如Google/Bing API配额）还是索引更新频率？免费用户是否会因调用低级别API而获取陈旧结果？

若对搜索结果进行更多聚类清洗（配备备用方案），可能会提升引文准确率并减少错误链接。是否存在更完善的防护机制来规避“危险”或“法律敏感”内容被呈现？或许这些措施正在协同发挥作用。

何时/为何需要启用备用方案？触发因素及其影响是什么？

搜索功能在多大程度上依赖元数据而非直接抓取页面内容？推测精准的元数据依然关键，且无需JavaScript即可抓取内容的能力仍然重要，但这需要进一步验证。

搜索功能实际被调用的频率如何？

搜索调用数据

本节内容仍在完善中，感谢各方持续提供信息。当前数据受关键词样本偏差影响较大，但积累多元化账户数据仍具重要价值。

若您愿意提供协助，欢迎联系我们——期待在此呈现更丰富的数据！

SE Ranking 数据

SE Ranking团队基于其AI追踪系统提供了相关数据支持。

在10万个关键词样本中，15.77%的查询返回了网络搜索引文来源。但整体数据可能掩盖细节，以下是细分领域数据及平均查询长度分析：

几项值得关注的发现：

*此处词长可能代表查询复杂程度

这与先前数据（见下文）存在差异，但可能与关键词样本的相似性有关。在进行数据分段与公平对比前，我们需将此现象置于约10-30%的引文率区间内考量

Chris Long 的数据研究
Chris Long测试了近8700个查询词（虽多为高意向/交易类词汇），发现其中31%的查询触发了web.search()功能——这与我对2000条查询子集的测试结果基本吻合。更多细节可参阅其LinkedIn文章，以下是他提供的关键摘要：

web.search() 运行机制解析
第二代网络搜索流程（Web Search Flow V2）

这对SEO及日常实践有何影响？搜索功能的触发时机（及其未触发的情况）将直接影响我们优化ChatGPT内容的方向。

V2版本的提出旨在更清晰地描述可操作的优化步骤，并呈现更多调研成果的输出路径。

流程V1（保留旧版以供参考）
以下为（旧版）流程总结及参考说明：

各部分详细说明附后

1. 搜索触发决策

2. OpenAI元搜索后端（SonicBerry）

3. 结构化结果处理

4. 内容获取机制

5. 引用框架

存在关于内容引用方式可能改进的线索：
- 将论述链接至对应信源
- GPT-5使用grouped_webpages、safe_urls、fallback_items等参数，并将引用映射至特定文本段
- 示例：”Wix推出AI Visibility Overview功能¹” → ¹TechRadar

6. 内容审核机制

7. 调试与元数据