via https://searchengineland.com/chatgpt-citations-content-study-469483
新研究发现,ChatGPT在选取引用内容时,高度偏好文章开头部分,青睐直接的定义、平衡的语气和密集的实体信息。
增长顾问Kevin Indig通过分析120万条AI回答和18,012个经过验证的引用来源得出上述结论。
为何值得关注。 传统搜索奖励的是深度内容和后置呈现的信息。而AI偏好即时分类——清晰的实体和靠前的直接答案。如果你的核心内容没有在早期呈现,它出现在AI回答中的可能性就会降低。
数据概览。 Indig的团队发现了一个一致的”滑雪跳台”式引用模式,该模式在随机验证批次中均得到印证。他认为这些结果在统计上无可争议:
- 44.2%的引用来自内容的前30%。
- 31.1%的引用来自中间部分(30%-70%)。
- 24.7%的引用来自后三分之一,接近页脚处引用率急剧下降。
在段落层面,AI的读取更为深入:
- 53%的引用来自段落中间部分。
- 24.5%的引用来自段落首句。
- 22.5%的引用来自段落尾句。
核心结论。 在文章层面,要将关键见解前置。在段落内部,优先考虑清晰度和信息密度,而非刻意雕琢首句。
原因分析。 大语言模型通常基于遵循”结论先行”结构的新闻和学术写作进行训练。模型似乎更重视早期的框架性内容,然后通过这个框架来解读其余部分。现代模型虽然能够处理海量词元窗口,但它们会优先考虑效率并快速建立上下文。
什么内容容易被引用。 Indig归纳了高引用率内容的五个特征:
- 确定性的语言: 被引用段落使用清晰定义(”X是……”,”X指……”)的可能性几乎是其他段落的两倍。直接的主谓宾陈述句优于模糊的框架式表达。
- 对话式问答结构: 被引用内容包含问号的可能性是其他内容的两倍。与问题相关的引用中,有78.4%来自标题。AI通常将H2标题视为提示词,并将其后的段落视为答案。
- 丰富的实体信息: 典型英文文本中专有名词占比为5%至8%。而高引用率的文本平均占比达到20.6%。具体的品牌、工具和人名能锚定答案并减少歧义。
- 平衡的情感倾向: 被引用文本的主观性评分集中在0.47左右——既非纯粹的事实陈述,也非情绪化的观点。这种理想的语气类似于分析师评论:事实加上解读。
- 商业级的清晰度: 表现优异的内容平均Flesch-Kincaid年级水平为16级,而表现较差的内容为19.1级。较短的句子和朴实的结构优于密集的学术性散文。
关于数据。 Indig分析了300万条ChatGPT回复和3000万个引用来源,从中筛选出18,012个经过验证的引用,以探究AI提取内容的位置和原因。他的团队使用句子转换器嵌入将回复与特定的源句子进行匹配,然后测量其在页面的位置以及定义特征、实体密度、情感倾向等语言特征。
总结。 叙事性的”终极指南”式写作在AI检索中可能表现不佳。结构化的、简报式的写作风格效果更好。
Indig认为,这带来了一种”清晰度成本”。创作者必须将定义、实体和结论前置,而不是留到文末。
