谷歌详解2026年抓取机制

via https://searchengineland.com/google-explains-how-crawling-works-in-2026-473110

谷歌介绍了抓取、获取以及它处理的字节数据。

来自谷歌的 Gary Illyes 分享了关于 Googlebot、谷歌抓取生态系统、获取机制以及它如何处理字节数据的更多细节。

这篇文章名为《Googlebot 内部解密:爬取、获取与字节处理》。

Googlebot。谷歌拥有的爬虫远不止一个,它针对不同目的配备了多种爬虫。因此,把 Googlebot 当作单一爬虫来指代可能已经不够准确了。谷歌在这里记录了它的许多爬虫和用户代理。

限制。最近,谷歌谈到了它的抓取限制。现在,Gary Illyes 对此做了更深入的探讨。他说:

  • Googlebot 目前对每个独立 URL 的抓取上限为 2MB(PDF 文件除外)。
  • 这意味着它只抓取资源的前 2MB,包括 HTTP 标头。
  • 对于 PDF 文件,限制为 64MB。
  • 图片和视频爬虫的阈值范围通常较广,很大程度上取决于它们为之抓取的产品。
  • 对于其他未指定限制的爬虫,无论内容类型如何,默认限制为 15MB。

那么,当谷歌抓取时会发生什么?

部分抓取:如果你的 HTML 文件大于 2MB,Googlebot 不会拒绝该页面。相反,它会在 2MB 处恰好停止抓取。请注意,该限制包括 HTTP 请求标头。

处理截断内容:下载下来的部分(前 2MB 字节)会被传递给我们的索引系统和网页渲染服务(WRS),就好像它是完整的文件一样。

未见的字节:超过 2MB 阈值之后的任何字节都会被完全忽略。它们不会被获取、不会被渲染、也不会被索引。

引入资源:HTML 中引用的每个资源(媒体、字体和一些特殊文件除外)都会由 WRS 像父级 HTML 一样通过 Googlebot 进行抓取。这些资源各自拥有独立且按 URL 计算的字节计数器,不会计入父页面的大小。

谷歌如何渲染这些字节。当爬虫访问这些字节后,会将其传递给网页渲染服务(WRS)。谷歌解释说:“WRS 处理 JavaScript 并执行客户端代码,类似于现代浏览器,以理解页面的最终视觉和文本状态。渲染会拉取并执行 JavaScript 和 CSS 文件,处理 XHR 请求,以更好地理解页面的文本内容和结构(它不会请求图片或视频)。对于每个请求的资源,同样适用 2MB 的限制。”

最佳实践。谷歌列出了以下最佳实践:

  • 保持 HTML 精简:将重量级的 CSS 和 JavaScript 移到外部文件中。虽然初始 HTML 文档的上限是 2MB,但外部脚本和样式表是单独获取的(各自有自己的限制)。
  • 注意顺序:将最关键的元素——如 meta 标签、<title> 元素、<link> 元素、规范化标签(canonicals)和关键结构化数据——放在 HTML 文档的靠前位置。这可以确保它们不太可能落在截断线以下。
  • 监控服务器日志:密切关注服务器的响应时间。如果你的服务器在提供字节数据方面遇到困难,我们的抓取器会自动退避,以避免使你的基础设施过载,这将导致你的抓取频率下降。

Leave a Reply

Your email address will not be published. Required fields are marked *

Leave a Reply

Your email address will not be published. Required fields are marked *