谷歌详解2026年抓取机制

via https://searchengineland.com/google-explains-how-crawling-works-in-2026-473110

谷歌介绍了抓取、获取以及它处理的字节数据。

来自谷歌的 Gary Illyes 分享了关于 Googlebot、谷歌抓取生态系统、获取机制以及它如何处理字节数据的更多细节。

这篇文章名为《Googlebot 内部解密：爬取、获取与字节处理》。

Googlebot。谷歌拥有的爬虫远不止一个，它针对不同目的配备了多种爬虫。因此，把 Googlebot 当作单一爬虫来指代可能已经不够准确了。谷歌在这里记录了它的许多爬虫和用户代理。

限制。最近，谷歌谈到了它的抓取限制。现在，Gary Illyes 对此做了更深入的探讨。他说：

Googlebot 目前对每个独立 URL 的抓取上限为 2MB（PDF 文件除外）。
这意味着它只抓取资源的前 2MB，包括 HTTP 标头。
对于 PDF 文件，限制为 64MB。
图片和视频爬虫的阈值范围通常较广，很大程度上取决于它们为之抓取的产品。
对于其他未指定限制的爬虫，无论内容类型如何，默认限制为 15MB。

那么，当谷歌抓取时会发生什么？

部分抓取：如果你的 HTML 文件大于 2MB，Googlebot 不会拒绝该页面。相反，它会在 2MB 处恰好停止抓取。请注意，该限制包括 HTTP 请求标头。

处理截断内容：下载下来的部分（前 2MB 字节）会被传递给我们的索引系统和网页渲染服务（WRS），就好像它是完整的文件一样。

未见的字节：超过 2MB 阈值之后的任何字节都会被完全忽略。它们不会被获取、不会被渲染、也不会被索引。

引入资源：HTML 中引用的每个资源（媒体、字体和一些特殊文件除外）都会由 WRS 像父级 HTML 一样通过 Googlebot 进行抓取。这些资源各自拥有独立且按 URL 计算的字节计数器，不会计入父页面的大小。

谷歌如何渲染这些字节。当爬虫访问这些字节后，会将其传递给网页渲染服务（WRS）。谷歌解释说：“WRS 处理 JavaScript 并执行客户端代码，类似于现代浏览器，以理解页面的最终视觉和文本状态。渲染会拉取并执行 JavaScript 和 CSS 文件，处理 XHR 请求，以更好地理解页面的文本内容和结构（它不会请求图片或视频）。对于每个请求的资源，同样适用 2MB 的限制。”

最佳实践。谷歌列出了以下最佳实践：

保持 HTML 精简：将重量级的 CSS 和 JavaScript 移到外部文件中。虽然初始 HTML 文档的上限是 2MB，但外部脚本和样式表是单独获取的（各自有自己的限制）。
注意顺序：将最关键的元素——如 meta 标签、<title> 元素、<link> 元素、规范化标签（canonicals）和关键结构化数据——放在 HTML 文档的靠前位置。这可以确保它们不太可能落在截断线以下。
监控服务器日志：密切关注服务器的响应时间。如果你的服务器在提供字节数据方面遇到困难，我们的抓取器会自动退避，以避免使你的基础设施过载，这将导致你的抓取频率下降。

谷歌详解2026年抓取机制

Leave a Reply Cancel reply

Leave a Reply Cancel reply