via https://developers.google.com/search/docs/advanced/guidelines/how-search-works
在进行网站调试和预测 Google 搜索的行为时,了解 Google 搜索如何抓取内容、将内容编入索引和呈现内容至关重要。
抓取
抓取是指 Googlebot 访问新网页和更新后的网页并将其添加到 Google 索引中的过程。
我们使用大量计算机提取(即“抓取”)网络上的数十亿个网页。执行抓取任务的程序叫做 Googlebot(也称为漫游器或“蜘蛛”程序)。Googlebot 使用算法流程确定要抓取的网站、抓取频率以及要从每个网站抓取的网页数量。
Google 首先会根据一份网页网址列表开始其抓取过程,该列表是在之前进行的抓取过程中生成的,且随着网站所有者所提供的站点地图数据的增多而不断扩大。Googlebot 在访问某个网页时,会查找该网页上的链接,并将这些链接添加到它要抓取的网页的列表中。它会记录新建立的网站、对现有网站进行的更改以及无效链接,并据此更新 Google 索引。
在抓取过程中,Google 会使用 Chrome 的最新版本呈现网页。在呈现过程中,它会运行找到的所有网页脚本。如果您的网站使用动态生成的内容,请务必遵循 JavaScript SEO 基础知识页面上的要求。
主要抓取/辅助抓取
Google 使用两种不同的抓取工具抓取网站:移动版抓取工具和桌面版抓取工具。每种抓取工具都会使用对应的设备模拟访问您网页的用户。
Google 使用其中一种抓取工具(移动版或桌面版)作为网站的主要抓取工具。网站上被 Google 抓取的所有网页都是使用主要抓取工具抓取的。 对所有新网站使用的主要抓取工具都是移动版抓取工具。
此外,Google 还会使用除主要抓取工具之外的抓取工具(移动版或桌面版)重新抓取网站上的一些网页。这称为辅助抓取,目的在于了解其他设备类型对您网站的适用情况。
Google 如何得知哪些网页不需要抓取?
- 系统不会抓取 robots.txt 中屏蔽的网页,但如果有其他网页链接到这些网页,系统仍可能会将其编入索引。Google 可以通过指向相应网页的链接来推断网页内容,并且在不解析其内容的情况下将该网页编入索引。
- Google 无法抓取匿名用户无法访问的网页。因此,任何登录或其他授权防护措施都将阻止 Google 抓取网页。
- Google 不会频繁地抓取先前已被抓取且被视为与其他网页重复的网页。
改善抓取质量
利用以下这些技巧帮助 Google 发现您网站上正确的网页:
- 提交站点地图。
- 针对单个网页提交抓取请求。
- 针对网页使用简单易懂的逻辑网址路径,并在网站中提供清晰直接的内部链接。
- 如果您在网站上使用网址参数进行导航,例如,如果在全球购物网站上指明用户所在的国家/地区,请使用网址参数工具告知 Google 关于重要参数的信息。
- 谨慎使用 robots.txt:使用 robots.txt 指明您希望 Google 优先了解或抓取哪些网页,从而降低服务器负载,请勿将其作为阻止内容出现在 Google 索引中的方法。
- 使用 hreflang 指向其他语言版本的网页。
- 明确指出规范网页和备用网页。
- 通过“索引涵盖范围”报告查看您的抓取和索引涵盖范围。
- 确保 Google 可以访问主要网页以及正确呈现网页所需的重要资源(图片、CSS 文件、脚本)。
- 用网址检查工具检查实际网页,确认 Google 可以正常访问并呈现您的网页。
编入索引
Googlebot 会处理它抓取的每个网页,以便了解每个网页的内容。 这包括处理文字内容、关键内容标记和属性,例如 <title>
标记和 Alt 属性、图片、视频等。Googlebot 可处理多种类型的内容,但并不是所有类型的内容都能处理。例如,我们无法处理某些富媒体文件的内容。
在抓取和编入索引的间隙,Google 会确定网页是否是另一网页的重复网页或规范网页。如果该网页被视为重复网页,Google 便不会频繁地抓取它。相似网页会归入一个文档中,其中列出了一个或多个网页,包括规范网页(这组网页中最具代表性的网页)和找到的所有重复网页(可能只是同一网页的备用网址,或者可能是同一网页的移动版或桌面版网页)。
请注意,Google 不会将包含 noindex
指令(标头或标记)的网页编入索引。但前提是 Google 必须能够看到该指令;如果网页被 robots.txt 文件、登录页或其他设备屏蔽了,那么即使 Google 并未访问该网页,也可能会将其编入索引!
改善编入索引的效果
您可以通过多种技巧使 Google 更加了解您的网页内容:
- 使用
noindex
标记阻止 Google 抓取或找到您要隐藏的网页。请勿对 robots.txt 屏蔽的网页添加noindex
标记;如果这样做,Google 将看不见noindex
标记,并且仍可能会将该网页编入索引。 - 使用结构化数据。
- 遵循 Google 网站站长指南。
- 查看搜索引擎优化 (SEO) 新手指南和高级用户指南,了解更多技巧。
什么是“文档”?
Google 在内部将网页表示为大量文档。每个文档都表示一个或多个网页。这些网页完全相同或非常相似,但本质上内容相同,可以通过不同网址访问。文档中的不同网址可能会指向完全相同的网页(例如,example.com/dresses/summer/1234 和 example.com?product=1234 可能会显示同一网页),或指向同一网页针对不同设备的用户提供的微调版本(例如,example.com/mypage 适合桌面设备用户,m.example.com/mypage 适合移动设备用户)。
Google 会从文档中选择其中一个网址,并将其定义为该文档的规范网址。文档的规范网址是 Google 最常抓取和编入索引的网址;其他网址会被视为重复网址或备用网址,并且可能偶尔会被抓取,或根据用户请求将其作为结果呈现。例如,如果文档的规范网址是移动网址,Google 仍可能会为用桌面设备搜索的用户提供桌面(备用)网址。
Search Console 中大多数报告的数据都来自文档的规范网址。某些工具(例如网址检查工具)支持测试备用网址,但检查规范网址也会提供有关备用网址的信息。
您可以告知 Google 您希望哪个网址是规范网址,但 Google 仍可能会因各种原因而选择其他网址作为规范网址。
下面简要说明了这些术语,以及它们在 Search Console 中的使用:
- 文档:一个相似网页的集合。包含规范网址,如果您的网站有重复网页,还包含备用网址。文档中的网址可能来自相同或不同的组织(根域名,例如 www.google.com 中的“google”)。Google 会根据平台(移动设备/桌面设备)、用户语言或地理位置以及多个其他变量,选择要显示在搜索结果中的最佳网址。Google 会通过自然抓取或网站实现的功能(例如重定向或
<link rel=alternate/canonical>
标记)发现网站上的相关网页。其他组织的相关网页只有在您网站通过重定向或链接标记明确编码的情况下,才会被标记为备用网页。采用不同语言但具有相同内容的网页会存储在不同文档中,这些文档使用 hreflang 标记相互引用;因此,请务必用 hreflang 标记翻译内容。 - 网址:用于访问网站上指定内容的网址。
- 网页:通过一个或多个网址访问的指定网页。网页可能有不同的版本,具体取决于用户的平台(移动设备、桌面设备、平板电脑等)。
- 版本:网页的一个变体,通常分为“移动版”、“桌面版”和“AMP”(但 AMP 网页本身可以有移动版和桌面版)。每个版本都可以有不同网址(例如 example.com 与 m.example.com)或相同网址(如果您的网站动态提供内容或使用自适应设计,那么同一网址可以显示同一网页的不同版本),具体取决于您的网站配置。语言变体不会被视为不同版本,而是被视为不同的文档。
- 规范网页或网址:Google 认为最能代表文档的网址。Google 始终会抓取此网址,偶尔也会抓取文档中的重复网址。
- 备用/重复网页或网址:Google 可能会偶尔抓取的文档网址。如果这些网址适合用户和请求,Google 也会呈现这些网址(例如,会为在桌面设备上提出请求的桌面设备用户提供备用网址,而不是规范移动网址)。
- 网站 (Site):通常用作网站(website,概念相关的一组网页)的同义词,但有时也可用作 Search Console 资源的同义词,而实际上可以将资源定义为网站的一部分。网站可以跨多个子网域,如果 AMP 网页关联正确的话,甚至可以跨多个网域。
呈现结果
用户输入查询时,我们的机器会在索引中搜索匹配的网页,并返回我们认为与用户的搜索内容最相关的结果。相关性是由数百个因素决定的,我们一直在努力改进算法。Google 在选择结果和对其进行排名时会考虑用户体验,因此请务必确保您的网页能快速加载且适合移动设备。
改善内容呈现
您可以通过多种方式改善 Google 呈现网页内容的方式: