via https://www.slideshare.net/DavidLewis93/you-deleted-how-many-pages-130m-and-heres-why-brightonseo-autumn-2021
备注:这是一份PPT,一家大型网站的SEO负责人解释为何要删除1.3亿页面,以及删除后的效果。一般来说,大家都希望自己的网站被搜索引擎收录越多越好,为何这哥们独辟蹊径,反其道而行之呢。而且1.3亿页面可不是个小数目,互联网可能95%以上的网站页面总量都不超过一个亿,好了话不多说,我就简要概括下这个案例。
1.网站背景介绍:
该网站的地址是:Trainline.com,是欧洲领先的火车和公共交通预定平台,代理270家以上的铁路和客运公司的票务销售,APP有超过320万次下载,月度访客约9千万,76%的交易额来自移动端,服务175个国家,提供14种语言版本。
2.抓取预算介绍:

具体的阐述可以看(www.botify.com/blog/crawl-budget-optimization/)
3.这个网站是如何变得这么臃肿的呢?用户访问这个网站时,搜索结果和网站入口是这样的:


4.这位哥们总结了Google抓取他们网站的一些规律:
a.Google抓取有价值的页面耗时平均1-3周
b.平均算下来,Google一个月抓取的页面中,有36%是价值不大的。
c.他们网站的内部链接架构不是最完善,覆盖率36%(Coverage rate啥意思存疑)

5.SEO的项目目标:
a.删除1.3亿低价值页面
b.内部链接的覆盖率达到100%
c. 高价值页面被Google爬虫抓取的比例超过90%
d.提升收录页面的平均排名
6.新的内部链接架构,同时把1约1.5亿页面孤岛化(不给予内链)


项目上线六个月之后,抓取效能有提升,但是还没到令人满意的地步。

所以又删除了500万个页面,不过还有1.25个页面需要删除,例如一个页面在6个子域名下都有相同的版本,对Google爬虫资源来说是无谓的消耗。


之后,我们监控了GSC后台的数据,86%删除的页面在两个月后也被Google移出了收录结果


项目最终成效:
1.优质页面的抓取率从64%提升到87%

2.同时被Botify和Googlebot抓取的页面数量增长了3倍左右

3.之前网站里的孤岛页面,做了内链之后,平均排名从第8位提升到第6位
4.抓取深度从7页降低到5页

项目总结:
1.Sitemap文件的处理:不能仅仅从GSC后台移除sitemap文件,还得彻底删除这些文件
2.其实删除文件也不是一劳永逸,因为Googlebot也有长期记忆。
3.关于将页面410的处理,我们本来期望48小时内能清除出收录,但是没有考虑Googlebot还是会抓取这些页面的时间
4.最后,如果你觉得找到答案,要深入挖掘,根据数据做决策