我们可以假设一个完美的情况,就是搜索引擎爬虫每天来一次,抓取完了当天产生的所有新页面无一遗漏,然后第二天全部收录在主搜索里。
当然这是不可能的,原因在于:
1.爬虫程序有瓶颈,就算是人工也无法精确判断出一天内,或者和上次抓取相比新增或修改的所有页面;新页面通常不会是频道页,目录页(这类页面基本爬虫每次来都会重新抓取一遍);而是资讯页和产品页,这些页面的问题在于内链过少,极有可能在列表首页仅仅停留了一两分钟就沉到十几页之后,超出了爬虫所能抓取的极限
2.即使新页面被抓取后,也得经过搜索引擎后台的比较、去重和分析等一系列步骤后,搜索引擎认为这一页面具有足够的价值,且能满足搜索者的潜在需求,再会把页面放出到主搜索数据库也就是通常意义上的收录。
所以结合以上两个情况,如何能最大限度上让新页面被收录呢?
1. 页面内容唯一性极强,很多产品页面可能只是颜色或者价格稍做改动,其他介绍和参数都是一样的,那就极易让搜索引擎判为重复页面,这种情况下就得花大力气充实页面内容,突出每个产品或服务的特点;如果能适当引入用户的评论信息就更棒了,因为不同产品的评论基本不太可能雷同,能有效降低页面间的重复性。
2.页面生成后全站多频道给予推荐,以京东为例,一款新上的耳机我可以把它放在电脑外设目录下,也可以同时放在影音产品目录下,这样新页面出来后两个频道都能给予链接。不过这样的解决方案对大网站来言是杯水车薪,理想的解决方案是做个内链推荐系统,最好能和收录查询相结合:例如每周新增10000页面,每个页面至少保证3个内链,一周后查询收录,已收录则撤掉链接支持更新的页面;未收录则果断增加内链,如果加满十个内链也没收录,那就放弃。当然如果你有足够的外链资源适当加几个外链效果自然更佳
内链可以分为几个level :首页 频道 单页,权重由高到低,但数量则是从少到多,如何在分配内链时兼顾数量与质量,头疼呀。。。。
这篇文章未完待续有了好的方法继续来更新