下面主要从6个方面分(fēn)别介绍百度seo网站优化要了解的搜索引擎抓取页面应该遵循的策略。
1.友好性
对网站而言,蜘蛛程序访问网站抓取页面时会占用(yòng)一定的带宽资源,可(kě)能(néng)会影响用(yòng)户正常访问网站。因此,蜘蛛程序要确保对网站的友好,既能(néng)更多(duō)地抓取有(yǒu)价值的信息,又(yòu)不影响用(yòng)户使用(yòng)网站的體(tǐ)验。如根据网站的实际情况,制定合适的抓取频率,合理(lǐ)制定蜘蛛光顾的时间等。
2.根据不同代码采取不同的抓取策略
网站管理(lǐ)者制作网站页面需要遵循一套通用(yòng)的代码规则。例如,404代码的页面表示失效不存在了,403代码的页面表示目前禁止访问等。蜘蛛程序抓取页面时,要针对不同的返回码提示,采取不同的抓取策略,如对404代码的页面,第一次抓取后,就没必要再重复抓取了。
3.根据页面类型动态地抓取
针对不同的网站和相同网站的不同页面,蜘蛛程序要注意识别重要和次要的页面,将更多(duō)的资源用(yòng)在那些具有(yǒu)重要的、有(yǒu)价值的、更新(xīn)频率高等特点的网站和页面上。搜索引擎要制定多(duō)个指标综合判断,形成合理(lǐ)的判定页面ABC类型的方法,并做到动态调整。
4.避免重复抓取
蜘蛛程序在抓取页面时需要判断是否已经抓取过,只有(yǒu)没有(yǒu)抓取过的页面才放入总页面数据库中,重复抓取相同的页面没有(yǒu)实际意义。因此,蜘蛛程序需要快速判断页面地址(URL)是否已经存在于总链接库中,或者判断出该新(xīn)URL指向的页面实际已经收录,只不过新(xīn)URL包含很(hěn)多(duō)无效的参数。
5.提供多(duō)种收录方式
受网络环境、网站建设等因素影响,蜘蛛程序并不能(néng)抓取到互联网上的所有(yǒu)信息,或者有(yǒu)些信息需要等待更長(cháng)的时间才有(yǒu)可(kě)能(néng)被蜘蛛程序发现。因此,网站管理(lǐ)人员需要通过其他(tā)方式使搜索引擎尽快收录自己的网站。目前,搜索引擎主要采用(yòng)开放平台,接受用(yòng)户数据提交的方式,弥补蜘蛛程序的不足。
6.反作弊
互联网上的信息鱼龙混杂,很(hěn)多(duō)非法的、低质量的页面充斥其中,蜘蛛程序如果抓取这些页面会浪费资源,还容易引起用(yòng)户的反感。因此,搜索引擎需要针对垃圾页面描述出主要特征,将这些数据系统化,形成反作弊系统,使蜘蛛程序能(néng)够智能(néng)地避开这些页面。
当然,百度seo网站优化搜索引擎抓取页面的策略不止这6个方面,但它们具有(yǒu)一定的代表性。為(wèi)了更直观地理(lǐ)解蜘蛛程序抓取页面的工作,下面通过搜索引擎抓取内容模拟器来模拟蜘蛛程序的抓取。
相关阅读:搜索引擎优化初學(xué)者要懂得的规范