SEO优化是一种低成本或零成本的营销方式,但有(yǒu)别于其他(tā)营销方式,要做好SEO,需要了解和熟悉seo优化和搜索引擎优化技术知识。
做好SEO首先要了解
搜索引擎优化技术,其基础知识包括搜索引擎原理(lǐ),搜索引擎的工作过程基本上可(kě)分(fēn)成3个阶段。首先进行爬行抓取,然后进行数据预处理(lǐ),包括提取文(wén)字、中文(wén)分(fēn)词等,最后给予排名输出。本篇将会重点介绍搜索引擎是如何爬行抓取内容的。
爬行的策略
爬行主要按两种策略执行:一是深度优先爬行,二是广度优先爬行。
1)深度优先爬行
蜘蛛从A页面顺序爬行到A1、A2、A3、A4页面,爬行到A4页面后发现没有(yǒu)页面了,于是返回A页面,以此类推,再爬行到B1、B2、B、B4页面。深度优先爬行的主要特点是蜘蛛会沿着一条線(xiàn)一直抓取下去,直到最后,然后返回,再开始另一条線(xiàn)。
2)广度优先爬行
广度优先爬行是指蜘蛛在一个页面上发现多(duō)个链接时,首先将所有(yǒu)第一层的链接抓取一遍,然后沿着第二层链接向第三层链接爬行。
归根到底,只要给蜘蛛足够的时间,无论广度优先爬行,还是深度优先爬行,都能(néng)爬完整个网站。SEO的一个基本原则是要给蜘蛛节省宽带和资源,毕竟蜘蛛的资源不是无限的,也有(yǒu)满负载的时候。SEO人员要做的工作之一就是為(wèi)蜘蛛指明一条正确的路径,尽量减少蜘蛛的工作强度。
另外,还需注意尽量避免蜘蛛重复爬行数据,造成重复收集的原因是蜘蛛并没有(yǒu)记录访问过的页面URL,或者一个页面有(yǒu)多(duō)个URL指向它。
针对这个情况,搜索引繁增加了一个额外的技术,分(fēn)别定义两个不同类型的表,即已访问表和未访问表,依靠此技术就可(kě)以简单地解决重复收集的难题。在蜘蛛抓取到一个链接后,从这两个表中可(kě)以判断此链接是否已经被访问过,如果没有(yǒu)被访问过,抓取回来就添加到未访问表中。