营销分(fēn)享 >
技术分(fēn)享 >
搜索引擎优化技术包括哪些内容?
在掌握seo这门技术前,要先了解搜索引擎优化技术的原理(lǐ)。其中包括对数据的预处理(lǐ),数据预处理(lǐ)与爬行抓取一样也是在后台系统中提前完成的,大致内容包含关键词提取、删除停用(yòng)词和分(fēn)词技术。
此外还有(yǒu)其他(tā)的一些工作:
4.消除噪声
网页上有(yǒu)形形色色的广告文(wén)字、广告图像、登录框、版权等信息,為(wèi)了某些目的不得不放上去,这些对搜索引擎来说是无用(yòng)的信息,对搜索引擎而言属于噪声元素,可(kě)以直接删除。
5.分(fēn)析网页建立倒排文(wén)件
(1)正向索引
经过前面几个步骤后,就可(kě)以开始提取关键词了,将页面转换為(wèi)一个关键词组合,同时记录每个关键词在页面上的出现频率、格式和位置,这样每个页面都可(kě)以记录為(wèi)一串关键词组合,其中每个关键词的出现频率、格式和位置等权重信息也都记录在案。
(2)倒排索引
正向索引不能(néng)直接用(yòng)于排名。例如,用(yòng)户搜索关键词3,如果只正向索引,排名程序需要扫描所有(yǒu)索引中的文(wén)件,找出包含关键词3的文(wén)件,再进行相关计算。这样做计算无法实时返回排名结果。因此,搜索引擎会将正向索引数据库重新(xīn)构造為(wèi)倒排索引,倒排索引以关键词為(wèi)索引。
6.链接关系计算
链接关系计算是数据预处理(lǐ)中重要的一步。主流的搜索引擎排名因素包含网页之间的链接流信息。事先必须计算页面上有(yǒu)哪些链接指向哪些其他(tā)页面,每个页面有(yǒu)哪些导入链接,使用(yòng)了如锚文(wén)本等何种链接方式,谷歌PR是这种链接关系计算的重要代表之一。
7.特殊文(wén)件处理(lǐ)
搜索引擎可(kě)以抓取和索引以文(wén)字為(wèi)基础的多(duō)种文(wén)件类型。而特殊文(wén)件包括动画、视频、PPT、表格、图像等非文(wén)字内容。搜索引擎不能(néng)执行脚本和抓取程序,因為(wèi)搜索引擎目前还无法获取特殊文(wén)件中的文(wén)字信息。对图像来说,一般推荐使用(yòng)alt标签向搜索引擎传达图像信息。