营销分(fēn)享 > 技术分(fēn)享 >

数据预处理(lǐ)包含哪些内容?

在掌握seo这门技术前,要先了解搜索引擎优化技术的原理(lǐ)。其中包括对数据的预处理(lǐ),数据预处理(lǐ)与爬行抓取一样也是在后台系统中提前完成的,大致内容包含关键词提取、删除停用(yòng)词和分(fēn)词技术。今天将会重点介绍分(fēn)词技术。
分(fēn)词的方法有(yǒu)两种:基于字符串匹配的分(fēn)词方法和基于统计的分(fēn)词方法。




基于字符串匹配的分(fēn)词方法


按匹配方向的不同,可(kě)分(fēn)為(wèi)正向匹配、逆向匹配和最少切词。这三种方法可(kě)以混合使用(yòng),即正向最大匹配、逆向最大匹配、正向最小(xiǎo)匹配和逆向最小(xiǎo)匹配。


①正向最大匹配

假设字典中最長(cháng)的词语字数為(wèi)m,先根据标点符号及特征词将句子切分(fēn)為(wèi)短语,取短语的前m个字,在字典中查找是否存在这个词,如果存在,就输出这个词,并以短语中删除这个词。

如果不存在,就删除这m个字的最后一个字。然后检剩下的是否為(wèi)单字,若是则输出此字并将此字从短语中删除,若否则继续判断字典中是否存在这个词,如此反复循环,直到输出一个词,此后继续取剩余短语的前m个字反复循环。

这样就可(kě)以将一个短语分(fēn)成词语的组合了。


②逆向最大匹配

逆向最大匹配是从句子结尾处进行分(fēn)词的方法。

逆向最大匹配技术最大的一个作用(yòng)是消歧。例如,“吕令建周末去了汤河口镇钓鱼”,按照正向最大匹配结果為(wèi):吕/令建/去了汤/河口镇/鱼,显然产生了岐义,汤河口镇是一个地名,没有(yǒu)被正确地切分(fēn)。

采用(yòng)逆向最大匹配的技术可(kě)以修正这个错误。例如,一个分(fēn)词节点大小(xiǎo)為(wèi)8,“去了汤河口镇钓鱼”中显然“去了”被分(fēn)出来,剩下“汤河口镇钓鱼”,歧义就被消除了。


③正向最小(xiǎo)匹配/逆向最小(xiǎo)匹配

这两种方式一般很(hěn)少使用(yòng),但在实际使用(yòng)中逆向匹配的精准度要高于正向匹配。


推荐文(wén)章

     

久格科(kē)技(深圳)有(yǒu)限公司.版权所有(yǒu)

备案查询地址:

      

我们的服務(wù)

系统产品

营销分(fēn)享

联系我们

扫一扫关注我们

久格科(kē)技(深圳)有(yǒu)限公司.版权所有(yǒu)