营销分(fēn)享 > 技术分(fēn)享 >

数据预处理(lǐ)技术是如何分(fēn)词的?

在掌握seo这门技术前,要先了解搜索引擎优化技术的原理(lǐ)。其中包括对数据的预处理(lǐ),数据预处理(lǐ)与爬行抓取一样也是在后台系统中提前完成的,大致内容包含关键词提取、删除停用(yòng)词和分(fēn)词技术。今天将会重点介绍分(fēn)词技术。
分(fēn)词的方法有(yǒu)两种:基于字符串匹配的分(fēn)词方法和基于统计的分(fēn)词方法。

基于统计的分(fēn)词方法



基于统计的分(fēn)词方法直接调用(yòng)分(fēn)词字典中的若干词进行匹配,同时使用(yòng)统计技术识别新(xīn)的词语,将所有(yǒu)的统计结果匹配起来发挥切词的最高效率。

分(fēn)词字典基本上收录了汉语字典当中所有(yǒu)的词语,是搜索引弊判断词语的依据。

例如在搜索引中输入“我要减肥了”,“减肥”两字就会被判定為(wèi)一个词语。

现在网络上经常会出现一些新(xīn)造的网络流行词语,如“神马”“犀利哥(gē)”等,这样的词都会慢慢地被收录。

分(fēn)词字典只有(yǒu)不断更新(xīn),才能(néng)满足日常搜索判断的需求。


 

推荐文(wén)章

     

久格科(kē)技(深圳)有(yǒu)限公司.版权所有(yǒu)

备案查询地址:

      

我们的服務(wù)

系统产品

营销分(fēn)享

联系我们

扫一扫关注我们

久格科(kē)技(深圳)有(yǒu)限公司.版权所有(yǒu)