分词算法是什么
分词算法是文本挖掘的基础,通常对整个模型的效果起着较大的决定作用;分词算法常用的两种运行方式:
1、用户搜索及匹配。
例如:我们在百度搜索一个词 “手机回收”,那么百度会先把这个词分为手机和回收两个词这个时候呢,百度会先在库中搜索手机这个词然后进行第一轮的筛选。
把网页当中没有手机这个词的去除,只保留带有手机这个词的结果,之后再从已筛选出来的网页中,筛选出带有回收这个词的页面,然后在所得结果里面根据页面评分给用户进行排序。
2、网页主题计算
前面启蒙博客也讲过,百度蜘蛛只是一个机器,并不能向人一样去思考,而在处理文章的时候,百度蜘蛛则会把文章也进行分词去处理,如过文章里 手机 这个词出现频率比较多,也就是所说的关键词密度,那么这个页面也就会定性为手机方面的文章。
搜索引擎是通过分词算法来计算网页的,如果我们能够合理地利用分词算法进行网页布局,会让网页将会有一个很好的得分。
中文分词算法大概分为三大类:
第一类是基于字符串匹配,即扫描字符串,如果发现字符串的子串和词典中的词相同,就算匹配,比如机械分词方法。这类分词通常会加入一些启发式规则,比如“正向/反向最大匹配”,“长词优先”等。
第二类是基于统计以及机器学习的分词方法,它们基于人工标注的词性和统计特征,对中文进行建模,即根据观测到的数据(标注好的语料)对模型参数进行训练,在分词阶段再通过模型计算各种分词出现的概率,将概率最大的分词结果作为最终结果。
常见的序列标注模型有HMM和CRF。这类分词算法能很好处理歧义和未登录词问题,效果比前一类效果好,但是需要大量的人工标注数据,以及较慢的分词速度。
第三类是通过让计算机模拟人对句子的理解,达到识别词的效果,由于汉语语义的复杂性,难以将各种语言信息组织成机器能够识别的形式,目前这种分词系统还处于试验阶段。
多重随机标签