R语言中文分词-jiebaR

Published: 2016-04-25 23:28:00
By ytwan

In Items.

tags: R

安装

#install.packages("jiebaR")
library(jiebaR)
#jiebaR提供了3种分词语句的写法,首先调用worker()函数,加载了分词引擎
#例子上面的用[]符号的语法,
#使用<=符合语法,
#使用segment()函数
#方法一
    wk = worker()
    wk["独立的人生不孤单,李太白和杜少甫"]
#方法二        
    wk2 = worker()      
    wk2 <= "青春的色彩,哈哈"
#方法三
    wk3 = worker()
    segment( "函数语句的写法" , wk3 )

分词引擎

type, 引擎类型
#MixSegment-混合模型:是四个分词引擎里面分词效果较好的类,结它合使用最大概率法和隐式马尔科夫模型。
#MPSegment-最大概率法:负责根据Trie树构建有向无环图和进行动态规划算法,是分词算法的核心。
#HMMSegment-隐式马尔科夫模型():是根据基于人民日报等语料库构建的HMM模型来进行分词,主要算法思路是根据(B,E,M,S)四个状态来代表每个字的隐藏状态。 HMM模型由dict/hmm_model.utf8提供。分词算法即viterbi算法。
#QuerySegment-索引模型():先使用混合模型进行切词,再对于切出来的较长的词,枚举句子中所有可能成词的情况,找出词库里存在。
#tag-标记模型()
#simhash--Simhash模型()
#keywods--关键词模型()

配置词典

#查看默认词典的位置
show_dictpath()
dir(show_dictpath())
#jieba.dict.utf8系统词典每一行都有三列,并以空格分割,第一列为词项,第二列为词频,第三列为词性标记。
#jiebaR包关于词典词性标记,采用ictclas的标记方法。ICTCLAS 汉语词性标注集。

##自定义词典

##第三方词典 文本文件

过滤停止词

##jiebaR中,过滤停止词有2种方法,
##一种是通过配置stop_word文件,worker[stop_word="ss.txt"]
##另一种是使用filter_segment()函数

blogroll

social