宝博国际

欢迎您的访问!

TAG标签

宝博国际

综合文章

当前位置:首页 > 宝博国际 > 正文

  结巴分词是用于中文分词的分词工具安装与使用都比较容易掌握而且结巴分词支持三种分词模式

  这次实验我就要使用三种不同的模式来对实验文件内的中文文档内容进行分词。

  但是可以发现有些词语分词不是很好例如“神丹牌”、“土鸡蛋”等这时就需要自定义词典来进行分词。

  所谓自定义词典就是开发者可以指定自己自定义的词典以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力但是自行添加新词可以保证更高的正确率。

  SnowNLP是一个python写的类库可以方便的处理中文文本内容这个类库可以做的事情很多例如中午分词、词性标注、情感分析、文本分类、文本相似等等十多种功能而这次我要用的仅仅是最简单的分词功能对中文文本进行分词之后的结果为

  但是可以看到和Jieba分词未使用自定义字典前有意义的情况就是不常见词的分词不够准确例如“神丹牌”、“土鸡蛋”等。

  NLTK是一个高效的Python构建的平台用来处理自然语言数据它提供了易于使用的接口通过这些接口可以访问超过50个语料库和词汇资源如WordNet还有一套用于分类、标记化、词干标记、解析和语义推理的文本处理库。

  Nltk的安装很简单只需要pip就可以完成但是在装上nltk之后它里面的不同包的安装又变成了另一个难题因为里面包太多了不同功能需要不同的包而我的选择就是——全装了因为我也不知道哪个功能具体使用哪个包来做。

  THULACTHU Lexical Analyzer for Chinese是由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包具有中文分词和词性标注功能。它具有能力强、准确率高、速度较快等特点。

  可以发现在使用这个类库进行分词操作时得到的分词准确度是比之前的中文分词工具要高的包括未使用自定义词典的jieba类似“土鸡蛋”、“神丹牌”等不常见词语也被很好地分了开来。

  在使用NLPIR分词方法时需要注意授权是否过期而解决方法就是去下载license以更新授权。

  不仅实现了分词功能还顺便完成了词性标注并且分词结果也不算很差。

  斯坦福大学的分词工具在使用之前要下载一些比较大的包所以在使用中遇到了一些问题不过都是可以通过百度解决的。

  不同的分词工具都有着自己的特点使用条件不同效果也不大相同。

  代码和文本太多上传太麻烦如果需要请点击这里下载

友情链接

...

haqcyp.com

宝博国际

关注我们

haqcyp.com 宝博国际