R语言下的文本挖掘
当前位置:以往代写 > 其他教程 >R语言下的文本挖掘
2019-06-14

R语言下的文本挖掘

R语言下的文本挖掘

一些应用都利用了自然语言处理惩罚技能。虽然,统计配景的阐明类科研人员更存眷于舆情阐明这类的文本挖掘技能。

许多统计软件都提供了文本挖掘的成果,好比常见的数据阐明软件SAS、SPSS等,下图是文本挖掘东西及特性的一个总结(来自于Journal of Statistical Software 2008)


  • Preprocess:数据筹备、导入、清洗以及一般性的预处理惩罚;
  • Associate:关联阐明,按照同时呈现的频率找出关联法则;
  • Cluster:将相似的文档(词条)举办聚类;
  • Categorize:将文本分别到预先界说的种别里;
  • API:可扩展的应用编程接口

  • 至少在2008年,贸易和开源软件的成果特性差不多(但我不确认Latent Semantic Analysis、Latent Dirichlet Allocation这类的模子是否支持),只是由于众所周知的缘故,对付API的扩展支持有所差别。


    对付中文情况下的文本挖掘,无外乎要办理如下几个问题:

  • 较为较准确的中文分词(大概还需要支持本性化题库,甚至词性阐明);
  • 生成词条-文档矩阵,甚至矩阵的运算;
  • 后续的挖掘算法支撑(传统的以及语义类的)
  • 其他

  • 在R语言情况下,有浩瀚的包支撑办理上述问题。Ingo Feinerer开拓维护的tm包提供了完整的文本挖掘的框架,借助帮助东西及R包,甚至还可以处理惩罚word、pdf文档的读入,文档处理惩罚并行化运算,文件数据库的语料处理惩罚等问题。


    闲话不多说,最下面链接给出了一份基于《Introduction to the tm Package》整理的,基于tm包的中文文本挖掘的先容性文档,内容包括

  • 互联网网页处理惩罚:XML包的简介
  • 中文分词
  • tm包的完整先容:读写、语料库构建、过滤、转化、元数据、文档-词条矩阵等
  • 文本挖掘技能及应用等

  • 虽然,作为非正式宣布文档尚有许多处所不尽完善,后续大概会有较大更新,请存眷博客上的to do list。

      关键字:

    在线提交作业