R语言情况下的文本挖掘

自然语言处理惩罚（Nature Language Process）是一个很是让人沉迷的规模，应用范畴很是遍及，好比去年人机大战中大出风头的IBM Watson，iPhone 4S的语音助理模块Siri，以及针对付社会热点的舆情阐明，这些应用都利用了自然语言处理惩罚技能。虽然，统计配景的阐明类科研人员更存眷于舆情阐明这类的文本挖掘技能。

许多统计软件都提供了文本挖掘的成果，好比常见的数据阐明软件SAS、SPSS等，下图是文本挖掘东西及特性的一个总结（来自于Journal of Statistical Software 2008）

Preprocess：数据筹备、导入、清洗以及一般性的预处理惩罚；

Associate：关联阐明，按照同时呈现的频率找出关联法则；

Cluster：将相似的文档（词条）举办聚类；

Categorize：将文本分别到预先界说的种别里；

API：可扩展的应用编程接口

至少在2008年，贸易和开源软件的成果特性差不多（但我不确认Latent Semantic Analysis、Latent Dirichlet Allocation这类的模子是否支持），只是由于众所周知的缘故，对付API的扩展支持有所差别。

对付中文情况下的文本挖掘，无外乎要办理如下几个问题：

较为较准确的中文分词（大概还需要支持本性化题库，甚至词性阐明）；

生成词条-文档矩阵，甚至矩阵的运算；

后续的挖掘算法支撑（传统的以及语义类的）

其他

在R语言情况下，有浩瀚的包支撑办理上述问题。Ingo Feinerer开拓维护的tm包提供了完整的文本挖掘的框架，借助帮助东西及R包，甚至还可以处理惩罚word、pdf文档的读入，文档处理惩罚并行化运算，文件数据库的语料处理惩罚等问题。

闲话不多说，最下面链接给出了一份基于《Introduction to the tm Package》整理的，基于tm包的中文文本挖掘的先容性文档，内容包括

互联网网页处理惩罚：XML包的简介

中文分词

tm包的完整先容：读写、语料库构建、过滤、转化、元数据、文档-词条矩阵等

文本挖掘技能及应用等

虽然，作为非正式宣布文档尚有许多处所不尽完善，后续大概会有较大更新，请存眷博客上的to do list。

文档下载：

Text-Mining-in-R.pdf

当前位置：以往代写 > 其他教程 >R语言情况下的文本挖掘