果真数据集
**从数据中进修,首先需要有数据。**
![](http://img.shujuren.org/pictures/EX/58496c4dadfbc.png)
我们在进修呆板进修可能数据挖掘要领的时候,想应用各类算法,我们首先的需要有数据,因为有了数据,我们才好做数据筹备、数据预处理惩罚、数据阐明和数据建模等事情。
本文分享一些果真数据集,我们可以在这些数据集上开展各类进修算法的事情。
### 1 R语言自带数据集
运行如下呼吁
“`r
library(help = "datasets")
“`
部门功效如下;
![](http://img.shujuren.org/pictures/20/58496e546b054.png)
对付详细数据集的领略,可以查察相应辅佐文档。
呼吁如下
“`r
help(Titanic)
“`
辅佐文档页面,部门内容如下:
![](http://img.shujuren.org/pictures/ZI/58496efbbc002.png)
这个数据集在Kaggle比赛平台上面是一个典范的数据集。
别的,R语言的扩展包内里也会有一些自带的数据集可以利用,前提是要先安装和加载这个R包
### 2 Kaggle比赛平台上面的数据集
Kaggle比赛平台网址:https://www.kaggle.com/
注册好后,就可以进入查察各类数据比赛所提供的数据集,包罗练习数据集和测试数据集,都是尺度的csv名目。
譬喻,Titanic的比赛项目数据如下:
[![](http://img.shujuren.org/pictures/V7/584971971a695.png)](https://www.kaggle.com/c/titanic/data "![](http://img.shujuren.org/pictures/V7/584971971a695.png)")
### 3 UCI呆板进修库数据集
UCI呆板进修库数据集网址:http://archive.ics.uci.edu/ml/index.html
下载次数最多的数据集
![](http://img.shujuren.org/pictures/0C/5849722d4eacb.png)
有了这些果真的数据集,我们就可以研究进修算法和应用进修算法了。在实际的事情进程中,我们就是把这些果真的数据集换成详细业务问题所对应的数据,这是我们需要做业务领略和数据领略事情,后续的进程与基于果真数据集所做的事情流程和要领论一样。
各人有什么想法可能发起,请留言。