用R阐明王宝强微博事件
针对微博上的热点事件,你是否想本身动手做个数据阐明?为了简化阐明进程,数据化阐明建造了一个免费开源的R包【https://github.com/sjhfx/rwda】,名字叫rwda,即R Weibo Data Analysis的首字母缩写。本文通过一个案例,先容微博数据阐明的功效和实现要领。
1、案例阐明以王宝强2016年8月14日发的仳离声明微博为例,选取最近的评论内容,用R举办数据阐明的功效如下:
可以看出这些评论者大大都是支持王宝强的。从下面的小提琴图来看,该微博评论的男性用户数量略多一些,男性占比为51.7%,但男性用户的微博品级要低一点(图中的白点是中位数,男性用户的微博品级中位数约为5级,而女性用户的微博品级中位数靠近10级),而认证用户的微博品级明明较高(认证用户的微博品级中位数高出20级),不外微博认证的用户较少,在我们抓取的样本中只占2.6%。
2、R语言实现代码devtools::install_github(“sjhfx/rwda”)library(rwda)access_token = “2.00xxxxxxxxx”weiboid = “4008168466150722”df_comments = get_comments(access_token, weiboid, maxpage = 20)weibo_cloud(df_comments, stopwords = c(“心心”, “回覆”))gender_vioplot(df_comments, title_text = “微博用户性别与品级漫衍”verify_vioplot(df_comments, title_text = “微博用户认证与品级漫衍”)
个中access_token可以通过 http://open.weibo.com/tools/console 获取。
weiboid可以替换为你感乐趣的任意微博id,获取weiboid的要领:
1、点击某条微博左上角用户名下面的时间,进入微博详情页面;
2、鼠标右键查察源代码;
3、搜索“mid=”,它的后头有一串数字就是我们所需要的weiboid。stopwords的浸染是解除一些没有什么意义的词。
说明:rwda包利用的R软件版本是3.3.1,安装rwda的同时会安装RCurl, plyr, rjson, jiebaR, wordcloud2, vioplot等R包。
接待插手本站果真乐趣群贸易智能与数据阐明群乐趣范畴包罗各类让数据发生代价的步伐,实际应用案例分享与接头,阐明东西,ETL东西,数据客栈,数据挖掘东西,报表系统等全方位常识QQ群:81035754