大赛突出R语言的大数据阐明本领
当前位置:以往代写 > 其他教程 >大赛突出R语言的大数据阐明本领
2019-06-14

大赛突出R语言的大数据阐明本领

大赛突出R语言的大数据阐明本领

阐明力革命公司(Revolution Analytics),一家开源R语言的软件、处事和支持贸易提供商,在一次旨于突出R的业务用途的赛事中对选手奖赏20000美元。


Hadoop是一种让企业可以或许处理惩罚大量到PB字节数据的开源软件框架。R是一种开源软件编程语言,遍及为统计师一直用于数据挖掘和缔造预测模子。


阐明力革命公司(Revolution Analytics) , 是一家在2007年首次提供了R的贸易畅通。这家公司对付R来说就如同Red Hat对付Linux。它认为Hadoop和R的团结有潜力成为大数据天堂的组合。为了辅佐说明这一问题, 阐明力革命公司(Revolution Analytics)公司举行了“R在业务中应用的比赛。”


Revolution公司的营销和社区副总裁David Smith说,从处理惩罚并储存大量的数据,到阐明数据符号着企业如何将操作他们的数据的下一步希望。他指出Revolution公司在2011发布了Hadoop和R之间的一种整合。“企业已经花了许多钱用于存储所有这些数据。此刻他们想阐明它,”他说。


R在数据统计师和学术界在做预测阐明和预测这一为企业越来越存眷的规模上尤其受到接待。“它不再仅仅是关于趋势的揣度,并且是试图预测它们,操作的不只是你本身的数据库,也操作外部的数据源,” Smith说。


Smith等候当企业晋升他们的数据阐明竞争时越来越多的“R和Hadoop之间的交集”和其它的并行处理惩罚的情况。在一次有趣的真实世界的大概性例子中, 三位研究人员利用了一种R和IBM的Netezza平台的组合来测试拟议股票市场节制的有效性用于防备生意业务中溘然和庞大的颠簸。针对Barron的事情中, 他们阐明白2008年和2010年之间美国股市产生的240多亿次生意业务, 这个任务需要计较机用8035小时在60个并行处理惩罚器长举办处理惩罚。


Revolution公司角逐的优胜者, Nationwide Insurance公司的Shannon Terry和 Ben Ogorek 缔造了一种基于欣赏器的机上预测系统, 用于预测在只有一小部门的客户回响被调查时一种营销战术总的效益增量。方针是要识别出早期的贸易勾当中的乐成和失败,以使营销预算的代价较大化。利用该软件, 市场营销者可以测试方案, 当营销勾当“举办中”时评估他们的相对影响,并且在需要时调解营销勾当的开支。


他们角逐作品的一个要害构成部门是被他们称为的一种“被称作保序回归的旧技能。”由于这一成果成立在R中, 他们需要相对较少的的编码。


他们也用R缔造一种基于欣赏器的代码版本, 将运行在他们手提电脑中的R代码迁移到那基于Linux的处事器中, 然后操作CGI处理惩罚来建设样式表,雷同一种普遍用于Nationwide公司内部业务用户中的表达模板,带有支持HTML的成果。


“这种友好的用户界面使我们的业务相助同伴通过他们最喜欢的网页欣赏器会见R的成果而无需安装任何软件或直接提交任何R代码”他们在输入中写道:“事实上,我们的业务同伴知道R在运行的途径是认出在URL中以‘.R’为竣事,因为R在我们的企业中是一种业务所有和打点的东西,这种通例的要领让我们迅速陈设很多阐明小措施和小东西,用以作为原型。这些微型应用措施中较好的出了我们的尝试室,与我们IT同伴的帮助设备在更可扩展的R情况里举办重建。”


“展示R的业务相关性的时机太重要了,不能错过,”Nationwide公司的信息科学主管Terry说。“通过这些角逐的提交, 我们很欢快地分享我们2011年中最中意的R语言应用措施。开源R社区真正引发了Nationwide公司, 并且感激这个不行思议的社区, 我们发生了新的创意并提高了我们的阐明本领。”


像其他开源项目一样, R有一个很活泼的支持社区。很多的Revolution角逐参赛作品是基于社区成员所建设的“措施包”, 它被Smith比作“应用措施的修建模块。今朝有4000多个措施包,并且他们正“呈指数级增长,” Smith说。


来自Atmosphere研究团体的亚军Jeffrey Breen用了几个措施包为航空消费者信心的微博挖掘建设了他的应用措施,在个中他下载了微博数据流,寻找有关狼藉譬喻“Delta”和“西南”这样的标签,并阐明白消费者跟着时间的推移是否对航空公司有正面或负面的回响。Breen在用一个答允开拓者将微博数据流带入R情况和其它中执行情绪阐明的 R语言措施包时,不得不写了40行阁下的代码,尚有一些R语言的图形本领对功效举办视觉化。Breen得到了5000美元的奖金。


Terry 和Ogorek凭着他们的获奖产物得到了10000美元,再加上Revolution R Enterprise 5.0,阐明力革命公司(Revolution Analytics)的产物级R语言软件,扩展了开源R在更高机能、更大的可伸缩性和较强的靠得住性上贸易性加强的本领。企业凡是所用的数据集远远大于角逐中所用的, Smith说。当R在内存中事情,而且受限于可用的RAM数量时,Revolution办理了这些机能与局限问题,通过为R提供一种并行数据处理惩罚框架,“让你一次在一台呆板上可能像在Hadoop中那样在一个集群的呆板上并行运行很大都据,” Smith表明说。


得到这些阐明的业务人员大概没有意识到哪种事情进入了最终产物而“竞争是为我们突显它的一种方法,” Smith说。


角逐也浮现了阐明预测在整个企业潜在的用途, Smith说。“每一个被选到的应用措施都证明白预测阐明和R一起远远逾越传统的贸易智能(BI)赋予企业策划决定者在业务流程中尽早和常常地评估要害乐成因素。我们从入选获奖作品中看到,各类差异的行业和流程 — 来自市场, 重家产, 临床试验设计, 和IT项目打点都需要举办中的预测阐明。”


评委之一,O’Reilly 媒体的Strata 集会会议主席Edd Dumbill说,“R吸引一些惊人的创新思想,并且让人欢快地看到一大批R的例子投入业务中利用。企业得到机动而强有力的东西来阐明数据是势在必行的。”

    关键字:

在线提交作业