机器学习和大数据

　　欢迎各位阅读本篇文章，本篇文章讲述了教大家如何在WHERE 中计划任务，课课家教育平台提醒各位：本篇文章纯干货~因此大家一定要认真阅读本篇文章哦

　　这一个月，从对机器学习充满好奇与畏惧，到对各种算法稍有理解以及围绕推荐场景的编码实践，算是对机器学习有了一个入门的体验。但是中间也踩过不少坑，比如啃过线性代数的教材、看过无聊的机器学习课程、追过高端的机器学习书籍、陷入一个算法无法自拔(最后也没整明白)…其实，学习机器学习没有那么难，也很容易走偏。谨以此文，作为ML入门小白的一个小小的参考…

　　本篇虽不是这一个月的流水账，但是基本按照下面的思路对着一个月做了一次总结：

　　什么是机器学习?

　　启用 safe-update 选项，避免没有 WHERE 条件的全表数据被修改;

　　在应用中尽量不直接DELETE删除数据，而是设置一个标志位就好了。需要真正删除时，交由DBA先备份后再物理删除，避免误操作删除全部数据。

　　还可以采用触发器来做一些辅助功能，比如防止黑客恶意篡改数据。

　　3. MySQL账号权限规则

　　业务帐号，权限最小化，坚决不允许DROP、TRUNCATE权限。

　　业务账号默认只授予普通的DML所需权限，也就是select、update、insert、delete、execute等几个权限，其余不给。

　　MySQL初始化后，先行删除无用账号，删除匿名test数据库

　　mysql> delete from mysql.user where user!='root' or host!='localhost'; flush privileges;

　　mysql> drop database test;

　　创建备份专用账号，只有SELECT权限，且只允许本机可登入。

　　设置MySQL账号的密码安全策略，包括长度、复杂性。

　　4. 关于数据备份

　　记住，做好数据全量备份是系统崩溃无法修复时的最后一概救命稻草。

　　备份数据还可以用来做数据审计或是用于数据仓库的数据源拉取之用。

　　一般来说，备份策略是这样的：每天一次全备，并且定期对binlog做增备，或者直接利用binlog server机制将binlog传输到其他远程主机上。有了全备+binlog，就可以按需恢复到任何时间点。

　　特别提醒：当采用xtrabackup的流式备份时，考虑采用加密传输，避免备份数据被恶意截取。

　　外网安全策略

机器学习和大数据_数据库_数据营销_金融数据_课课家

　　事实上，操作系统安及应用安全要比数据库自身的安全策略更重要。同理，应用程序及其所在的服务器端的系统安全也很重要，很多数据安全事件，都是通过代码漏洞入侵到应用服务器，再去探测数据库，最后成功拖库。

　　1. 操作系统安全建议

　　运行MySQL的Linux必须只运行在内部网络，不允许直接对公网暴露，实在有需要从公网连接的话，再通过跳板机做端口转发，并且如上面所述，要严格限制数据库账号权限级别。

　　系统账号都改成基于ssh key认证，不允许远程密码登入，且ssh key的算法、长度有要求以确保相对安全。这样就没有密码丢失的风险，除非个人的私钥被盗。

　　进一步的话，甚至可以对全部服务器启用PAM认证，做到账号的统一管理，也更方便、安全。

　　关闭不必要的系统服务，只开必须的进程，例如 mysqld、sshd、networking、crond、syslogd 等服务，其它的都关闭。

　　禁止root账号远程登录。

　　禁止用root账号启动mysqld等普通业务服务进程。

　　sshd服务的端口号建议修改成10000以上。

　　在不影响性能的前提下，尽可能启用对MySQL服务端口的防火墙策略(高并发时，采用iptables可能影响性能，建议改用ip route策略)。

　　GRUB必须设置密码，物理服务器的Idrac/imm/ilo等账号默认密码也要修改。

　　每个需要登入系统的员工，都使用每个人私有帐号，而不是使用公共账号。

　　应该启用系统层的操作审计，记录所有ssh日志，或利bash记录相应的操作命令并发送到远程服务器，然后进行相应的安全审计，及时发现不安全操作。

　　正确设置MySQL及其他数据库服务相关目录权限，不要全是755，一般750就够了。

　　可以考虑部署堡垒机，所有连接远程服务器都需要先通过堡垒机，堡垒机上就可以实现所有操作记录以及审计功能了。

　　脚本加密对安全性提升其实没太大帮助。对有经验的黑客来说，只要有系统登入权限，就可以通过提权等方式轻松获得root。

　　2. 应用安全建议

　　禁用web server的autoindex配置。

　　从制度层面，杜绝员工将代码上传到外部github上，因为很可能存在内部IP、账号密码泄露的风险，真的要上传必须先经过安全审核。

#p#分页标题#e#

　　尽量不要在公网上使用开源的cms、blog、论坛等系统，除非做过代码安全审计，或者事先做好安全策略。这类系统一般都是黑客重点研究对象，很容易被搞;

　　在web server层，可以用一些安全模块，比如nginx的WAF模块;

　　在app server层，可以做好代码安全审计、安全扫描，防止XSS攻击、CSRF攻击、SQL注入、文件上传攻击、绕过cookie检测等安全漏洞;

　　应用程序中涉及账号密码的地方例如JDBC连接串配置，尽量把明文密码采用加密方式存储，再利用内部私有的解密工具进行反解密后再使用。或者可以让应用程序先用中间账号连接proxy层，再由proxy连接MySQL，避免应用层直连MySQL;

　　最后我们想说，任何高明的安全策略，都不如内部员工的安全意识来的重要。以前发生过一起案例，公司内有位员工的PC不慎中毒，结果导致内网数据被盗。

　　安全无小事，每个人都应铭记于心。在数据安全面前，可以适当牺牲一些便利性，当然也不能太过，否则可能得不偿失。

　　机器学习都有什么算法?

　　个人对机器学习的三种境界理解

　　推荐的学习路线

　　推荐资源

　　希望读者有所收获，另外，如果文中有任何理解上的错误，还望指正!

　　什么是机器学习?

　　之前在没有具体接触到机器学习前，我大概对他有一个概念上的认识，觉得是一种很高级的算法，能让机器学会很多的事情，就像…里那样!

　　或者是里的智能机器人?…

　　但是，这些其实都是对机器学习的一种误解。机器学习并不是让机器像人一样会学习，而是通过一种固定的编程模式，对数据进行处理。按照百度的定义，它是这样的：

　　专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

　　其实机器学习就是通过一些前人总结的数据公式，帮我们简化了很多手工操作很麻烦甚至无法操作的事情。就举个身边很常见的例子，当你在淘宝搜索了某个宝贝后，之后的商品页面会为你推荐跟这个搜索相关的商品;再比汽车在经过司机的一段驾驶后，汽车自己能基于道路状况自动调整方向盘以及车速，实现无人驾驶;再如，家里的热水器会记录你使用热水的时间，提前一段时间烧水，而在其他时间不加热，以节省水电。这些都是机器学习，都是身边已经出现或者即将出现的场景，所以，机器学习其实就在我们身边。

　　机器学习都有哪些算法?

　　在机器学习中，算法可以按照多种维度进行分类，比如监督学习、无监督学习、强化学习等…让人看着就眼晕。

　　记得有一篇文章总结的就非常易懂，他认为机器学习其实可以分成三类，分类、回归、聚类。

　　分类听着名字就很容易理解了，比如给你一筐水果，水果里面有苹果、香蕉，需要把它们分成两类。

　　回归来源于单词regression，它可以理解成是一种预测，比如线性回归，他可以根据样本数据学习出一个线性的公式，比如y=ax，当你给定一个x的值时，可以推算出对应的y值。当然具体的场景中，就不是简单的一维了…

　　聚类，跟前面的分类有些不同，比如一筐水果，你都不知道里面装的是什么，需要通过味道、颜色、形状、大小等多个属性，把它们进行归类。

　　结合到算法里面：

　　分类相关的算法有：K-近邻算法、决策树、朴素贝叶斯、逻辑回归、支持向量机等

　　回归相关的算法有：线性回归、树回归等

　　聚类相关的算法有：K-均值算法、Apriori等

　　如果看过一遍应该就会对上述的算法有一定的了解。不需要到公式推导级别，先能了解他们的用法即可，比如：

　　K-近邻就是已知几个分类，判断新的节点属于哪个分类时，只需要看距离它一定范围内，哪个分类的数据多。有点像近朱者赤近墨者黑的意思。

#p#分页标题#e#

　　决策树就是通过一大堆的问题，判断属于哪个分类。比如，相亲的时候，会问“你是做什么的?”“有没有房?”“有没有车?”——最后判断，是否继续交往。

　　朴素贝叶斯看着名字高大上，其实就是根据概率选择，属于哪个分类的概率大，就归属这个分类

　　逻辑回归它是把线性回归的结果映射到01区间

　　线性回归可以简单的理解成y=ax，但是其实在多维空间比这个复杂得多

　　K-均值就是一大堆散落的点，随机几个中心，这些点按照距离选择他们最近的中心组成一个类别

　　Apriori只要说一个啤酒与尿布，大家就应该明白了。

　　这么多算法其实只是机器学习中的一部分….

　　机器学习的应用场景

　　机器学习的应用还是很广泛的，比如无人驾驶、机器人等等高大上的东西，以及咱们身边的拼车算法、电商的个性化推荐、婚恋网站的快速配偶等等。只要是涉及到数据之间的关系，都可以使用机器学习来达到很好的效果。

　　个人理解的机器学习的三种境界

　　这三种境界纯粹是个人的胡乱设定，仅仅是为了给自己的学习定下一个目标!

　　第一层了解算法的过程和作用

　　这种一般是那些自学机器学习的朋友，在看过几本机器学习相关的书籍后，对所有的算法都有一点了解。能跟别讨论一些机器学习的算法和用途，并且能理解相关技术分享大致过程。

　　第二层能把算法运用到实践中

　　这一层可以认为是对某个机器学习的库比较熟悉，能真正的利用机器学习来解决一些问题。比如可以使用Spark MLLib中的某个算法解决实际的问题，如基于物品或者用户的协同过滤算法。这就好像是使用现代的机械工具盖房子，而不是像过去纯人工搬石头垒长城，效率和产出上都要好的多。

　　第三层对算法的推导融会贯通

　　这种可以说是集数学与计算机功底于一身，是倚天剑与屠龙刀的合体。对数学公式推导了如指掌，各种模型的优化也深谙其道。其实机器学习使用某个库出一个简单的效果很简单，但是想要对算法模型进行优化却很难，大多时候都是盯着算法结果，目瞪口呆，不知道下一步该怎么办。如果对算法了解的很深，对实际的业务又很熟悉，那么就能结合两点对算法模型进行优化，改进机器学习的结果。

　　个人学习机器学习的路线规划

　　经过不到一个月的学习，对机器学习也算是初步有了一定的了解，最起码知道机器学习能干什么了，所以现在还在处于上面的第一个境界….

　　这期间也走了不少的弯路，浪费了不少的时间。所以在这里总结一下，也给大家当做一个参考：

　　1 最快的入门方式，就是先百度、必应一下，了解下机器学习的概念。

　　2 推荐阅读了解下机器学习相关的算法。我之前也看过机械工业出版社的也看过点周志华老师的前一本概念太多，后一本公式也挺多相对来说要好得多，先介绍点理论背景，在基于Python介绍下算法的实现以及一两个案例。

　　3 很多人都觉得机器学习需要很好的数学功底，于是学习机器学习前，先捧着高数、线代、概率论看，结果看了两天，觉得枯燥无味，就打算放弃。其实没必要的，结合上面的遇到什么公式，进行相应的复习就行了，这也是为什么把数学放在第三个步骤。其实机器学习里面能理解高数的求导、线代的矩阵以及向量、概率的期望方差等就差不多了，其他有需要的话针对学习就行。

　　4 学习机器学习肯定是要看吴恩达老师的公开课了，公开课的地址，我刚看了两集，感觉还是非常不错的。

　　5 学习Spark MLLib相关的算法实现，如果有时间的话，可以看看源码。

　　通过上面的学习，暂时可以到达第二个层次了。我想一般搞计算机的，应该很少有能对各种算法推导融会贯通的。所以第三种境界，就留给其他人吧…

　　相信最后大家阅读完毕本篇文章，肯定学到了不少知识吧?其实大家私下还得多多自学，当然如果大家还想了解更多方面的详细内容的话呢，不妨关注课课家教育平台，在这个学习知识的天堂中，您肯定会有意想不到的收获的!.

当前位置：以往代写 > 大数据教程 >机器学习和大数据