信息图:机器学习算法的初学者指南
2017-12-26 19:08 文章来自:编译FintechProbe 收藏(0) 阅读(1622) 评论(0)

IFTNews:我们经常听到“机器学习”这个词通常是在预测分析和人工智能的背景下,但是机器学习实际上已经有几十年的历史了。多亏了现代计算机技术的进步,我们才得以真正地充分利用机器学习的优势。但是机器学习是如何工作的呢?答案很简单:算法。

机器学习是一种人工智能AI,计算机可以在不被编程的情况下,从本质上学习概念。这些计算机程序一旦接触到新数据,就会改变它们的“思考”或输出。为了实现机器学习,需要算法。算法被放入计算机,并在分析数据时给出规则。

机器学习算法常用于预测分析。在商业领域,预测分析可以用来告诉企业未来最有可能发生的事情。例如,通过预测算法,在线t恤零售商可以使用现在的数据来预测他们下个月将卖出多少t恤。

回归和分类

虽然机器学习算法可以用于其他目的,但我们将把重点放在这个指南中的预测上。预测是一个可以根据输入变量估计输出变量的过程。例如,如果我们输入某一套房子的特征,我们可以预测售价。

预测问题分为两大类:

回归问题:我们试图预测的变量是数值例如,房子的价格

分类问题:我们试图预测的变量是“是/否”的答案例如,某一设备是否会经历机械故障

现在我们已经讨论了机器学习在预测方面可以做的事情,我们可以讨论机器学习算法,它分为三组:线性模型、基于树的模型和神经网络。

什么是线性模型算法

线性模型使用一个简单的公式,通过一组数据点找到一个“最适合”的直线。你会发现你想要预测的变量例如,烤蛋糕需要多长时间通过一个变量方程例如,配料。为了找到预测,我们输入我们知道的变量来得到答案。换句话说,要知道蛋糕烘烤需要多长时间,我们只需输入配料。

例如,为了烤蛋糕,分析给出了这个方程:t = 0.5x + 0。25y,其中t =烤蛋糕的时间,x =蛋糕糊的重量,y = 1,巧克力蛋糕和0,非巧克力蛋糕。假设我们有1千克蛋糕糊我们想要一个巧克力蛋糕,我们输入我们的数字来形成这个等式t = 0。51+0。251= 0。75或45分钟。

有不同形式的线性模型算法,我们将讨论线性回归和逻辑回归。

线性回归

线性回归,也称为“最小二乘回归”,是线性模型最标准的形式。对于回归问题我们试图预测的变量是数值,线性回归是最简单的线性模型。

逻辑回归

逻辑回归仅仅是线性回归对分类问题的适应我们试图预测的变量是“是/否”的答案。Logistic回归对于分类问题非常有帮助,因为它的形状。

线性回归和逻辑回归的缺点

线性回归和逻辑回归都有相同的缺点。两者都有“过度拟合”的倾向,这意味着模型对数据的适应过于精确,而牺牲了对以前未见的数据进行归纳的能力。正因为如此,这两种模式通常都是“规则化的”,这意味着它们有一定的惩罚来防止过度健康。线性模型的另一个缺点是,由于它们如此简单,它们往往难以预测更复杂的行为。

基于树的模型是什么

基于树的模型有助于探索数据集,并可视化预测的决策规则。当您听到基于树的模型时,可视化决策树或一系列分支操作。基于树的模型非常准确、稳定,并且易于解释。相对于线性模型,它们可以映射非线性关系来解决问题。

决策树

决策树是一个使用分支方法来显示决策的每个可能结果的图。例如,如果你想点一份生菜、配料和调料的沙拉,一棵决策树就能绘制出所有可能的结果或者你最后可能得到的各种沙拉。

为了创建或训练决策树,我们使用我们用来训练模型的数据,并找出最适合于目标的列车。

例如,决策树可以用于信用卡欺诈检测。我们会发现,最能预测欺诈风险的属性是购买金额例如,有信用卡的人购买了大量的信用卡。这可能是第一个拆分或分叉——那些拥有异常高的购买和不高购买的卡片。然后我们使用第二个最佳属性例如,信用卡经常被使用来创建下一个分割。然后我们可以继续下去,直到我们有足够的属性来满足我们的需求。

随机森林

随机森林是许多决策树的平均值,每个决策树都接受随机抽样的数据。森林中的每棵树都比完整的决策树要弱,但是把它们放在一起,由于多样性,我们的整体表现会更好。

随机森林是当今机器学习中非常流行的一种算法。它很容易训练或创造,而且它往往表现良好。它的缺点是,相对于其他算法,它的输出速度可能很慢,所以当你需要闪电般的预测时,你可能不会用到它。

梯度增加

梯度增强,就像随机森林一样,也是由“弱”决策树构成的。最大的区别是,在梯度提升中,树木是一个接一个的训练。随后的每棵树都接受了先前树不正确识别的数据的训练。这使得梯度增强可以更少地关注容易预测的案例,更多的是在困难的情况下。

坡度提升也非常快,可以很好地训练和表演。但是,训练数据集的小变化可以在模型中产生根本的变化,因此它可能不会产生最可解释的结果。

神经网络是什么?

生物学中的神经网络是相互连接的神经元,相互交换信息。这个想法现在已经适应了机器学习的世界,被称为人工神经网络ANN。“深度学习”这个词经常出现,它只是几个层次的人工神经网络的一个接一个。

ANNs是一个模型的家族,他们被教导要采用认知技能来像人脑一样运作。没有其他算法能够处理非常复杂的任务,如图像识别和神经网络。然而,就像人类的大脑一样,训练这个模型需要很长时间,它需要大量的能量想想我们吃了多少来保持大脑运转。

 

作者:FLORIAN DOUETTEAU

来源:http://dataconomy.com

编译:FintechProbe