推送！10大主流AI模型适用盘点-技术开发专区

推送！10大主流AI模型适用盘点

作者：刘美利编辑：刘美利 2018-11-22 15:07 IT168网站原创

　　【IT168 技术】人工智能和机器学习的出现，让各大企业瞬间走上捷径，不管是运营效率还是生产利润都得到了显著的提升。但世界上是没有“免费午餐”的，企业面临的问题数组庞大，用于解决这些问题的ML模型种类相当广泛，每一种算法擅长的领域都不同，选择一种合适的算法模型成为企业棘手难题。

　　本文汇总了当下最流行的10种AI算法，对它们的优点进行了详细梳理，以供观摩!

　　10种流行AI算法：

　　线性回归
　　Logistic回归
　　线性判别分析
　　决策树
　　朴素贝叶斯
　　K-Nearest Neighbors
　　学习矢量量化
　　支持向量机
　　Bagging和随机森林
　　深度神经网络

　　在详细介绍各大模型之前，我们先了解一下机器学习的基本原理。

　　机器学习的原理可以简单的理解为学习函数(f),它提供输入值(x)和输出值(y)之间最精确的相关性。Y=F(X)

　　当我们拥有了一些历史数据X、Y时，便可以套入AI模型，得出这些数据间非常好的映射。机器学习不同于数学计算，它的结果不是100%的准确，只是一个非常好的数值。但我们训练的F函数可以用于使用新X预测新Y，从而实现预测分析。不同种类的ML模型实现非常好的结果的方式都是不一样的，但是基本原理都是一样的。

　　线性回归

　　截止今日，线性回归在数学统计中被使用了200多年。算法的要点是找到系数(B)的值，这些值对训练函数精度的影响很大。

　　举一个简单的例子：y = B0 + B1 * x，其中B0 + B1就是需求。

　　通过调整这些系数的权重，数据科学家可以获得不同的训练结果。该算法成功的核心要求是具有清晰的数据(不能有太多的“低值信息”)，并除去具有相似值(相关输入值)的输出变量。

　　线性回归算法一般适用于金融、银行、保险、医疗保健、营销等行业，统计数据进行梯度下降优化。

　　Logistic回归

　　Logistic回归是另一种流行的AI算法，能够提供二进制结果。这意味着该模型既可以预测结果，也可以指定y值的两个类别。该函数可以改变算法的权重，但由于使用非线性逻辑函数来转换结果，所以是不同的。此函数可以表示为将真值与虚值分开的S形线。

　　该函数成功的要求与线性回归相同——去除相同值的输入样本并减少低值数据的数量。Logistic回归是一个比较简单的函数，很好掌握，很适合二进制分类。

　　线性判别分析(LDA)

　　线性判别分析(LDA)是逻辑回归模型的一个分支，可以在输出中存在两个以上的类时使用。该模型可以计算数据的统计特性，如每个类别平均值和所有类别的总方差。预测允许计算每个类的值，并确定具有最高值的类。想要得到正确的结果，该模型需要根据高斯贝尔曲线分布数据，事先去除所有的异常值。

　　决策树

　　决策树是最古老，最常用，最简单和最有效的ML模型之一。它是一个经典的二叉树，在模型到达结果节点之前，都需要确定是否进行拆分。

　　该模型易于学习，不需要数据规范化，可以帮助解决多种类型的问题。

　　朴素贝叶斯(NBM)

　　朴素贝叶斯算法是一个简单但非常强大的模型，用于解决各种复杂问题。它可以计算出两种类型的概率：

　　每个类出现的概率
　　给定一个独立类的条件概率，给出一个额外的x修饰符。

　这种模型会假设所有输入数据彼此无关，因此也被称为“幼稚模型”。虽然这些在现实生活中无法实现，但这种简单的算法可以应用于多种标准化数据流，高精度地预测结果。

　　K-Nearest Neighbors(KNN)

　　K-Nearest Neighbors同样也是一个非常简单且强大的ML模型，使用整个训练数据集作为表示字段。通过检查具有相似值的K数据节点的整个数据集并使用欧几里德数来计算结果值的预测，以确定结果值。

　　这样的数据集需要大量的计算资源来存储和处理数据，但当存在多个属性且必须不断地策划时会遭受精度损失。但是它工作速度极快，能够非常准确且高效的在大型数据集中查找所需值。

　　学习矢量量化(LVQ)

　　KNN唯一的缺点是需要存储和更新大型数据集。学习矢量量化(LVQ)是KNN模型的进化版，它是使用码本矢量来定义训练数据集并编码所需结果的神经网络。因此，这些向量最初是随机的，在学习的过程中可以调整它们的值来最大化预测精度。

　　因此，找到具有最相似值的向量可以预测结果值的最高准确度。

　　支持向量机(SVM)

　　支持向量机是数据科学家讨论最广泛的算法之一，因为它为数据分类提供了非常强大的功能。所谓的超平面是用不同的值分隔数据输入节点的线，当同一类的所有数据实例都在超平面的同一侧，即支持向量;当数据点在其类平面之外，即不支持向量。

　　好的超平面具有最大正向量且能够分离大多数数据节点。它是一个非常强大的分类机器，可以应用于各种数据规范化问题。

　　Bagging和随机森林

　　随机决策森林由决策树组成，其中多个数据样本由决策树处理，将结果聚合(如收集袋中的许多样本)在一起来找到更准确的输出值。

　　不是找到一条非常好的路线，而是定义了多条次优路线，从而使整体结果更加精确。如果决策树能够解决您的需求，那么随机森林可以作为一种优化方式，使结果更加完善。

　　深度神经网络(DNN)

　　深度神经网络是使用最广泛的AI和ML算法之一，其工作原理是模仿人脑思考方式，使软件的语音识别速度更快，识别准确率更高。它擅长改善深基于学习的文本和语音应用程序，机器感知深层神经网络和OCR等。

　　总结

　　AI模型和ML模型种类繁多，有的适合数据分类，有的适合数据规划。没有一款模型能够适合所有的问题，因此选择一种合适的AI模型至关重要。

　　那么如何判断哪个模式更匹配您的需求呢?以下是一些帮助判断的要点：

　　您需要处理的3V大数据(输入的数量，种类和速度)
　　您可以使用的计算资源数量
　　您处理数据的时间限制
　　数据处理的目标

　　综上所述，如果一个模型可以提供94%的预测精度，另一个模型可以提供86%的预测精度，但是高精度模型的处理时间是低精度模型处理时间的两倍，那么就需要您基于上述条件去做选择。

　　但是，目前还存在一个比较大的问题是很多企业普遍缺乏设计、实施数据分析以及机器解决方案所需的专业知识。这就是为什么有那么多的企业都去选择专门的托管服务提供商。

关注我们