随机森林,伟大的机器学习技术
您可能听说过机器学习中的随机森林算法。特别是与决策树相反。今天我们要讲的是第一个,我们会尽量让它的操作变得容易理解。尽管如此,与往常一样,深入研究所有这些概念的最佳方法是进行特定的培训。例如,我们的商业分析和人工智能硕士。
随机森林:这是什么
随机森林是一种用于解决分类和回归问题的监督机器学习算法。它根据不同的样本构建决策树,并在回归时以多数票来决定排名和平均。
随机森林算法最重要的特征之一是它可以处理包含连续变量(如回归)和分类变量(如分类)的数据集。这就是为什么它可以为分类问题提供更好的结果。
想象一下以下情况:一名学生然后他决定咨询周围的几个人,比如他的表兄弟、老师、父母和同学。它会询问他们各种问题,例如为什么应该选择一门课程而不是另一门课程、该课程提供哪些工作机会、价格等。最后,在咨询了几个人之后,您决定研究大多数人的建议。
随机森林
随机森林算法的工作原理
在了解随机森林算法在机器学习中如何工作之前,我们必须分析Ensemble 技术。集成简单地说就是组合多个模型。这意味着使用模型集合而不是单个模型来进行预测。
Ensemble 使用两种类型的方法:
Bagging – 根据样本数据创建子 巴拿马电话号码库 集并进行替换,最终结果基于多数投票。例如,随机森林。
Boost :创建序列模型,使最终模型具有最高的精度。例如,AdaBoost、XGBoost。
正如我们已经提到的,随机森林算法的工作原理是 bagging 原理。
随机森林:什么是 bagging
Bagging,也称为 Bootstrap Aggregation,从数据集中选择 技术和应用程序之间的连接如何帮助您的公司 随机样本。每个模型都是独立训练的,最终结果是综合所有模型的结果后根据多数投票得出的。合并所有结果并根据多数投票生成结果的这一步骤称为聚合。
该算法从数据集中获取“n”条随机记录。
为每个样本构建单独的决策树。
每个决策树都会生成一个输出。
最终结果分别取决于分类和回归的多数或平均值。
随机森林:示例
广泛应用于电子商务、银行、医药、股市等领域。
例如:在银行业,可以用来发 墨西哥电话号码 现哪些客户不会偿还贷款,从而决定是否发放贷款。这是预测分析的一个案例。
随机森林
随机森林算法的优缺点
优点
它可用于分类和回归问题。
它解决了过度拟合的问题,因为输出是基于多数投票或平均值。
即使数据包含空值/缺失值,它也能正常工作。
创建的每棵决策树都是相互独立的,因此表现出并行化的特性。
它非常稳定,因为采用了大量树木给出的平均响应。
它保持多样性,因为在制作每个决策树时并未考虑所有属性。
他不受维度诅咒的影响。由于每棵树没有考虑所有属性,因此减少了特征空间。
我们不必将数据分为训练和测试,因为总会有 30% 的数据在决策树中看不到。
缺点
随机森林算法采取的步骤
与决策树相比,随机森林非常复杂,决策树可以沿着树的路径做出决策。
由于其复杂性,与其他模型相比,训练时间更长。每当需要进行预测时,每个决策树都必须生成数据的输出。
结论
随机森林是最好的高性能技术之一,正是由于这种效率,它被广泛应用于各个行业。它可以处理二进制、连续和分类数据。
如果有人想要快速有效地构建模型,随机森林是一个不错的选择,因为它可以处理缺失值。