随机森林，伟大的机器学习技术

您可能听说过机器学习中的随机森林算法。特别是与决策树相反。今天我们要讲的是第一个，我们会尽量让它的操作变得容易理解。尽管如此，与往常一样，深入研究所有这些概念的最佳方法是进行特定的培训。例如，我们的商业分析和人工智能硕士。

随机森林：这是什么
随机森林是一种用于解决分类和回归问题的监督机器学习算法。它根据不同的样本构建决策树，并在回归时以多数票来决定排名和平均。

随机森林算法最重要的特征之一是它可以处理包含连续变量（如回归）和分类变量（如分类）的数据集。这就是为什么它可以为分类问题提供更好的结果。

想象一下以下情况：一名学生然后他决定咨询周围的几个人，比如他的表兄弟、老师、父母和同学。它会询问他们各种问题，例如为什么应该选择一门课程而不是另一门课程、该课程提供哪些工作机会、价格等。最后，在咨询了几个人之后，您决定研究大多数人的建议。

随机森林

随机森林算法的工作原理
在了解随机森林算法在机器学习中如何工作之前，我们必须分析Ensemble 技术。集成简单地说就是组合多个模型。这意味着使用模型集合而不是单个模型来进行预测。

Ensemble 使用两种类型的方法：

Bagging – 根据样本数据创建子 巴拿马电话号码库 集并进行替换，最终结果基于多数投票。例如，随机森林。
Boost ：创建序列模型，使最终模型具有最高的精度。例如，AdaBoost、XGBoost。
正如我们已经提到的，随机森林算法的工作原理是 bagging 原理。

随机森林：什么是 bagging

Bagging，也称为 Bootstrap Aggregation，从数据集中选择 技术和应用程序之间的连接如何帮助您的公司 随机样本。每个模型都是独立训练的，最终结果是综合所有模型的结果后根据多数投票得出的。合并所有结果并根据多数投票生成结果的这一步骤称为聚合。

该算法从数据集中获取“n”条随机记录。
为每个样本构建单独的决策树。
每个决策树都会生成一个输出。
最终结果分别取决于分类和回归的多数或平均值。
随机森林：示例
广泛应用于电子商务、银行、医药、股市等领域。

例如：在银行业，可以用来发 墨西哥电话号码 现哪些客户不会偿还贷款，从而决定是否发放贷款。这是预测分析的一个案例。

随机森林

随机森林算法的优缺点

优点
它可用于分类和回归问题。
它解决了过度拟合的问题，因为输出是基于多数投票或平均值。
即使数据包含空值/缺失值，它也能正常工作。
创建的每棵决策树都是相互独立的，因此表现出并行化的特性。
它非常稳定，因为采用了大量树木给出的平均响应。
它保持多样性，因为在制作每个决策树时并未考虑所有属性。
他不受维度诅咒的影响。由于每棵树没有考虑所有属性，因此减少了特征空间。
我们不必将数据分为训练和测试，因为总会有 30% 的数据在决策树中看不到。
缺点

随机森林算法采取的步骤

与决策树相比，随机森林非常复杂，决策树可以沿着树的路径做出决策。
由于其复杂性，与其他模型相比，训练时间更长。每当需要进行预测时，每个决策树都必须生成数据的输出。
结论
随机森林是最好的高性能技术之一，正是由于这种效率，它被广泛应用于各个行业。它可以处理二进制、连续和分类数据。

如果有人想要快速有效地构建模型，随机森林是一个不错的选择，因为它可以处理缺失值。

随机森林，伟大的机器学习技术

随机森林

随机森林：什么是 bagging

随机森林算法的优缺点

随机森林算法采取的步骤

如何通过暗数据利用非结构化数据

发表回复取消回复

随机森林

随机森林：什么是 bagging

随机森林算法的优缺点

随机森林算法采取的步骤

类似文章

发表回复 取消回复

发表回复取消回复