如何在Python中使用决策树实现回归器?
决策树是随机森林算法的基本构建块。它被认为是机器学习中最流行的算法之一,用于分类目的。决策树给出的决策可以用来解释为什么做出某种预测。这意味着用户可以清楚地了解该过程的输入和输出。它们也称为CART,即分类和回归树。它可以可视化为二叉树(在数据结构和算法中学习的)。
树中的每个节点都表示单个输入变量,叶节点(也称为终端节点)包含输出变量。这些叶节点用于对节点进行预测。创建决策树时,基本思想是将给定空间划分为多个部分。所有值都被提出,并尝试不同的分割,以便获得较低的成本和最佳预测值。这些值以贪婪的方式选择。
这些节点的分割持续进行,直到达到树的最大深度。使用决策树的目的是根据特定特征值将输入数据集划分为更小的数据集,直到每个目标变量都属于一个类别。这种分割是为了在每一步获得最大的信息增益。
每个决策树都从根节点开始,这是进行第一次分割的地方。应该设计一种有效的方法来确保节点的定义。
这就是基尼系数发挥作用的地方。基尼系数被认为是衡量不平等的最常用度量之一。不平等是指每个子集可能所属的目标类别(输出)。
使用DecisionTreeRegressor时,使用以下语法:
class sklearn.tree.DecisionTreeRegressor (*, criterion=’mse’,…
让我们了解如何使用DecisionTreeRegressor:
示例
from sklearn import tree my_data = [[1, 1], [5, 5], [2,3], [7,11]] target_vals = [0.1, 1.5, 0.75, 1.73] clf = tree.DecisionTreeRegressor() print("The decision tree regressor has been called") DTreg = clf.fit(my_data, target_vals) print("Data has been fit") pred_val = DTreg.predict([[4, 7]]) print("The predicted data is ") print(pred_val)
输出
The decision tree regressor has been called Data has been fit The predicted data is [1.5]
解释
- 必需的包被导入到环境中。
- 定义特征向量和目标值。
- 调用DecisionTreeRegressor并将数据拟合到模型。
- 使用“predict”函数预测特征值的预测值。
- 输出显示在控制台上。
广告