首页 >> 财经频道

决策树分类(使用Scikit-Learn了解决策树分类)

时间：2024/04/24 15:06:54 编辑：

OKEX欧易app下载

欧易交易所app是全球排名第一的虚拟货币交易所。

APP下载官网注册

决策树是用于分类和回归任务的最基本的机器学习工具之一。在这篇文章中，我将介绍-

以基尼杂质为标准的决策树算法拆分原则。
决策树在现实生活数据分类中的应用。
创建一个管道，并使用GridSearchCV为分类任务选择最佳参数。

决策树

决策树(以下简称DT)算法的思想是学习一组if/else问题来进行决策。决策树可以组合数值数据和分类数据。一些用于决策树的术语如下图所示

在这里，我们看到了如何根据节点在DT中的位置划分节点。首先，我们需要学习如何选择根节点，在这里我们需要学习确定节点的标准之一，即基尼杂质。

基尼杂质：

基尼杂质（Gini Impurity）以意大利统计学家Corrado Gini的名字命名。Gini杂质可以被理解为一个最小化误分类概率的标准。为了便于理解，让我们从一个非常简单的机器学习数据集来开始，根据不同的天气条件，我们决定是否玩户外游戏。根据定义，只有一个类的数据集的Gini杂质为0。建立决策树时，我们的想法是选择具有最少Gini杂质的特征作为根节点，依此类推。

在这里，我们看到根据4个特征（Outlook, Temperature, Humidity, Wind），决定是否打网球。那么根节点将是什么特征呢？这将使用基尼杂质。让我们从“ Outlook”特征开始。重要的是要注意，当“ Outlook”是overcast时，结果总是Yes。该节点只有一类样本（如下图所示）。

由于这些是分类变量，因此如果我们要应用决策树分类器并拟合数据，则首先需要创建虚拟变量。

在这里，我们可以确定一件事，即一旦创建了决策树，根节点肯定就是特征'Outlook_Overcast'。让我们看一下决策树（如下图所示）。当'Outlook_Overcast'≤0.5为False时，即'Outlook Overcast'为1时，我们有一个纯样本的叶节点，其基尼杂质为0。

对于根节点，让我们计算基尼杂质。因为我们有9个1（Yes）和5个0（“No”），所以基尼杂质约为0.459。下一个节点为“ Humidity_High”，因为该特征将为我们提供最少的基尼杂质。对于像这样的小型数据集，我们总是可以使用Pandas data-frame为每个特征计算基尼杂质。一旦将“ Outlook_Overcast”作为根节点，我们就会在叶节点中获得4个样本（“Yes”）。在剩下的10个样本中，我们分别有5个“Yes”和“No”。然后选择“ Humidity_High”作为特征，节点的基尼杂质为0.5，依此类推。

从某种意义上说，基尼不纯性计算可能会比熵具有一点优势，因为为熵较大的数据集构建决策树可能花费更少的时间。

决策树实例：银行定期存款数据集：

在这里，我将使用UC Irvine机器学习存储库中的Bank Marketing Data-Set（https://archive.ics.uci.edu/ml/datasets/Bank+Marketing）。网站上陈述的数据集摘要为

摘要：数据与葡萄牙银行机构的直接营销活动（电话）有关。分类的目的是预测客户是否将认购定期存款（变量y）。

让我们使用Pandas加载机器学习数据集

共有16个特征，包括分类变量和数值变量，样本总数为11162。首先，我们检查标签（“yes”，“No”）的分布方式。我们可以使用以下Seaborn countplot 。

数据集略微偏态，rejections（“No”）记录稍多。因此，稍后将数据集拆分为训练集和测试集时，我们将使用分层。我们还可以使用Matplotlib Hist检查某些数字变量的分布，如下所示

数值变量的相关图（使用Seaborn Heatmap绘制）显示出特征之间的相关性很小。由于存在多个分类变量，因此我们需要将它们转换为虚拟变量。我删除了特征“duration”，因为如数据集描述中所述，此特征会极大地影响目标变量（duration= 0时，y ='No'）。

下一步是选择特征和标签

下一步是将数据集分为训练集和测试集-

应用决策树分类器：

接下来，创建StandardScaler和DT分类器的管道。我们可以从Scikit-Learn 导入DT分类器。为了确定DT分类器的最佳参数（划分准则和最大树深度），我还使用了网格搜索交叉验证。下面的Python代码很容易理解。

接下来，我应用了3、4、5fold交交叉验证来确定最佳参数

在这里，我们看到了如何在网格搜索交叉验证中成功地应用决策树分类器来确定和优化最佳拟合参数。由于有46个特征，因此很难在一个页面中可视化树。因此，我通过删除“month”特征(因为它创建了最大数量的虚拟变量，12)来简化数据框架，并再次进行拟合过程，现在的特征数量为35。

让我们以最大深度为6并以“ Gini”为标准绘制决策树。使用Scikit Learn可视化树需要一些Python代码如下

让我们更详细地了解树的根和前几个节点-

我们决策树的前几个节点！

在这里，我们看到已选择“ contanct_unknown”作为根节点的特征。训练样本总数为8929，基尼杂质为〜0.5。接下来的深度，我们看到选择了一个数值变量'pdays'作为特征来c拆分样本，依此类推。由于有如此多的特征，手动构建树会非常困难。我们还可以使用DecisionTreeClassifier类的feature_importance_attribute来绘制哪些特征对于构建树很重要。该图如下所示