python工具dtreeviz决策树可视化和模型可解释性

作者：Python学习与数据挖掘时间：2023-01-12 03:46:55　

前言：

决策树是梯度提升机和随机森林的基本构建块，在学习这些模型的工作原理和模型可解释性时，可视化决策树是一个非常有帮助。不过，当前的可视化包还很初级，对新手没有多少帮助。

最近逛 Github 时，发现一款非常棒的 dtreeviz 工具库：它用于决策树可视化和模型解释。使用 dtreeviz 可以可视化特征空间如何在决策节点上分割，训练样本如何分布在叶节点中，树如何对特定观察进行预测等等。这些操作对于理解分类或回归决策树的工作方式至关重要。

一、安装

pip install dtreeviz # install dtreeviz for sklearn
pip install dtreeviz[xgboost] # install XGBoost related dependency
pip install dtreeviz[pyspark] # install pyspark related dependency
pip install dtreeviz[lightgbm] # install LightGBM related dependency

二、用法

dtree：创建决策树可视化的主要功能。给定决策树回归器或分类器，使用 graphviz 创建并返回树可视化。

1.所需的库

导入所需要的基本库

from sklearn.datasets import *
from sklearn import tree
from dtreeviz.trees import *

2.回归决策树

树的默认方向是自上而下，但您可以使用orientation=“LR” 将其更改为从左到右。view() 给出一个带有渲染的 graphviz 对象的弹出窗口。

regr = tree.DecisionTreeRegressor(max_depth=2)
boston = load_boston()
regr.fit(boston.data, boston.target)

viz = dtreeviz(regr,
boston.data,
boston.target,
target_name='price',
feature_names=boston.feature_names)

viz.view()

3.分类决策树

分类树需要class_names 的附加参数，给出类值与类名的映射。

classifier = tree.DecisionTreeClassifier(max_depth=2) # limit depth of tree
iris = load_iris()
classifier.fit(iris.data, iris.target)

viz = dtreeviz(classifier,
iris.data,
iris.target,
target_name='variety',
feature_names=iris.feature_names,
class_names=["setosa", "versicolor", "virginica"] # need class_names for classifier
)

viz.view()

4.预测路径

突出显示参数 X 中传递的单个观察的特征值所在的决策节点。给出观察的特征值并突出树用于遍历路径的特征。

regr = tree.DecisionTreeRegressor(max_depth=2) # limit depth of tree
diabetes = load_diabetes()
regr.fit(diabetes.data, diabetes.target)
X = diabetes.data[np.random.randint(0, len(diabetes.data)),:] # random sample from training

viz = dtreeviz(regr,
diabetes.data,
diabetes.target,
target_name='value',
orientation ='LR', # left-right orientation
feature_names=diabetes.feature_names,
X=X) # need to give single observation for prediction

viz.view()

如果只想可视化预测路径，则需要设置参数show_just_path=True

dtreeviz(regr,
diabetes.data,
diabetes.target,
target_name='value',
orientation ='TD', # top-down orientation
feature_names=diabetes.feature_names,
X=X, # need to give single observation for prediction
show_just_path=True
)

5.解释预测路径

这些可视化对于向没有机器学习技能的人解释为什么您的模型做出特定预测很有用。在explain_type=plain_english 的情况下，它在预测路径中搜索并找到特征值范围。

X = dataset[features].iloc[10]
print(X)
Pclass 3.0
Age 4.0
Fare 16.7
Sex_label 0.0
Cabin_label 145.0
Embarked_label 2.0

print(explain_prediction_path(tree_classifier, X, feature_names=features, explanation_type="plain_english"))
2.5 <= Pclass
Age < 36.5
Fare < 23.35
Sex_label < 0.5

在explain_type=sklearn_default（仅适用于scikit-learn）的情况下，我们可以仅可视化预测路径中涉及的特征的重要性。特征的重要性是基于杂质的平均减少来计算的。

explain_prediction_path(tree_classifier, X, feature_names=features, explanation_type="sklearn_default")

此外我们还可以自定义颜色，比如：

dtreeviz.trees.dtreeviz(regr,
boston.data,
boston.target,
target_name='price',
feature_names=boston.feature_names,
colors={'scatter_marker': '#00ff00'})

来源：https://blog.csdn.net/weixin_38037405/article/details/121755696

标签：python,dtreeviz,决策树,可视化,模型,可解释性

投稿

python工具dtreeviz决策树可视化和模型可解释性

一、安装

二、用法

1.所需的库

2.回归决策树

3.分类决策树

4.预测路径

5.解释预测路径

猜你喜欢

页面设计之个性元素与共性元素

opencv导入头文件时报错#include的解决方法

python数据结构之搜索讲解

Python 抓取动态网页内容方案详解

javascript对象概念大全

使用virtualenv创建Python环境及PyQT5环境配置的方法

详解如何利用tushare、pycharm和excel三者结合进行股票分析

使用PyWeChatSpy自动回复微信拍一拍功能的实现代码

在python中利用pycharm自定义代码块教程(三步搞定)

python中字符串的编码与解码详析

JS扩展方法实例分析

python flask框架实现重定向功能示例

python处理圆角图片、圆形图片的例子

MySql存储过程循环的使用分析详解

磁盘垃圾文件清理器python代码实现

引用 js在IE与FF之间的区别详细解析

解决大字段在Form中Post出错的方法

Python利用shutil实现拷贝文件功能

Pycharm5个非常有用的方法技巧

利用PyCharm Profile分析异步爬虫效率详解