首页 > 分享 > BPNN、决策树、KNN、SVM分类鸢尾花数据集Python实现

BPNN、决策树、KNN、SVM分类鸢尾花数据集Python实现

花匠小妙招
2024-12-29 13:01

数据集处理数据获取数据划分可视化方法1 DecisionTree类定义构建决策树基尼值基尼系数寻找划分维度构建决策树分类结果方法2 BPNN网络搭建算法实现初始化参数向前传播反向传播(1)计算总误差(2)修正隐藏层-输出层参数(3)修正输入层-隐藏层参数模型训练分类结果方法3 SVM理解SVM核函数实现方法4 KNNKNN分类器实现距离计算选择类型完整代码分类结果

数据集处理#

数据获取#

使用sklearn的dataset获取数据

from sklearn import datasets from sklearn.model_selection import train_test_split iris = datasets.load_iris() iris_feature = iris['data'] iris_target = iris['target'] iris_target_name = iris['target_names']

数据划分#

使用sklearn自带的函数将其分割为训练集和测试集

训练集和测试集比例为2：1

为方便比较不同方法的优劣，我们固定随机数种子为10

feature_train, feature_test, target_train, target_test = train_test_split(iris_feature, iris_target, test_size=0.33，random_state=10)

可视化#

使用plt对数据进行可视化，数据集展示如下

def show(): t0 = [index for index in range(len(iris_target)) if iris_target[index] == 0] t1 = [index for index in range(len(iris_target)) if iris_target[index] == 1] t2 = [index for index in range(len(iris_target)) if iris_target[index] == 2] plt.rcParams['font.sans-serif'] = ['SimHei'] # 显示中文标签 # plt.rcParams['axes.unicode_minus'] = False plt.scatter(x=iris_feature[t0, 0], y=iris_feature[t0, 1], color='r', label='Iris-virginica') plt.scatter(x=iris_feature[t1, 0], y=iris_feature[t1, 1], color='g', label='Iris-setosa') plt.scatter(x=iris_feature[t2, 0], y=iris_feature[t2, 1], color='b', label='Iris-versicolor') plt.xlabel("花萼长度") plt.ylabel("花瓣长度") plt.title("数据集展示") plt.show()

方法1 DecisionTree#

类定义#

为了构建决策树，需要先定义节点类

class Node: def __init__(self, dimension, threshold, isLeaf, left, right, species): self.dimension = dimension # 划分维度 self.threshold = threshold # 划分阈值 self.isLeaf = isLeaf # 是否是叶节点 self.left = left # 左支（叶节点时为None） self.right = right # 右支（叶节点时为None） self.species = species # 分类（如果是叶节点）

构建决策树#

决策树部分，采用CART算法构建决策树，下面将按照依赖关系自底向上介绍结构化方法

基尼值#

计算公式为

基尼值越小说明该数据集中不同类的数据越少

pv代表了v类数据在总类中的频率

代码实现如下

def get_gini(label): """ 计算GINI值 :param label: 数组，里面存的是分类 :return: 返回Gini值 """ gini = 1 dic = {} for target in label: if target in dic.keys(): dic[target] += 1 else: dic[target] = 1 for value in dic.values(): tmp = value / len(label) gini -= tmp * tmp return gini

基尼系数#

计算公式如下

因为鸢尾花数据集的属性都是浮点数，为了二分化，我们需要寻找一个阈值，这里采用的方法是枚举所有的划分情况，因此需要做：

排序给定维度下的属性选取相邻属性值的平均值作为候选阈值，并去重遍历所有可能的阈值，选取基尼系数最小的划分阈值，返回基尼系数和划分阈值

代码实现如下

def get_gini_index_min(feature, label, dimension): """ 获取某个维度的最小GiniIndex :param feature: 所有属性list :param label: 标记list :param dimension: 维度(从0开始) :return: gini_index(最小GiniIndex) threshold(对应阈值) """ attr = feature[:, dimension] gini_index = 1 threshold = 0 attr_sort = sorted(attr) candicate_thre = [] # 寻找候选阈值 for i in range(len(attr_sort) - 1): tmp = (attr_sort[i] + attr_sort[i + 1]) / 2 if tmp not in candicate_thre: candicate_thre.append(tmp) # 寻找最小GiniIndex for thre_tmp in candicate_thre: index_small_list = [index for index in range(len(feature)) if attr[index] < thre_tmp] label_small_tmp = label[index_small_list] index_large_list = [index for index in range(len(feature)) if attr[index] >= thre_tmp] label_large_tmp = label[index_large_list] gini_index_tmp = get_gini(label_small_tmp) * len(label_small_tmp) / len(attr) + get_gini(label_large_tmp) * len( label_large_tmp) / len(attr) if gini_index_tmp < gini_index: gini_index = gini_index_tmp threshold = thre_tmp print(gini_index, threshold) return gini_index, threshold

寻找划分维度#

鸢尾花数据集有四个维度的数据，我们需要确定选取哪个维度的数据作为划分依据，因此，我们依次计算各个维度下的最小基尼系数，选取最小基尼系数最小的维度作为划分维度

有了上面计算最小基尼系数的方法，我们可以来选取基尼系数最小的数据维度

def find_dimension_by_GiniIndex(feature, label): """ 寻找划分维度 :param feature: 所有属性list :param label: 标记list :return: gini_index, threshold, dimension """ dimension = 0 threshold = 0 gini_index_min = 1 for d in range(len(feature[1])): gini_index, thre = get_gini_index_min(feature, label, d) if gini_index < gini_index_min: gini_index_min = gini_index dimension = d threshold = thre print(gini_index, threshold, dimension) return gini_index, threshold, dimension

构建决策树#

有了以上的工具，就用递归的方法构建决策树了

递归的终点有两种情况

dataset只有一个元素了，那就不用再分了 dataset里有很多元素，但都是同一类型的，体现在GiniIndex=0，说明已经纯洁，不用再递归

实现如下

def devide_by_dimension_and_thre(feature, label, threshold, dimension): """ 根据阈值和维度来划分数据集，返回小集和大集 :param feature: 所有属性list :param label: 标记list :param threshold: 划分阈值 :param dimension: 划分维度 :return: feature_small, label_small, feature_large, label_large """ attr = feature[:, dimension] index_small_list = [index for index in range(len(feature)) if attr[index] < threshold] feature_small = feature[index_small_list] label_small = label[index_small_list] index_large_list = [index for index in range(len(feature)) if attr[index] >= threshold] feature_large = feature[index_large_list] label_large = label[index_large_list] return feature_small, label_small, feature_large, label_large def build_tree(feature, label): """ 递归构建决策树 :param feature: 所有属性list :param label: 标记list :return: 决策树的根Node节点 """ if len(label) > 1: gini_index, threshold, dimension = find_dimension_by_GiniIndex(feature, label) if gini_index == 0: # gini_index = 0，说明全都是同一种类型，就是叶节点 return Node(dimension, threshold, True, None, None, label[0]) print('end') else: # gini_index != 0，说明还不纯，继续划分，递归构建左支和右支 feature_small, label_small, feature_large, label_large = devide_by_dimension_and_thre(feature, label, threshold, dimension) left = build_tree(feature_small, label_small) right = build_tree(feature_large, label_large) return Node(dimension, threshold, False, left, right, None) else: # 如果只有一个数据，直接是叶节点 return Node(None, None, True, None, None, label[0])

分类结果#

使用graphviz对训练出的决策树进行可视化

通过对测试集的预测来验证准确性

def predict(root: Node, feature_line): """ 使用该方法进行预测 :param root: 决策树根节点 :param feature_line: 需要预测的属性值 :return: 预测结构 label """ node = root while not node.isLeaf: if feature_line[node.dimension] < node.threshold: node = node.left else: node = node.right return node.species def score(root, feature, label): """ 模型得分评估 :param root: 决策树根节点 :param feature: 测试集属性list :param label: 测试集标记list :return: 正确率 """ correct = 0 for index in range(len(feature)): type = predict(root, feature[index]) if type == label[index]: correct += 1 print('correct rate is', correct / len(feature)) res = build_tree(feature_train, target_train) score(res, feature_test, target_test)

得到正确率为0.96

经过验证，随机选取划分数据集的随机数种子（既按照2：1的训练集：测试集比例，随机划分），正确率都在90%以上，说明决策树方法能有效划分鸢尾花数据集

方法2 BPNN#

BPNN（Back Propagation Neural Network）的主要思想是通过神经网络正向传播输出结果，通过反向传播（Back Propagation）方式传递误差，并对网络中的参数进行优化，以训练出一个神经网络。

这里直接通过构造一个BP神经网络，来实现对鸢尾花数据集分类例子，用代码来讲述对其的理解。

网络搭建#

构建一个如图所示的神经网络

一些定义

输入层：input 隐藏层：hide 输出层：ouput

算法实现#

初始化参数#

类定义及初始化如下

class NeuralNetwork(object): def __init__(self, input_nodes, hidden_nodes, output_nodes, learning_rate): """ :param input_nodes: 输入层节点个数 :param hidden_nodes: 隐藏层节点个数 :param output_nodes: 输出层节点个数 :param learning_rate: 学习率 """ self.input_nodes = input_nodes self.hidden_nodes = hidden_nodes self.output_nodes = output_nodes self.weights_input_to_hidden = np.random.normal(0.0, self.hidden_nodes ** -0.5, (self.hidden_nodes, self.input_nodes)) self.weights_hidden_to_output = np.random.normal(0.0, self.output_nodes ** -0.5, (self.output_nodes, self.hidden_nodes)) self.lr = learning_rate # 学习率 self.activation_function = self.sigmoid def sigmoid(self, x): return 1.0 / (1 + np.exp(-x))

选择sigmoid函数作为激活函数

向前传播#

向前传播指的已知各个节点的参数，如何得到神经网络的输出。

输入层inputs

隐藏层输入：通过输入层x权重得到隐藏层输入

hidden_inputs = np.dot(self.weights_input_to_hidden, inputs)

隐藏层输出：通过隐藏层输入带入激活函数中获得

hidden_outputs = self.activation_function(hidden_inputs)

结果层输入：通过隐藏层x权重得到结果层输入

final_inputs = np.dot(self.weights_hidden_to_output, hidden_outputs)

结果层输出：尽管很多书上在这里会再使用一次激活函数，但因为期望的输出结果为分类target(0、1、2)，而sigmoid函数的取值为(0,1)，所以这里我们选择不再使用一次激活函数。结果证明这样处理下，仍然能够保持较好的准确率。

final_outputs = final_inputs

完整代码

def train(self, inputs_list, targets_list): # 正向传播 inputs = np.array(inputs_list, ndmin=2).T targets = np.array(targets_list, ndmin=2).T hidden_inputs = np.dot(self.weights_input_to_hidden, inputs) hidden_outputs = self.activation_function(hidden_inputs) final_inputs = np.dot(self.weights_hidden_to_output, hidden_outputs) final_outputs = final_inputs # 因为的取值为0、1、2，所以这里不再用激活函数了，否则结果会被限制在0到1 # 未完，见下

反向传播#

反向传播主要是使用了梯度下降的方法来对参数进行修正，以提高拟合效果

(1)计算总误差

计算总的误差为：

我们反向传播的目的就是对参数进行修正，使得Etotal达到最小。

(2)修正隐藏层-输出层参数

以权重weights_hidden_to_output[0]为例（为了表示方便记为w[0]），如果我们想知道他对总体误差产生了多少影响，可以对其求偏导。

同理，可以计算出所有的weights_hidden_to_output

代码实现如下

delta_output_out = final_outputs - targets delta_output_in = delta_output_out delta_weight_ho_out = np.dot(delta_output_in, hidden_outputs.T) self.weights_hidden_to_output -= (self.lr * delta_weight_ho_out)(3)修正输入层-隐藏层参数

这里需要先知道中间使用的激活函数sigmoid函数的求导
$$
sigmoid'(f(x))=f'(x)f(x)(1-f(x))
$$
以权重weights_input_to_hidden[0]为例（为了表示方便记为w[0]），如果我们想知道他对总体误差产生了多少影响，可以对其求偏导。

同理，可以计算出所有的weights_input_to_hidden

代码实现如下

delta_hidden_out = np.dot(self.weights_hidden_to_output.T, delta_output_in) delta_hidden_in = delta_hidden_out * hidden_outputs * (1 - hidden_outputs) delta_wih = np.dot(delta_hidden_in, inputs.T) self.weights_input_to_hidden -= (self.lr * delta_wih)

关于正向传播、反向传播部分的参考

https://m.cnblogs.com/charlotte77/p/5629865.html

模型训练#

epochs = 1000 # 训练次数 learning_rate = 0.001 hidden_nodes = 10 output_nodes = 1 batch_size = 50 input_nodes = train_features.shape[1] network = NeuralNetwork(input_nodes, hidden_nodes, output_nodes, learning_rate) for e in range(epochs): # 进行epochs次训练 batch = np.random.choice(len(train_features), size=batch_size) # 从训练集中随机挑选50个样本进行训练 for record, target in zip(train_features[batch], train_targets[batch]): network.train(record, target)

分类结果#

1000次训练下的损失函数图如下

训练集的分类正确率为 0.98
测试集的分类正确率为 0.96

说明BPNN方法能有效划分鸢尾花数据集

方法3 SVM#

理解#

SVM#

SVM是一种监督学习算法，主要思想是建立一个最优决策超平面，使得该平面两侧距平面最近的两类样本之间的距离最大化，从而对分类问题提供良好的泛化能力

以下图为例，黄色和蓝色是两种决策超平面，而黄色平面两侧距平面最近的两类样本之间的距离较大，所以可以称黄色是最优决策超平面。

而“支持向量”指训练集中的一些训练点，这些训练点最靠近决策面，是最难分类的数据点。比如图中画了虚线的四个点就是这种点。

寻找到这类超平面后，我们假设超平面方程为
$$
W^TX+b=0
$$
X为输入向量，W为权值向量，b为偏置，则可根据以下两个标准分为两类
$$
W^TX+b>0
$$

$$
W^TX+b<0
$$

核函数#

为了划

分非线性数据，我们不能使用线性结果对其进行划分，如图，我们为了划分两类数据，没办法使用一条直线进行划分，而需要用曲线进行划分

从高维的角度理解这个问题，原理是将数据映射到高维数据，在高维空间线性可分。

比如我们做一个从二维到三维的映射之后，就可以使用一个平面来划分这两类数据

这种将原始空间中的向量作为输入向量，并返回特征空间（转换后的数据空间,可能是高维）中向量的点积的函数称为核函数。

一个来源网上的例子：

在下面的实现里，我们选用rbf作为核函数，径向基函数 (Radial Basis Function 简称 RBF)，就是某种沿径向对称的标量函数，最常用的是高斯核函数。

高斯核本质是在衡量样本和样本之间的“相似度”，在一个刻画“相似度”的空间中，让同类样本更好的聚在一起，进而线性可分。

1，使用一个非线性映射将数据变换到一个特征空间 F 2，在特征空间使用线性学习器分类

实现#

使用Sklearn自带的SVM模型进行实现

import matplotlib.pyplot as plt from sklearn import svm from data import feature_train, target_train, feature_test, target_test svm_classifier = svm.SVC(C=1.0, kernel='rbf', decision_function_shape='ovr', gamma=0.01) svm_classifier.fit(feature_train, target_train) print("训练集:", svm_classifier.score(feature_train, target_train)) print("测试集:", svm_classifier.score(feature_test, target_test)) target_test_predict = svm_classifier.predict(feature_test) comp = zip(target_test, target_test_predict) print(list(comp)) plt.figure() plt.subplot(121) plt.scatter(feature_test[:, 0], feature_test[:, 1], c=target_test.reshape((-1)), edgecolors='k', s=50) plt.subplot(122) plt.scatter(feature_test[:, 0], feature_test[:, 1], c=target_test_predict.reshape((-1)), edgecolors='k', s=50) plt.show()

分类结果如下

训练集的准确率: 0.95
测试集的准确率: 0.92

方法4 KNN#

KNN分类器实现#

距离计算#

计算公式为
$$
d=sqrt{(x0-y0)2+(x1-y1)2+(x2-y2)2+(x3-y3)2}
$$

def get_distance(self, feature_line1, feature_line2): tmp = 0 for i in range(len(feature_line1)): tmp += (feature_line1[i] - feature_line2[i]) ** 2 return tmp ** 0.5

选择类型#

直接选择距离最近的k-训练集中出现频率最高的种类作为分类结果

def get_type(self, k, feature_line): dic = {} for index in range(len(self.feature)): dist = self.get_distance(self.feature[index], feature_line) dic[index] = dist # sort sort_dic = sorted(dic.items(), key=lambda x: x[1], reverse=False) # print(sort_dic) vote = {} for i in range(k): index = sort_dic[i][0] type = self.labels[index] if type not in vote.keys(): vote[type] = 1 else: vote[type] += 1 vote_rank = sorted(vote.items(), key=lambda x: x[1], reverse=True) # print(vote_rank) return vote_rank[0][0]

完整代码#

class KNNClassifier: def __init__(self, feature, labels): self.feature = feature self.labels = labels def get_distance(self, feature_line1, feature_line2): tmp = 0 for i in range(len(feature_line1)): tmp += (feature_line1[i] - feature_line2[i]) ** 2 return tmp ** 0.5 def get_type(self, k, feature_line): dic = {} for index in range(len(self.feature)): dist = self.get_distance(self.feature[index], feature_line) dic[index] = dist # sort sort_dic = sorted(dic.items(), key=lambda x: x[1], reverse=False) # print(sort_dic) vote = {} for i in range(k): index = sort_dic[i][0] type = self.labels[index] if type not in vote.keys(): vote[type] = 1 else: vote[type] += 1 vote_rank = sorted(vote.items(), key=lambda x: x[1], reverse=True) # print(vote_rank) return vote_rank[0][0] def predict(self, k, feature): res = [] for feature_line in feature: res.append(self.get_type(k, feature_line)) return res def score(self, k, feature, labels): predict_set = self.predict(k, feature) return len([index for index in range(len(labels)) if predict_set[index] == labels[index]]) / len(labels)

分类结果#

选取k=5，训练结果如下：

训练集的准确率: 0.97

测试集的准确率: 0.96

使用plt绘制分布图：

可以看出，KNN能够很好地对鸢尾花数据集进行分类

网购猕猴桃在家里该怎么储存？

【农家帮手】猕猴桃贮藏注意事项

分享热点排名

明日花キララ:明日花绮罗年度好评作品番号汇总

明日花キララ(明日花绮罗)经典品番作品及内容预览

推荐分享

家庭养花风水知识家庭养花“五行说”

家庭养花知识大全家庭养花有什么好处

即时知识

新手必看！草莓高产种植技术，一学就会！

鸭脚木怎么养养殖要注意什么

分享分类导航

花卉

每日分享

花卉图片

养花生活

BPNN、决策树、KNN、SVM分类鸢尾花数据集Python实现

数据集处理#

数据获取#

数据划分#

可视化#

方法1 DecisionTree#

类定义#

构建决策树#

基尼值#

基尼系数#

寻找划分维度#

构建决策树#

分类结果#

方法2 BPNN#

网络搭建#

算法实现#

初始化参数#

向前传播#

反向传播#

模型训练#

分类结果#

方法3 SVM#

理解#

SVM#

核函数#

实现#

方法4 KNN#

KNN分类器实现#

距离计算#

选择类型#

完整代码#

分类结果#

网购猕猴桃在家里该怎么储存？

【农家帮手】猕猴桃贮藏注意事项

明日花キララ:明日花绮罗年度好评作品番号汇总

明日花キララ(明日花绮罗)经典品番作品及内容预览

家庭养花风水知识 家庭养花“五行说”

家庭养花知识大全 家庭养花有什么好处

家庭养花风水知识家庭养花“五行说”

家庭养花知识大全家庭养花有什么好处