首页 > 分享 > 机器学习系列

机器学习系列

机器学习系列-数据分析-平行坐标图

文章目录 机器学习系列-数据分析-平行坐标图1. 平行坐标图简介2. 平行坐标图的绘制2.1 iris鸢尾花数据集2.2 iris平行坐标图图像绘制 结语

1. 平行坐标图简介

平行坐标系是一种常用的数据可视化方法,常用于高维几何多元数据的可视化。其在数据的可视化表示上克服了笛卡尔直角坐标系(平面直角坐标系、空间直角坐标系)很容易耗尽空间维度,最多只能进行三个维度数据可视化的缺陷,将多个维度的数据变量用多个平行的坐标轴进行表示,将来自于同一数据源的不同维度曲线连接成折线,在存在多种不同类别的数据源时,也可以通过不同颜色绘制属于不同类别数据源的折线,最终通过绘制出的图像进行相关的数据分析。

2. 平行坐标图的绘制

2.1 iris鸢尾花数据集

此数据集中包括150个个体数据,其中每条个体数据中包括花萼长度花萼宽度花瓣长度花瓣宽度以及花的所属类别,此数据集在机器学习中的主要意义在于当我们已知花瓣的上述四种参数时可以判断它属于哪一种鸢尾花。

在sklearn的datasets库中同样存在iris的标准数据集,引用方法如下:

from sklearn.datasets import load_iris iris = load_iris() 12

此时数据已经被存放在iris变量中

但在我使用pandas库绘制平行坐标图的过程中,发现在sklearn提供的数据集当中,其class数据和data数据被分开存放,使得我们在区分不同类别的鸢尾花时的过程变得较为繁琐(但在该数据集中的确有标注区分不同类别的鸢尾花,但因为不在同一个数据表中,不方便使用pandas),于是改为使用本地的iris.csv数据集。

本地数据集形式如下:

sepal_length sepal_width petal_length petal_width target 0 5.1 3.5 1.4 0.2 setosa 1 4.9 3.0 1.4 0.2 setosa 2 4.7 3.2 1.3 0.2 setosa 3 4.6 3.1 1.5 0.2 setosa 4 5.0 3.6 1.4 0.2 setosa .. ... ... ... ... ... 145 6.7 3.0 5.2 2.3 virginica 146 6.3 2.5 5.0 1.9 virginica 147 6.5 3.0 5.2 2.0 virginica 148 6.2 3.4 5.4 2.3 virginica 149 5.9 3.0 5.1 1.8 virginica [150 rows x 5 columns] 1234567891011121314 2.2 iris平行坐标图图像绘制

在python的很多第三方库中都有绘制平行坐标图的相关方法,在此处我使用的是pandas库中的plotting中自带的平行坐标图绘制方法parallel_coordinates,此方法的使用方式为parallel_coordinates(数据集, '分类依据')

具体实现方法如下:

import pandas as pd from pandas.plotting import parallel_coordinates #引用数据 iris = pd.read_csv("在此处添加文件路径") #检查数据 print(iris) parallel_coordinates(iris, 'target') 1234567

绘制出平行坐标图如下:
鸢尾花数据平行坐标图
根据绘制出的平行坐标图我们可以对数据集中的数据进行分析筛选,并使用相关的机器学习的算法完成鸢尾花辨识的目的。

结语

本文使用数据集方式为使用本地文件数据,iris数据集可以点击此处链接下载,但也可以通过修改部分代码使用sklearn中提供的数据集实现绘制平行坐标图。
本文仅介绍了iris鸢尾花数据的平行坐标图绘制,其他机器学习相关内容请见后续相关文章。
如果发现文章内容存在错误或对文章内容存在疑惑,欢迎联系作者进行指正探讨,共同进步。

转载请注明出处

相关知识

机器学习术语表
[Python机器学习]鸢尾花分类 机器学习应用
Python机器学习基础教程
机器学习笔记(通俗易懂)
机器学习常用术语
机器学习术语表——Beta
机器学习算法
【机器学习】鸢尾花分类:机器学习领域经典入门项目实战
python机器学习
机器学习(04)——常用专业术语2

网址: 机器学习系列 https://m.huajiangbk.com/newsview545942.html

所属分类:花卉
上一篇: 数据分析师的书单
下一篇: 用sklearn做一个完整的机器