鸢【音:yuān】尾花(Iris)是单子叶百合目花卉,是一种比较常见的花,而且鸢尾花的品种较多,在某个公园里你可能不经意间就能碰见它。
鸢尾花数据集最初由Edgar Anderson 测量得到,而后在著名的统计学家和生物学家R.A Fisher于1936年发表的文章「The use of multiple measurements in taxonomic problems」中被使用,用它作为线性判别分析(Linear Discriminant Analysis)的一个例子,证明分类的统计方法。该数据集是在机器学习领域一个常用的数据集。
数据中的两类鸢尾花记录结果是在加拿大加斯帕半岛上,在同一天的同一个时间段,使用相同的测量仪器,在相同的牧场上由同一个人测量出来的。这是一份有着70年历史的数据,虽然老,但是却很经典,详细数据集可以在UCI 数据库(http://archive.ics.uci.edu/ml/datasets/Iris) 中找到。
http://archive.ics.uci.edu/static/public/53/iris.zip
Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa(山鸢尾),Versicolour(杂色鸢尾),Virginica(维吉尼亚鸢尾))三个种类中的哪一类。
鸢尾花(iris)数据集,它共有4个属性列和一个品种类别列:sepal length(萼片长度)、sepal width(萼片宽度)、petal length(花瓣长度)、petal width (花瓣宽度),单位都是厘米。3个品种类别是Setosa、Versicolour、Virginica,样本数量150个,每类50个。
本文主要通过Jupyter Notebook对鸢尾花数据集(Iris)进行读取,显示数据,并对数据可视化,最后使用该数据集来应用于K近邻算法线性回归分析。
1)读取数据包括scikit-learn库引入和读取.csv文件保存的数据集。
2)显示数据包括显示具体数据、查看整体数据信息、描述性统计。
3)数据可视化包括散点图、直方图、KDE图、箱线图等。
4)应用该数据集于scikit-learn的K近邻算法进行线性回归分析。
iris_df.head()
iris_datas.data.shape iris_df.shape
iris_datas.target[0:5] iris_datas.target.shape iris_datas.target_names
print(iris_datas.DESCR)
iris_csv_df.head()
iris_df.info()
[Python] 内置类defaultdict(默认字典)介绍和使用场景(案例)-CSDN博客
iris_csv_df.hist() #数据直方图histograms
x轴表示sepal-length花萼长度,y轴表示sepal-width花萼宽度
iris_csv_df.plot(x='sepal-length', y='sepal-width', kind='scatter')
x轴表示patal-length花瓣长度,y轴表示patal-width花瓣宽度
iris_csv_df.plot(x='petal-length', y='petal-width', kind='scatter')
KDE图也被称作密度图(Kernel Density Estimate,核密度估计)。
KDE可以理解为是对直方图的加窗平滑。通过KDE分布图,可以查看并对训练数据集和测试数据集中特征变量的分布情况。[Python] KDE图[作密度图(Kernel Density Estimate,核密度估计)]介绍和使用场景(案例)-CSDN博客
plt.rcParams['axes.unicode_minus'] = False # 避免 UserWarning: Glyph 8722 (N{MINUS SIGN}) missing from current font.iris_csv_df.plot(kind='kde')与对应的直方图进行对比一下:
iris_csv_df.plot(kind='hist')
kind='box’绘制箱图,包含子图且子图的行列布局layout为2*2,子图共用x轴、y轴刻度标签为False。
iris_csv_df.plot(kind='box', subplots=True, layout=(2,2), sharex=False, sharey=False)
[Python] scikit-learn - K近邻算法介绍和使用案例-CSDN博客
相关知识
Python机器学习基础教程
python机器学习
《Python机器学习开发实战》电子书在线阅读
[Python机器学习]鸢尾花分类 机器学习应用
第 1 章 机器学习基础引言
深度学习花卉识别:Python数据集解析
[机器学习基础][笔记] 一、鸢尾花分类
机器学习术语表
谷歌出品!机器学习常用术语总结
[Python嗯~机器学习]
网址: [Python] 机器学习 https://m.huajiangbk.com/newsview546208.html
上一篇: R 中鸢尾花数据集的完整指南 |
下一篇: 鸢尾花数据集 — scikit |