首页 > 分享 > 机器学习：鸢尾花数据集

机器学习：鸢尾花数据集

花匠小妙招
2024-12-24 16:16

鸢尾花数据集（Iris Dataset）是机器学习和数据挖掘领域中最经典和常用的数据集之一，广泛用于分类算法和数据可视化的示例。它是由著名的统计学家和生物学家 Ronald A. Fisher 在 1936 年提出的，旨在展示线性判别分析的应用。

一、数据集概述

鸢尾花数据集包含以下信息：

        样本数量：150
        特征数量：4
        类别数量：3

二、特征

鸢尾花数据集中的每个样本包含四个特征，用于描述每种鸢尾花的物理特性：

1. 萼片长度（sepal length）: 单位为厘米
2. 萼片宽度（sepal width）: 单位为厘米
3. 花瓣长度（petal length）: 单位为厘米
4. 花瓣宽度（petal width）: 单位为厘米

三、类别

数据集中包含三种鸢尾花类型，每种类型有 50 个样本：

        山鸢尾花（Iris setosa）
        变色鸢尾花（Iris versicolor）
        维吉尼亚鸢尾花（Iris virginica）

四、数据集的目标

鸢尾花数据集的主要目标是根据四个特征来分类三种类型的鸢尾花。这使得数据集成为机器学习分类算法（如逻辑回归、支持向量机、决策树等）入门的理想选择。

五、数据集特点

        易于理解和实现：数据集的特征和目标清晰简单，易于解释，适合教学和演示。
        平衡的类别：每个类别的样本数量相同，便于验证分类算法的性能。
        适用于各种算法：适合使用多种机器学习算法进行分类，并提供可视化支持（如散点图、边界图等）。

六、使用示例

以下是在 Python 中使用 Scikit-learn 加载和可视化鸢尾花数据集的简单示例：

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

from sklearn import datasets

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LogisticRegression

from sklearn.metrics import accuracy_score

iris = datasets.load_iris()

X = iris.data

y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LogisticRegression(max_iter=200)

model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)

print(f'模型准确率: {accuracy:.2f}')

plt.scatter(X[:, 0], X[:, 1], c=y, cmap='viridis', edgecolor='k')

plt.xlabel('萼片长度')

plt.ylabel('萼片宽度')

plt.title('鸢尾花数据集')

plt.show()

在这个示例中，我们加载了鸢尾花数据集，并使用逻辑回归模型进行了分类，最后用散点图可视化了前两个特征（萼片长度和萼片宽度）。

七、总结

鸢尾花数据集不仅是机器学习和统计学习中的经典数据集，也是学习数据分析、可视化和模型评估的良好起点。

网购猕猴桃在家里该怎么储存？

【农家帮手】猕猴桃贮藏注意事项

分享热点排名

明日花キララ:明日花绮罗年度好评作品番号汇总

明日花キララ(明日花绮罗)经典品番作品及内容预览

推荐分享

家庭养花风水知识家庭养花“五行说”

家庭养花知识大全家庭养花有什么好处

即时知识

新手必看！草莓高产种植技术，一学就会！

鸭脚木怎么养养殖要注意什么

分享分类导航

花卉

每日分享

花卉图片

养花生活