首页 > 分享 > 机器学习:鸢尾花数据集

机器学习:鸢尾花数据集

鸢尾花数据集(Iris Dataset)是机器学习和数据挖掘领域中最经典和常用的数据集之一,广泛用于分类算法数据可视化的示例。它是由著名的统计学家和生物学家 Ronald A. Fisher 在 1936 年提出的,旨在展示线性判别分析的应用。

一、数据集概述

鸢尾花数据集包含以下信息:

        样本数量:150
        特征数量:4
        类别数量:3

二、特征

鸢尾花数据集中的每个样本包含四个特征,用于描述每种鸢尾花的物理特性:

1. 萼片长度(sepal length): 单位为厘米
2. 萼片宽度(sepal width): 单位为厘米
3. 花瓣长度(petal length): 单位为厘米
4. 花瓣宽度(petal width): 单位为厘米

三、类别

数据集中包含三种鸢尾花类型,每种类型有 50 个样本:

        山鸢尾花(Iris setosa)
        变色鸢尾花(Iris versicolor)
        维吉尼亚鸢尾花(Iris virginica)

四、数据集的目标

鸢尾花数据集的主要目标是根据四个特征来分类三种类型的鸢尾花。这使得数据集成为机器学习分类算法(如逻辑回归、支持向量机、决策树等)入门的理想选择。

五、数据集特点

        易于理解和实现:数据集的特征和目标清晰简单,易于解释,适合教学和演示。
        平衡的类别:每个类别的样本数量相同,便于验证分类算法的性能。
        适用于各种算法:适合使用多种机器学习算法进行分类,并提供可视化支持(如散点图、边界图等)。

六、使用示例

以下是在 Python 中使用 Scikit-learn 加载和可视化鸢尾花数据集的简单示例:

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

from sklearn import datasets

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LogisticRegression

from sklearn.metrics import accuracy_score

iris = datasets.load_iris()

X = iris.data

y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LogisticRegression(max_iter=200)

model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)

print(f'模型准确率: {accuracy:.2f}')

plt.scatter(X[:, 0], X[:, 1], c=y, cmap='viridis', edgecolor='k')

plt.xlabel('萼片长度')

plt.ylabel('萼片宽度')

plt.title('鸢尾花数据集')

plt.show()

 在这个示例中,我们加载了鸢尾花数据集,并使用逻辑回归模型进行了分类,最后用散点图可视化了前两个特征(萼片长度和萼片宽度)。

七、总结

鸢尾花数据集不仅是机器学习和统计学习中的经典数据集,也是学习数据分析、可视化和模型评估的良好起点。

相关知识

机器学习鸢尾花数据集
探索机器学习的起点:鸢尾花数据集
机器学习案例——鸢尾花数据集分析
《机器学习》分析鸢尾花数据集
鸢尾花数据集在机器学习中的应用与分析
机器学习之路:经典的鸢尾花数据集
【机器学习】基于KNN算法实现鸢尾花数据集的分类
基于机器学习的鸢尾花数据集的三分类算法的实现 C++
【机器学习实战】科学处理鸢尾花数据集
【机器学习】经典数据集鸢尾花的分类识别

网址: 机器学习:鸢尾花数据集 https://m.huajiangbk.com/newsview1267710.html

所属分类:花卉
上一篇: 个人总结各种花的花语外加图片
下一篇: 茉莉花花瓣数量