鸢尾花数据集(Iris Dataset)是机器学习和数据挖掘领域中最经典和常用的数据集之一,广泛用于分类算法和数据可视化的示例。它是由著名的统计学家和生物学家 Ronald A. Fisher 在 1936 年提出的,旨在展示线性判别分析的应用。
鸢尾花数据集包含以下信息:
样本数量:150
特征数量:4
类别数量:3
鸢尾花数据集中的每个样本包含四个特征,用于描述每种鸢尾花的物理特性:
1. 萼片长度(sepal length): 单位为厘米
2. 萼片宽度(sepal width): 单位为厘米
3. 花瓣长度(petal length): 单位为厘米
4. 花瓣宽度(petal width): 单位为厘米
数据集中包含三种鸢尾花类型,每种类型有 50 个样本:
山鸢尾花(Iris setosa)
变色鸢尾花(Iris versicolor)
维吉尼亚鸢尾花(Iris virginica)
四、数据集的目标
鸢尾花数据集的主要目标是根据四个特征来分类三种类型的鸢尾花。这使得数据集成为机器学习分类算法(如逻辑回归、支持向量机、决策树等)入门的理想选择。
易于理解和实现:数据集的特征和目标清晰简单,易于解释,适合教学和演示。
平衡的类别:每个类别的样本数量相同,便于验证分类算法的性能。
适用于各种算法:适合使用多种机器学习算法进行分类,并提供可视化支持(如散点图、边界图等)。
以下是在 Python 中使用 Scikit-learn 加载和可视化鸢尾花数据集的简单示例:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
iris = datasets.load_iris()
X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'模型准确率: {accuracy:.2f}')
plt.scatter(X[:, 0], X[:, 1], c=y, cmap='viridis', edgecolor='k')
plt.xlabel('萼片长度')
plt.ylabel('萼片宽度')
plt.title('鸢尾花数据集')
plt.show()
在这个示例中,我们加载了鸢尾花数据集,并使用逻辑回归模型进行了分类,最后用散点图可视化了前两个特征(萼片长度和萼片宽度)。
鸢尾花数据集不仅是机器学习和统计学习中的经典数据集,也是学习数据分析、可视化和模型评估的良好起点。
相关知识
机器学习鸢尾花数据集
探索机器学习的起点:鸢尾花数据集
机器学习案例——鸢尾花数据集分析
《机器学习》分析鸢尾花数据集
鸢尾花数据集在机器学习中的应用与分析
机器学习之路:经典的鸢尾花数据集
【机器学习】基于KNN算法实现鸢尾花数据集的分类
基于机器学习的鸢尾花数据集的三分类算法的实现 C++
【机器学习实战】科学处理鸢尾花数据集
【机器学习】经典数据集鸢尾花的分类识别
网址: 机器学习:鸢尾花数据集 https://m.huajiangbk.com/newsview1267710.html
上一篇: 个人总结各种花的花语外加图片 |
下一篇: 茉莉花花瓣数量 |