基于SVM的鸢尾花分类-数据探测
一、实验目的
使用MATLAB实现鸢尾花数据的可视化、分类、聚类,可以让我们更直观地理解数据特征、提升数据分析的效率。在深入探讨这一过程之前,重要的是要理解数据集的特征:鸢尾花数据集是一个经典的多变量数据集,机器学习领域常用的一个数据集。包含150个样本,每个样本有4个特征(萼片长度、萼片宽度、花瓣长度、花瓣宽度)和对应的这些样本分为三类,分别对应鸢尾花的三个品种:Setosa、Versicolour和Virginica。由于鸢尾花数据集具有特征明确、类别清晰的特点,通过可视化可以观察不同特征之间的关系,分类和聚类则是根据特征将数据分成不同的类别,从而实现对鸢尾花种类的精准预测。
二、数据探索
1.数据集简介
iris数据集的中文名是安德森鸢尾花卉数据集,英文全称是Anderson’s Iris data set,是一种多重变量分析的数据集,包含150个样本。每个样本包含了五个元素,其中前四个为特征特征元素,分别为花萼长度、花萼宽度、花瓣长度、花瓣宽度,最后一个为品种信息,即目标属性(也叫target或label。包括山鸢尾Setosa、变色鸢尾Versicolour和维吉尼亚鸢尾Virginica三个品种)。所以iris数据集是一个150行5列的二维表。部分样本数据如下表所示:
图表2- 1数据集表
2.数据导入
首先对数据集进行导入数据集名称:鸢尾花(Iris)数据集
数据规模:包含150个数据样本,分为3类(Setosa、Versicolour、Virginica),每类50个数据,特征属性:每个数据包含4个属性,即花萼长度、花萼宽度、花瓣长度、花瓣宽度。
%导入数据
flower=readtable('iris.csv') sepall=flower.Sepal_Length sepalw=flower.Sepal_Width petall=flower.Petal_Length petalw=flower.Petal_Width species=flower.Species
matlab
运行
123456图表2- 2数据集表显示
图表2- 3数据导入显示
3.数据质量分析
下面经行数据探索,对鸢尾花数据集进行数据质量分析,第一步首先就要进行缺失值分析,分析数据集中的萼片长度,萼片宽度,花瓣长度,花瓣宽度,以及花瓣种类中是否有缺失值,为后续分析打下基础。
下面为展示代码
%(1)缺失值分析 miss=ismissing(flower) number=sum(miss) %缺失值为0
matlab
运行
1234
于 2024-06-24 21:13:46 发布 · 914 阅读