首页 > 分享 > 数据分析入门——以鸢尾花分类为例

数据分析入门——以鸢尾花分类为例

本文以鸢尾花数据为例,总结数据分析一般过程,python数据分析库的部分用法,并完成鸢尾花分类模型构建

数据获取以及导入

import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import statsmodels import os import requests import numpy as np 1234567

#request.get('URL')可以读取网站信息,返回respose对象,将其存入变量r中。 r = requests.get('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data') 12

#这里返回r,可以看出r是Response对象 r 12

<Response [200]> 1

#os.getcwd()可以返回当前编辑目录 path = os.getcwd() 12

path 1

'C:\Users\44587\Python机器学习实战指南' 1

#用python的with open方法以write模式在当前path下创建iris.data并将存储于r中的数据写入 #response.text表示获取response中的文本信息 with open(path+'iris.data','w') as f: f.write(r.text) 1234

#数据写入后使用pandas的read_csv方法读取CSV文件,names参数可赋值一个list以更改列名 df = pd.read_csv(path + 'iris.data',names = ['sepal length','sepal width','petal length', 'petal width','Class']) 123 探索性数据分析
这部分的目的是对数据有一个总体的认知,并发现一些明显的信息,并且对数据进行清洗

#查看DataFrame信息,观察数据类型以及数据是否有缺失值等 df.info() 12

<class 'pandas.core.frame.DataFrame'> RangeIndex: 150 entries, 0 to 149 Data columns (total 5 columns): sepal length 150 non-null float64 sepal width 150 non-null float64 petal length 150 non-null float64 petal width 150 non-null float64 Class 150 non-null object dtypes: float64(4), object(1) memory usage: 5.9+ KB 12345678910

可以看出,数据是十分完整而整齐的,没有缺失值。

#查看数据表的统计信息 df.describe() 12 sepal length sepal width petal length petal width count 150.000000 150.000000 150.000000 150.000000 mean 5.843333 3.054000 3.758667 1.198667 std 0.828066 0.433594 1.764420 0.763161 min 4.300000 2.000000 1.000000 0.100000 25% 5.100000 2.800000 1.600000 0.300000 50% 5.800000 3.000000 4.350000 1.300000 75% 6.400000 3.300000 5.100000 1.800000 max 7.900000 4.400000 6.900000 2.500000

#查看前5行 df.head() 12 sepal length sepal width petal length petal width Class 0 5.1 3.5 1.4 0.2 Iris-setosa 1 4.9 3.0 1.4 0.2 Iris-setosa 2 4.7 3.2 1.3 0.2 Iris-setosa 3 4.6 3.1 1.5 0.2 Iris-setosa 4 5.0 3.6 1.4 0.2 Iris-setosa

#使用序数索引,方法为DataFrame.iloc[行索引,列索引] df.iloc[:3,:4] 12 sepal length sepal width petal length petal width 0 5.1 3.5 1.4 0.2 1 4.9 3.0 1.4 0.2 2 4.7 3.2 1.3 0.2

#使用行列名索引 df.loc[:3,1

相关知识

TensorFlow 2建立神经网络分类模型——以iris数据为例
实验一:鸢尾花数据集分类
分析鸢尾花数据集
R语言数据分析案例:鸢尾花(IRIS)
卷积神经网络实现鸢尾花数据分类python代码实现
《机器学习》分析鸢尾花数据集
深度学习入门之鸢尾花数据集读入
Tensorflow鸢尾花分类(数据加载与特征处理)
【机器学习】鸢尾花分类:机器学习领域经典入门项目实战
数据分析之鸢尾花简单分析

网址: 数据分析入门——以鸢尾花分类为例 https://m.huajiangbk.com/newsview545959.html

所属分类:花卉
上一篇: “形色”APP大数据发布:识别次
下一篇: 在 Windows 应用中部署