首页 > 分享 > Python数据分析

Python数据分析

项目背景 数据集的获取我们可以通过在Sklearn机器学习包中获取,Sklearn集成了各种各样的数据集,iris数据集的中文名是安德森鸢尾花卉数据集,英文全称是Anderson’s Iris data set。 使得我们可以对其直接利用以及进行数据分析,本文使用鸢尾花卉Iris数据集,这个数据集共150行数据,每行数据包含每个样本的四个特征和样本的类别信息: 花瓣长度 花瓣宽度 萼片长度 萼片宽度 这个数据集也包含了其对应的输出类型变量,不同花的类型分别对应不同标签: 山鸢尾(Iris-setosa)→ 0 变色鸢尾(Iris-versicolor)→ 1 维吉尼亚鸢尾(Iris-virginica )→ 2 导入必要的包

import tensorflow as tf

from sklearn import datasets

from sklearn.datasets import load_iris

from matplotlib import pyplot as plt

import numpy as np

import pandas as pd

import seaborn as sns

import tensorflow as tf

import torch.optim as opt

import torch.nn.functional as F

import torch

from sklearn.preprocessing import LabelEncoder 

from torch.utils.data import Dataset,DataLoader

from sklearn.metrics import accuracy_score,confusion_matrix,classification_report

import copy

import matplotlib

import matplotlib.pyplot as plt

from pandas import DataFrame

from sklearn.metrics import confusion_matrix 

plt.rcParams['font.sans-serif'] = ['SimHei']  

plt.rcParams['axes.unicode_minus'] = False  

数据探索

x_data = datasets.load_iris().data 

y_data = datasets.load_iris().target

print("x_data from datasets: n", x_data)

print("y_data from datasets: n", y_data)

x_data = DataFrame(x_data, columns=['花萼长度', '花萼宽度', '花瓣长度', '花瓣宽度'])

pd.set_option('display.unicode.east_asian_width', True)  

x_data['类别'] = y_data 

print("x_data add index: n", x_data)

print("x_data add a column: n", x_data)

x_data.info()

x_data.describe() 通过对数据的简单浏览,不难发现花萼或者花瓣的形状特征对花的品质有着很大的影响,但是初略的观测难以观察出对于结果的影响,通过对数据进行统计画图分析就能更直观分析以及对数据进行简单的预测

import tensorflow as tf

import numpy as np

import matplotlib.pyplot as plt

import pandas as pd

TRAIN_URL = "http://download.tensorflow.org/data/iris_training.csv"

train_path = tf.keras.utils.get_file("iris_training.csv",TRAIN_URL)   

COLUMN_NAMES = ["SepalLength","SepalWidth","PetalLength","PetalWidth","Species"]

df_iris = pd.read_csv(train_path,header=0,names=COLUMN_NAMES)  

iris = np.array(df_iris)    

fig = plt.figure('Iris  Data',figsize=(15,15))

fig.suptitle("Aderson's iris data setn(blue->setosa | red->versicolor | green->virginica)")

for i in range(4):

for j in range(4):

        plt.subplot(4,4,i*4+j+1)

if(i==j):

            plt.text(0.3,0.4,COLUMN_NAMES[i],fontsize=15)

else:

            plt.scatter(iris[:,j],iris[:,i],c=iris[:,4],cmap='brg')  

if(i==0):

            plt.title(COLUMN_NAMES[j])  

if(j==0):

            plt.ylabel(COLUMN_NAMES[i])

plt.tight_layout()  

plt.show()  

相关知识

python数据分析与展示
使用Python一步一步地来进行数据分析总结
Python实现NIKE耐克女REACT跑步鞋数据分析和可视化
Python时间序列分析入门指南:季节性调整方法
深度学习花卉识别:Python数据集解析
重要的数据分析方法:时间序列分析
python利用c4.5决策树对鸢尾花卉数据集进行分类(iris)
python二级选择题与分析(8)
卷积神经网络实现鸢尾花数据分类python代码实现
Python中的数据可视化:Matplotlib基础与高级技巧

网址: Python数据分析 https://m.huajiangbk.com/newsview546452.html

所属分类:花卉
上一篇: 阿里巴巴花卉数据分析怎么做的啊
下一篇: 物流轨迹即时查询api系统平台