在Python中,进行数据探索是数据分析和机器学习项目的重要步骤之一,数据探索的目标是更好地了解数据,解释数据中的模式、趋势和关系。
from sklearn import datasets
import pandas as pd
import matplotlib.pyplot as plt
iris=datasets.load_iris()
data=pd.DataFrame(data=iris.data,columns=iris.feature_names)
data['target']=iris.target
data.info()
data.head()
data.describe()
plt.figure(figsize=(10,6))
plt.scatter(data['sepal length (cm)'],data['sepal width (cm)'],c=data['target'],cmap='viridis')
plt.xlabel('Sepal Length(cm)')
plt.ylabel('Sepal Width(cm)')
plt.title('Sepal Length vs Sepal Width')
plt.show()
data['target'].hist()
correlation_matrix=data.corr()
print(correlation_matrix)
import seaborn as sns
sns.heatmap(correlation_matrix,annot=True,cmap='coolwarm',linewidths=0.5)
异常值:异常值是指与数据集中大多数观测值明显不同的值。它们可能是数据记录中的极端值,通常比其他观测值要远离数据的中心趋势(例如均值或中位数)。异常值会对统计分析和建模产生负面影响。
plt.boxplot(data['petal length (cm)'])
plt.title('Boxplot of Petal Length')
plt.show()
data.isnull().sum()
data.duplicated()
data.duplicated().sum()
相关知识
《机器学习》分析鸢尾花数据集
分析鸢尾花数据集
鸢尾花数据集下载
卷积神经网络实现鸢尾花数据分类python代码实现
【机器学习实战】科学处理鸢尾花数据集
Python原生代码实现KNN算法(鸢尾花数据集)
深度学习花卉识别:Python数据集解析
【python机器学习】KNN算法实现回归(基于鸢尾花数据集)
机器学习数据集之鸢尾花
KNN算法实现鸢尾花数据集分类
网址: Python数据分析——寒假学习[1](鸢尾花数据集) https://m.huajiangbk.com/newsview546261.html
上一篇: 数据分析(Python)入门—鸢 |
下一篇: 机器学习鸢尾花数据集 |