首页 > 分享 > kaggle上第一次处理数据集

kaggle上第一次处理数据集

最新推荐文章于 2024-10-24 19:22:58 发布

La Prairie 于 2019-02-26 19:23:46 发布

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import preprocessing #归一化用的工具
from sklearn import linear_model
from sklearn.model_selection import train_test_split #用于数据分割

#把训练集和测试集的数据读取
train=pd.read_csv(‘train.csv’,index_col=0)
test=pd.read_csv(‘test.csv’,index_col=0)
y_test=pd.read_csv(‘sample_submission.csv’,index_col=0)

#方便统一处理,先将二者数据合并,

set=pd.concat([test,y_test],axis=1) #注意这里axis=1,是给test加上一列
all_set=pd.concat([train,set],axis=0) #这里axis=0,是要把两个表格以增加行数方式拼接

#查看数据信息
all_set.info()

#PoolQC , MiscFeature , Alley 三个特征缺失特别严重,所以将这三个特征删除
all_set=all_set.drop([‘PoolQC’,‘MiscFeature’,‘Alley’] , axis=1)

#剩下的很多样本中偶有缺失值,将有缺失值的样本都删除
all_set=all_set.dropna()
all_set.info() #发现就206个样本是完整的,好像删的太狠了。。。

#因为各个特征取值变化幅度太大,所

相关知识

如何在Kaggle上打比赛,带你进行一次完整流程体验
植物病害识别数据集
Flowers102花分类的数据下载和处理
Kaggle Cassava Leaf Disease Classification 木薯叶疾病分类竞赛
朴素贝叶斯分类(鸢尾花数据集)
通过一个简单的电商零售数据集,了解数据分析流程
作物病虫害识别数据集资源合集
利用VGG16做花数据集的识别
数据分析(Python)入门—鸢尾植物数据集处理
【机器学习实战】科学处理鸢尾花数据集

网址: kaggle上第一次处理数据集 https://m.huajiangbk.com/newsview1250569.html

所属分类:花卉
上一篇: 物流运输与邮局选址DP算法
下一篇: MySQL之从锁的角度看upda