参考文章
https://www.kaggle.com/marsggbo/kaggle
github源代码
https://github.com/LeoLeos/house-prices-advanced-regression-techniques
学习过程
理解问题 : 观察每个变量特征的意义以及对于问题的重要程度 研究主要特征 : 也就是最终的目的变量----房价 研究其他变量 : 研究其他多变量对“房价”的影响的他们之间的关系 基础的数据清理 : 对一些缺失数据、异常点和分类数据进行处理 测试假设Created with Raphaël 2.2.0 分析,找出对因变量房价影响较大的自变量 选出这些自变量
进行机器学习拟合 预测
yes
no
代码过程
导入第三方库
# 导入需要的模块 import pandas as pd import matplotlib.pyplot as plt import numpy as np # 用来绘图的,封装了matplot # 要注意的是一旦导入了seaborn, # matplotlib的默认作图风格就会被覆盖成seaborn的格式 import seaborn as sns from scipy import stats from scipy.stats import norm from sklearn.preprocessing import StandardScaler from sklearn import preprocessing from sklearn import linear_model, svm, gaussian_process from sklearn.ensemble import RandomForestRegressor from sklearn.model_selection import train_test_split import warnings warnings.filterwarnings('ignore')
1234567891011121314151617181920加载数据
data_train = pd.read_csv("train.csv") #预览数据头 #print(data_tr123