机器学习python集成算法

from pandas import read_csv

from sklearn.model_selection import KFold

from sklearn.model_selection import cross_val_score

from sklearn.ensemble import BaggingClassifier

from sklearn.tree import DecisionTreeClassifier

from sklearn.ensemble import RandomForestClassifier

from sklearn.ensemble import ExtraTreesClassifier

from sklearn.ensemble import VotingClassifier

from sklearn.ensemble import AdaBoostClassifier

from sklearn.ensemble import GradientBoostingClassifier

from sklearn.svm import SVC

from sklearn.linear_model import LogisticRegression

'''先将训练集分成多个子集，然后通过各个子集训练多个模型,选择精度最高的那一个'''

filename = 'pima_data.csv'

names = ['preg','plas','pres','skin','test','mass','pedi','age','class']

data = read_csv(filename,names = names)

array = data.values

X = array[:,0:8]

Y = array[:,8]

num_folds = 10

seed = 7

kfold = KFold(n_splits=num_folds,random_state=seed)

'''数据方差大的时候，效果好'''

'''构建森林，森林有许多决策树组成，训练数据，选择决策结果最多的那一类'''

'''每棵决策树使用的相同的全部训练样本'''

'''将多个机器学习的算法集成的算法。通过创建两个或多个算法模型，

利用投票算法将这些算法包装起来，计算各个子模型的平均预测情况，

可以对子模型的算法进行加权'''

'''训练多个模型并组成一个序列，序列中的每一个模型都会修正前一个模型的错误'''

'''通过改变数据分布实现，可以排除一些不必要的训练数据特征'''