首页 > 分享 > 机器学习集成方法Bagging(Python实现)

机器学习集成方法Bagging(Python实现)

花匠小妙招
2024-12-03 23:39

自主采样：即有放回的采样

在原数据集中经过m次有放回的随机采样，可以得到一个含m个样例的子数据集，使用这个子数据集进行训练，得到一个基学习器

我们对上述过程重复T次，就会得到T个基学习器，我们对这T个学习器的预测结果进行结合，就能够得到一个准确率更高的预测结果。一般使用简单投票的方法进行结合，即选择T个预测结果中预测最多的类，例如10次预测，其中7个预测为正类，3个预测为反类，我们就认为最终预测为正类。

我们以logistic线性回归模型为例，实现一下：

读取文件：

def load(filename):

fp = open(filename)

dataset = []

labelset = []

for i in fp.readlines():

a = i.strip().split()

dataset.append([float(j) for j in a[:len(a)-1]])

labelset.append(int(float(a[-1])))

return dataset, labelset

logistic线性模型（训练和测试过程）：

def sigmoid(z):

return 1.0 / (1 + np.exp(-z))

def train(dataset, labelset):

data = np.mat(dataset)

label = np.mat(labelset).transpose()

w = np.ones((len(dataset[0])+1, 1))

a = np.ones((len(dataset), 1))

data = np.c_[data, a]

n = 0.001

for i in range(10000):

c = sigmoid(np.dot(data, w))

b = c - label

change = np.dot(np.transpose(data), b)

w = w - change * n

return w

def test(dataset, labelset, w):

label = []

data = np.mat(dataset)

a = np.ones((len(dataset), 1))

data = np.c_[data, a]

y = sigmoid(np.dot(data, w))

b, c = np.shape(y)

for i in range(b):

flag = -1

if y[i, 0] > 0.5:

flag = 1

else:

flag = 0

label.append(flag)

return label

随机选取m个样例形成子集：

def random_sampling(dataset, labelset, m):

data = []

label = []

for i in range(m):

a = random.randint(0, len(dataset) - 1)

data.append(dataset[a])

label.append(labelset[a])

return data, label

20个基学习器的训练过程：

W = []

for i in range(20):

data, label = random_sampling(dataset, labelset, 150)

w = train(data, label)

W.append(w)

集成学习的测试过程：

def jicheng_test(w, test_dataset, test_labelset):

flags = []

for i in w:

flag = test(test_dataset, test_labelset, i)

flags.append(flag)

flags = np.array(flags)

a, b = np.shape(flags)

rightcount = 0

for i in range(b):

n0 = list(flags[:,i].T).count(0)

n1 = list(flags[:,i].T).count(1)

if n0 > n1:

flag_new = 0

else:

flag_new = 1

if flag_new == test_labelset[i]:

rightcount += 1

print('预测为%d，真实为%d'%(flag_new, test_labelset[i]))

print("正确率%f"%(rightcount / len(test_dataset)))

通过集成的方式提高弱学习器的性能。

沂蒙老李爱摄影：蕉花

鹤望兰，又称天堂鸟或极乐鸟花，芭蕉科、鹤望兰属植物

分享热点排名

明日花キララ:明日花绮罗年度好评作品番号汇总

明日花キララ(明日花绮罗)经典品番作品及内容预览

推荐分享

家庭养花风水知识家庭养花“五行说”

家庭养花知识大全家庭养花有什么好处

即时知识

新手必看！草莓高产种植技术，一学就会！

鸭脚木怎么养养殖要注意什么

分享分类导航

花卉

每日分享

花卉图片

养花生活

机器学习 集成方法Bagging(Python实现)