首页 > 分享 > KNN算法分类算法

KNN算法分类算法

花匠小妙招
2024-11-06 23:36

import numpy as np

import pandas as pd

data = pd.read_csv('iris.csv',header=0)

data['Species'] = data['Species'].map({'Iris-virginica':0,'Iris-setosa':1,'Iris-versicolor':2})

data.sample(10)

data.drop("id",axis=1,inplace=True)

data.duplicated().any()

data.drop_duplicates(inplace=True)

data['Species'].value_counts()

data

class KNN:

"""使用python实现K近邻算法"""

def __init__(self,k):

"""初始化方法

Parameters:

----

k:int

邻居的个数

"""

self.k = k

def fit(self, X, y):

"""训练方法

Parameters

----

X：类似数组类型，list，ndarray……形状：[样本的数量，特征的数量]

y：类似数组类型，形状为[样本数量]

每个样本的目标值，也是就是标签

"""

self.X = np.asarray(X)

self.y = np.asarray(y)

def predict(self, X):

"""根据参数传递的样本，对样本数据进行预测，返回预测之后的结果

Parameters

----

X：类似数组类型，list，ndarray……形状：[样本的数量，特征的数量]

Return

----

result：数类型，预测的结果。

"""

X = np.asarray(X)

result = []

for x in X:

dis = np.sqrt(np.sum((x - self.X) ** 2,axis = 1))

index = dis.argsort()

index = index[:self.k]

count = np.bincount(self.y[index])

result.append(count.argmax())

return np.asarray(result)

def predict2(self, X):

"""根据参数传递的样本，对样本数据进行预测(考虑权重，使用距离的倒数作为权重)，返回预测之后的结果

Parameters

----

X：类似数组类型，list，ndarray……形状：[样本的数量，特征的数量]

Return

----

result：数类型，预测的结果。

"""

X = np.asarray(X)

result = []

for x in X:

dis = np.sqrt(np.sum((x - self.X) ** 2,axis = 1))

index = dis.argsort()

index = index[:self.k]

count = np.bincount(self.y[index],weights=1/dis[index])

result.append(count.argmax())

return np.asarray(result)

t0 = data[data['Species']==0]

t1 = data[data['Species']==1]

t2 = data[data['Species']==2]

t0 = t0.sample(len(t0),random_state=0)

t1 = t1.sample(len(t1),random_state=0)

t2 = t2.sample(len(t2),random_state=0)

train_X = pd.concat([t0.iloc[:40,:-1],t1.iloc[:40,:-1],t2.iloc[:40,:-1]],axis=0)

train_Y = pd.concat([t0.iloc[:40,-1],t1.iloc[:40,-1],t2.iloc[:40,-1]],axis=0)

test_X = pd.concat([t0.iloc[40:,:-1],t1.iloc[40:,:-1],t2.iloc[40:,:-1]],axis=0)

test_Y = pd.concat([t0.iloc[40:,-1],t1.iloc[40:,-1],t2.iloc[40:,-1]],axis=0)

knn = KNN(k=3)

knn.fit(train_X,train_Y)

result = knn.predict(test_X)

display(np.sum(result == test_Y))

import matplotlib as mpl

import matplotlib.pyplot as plt

mpl.rcParams['font.family'] = 'SimHei'

mpl.rcParams['axes.unicode_minus'] = False

plt.figure(figsize=(10,10))

plt.scatter(x=t0['SepalLengthCm'][:40],y=t0['PetalLengthCm'][:40],color='r',label='Iris-virginica')

plt.scatter(x=t1['SepalLengthCm'][:40],y=t1['PetalLengthCm'][:40],color='g',label='Iris-setosa')

plt.scatter(x=t2['SepalLengthCm'][:40],y=t2['PetalLengthCm'][:40],color='b',label='Iris-versicolor')

right = test_X[result == test_Y]

wrong = test_X[result != test_Y]

plt.scatter(x=right['SepalLengthCm'],y=right['PetalLengthCm'],color='c',marker='x',label='right')

plt.scatter(x=wrong['SepalLengthCm'],y=wrong['PetalLengthCm'],color='m',marker='>',label='wrong')

plt.xlabel("花萼长度")

plt.ylabel("花瓣长度")

plt.title("KNN分类显示结果")

plt.legend(loc="best")

plt.show()

2026抖音流行食品趋势揭秘

《烘焙品类发展报告2025》：健康便捷与情绪价值并驱，本土创新引领烘焙千亿赛道升级

分享热点排名

明日花キララ:明日花绮罗年度好评作品番号汇总

明日花キララ(明日花绮罗)经典品番作品及内容预览

推荐分享

家庭养花风水知识家庭养花“五行说”

家庭养花知识大全家庭养花有什么好处

即时知识

新手必看！草莓高产种植技术，一学就会！

鸭脚木怎么养养殖要注意什么

分享分类导航

花卉

每日分享

花卉图片

养花生活

KNN算法分类算法

2026抖音流行食品趋势揭秘

《烘焙品类发展报告2025》：健康便捷与情绪价值并驱，本土创新引领烘焙千亿赛道升级

明日花キララ:明日花绮罗年度好评作品番号汇总

明日花キララ(明日花绮罗)经典品番作品及内容预览

家庭养花风水知识 家庭养花“五行说”

家庭养花知识大全 家庭养花有什么好处

家庭养花风水知识家庭养花“五行说”

家庭养花知识大全家庭养花有什么好处