首页 > 分享 > 有了K均值聚类，为什么还需要DBSCAN聚类算法？

有了K均值聚类，为什么还需要DBSCAN聚类算法？

全文共3138字，预计学习时长16分钟

图源：unsplash

聚类分析是一种无监督学习法，它将数据点分离成若干个特定的群或组，使得在某种意义上同一组中的数据点具有相似的性质，不同组中的数据点具有不同的性质。

聚类分析包括基于不同距离度量的多种不同方法。例如。K均值（点之间的距离）、Affinity propagation（图之间的距离）、均值漂移（点之间的距离）、DBSCAN（最近点之间的距离）、高斯混合（到中心的马氏距离）、谱聚类（图之间距离）等。

有了K均值聚类，为什么还需要DBSCAN聚类算法？

2014年，DBSCAN算法在领先的数据挖掘会议ACM SIGKDD上获得the testof time奖（授予在理论和实践中受到广泛关注的算法）。

所有聚类法都使用相同的方法，即首先计算相似度，然后使用相似度将数据点聚类为组或群。本文将重点介绍具有噪声的基于密度的聚类方法（DBSCAN）。

既然已经有了K均值聚类，为什么还需要DBSCAN这样的基于密度的聚类算法呢？

K均值聚类可以将松散相关的观测聚类在一起。每一个观测最终都成为某个聚类的一部分，即使这些观测在向量空间中分散得很远。由于聚类依赖于聚类元素的均值，因此每个数据点在形成聚类中都起着作用。

数据点的轻微变化可能会影响聚类结果。由于聚类的形成方式，这个问题在DBSCAN中大大减少。这通常不是什么大问题，除非遇到一些具有古怪形状的数据。

使用K均值的另一个困难是需要指定聚类的数量（“k”）以便使用。很多时候不会预先知道什么是合理的k值。

DBSCAN的优点在于，不必指定使用它的聚类数量。需要的只是一个计算值之间距离的函数，以及一些将某些距离界定为“接近”的指令。在各种不同的分布中，DBSCAN也比K均值产生更合理的结果。下图说明了这一事实:

有了K均值聚类，为什么还需要DBSCAN聚类算法？

基于密度的聚类算法

基于密度的聚类是无监督学习法，基于数据空间中的聚类是高点密度的连续区域，通过低点密度的连续区域与其他此类聚类分离，来识别数据中独特的组/聚类。

具有噪声的基于密度的聚类方法(DBSCAN)是基于密度聚类的一种基本算法。它可以从大量的数据中发现不同形状和大小的聚类，这些聚类中正包含着噪声和异常值。

DBSCAN算法使用以下两种参数：

· eps (ε)：一种距离度量，用于定位任何点的邻域内的点。

· minPts：聚类在一起的点的最小数目（一个阈值），使一个区域界定为密集。

如果探究

分享热点排名

新手必看！草莓高产种植技术，一学就会！

鸭脚木怎么养养殖要注意什么

分享分类导航

花卉

每日分享

花卉图片

养花生活