KL 散度(Kullback–Leibler divergence)用于衡量两个概率分布之间的差异。值越小,表示两个分布越接近。
离散形式:
连续形式:
特点:
(1) 非对称性, 根据定义显而易见:
(2)非负性,当两个分布完全相同时,其值=0,最小;
(3)不满足三角不等式性;
交叉熵一般作为多分类问题的损失函数, 定义如下:
离散形式:
D K L ( p ∣ ∣ q ) = − H ( p ) + H ( p , q ) D_{KL}(p||q)=-H(p)+H(p,q) DKL(p∣∣q)=−H(p)+H(p,q), 推导如下:
从这个关系也可以推测在分类任务中一般使用交叉熵作为损失函数的原因:目标是训练模型使得模型拟合的分布于数据的真实分布差异尽可能小,自然想到KL散度,然后,数据集的真实标记是确定的,也就是 H ( P ) H(P) H(P)实际上为常数,因此最小化交叉熵即可。
JS散度度量两个概率分布的差异度,它基于KL散度的变体,解决了KL散度非对称的问题,其取值是 0 到 1 之间。
定义如下:
J S ( p ∣ ∣ q ) = 1 2 K L ( p , p + q 2 ) + 1 2 K L ( q , p + q 2 ) JS(p||q)=frac{1}{2}KL(p, frac{p+q}{2})+frac{1}{2}KL(q, frac{p+q}{2}) JS(p∣∣q)=21KL(p,2p+q)+21KL(q,2p+q)
Wasserstein-1距离又叫做Earth-Mover (EM)distance, 定义如下:
其中Π(Pr,Pg)表示边际分别为Pr和Pg的所有联合分布γ(x,y)的集合。 直观地,γ(x,y)表示从x到y必须传输多少“质量”才能将分布Pr转换为分布Pg。 EM距离就是最佳运输计划的“成本”。
Wasserstein-1距离 相比于KL divergence和JS divergence的优势在于: 即使两个分布没有重叠,Wasserstein-1距离仍然能够反映他们的远近。而KL散度和JS散度度量在两个分布完全没有重叠的时候存在的问题是:KL散度值是没有意义,JS散度值是一个常数。这就意味这这一点的梯度为 0。梯度消失了,根本无法训练。
1.Wasserstein GAN
2.https://blog.csdn.net/Avery123123/article/details/102681688
未完待续…
相关知识
聚类效果评估指标总结
基于sklearn的聚类算法的聚类效果指标
【机器学习】应用KNN实现鸢尾花种类预测
概率统计方差分析
基于品质指标的苹果浊汁品种与产地差异性分析
城市绿地的小气候效应空间差异性——以大连市为例
数理统计:鸢尾花数据的聚类分析和判别分析
植被指数总结(作业)
苹果花期冻害气象指标和风险评估
谷歌出品!机器学习常用术语总结
网址: 度量两个概率分布差异性/距离的指标总结 https://m.huajiangbk.com/newsview1351216.html
上一篇: 长江水体常量和微量元素的来源、分 |
下一篇: 黄莺花与加拿大一枝黄花有何不同 |