概述

一文看尽深度学习中的各种损失函数

常用的损失函数合集

深度学习常用损失函数的基本形式、原理及特点

Loss Functions

损失函数(Loss Function)是用来衡量模型预测值与真实值之间差异的函数，它是深度学习中的一个重要组成部分，用于评估模型的性能并指导模型的优化过程

损失函数、代价函数、目标函数的关系

损失函数(Loss Function)：损失函数是用来衡量模型在单个样本上的预测结果与真实标签之间的差异。它是一个标量值，表示模型预测的误差或损失程度。损失函数通常是针对单个样本计算的，例如均方误差(MSE)、交叉熵损失等。在训练过程中，通过最小化损失函数来优化模型参数，使模型的预测结果与真实标签更接近
代价函数(Cost Function)：代价函数是指整个训练集上的平均损失或误差函数。代价函数是损失函数的求和或平均，用于衡量模型在整个训练集上的预测结果与真实标签之间的总体差异。代价函数通常是在训练过程中使用的，用于计算梯度并更新模型参数
目标函数(Objective Function)：目标函数是在训练过程中要最小化或最大化的函数，可以是损失函数或代价函数。目标函数是模型训练的目标，通过优化目标函数来调整模型参数，使得模型在训练集上的性能达到最优

定义	损失函数(Loss Function)	代价函数(Cost Function)	目标函数(Objective Function)
数据集	单个样本	整个训练集	训练要优化函数

在实际应用中，损失函数、代价函数和目标函数这些术语有时会被混用，但它们都涉及到衡量模型的预测结果与真实标签之间的差异，并在训练过程中用于优化模型

损失函数大致可分为两种：回归损失(针对连续型变量)和分类损失(针对离散型变量)

具体使用哪个术语取决于上下文和个人偏好，但它们都指向类似的概念

损失函数结构图

回归损失函数

深度学习常用损失函数总览：基本形式、原理、特点

L1 Loss

L1 Loss也称为Mean Absolute Error，即平均绝对误差(MAE)，公式定义为

$J_{M A E}=\frac{1}{N} \sum_{i=1}^{N}\left|y_{i}-\hat{y}_{i}\right|$

优点: 对离群点(Outliers)或者异常值更具有鲁棒性

缺点: 由图可知其在0点处的导数不连续，使得求解效率低下，导致收敛速度慢；对于较小的损失值，其梯度也同其他区间损失值的梯度一样大，所以不利于网络的学习

MAE损失函数

模型预测与真实值之间的误差服从拉普拉斯分布Laplace distribution

可以在一定的假设下通过最大化似然可以得到MAE损失的形式，假设模型预测与真实值之间的误差服从拉普拉斯分布Laplace distribution $(\mu=0, b=1)$ ，则给定一个输入 $x_{i}$ ，模型输出真实值 $y_{i}$ 的概率为

$p\left(y_{i} \mid x_{i}\right)=\frac{1}{2} \exp \left(-\left|y_{i}-\hat{y}_{i}\right|\right)$

对其求对数可以得到的负对数似然实际上就是MAE损失的形式

$\begin{array}{l} L(x, y)=\prod_{i=1}^{N} \frac{1}{2} \exp \left(-\left|y_{i}-\hat{y}_{i}\right|\right) \\ \\ L L(x, y)=-\frac{N}{2}-\sum_{i=1}^{N}\left|y_{i}-\hat{y}_{i}\right| \\ \\ N L L(x, y)=\sum_{i=1}^{N}\left|y_{i}-\hat{y}_{i}\right| \end{array}$

L2 Loss

L2 Loss也称为Mean Squred Error，即均方差(MSE)，它衡量的是预测值与真实值之间距离的平方和

$J_{M S E}=\frac{1}{N} \sum_{i=1}^{N}\left(y_{i}-\hat{y}_{i}\right)^{2}$

优点: 收敛速度快，能够对梯度给予合适的惩罚权重，而不是一视同仁，使梯度更新的方向可以更加精确

缺点: 对异常值十分敏感，梯度更新的方向很容易受离群点所主导，不具备鲁棒性，假如我们训练数据中存在较大的异常值，此时我们将会有一个巨大的权重更新，这有可能会使模型失去平衡

MSE损失函数

在模型输出与真实值的误差服从高斯分布的假设下，最小化均方差损失函数与极大似然估计本质上是一致的

MSE假设了误差服从高斯分布，在高斯分布假设下，可以使用最大化似然得到均方差损失的形式，假设模型预测与真实值之间的误差服从标准高斯分布 $(\mu=0, \sigma=1)$ ，则给定一个输入 $x_{i}$ ，模型输出真实值 $y_{i}$ 的概率为

$p\left(y_{i} \mid x_{i}\right) = \frac{1}{\sigma \sqrt{2 \pi}} \exp \left[-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right] =\frac{1}{\sqrt{2 \pi}} \exp \left(-\frac{\left(y_{i}-\hat{y}_{i}\right)^{2}}{2}\right)$

进一步我们假设数据集中 $\mathrm{N}$ 个样本点之间相互独立，则给定所有 $x$ 输出所有真实值 $y$ 的概率，即似然Likelihood为所有 $p\left(y_{i} \mid x_{i}\right)$ 的累乘

$L(x, y)=\prod_{i=1}^{N} \frac{1}{\sqrt{2 \pi}} \exp \left(-\frac{\left(y_{i}-\hat{y}_{i}\right)^{2}}{2}\right)$

通常为了计算方便，我们通常最大化对数似然Log-Likelihood

$L L(x, y)=\log (L(x, y))=-\frac{N}{2} \log 2 \pi-\frac{1}{2} \sum_{i=1}^{N}\left(y_{i}-\hat{y}_{i}\right)^{2}$

去掉与 $\hat{y}_{i}$ 无关的第一项，然后转化为最小化负对数似然Negative Log-Likelihood

$N L L(x, y)=\frac{1}{2} \sum_{i=1}^{N}\left(y_{i}-\hat{y}_{i}\right)^{2}$

可以看到这个实际上就是均方差损失的形式，也就是说在模型输出与真实值的误差服从高斯分布的假设下，最小化均方差损失函数与极大似然估计本质上是一致的

因此在这个假设能被满足的场景中(比如回归)，均方差损失是一个很好的损失函数选择

当这个假设没能被满足的场景中(比如分类)，均方差损失不是一个好的选择

MAE和MSE作为损失函数的主要区别是

MSE损失相比MAE通常可以更快地收敛

当使用梯度下降算法时，MSE的梯度为 $-\hat{y_{i}}$ ，而MAE损失的梯度为 $\pm 1$ ，即MSE的梯度的scale会随误差大小变化，而MAE的梯度的scale则一直保持为1，即便在绝对误差 $\left|y_{i}-\hat{y_{i}}\right|$ 很小的时候，MAE的梯度scale也同样为1，这实际上是非常不利于模型的训练的

当然你可以通过在训练过程中动态调整学习率缓解这个问题，但是总的来说，损失函数梯度之间的差异导致了MSE在大部分时候比MAE收敛地更快，这也是MSE更为流行的原因
MAE损失对于outlier更加健壮，即更加不易受到outlier影响，当误差非常大的时候，MSE损失会远远大于MAE损失
MSE假设了误差服从高斯分布，MAE假设了误差服从拉普拉斯分布，拉普拉斯分布本身对于outlier更加robust

适用场景

Smooth L1 Loss

pytorch SMOOTHL LOSS

Smooth L1 Loss即平滑的L1损失(SLL)，出自Fast RCNN，也称为SLL，Smooth L1 loss也具备了L1 loss和L2 loss各自的优点，本质就是L1和L2的组合

$J_{SLL} =\left\{ \begin{array}{ll}0.5\left(y_{i}-\hat{y}_{i}\right)^{2} / \beta , & \text { if }\left|y_{i}-\hat{y}_{i}\right|< \beta \\ \left|y_{i}-\hat{y}_{i}\right|-0.5 * \beta, & \text { otherwise } \end{array}\right.$

Huber Loss

pytorch Huber LOSS

Huber Loss是一种类似于Smooth L1 Loss的损失函数，它也能够平衡L2范数和L1范数之间的权衡

Huber loss和Smooth L1 loss具有相同的曲线走势，当Huber loss中的δ等于1时，Huber loss等价于Smooth L1 loss

$J_{HL} =\left\{ \begin{array}{ll}0.5\left(y_{i}-\hat{y}_{i}\right)^{2} , & \text { if }\left|y_{i}-\hat{y}_{i}\right|< \delta \\ \delta * \left|y_{i}-\hat{y}_{i}\right|-0.5 * \delta, & \text { otherwise } \end{array}\right.$

对于Huber损失来说， $\delta$ 的选择十分重要，它决定了模型处理局外点的行为。当残差大于 $\delta$ 时使用L1损失，很小时则使用更为合适的L2损失来进行优化

Huber损失函数

优点

零点导数连续: Huber损失函数克服了MAE和MSE的缺点，不仅可以保持损失函数具有连续的导数
解决离群点梯度爆炸的问题: 利用MSE梯度随误差减小的特性来得到更精确的最小值，也对局外点具有更好的鲁棒性

但Huber损失函数的良好表现得益于精心训练的超参数 $\delta$ ，当 $\delta$ 趋向于0时它就退化成了MAE，而当 $\delta$ 趋向于无穷时则退化为了MSE

Quantile Loss

分位数回归Quantile Regression是一类在实际应用中非常有用的回归算法，通常的回归算法是拟合目标值的期望或者中位数，而分位数回归可以通过给定不同的分位点，拟合目标值的不同分位数

IoU Loss

UnitBox: An Advanced Object Detection Network 2016

IOU loss公式可视化

分类损失函数

Binary Cross Entropy

简单的交叉熵损失函数，你真的懂了吗

对于分类问题，最常用的损失函数是交叉熵损失函数Cross Entropy Loss

考虑二分类，在二分类中我们通常使用Sigmoid函数将模型的输出压缩到 $(0,1)$ 区间内 $\hat{y_{i}} \in(0,1)$ ，用来代表给定输入 $x_{i}$ ，模型判断为正类的概率

由于只有正负两类，因此同时也得到了负类的概率

$\begin{array}{l} p\left(y_{i}=1 \mid x_{i}\right)=\hat{y_{i}} \\ p\left(y_{i}=0 \mid x_{i}\right)=1-\hat{y_{i}} \end{array}$

将两条式子合并成一条

$p\left(y_{i} \mid x_{i}\right)=\left(\hat{y}_{i}\right)^{y_{i}}\left(1-\hat{y}_{i}\right)^{1-y_{i}}$

假设数据点之间独立同分布，则似然可以表示为

$L(x, y)=\prod_{i=1}^{N}\left(\hat{y}_{i}\right)^{y_{i}}\left(1-\hat{y}_{i}\right)^{1-y_{i}}$

对似然取对数，然后加负号变成最小化负对数似然，即为交叉熵损失函数的形式

$N L L(x, y)=J_{C E}=-\sum_{i=1}^{N}\left(y_{i} \log \left(\hat{y}_{i}\right)+\left(1-y_{i}\right) \log \left(1-\hat{y_{i}}\right)\right)$

可视化

下图是对二分类的交叉熵损失函数的可视化，蓝线是目标值为0时输出不同输出的损失，黄线是目标值为1时的损失

二分类的交叉熵损失函数的可视化

可以看到约接近目标值损失越小，随着误差变差，损失呈指数增长

图中蓝线是 $y_i=0$ 的图线，此时损失函数变为

$J_{CE} = -log(1-\hat{y_{i}})$

图中黄线是 $y_i=1$ 的图线，此时损失函数变为

$J_{CE} = -log (\hat{y_{i}})$

从图形中我们可以发现：预测输出与 $y$ 差得越多， $J_{CE}$ 的值越大，也就是说对当前模型的惩罚越大，而且是非线性增大，是一种类似指数增长的级别

这是由log函数本身的特性所决定的，这样的好处是模型会倾向于让预测输出更接近真实样本标签 $y$

Cross Entropy Loss

交叉熵损失函数（CrossEntropy Loss）

在多分类的任务中，交叉熵损失函数的推导思路和二分类是一样的，变化的地方主要有两个

维度变化: 真实值 $y_{i}$ 现在是一个one-hot向量
激活函数: 模型输出的最后的激活函数由原来的Sigmoid函数换成Softmax函数

Cross Entropy Loss损失函数

为什么分类用交叉熵损失，而不是均方差损失

均方差损失实际上均方差损失假设了误差服从高斯分布，在分类任务下这个假设没办法被满足，因此效果会很差

为什么是交叉熵损失呢? 有两个角度可以解释这个事情，一个角度从最大似然的角度，另一个角度是可以用信息论来解释交叉熵损失

最大似然角度

Softmax函数将每个维度的输出范围都限定在 $(0,1)$ 之间，同时所有维度的输出和为1，用于表示一个概率分布

$p\left(y_{i} \mid x_{i}\right)=\prod_{k=1}^{K}\left(y_{i}^{k}\right)^{y_{i}^{k}}$

其中 $k \in K$ 表示 $\mathrm{K}$ 个类别中的一类，同样的假设数据点之间独立同分布，可得到负对数似然为

$N L L(x, y)=J_{C E}=-\sum_{i=1}^{N} \sum_{k=1}^{K} y_{i}^{k} \log \left(y_{i}^{k}\right)$

由于 $y_{i}$ 是一个one-hot向量，除了目标类为1之外其他类别上的输出都为0，因此上式也可以写为

$J_{C E}=-\sum_{i=1}^{N} y_{i}^{c_{i}} \log \left(y_{i}^{\hat{c}_{i}}\right)$

其中 $c_{i}$ 是样本 $x_{i}$ 的目标类。通常这个应用于多分类的交叉樀损失函数也被称为Softmax Loss或者Categorical Cross Entropy Loss

信息论角度

假设对于样本 $x_{i}$ 存在一个最优分布 $y_{i}^{\star}$ 真实地表明了这个样本属于各个类别的概率，那么我们希望模型的输出 $\hat{y}_{i}$ 尽可能地逼近这个最优分布

在信息论中，我们可以使用KL散度(Kullback-Leibler Divergence)来衡量两个分布的相似性

给定分布 $p$ 和分布 $q$ ，两者的KL散度公式如下

$K L(p, q)=\sum_{k=1}^{K} p^{k} \log \left(p^{k}\right)-\sum_{k=1}^{K} p^{k} \log \left(q^{k}\right)$

其中第一项为分布 $p$ 的信息熵，第二项为分布 $p$ 和 $q$ 的交叉熵。将最优分布 $y_{i}^{\star}$ 和输出分布 $\hat{y}_{i}$ 带入 $p$ 和 $q$ 得到

$K L\left(y_{i}^{\star}, \hat{y_{i}}\right)=\sum_{k=1}^{K} y_{i}^{\star k} \log \left(y_{i}^{\star k}\right)-\sum_{k=1}^{K} y_{i}^{\star k} \log \left(y_{i}^{\hat{k}}\right)$

由于我们希望两个分布尽量相近，因此我们最小化KL散度。同时由于上式第一项信息熵仅与最优分布本身相关，因此我们在最小化的过程中可以忽略掉，变成最小化

$-\sum_{k=1}^{K} y_{i}^{\star k} \log \left(y_{i}^{\hat{k}}\right)$

我们并不知道最优分布 $y_{i}^{\star}$ ，但训练数据里面的目标值 $y_{i}$ 可以看做是 $y_{i}^{\star}$ 的一个近似分布

$-\sum_{k=1}^{K} y_{i}^{k} \log \left(y_{i}^{\hat{k}}\right)$

这个是针对单个训练样本的损失函数，如果考虑整个数据集，则

$J_{K L}=-\sum_{i=1}^{N} \sum_{k=1}^{K} y_{i}^{k} \log \left(y_{i}^{\hat{k}}\right)=-\sum_{i=1}^{N} y_{i}^{c_{i}} \log \left(y_{i}^{\hat{c}_{i}}\right)$

可以看到通过最小化交叉嫡的角度推导出来的结果和使用最大化似然得到的结果是一致的

Hinge Loss

合页损失Hinge Loss是另外一种二分类损失函数，适用于maximum-margin的分类，支持向量机Support Vector Machine (SVM)模型的损失函数本质上就是Hinge Loss + L2正则化

$J_{\text {hinge }}=\sum_{i=1}^{N} \max \left(0,1-\operatorname{sgn}\left(y_{i}\right) \hat{y_{i}}\right)$

下图是 $y$ 为正类，即 $sgn(y)=1$ 时，不同输出的合页损失示意图

Hinge Loss损失函数

可以看到当 $y$ 为正类时，模型输出负值会有较大的惩罚，当模型输出为正值且在区间时还会有一个较小的惩罚

即合页损失不仅惩罚预测错的，并且对于预测对了但是置信度不高的也会给一个惩罚，只有置信度高的才会有零损失

使用合页损失直觉上理解是要找到一个决策边界，使得所有数据点被这个边界正确地、高置信地被分类

Focal Loss

Focal Loss for Dense Object Detection 2018

ppt: Focal Loss for Dense Object Detection

Focal Loss损失函数(超级详细的解读)

Focal loss损失函数是为了解决one-stage目标检测中正负样本极度不平衡的问题，由何恺明(Kaiming He)团队提出

Focal loss是基于BCE(二分类交叉熵)的。它是一个动态缩放的交叉熵损失，通过一个动态缩放因子，可以动态降低训练过程中易区分样本的权重，从而将重心快速聚焦在那些难区分的样本(有可能是正样本，也有可能是负样本，但都是对训练网络有帮助的样本)

正负样本不平衡(Class Imbalance)

在一张图像中能够匹配到目标的候选框(正样本)个数一般只有十几个或几十个，而没有匹配到的候选框(负样本)则有10000~100000个

这么多的负样本不仅对训练网络起不到什么作用，反而会淹没掉少量但有助于训练的样本

Focal loss是为了解决一阶段目标检测模型，那为什么二阶段不用解决

在two-stage中分了两步，第一步时同样也会生成许多的负样本以及很少的正样本，但到第二步时，它会在第一步的基础上选取特定数量的正负样本去检测，所以正负样本并不会特别不平衡，二阶段模型还可以采用更复杂的采样策略和hard negative mining (难例挖掘)等方法来处理样本不平衡和难易样本的问题，因此对于二阶段目标检测模型来说，Focal Loss的优势可能相对较小

引出Focal loss

为了方便接下来的描述，这里先定义 $p_t$ 为

$p_{\mathrm{t}}=\left\{\begin{array}{ll}p & \text { if } y=1 \\ 1-p & \text { otherwise }\end{array}\right.$

此时cross entropy可以定义为

$J_{FL}(p, y)=\left\{\begin{array}{ll}-\log (p) & \text { if } y=1 \\ -\log (1-p) & \text { otherwise }\end{array}\right. \longrightarrow J_{FL}(p, y)=J_{FL}\left(p_{\mathrm{t}}\right)=-\log \left(p_{\mathrm{t}}\right)$

解决类别不平衡的常见方法是为类别1引入一个权重因子 $\alpha \in [0, 1]$ ，而对于类别非1引入权重因子 $1-\alpha$ ，这里引出Balanced Cross Entropy(平衡交叉熵)

$J_{FL}\left(p_{\mathrm{t}}\right)=-\alpha_{\mathrm{t}} \log \left(p_{\mathrm{t}}\right)$

在论文实验中显示，密集检测器训练过程中遇到的类别不平衡问题使得交叉熵损失失去了效果，易于分类的负样本占据了大部分损失并主导了梯度

虽然 $\alpha$ 平衡了正样本和负样本的重要性，但它无法区分易于和困难的样本

因此，论文提出了新的损失函数以减小易于样本的权重，从而将训练的重点放在困难的负样本上，更具体地说，论文提出在交叉熵损失中添加一个调制因子 $\left(1-p_{\mathrm{t}}\right)^{\gamma}$ ，其中 $\gamma$ 是可调的Focal参数。我们将这个损失函数称为Focal loss，定义Focal Loss公式如下

$J_{FL}\left(p_{\mathrm{t}}\right) = - \alpha_{t} \left(1-p_{\mathrm{t}}\right)^{\gamma} \log \left(p_{\mathrm{t}}\right)$

其中 $\gamma$ 作用是调节难易，较小的 $\gamma$ 值会使得易样本的损失权重下降更慢，而较大的 $\gamma$ 值则会加速易样本的损失权重下降

而 $\alpha$ 作用是平衡正负样(正负样本数量不均衡)，当 $\alpha$ 接近0时，负样本的损失贡献被放大，从而平衡了正负样本之间的重要性

通过调整 $\alpha$ 和 $\gamma$ 的值，可以根据具体情况调节模型对不同样本的关注程度，提高模型对难样本的学习和训练效果

可视化

下图可视化了 $\gamma \in[0,5]$ 的值，可以观察到

增加了分类不准确样本在损失函数中的权重
增加了难分样本在损失函数的权重，使得损失函数倾向于难分的样本，有助于提高难分样本的准确度

Focal Loss在不同Upsilon下的损失曲线

$\gamma$$作用是调节难易样本对于总loss的权重(正负样本中都有难易，都进行了调节) $$\gamma$$调节简单样本权重降低的速率，当$$\gamma=0$$时即为交叉熵损失函数，当$$\gamma$$增加时，调整因子的影响也在增加。实验发现$$\gamma=2$$是最优 # 基于概率的损失 ## KL散度 KL-散度损失函数的定义如下$

J{KL} = -\sum{i=0}^{C} y{i} \log \left(\hat{y}{i}\right)-y{i} \log \left(y{i}\right)=\sum{i=0}^{C} y{i}\left(\frac{y{i}}{\hat{y}{i}}\right)

$$
优点：