学派

对概率的诠释有两大学派,一种是频率派另一种是贝叶斯派,后面我们对观测集采用下面记号:

$X$这个矩阵展开如下

表示有$N$个样本,每个样本都是$p$维向量,其中假设每个观测都是由 $p(x|\theta)$生成的

频率派

频率派认为$p(x|\theta)$中的$\theta$是一个未知的常量,而数据是一个随机变量,关心的是数据,目标是估计未知的常量$\theta$

常用的方法是最大似然估计

其中每个样本$x_{i}$独立同分布于$P(x \mid \theta)$,因此上面的累乘可以改写成累加的形式

贝叶斯派

贝叶斯派认为$p(x|\theta)$中的$\theta$是一个随机变量,且$\theta$服从一定的概率分$\theta\sim p(\theta)$,通常将$p(\theta)$成为先验

根据贝叶斯定理,将参数的先验后验似然函数联系起来

其中先验是$ p(\theta)$,后验是$p(\theta|X)$,似然函数为$p(\theta){p(X)}$

最大后验估计

为了估计$\theta$的值,我们使用最大后验估计MAP进行求解,其目的是找到一个$\theta$使用估计出来的结果最大

其中$\propto$是因为对于分类问题而言$p(X)$都是一样的,可以看成一个常数,严格意义上MAP并不是标准的贝叶斯方法

贝叶斯估计

真正的贝叶斯估计是实实在在的去求解后验概率

其中$\int _{\theta}p(X|\theta)\cdot p(\theta)d\theta$通常求解难度较大,因此可以随机采样算法,如蒙特卡洛MCMC算法进行近似求解

求出来的后验概率可以在贝叶斯预测时使用,假设这时候来了个新样本$\tilde{x}$,预测问题就是求$p(\tilde{x}|X)$

通过$\theta$这个桥梁,即$X \rightarrow \theta \rightarrow \tilde{x}$,上式可以变换如下

其中$p(\theta | X)$就是贝叶斯估计求出来的后验

小结

频率派贝叶斯派分别给出了一系列的机器学习算法

频率派的观点导出了一系列的统计机器学习算法,而贝叶斯派导出了概率图理论

success@频率派主要对应的问题是优化问题

频率派主要对应的问题是优化问题,通常的步骤是

  1. 定义模型
  2. 定义loss function
  3. 优化算法

贝叶斯派主要是求积分的问题

条件概率与似然函数

在极大似然估计相关博文中,出现频率最高的就是这个公式:

公式的输入分别为参数$\theta$以及结果$x$
根据$\theta$和$x$的已知或者末知的情况,该公式有两个不同的意义:

  • 当$\theta$是已知的并且保持不变,$x$是变量时,该公式描述的是在参数确定的情况下,某一事件(结果)$x$出现的概率,是概率函数
  • 当$\theta$是变量,$x$是已知的并且保持不变,该公式描述的是事件(结果)在不同$\theta$下出现的概率,是似然函数

在后面极大似然估计中,用到的是就是似然函数

在似然的意义下,$P(x \mid \theta)$还可以写成$p\left(x_{i} ; \theta\right)$,一般情况下为了特别的区分似然函数和概率函数,都会采用后面的写法

高斯分布

笔记整理自:Bilibili站上shuhuai008强势手推讲解的白板推导CRF系列课程,课程质量很高!

B站scyw读者整理的笔记

高斯分布在机器学习中占有举足轻重的作用,尤其在统计机器学习中,比如线性高斯模型

线性高斯模型是一个体系,比如卡曼滤波,隐变量服从线性高斯分布,即,其中是一个高斯噪声

其中独立同分布于$N(\mu, \Sigma)$

参数估计

高斯分布下的MLE可以表述为

这里先写出一维的高斯分布的概率密度函数

高维的高斯分布密度函数为

一维情况

假设$p=1$,$\theta=(\mu, \sigma ^2)$,将一维高斯分布的概率密度函数带入到MLE中,可以得到

求解$\mu$

我们的目标是求解参数$\theta$,这里先求解$\mu$,可以得到

对$\mu$求偏导可以得到

这里的$\mu$是无偏估计,因为如果对$\mu$求期望,可以得到

求解$\Sigma$

同理

对$\sigma$求偏导,可以得到

这里的$\mu$实际上应该时$\mu _{MLE}$,所以继续推导可以得到

上式中的$\mu$严格意义上应该是,此时有偏估计,我们对$\sigma_{M L E}^{2}$求期望可以得到

注意以上公式推导中用到了以下的公式变换

其中$E[x_i^2]-\mu^2 = Var(x_i)$的变换过程如下

$E[\mu {MLE}^2] - E^2[\mu {MLE}] = Var(\mu _{MLE})$的变换过程如下

$Var(\mu _{MLE}) = \frac {\sigma ^2}{N}$的变换过程如下

至此可以看到有偏体现在了$\frac {N-1}{N}$,其实方差被往小的方向估计了,其中

因此真实的无偏估计$\hat{\sigma}$应该是

多维情况

高维的高斯分布

高维的高斯分布密度函数为

其中$x \in \mathbb{R}^p$,是一个$p$维随机变量,$\mu$也是$p$维变量,$\Sigma$是$p \times p$维的矩阵,为协方差矩阵

一般情况下$\Sigma$是半正定的,并且是对称的,这里假设$\Sigma$是正定的,即$\lambda \gt 0$,方便后面叙述

这里$(x-\mu)^{T} \Sigma^{-1}(x-\mu)$计算出来的结果是一个数,可以看作$x$和$\mu$的马氏距离

马氏距离例子

此时马氏距离为

当$\Sigma=I$为单位矩阵时,此时马氏距离就变成了欧氏距离,即

协方差矩阵计算

对于对称的协方差矩阵$\Sigma$可进行特征值分解

其中$U = (u{1},u{2},\cdots,u_{p})$,开始推导

同理可以推得

二次型推导

接下来对二次型$\Delta=(x-\mu)^{T}\Sigma^{-1}(x-\mu)$进行推导

所以有

那么这里的马氏距离怎么理解呢,这里先令$p=2$进行分析,此时

这里的1是我们给定的,此时表示的一个椭圆

高斯分布/多维高斯分布_马氏距离

图(1)是$(x-\mu)^{T} \Sigma^{-1}(x-\mu)=r$不同值的情况,图(1)是三维下的示例图,z轴取不同值表示在xy轴上的投影,也就是图(1)的情况

如果特征值分解$\Sigma = U\Lambda U^{T}$中的$\Lambda=c$,等于一个常量时,就是图(3)的圆,当$\Sigma$是一个对角矩阵时,椭圆就变成了图(3)中的椭圆,即轴平行于xy轴

局限性

参数多

$\Sigma_{p \times p}$的参数的个数是$p^2$,由于是对称的,所以参数的个数减少约一半,变为了

即参数个数为$O(p^2)$级别

因此需要对协方差矩阵做简化

  1. 协方差矩阵为对角矩阵时,此时就不需要做特征值分解

    此时的椭圆轴平行于原来的轴

  2. 对角矩阵,并对角元素都相等

    此时的椭圆轴不仅平行于原来的轴,还变成了标准的圆,这种情况被称为各向同性

分布是单峰的

单个高斯分布是单峰的,对有多个峰的数据分布不能得到好的结果,解决方案:高斯混合GMM模型