高斯分布相关算法
学派
对概率的诠释有两大学派,一种是频率派另一种是贝叶斯派,后面我们对观测集采用下面记号:
$X$这个矩阵展开如下
表示有$N$个样本,每个样本都是$p$维向量,其中假设每个观测都是由 $p(x|\theta)$生成的
频率派
频率派认为$p(x|\theta)$中的$\theta$是一个未知的常量,而数据是一个随机变量,关心的是数据,目标是估计未知的常量$\theta$
常用的方法是最大似然估计
其中每个样本$x_{i}$独立同分布于$P(x \mid \theta)$,因此上面的累乘可以改写成累加的形式
贝叶斯派
贝叶斯派认为$p(x|\theta)$中的$\theta$是一个随机变量,且$\theta$服从一定的概率分$\theta\sim p(\theta)$,通常将$p(\theta)$成为先验
根据贝叶斯定理,将参数的先验
和后验
用似然函数
联系起来
其中先验是$ p(\theta)$,后验是$p(\theta|X)$,似然函数为$p(\theta){p(X)}$
最大后验估计
为了估计$\theta$的值,我们使用最大后验估计MAP
进行求解,其目的是找到一个$\theta$使用估计出来的结果最大
其中$\propto$是因为对于分类问题而言$p(X)$都是一样的,可以看成一个常数,严格意义上MAP并不是标准的贝叶斯方法
贝叶斯估计
真正的贝叶斯估计
是实实在在的去求解后验概率
其中$\int _{\theta}p(X|\theta)\cdot p(\theta)d\theta$通常求解难度较大,因此可以随机采样算法,如蒙特卡洛
MCMC算法进行近似求解
求出来的后验概率可以在贝叶斯预测
时使用,假设这时候来了个新样本$\tilde{x}$,预测问题就是求$p(\tilde{x}|X)$
通过$\theta$这个桥梁,即$X \rightarrow \theta \rightarrow \tilde{x}$,上式可以变换如下
其中$p(\theta | X)$就是贝叶斯估计求出来的后验
小结
频率派
和贝叶斯派
分别给出了一系列的机器学习算法
频率派的观点导出了一系列的统计机器学习
算法,而贝叶斯派导出了概率图
理论
频率派主要对应的问题是优化问题,通常的步骤是
- 定义模型
- 定义loss function
- 优化算法
贝叶斯派主要是求积分的问题
条件概率与似然函数
在极大似然估计相关博文中,出现频率最高的就是这个公式:
公式的输入分别为参数$\theta$以及结果$x$
根据$\theta$和$x$的已知或者末知的情况,该公式有两个不同的意义:
- 当$\theta$是已知的并且保持不变,$x$是变量时,该公式描述的是在参数确定的情况下,某一事件(结果)$x$出现的概率,是
概率函数
- 当$\theta$是变量,$x$是已知的并且保持不变,该公式描述的是事件(结果)在不同$\theta$下出现的概率,是
似然函数
在后面极大似然估计中,用到的是就是似然函数
在似然的意义下,$P(x \mid \theta)$还可以写成$p\left(x_{i} ; \theta\right)$,一般情况下为了特别的区分似然函数和概率函数,都会采用后面的写法
高斯分布
笔记整理自:Bilibili站上shuhuai008强势手推讲解的白板推导CRF系列课程,课程质量很高!
高斯分布在机器学习中占有举足轻重的作用,尤其在统计机器学习中,比如线性高斯模型
线性高斯模型是一个体系,比如卡曼滤波
,隐变量服从线性高斯分布,即,其中是一个高斯噪声
其中,独立同分布于$N(\mu, \Sigma)$
参数估计
高斯分布下的MLE可以表述为
这里先写出一维的高斯分布的概率密度函数
高维的高斯分布密度函数为
一维情况
假设$p=1$,$\theta=(\mu, \sigma ^2)$,将一维高斯分布的概率密度函数带入到MLE中,可以得到
求解$\mu$
我们的目标是求解参数$\theta$,这里先求解$\mu$,可以得到
对$\mu$求偏导可以得到
这里的$\mu$是无偏估计
,因为如果对$\mu$求期望,可以得到
求解$\Sigma$
同理
对$\sigma$求偏导,可以得到
这里的$\mu$实际上应该时$\mu _{MLE}$,所以继续推导可以得到
上式中的$\mu$严格意义上应该是,此时是有偏估计
,我们对$\sigma_{M L E}^{2}$求期望可以得到
注意以上公式推导中用到了以下的公式变换
其中$E[x_i^2]-\mu^2 = Var(x_i)$的变换过程如下
$E[\mu {MLE}^2] - E^2[\mu {MLE}] = Var(\mu _{MLE})$的变换过程如下
$Var(\mu _{MLE}) = \frac {\sigma ^2}{N}$的变换过程如下
至此可以看到有偏体现在了$\frac {N-1}{N}$,其实方差被往小的方向估计了,其中
因此真实的无偏估计
$\hat{\sigma}$应该是
多维情况
高维的高斯分布
高维的高斯分布密度函数为
其中$x \in \mathbb{R}^p$,是一个$p$维随机变量,$\mu$也是$p$维变量,$\Sigma$是$p \times p$维的矩阵,为协方差矩阵
一般情况下$\Sigma$是半正定的,并且是对称的,这里假设$\Sigma$是正定的,即$\lambda \gt 0$,方便后面叙述
这里$(x-\mu)^{T} \Sigma^{-1}(x-\mu)$计算出来的结果是一个数,可以看作$x$和$\mu$的马氏距离
马氏距离例子
设
此时马氏距离为
当$\Sigma=I$为单位矩阵时,此时马氏距离就变成了欧氏距离
,即
协方差矩阵计算
对于对称的协方差矩阵$\Sigma$可进行特征值分解
其中$U = (u{1},u{2},\cdots,u_{p})$,开始推导
同理可以推得
二次型推导
接下来对二次型$\Delta=(x-\mu)^{T}\Sigma^{-1}(x-\mu)$进行推导
令
所以有
那么这里的马氏距离怎么理解呢,这里先令$p=2$进行分析,此时
这里的1是我们给定的,此时表示的一个椭圆
图(1)是$(x-\mu)^{T} \Sigma^{-1}(x-\mu)=r$不同值的情况,图(1)是三维下的示例图,z轴取不同值表示在xy轴上的投影,也就是图(1)的情况
如果特征值分解$\Sigma = U\Lambda U^{T}$中的$\Lambda=c$,等于一个常量时,就是图(3)的圆,当$\Sigma$是一个对角矩阵时,椭圆就变成了图(3)中的椭圆,即轴平行于xy轴
局限性
参数多
$\Sigma_{p \times p}$的参数的个数是$p^2$,由于是对称的,所以参数的个数减少约一半,变为了
即参数个数为$O(p^2)$级别
因此需要对协方差矩阵做简化
协方差矩阵为对角矩阵时,此时就不需要做特征值分解
此时的椭圆轴平行于原来的轴
对角矩阵,并对角元素都相等
此时的椭圆轴不仅平行于原来的轴,还变成了标准的圆,这种情况被称为
各向同性
分布是单峰的
单个高斯分布是单峰的,对有多个峰的数据分布不能得到好的结果,解决方案:高斯混合GMM
模型