概述
概率密度函数的估计是统计推断中一项重要的内容,而概率密度函数的估计方法分为两大类,即参数估计和非参数估计。我们简单的梳理下两种方法的思路和区别,并分别介绍两种思路下的几个具体的方法,并以介绍参数估计为主。
基本概念
参数估计和非参数估计
所谓参数估计方法和非参数估计方法都是针对概率密度函数的估计而言的。
参数估计是指已知概率密度函数的数学模型的形式,但是参数的值未知,所以使用已知样本来估计模型的参数;其中主要的方法包括最大似然估计方法和贝叶斯估计方法。非参数估计指的是概率密度函数的形式未知,或者概率密度函数不符合目前研究的任何分布模型,因此需要把概率密度函数数值化地估计出来。
由此可以看出,参数估计与非参数估计最大的区别是数学模型是否已知。
贝叶斯学派和概率学派
概率学派与贝叶斯学派的不同主要体现在他们对于参数空间的认识上。概率学派认为待估计的参数是未知但是固定的量,因此需要做的是根据观测数据估计这个量的取值;但是贝叶斯学派认为参数本身是随机变量,要做的是观测数据对于参数的分布进行估计,并且在观察数据外可以考虑参数的先验分布。这样的不同促成了最大似然估计方法和贝叶斯估计方法的不同。
更详细一点的解释,可以参考:Xiangyu Wang的回答。
其他概念
之后介绍参数估计中的几个基本的概念:
- 统计量:样本集的某种函数$ f(X) $
- 参数空间:将总体分布未知参数$\theta$的全部可容许值组成的集合称为参数空间,记为$ \Theta $
- 点估计,统计量,统计值:点估计是构造一个统计量作为参数$\theta$的估计值$\hat{\theta}$,其中$\hat{\theta}$称为$\theta$的估计量,点估计对于样本的一次实现称为估计值
参数估计
最大似然估计
基本原理
这里的最大似然估计方法与我们概率论中学习的最大似然估计方法是基本相同的。首先我们做如下基本假设:
- 需要估计的参数$\theta$是确定但未知的
- 每类样本是从密度为$p(x|\omega _i)$的总体中独立抽取出来的,即所谓满足独立同分布条件。
- 类条件密度函数$p(x|\omega _i)$具有某种确定的函数形式,只是其中的参数$\theta$未知
- 各类样本只包含本类的分布信息,即不同类别的参数是独立的。
我们假设样本集包含$N$个样本,即:
即可以得到各个样本的联合概率,即似然函数为:
最大似然函数表示的含义是在参数$\theta$下,出现已知样本集的概率。所以把使似然函数最大的$\hat{\theta}$称为$\theta$的最大似然估计量,也是我们所需要求得的值。
我们也可以将似然函数定义为对数的形式:
易证,使对数似然函数最大的$\theta$值也使似然函数最大。
最大似然估计求解
在似然函数满足连续可微的条件下,可以利用似然函数的导数或者偏导求解。
以似然函数为例:
然后利用:
可以得到$s$个方程,方程组的解为对数似然函数的极值点。当有多个极值点的时候,需要比较极值的大小才能确定最大似然估计。
需要注意的是,这种求解方法并不适合与所有的概率密度形式,例如当随机变量$x$服从均匀分布的时候,则只能解出无穷大,是无意义的。
正态分布下的最大似然估计
对于单变量正态分布函数,有两个位置参数即均值和方差,固有$\theta=[\theta_1,\theta_2]^T=[\mu,\sigma^2]$,我们利用以上思路进行分析,可以得到如下方程组:
可以解得:
多元正态分布的解与上解基本相同,只不过样本即参数为向量形式。
贝叶斯估计
贝叶斯估计与贝叶斯决策
首先需要区分一下的两个概念是贝叶斯估计与贝叶斯决策。
贝叶斯决策是我们之前学习的统计决策理论总的方法,其目的是对于待测样本进行决策,得到样本的分类结果。而贝叶斯估计则是利用样本值来计算概率密度函数模型的参数的方法,其目的是得到参数的估计量$\hat{\theta}$.
我们通常使用方法是先估计概率密度函数,然后利用统计决策方法进行判断,即所谓的基于样本的两步贝叶斯决策,所以可以理解为贝叶斯估计和贝叶斯决策是两步贝叶斯决策中的第一步和第二步,是一个先后的关系。
风险函数
在贝叶斯决策中我们有最小错误率和最小风险,同样的,在贝叶斯估计中我们也可以定义损失函数$\lambda(\hat{\theta},\theta)$,我们可以定义样本$x$下的条件风险为
我们需要做的是对所有样本求风险最小。
当我们取一下损失函数的时候:
有给定样本集$\chi$下$\theta$的贝叶斯估计量:
步骤总结
贝叶斯估计具体步骤如下:
(1)根据问题确定$\theta$的先验分布密度$p(\theta)$
(2)由于样本为独立同分布,且已知样本密度函数的形式为$p(x|\theta)$,可以得到联合分布为:
(3)利用贝叶斯公式求$\theta$的后验概率分布:
(4)得$\theta$的贝叶斯估计量为:
最大似然估计和贝叶斯估计的比较
最大似然法和贝叶斯方法选择标准:
- 方法的计算复杂度:此标准下选择最大似然法,因为ML仅涉及一些微分运算或梯度搜索技术,而Bayesian要计算非常复杂的多重积分。
- 可理解性:ML比Bayesian更易理解和掌握,因为ML结果是基于设计者所提供的训练样本的一个最佳答案,而Bayesian得到的结果则是许多可行解的加权平均,反映出对各种可行解的不确定程度。
- 通过使用全部$p(\theta|X_i)$中的信息,Bayesian方法比ML法能够利用更多有用的信息。如果这些信息可靠,有理由认为Bayesian比ML能够得到更准确的结果。在没有特别先验知识(如均匀分布)情况下,二种方法比较相似。
- 若有非常多的训练样本,使$p(\theta|X_i )$形成一个非常显著的尖峰,而先验概率$p(\theta)$又是均匀分布,从本质上来说,ML和Bayesian相同。
非参数估计
具体算法
非参数估计方法主要有Parzen窗法和$k_N$近邻估计。
其中Parzen窗法是使体积$V_N$以$N$的某个函数(如$V_N=h/\sqrt{N}$,$h$为常数)的关系不断缩小。但这时对$k_N$和$k_N/N$都要加些限制条件以使$\hat{p} _N(x)$收敛于$p(x)$。
$k_N$近邻估计是让使$k_N$为$N$的某个函数(例$K_N= N$ ),而$V_N$的选择使相应的$R_N$正好包含$x$的$K_N$个近邻。
关于两种方法的详细描述可以参考《模式识别(第三版)》。
小结
本次主要是对于非参数估计和参数估计的概念进行了区分,并且对于参数估计的最大似然估计和贝叶斯估计进行了介绍,并进行了两者在不同情况下选择的讨论。
参考
[1] 张学工,《模式识别(第三版)》