概述
贝叶斯决策理论是机器学习中一个比较重要的组成部分,贝叶斯学派的思想对于机器学习的影响也比较深远。之间根据西瓜书学习过一些贝叶斯决策理论相关的知识,并写过一个简单的程序。这个对于其理论方法做进一步的学习。主要参考张学工的《模式识别(第三版)》。
基本概念
三个概率
首先熟悉下贝叶斯决策的三个概率:
先验概率:从以往的数据分析中得到的经验值;即根据大量统计确定某类事物出现的比例。
类条件概率密度函数:同一类事物的各个属性都有一定的变化范围,在这些变化范围内的分布概率用一种函数形式表示,则称为类条件概率密度函数。(这种分
布密度只对同一类事物而言,与其它类事物没有关系。为了强调是同一类事物内部,因此这种分布密度函数往往表示成条件概率的形式。)
后验概率:得到信息之后,对以往数据加以修正的概率(一般也是条件概率);或一个具体事物属于某种类别的概率。需要注意的是,后验概率与先验概率也不同,后验概率涉及一个具体事物,而先验概率是泛指一类事物。
判定函数
对于判定函数的概念可以不要理解的那么死板,它可以是针对某一个判定的类别而言的,也可以是前者之间的差。此处我们假设为简单的二分类问题,并以差的形式进行描述,有一下四种常用的形式:
后验概率形式:$ g(x) = P(\omega _1 | x) - P(\omega _2 |x) $
类条件概率密度形式: $ g(x) = P(x | \omega _1)P(\omega _1) - P(x | \omega _2)P(\omega _2) $
似然比形式: $ g(x) = \frac{P(x | \omega_1)}{ P(x | \omega _2) } - \frac{P(\omega _2)}{P(\omega _1)} $
取对数形式: $ g(x) = ln \frac{P(x | \omega _1)}{P(x | \omega _2)} - ln \frac{P(\omega _2)}{ P(\omega _1)} $
决策规则实际上就是根据样本判定函数的结果大小来判断样本所属的类型,如果判定函数是$g_i(x)$的话,则计算出使其最大的类别作为样本的类别。如果是差的形式的话,就根据其与0的大小关系判断,有时也会根据需要进行加权。例如最小错误率贝叶斯决策规则和最小风险贝叶斯决策规则。
决策面则可以根据$g_i(x) = g_j(x) (i \neq j)$这类决策函数的相等关系来计算得到。
正态分布
之后会重点分析类条件概率密度函数服从正态分布的贝叶斯决策方法,其原因是正态分布满足物理上的合理性,以及数学上的简单性。所以此处对于正态分布基础概念做一个简单的回顾。
单变量正态分布的概率密度函数为:
多变量正态分布的概率密度函数为:
其中均值向量和协方差矩阵的计算如下:
多元正态分布的性质列举如下:
- 参数 $\overrightarrow{\mu}$ 和参数 $ \mathbf{\Sigma} 对于正太分布的决定性
- 等密度点的轨迹为一超椭球面
- 不相关性等价与独立性
- 边缘分布和条件分布的正态性
- 线性变化的正态性
- 线性组合的正态性
关于性质详细的说明和推导可以参考《模式识别(第三版)》。
最小错误率贝叶斯和最小风险贝叶斯
最小错误率贝叶斯决策
最小错误率贝叶斯决策,顾名思义就是使得分类的错误率最小的决策规则。我们的目标是最小化错误率公式,即:
对于两类分类问题,利用其后验概率,有如下规则:
对于多类分类的情况,有如下规则:
另外的,针对两类问题,我们可以得到将第一类样本错分为第二类的错误率$P_1(e)$和将第二类样本错分为第一类的错误率$P_2(e)$为:
最小风险贝叶斯决策
基于最小错误率决策的方法无法估计做出错误决策所带来的损失,例如在一次对于患者诊断中,我们清楚的理解将患病的人诊断为未患病的人比将未患病的人诊断为患病后果严重的多。因此我们可以将最小风险贝叶斯决策理解为最小错误率贝叶斯的加权,当其每个错误的权值相同时,最小风险贝叶斯就等同于最小错误率贝叶斯。
我们需要先熟悉以下概念:
决策$\alpha _i$:将需判定的样本判定为$\omega _i$类
损失函数$\lambda (\alpha _i , \omega _j)$:对于实际为第$\omega _j$类样本,采取决策$\alpha _i$所带来的损失
一般决策表:对于每个状态$\omega _j$对应的每个$\alpha _j $的损失函数$\lambda (\alpha _i , \omega _j)$的表格
由此我们可以得出对于某个样本采取决策$\alpha _i$的期望损失(条件风险)为:
决策$\alpha (x)$对于空间中所有可能的样本采取决策所造成的期望损失为:
所以我们可以得到需要最小化的公式为:
由此我们得到最小风险贝叶斯决策为;
由此我们也可以看出,最小错误率贝叶斯决策实质上是最小风险贝叶斯的一种特殊形式。
Neyman-Pearson决策
Neyman-Pearson决策是指在决策的过程中,限定一类错误率为常数而使另一类错误率最小的决策规则。要求描述如下:
\begin{equation}
\begin{split}
{ min}\quad &P_1(e)\\
{ s.t.}\quad &P_2(e) - \varepsilon _0 = 0\\
\end{split}
\end{equation}
利用Lagrange乘子法把有约束的极值问题转换为:
需要说明的是$\gamma$为Lagrange算子,R为整个特征空间,$R_1+ R_2 = R$,两个决策区域之间的边界为$t$,考虑概率密度函数的性质,可以将上式化简为:
优化的目标是求解使其最小的决策边界t,将上式分别对$\lambda$和$t$求导,利用极值点导数为0可以得到$t$应该满足:
$\lambda$应该满足
可以得到决策规则为:
其中$\lambda$是使决策区域满足条件的一个阈值,而$\lambda$很难求得封闭解,因此用似然比密度函数来确定。
正态分布模型下最小错误率贝叶斯
基础模型
本小结对公式做如下约束:公式中出现的$x$和$\mu$均为向量。
在多元正太分布模型$p(x | \omega_i) \sim N(\mu _i,\Sigma)$下,根据取对数形式可以得到判别函数为:
我们对于基本情况下的协方差和先验概率做约束以简化判别函数。
第一类情况
第一类情况为协方差矩阵矩阵相等,并且类内各特征间相互独立,具有相等的方差,即$ \Sigma _i = \sigma ^2 I,i = 1,2…n $
此时当先验概率不相等时,判别函数可以化简为:
当先验概率相等时,有:
第二类情况
第二类情况为各类的协方差矩阵相等时,即$ \Sigma _i = \Sigma $。此时判别函数可以简化为:
将上式展开,忽略无关项,可将判别式写为:
若先验概率相等,可以进一步简化为:
第三类情况
第三类情况即为多元正态分布的一般情况,这种情况直接从基础模型中删去无关项即可:
可以表示为:
小结
本文是关于模式识别中贝叶斯决策主要内容的一个总结,部分内容未写入,如最大最小判别准则、序贯分类等内容。
参考
[1] 张学工,模式识别(第三版)