最近在学《模式分类》这门课,刚好上到第2章 贝叶斯决策这块。在这个文章里面不是要写贝叶斯分类器是怎么工作的,而是如标题所言,主要写一下一般的分类问题中,如何形式化地表示损失。

符号表示

以连续特征下的分类问题为例。

\(\omega_i\)表示类别为第\(i\)类。

样本的特征向量表示为\(\textbf{x}\),其中\(\textbf{x}\)处于d维欧氏空间\(\textbf{R}^d\),称为特征空间。

令{\(w_1\), \(w_2\), \(\cdots\), \(w_c\)}表示有限的c个类别集。

令{\(\alpha_1\), \(\alpha_2\), \(\cdots\), \(\alpha_a\)}表示有限种可能的行为集,注意此处行为集的可能不一定是c种,在某些分类问题中可以选择拒绝回答的动作来降低风险。

\(\lambda(a_i, w_j)\)描述的是状态类别为\(\omega_j\)时采取行动\(\alpha_i\)的损失。

形式化样本分类损失

如果给定某个特定的样本\(\textbf{x}\),每个动作的预期损失可表达为: \[ R(\alpha_i|\textbf{x}) = \sum^c_{j=1}{\lambda(\alpha_i|\omega_j) P(\omega_j|\textbf{x})} \] 拖了好久,继续更:zzz:

那总风险可以写成: \[ R = \int R(\alpha(x) | x) p(x)dx \] 为了最小化总风险,那么需要\(\alpha(x)\)满足对任意的样本\(x\),其条件风险\(R(\alpha(x) |x)\)在所有动作的条件风险中是最小的。形式化的表示为: \[ \forall j,\ R(\alpha(x) |x) \leq R(\alpha_j| x) \] 满足这样的条件后使得总风险最小,最小化后的总风险值称为贝叶斯风险,记为\(R^*\)

分类边界的确定

知道了\(R(\alpha(x)|x)\)要满足的条件后,每次决策都将选择条件风险最小的动作进行决策,决策的边界也随之确定。确定分类边界主要可以分为两种情况:1. 能确定先验概率\(P(w_i)\)的情况(如果有一个同分布的训练集和测试集,将是这种情况); 2. 不确定先验概率\(P(w_i)\)的情况(比如有一个训练集和测试集先验概率不同的情况)。

能确定先验概率的情况

如果能从数据中估计出先验概率的情况,这种情况下直接比较条件风险大小即可确定分类边界。

不确定先验概率的情况

这个情况下,一种合理的想法是使先验概率取任何一种值时使引起总风险的最坏情况尽可能地小,也就是说,最小化最大可能的总风险。

这两个情况也之后再更。