最小化指数误差

提升方法最早起源于统计学习理论，得到了泛化误差的上界。然而，这些上界过于宽松，没有实际的价值。提升方法的实际表现要远优于上界给出的值。Friedman et al.(2000)根据对一个指数误差函数的顺序最小化，给出了提升方法的一个不同的且非常简单的表述。

考虑下面定义的指数误差函数

$E = \sum\limits_{n=1}^Nexp\{-t_nf_m(x_n)\} \tag{14.20}$

其中 $f_m(x)$ 是一个根据基分类器 $y_l(x)$ 的线性组合定义的分类器，形式为

$f_m(x) = \frac{1}{2}\sum\limits_{l=1}^m\alpha_ly_l(x) \tag{14.21}$

$t_n \in \{−1, 1\}$ 是训练集目标值。我们的目标是关于权系数 $\alpha_l$ 和基分类器 $y_l(x)$ 最小化 $E$ 。

然而，我们不进行误差函数的全局最小化，而是假设基分类器 $y_1(x),...,y_{m−1}(x)$ 以及它们的系数 $\alpha_1,...,\alpha_{m−1}$ 固定，因此我们只关于 $\alpha_m$ 和 $y_m(x)$ 进行最小化。分离出基分类器 $y_m(x)$ 的贡献，我们可以将误差函数写成

$\begin{eqnarray} E &=& \sum\limits_{n=1}^N exp\left\{-t_nf_{m-1}(x_n) - \frac{1}{2}t_n\alpha_my_m(x_n)\right\} \\ &=& \sum\limits_{w_n^{(m)}}exp\left\{-\frac{1}{2}t_n\alpha_my_m(x_n)\right\} \tag{14.22} \end{eqnarray}$

其中，系数 $w_n^{(m)} = exp\{−t_nf_{m-1}(x_n)\}$ 可以被看做常数，因为我们只针对 $\alpha_m$ 和 $y_m(x)$ 进行最如果我们将被 $y_m(x)$ 正确分类的数据点的集合记作 $T_m$ ，并且将剩余的误分类的点记作 $M_m$ ，那么我们可以将误差函数写成下面的形式

$\begin{eqnarray} E &=& e^{-\alpha_m / 2}\sum\limits_{n \in T_m}w_n^{(m)}e^{\alpha_m / 2}\sum\limits_{n \in M_m}w_n^{(m)} \\ &=& (e^{\alpha_m / 2} - e^{-\alpha_m / 2})\sum\limits_{n=1}^Nw_n^{(m)}I(y_m(x_n) \neq t_n) + e^{-\alpha_m / 2}\sum\limits_{n=1}^Nw_n^{(m)} \tag{14.23} \end{eqnarray}$

当我们关于 $y_m(x)$ 进行最小化时，我们看到第二项是常数，因此这等价于对（14.15）进行最小化，因为在求和式前面的整个可乘性因子不影响最小值的位置。类似地，关于 $\alpha_m$ 最小化，我们得到了式（14.17），其中 $\epsilon_m$ 由式（14.16）定义。

根据式（14.22），我们看到，找到 $\alpha_m$ 和 $y_m(x)$ 之后，数据点的权值使用下面的公式进行更新

$w_n^{(m+1)} = w_n^{(m)} exp\left\{-\frac{1}{2}t_n\alpha_my_m(x_n)\right\} \tag{14.24}$

使用下面的事实

$t_ny_m(x_n) = 1 - 2I(y_m(x_n) \neq t_n) \tag{14.25}$

我们看到在下一次迭代中，权值 $w_n^{(m)}$ 的更新为

$w_n^{(m+1)} = w_n^{(m)} exp\left(-\frac{\alpha_m}{2}\right)exp\{\alpha_mI(y_m(x_n) \neq t_n)\} \tag{14.26}$

由于 $exp(− \alpha_m / 2)$ 与 $n$ 无关，因此我们看到它对于所有数据点的权值都贡献一个相同的因子，从而可以丢弃。这样我们就得到了式（14.18）。

最后，一旦所有的基分类器被训练完毕，新数据点通过计算由（14.21）定义的组合函数的符号进行分类。由于因子 $1 / 2$ 不影响符号，因此可以省略，得到了式（14.19）。