确定线性判别式的最小二乘方法是基于使模型预测尽可能的接近目标值的目的的。相反,Fisher准则的目标是最大化输出空间中类别的区分度。这两种方法之间的关系是很有趣的。特别的,我们会证明,在二分类问题中,Fisher准则可以看成最小二乘的一个特例。

目前为止,我们一直采用“1-of-K”编码来表示目标值。然而,如果我们采用一种稍微不同的编码方式,那么权重的最小二乘解会等价于Fisher判别式的解(Duda and Hart, 1973)。特别的,我们让属于C1的目标值等于N/N1,其中N1是类别C1的模式的数量,N是总的模式数量。这个目标值近似于类别C1的先验概率的倒数,同时令C2目标值等于N/N2,其中N2是类别C2的模式的数量。

平方和误差函数可以写成

E=12Nn=1(wTxn+w0tn)2

分别关于w0,wE的导数,并使其等于0,得到

Nn=1(wTxn+w0tn)=0Nn=1(wTxn+w0tn)xn=0

根据式(4.32),并按选择的目标编码方式来编码tn,就可得到偏置的表示式

w0=wTm

其中我们使用了

Nn=1tn=N1NN1N2NN2=0

m是由

m=1NNn=1xn=1N(N1m1+N2m2)

给出的全部数据的均值。通过一些简单的代数计算,并再次使用tn的选定编码方式,第二个方程(4.33)就变成

(SW+N1N2NSB)w=N(m1m2)

其中SW,SB分别有式(4.28)(4.27)定义,并代入了式(4.34)的偏置定义。通过式(4.27)我们知道SBw总是在(m2m1)的方向上。因此得到

wS1W(m2m1)

其中我们忽略了不相关的标量因子。因此权向量恰好与由Fisher判别准则得到的结果相同。此外,我们也发现,式(4.34)给出偏置w0的表达式。这告诉我们,对于一个新的向量x,如果y(x)=wT(xm)>0,那么它应该被分到C1,否则就应该被分到C2