我们接下来考虑使用最大似然法确定模型的参数,给定观测数据点的数据点X={xn},概率PCA模型可以表示为一个有向图,如图12.10所示。
图 12.10 对于观测变量x的N次观测组成的数据集,概率PCA模型可以表示为一个有向图,其中每个观测变量xn与潜在变量的zn的值相关联。
根据式(12.35),对应的对数似然函数为
lnp(X|μ,W,σ2)=N∑n=1lnp(xn|W,μ,σ2)=−ND2ln(2π)−N2ln|C|−12N∑n=1(xn−μ)TC−1(xn−μ)
令似然函数关于μ的导数等于0,可以得到预期的结果μ=ˉx,其中ˉx是式(12.1)定义的数据均值。代回到似然函数中得到
lnp(X|W,μ,σ2)=−N2{Dln(2π)+ln|C|+Tr(C−1S)}
其中S是由式(12.3)定义的协方差矩阵。由于对数似然函数是μ的二次函数,因此解具有唯一的最大值,可以通过计算二阶导数的方式验证这一点。
关于W和sigma2的最大化更复杂,但是尽管这样,它们还是有一个近似的封闭解。Tipping and Bishop(1999b)证明,对数似然函数的所有驻点都可以写成
WML=UM(LM−σ2I)1/2R
其中UM是一个D×M的矩阵,它的列由数据协方差矩阵S的特征向量的任意(大小为M的)子集给定。M×M的对角矩阵LM的元素是对应的特征值λi,R是一个任意的M×M的正交矩阵。
此外,Tipping and Bishop(1999b)证明,当M个特征向量被选为前M个最大的特征值所对应的特征向量时,对数似然函数可以达到最大值,其他所有的解都是鞍点。类似的结果由Roweis(1998)独立地提出猜想,但是未给出证明。同样的,我们假定特征向量按照对应的特征值的大小降序排列,从而M个主特征向量是u1,...,uM。在这种情况下,W的列定义了标准PCA的主子空间。这样,σ2的对应的最大似然解为
σ2ML=1D−MD∑i=M+1λi
从而σ2ML是与丢弃的维度相关联的平均方差。
由于R是正交的,因此它可以被看做是M维潜在空间中的一个旋转矩阵。如果我们将W的解代入到C的表达式中,然后使用正交性质RRT=I,那么我们看到C与R无关。这表明,与之前讨论的一样,预测概率分布在潜在空间中具有旋转不变性。对于R=I这一特定情形,我们看到W的列是主成分特征向量,由方差参数的平方根√λi−σ2进行缩放。一旦我们认识到对于独立高斯分布(本例中的潜在空间分布和噪声模型)的卷积来说,方差是可加的,那么这些缩放因子的意义就很明显了。因此,在特征向量ui方向上的方差λi由两部分相加得到,一部分来自于从单位方差潜在空间分布通过对应的W的列向数据空间投影的贡献λi−σ2,另一部分来自于在噪声模型的所有方向上相加的各项同性的方差的贡献σ2。
值得花一些时间研究一下式(12.36)给出的协方差矩阵的形式。考虑预测分布在由单位向量v指定的方向上的方差,其中vTv=1,这个方差为vTCv。首先假设v与主子空间正交,即它等于被丢弃的特征向量的某个线性组合。那么vTU=0,因此vTCv=σ2。所以模型预测了一个噪声方差正交于主子空间。根据公式(12.46),这个方差就是丢弃的特征值的平均值。现在假设v=ui,其中ui是一个定义了主子空间的特征向量。那么vTCv=(λi−σ2)+σ2=λi。换句话说,这个模型正确地描述了数据沿着主轴方向的方差,并且用一个单一的均值σ2近似了所有剩余方向上的方差。
一种建立最大似然密度模型的方式是寻找数据协方差矩阵的特征值和特征向量,然后使用上面的结果计算W和σ2。在这种情况下,为了方便,我们会选择R=I。然而,如果最大似然解通过对似然函数的数值最优化的方式得到,例如使用诸如共轭梯度法(Fletcher, 1987; Nocedal and Wright, 1999; Bishop and Nabney,2008)或EM算法,那么得到的R值就可能是任意的了。 这表明W的列不必是正交的。如果我们需要一组正交的基,那么矩阵W可以进行恰当的后处理(Golub and Van Loan, 1996)。此外,EM算法可以进行修改,直接产生单位正交的主方向,按照对应的特征值降序排序(Ahn and Oh, 2003)。
潜在空间中的旋转不变性代表了一种形式的统计不可区分性,类似于我们在离散潜在变量的混合模型中遇到的情形。这里,有一组连续的参数会产生同样的预测密度,这不同于与混合模型中的分量重新标注相关联的离散不可区分性。
如果我们考虑M=D的情形,从而不存在维度的降低,那么UM=U且LM=L。使用正交的性质UUT=I以及RRT=I,我们看到x的边缘概率分布的协方差C变成了
C=U(L−σ2I)1/2RRT(L−σ2I)1/2UT+σ2I=ULUT=S
因此我们得到了无限制高斯分布的标准的最大似然解,其中协方差矩阵是样本的协方差。 传统的PCA通常的形式是D维空间的数据点在M维线性子空间上的投影。然而,概率PCA可以很自然地表示为从潜在空间到数据空间的映射,由式(12.33)给出。对于数据可视化和数据压缩之类的应用,我们可以使用贝叶斯定理将这个映射取逆。这样,任何在数据空间中的点x都可以使用潜在空间中的后验均值和方差进行概括。根据式(12.42),均值为
E[z|x]=M−1WTML(x−ˉx)
其中M由式(12.41)给出。它到数据空间的一个点的投影为
WE[z|x]+μ
注意,这与正则化的线性回归方程的形式相同,结果是最大化了线性高斯模型的对数似然函数。类似的,式(12.42)的后验协方差为σ2M−1,与x无关。
如果我们取极限σ2→0,那么后验均值为
(WTMLWML)−1WTML(x−ˉx)
这表示数据点在潜在空间上的正交投影,因此我们就恢复出了标准的PCA模型。然而在这种极限情况下,后验协方差是零,概率密度变得奇异。对于σ2>0的情形,潜在投影与正交投影相比,会向原点方向偏移。
最后,我们注意到,概率PCA模型在定义多元高斯分布时具有重要的作用,其中自由度的数量(即独立参数的数量)可以进行控制,同时仍然使得模型能够描述数据中的主要的相关关系。回忆一下,一个一般的高斯分布在协方差矩阵中有D(D+1)/2个独立的参数(加上均值中的另外D个参数)。因此参数的数量随着D以二次函数的方式增多,从而在高位空间中变得无法处理。如果我们将协方差矩阵限制为对角化,那么它只有D个独立的参数,从而此时参数的数量随着维度线性增长。然而,现在它对变量的处理方式类似于将变量看成是独立的,从而无法表达变量之间的相关性关系。概率PCA提供了一种优雅的折中方式,它能够描述M个最显著的相关性关系,同时使得参数的总数随着D线性增长。我们可以通过计算概率PCA模型的自由度的数量来理解这一点,如下所述。协方差矩阵C依赖于参数W(大小为D×M)和σ2,从而总的参数数量为DM+1。然而,我们已经看到参数中存在一些与潜在空间坐标系的旋转相关联的冗余性。表示这种旋转的正交矩阵R的大小为M×M。这个矩阵的第一列有M−1个独立的参数,因为列向量必须归一化到单位长度,第二列有M−2个独立的参数,因为列向量必须被标准化,并且必须与前一列垂直,以此类推。对这个算术序列求和,我们看到R总共有M(M−1)/2个独立参数。因此协方差矩阵C的自由度的数量为
DM+1−M(M−1)2
于是,对于固定的M,这个模型中的独立参数的数量随着D只是线性增长关系。如果我们令M=D−1,那么我们就恢复出了高斯分布的完整的协方差矩阵的标准结果。在这种情况下,沿着D−1个线性独立方向的方差由W的列所控制,沿着剩余方向的方差由σ2控制。如果M=0,那么模型等价于各向同性协方差的情形。