二元变量只能量化描述两种可能值中取一种的情况。但是,我们经常碰到的是从K个可能的互斥状态中取一种的离散变量。尽管,有很多种不同的方式来表示这样的变量,我们先介绍一种被称为“1-of-K”的比较方便的方法。这种方法是:用K维向量其中第xk元素为1,其它为0来表示。举个例子:如果有够取K=6种状 态的变量,其中一次观测得到x3=1,那么就可以表示为:

x=(0,0,1,0,0,0)T

注意,这样的向量满足Kk=1xk=1。如果用参数μk来标记xk=1的概率,那么我们就得到x的分布:

p(x|μ)=Kk=1μxkk

其中μ=(μ1,...,μK)T,由于参数μk表示概率,所以需要满足μk0kμk=1。公式(2.26)分布可以看作伯努利分布在多于两种输出时的泛化。很容易证明这个分布是标准化的。

xp(x|μ)=Kk=1μk=1

E[x|μ]=xp(x|μ)x=(μ1,...,μM)T=μ

现在,考虑一个有N个独立观测值x1,...,xN的数据集D。其对应的似然函数的形式为

p(D|μ)=Nn=1Kk=1μxnkk=Kk=1μ(nxnk)k=Kk=1μmkk

得到似然函数只通过K个:

mk=nxnk 依赖于N个数据点。它表示观测到xk=1的次数。这些别称为这个分布的充分统计量(sufficient statistics)。

为了得到μ的最大似然解,我们需要在μk的和等于1的约束下,关于μk最大化lnp(D|μ)。这可以通过拉格朗日乘数法得到,即:

Kk=1mklnμk+λ(Kk=1μk1)

对公式(2.31)关于μk求导并使之等于0得到:

μk=mk/λ

把公式(2.32)代入限制条件kμk=1,可得λ=N。所以我们的最大似然解:

μMLk=mkN

就是观测xk=1所占的比例。

考虑m1,...,mK在参数μ和观测总数N条件下联合分布。通过公式(2.29)得到:

这就是多项式分布(multinomial distribution)。标准化系数是把N个物体分成大小为的K组的方案总数,定义为

注意,满足下面的约束: