贝叶斯决策

1. 贝叶斯决策

​ 贝叶斯决策统计推断的一种重要方法。它在数据真实分布未知的情况下,先假定数据服从某种先验分布,再利用贝叶斯公式在得到数据后对先验分布进行修正,最终做出决策。这便是贝叶斯学派的观点。而频率学派则不考虑数据的先验分布,直接在得到的数据上做推断。

​ 贝叶斯决策需要我们假定数据的先验概率p(ωi)p\left( \omega_{i} \right)和类条件概率p(xωi)p\left( x|\omega_{i} \right)已知,然后利用贝叶斯公式就可以通过观察得到的样本,把先验概率p(ωi)p\left( \omega_{i} \right)转换为后验概率p(ωix)p\left( \omega_{i} |x\right),并挑取后验概率最大的类作为最后的决策。

​ 贝叶斯公式:

P(ωix)=p(xωi)P(ωi)p(x)=p(xωi)P(ωi)j=12p(xωj)P(ωj),i=1,2,,cP\left( \omega _i\mid \boldsymbol{x} \right) =\frac{p\left( \boldsymbol{x}\mid \omega _i \right) P\left( \omega _i \right)}{p(\boldsymbol{x})}=\frac{p\left( \boldsymbol{x}\mid \omega _i \right) P\left( \omega _i \right)}{\sum_{j=1}^2{p}\left( \boldsymbol{x}\mid \omega _j \right) P\left( \omega _j \right)},\quad i=1,2,\cdots ,c

​ 决策规则:

P(ωix)=maxj=1,2,,cP(ωjx),xωi\text{若}P\left( \omega _i\mid \boldsymbol{x} \right) =\mathop {\max} \limits_{j=1,2,\cdots, c}P\left( \omega _j\mid \boldsymbol{x} \right) , \text{则} \boldsymbol{x}\in \omega _i

​ 由于P(ωix)P\left( \omega _i\mid \boldsymbol{x} \right)的分母p(x)p(\boldsymbol{x})对于每一个类都是相同的,因此决策规则常常也使用以下形式:

p(xωi)P(ωi)=maxj=1,2,,cP(xωj)P(ωj),xωi\text{若}p\left( \boldsymbol{x}\mid \omega _i \right) P\left( \omega _i \right) =\mathop {\max} \limits_{j=1,2,\cdots ,c}P\left( \boldsymbol{x}\mid \omega _j \right) P\left( \omega _j \right) , \text{则} x\in \omega _i

​ 观察贝叶斯公式可以发现,分母只是作为概率的归一化,而并没有实际判决上的意义。因此仅通过观察p(xωi)P(ωi)p\left( \boldsymbol{x}\mid \omega _i \right) P\left( \omega _i \right)就可以做出贝叶斯决策。对于p(xωi)P(ωi)p\left( \boldsymbol{x}\mid \omega _i \right) P\left( \omega _i \right)的一种直观理解是:先假设是ωi\omega _i类的概率是P(ωi)P\left( \omega _i \right),再通过观察数据p(xωi)p\left( \boldsymbol{x}\mid \omega _i \right)最终得到你在这组数据上对它的判断。

2. 参数估计

​ 贝叶斯决策的基础是概率密度函数的估计,即根据一定的训练样本来估计统计决策中用到的先验概率p(ωi)p\left( \omega_{i} \right)和类条件概率密度p(xωi)p\left( x|\omega_{i} \right)。其中,先验概率的估计比较简单,通常只需根据大量样本计算出各类样本在其中所占的比例,或者根据对所研究问题的领域知识事先确定。因此,重点是类条件概率密度p(xωi)p\left( x|\omega_{i} \right)的估计问题。

​ 我们使用的是监督参数估计方法,即样本所属类别已知且类条件总体概率密度函数的形式已知,未知的只是表征概率密度函数的某些参数。例如我们已知(或假设)类条件概率p(xωi)p\left( x|\omega_{i} \right)服从正态分布,只需要根据已知类别的样本估计均值和方差。因此把对分布概率密度p(xωi)p\left( x|\omega_{i} \right)的估计问题转化为对参数的估计问题。

​ 通常我们使用的参数估计方法有两种:最大似然估计和贝叶斯估计。两种方法的结果很接近,但是其中的思想却不同。一个根本的区别是,最大似然估计是把待估计的参数当作未知但固定的量,要做的是根据观测数据估计这个量的取值;而贝叶斯估计则是把待估计的参数本身也看作是随机变量,服从某种先验分布,再根据观测数据对参数的分布进行修正。

2.1 最大似然估计

​ 在满足样本独立同分布且各类别的参数独立的情况下,可以使用最大似然估计对已知分布形式的参数进行估计。根据分布形式和样本集X={x1,x2,,xN}\mathscr{X}=\left\{\boldsymbol{x}_{1}, \boldsymbol{x}_{2}, \cdots, \boldsymbol{x}_{N}\right\}可以列写出似然函数,将使似然函数极大化时的参数θ^\hat{\theta }作为对参数θ\theta的估计。

​ 似然函数:

l(θ)=p(Xθ)=p(x1,x2,,xNθ)=i=1Np(xiθ)l(\theta)=p(\mathscr{X} \mid \theta)=p\left(\boldsymbol{x}_{1}, \boldsymbol{x}_{2}, \cdots, \boldsymbol{x}_{N} \mid \theta\right)=\prod_{i=1}^{N} p\left(\boldsymbol{x}_{i} \mid \theta\right)

​ 最大似然估计量:

θ^=argmaxl(θ)\hat{\theta}=\arg \max l(\theta)

​ 似然函数可以理解为在参数θ\theta未知的情况下,样本从以参数为θ\theta的分布中被抽取出来的概率。自然的想法是,样本从它真实的分布中被抽取出来的概率最大,因此使似然函数最大的参数θ^\hat{\theta }最有可能是真实的参数θ\theta

​ 有时为了计算的简便,可以定义对数似然函数:

H(θ)=lnl(θ)=lni=1Np(xiθ)=i=1Nlnp(xiθ)H(\theta)=\ln l(\theta)=\ln \prod_{i=1}^{N} p\left(\boldsymbol{x}_{i} \mid \theta\right)=\sum_{i=1}^{N} \ln p\left(\boldsymbol{x}_{i} \mid \theta\right)

θ^=argmaxH(θ)\hat{\theta}=\arg \max H(\theta)

2.2 贝叶斯估计

​ 贝叶斯估计问题可以看作一个贝叶斯决策问题,但是这里要决策的不是离散的类别,而是参数的取值,是在连续的空间里做决策。对连续变量θ\theta,我们假定把它估计为θ^\hat{\theta }所带来的损失为λ(θ^,θ)\lambda(\hat{\theta}, \theta),也称为损失函数。

​ 设样本的取值空间是 EdE^{d},参数的取值空间是 Θ\Theta,那么,当用 θ^\hat{\theta} 来作为估计时总期望风险就是:

R=EdΘλ(θ^,θ)p(x,θ)dθdx=EdΘλ(θ^,θ)p(θx)p(x)dθdx\begin{aligned} R &=\int_{E^{d}} \int_{\Theta} \lambda(\hat{\theta}, \theta) p(\boldsymbol{x}, \theta) \mathrm{d} \theta \mathrm{d} \boldsymbol{x} \\ &=\int_{E^{d}} \int_{\Theta} \lambda(\hat{\theta}, \theta) p(\theta \mid \boldsymbol{x}) p(\boldsymbol{x}) \mathrm{d} \theta \mathrm{d} \boldsymbol{x} \end{aligned}

​ 我们定义在样本xx下的条件风险为:

R(θ^x)=θλ(θ^,θ)p(θx)dθR(\hat{\theta} \mid \boldsymbol{x})=\int_{\boldsymbol{\theta}} \lambda(\hat{\theta}, \theta) p(\theta \mid \boldsymbol{x}) \mathrm{d} \theta

​ 那么,总风险就可以写成

R=EdR(θ^x)p(x)dxR=\int_{E^{d}} R(\hat{\theta} \mid x) p(x) d x

​ 由于条件风险非负,因此当所有样本的条件风险最小时可以得到最小总风险,此时的参数令为估计参数:

θ=argminθ^R(θ^X)=argminθ^θλ(θ^,θ)p(θX)dθ\theta^{*}=\underset{\hat{\theta}}{\arg \min } R(\hat{\theta} \mid \mathscr{X})=\underset{\hat{\theta}}{\arg \min }\int_{\boldsymbol{\theta}} \lambda(\hat{\theta}, \theta) p(\theta \mid \mathscr{X}) \mathrm{d} \theta

​ 我们经常使用的损失函数为平方误差损失函数:

λ(θ^,θ)=(θθ^)2\lambda(\hat{\theta}, \theta)=(\theta-\hat{\theta})^{2}

​ 综合上面各式,令ddθ^R(θ^X)=0\frac{d}{d\hat{\theta}}R(\hat{\theta}\mid \mathscr{X})=0,解得 θ^\hat{\theta} 作为θ\theta ^*,可以得到在平均误差损失函数下的贝叶斯估计量为:

θ=E[θX]=θθp(θX)dθ\theta^{*}=E[\theta \mid \mathscr{X}]=\int_{\boldsymbol{\theta}} \theta p(\theta \mid \mathscr{X}) \mathrm{d} \theta

​ 利用贝叶斯公式可求 θ\theta 的后验概率分布:

p(θX)=p(Xθ)p(θ)θp(Xθ)p(θ)dθp(\theta \mid \mathscr{X})=\frac{p(\mathscr{X} \mid \theta) p(\theta)}{\int_{\boldsymbol{\theta}} p(\mathscr{X} \mid \theta) p(\theta) \mathrm{d} \theta}

​ 其中p(θ)p(\theta)是需要我们假设的参数的先验概率,这就体现了贝叶斯的思想:先假设再修正

3. 多元正态下的贝叶斯决策

3.1 多元正态分布

​ 首先回顾一下多元正态分布的基础知识。

​ 多元正态分布的概率密度函数定义为

p(x)=1(2π)d/2Σ1/2exp{12(xμ)TΣ1(xμ)}p(x)=\frac{1}{(2 \pi)^{d / 2}|\Sigma|^{1/2}} \exp \left\{-\frac{1}{2}(x-\mu)^{\mathrm{T}} \Sigma^{-1}(x-\mu)\right\}

​ 式中 : x=[x1,x2,,xd]Tx=\left[x_{1}, x_{2}, \cdots, x_{d}\right]^{\mathrm{T}}dd 维列向量, μ=[μ1,μ2,,μd]T\boldsymbol{\mu}=\left[\mu_{1}, \mu_{2}, \cdots, \mu_{d}\right]^{\mathrm{T}}dd 维均值向量,Σ\boldsymbol{\Sigma}是对称矩阵。

μ=E{x}Σ=E{(xμ)(xμ)T}\begin{array}{l} \boldsymbol{\mu}=E\{\boldsymbol{x}\} \\ \boldsymbol{\Sigma}=E\left\{(\boldsymbol{x}-\boldsymbol{\mu})(\boldsymbol{x}-\boldsymbol{\mu})^{\mathrm{T}}\right\} \end{array}

Σ=[σ112σ122σ1d2σ122σ222σ2d2σ1d2σ2d2σdd2]\boldsymbol{\Sigma}=\left[\begin{array}{cccc} \sigma_{11}^{2} & \sigma_{12}^{2} & \cdots & \sigma_{1 d}^{2} \\ \sigma_{12}^{2} & \sigma_{22}^{2} & \cdots & \sigma_{2 d}^{2} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{1 d}^{2} & \sigma_{2 d}^{2} & \cdots & \sigma_{d d}^{2} \end{array}\right]

3.2 多元正态贝叶斯决策

​ 贝叶斯决策中的先验概率p(ωi)p\left( \omega_{i} \right)只需根据大量样本计算出各类样本在其中所占的比例,或者根据对所研究问题的领域知识事先确定。类条件概率密度p(xωi)p\left( x|\omega_{i} \right)我们假定服从正态分布,即p(xωi)N(μi,Σi),i=1,,cp\left(\boldsymbol{x} \mid \omega_{i}\right) \sim N\left(\boldsymbol{\mu_{i}}, \boldsymbol{\Sigma_{i}}\right), i=1, \cdots, c

​ 根据贝叶斯决策的判别规则,可以定义判别函数如下:

gi(x)=ln[p(x/ωi)P(ωi)]=12(xμi)TΣi1(xμi)d2ln2π12lnΣi+lnP(ωi)\begin{aligned} g_i(x)&=\ln \left[ p\left( x/\omega _i \right) \mathrm{P}\left( \omega _i \right) \right]\\ &=-\frac{1}{2}\left( x-\mu _i \right) ^T\Sigma _{i}^{-1}\left( x-\mu _i \right) -\frac{d}{2}\ln 2\pi -\frac{1}{2}\ln \left| \Sigma _i \right|+\ln\mathrm{P}\left( \omega _i \right)\\ \end{aligned}

$-\frac{d}{2}\ln 2\pi $是一个参数,可以忽略。然后判别函数可以改写为下面形式

gi(x)=12(xμi)TΣi1(xμi)12lnΣi+lnP(ωi)=xTWix+wiTx+wi0\begin{aligned} g_{i}(\boldsymbol{x}) &=-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)^{\mathrm{T}} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)-\frac{1}{2} \ln \left|\boldsymbol{\Sigma}_{i}\right|+\ln P\left(\omega_{i}\right) \\ &=\boldsymbol{x}^{\mathrm{T}} \boldsymbol{W}_{i} \boldsymbol{x}+\boldsymbol{w}_{i}^{\mathrm{T}} \boldsymbol{x}+w_{i 0} \end{aligned}

​ 其中:

Wi=12Σi1(d×d 矩阵 )wi=Σi1μi(d 维列向量 )wi0=12μiTΣi1μi12lnΣi+lnP(ωi)\begin{aligned} &\boldsymbol{W}_{i}=-\frac{1}{2} \boldsymbol{\Sigma}_{i}^{-1} \quad(d \times d \text { 矩阵 })\\ &\boldsymbol{w}_{i}=\boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{\mu}_{i} \quad(d \text { 维列向量 })\\ &w_{i 0}=-\frac{1}{2} \mu_{i}^{\mathrm{T}} \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{\mu}_{i}-\frac{1}{2} \ln \left|\boldsymbol{\Sigma}_{i}\right|+\ln P\left(\omega_{i}\right) \end{aligned}

​ 判别规则:

gi(x)=maxj=1,2gj(x),xωi\text{若}g_i\left( \boldsymbol{x} \right) =\mathop {\max} \limits_{j=1,2}g_j\left( \boldsymbol{x} \right) ,\text{则}\boldsymbol{x}\in \omega _i

​ 决策面可以写成gi(x)gj(x)=0g_{i}(x)-g_{j}(x)=0,即:

xT(WiWj)x+(wiwj)Tx+wi0wj0=0\boldsymbol{x}^{\mathrm{T}}\left(\boldsymbol{W}_{i}-\boldsymbol{W}_{j}\right) \boldsymbol{x}+\left(w_{i}-\boldsymbol{w}_{j}\right)^{\mathrm{T}} \boldsymbol{x}+w_{i 0}-w_{j 0}=0

​ 决策面是一个超二次曲面

image-20201006204622745

3.3 基于最大似然估计的多元正态分布参数估计

​ 构建正态分布的对数似然函数:

L(μ,Σ)=i=1Nlnp(xi)=i=1N(n2ln2π12lnΣ12(xiμ)TΣ1(xiμ))=Nn2ln2πN2lnΣ12i=1N(xiμ)TΣ1(xiμ)\begin{aligned} L\left( \mu , \Sigma \right) &=\sum_{i=1}^N{\begin{array}{c} \ln p\left( x_i \right)\\ \end{array}} \\ &=\sum_{i=1}^N{\left( -\frac{n}{2}\ln 2\pi -\frac{1}{2}\ln \left| \Sigma \right|-\frac{1}{2}\left( x_i-\mu \right) ^T\Sigma ^{-1}\left( x_i-\mu \right) \right)} \\ &=-\frac{Nn}{2}\ln 2\pi -\frac{N}{2}\ln \left| \Sigma \right|-\frac{1}{2}\sum_{i=1}^N{\left( x_i-\mu \right) ^T\Sigma ^{-1}\left( x_i-\mu \right)} \end{aligned}

L(μ,Σ)L\left( \mu , \Sigma \right)求微分:

dL(μ,Σ)=d(N2lnΣ)12i=1Nd((xiμ)TΣ1(xiμ))=N2Σ1dΣ12i=1N(d(xiμ)TΣ1(xiμ)+(xiμ)TdΣ1(xiμ)+(xiμ)TΣ1d(xiμ))=N2tr(Σ1dΣ)12i=1N(dμTΣ1(xiμ)(xiμ)TΣ1dΣΣ1(xiμ)(xiμ)TΣ1dμ)=N2tr(Σ1dΣ)12i=1Ntr((Σ1(xiμ))TdμΣ1(xiμ)(xiμ)TΣ1dΣ(xiμ)TΣ1dμ)=N2tr(Σ1dΣ)12i=1Ntr((xiμ)TΣTdμΣ1(xiμ)(xiμ)TΣ1dΣ(xiμ)TΣ1dμ)=tr(i=1N(xiμ)TΣ1dμ)+tr(12Σ1(NΣi=1N(xiμ)(xiμ)T)Σ1dΣ)\begin{aligned} dL\left( \mu , \Sigma \right) &=-d\left( \frac{N}{2}\ln \left| \Sigma \right| \right) -\frac{1}{2}\sum_{i=1}^N{d\left( \left( x_i-\mu \right) ^T\Sigma ^{-1}\left( x_i-\mu \right) \right)} \\ &=-\frac{N}{2}\left| \Sigma \right|^{-1}d\left| \Sigma \right|-\frac{1}{2}\sum_{i=1}^N{\left( d\left( x_i-\mu \right) ^T\cdot \Sigma ^{-1}\left( x_i-\mu \right) +\left( x_i-\mu \right) ^T\cdot d\Sigma ^{-1}\cdot \left( x_i-\mu \right) +\left( x_i-\mu \right) ^T\Sigma ^{-1}\cdot d\left( x_i-\mu \right) \right)} \\ &=-\frac{N}{2}tr\left( \Sigma ^{-1}d\Sigma \right) -\frac{1}{2}\sum_{i=1}^N{\left( -d\mu ^T\cdot \Sigma ^{-1}\left( x_i-\mu \right) -\left( x_i-\mu \right) ^T\Sigma ^{-1}\cdot d\Sigma \cdot \Sigma ^{-1}\left( x_i-\mu \right) -\left( x_i-\mu \right) ^T\Sigma ^{-1}\cdot d\mu \right)} \\ &=-\frac{N}{2}tr\left( \Sigma ^{-1}d\Sigma \right) -\frac{1}{2}\sum_{i=1}^N{tr\left( -\left( \Sigma ^{-1}\left( x_i-\mu \right) \right) ^Td\mu -\Sigma ^{-1}\left( x_i-\mu \right) \left( x_i-\mu \right) ^T\Sigma ^{-1}\cdot d\Sigma -\left( x_i-\mu \right) ^T\Sigma ^{-1}\cdot d\mu \right)} \\ &=-\frac{N}{2}tr\left( \Sigma ^{-1}d\Sigma \right) -\frac{1}{2}\sum_{i=1}^N{tr\left( -\left( x_i-\mu \right) ^T\Sigma ^{-T}\cdot d\mu -\Sigma ^{-1}\left( x_i-\mu \right) \left( x_i-\mu \right) ^T\Sigma ^{-1}\cdot d\Sigma -\left( x_i-\mu \right) ^T\Sigma ^{-1}\cdot d\mu \right)} \\ &=tr\left( \sum_{i=1}^N{\left( x_i-\mu \right) ^T\Sigma ^{-1}}\cdot d\mu \right) +tr\left( -\frac{1}{2}\Sigma ^{-1}\left( N\Sigma -\sum_{i=1}^N{\left( x_i-\mu \right) \left( x_i-\mu \right) ^T} \right) \Sigma ^{-1}\cdot d\Sigma \right) \end{aligned}

得到L(μ,Σ)L\left( \mu , \Sigma \right)的梯度矩阵,并令为0:

μL(μ,Σ)=L(μ,Σ)μ=(i=1N(xiμ)TΣ1)T=i=1NΣ1(xiμ)=Σ1(i=1NxiNμ)=0ΣL(μ,Σ)=L(μ,Σ)Σ=(12Σ1(NΣi=1N(xiμ)(xiμ)T)Σ1)T=12Σ1(NΣi=1N(xiμ)(xiμ)T)Σ1=0\begin{aligned} \nabla _{\mu}L\left( \mu ,\Sigma \right) =\frac{\partial L\left( \mu ,\Sigma \right)}{\partial \mu}&=\left( \sum_{i=1}^N{\left( x_i-\mu \right) ^T\Sigma ^{-1}} \right) ^T=\sum_{i=1}^N{\Sigma ^{-1}\left( x_i-\mu \right)}=\Sigma ^{-1}\left( \sum_{i=1}^N{x_i}-N\mu \right) =0 \\ \nabla _{\Sigma}L\left( \mu ,\Sigma \right) =\frac{\partial L\left( \mu ,\Sigma \right)}{\partial \Sigma}&=\left( -\frac{1}{2}\Sigma ^{-1}\left( N\Sigma -\sum_{i=1}^N{\left( x_i-\mu \right) \left( x_i-\mu \right) ^T} \right) \Sigma ^{-1} \right) ^T=-\frac{1}{2}\Sigma ^{-1}\left( N\Sigma -\sum_{i=1}^N{\left( x_i-\mu \right) \left( x_i-\mu \right) ^T} \right) \Sigma ^{-1}=0 \end{aligned}

​ 从上式解得最大似然估计值如下所示:

μ^=1Ni=1NxiΣ^=1Ni=1N(xiμ^)(xiμ^)T\begin{aligned} \hat{\mu}&=\frac{1}{N} \sum_{i=1}^{N} x_{i} \\ \hat{\Sigma}&=\frac{1}{N} \sum_{i=1}^{N}\left(x_{i}-\hat{\mu}\right)\left(x_{i}-\hat{\mu}\right)^{T} \end{aligned}

3.4 基于贝叶斯估计的多元正态分布参数估计(仅估计均值)

​ 设 xx 为d维随机向量,并且 xN(μ,Σ),x \sim N(\mu, \Sigma), 其中 Σ>0\Sigma>0 已知。所以给定μ\mu时,xx的条件密度函数为:

p(xμ)=1(2π)d/2Σ1/2exp(12(xμ)TΣ1(xμ))p(x\mid \mu )=\frac{1}{\left( 2\pi \right) ^{d/2}\left| \Sigma \right|^{1/2}}\exp \left( -\frac{1}{2}\left( x-\mu \right) ^T\cdot \Sigma ^{-1}\cdot \left( x-\mu \right) \right)

​ 设 x1,,xNx_{1}, \cdots, x_{N} 为从正态总体xx中抽出的一组独立同分布样本。假设μ\mu的先验分布为共轭先验,即μN(μ0,Σ0)\mu \sim N(\mu_0, \Sigma_0)μ0,Σ0\mu_0, \Sigma_0已知。 μ\mu密度函数为:

p(μ)=1(2π)d/2Σ01/2exp(12(μμ0)TΣ01(μμ0))p(\mu)=\frac{1}{\left( 2\pi \right) ^{d/2}\left| \Sigma _0 \right|^{1/2}}\exp \left( -\frac{1}{2}\left( \mu -\mu _0 \right) ^{T}\cdot \Sigma _{0}^{-1}\cdot \left( \mu -\mu _0 \right) \right)

​ 可以计算参数μ\mu的后验分布:

p(μX)=p(Xμ)p(μ)μp(Xμ)p(μ)dμp(\mu \mid \mathscr{X})=\frac{p(\mathscr{X}\mid \mu )p(\mu )}{\int_{\boldsymbol{\mu }}{p}(\mathscr{X}\mid \mu )p(\mu )\mathrm{d}\mu}

其中 $\int_{\boldsymbol{\theta }}{p}(\mathscr{X}\mid \mu )p(\mu )\mathrm{d}\mu $ 与参数μ\mu无关:

p(μX)p(Xμ)p(μ)=i=1Np(xiμ)p(μ)=i=1N1(2π)d/2Σ1/2exp{12(xiμ)TΣ1(xiμ)}1(2π)d/2Σ01/2exp(12(μμ0)TΣ01(μμ0))=1(2π)d/2Σ1/21(2π)d/2Σ01/2exp{12(i=1N(xiμ)TΣ1(xiμ)+(μμ0)TΣ01(μμ0))}exp(12(μμN)TΣN1(μμN))\begin{aligned} p(\mu \mid \mathscr{X})&\propto p(\mathscr{X}\mid \mu )p(\mu ) \\ &=\prod_{i=1}^N{p(x_i\mid \mu )}\cdot p(\mu ) \\ &=\prod_{i=1}^N{\frac{1}{(2\pi )^{d/2}|\Sigma |^{1/2}}\exp \left\{ -\frac{1}{2}(x_i-\mu )^T\Sigma ^{-1}(x_i-\mu ) \right\}}\cdot \frac{1}{\left( 2\pi \right) ^{d/2}\left| \Sigma _0 \right|^{1/2}}\exp \left( -\frac{1}{2}\left( \mu -\mu _0 \right) ^T\cdot \Sigma _{0}^{-1}\cdot \left( \mu -\mu _0 \right) \right) \\ &=\frac{1}{(2\pi )^{d/2}|\Sigma |^{1/2}}\frac{1}{\left( 2\pi \right) ^{d/2}\left| \Sigma _0 \right|^{1/2}}\exp \left\{ -\frac{1}{2}\left( \sum_{i=1}^N{(x_i-\mu )^T\Sigma ^{-1}(x_i-\mu )}+\left( \mu -\mu _0 \right) ^T\cdot \Sigma _{0}^{-1}\cdot \left( \mu -\mu _0 \right) \right) \right\} \\ &\propto \exp \left( -\frac{1}{2}\left( \mu -\mu _N \right) ^T\cdot \Sigma _{N}^{-1}\cdot \left( \mu -\mu _N \right) \right) \end{aligned}

其中:

ΣN=(NΣ1+Σ01)1μN=ΣN(Σ1i=1Nxi+Σ01μ0)\begin{aligned} \Sigma _N&=\left( N\Sigma ^{-1}+\Sigma _{0}^{-1} \right) ^{-1} \\ \mu _N&=\Sigma _N\left( \Sigma ^{-1}\sum_{i=1}^N{x_i}+\Sigma _{0}^{-1}\mu _0 \right) \end{aligned}

​ 添加归一化常数因子后,可得参数均值的后验概率密度函数:

p(μX)=1(2π)d/2ΣN1/2exp(12(μμN)TΣN1(μμN))p(\mu \mid \mathscr{X})=\frac{1}{\left( 2\pi \right) ^{d/2}\left| \Sigma _N \right|^{1/2}}\exp \left( -\frac{1}{2}\left( \mu -\mu _N \right) ^T\cdot \Sigma _{N}^{-1}\cdot \left( \mu -\mu _N \right) \right)

​ 也就是说,待估计的样本密度函数的均值参数服从均值为μN\mu _N,方差为ΣN\Sigma _N的正态分布。所以在二次损失下,μ\mu的贝叶斯估计为:

μ^B=E(μX)=μN=ΣN(Σ1i=1Nxi+Σ01μ0)=NΣNΣ11Ni=1Nxi+ΣNΣ01μ0\hat{\mu}_B=E(\mu \mid \mathscr{X})=\mu _N=\Sigma _N\left( \Sigma ^{-1}\sum_{i=1}^N{x_i}+\Sigma _{0}^{-1}\mu _0 \right) =N\Sigma _N\Sigma ^{-1}\cdot \frac{1}{N}\sum_{i=1}^N{x_i}+\Sigma _N\Sigma _{0}^{-1}\mu _0

​ 贝叶斯估计值μ^B\hat{\mu}_B是样本均值1Ni=1Nxi\frac{1}{N}\sum_{i=1}^N{x_i}和先验均值μ0\mu _0的加权平均。

4. 实验

  1. 以50m为例,画出男女生50m成绩的直方图并做对比;

  2. 采用最大似然估计方法,求男女生身高以及体重分布的参数,以及50m成绩的分布参数;

  3. 采用贝叶斯估计方法,求男女生身高以及体重分布的参数(方差已知,注明自己选定的参数情况);

  4. 基于身高和体重,采用最小错误率贝叶斯决策,画出类别判定的决策面。并判断某样本的身高体重分别为(170,52)时应该属于男生还是女生?为(178,71)时呢?

4.1 男女生50m成绩直方图

image-20201010113105121

​ 总共统计到208名同学的50m成绩,其中男生166人,女生42人。从上面直方图分析可知,男生50m成绩要好于女生,男生成绩大多在7~8s之间,而女生成绩大多分布在8~9s

4.2 最大似然估计男女生身高以及体重分布的参数,以及50m成绩的分布参数

​ 我们认为身高和体重是一组2维特征,因此使用3.3中推导的结论:假设男(女)生的身高和体重服从二维正态分布,则均值和方差的最大似然估计值如下所示:

μ^=1Ni=1NxiΣ^=1Ni=1N(xiμ^)(xiμ^)T\begin{aligned} \boldsymbol{\hat{\mu}}&=\frac{1}{N} \sum_{i=1}^{N} \boldsymbol{x}_{i} \\ \boldsymbol{\hat{\Sigma}}&=\frac{1}{N} \sum_{i=1}^{N}\left(\boldsymbol{x}_{i}-\boldsymbol{\hat{\mu}}\right)\left(\boldsymbol{x}_{i}-\boldsymbol{\hat{\mu}}\right)^{T} \end{aligned}

​ 其中xi=(xi(1),xi(2))T\boldsymbol{x}_i=\left( x_{i}^{\left( 1 \right)},x_{i}^{\left( 2 \right)} \right) ^Txi(1)x_{i}^{\left( 1 \right)}xi(2)x_{i}^{\left( 2 \right)}分别是第ii名男(女)生的身高和体重。

​ 基于569名男生和167名女生的身高体重数据,通过极大似然估计法得到:

​ 男生的身高体重的均值:μ^boys=(173.7741652,66.10105448)T\boldsymbol{\hat{\mu}}_{boys}=\left( 173.7741652, 66.10105448 \right) ^T

​ 男生的身高体重的方差:Σ^boys=(28.9424081326.1884630926.1884630986.79954195)\boldsymbol{\hat{\Sigma}}_{boys}=\left( \begin{matrix} ​ 28.94240813& 26.18846309\\ ​ 26.18846309& 86.79954195\\ \end{matrix} \right)

​ 女生的身高体重的均值:μ^girls=(162.91616766,50.87724551)T\boldsymbol{\hat{\mu}}_{girls}=\left( 162.91616766, 50.87724551 \right) ^T

​ 女生的身高体重的方差:Σ^girls=(21.190576937.648391847.6483918426.47445229)\boldsymbol{\hat{\Sigma}}_{girls}=\left( \begin{matrix} ​ 21.19057693& 7.64839184\\ ​ 7.64839184& 26.47445229\\ \end{matrix} \right)

​ 同样,我们对男(女)生的50m成绩做了极大似然估计。这里假定男(女)生的50m成绩服从一维正态分布,基于166名男生和42名女生的50m成绩,利用极大似然估计法得到的均值方差如下所示:

​ 男生50m成绩的均值:7.42210843

​ 男生50m成绩的方差:0.28690098

​ 女生50m成绩的均值:8.4702381

​ 女生50m成绩的方差:1.02012613

4.3 贝叶斯估计男女生身高以及体重分布的参数(方差已知,注明自己选定的参数情况)

​ 我们认为身高和体重是一组2维特征,因此使用3.4中推导的结论:假设男(女)生的身高和体重服从二维正态分布N(μ,Σ)N(\boldsymbol{\mu}, \boldsymbol{\Sigma}),待估计参数μ\mu的先验分布为N(μ0,Σ0)N(\boldsymbol{\mu_0}, \boldsymbol{\Sigma_0}),则平方误差下,均值μ\boldsymbol{\mu}的贝叶斯估计值为:

μ^B=NΣNΣ11Ni=1Nxi+ΣNΣ01μ0\boldsymbol{\hat{\mu}_B}=N\boldsymbol{\Sigma _N\Sigma} ^{-1}\cdot \frac{1}{N}\sum_{i=1}^N{\boldsymbol{x}_i}+\boldsymbol{\Sigma _N\Sigma _{0}}^{-1}\mu _0

​ 其中xi=(xi(1),xi(2))T\boldsymbol{x}_i=\left( x_{i}^{\left( 1 \right)},x_{i}^{\left( 2 \right)} \right) ^Txi(1)x_{i}^{\left( 1 \right)}xi(2)x_{i}^{\left( 2 \right)}分别是第ii名男(女)生的身高和体重。

​ 贝叶斯估计值μ^B\boldsymbol{\hat{\mu}_B}是样本均值1Ni=1Nxi\frac{1}{N}\sum_{i=1}^N{\boldsymbol{x_i}}和先验均值μ0\boldsymbol{\mu _0}的加权平均,这里我们需要对待估计参数μ\boldsymbol{\mu}的先验分布参数μ0,Σ0\boldsymbol{\mu_0, \Sigma_0}x\boldsymbol{x}的先验分布参数Σ\boldsymbol{\Sigma}做出合理的假设。可以预见,不同的假设可能带来不同的参数估计结果。

  1. μ\mu的先验方差Σ0\boldsymbol{\Sigma_0}很小时,说明对μ0\boldsymbol{\mu_0}非常确定,那么样本数据对均值估计的贡献就很小。

    我们令μ0=(0.1,0.1)T,Σ0=(1×105001×105)\boldsymbol{\mu }_{\boldsymbol{0}}=\left( 0.1, 0.1 \right) ^T, \boldsymbol{\Sigma _0}=\left( \begin{matrix} 1\times 10^{-5}& 0\\ 0& 1\times 10^{-5}\\ \end{matrix} \right),利用569名男生的身高体重数据得到μ^B=(0.10000099,0.10000038)T\boldsymbol{\hat{\mu}_B}=\left( 0.10000099, 0.10000038 \right) ^T,显然估计结果约等于先验假设。

  2. μ\mu的先验方差Σ0\boldsymbol{\Sigma_0}很大时,说明对μ0\boldsymbol{\mu_0}不确定,那么样本数据对均值估计的贡献就很大。

    我们令μ0=(0.1,0.1)T,Σ0=(100010)\boldsymbol{\mu }_{\boldsymbol{0}}=\left( 0.1, 0.1 \right) ^T, \boldsymbol{\Sigma _0}=\left( \begin{matrix} 10& 0\\ 0& 10\\ \end{matrix} \right),利用569名男生的身高体重数据得到μ^B=(173.46947368,65.98526316)T\boldsymbol{\hat{\mu}_B}=\left( 173.46947368, 65.98526316 \right) ^T,估计结果约等于样本均值。

​ 这里我们假设μ0=(0.01,0.01)T,Σ0=Σ=(1001)\boldsymbol{\mu }_{\boldsymbol{0}}=\left( 0.01, 0.01 \right) ^T, \boldsymbol{\Sigma _0}=\boldsymbol{\Sigma}=\left( \begin{matrix} ​ 1& 0\\ ​ 0& 1\\ \end{matrix} \right),利用569名男生和167名女生的身高体重数据,通过贝叶斯估计法得到的贝叶斯估计值μ^B\boldsymbol{\hat{\mu}_B}为:

​ 男生的身高体重的均值:(μ^B)boys=(173.46931579,65.98510526)T\boldsymbol{(\hat{\mu}_{B})}_{boys}=\left( 173.46931579, 65.98510526 \right) ^T

​ 女生的身高体重的均值:(μ^B)girls=(161.9464881,50.57446429)T\boldsymbol{(\hat{\mu}_{B})}_{girls}=\left( 161.9464881, 50.57446429 \right) ^T

4.4 最小错误率贝叶斯决策

​ 我们假定男女生身高体重服从二维正态分布,采用4.2中用最大似然估计法估计的参数:

p(xω1)N(μ^boys,Σ^boys)p(xω2)N(μ^girls,Σ^girls)p\left( \boldsymbol{x}\mid \omega _1 \right) \sim N\left( \boldsymbol{\hat{\mu}}_{boys},\mathbf{\hat{\Sigma}}_{boys} \right) \\ p\left( \boldsymbol{x}\mid \omega _2 \right) \sim N\left( \boldsymbol{\hat{\mu}}_{girls},\mathbf{\hat{\Sigma}}_{girls} \right)

​ 其中:

μ^boys=(173.7741652,66.10105448)TΣ^boys=(28.9424081326.1884630926.1884630986.79954195)μ^girls=(162.91616766,50.87724551)TΣ^girls=(21.190576937.648391847.6483918426.47445229)\begin{aligned} \boldsymbol{\hat{\mu}}_{boys}&=\left( 173.7741652,66.10105448 \right) ^T \\ \mathbf{\hat{\Sigma}}_{boys}&=\left( \begin{matrix} 28.94240813& 26.18846309\\ 26.18846309& 86.79954195\\ \end{matrix} \right) \\ \boldsymbol{\hat{\mu}}_{girls}&=\left( 162.91616766,50.87724551 \right) ^T \\ \mathbf{\hat{\Sigma}}_{girls}&=\left( \begin{matrix} 21.19057693& 7.64839184\\ 7.64839184& 26.47445229\\ \end{matrix} \right) \end{aligned}

​ 先验概率p(ωi)p\left( \omega_{i} \right)只需根据大量样本计算出各类样本在其中所占的比例:

p(ω1)=0.7730978260869565p(ω2)=0.22690217391304346\begin{aligned} p\left( \omega _1 \right) &=0.7730978260869565 \\ p\left( \omega _2 \right) &=0.22690217391304346 \end{aligned}

​ 根据3.2中推到的决策函数,可以绘制出分类决策面,并绘制男女生身高体重数据的散点图:

image-20201011001024236

显然,身高体重为(170, 52)和(178, 71)时都判断为男生。