贝叶斯决策

发表于 10-10-2020 更新于 02-02-2023 分类于机器学习

1. 贝叶斯决策

贝叶斯决策统计推断的一种重要方法。它在数据真实分布未知的情况下，先假定数据服从某种先验分布，再利用贝叶斯公式在得到数据后对先验分布进行修正，最终做出决策。这便是贝叶斯学派的观点。而频率学派则不考虑数据的先验分布，直接在得到的数据上做推断。

贝叶斯决策需要我们假定数据的先验概率 $p\left( \omega_{i} \right)$ 和类条件概率 $p\left( x|\omega_{i} \right)$ 已知，然后利用贝叶斯公式就可以通过观察得到的样本，把先验概率 $p\left( \omega_{i} \right)$ 转换为后验概率 $p\left( \omega_{i} |x\right)$ ，并挑取后验概率最大的类作为最后的决策。

贝叶斯公式：

$P\left( \omega _i\mid \boldsymbol{x} \right) =\frac{p\left( \boldsymbol{x}\mid \omega _i \right) P\left( \omega _i \right)}{p(\boldsymbol{x})}=\frac{p\left( \boldsymbol{x}\mid \omega _i \right) P\left( \omega _i \right)}{\sum_{j=1}^2{p}\left( \boldsymbol{x}\mid \omega _j \right) P\left( \omega _j \right)},\quad i=1,2,\cdots ,c$

决策规则：

$\text{若}P\left( \omega _i\mid \boldsymbol{x} \right) =\mathop {\max} \limits_{j=1,2,\cdots, c}P\left( \omega _j\mid \boldsymbol{x} \right) , \text{则} \boldsymbol{x}\in \omega _i$

由于 $P\left( \omega _i\mid \boldsymbol{x} \right)$ 的分母 $p(\boldsymbol{x})$ 对于每一个类都是相同的，因此决策规则常常也使用以下形式：

$\text{若}p\left( \boldsymbol{x}\mid \omega _i \right) P\left( \omega _i \right) =\mathop {\max} \limits_{j=1,2,\cdots ,c}P\left( \boldsymbol{x}\mid \omega _j \right) P\left( \omega _j \right) , \text{则} x\in \omega _i$

观察贝叶斯公式可以发现，分母只是作为概率的归一化，而并没有实际判决上的意义。因此仅通过观察 $p\left( \boldsymbol{x}\mid \omega _i \right) P\left( \omega _i \right)$ 就可以做出贝叶斯决策。对于 $p\left( \boldsymbol{x}\mid \omega _i \right) P\left( \omega _i \right)$ 的一种直观理解是：先假设是 $\omega _i$ 类的概率是 $P\left( \omega _i \right)$ ，再通过观察数据 $p\left( \boldsymbol{x}\mid \omega _i \right)$ 最终得到你在这组数据上对它的判断。

2. 参数估计

贝叶斯决策的基础是概率密度函数的估计,即根据一定的训练样本来估计统计决策中用到的先验概率 $p\left( \omega_{i} \right)$ 和类条件概率密度 $p\left( x|\omega_{i} \right)$ 。其中,先验概率的估计比较简单,通常只需根据大量样本计算出各类样本在其中所占的比例,或者根据对所研究问题的领域知识事先确定。因此，重点是类条件概率密度 $p\left( x|\omega_{i} \right)$ 的估计问题。

我们使用的是监督参数估计方法，即样本所属类别已知且类条件总体概率密度函数的形式已知，未知的只是表征概率密度函数的某些参数。例如我们已知（或假设）类条件概率 $p\left( x|\omega_{i} \right)$ 服从正态分布，只需要根据已知类别的样本估计均值和方差。因此把对分布概率密度 $p\left( x|\omega_{i} \right)$ 的估计问题转化为对参数的估计问题。

通常我们使用的参数估计方法有两种：最大似然估计和贝叶斯估计。两种方法的结果很接近，但是其中的思想却不同。一个根本的区别是，最大似然估计是把待估计的参数当作未知但固定的量，要做的是根据观测数据估计这个量的取值；而贝叶斯估计则是把待估计的参数本身也看作是随机变量，服从某种先验分布，再根据观测数据对参数的分布进行修正。

2.1 最大似然估计

在满足样本独立同分布且各类别的参数独立的情况下，可以使用最大似然估计对已知分布形式的参数进行估计。根据分布形式和样本集 $\mathscr{X}=\left\{\boldsymbol{x}_{1}, \boldsymbol{x}_{2}, \cdots, \boldsymbol{x}_{N}\right\}$ 可以列写出似然函数，将使似然函数极大化时的参数 $\hat{\theta }$ 作为对参数 $\theta$ 的估计。

似然函数：

$l(\theta)=p(\mathscr{X} \mid \theta)=p\left(\boldsymbol{x}_{1}, \boldsymbol{x}_{2}, \cdots, \boldsymbol{x}_{N} \mid \theta\right)=\prod_{i=1}^{N} p\left(\boldsymbol{x}_{i} \mid \theta\right)$

最大似然估计量：

$\hat{\theta}=\arg \max l(\theta)$

似然函数可以理解为在参数 $\theta$ 未知的情况下，样本从以参数为 $\theta$ 的分布中被抽取出来的概率。自然的想法是，样本从它真实的分布中被抽取出来的概率最大，因此使似然函数最大的参数 $\hat{\theta }$ 最有可能是真实的参数 $\theta$

有时为了计算的简便，可以定义对数似然函数：

$H(\theta)=\ln l(\theta)=\ln \prod_{i=1}^{N} p\left(\boldsymbol{x}_{i} \mid \theta\right)=\sum_{i=1}^{N} \ln p\left(\boldsymbol{x}_{i} \mid \theta\right)$

$\hat{\theta}=\arg \max H(\theta)$

2.2 贝叶斯估计

贝叶斯估计问题可以看作一个贝叶斯决策问题，但是这里要决策的不是离散的类别，而是参数的取值，是在连续的空间里做决策。对连续变量 $\theta$ ，我们假定把它估计为 $\hat{\theta }$ 所带来的损失为 $\lambda(\hat{\theta}, \theta)$ ，也称为损失函数。

设样本的取值空间是 $E^{d}$ ,参数的取值空间是 $\Theta$ ,那么,当用 $\hat{\theta}$ 来作为估计时总期望风险就是：

$\begin{aligned} R &=\int_{E^{d}} \int_{\Theta} \lambda(\hat{\theta}, \theta) p(\boldsymbol{x}, \theta) \mathrm{d} \theta \mathrm{d} \boldsymbol{x} \\ &=\int_{E^{d}} \int_{\Theta} \lambda(\hat{\theta}, \theta) p(\theta \mid \boldsymbol{x}) p(\boldsymbol{x}) \mathrm{d} \theta \mathrm{d} \boldsymbol{x} \end{aligned}$

我们定义在样本 $x$ 下的条件风险为：

$R(\hat{\theta} \mid \boldsymbol{x})=\int_{\boldsymbol{\theta}} \lambda(\hat{\theta}, \theta) p(\theta \mid \boldsymbol{x}) \mathrm{d} \theta$

那么,总风险就可以写成

$R=\int_{E^{d}} R(\hat{\theta} \mid x) p(x) d x$

由于条件风险非负，因此当所有样本的条件风险最小时可以得到最小总风险，此时的参数令为估计参数：

$\theta^{*}=\underset{\hat{\theta}}{\arg \min } R(\hat{\theta} \mid \mathscr{X})=\underset{\hat{\theta}}{\arg \min }\int_{\boldsymbol{\theta}} \lambda(\hat{\theta}, \theta) p(\theta \mid \mathscr{X}) \mathrm{d} \theta$

我们经常使用的损失函数为平方误差损失函数：

$\lambda(\hat{\theta}, \theta)=(\theta-\hat{\theta})^{2}$

综合上面各式，令 $\frac{d}{d\hat{\theta}}R(\hat{\theta}\mid \mathscr{X})=0$ ，解得 $\hat{\theta}$ 作为 $\theta ^*$ ，可以得到在平均误差损失函数下的贝叶斯估计量为：

$\theta^{*}=E[\theta \mid \mathscr{X}]=\int_{\boldsymbol{\theta}} \theta p(\theta \mid \mathscr{X}) \mathrm{d} \theta$

利用贝叶斯公式可求 $\theta$ 的后验概率分布：

$p(\theta \mid \mathscr{X})=\frac{p(\mathscr{X} \mid \theta) p(\theta)}{\int_{\boldsymbol{\theta}} p(\mathscr{X} \mid \theta) p(\theta) \mathrm{d} \theta}$

其中 $p(\theta)$ 是需要我们假设的参数的先验概率，这就体现了贝叶斯的思想：先假设再修正

3. 多元正态下的贝叶斯决策

3.1 多元正态分布

首先回顾一下多元正态分布的基础知识。

多元正态分布的概率密度函数定义为

$p(x)=\frac{1}{(2 \pi)^{d / 2}|\Sigma|^{1/2}} \exp \left\{-\frac{1}{2}(x-\mu)^{\mathrm{T}} \Sigma^{-1}(x-\mu)\right\}$

式中 : $x=\left[x_{1}, x_{2}, \cdots, x_{d}\right]^{\mathrm{T}}$ 是 $d$ 维列向量， $\boldsymbol{\mu}=\left[\mu_{1}, \mu_{2}, \cdots, \mu_{d}\right]^{\mathrm{T}}$ 是 $d$ 维均值向量， $\boldsymbol{\Sigma}$ 是对称矩阵。

$\begin{array}{l} \boldsymbol{\mu}=E\{\boldsymbol{x}\} \\ \boldsymbol{\Sigma}=E\left\{(\boldsymbol{x}-\boldsymbol{\mu})(\boldsymbol{x}-\boldsymbol{\mu})^{\mathrm{T}}\right\} \end{array}$

$\boldsymbol{\Sigma}=\left[\begin{array}{cccc} \sigma_{11}^{2} & \sigma_{12}^{2} & \cdots & \sigma_{1 d}^{2} \\ \sigma_{12}^{2} & \sigma_{22}^{2} & \cdots & \sigma_{2 d}^{2} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{1 d}^{2} & \sigma_{2 d}^{2} & \cdots & \sigma_{d d}^{2} \end{array}\right]$

3.2 多元正态贝叶斯决策

贝叶斯决策中的先验概率 $p\left( \omega_{i} \right)$ 只需根据大量样本计算出各类样本在其中所占的比例，或者根据对所研究问题的领域知识事先确定。类条件概率密度 $p\left( x|\omega_{i} \right)$ 我们假定服从正态分布，即 $p\left(\boldsymbol{x} \mid \omega_{i}\right) \sim N\left(\boldsymbol{\mu_{i}}, \boldsymbol{\Sigma_{i}}\right), i=1, \cdots, c$

根据贝叶斯决策的判别规则，可以定义判别函数如下：

$\begin{aligned} g_i(x)&=\ln \left[ p\left( x/\omega _i \right) \mathrm{P}\left( \omega _i \right) \right]\\ &=-\frac{1}{2}\left( x-\mu _i \right) ^T\Sigma _{i}^{-1}\left( x-\mu _i \right) -\frac{d}{2}\ln 2\pi -\frac{1}{2}\ln \left| \Sigma _i \right|+\ln\mathrm{P}\left( \omega _i \right)\\ \end{aligned}$

$-\frac{d}{2}\ln 2\pi $是一个参数，可以忽略。然后判别函数可以改写为下面形式

$\begin{aligned} g_{i}(\boldsymbol{x}) &=-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)^{\mathrm{T}} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)-\frac{1}{2} \ln \left|\boldsymbol{\Sigma}_{i}\right|+\ln P\left(\omega_{i}\right) \\ &=\boldsymbol{x}^{\mathrm{T}} \boldsymbol{W}_{i} \boldsymbol{x}+\boldsymbol{w}_{i}^{\mathrm{T}} \boldsymbol{x}+w_{i 0} \end{aligned}$

其中：

$\begin{aligned} &\boldsymbol{W}_{i}=-\frac{1}{2} \boldsymbol{\Sigma}_{i}^{-1} \quad(d \times d \text { 矩阵 })\\ &\boldsymbol{w}_{i}=\boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{\mu}_{i} \quad(d \text { 维列向量 })\\ &w_{i 0}=-\frac{1}{2} \mu_{i}^{\mathrm{T}} \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{\mu}_{i}-\frac{1}{2} \ln \left|\boldsymbol{\Sigma}_{i}\right|+\ln P\left(\omega_{i}\right) \end{aligned}$

判别规则：

$\text{若}g_i\left( \boldsymbol{x} \right) =\mathop {\max} \limits_{j=1,2}g_j\left( \boldsymbol{x} \right) ,\text{则}\boldsymbol{x}\in \omega _i$

决策面可以写成 $g_{i}(x)-g_{j}(x)=0$ ，即：

$\boldsymbol{x}^{\mathrm{T}}\left(\boldsymbol{W}_{i}-\boldsymbol{W}_{j}\right) \boldsymbol{x}+\left(w_{i}-\boldsymbol{w}_{j}\right)^{\mathrm{T}} \boldsymbol{x}+w_{i 0}-w_{j 0}=0$

决策面是一个超二次曲面

3.3 基于最大似然估计的多元正态分布参数估计

构建正态分布的对数似然函数：

$\begin{aligned} L\left( \mu , \Sigma \right) &=\sum_{i=1}^N{\begin{array}{c} \ln p\left( x_i \right)\\ \end{array}} \\ &=\sum_{i=1}^N{\left( -\frac{n}{2}\ln 2\pi -\frac{1}{2}\ln \left| \Sigma \right|-\frac{1}{2}\left( x_i-\mu \right) ^T\Sigma ^{-1}\left( x_i-\mu \right) \right)} \\ &=-\frac{Nn}{2}\ln 2\pi -\frac{N}{2}\ln \left| \Sigma \right|-\frac{1}{2}\sum_{i=1}^N{\left( x_i-\mu \right) ^T\Sigma ^{-1}\left( x_i-\mu \right)} \end{aligned}$

对 $L\left( \mu , \Sigma \right)$ 求微分：

$\begin{aligned} dL\left( \mu , \Sigma \right) &=-d\left( \frac{N}{2}\ln \left| \Sigma \right| \right) -\frac{1}{2}\sum_{i=1}^N{d\left( \left( x_i-\mu \right) ^T\Sigma ^{-1}\left( x_i-\mu \right) \right)} \\ &=-\frac{N}{2}\left| \Sigma \right|^{-1}d\left| \Sigma \right|-\frac{1}{2}\sum_{i=1}^N{\left( d\left( x_i-\mu \right) ^T\cdot \Sigma ^{-1}\left( x_i-\mu \right) +\left( x_i-\mu \right) ^T\cdot d\Sigma ^{-1}\cdot \left( x_i-\mu \right) +\left( x_i-\mu \right) ^T\Sigma ^{-1}\cdot d\left( x_i-\mu \right) \right)} \\ &=-\frac{N}{2}tr\left( \Sigma ^{-1}d\Sigma \right) -\frac{1}{2}\sum_{i=1}^N{\left( -d\mu ^T\cdot \Sigma ^{-1}\left( x_i-\mu \right) -\left( x_i-\mu \right) ^T\Sigma ^{-1}\cdot d\Sigma \cdot \Sigma ^{-1}\left( x_i-\mu \right) -\left( x_i-\mu \right) ^T\Sigma ^{-1}\cdot d\mu \right)} \\ &=-\frac{N}{2}tr\left( \Sigma ^{-1}d\Sigma \right) -\frac{1}{2}\sum_{i=1}^N{tr\left( -\left( \Sigma ^{-1}\left( x_i-\mu \right) \right) ^Td\mu -\Sigma ^{-1}\left( x_i-\mu \right) \left( x_i-\mu \right) ^T\Sigma ^{-1}\cdot d\Sigma -\left( x_i-\mu \right) ^T\Sigma ^{-1}\cdot d\mu \right)} \\ &=-\frac{N}{2}tr\left( \Sigma ^{-1}d\Sigma \right) -\frac{1}{2}\sum_{i=1}^N{tr\left( -\left( x_i-\mu \right) ^T\Sigma ^{-T}\cdot d\mu -\Sigma ^{-1}\left( x_i-\mu \right) \left( x_i-\mu \right) ^T\Sigma ^{-1}\cdot d\Sigma -\left( x_i-\mu \right) ^T\Sigma ^{-1}\cdot d\mu \right)} \\ &=tr\left( \sum_{i=1}^N{\left( x_i-\mu \right) ^T\Sigma ^{-1}}\cdot d\mu \right) +tr\left( -\frac{1}{2}\Sigma ^{-1}\left( N\Sigma -\sum_{i=1}^N{\left( x_i-\mu \right) \left( x_i-\mu \right) ^T} \right) \Sigma ^{-1}\cdot d\Sigma \right) \end{aligned}$

得到 $L\left( \mu , \Sigma \right)$ 的梯度矩阵，并令为0：

$\begin{aligned} \nabla _{\mu}L\left( \mu ,\Sigma \right) =\frac{\partial L\left( \mu ,\Sigma \right)}{\partial \mu}&=\left( \sum_{i=1}^N{\left( x_i-\mu \right) ^T\Sigma ^{-1}} \right) ^T=\sum_{i=1}^N{\Sigma ^{-1}\left( x_i-\mu \right)}=\Sigma ^{-1}\left( \sum_{i=1}^N{x_i}-N\mu \right) =0 \\ \nabla _{\Sigma}L\left( \mu ,\Sigma \right) =\frac{\partial L\left( \mu ,\Sigma \right)}{\partial \Sigma}&=\left( -\frac{1}{2}\Sigma ^{-1}\left( N\Sigma -\sum_{i=1}^N{\left( x_i-\mu \right) \left( x_i-\mu \right) ^T} \right) \Sigma ^{-1} \right) ^T=-\frac{1}{2}\Sigma ^{-1}\left( N\Sigma -\sum_{i=1}^N{\left( x_i-\mu \right) \left( x_i-\mu \right) ^T} \right) \Sigma ^{-1}=0 \end{aligned}$

从上式解得最大似然估计值如下所示：

$\begin{aligned} \hat{\mu}&=\frac{1}{N} \sum_{i=1}^{N} x_{i} \\ \hat{\Sigma}&=\frac{1}{N} \sum_{i=1}^{N}\left(x_{i}-\hat{\mu}\right)\left(x_{i}-\hat{\mu}\right)^{T} \end{aligned}$

3.4 基于贝叶斯估计的多元正态分布参数估计（仅估计均值）

设 $x$ 为d维随机向量,并且 $x \sim N(\mu, \Sigma),$ 其中 $\Sigma>0$ 已知。所以给定 $\mu$ 时， $x$ 的条件密度函数为：

$p(x\mid \mu )=\frac{1}{\left( 2\pi \right) ^{d/2}\left| \Sigma \right|^{1/2}}\exp \left( -\frac{1}{2}\left( x-\mu \right) ^T\cdot \Sigma ^{-1}\cdot \left( x-\mu \right) \right)$

设 $x_{1}, \cdots, x_{N}$ 为从正态总体 $x$ 中抽出的一组独立同分布样本。假设 $\mu$ 的先验分布为共轭先验，即 $\mu \sim N(\mu_0, \Sigma_0)$ ， $\mu_0, \Sigma_0$ 已知。 $\mu$ 密度函数为：

$p(\mu)=\frac{1}{\left( 2\pi \right) ^{d/2}\left| \Sigma _0 \right|^{1/2}}\exp \left( -\frac{1}{2}\left( \mu -\mu _0 \right) ^{T}\cdot \Sigma _{0}^{-1}\cdot \left( \mu -\mu _0 \right) \right)$

可以计算参数 $\mu$ 的后验分布：

$p(\mu \mid \mathscr{X})=\frac{p(\mathscr{X}\mid \mu )p(\mu )}{\int_{\boldsymbol{\mu }}{p}(\mathscr{X}\mid \mu )p(\mu )\mathrm{d}\mu}$

其中 $\int_{\boldsymbol{\theta }}{p}(\mathscr{X}\mid \mu )p(\mu )\mathrm{d}\mu $ 与参数 $\mu$ 无关：

$\begin{aligned} p(\mu \mid \mathscr{X})&\propto p(\mathscr{X}\mid \mu )p(\mu ) \\ &=\prod_{i=1}^N{p(x_i\mid \mu )}\cdot p(\mu ) \\ &=\prod_{i=1}^N{\frac{1}{(2\pi )^{d/2}|\Sigma |^{1/2}}\exp \left\{ -\frac{1}{2}(x_i-\mu )^T\Sigma ^{-1}(x_i-\mu ) \right\}}\cdot \frac{1}{\left( 2\pi \right) ^{d/2}\left| \Sigma _0 \right|^{1/2}}\exp \left( -\frac{1}{2}\left( \mu -\mu _0 \right) ^T\cdot \Sigma _{0}^{-1}\cdot \left( \mu -\mu _0 \right) \right) \\ &=\frac{1}{(2\pi )^{d/2}|\Sigma |^{1/2}}\frac{1}{\left( 2\pi \right) ^{d/2}\left| \Sigma _0 \right|^{1/2}}\exp \left\{ -\frac{1}{2}\left( \sum_{i=1}^N{(x_i-\mu )^T\Sigma ^{-1}(x_i-\mu )}+\left( \mu -\mu _0 \right) ^T\cdot \Sigma _{0}^{-1}\cdot \left( \mu -\mu _0 \right) \right) \right\} \\ &\propto \exp \left( -\frac{1}{2}\left( \mu -\mu _N \right) ^T\cdot \Sigma _{N}^{-1}\cdot \left( \mu -\mu _N \right) \right) \end{aligned}$

其中：

$\begin{aligned} \Sigma _N&=\left( N\Sigma ^{-1}+\Sigma _{0}^{-1} \right) ^{-1} \\ \mu _N&=\Sigma _N\left( \Sigma ^{-1}\sum_{i=1}^N{x_i}+\Sigma _{0}^{-1}\mu _0 \right) \end{aligned}$

添加归一化常数因子后，可得参数均值的后验概率密度函数：

$p(\mu \mid \mathscr{X})=\frac{1}{\left( 2\pi \right) ^{d/2}\left| \Sigma _N \right|^{1/2}}\exp \left( -\frac{1}{2}\left( \mu -\mu _N \right) ^T\cdot \Sigma _{N}^{-1}\cdot \left( \mu -\mu _N \right) \right)$

也就是说，待估计的样本密度函数的均值参数服从均值为 $\mu _N$ ，方差为 $\Sigma _N$ 的正态分布。所以在二次损失下， $\mu$ 的贝叶斯估计为：

$\hat{\mu}_B=E(\mu \mid \mathscr{X})=\mu _N=\Sigma _N\left( \Sigma ^{-1}\sum_{i=1}^N{x_i}+\Sigma _{0}^{-1}\mu _0 \right) =N\Sigma _N\Sigma ^{-1}\cdot \frac{1}{N}\sum_{i=1}^N{x_i}+\Sigma _N\Sigma _{0}^{-1}\mu _0$

贝叶斯估计值 $\hat{\mu}_B$ 是样本均值 $\frac{1}{N}\sum_{i=1}^N{x_i}$ 和先验均值 $\mu _0$ 的加权平均。

4. 实验

以50m为例，画出男女生50m成绩的直方图并做对比；
采用最大似然估计方法，求男女生身高以及体重分布的参数，以及50m成绩的分布参数；
采用贝叶斯估计方法，求男女生身高以及体重分布的参数（方差已知，注明自己选定的参数情况）；
基于身高和体重，采用最小错误率贝叶斯决策，画出类别判定的决策面。并判断某样本的身高体重分别为(170,52)时应该属于男生还是女生？为(178,71)时呢？

4.1 男女生50m成绩直方图

总共统计到208名同学的50m成绩，其中男生166人，女生42人。从上面直方图分析可知，男生50m成绩要好于女生，男生成绩大多在7～8s之间，而女生成绩大多分布在8～9s

4.2 最大似然估计男女生身高以及体重分布的参数，以及50m成绩的分布参数

我们认为身高和体重是一组2维特征，因此使用3.3中推导的结论：假设男（女）生的身高和体重服从二维正态分布，则均值和方差的最大似然估计值如下所示：

$\begin{aligned} \boldsymbol{\hat{\mu}}&=\frac{1}{N} \sum_{i=1}^{N} \boldsymbol{x}_{i} \\ \boldsymbol{\hat{\Sigma}}&=\frac{1}{N} \sum_{i=1}^{N}\left(\boldsymbol{x}_{i}-\boldsymbol{\hat{\mu}}\right)\left(\boldsymbol{x}_{i}-\boldsymbol{\hat{\mu}}\right)^{T} \end{aligned}$

其中 $\boldsymbol{x}_i=\left( x_{i}^{\left( 1 \right)},x_{i}^{\left( 2 \right)} \right) ^T$ ， $x_{i}^{\left( 1 \right)}$ 和 $x_{i}^{\left( 2 \right)}$ 分别是第 $i$ 名男（女）生的身高和体重。

基于569名男生和167名女生的身高体重数据，通过极大似然估计法得到：

男生的身高体重的均值： $\boldsymbol{\hat{\mu}}_{boys}=\left( 173.7741652, 66.10105448 \right) ^T$

男生的身高体重的方差： $\boldsymbol{\hat{\Sigma}}_{boys}=\left( \begin{matrix} 28.94240813& 26.18846309\\ 26.18846309& 86.79954195\\ \end{matrix} \right)$

女生的身高体重的均值： $\boldsymbol{\hat{\mu}}_{girls}=\left( 162.91616766, 50.87724551 \right) ^T$

女生的身高体重的方差： $\boldsymbol{\hat{\Sigma}}_{girls}=\left( \begin{matrix} 21.19057693& 7.64839184\\ 7.64839184& 26.47445229\\ \end{matrix} \right)$

同样，我们对男（女）生的50m成绩做了极大似然估计。这里假定男（女）生的50m成绩服从一维正态分布，基于166名男生和42名女生的50m成绩，利用极大似然估计法得到的均值方差如下所示：

男生50m成绩的均值：7.42210843

男生50m成绩的方差：0.28690098

女生50m成绩的均值：8.4702381

女生50m成绩的方差：1.02012613

4.3 贝叶斯估计男女生身高以及体重分布的参数（方差已知，注明自己选定的参数情况）

我们认为身高和体重是一组2维特征，因此使用3.4中推导的结论：假设男（女）生的身高和体重服从二维正态分布 $N(\boldsymbol{\mu}, \boldsymbol{\Sigma})$ ，待估计参数 $\mu$ 的先验分布为 $N(\boldsymbol{\mu_0}, \boldsymbol{\Sigma_0})$ ，则平方误差下，均值 $\boldsymbol{\mu}$ 的贝叶斯估计值为：

$\boldsymbol{\hat{\mu}_B}=N\boldsymbol{\Sigma _N\Sigma} ^{-1}\cdot \frac{1}{N}\sum_{i=1}^N{\boldsymbol{x}_i}+\boldsymbol{\Sigma _N\Sigma _{0}}^{-1}\mu _0$

贝叶斯估计值 $\boldsymbol{\hat{\mu}_B}$ 是样本均值 $\frac{1}{N}\sum_{i=1}^N{\boldsymbol{x_i}}$ 和先验均值 $\boldsymbol{\mu _0}$ 的加权平均，这里我们需要对待估计参数 $\boldsymbol{\mu}$ 的先验分布参数 $\boldsymbol{\mu_0, \Sigma_0}$ 和 $\boldsymbol{x}$ 的先验分布参数 $\boldsymbol{\Sigma}$ 做出合理的假设。可以预见，不同的假设可能带来不同的参数估计结果。

当 $\mu$ 的先验方差 $\boldsymbol{\Sigma_0}$ 很小时，说明对 $\boldsymbol{\mu_0}$ 非常确定，那么样本数据对均值估计的贡献就很小。

我们令 $\boldsymbol{\mu }_{\boldsymbol{0}}=\left( 0.1, 0.1 \right) ^T, \boldsymbol{\Sigma _0}=\left( \begin{matrix} 1\times 10^{-5}& 0\\ 0& 1\times 10^{-5}\\ \end{matrix} \right)$ ，利用569名男生的身高体重数据得到 $\boldsymbol{\hat{\mu}_B}=\left( 0.10000099, 0.10000038 \right) ^T$ ，显然估计结果约等于先验假设。
当 $\mu$ 的先验方差 $\boldsymbol{\Sigma_0}$ 很大时，说明对 $\boldsymbol{\mu_0}$ 不确定，那么样本数据对均值估计的贡献就很大。

我们令 $\boldsymbol{\mu }_{\boldsymbol{0}}=\left( 0.1, 0.1 \right) ^T, \boldsymbol{\Sigma _0}=\left( \begin{matrix} 10& 0\\ 0& 10\\ \end{matrix} \right)$ ，利用569名男生的身高体重数据得到 $\boldsymbol{\hat{\mu}_B}=\left( 173.46947368, 65.98526316 \right) ^T$ ，估计结果约等于样本均值。

这里我们假设 $\boldsymbol{\mu }_{\boldsymbol{0}}=\left( 0.01, 0.01 \right) ^T, \boldsymbol{\Sigma _0}=\boldsymbol{\Sigma}=\left( \begin{matrix} 1& 0\\ 0& 1\\ \end{matrix} \right)$ ，利用569名男生和167名女生的身高体重数据，通过贝叶斯估计法得到的贝叶斯估计值 $\boldsymbol{\hat{\mu}_B}$ 为：

男生的身高体重的均值： $\boldsymbol{(\hat{\mu}_{B})}_{boys}=\left( 173.46931579, 65.98510526 \right) ^T$

女生的身高体重的均值： $\boldsymbol{(\hat{\mu}_{B})}_{girls}=\left( 161.9464881, 50.57446429 \right) ^T$

4.4 最小错误率贝叶斯决策

我们假定男女生身高体重服从二维正态分布，采用4.2中用最大似然估计法估计的参数：

$p\left( \boldsymbol{x}\mid \omega _1 \right) \sim N\left( \boldsymbol{\hat{\mu}}_{boys},\mathbf{\hat{\Sigma}}_{boys} \right) \\ p\left( \boldsymbol{x}\mid \omega _2 \right) \sim N\left( \boldsymbol{\hat{\mu}}_{girls},\mathbf{\hat{\Sigma}}_{girls} \right)$

其中：

$\begin{aligned} \boldsymbol{\hat{\mu}}_{boys}&=\left( 173.7741652,66.10105448 \right) ^T \\ \mathbf{\hat{\Sigma}}_{boys}&=\left( \begin{matrix} 28.94240813& 26.18846309\\ 26.18846309& 86.79954195\\ \end{matrix} \right) \\ \boldsymbol{\hat{\mu}}_{girls}&=\left( 162.91616766,50.87724551 \right) ^T \\ \mathbf{\hat{\Sigma}}_{girls}&=\left( \begin{matrix} 21.19057693& 7.64839184\\ 7.64839184& 26.47445229\\ \end{matrix} \right) \end{aligned}$

先验概率 $p\left( \omega_{i} \right)$ 只需根据大量样本计算出各类样本在其中所占的比例：

$\begin{aligned} p\left( \omega _1 \right) &=0.7730978260869565 \\ p\left( \omega _2 \right) &=0.22690217391304346 \end{aligned}$

根据3.2中推到的决策函数，可以绘制出分类决策面，并绘制男女生身高体重数据的散点图：

显然，身高体重为(170, 52)和(178, 71)时都判断为男生。