P251 命题2
This commit is contained in:
1
.gitignore
vendored
Normal file
1
.gitignore
vendored
Normal file
@ -0,0 +1 @@
|
|||||||
|
t.md
|
||||||
235
P251 命题2/P251 命题2.md
Normal file
235
P251 命题2/P251 命题2.md
Normal file
@ -0,0 +1,235 @@
|
|||||||
|
## 命题 2 的内容
|
||||||
|
|
||||||
|
假设 \( (r, g) \) 服从联合正态分布,那么:
|
||||||
|
|
||||||
|
1. \(\hat{r}\) 是已知 \(g\) 条件下 \(r\) 的最大似然估计(MLE)。
|
||||||
|
2. \(\hat{r} = E[r|g]\)(条件期望)。
|
||||||
|
3. \(\text{Var}[r|g] = \text{Var}[r] - \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot \text{Cov}[g,r]\)。
|
||||||
|
4. \(\hat{r}\) 在所有无偏估计(不限于线性)中具有最小均方误差。
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
## 记号与已知公式
|
||||||
|
|
||||||
|
令
|
||||||
|
|
||||||
|
\[
|
||||||
|
p = r - E[r], \quad s = g - E[g]
|
||||||
|
\]
|
||||||
|
联合向量
|
||||||
|
|
||||||
|
\[
|
||||||
|
x = \begin{bmatrix} p \\ s \end{bmatrix}
|
||||||
|
\]
|
||||||
|
协方差矩阵
|
||||||
|
|
||||||
|
\[
|
||||||
|
V = \text{Var} \begin{bmatrix} p \\ s \end{bmatrix}
|
||||||
|
= \begin{bmatrix}
|
||||||
|
\text{Var}[r] & \text{Cov}[r, g] \\
|
||||||
|
\text{Cov}[g, r] & \text{Var}[g]
|
||||||
|
\end{bmatrix}
|
||||||
|
\]
|
||||||
|
记
|
||||||
|
|
||||||
|
\[
|
||||||
|
V^{-1} = Q = \begin{bmatrix}
|
||||||
|
Q_{rr} & Q_{rs} \\
|
||||||
|
Q_{sr} & Q_{ss}
|
||||||
|
\end{bmatrix}
|
||||||
|
\]
|
||||||
|
其中 \(Q_{rr}\) 是 \(N\times N\),\(Q_{ss}\) 是 \(K\times K\) 等。
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
## 最大似然估计(结论 1)
|
||||||
|
|
||||||
|
\[
|
||||||
|
x = \begin{bmatrix} p \\ s \end{bmatrix}
|
||||||
|
\]
|
||||||
|
服从均值 \(0\)、协方差矩阵 \(V\) 的多元正态分布,其概率密度函数为:
|
||||||
|
|
||||||
|
\[
|
||||||
|
f(x) = \frac{1}{\sqrt{(2\pi)^{N+K} \det(V)}} \exp\left( -\frac12 \, x^T V^{-1} x \right)
|
||||||
|
\]
|
||||||
|
其中 \(V^{-1} = Q\)。
|
||||||
|
|
||||||
|
因此联合密度:
|
||||||
|
|
||||||
|
\[
|
||||||
|
f(p,s) \propto \exp\left( -\frac12 \begin{bmatrix} p^T & s^T \end{bmatrix} Q \begin{bmatrix} p \\ s \end{bmatrix} \right)
|
||||||
|
\]
|
||||||
|
|
||||||
|
即
|
||||||
|
|
||||||
|
\[
|
||||||
|
f(r,g) \propto \exp\left( -\frac12 \big[ p^T Q_{rr} p + p^T Q_{rs} s + s^T Q_{sr} p + s^T Q_{ss} s \big] \right)
|
||||||
|
\]
|
||||||
|
注意 \(Q_{rs} = Q_{sr}^T\),所以
|
||||||
|
|
||||||
|
\[
|
||||||
|
p^T Q_{rs} s + s^T Q_{sr} p = 2 p^T Q_{rs} s
|
||||||
|
\]
|
||||||
|
因此指数部分为
|
||||||
|
|
||||||
|
\[
|
||||||
|
p^T Q_{rr} p + 2 p^T Q_{rs} s + s^T Q_{ss} s
|
||||||
|
\]
|
||||||
|
|
||||||
|
似然函数(给定 \(g\) 即 \(s\) 时,关于 \(r\) 即 \(p\)):
|
||||||
|
|
||||||
|
\[
|
||||||
|
L(r|g) \propto \exp\left( -\frac12 \big[ p^T Q_{rr} p + 2 p^T Q_{rs} s + s^T Q_{ss} s \big] \right)
|
||||||
|
\]
|
||||||
|
由于 \(s\) 固定,\(s^T Q_{ss} s\) 是常数,不影响 \(p\) 的优化。
|
||||||
|
|
||||||
|
最大化 \(L(r|g)\) 等价于**最小化指数部分**(因为负指数,指数越小,概率密度越大):
|
||||||
|
|
||||||
|
\[
|
||||||
|
\min_p \left[ p^T Q_{rr} p + 2 p^T Q_{rs} s + s^T Q_{ss} s \right]
|
||||||
|
\]
|
||||||
|
|
||||||
|
固定 \(s\)(即固定 \(g\)),最大化似然等价于最小化
|
||||||
|
|
||||||
|
\[
|
||||||
|
J(p) = p^T Q_{rr} p + 2 p^T Q_{rs} s + s^T Q_{ss} s
|
||||||
|
\]
|
||||||
|
对 \(p\) 求导(向量导数):
|
||||||
|
|
||||||
|
\[
|
||||||
|
\frac{\partial J}{\partial p} = 2 Q_{rr} p + 2 Q_{rs} s = 0
|
||||||
|
\]
|
||||||
|
|
||||||
|
\[
|
||||||
|
Q_{rr} p + Q_{rs} s = 0
|
||||||
|
\]
|
||||||
|
|
||||||
|
\[
|
||||||
|
p^* = - Q_{rr}^{-1} Q_{rs} s
|
||||||
|
\]
|
||||||
|
因此
|
||||||
|
|
||||||
|
\[
|
||||||
|
r^* = E[r] + p^* = E[r] - Q_{rr}^{-1} Q_{rs} (g - E[g])
|
||||||
|
\]
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
### 与线性估计 \(\hat{r}\) 的等价性(式 10A-15)
|
||||||
|
|
||||||
|
已知命题 1 给出
|
||||||
|
|
||||||
|
\[
|
||||||
|
\hat{r} = E[r] + \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot (g - E[g])
|
||||||
|
\]
|
||||||
|
比较 \(r^*\) 与 \(\hat{r}\),只需证明
|
||||||
|
|
||||||
|
\[
|
||||||
|
\text{Cov}[r,g] \cdot \text{Var}^{-1}[g] = - Q_{rr}^{-1} Q_{rs}
|
||||||
|
\]
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
设
|
||||||
|
|
||||||
|
\[
|
||||||
|
V = \begin{bmatrix}
|
||||||
|
V_{rr} & V_{rs} \\
|
||||||
|
V_{sr} & V_{ss}
|
||||||
|
\end{bmatrix}
|
||||||
|
\]
|
||||||
|
其中
|
||||||
|
|
||||||
|
\[
|
||||||
|
V_{rr} = \text{Var}[r], \quad V_{rs} = \text{Cov}[r,g], \quad V_{sr} = V_{rs}^T, \quad V_{ss} = \text{Var}[g]
|
||||||
|
\]
|
||||||
|
已知 \(V^{-1} = Q = \begin{bmatrix} Q_{rr} & Q_{rs} \\ Q_{sr} & Q_{ss} \end{bmatrix}\)。
|
||||||
|
|
||||||
|
标准分块矩阵求逆公式(当 \(V_{ss}\) 可逆时):
|
||||||
|
|
||||||
|
\[
|
||||||
|
Q_{rr} = (V_{rr} - V_{rs} V_{ss}^{-1} V_{sr})^{-1}
|
||||||
|
\]
|
||||||
|
|
||||||
|
\[
|
||||||
|
Q_{rs} = - Q_{rr} \, V_{rs} \, V_{ss}^{-1}
|
||||||
|
\]
|
||||||
|
|
||||||
|
\[
|
||||||
|
Q_{sr} = - V_{ss}^{-1} V_{sr} \, Q_{rr} \quad (\text{不过这里用不到})
|
||||||
|
\]
|
||||||
|
|
||||||
|
\[
|
||||||
|
Q_{ss} = V_{ss}^{-1} + V_{ss}^{-1} V_{sr} \, Q_{rr} \, V_{rs} V_{ss}^{-1}
|
||||||
|
\]
|
||||||
|
|
||||||
|
先看这个式子:
|
||||||
|
|
||||||
|
\[
|
||||||
|
Q_{rs} = - Q_{rr} \, V_{rs} \, V_{ss}^{-1}
|
||||||
|
\]
|
||||||
|
|
||||||
|
两边左乘 \(- Q_{rr}^{-1}\):
|
||||||
|
|
||||||
|
|
||||||
|
\[
|
||||||
|
- Q_{rr}^{-1} Q_{rs} = - Q_{rr}^{-1} \big[ - Q_{rr} \, V_{rs} \, V_{ss}^{-1} \big]
|
||||||
|
\]
|
||||||
|
|
||||||
|
\[
|
||||||
|
- Q_{rr}^{-1} Q_{rs} = Q_{rr}^{-1} Q_{rr} \, V_{rs} \, V_{ss}^{-1}
|
||||||
|
\]
|
||||||
|
|
||||||
|
因为 \(Q_{rr}^{-1} Q_{rr} = I\),所以:
|
||||||
|
|
||||||
|
|
||||||
|
\[
|
||||||
|
- Q_{rr}^{-1} Q_{rs} = I \, V_{rs} \, V_{ss}^{-1} = V_{rs} V_{ss}^{-1}
|
||||||
|
\]
|
||||||
|
|
||||||
|
化简:
|
||||||
|
|
||||||
|
\[
|
||||||
|
- Q_{rr}^{-1} Q_{rs} = V_{rs} V_{ss}^{-1}
|
||||||
|
\]
|
||||||
|
即
|
||||||
|
|
||||||
|
\[
|
||||||
|
\text{Cov}[r,g] \cdot \text{Var}^{-1}[g] = - Q_{rr}^{-1} Q_{rs}
|
||||||
|
\]
|
||||||
|
证毕。
|
||||||
|
|
||||||
|
因此 \(r^* = \hat{r}\),即 \(\hat{r}\) 是已知 \(g\) 时 \(r\) 的 MLE。结论 1 得证。
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
## 结论 2 与 3(条件期望与条件方差)
|
||||||
|
|
||||||
|
对于联合正态分布,条件分布 \(r|g\) 也是正态的,且
|
||||||
|
|
||||||
|
\[
|
||||||
|
E[r|g] = E[r] + \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot (g - E[g])
|
||||||
|
\]
|
||||||
|
这正是 \(\hat{r}\),所以结论 2 成立。
|
||||||
|
|
||||||
|
条件方差公式:
|
||||||
|
|
||||||
|
\[
|
||||||
|
\text{Var}[r|g] = \text{Var}[r] - \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot \text{Cov}[g,r]
|
||||||
|
\]
|
||||||
|
这正好是 \(Q_{rr}^{-1}\)(上面已出现),因为
|
||||||
|
|
||||||
|
\[
|
||||||
|
Q_{rr}^{-1} = V_{rr} - V_{rs} V_{ss}^{-1} V_{sr}
|
||||||
|
\]
|
||||||
|
结论 3 得证。
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
## 结论 4(最小均方误差无偏估计)
|
||||||
|
|
||||||
|
1. 在联合正态分布下,\(g\) 是 \(r\) 的充分统计量(由因子分解定理)。
|
||||||
|
2. 正态分布是指数族,且参数空间包含开集,因此 \(g\) 是完备的充分统计量。
|
||||||
|
3. \(\hat{r} = E[r|g]\) 是 \(g\) 的函数,且是无偏估计。
|
||||||
|
4. 由 **Lehmann–Scheffé 定理**,如果一个无偏估计是完备充分统计量的函数,那么它是 UMVUE。
|
||||||
|
5. 因此 \(\hat{r}\) 是 UMVUE。
|
||||||
228
P251 命题2/联合正态分布下的条件期望与条件方差公式.md
Normal file
228
P251 命题2/联合正态分布下的条件期望与条件方差公式.md
Normal file
@ -0,0 +1,228 @@
|
|||||||
|
# 联合正态分布下的条件期望与条件方差公式
|
||||||
|
|
||||||
|
## 已知条件与记号
|
||||||
|
|
||||||
|
设
|
||||||
|
|
||||||
|
\[
|
||||||
|
x = \begin{bmatrix} r \\ g \end{bmatrix}
|
||||||
|
\]
|
||||||
|
服从联合正态分布,均值向量
|
||||||
|
|
||||||
|
\[
|
||||||
|
\mu = \begin{bmatrix} \mu_r \\ \mu_g \end{bmatrix}
|
||||||
|
\]
|
||||||
|
协方差矩阵
|
||||||
|
|
||||||
|
\[
|
||||||
|
\Sigma = \begin{bmatrix}
|
||||||
|
\Sigma_{rr} & \Sigma_{rg} \\
|
||||||
|
\Sigma_{gr} & \Sigma_{gg}
|
||||||
|
\end{bmatrix}
|
||||||
|
\]
|
||||||
|
其中
|
||||||
|
|
||||||
|
\[
|
||||||
|
\Sigma_{rr} = \text{Var}[r], \quad \Sigma_{rg} = \text{Cov}[r,g], \quad \Sigma_{gr} = \Sigma_{rg}^T, \quad \Sigma_{gg} = \text{Var}[g]
|
||||||
|
\]
|
||||||
|
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
## 联合分布与精度矩阵
|
||||||
|
|
||||||
|
设联合精度矩阵为
|
||||||
|
|
||||||
|
\[
|
||||||
|
\Lambda = \Sigma^{-1} = \begin{bmatrix} \Lambda_{rr} & \Lambda_{rg} \\ \Lambda_{gr} & \Lambda_{gg} \end{bmatrix}
|
||||||
|
\]
|
||||||
|
|
||||||
|
联合概率密度函数(忽略常数):
|
||||||
|
|
||||||
|
\[
|
||||||
|
p(r, g) \propto \exp\left[ -\frac{1}{2} (x - \mu)^T \Lambda (x - \mu) \right]
|
||||||
|
\]
|
||||||
|
|
||||||
|
### 展开二次型
|
||||||
|
|
||||||
|
令
|
||||||
|
|
||||||
|
\[
|
||||||
|
y = r - \mu_r, \quad z = g - \mu_g
|
||||||
|
\]
|
||||||
|
则
|
||||||
|
|
||||||
|
\[
|
||||||
|
(x - \mu) = \begin{bmatrix} y \\ z \end{bmatrix}
|
||||||
|
\]
|
||||||
|
二次型:
|
||||||
|
|
||||||
|
\[
|
||||||
|
(x - \mu)^T \Lambda (x - \mu)
|
||||||
|
= \begin{bmatrix} y^T & z^T \end{bmatrix}
|
||||||
|
\begin{bmatrix} \Lambda_{rr} & \Lambda_{rg} \\ \Lambda_{gr} & \Lambda_{gg} \end{bmatrix}
|
||||||
|
\begin{bmatrix} y \\ z \end{bmatrix}
|
||||||
|
\]
|
||||||
|
|
||||||
|
\[
|
||||||
|
= y^T \Lambda_{rr} y + y^T \Lambda_{rg} z + z^T \Lambda_{gr} y + z^T \Lambda_{gg} z
|
||||||
|
\]
|
||||||
|
因为 \(\Lambda_{gr} = \Lambda_{rg}^T\),且结果为标量,所以中间两项相等:
|
||||||
|
|
||||||
|
\[
|
||||||
|
y^T \Lambda_{rg} z + z^T \Lambda_{gr} y = 2 y^T \Lambda_{rg} z
|
||||||
|
\]
|
||||||
|
因此:
|
||||||
|
|
||||||
|
\[
|
||||||
|
(x - \mu)^T \Lambda (x - \mu) = y^T \Lambda_{rr} y + 2 y^T \Lambda_{rg} z + z^T \Lambda_{gg} z
|
||||||
|
\]
|
||||||
|
|
||||||
|
### 固定 \(g\) 时的条件分布
|
||||||
|
|
||||||
|
固定 \(g\) 意味着 \(z\) 固定。将上述表达式视为 \(y\) 的函数:
|
||||||
|
|
||||||
|
\[
|
||||||
|
p(r \mid g) \propto \exp\left[ -\frac12 \left( y^T \Lambda_{rr} y + 2 y^T \Lambda_{rg} z + z^T \Lambda_{gg} z \right) \right]
|
||||||
|
\]
|
||||||
|
与 \(y\) 无关的项 \(z^T \Lambda_{gg} z\) 可提到比例常数中:
|
||||||
|
|
||||||
|
\[
|
||||||
|
p(r \mid g) \propto \exp\left[ -\frac12 \left( y^T \Lambda_{rr} y + 2 y^T \Lambda_{rg} z \right) \right]
|
||||||
|
\]
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
## 配方法找条件均值与条件精度
|
||||||
|
|
||||||
|
对 \(y\) 的二次型加线性项配方:
|
||||||
|
|
||||||
|
\[
|
||||||
|
y^T \Lambda_{rr} y + 2 y^T \Lambda_{rg} z
|
||||||
|
= (y - m)^T \Lambda_{rr} (y - m) - m^T \Lambda_{rr} m
|
||||||
|
\]
|
||||||
|
其中 \(m\) 满足:
|
||||||
|
|
||||||
|
\[
|
||||||
|
\Lambda_{rr} m = - \Lambda_{rg} z
|
||||||
|
\]
|
||||||
|
即:
|
||||||
|
|
||||||
|
\[
|
||||||
|
m = - \Lambda_{rr}^{-1} \Lambda_{rg} z
|
||||||
|
\]
|
||||||
|
(注意:这里 \(m\) 是给定 \(g\) 时 \(y\) 的条件均值。)
|
||||||
|
|
||||||
|
于是:
|
||||||
|
|
||||||
|
\[
|
||||||
|
p(r \mid g) \propto \exp\left[ -\frac12 (y - m)^T \Lambda_{rr} (y - m) \right]
|
||||||
|
\]
|
||||||
|
因为 \(- m^T \Lambda_{rr} m\) 与 \(y\) 无关,被吸收进归一化常数。
|
||||||
|
|
||||||
|
---
|
||||||
|
## 条件期望
|
||||||
|
|
||||||
|
由于 \(y = r - \mu_r\),\(z = g - \mu_g\),且条件分布为:
|
||||||
|
|
||||||
|
\[
|
||||||
|
p(r \mid g) \propto \exp\left[ -\frac12 (y - m)^T \Lambda_{rr} (y - m) \right]
|
||||||
|
\]
|
||||||
|
这表示 \(r \mid g \sim N(\mu_r + m, \Lambda_{rr}^{-1})\)
|
||||||
|
|
||||||
|
因此:
|
||||||
|
|
||||||
|
\[
|
||||||
|
E[r \mid g] = \mu_r + m = \mu_r - \Lambda_{rr}^{-1} \Lambda_{rg} (g - \mu_g)
|
||||||
|
\]
|
||||||
|
|
||||||
|
### 用分块矩阵求逆公式简化
|
||||||
|
|
||||||
|
由分块矩阵求逆公式:
|
||||||
|
|
||||||
|
\[
|
||||||
|
\Lambda_{rg} = - \Lambda_{rr} \Sigma_{rg} \Sigma_{gg}^{-1}
|
||||||
|
\]
|
||||||
|
代入上式:
|
||||||
|
|
||||||
|
\[
|
||||||
|
E[r \mid g] = \mu_r - \Lambda_{rr}^{-1} ( - \Lambda_{rr} \Sigma_{rg} \Sigma_{gg}^{-1} ) (g - \mu_g)
|
||||||
|
\]
|
||||||
|
|
||||||
|
\[
|
||||||
|
= \mu_r + \Sigma_{rg} \Sigma_{gg}^{-1} (g - \mu_g)
|
||||||
|
\]
|
||||||
|
|
||||||
|
### 条件期望公式
|
||||||
|
|
||||||
|
|
||||||
|
\[
|
||||||
|
E[r \mid g] = \mu_r + \Sigma_{rg} \Sigma_{gg}^{-1} (g - \mu_g)
|
||||||
|
\]
|
||||||
|
即:
|
||||||
|
|
||||||
|
\[
|
||||||
|
E[r \mid g] = E[r] + \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot (g - E[g])
|
||||||
|
\]
|
||||||
|
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
## 条件方差
|
||||||
|
由
|
||||||
|
|
||||||
|
\[
|
||||||
|
p(r \mid g) \propto \exp\left[ -\frac12 (y - m)^T \Lambda_{rr} (y - m) \right]
|
||||||
|
\]
|
||||||
|
|
||||||
|
可得:
|
||||||
|
- 条件精度矩阵 = \(\Lambda_{rr}\)
|
||||||
|
- 条件协方差矩阵 = \((\Lambda_{rr})^{-1}\)
|
||||||
|
|
||||||
|
因此:
|
||||||
|
|
||||||
|
\[
|
||||||
|
\text{Var}[r \mid g] = \Lambda_{rr}^{-1}
|
||||||
|
\]
|
||||||
|
|
||||||
|
|
||||||
|
### 分块矩阵求逆公式
|
||||||
|
|
||||||
|
已知分块矩阵求逆公式(当 \(\Sigma_{gg}\) 可逆时):
|
||||||
|
|
||||||
|
\[
|
||||||
|
\Lambda_{rr} = (\Sigma_{rr} - \Sigma_{rg} \Sigma_{gg}^{-1} \Sigma_{gr})^{-1}
|
||||||
|
\]
|
||||||
|
|
||||||
|
\[
|
||||||
|
\Lambda_{rg} = - \Lambda_{rr} \, \Sigma_{rg} \, \Sigma_{gg}^{-1}
|
||||||
|
\]
|
||||||
|
|
||||||
|
\[
|
||||||
|
\Lambda_{gr} = - \Sigma_{gg}^{-1} \Sigma_{gr} \, \Lambda_{rr}
|
||||||
|
\]
|
||||||
|
|
||||||
|
\[
|
||||||
|
\Lambda_{gg} = \Sigma_{gg}^{-1} + \Sigma_{gg}^{-1} \Sigma_{gr} \, \Lambda_{rr} \, \Sigma_{rg} \, \Sigma_{gg}^{-1}
|
||||||
|
\]
|
||||||
|
|
||||||
|
|
||||||
|
### 最终的条件方差公式
|
||||||
|
|
||||||
|
由第7步和第8步:
|
||||||
|
|
||||||
|
\[
|
||||||
|
\text{Var}[r \mid g] = \Lambda_{rr}^{-1} = \Sigma_{rr} - \Sigma_{rg} \Sigma_{gg}^{-1} \Sigma_{gr}
|
||||||
|
\]
|
||||||
|
|
||||||
|
代入原记号:
|
||||||
|
|
||||||
|
\[
|
||||||
|
\Sigma_{rr} = \text{Var}[r], \quad \Sigma_{rg} = \text{Cov}[r,g], \quad \Sigma_{gr} = \text{Cov}[g,r], \quad \Sigma_{gg} = \text{Var}[g]
|
||||||
|
\]
|
||||||
|
因此:
|
||||||
|
|
||||||
|
\[
|
||||||
|
\text{Var}[r \mid g] = \text{Var}[r] - \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot \text{Cov}[g,r]
|
||||||
|
\]
|
||||||
|
|
||||||
Reference in New Issue
Block a user