为什么使用样本均值估计真实均值

TL;DR 本文使用最小二乘，极大似然，贝叶斯估计方法

当一个分布的均值存在时，我们总是使用样本均值分布

\overline{X} = \frac{\sum _{i} X _{i}}{n}

作为真实均值 $μ$ 的估计。本文用不同的思路分析，虽然殊途同归，但希望展示不同统计思想的精华。

点估计性质

样本均值是真实均值的无偏估计。

E (X) = μ

利用 Cramér-Rao下界（CRLB, Cramér-Rao Lower Bound） 也可以证明在服从NID前提下样本均值也是最小方差无偏估计（MVUE, Minimum Variance Unbiased Estimator）。

estimator 当服从正态分布时候，如果样本中有离群点最好使用中位数？为什么

James–Stein estimator降低variance

\hat{θ}_{MLE} \hat{θ}_{JS} = \overset{ˉ}{X} = (1 - \frac{( p - 2 ) σ ^{2}}{p \times SS / p}) \overset{ˉ}{X}

james-stein通过乘以一个0-1的系数，这个系数来自于总体的信息，使得估计的方差减小。如何理解？这个系数收缩在p更大，sigma更大，SS更小

Bias-variance tradeoff

最小二乘

使用样本均值作为分布均值的估计可以使得方差和SS(sum of square)最小

SS = Σ_{i} (X_{i} - \overset{ˉ}{X})^{2}

样本误差为什么除以n-1

我们一般适用样本均值估计真实均值，这样做的副作用这样有一个副作用使得SS总是小于等于真实SS（等号仅在 $μ$ 取 $\overset{ˉ}{X}$ 时候成立）, 即倾向于低估方差和。
$Σ_{i} (X_{i} - \overset{ˉ}{X})^{2} \leq Σ_{i} (X_{i} - μ)^{2}$
经过计算方差和的期望为 $E (SS) = (n - 1) σ^{2}$ ，因此除以n-1才是真实方差的无偏估计。

极大似然法

当 $X_{1}, X_{2}, \dots, X_{n} \sim i.i.d. N (μ, σ^{2})$ 时，有似然函数

P r (X_{1}, X_{2}, \dots, X_{n}) = Π_{i} (\frac{1}{2 π σ} e^{- \frac{( x - μ ) ^{2}}{2 σ ^{2}}}) = A_{1} e^{- A_{2} (x - μ)^{2}}

使得似然函数最大相当于最小化平方误差

注意到似然函数，这同时使得方差和SS最小。这说明当error独立同分布服从正态分布时候，最小二乘本质上是极大似然估计。

线性回归

Xβ = y; X = 1 mi n_{β} (y^{T} y)

从这个视角看，实际上是寻找一条水平线，拟合这些散点，常用的平方损失。

β = (X_{T} X)^{- 1} X^{T} y = \frac{1}{n} i \sum y_{i}

贝叶斯估计

频率学派认为 $μ$ 是一个定值，而贝叶斯学派认为 $μ$ 是一个分布，并且可以根据经验假定 $μ$ 服从某一先验分布 $h (μ)$ 。根据贝叶斯公式

Pr (A ∣ B) = \frac{Pr ( A , B )}{Pr ( B )}

类似的，根据观测数据更新先验分布得到后验分布

Pr (μ ∣ X_{i}, X_{2}, \dots, X_{n}) = \frac{Pr ( μ ) \prod _{i} Pr ( X _{i} , μ )}{Pr ( X _{i} , X _{2} , \dots , X _{n} )} = \frac{Pr ( μ ) \prod _{i} Pr ( X _{i} , μ )}{\int _{μ} ( Pr ( μ ) \prod _{i} Pr ( X _{i} , μ ))}

得到后验分布后，得到 $μ$ 的点估计和区间估计都很容易，常用的得到点估计的方法是取后验分布的期望。

E_{ba yes} (μ) = \int_{μ} Pr (μ ∣ X_{i}, X_{2}, \dots, X_{n}) μ = \frac{\int _{μ} Pr ( μ ) \prod _{i} Pr ( X _{i} , μ ) μ}{\int _{μ} Pr ( μ ) \prod _{i} Pr ( X _{i} , μ )} = \overset{ˉ}{X} if X_{i} \sim N I D

ch blog

Explorer

为什么使用样本均值估计真实均值

点估计性质

最小二乘

极大似然法

线性回归

贝叶斯估计

Graph View

Table of Contents