Parameter Estimation.

参数估计

参数估计(Parameter Estimation)是指根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。

本文目录：

点估计——矩估计
点估计——极大似然估计
点估计——贝叶斯估计
点估计的优良性准则
区间估计

1. 点估计——矩估计

点估计(point estimation)是用样本统计量估计总体参数；因为样本统计量为数轴上某一点值，估计的结果也以一个点的数值表示。

矩估计(moment estimation)的原理是构造样本和总体的矩，然后用样本矩估计总体矩。

记总体的分布为$f(x;θ)$，$θ$是待估计的参数; 记一组样本为$X_1,X_2,…,X_n$，$n$是样本容量，

则总体矩(population moment)(以连续型为例):

总体$k$阶原点矩：$α_k = \int_{-∞}^{+∞} {x^kf(x;θ)dx}$
总体$k$阶中心矩：$μ_k = \int_{-∞}^{+∞} {(x-E(x))^kf(x;θ)dx}$

样本矩(sample moment)：

样本$k$阶原点矩：$a_k = \frac{1}{n} \sum_{i=1}^{n} {X_i^k}$
样本$k$阶中心矩：$m_k = \frac{1}{n} \sum_{i=1}^{n} {(X_i-\overline{X})^k}$

建立并求解矩方程：

\[\begin{cases} α_k = a_k \\ μ_k = m_k \end{cases}\]

矩估计的一些说明：

同一个参数在矩估计下可能得到不同的统计量；
推荐使用低阶矩建立矩方程。

2. 点估计——极大似然估计

极大似然估计（Maximum Likelihood Estimate，MLE）的思想是，通过选择参数的估计值，使所有样本在总体中出现的可能性为最大。

记总体的分布为$f(x;θ)$，$θ$是待估计的参数; 记一组样本为$X_1,X_2,…,X_n$，$n$是样本容量，

极大似然估计的一般步骤：

(1).选择似然函数

\[L(θ) = \prod_{i=1}^{n} {f(x_i;θ)}\]

(2).对似然函数取对数

\[ln(L(θ)) = ln(\prod_{i=1}^{n} {f(x_i;θ)}) = \sum_{i=1}^{n} {ln(f(x_i;θ))}\]

(3).建立并求解似然方程

\[\frac{\partial ln(L(θ))}{\partial θ} = 0\]

3. 点估计——贝叶斯估计

频率派认为待估计参数$θ$是一个未知的常数，贝叶斯估计（Bayesian estimation）则认为$θ$是一个随机变量。

假设$θ$的先验分布(prior)为$p(θ)$,

由贝叶斯公式计算$θ$的后验分布(posterior)$p(θ \mid x)$：

\[p(θ \mid x) = \frac{p(x,θ)}{\int_{}^{} {p(x,θ)dθ}}\]

其中联合概率$p(x,θ)$：

\[p(x,θ) = p(θ)\prod_{i=1}^{n} {f(x_i;θ)}\]

通过计算后验分布最有可能的取值作为$θ$的估计值：

\[\hat{θ}_{MAP} = argmax_{(θ)} p(θ \mid x)\]

这种方法也叫做最大后验估计(Maximum a Posteriori)。

4. 点估计的优良性准则

(1)无偏性

无偏性（unbiased）是指估计量（用于点估计的统计量）没有系统误差。

若估计量$\hat{g}(X_1,X_2,...,X_N)$作为总体参数的函数$g(θ)$的无偏估计，即：

\[E(\hat{g}(X_1,X_2,...,X_N)) = g(θ)\]

重要结论：

样本均值$\overline{X}$是总体均值$μ$的无偏估计；
样本方差$S^2$是总体方差$σ^2$的无偏估计；
当总体均值$μ$已知时，$\frac{1}{n} \sum_{i=1}^{n} {(x_i-μ)^2}$是总体方差$σ^2$的无偏估计,且自由度高于样本方差$S^2$。

(2)最小方差无偏估计

最小方差无偏估计（minimum variance unbiased，MVU）是指总体参数的所有无偏估计中，方差最小的估计。

Cramer-Rao不等式(无偏估计的方差下界)：

设总体的分布为$f(x;θ)$，记信息量$I(θ)$:

\[I(θ) = \int_{}^{} {\frac{(\frac{\partial f(x;θ)}{\partial θ})^2}{f(x;θ)} dx} = E((\frac{\partial log(f(x;θ))}{\partial θ})^2)\]

对$g(θ)$的任一无偏估计$\hat{g}$，有：

\[Var(\hat{g}) ≥ \frac{(g'(θ))^2}{nI(θ)}\]

(3)一致性

一致性（consistent）又叫相合性，是指当样本容量$n → ∞$时，有：

弱相合：

\[\lim_{n \to \infty} P(\mid \hat{g} - g(θ) \mid > ε) = 0\]

强相合：

\[P(\lim_{n \to \infty} \hat{g} = g(θ)) = 1\]

一致性是一种大样本性质，即$n → ∞$时的性质。

5. 区间估计

区间估计(interval estimate)是在点估计的基础上，给出总体参数估计的一个区间范围，该区间通常由样本统计量加减估计误差得到。

定义：

设一组样本$X_1,X_2,…,X_n$独立同分布于总体分布，寻找统计量$θ_1^*$和$θ_2^*$,满足$θ_1^* < θ_2^*$,将总体参数$θ$估计在区间$[θ_1^*,θ_2^*]$内。

区间估计的要求：

$θ$应以尽可能大的概率落在区间$[θ_1^*,θ_2^*]$内（即$P(θ_1^*<θ<θ_2^*)$尽可能大）；
估计精度尽可能高（即$θ_2^*-θ_1^*$尽可能小）。

(1)置信水平

置信水平(confidence level)又叫置信系数、置信度，是指总体参数落入样本统计值某一区内的概率。

给定一个很小的数$α$，若：

\[P(θ_1^*<θ<θ_2^*) = 1 - α\]

则称区间估计$[θ_1^*,θ_2^*]$的置信水平为$1-α$。

需要注意的是，置信水平是针对方法而言的；并不是指某一次估计区间中包含总体参数实际值的概率，而是用该方法获得多次估计区间中存在包含实际值的区间的概率。

$[θ_1^*,θ_2^*]$称为置信区间(confidence interval)。

$[θ_1^*, +∞)$、$(-∞,θ_2^*]$称为置信界。

(2)枢轴变量法

寻找与待估计的总体参数$θ$有关的优良统计量$T(θ)$;
寻找随机变量$S(T,θ)$,要求$S(T,θ)$的分布与$θ$无关，称为枢轴变量；
给定置信水平$1-α$，按照$P(a≤S≤b)=1-α$求出$a$、$b$；
由$a≤S≤b$解出$θ_1^*≤θ≤θ_2^*$，则$[θ_1^*,θ_2^*]$是$θ$的一个置信水平为$1-α$的区间估计。

分位数(quantile)又称分位点，定义如下：

上侧$α$分位点$u_α$，满足$P(x>u_α)=α$。