Probability Notes 9 经典统计

9 经典统计(Classical Statistics)

9.1 重要概念

  • 经典统计将未知的参数当作常数处理,对于参数值的每一个估计值都对应于一个模型
  • 在参数估计(parameter estimation)中,我们希望生成在未知参数任何取值情况下均尽可能正确的估计
  • 在假说检验(hypothesis testing)中,未知参数只可取有限种可能值,对应于相应数量个假说,我们希望选择一个假说,使得错误的概率较小
  • 在显著性检验(significance testing)中,对于一个特定的假说,我们希望决定是接受还是否定该假说,希望决定错误的概率较小
  • 经典的推断方法有:
  1. 最大似然估计(Maximum likelihood estimation, ML):选择能使得获得手头所有数据的可能性最大的参数值
  2. 线性回归(Linear Regression):发现适合手头数据的线性关系,使得模型和数据间差异的平方和最小
  3. 似然比值检验(Likelihood ratio test):给定两个假说,根据两个假说的似然比例确定选择哪一个
  4. 显著性检验(Significance testing):给定一个假说,当且仅当观察到的数据在特定的否定区域内时否定该假说

9.2 有关估计量(estimator)的一些术语

  • hat{Theta}_n 是未知参数theta的一个估计量(estimator),即hat{Theta}_nn个观测值X_1,X_2,dots,X_n的一个函数,且hat{Theta}_n的分布取决于theta
  • hat{Theta}_n的估计误差(estimation error)tilde{Theta}_n定义为: tilde{Theta}_n=hat{Theta}_n-theta
  • 估计量的偏倚(bias)记为b_{theta}(hat{Theta}_n)是估计误差的期望值: b_{theta}(hat{Theta}_n)=mathbb{E}_{theta}[hat{Theta}_n]-theta
  • 估计量hat{Theta}_n 的期望、方差和偏倚都取决于theta而估计误差tilde{Theta}_n还额外取决于观测值X_1,X_2,dots,X_n
  • foralltheta,~~mathbb{E}_{theta}[hat{Theta}_n]=theta则称hat{Theta}_n是无偏倚(unbiased)的估计量
  • forall~theta,~~lim_{nrightarrow{infty}}{mathbb{E}_{theta}[hat{Theta}_n]}=theta则称hat{Theta}_n是渐近无偏倚(asymptotically unbiased)的估计量
  • forall~{theta},~~hat{Theta}_n依概率收敛于参数值theta,则称hat{Theta}_n是一致的(consistent)

9.3 最大似然估计(Maximum likelihood estimation)

  • 我们手头已有数据是依据概率密度函数f_X(x;theta)或概率质量函数p_X(x;theta)分布的随机向量X=(X_1,dots,X_n)的一个实现x=(x_1,dots,x_n)
  • 最大似然估计是选择一个theta值,使得似然函数p_X(x;theta)f_X(x;theta)最大
  • htheta的一个一一映射的函数,则对h的最大似然估计是h(hat{theta}_n),其中hat{theta}_ntheta的最大似然估计

9.4 随机变量期望与方差的估计

  • X_1,X_2,dots,X_n独立同步分布(i.i.d.)的随机变量,共同的期望为theta,方差为nu,两者均未知
  • 样本期望为: M_n=frac{X_1+X_2+dots +X_n}{n} 样本期望是theta的一个无偏倚的估计量,其均方差(mean squared error, MSE)是:frac{nu}{n}
  • 方差的估计量为: bar{S}_{n}^{2}=frac{1}{n}sum_{i=1}^{n}(X_i-M_n)^2 bar{S}_{n}^{2}是偏倚但渐近无偏倚的 hat{S}_{n}^{2}=frac{1}{n-1}sum_{i=1}^{n}(X_i-M_n)^2 hat{S}_{n}^{2}是无偏倚的

9.5 置信区间(Confidence Intervals)

  • 未知标量参数theta的置信区间是一个端点为{hat{Theta}}_{n}^{-}{hat{Theta}}_{n}^{+}并且有高概率包含theta的区间
  • {hat{Theta}}_{n}^{-}{hat{Theta}}_{n}^{+}也是随机变量,并且取决于手头的数据X_1,X_2,dots,X_n
  • 一个1-alpha置信区间满足: forall~theta,~~~P_{theta}({hat{Theta}}_{n}^{-}le{theta}le{hat{Theta}}_{n}^{+})ge 1-alpha

9.6 线性回归

  • 给定n个数据(x_i,y_i),可以使残差平方和(sum of squared residuals, SSR)最小的估计是: hat{theta}_1=frac{sum_{i=1}^{n}(x_i-bar{x})(y_i-bar{y})}{sum_{i=1}^{n}(x_i-bar{x})^2} hat{theta}_0=bar{x}-hat{theta}_1bar{x} 其中: bar{x}=frac{1}{n}sum_{i=1}^{n}x_ibar{y}=frac{1}{n}sum_{i=1}^{n}y_i

9.7 贝叶斯线性回归

  • 模型:
  1. 假设线性关系Y_i=Theta_0+Theta_1 x_i+W_i
  2. x_i是已知的常数(手头的数据)
  3. 随机变量Theta_0,Theta_1,W_1,W_2,dots W_n是正态随机变量,并且相互独立
  4. 随机变量Theta_0,Theta_1期望为0方差分别为{sigma}_{0}^{2}{sigma}_{1}^{2}
  5. 随机变量W_i期望为0,方差为{sigma}^2
  • 估计量公式:
  1. 给定数据(x_i,y_i)Theta_0Theta_1后验概率最大(MAP)估计为: {hat{theta}}_1=frac{{sigma}_{1}^2}{{sigma}^2+{sigma}_{1}^2sum_{i=1}^{n}(x_i-bar{x})^2}cdot sum_{i=1}^{n}(x_i-bar{x})(y_i-bar{y}) {hat{theta}}_0=frac{nsigma_{0}^2}{sigma^2+nsigma_{0}^2}(bar{y}-hat{theta}_1bar{x})
  2. 其中: bar{x}=frac{1}{n}sum_{i=1}^{n}x_i bar{y}=frac{1}{n}sum_{i=1}^{n}y_i

9.8 似然比例检验(Likelihood Ratio Test)

  • 从目标错误拒绝概率(false rejection probability)alpha开始
  • 选择一个xi值,使得错误拒绝概率等于alpha P(L(X) data-recalc-dims=xi;H_0)=alpha" />
  • 一旦获得了X的观测数据,若L(x) data-recalc-dims=xi" />则拒绝零假说H_0

9.9 显著性检验(Significance Testing)

  • 根据观测值X_1,dots X_n,对假说H_0:~theta=theta*进行统计检验
  • 在获得观测数据之前进行如下步骤:
  1. 选择统计量(statistic)S,即一个能够总结手头数据的标量随机变量,通常涉及一个函数h:mathbb{R^n}rightarrowmathbb{R},统计量S=h(X_1dots X_n)
  2. 判断拒绝区域的形状,即将能够拒绝零假说H_0S的值写成未知变量xi的一个函数
  3. 选择显著性级别,即想要的错误拒绝概率alpha
  4. 选择关键值xi使得错误拒绝概率等于alpha
  • 一旦获得X_1,X_2,dots,X_n的观测值x_1,x_2,dots,x_n
  1. 计算统计量S的值s=h(x_1,x_2,dots,x_n)
  2. 如果s属于拒绝区域,则拒绝零假说H_0

9.10 卡方检验(The Chi-Square Test)

  • 选择统计量 S=sum_{k=1}^{m}N_klog{(frac{N_k}{ntheta_k^*})} 或相应的T统计量
  • 拒绝区域为 2S data-recalc-dims=gamma" />T data-recalc-dims=gamma" />
  • 关键值gamma从自由度m-1的卡方分布{chi}^2的累积分布函数值查表获得,使得: P(2S data-recalc-dims=gamma;H_0)=alpha" />,其中alpha是给定的显著性级别

Leave a Reply

Your email address will not be published. Required fields are marked *