Probability Notes 8 贝叶斯统计推断(Bayesian Statistical Inference)

8 贝叶斯统计推断 (Bayesian Statistical Inference)

8.1 重要概念

  • 贝叶斯统计(Bayesian Statistics)将一个未知的参数当作一个已知先验分布(prior distribution)的随机变量来处理。
  • 在参数估计(parameter estimation)中,希望生成与参数真值接近的估计值
  • 在假说检验(hypothesis testing)中,未知的参数可以取有限种可能值,每个取值对应于一种假说,希望选择一个假说使得误差的概率最小
  • 主要贝叶斯推断方法(Principal Bayesian Inference Methods):
  1. 后验概率最大法则(Maximum a Posteriori Probability Rule, MAP Rule):
    在所有可能的参数值的估计值或假说中针对手头的数据选择一个可使条件/后验概率最大的参数
  2. 最小均方估计(Least Mean Squares Estimation, LMS Estimation):
    针对手头的数据选择一个使得参数值和参数估计值之间误差的均方最小的估计量或函数
  3. 线性最小均方估计(Linear Least Mean Squares Estimation, LLMS Estimation):
    针对手头的数据选择一个使得参数值和参数估计值之间误差的均方最小的线性函数

8.2 贝叶斯推断(Bayesian Inference)

  • 从对未知随机变量Theta的先验分布p_thetaf_theta开始
  • 对观测X(向量)建模p_{X|Theta}f_{X|Theta}
  • 在获得具体的观测值x后,通过合适的贝叶斯法则构建Theta的后验分布

8.3 贝叶斯法则

  1. Theta离散,X离散:
    p_{Theta|X}=frac{p_{Theta}(theta)p_{X|Theta}(x|theta)}{sum_{theta'}p_{Theta}(theta')p_{X|Theta}(x|theta')}
  2. Theta离散,X连续:
    p_{Theta|X}=frac{p_{Theta}(theta)f_{X|Theta}(x|theta)}{sum_{theta'}p_{Theta}(theta')f_{X|Theta}(x|theta')}
  3. Theta连续,X离散:
    f_{Theta|X}=frac{f_{Theta}(theta)p_{X|Theta}(x|theta)}{int{f_{Theta}(theta')p_{X|Theta}(x|theta')dtheta'}}
  4. Theta连续,X连续:
    f_{Theta|X}=frac{f_{Theta}(theta)f_{X|Theta}(x|theta)}{int{f_{Theta}(theta')f_{X|Theta}(x|theta')dtheta'}}

8.4 后验概率最大法则

  • 给定观测值x,后验概率最大法则在theta中选择一个可使后验分布p_{Theta|X}(theta|x)f_{Theta|X}(theta|x)最大的hat{theta}
  • 等价于:选择hat{theta}使得如下量最大
  1. Theta离散,X离散:
    p_{Theta}(theta)p_{X|Theta}(x|theta)
  2. Theta离散,X连续:
    p_{Theta}(theta)f_{X|Theta}(x|theta)
  3. Theta连续,X离散:
    f_{Theta}(theta)p_{X|Theta}(x|theta)
  4. Theta连续,X连续:
    f_{Theta}(theta)f_{X|Theta}(x|theta)
  • 如果Theta只可在有限个值中选择,则后验概率最大法则使得选择错误假说的概率最低

8.5 点估计值(Point Estimates)

  • 估计量(Estimator)是一个随机变量,其形式为hat{Theta}=g(X),是X的函数
    选择不同的函数g,即是在选择不同的估计量
  • 估计值(Esitmate)是估计量的一个具体值,是根据获得的X的观测值x而确定的值
  • 给定X的一个具体观测值x,后验概率最大估计量将选择估计值hat{theta}使得后验概率分布最大
  • 给定X的一个具体观测值x,条件期望估计量将选择估计值hat{theta}mathbb{E}[Theta|X=x]

8.6 假说检验的后验概率最大法则(The MAP Rule for Hypothesis Testing)

  • 给定X的一个具体观测值x,后验概率最大法则选择一个假说H_{i}使得后验概率P(Theta=theta_{i}|X=x)最大
  • 等价于,选择假说H_{i}使得p_{Theta}(theta_{i})p_{X|Theta}(x|theta_{i})p_{Theta}(theta_{i})f_{X|Theta}(x|theta_{i})最大
  • 后验概率最大法则使得在给定观测x的情况下,选择错误假说的概率最低

8.7 最小均方估计

  • 在没有任何观测的情况下,选择hat{theta}=mathbb{E}[Theta]可使的mathbb{E}[(Theta-hat{theta})^2]最小:
    mathbb{E}[(Theta-mathbb{E}[Theta])^2]le{mathbb{E}[(Theta-hat{theta})^2]},~~~~~text{for all}~hat{theta}
  • 给定一个观测值x,选择hat{theta}=mathbb{E}[Theta|X=x]可使的mathbb{E}[(Theta-hat{theta})^2|X=x]最小:
    mathbb{E}[(Theta-mathbb{E}[Theta]|X=x)^2|X=x]le{mathbb{E}[(Theta-hat{theta})^2|X=x]},~~~~~text{for all}~hat{theta}
  • 在所有对于Theta的估计量g(X)中,选择g(X)=mathbb{E}[Theta|X]可使均方估计误差mathbb{E}[(Theta-g(X))^2]最小:
    mathbb{E}[(Theta-mathbb{E}[Theta|X])^2]le{mathbb{E}[(Theta-g(X))^2]},~~~~text{for all estimators}~~g(X)

8.8 估计误差的属性

  • 估计误差tilde{Theta}是无偏倚的(unbiased),即:
    mathbb{tilde{Theta}}=0,~~~~~~~mathbb{E}[tilde{Theta|X=x}=0],~~~~text{for all}~x
  • 估计误差tilde{Theta}与估计值hat{Theta}是不相关的(uncorrelated):
    cov(tilde{Theta},hat{Theta})=0
  • Theta的方差可以被分解为:
    var(Theta)=var(hat{Theta})+var(tilde{Theta})

8.9 线性最小均方估计公式

  • 根据观测X,对未知参数Theta的线性最小均方估计量hat{Theta}为:
    hat{Theta}=mathbb{E}[Theta]+frac{cov(Theta,X)}{var(X)}(X-mathbb{E})=mathbb{E}+rhofrac{sigma_{Theta}}{sigma_{X}}(X-mathbb{E}[X])
  • 其中:
    rho=frac{cov(Theta,X)}{sigma_{Theta}sigma_{X}}
    为相关性系数(correlation coefficient)
  • 线性最小均方估计误差为:
    (1-{rho}^2){sigma_{Theta}}^2

Leave a Reply

Your email address will not be published. Required fields are marked *