Category Archives: Probability

Probability Notes 7 马尔可夫链

7 马尔可夫链 (Markov Chains)

7.1 马尔可夫模型 (Markov Models)

  • 一个马尔可夫链模型通过如下三点定义:
  1. 状态的集合(set of states)S=left{1,2,dots,mright}
  2. 可能的转变的集合(set of possible transitions),集合的元素是满足p_{ij} data-recalc-dims=0" />的状态对(i,j)
  3. p_{ij}的数值
  • 上述马尔可夫链模型所定义的马尔可夫链是随机变量X_0,X_1,X_2,dots,的序列,变量从状态集合S中取值,并且满足,对于任何时间n、任意状态i,j和任意可能的序列i_{0},dots,i_{n-1}有:
    P(X_{n+1}=j|X_{n}=i,X_{n-1}=i_{n-1},dots,X_{o}=i_{0})=p_{ij}

7.2 n步转变概率:察普曼-科莫高洛夫方程式(Chapman-Kolmogorov Equation for the n-Step Transition Probabilities)

  • 经过n次转变后进入某一状态的概率可以用如下递归公式进行计算:
    r_{ij}(n)=sum_{k=1}^{m}r_{ik}(n-1)p_{kj},~~~~~text{for}~n data-recalc-dims=1,~text{and all}~i,j" />
  • n=1时,r_{ij}(1)=p_{ij}

7.3 马尔可夫链的分解(Markov Chain Decomposition)

  • 一个马尔可夫链可以被分解成为一个或多个循环类(recurrent classes)和可能一个或多个过渡状态(transient states)
  • 任何一个循环状态都可以被其所属的循环类内所有其他状态转变而成,但是不能从其他循环类内的任意状态转变而来
  • 过度状态不能从任何循环状态转变而成
  • 给定一个过度状态,从其进行转变则至少能到达一个循环状态

7.4 周期性(Periodicity)

  • 考虑一个循环类R
  1. 如果类中的状态可以被划分为d data-recalc-dims=1" />个互斥子集S_1,dots,S_d,使得S_k中所有的转变都指向S_{k+1}(如果k=d则指向S_{1}),则称诶这个类具有周期性的
  2. 当且仅当存在一个时刻n,使得r_{ij}(n) data-recalc-dims=0,~text{for all}~i,jin{R}" />,则称这个类是非周期的

7.5 稳态收敛定理(Steady-State Convergence Theorem)

  • 考虑一个包含了一个具有周期性的循环类的马尔可夫链,则状态j所有的稳态概率pi_{j}具有如下属性:
  1. 对于任意状态j,有:
    lim_{nrightarrow{infty}}r_{ij}(n)=pi_{j},~~~~~~text{for all}~i
  2. pi_{j}是下面方程组的唯一解:
    pi =sum_{k=1}^{m}pi_{k}p_{kj},~~~~~j=1,2,dots,m
    1=sum_{k=1}^{m}pi_{k}
  3. 对于任意过度状态j有:pi_{j}=0;对于任意循环状态j有:pi_{j} data-recalc-dims=0" />

7.6 稳态概率和期望状态频率(Steady-State Probabilities as Expected State Frequencies)

  • 考虑仅包含单一一个非周期类的马尔可夫链,稳态概率pi_{j}满足:
    pi_{j}=lim_{nrightarrow{infty}}frac{v_{ij}(n)}{n}
  • 其中v_{ij}(n)是在从状态i开始的前n次转变中状态j出现次数的期望值

7.7 特定转变的期望频率(Expected Frequency of a Particular Transition)

  • 考虑仅包含单一一个非周期类的马尔可夫链,从一个给定的初始状态开始,经过n次转变。令q_{jk}(n)是这样的从状态jk的转变种类的期望值。无论给定的初始状态为何,均有:
    lim_{nrightarrowinfty}frac{q_{jk}(n)}{n}=pi_{j}p_{jk}

7.8 吸收概率方程(Absorption Probability Equations)

  • 考虑一个马尔可夫链,其中的状态不是过渡状态就是吸收状态,给定一个吸收状态s,则从状态i开始,最后终于到达状态s的概率a_i是如下方程组的唯一解:
    a_{s}=1
    s_{i}=0,~~~~text{for all absorbing}~ineq{s}
    a_{i}=sum_{j=1}^{m}p_{ij}a_{j},~~~~text{for all transient}~i

7.9 吸收时间期望方程(Equations for the Expected Time to Absorption)

  • 到达吸收的时间的期望值mu_{1},dots,mu_{m}是下面方程组的唯一解:
    mu_{i}=0,~~~~~~text{for all recurrent states}~i
    mu_{i}=1+sum_{j=1}^{m}p_{ij}mu_{j}~~~text{for all transient states}~i

7.10 首次通过和再次出现时间平均值的方程(Equations for Mean First Passage and Recurrence Times)

  • 考虑一个只包含一个循环类的马尔可夫链,令s是一个特定的循环状态:
  1. 从状态i开始,首次转变至状态s所需时间t_i的期望是下面方程组的唯一解:
    t_s=0
    t_i=1+sum_{j=1}^{m}p_{ij}t_{j},~~~~text{for all}~ineq{s}
  2. 状态s的再次出现时间t_{s}^{*}的期望值为:
    t_{s}^{*}=1+sum_{j=1}^{m}p_{sj}t_{j}

Probability Notes 6 伯努利过程和泊松过程

6 伯努利过程和泊松过程(Bernoulli Processes and Poisson Processes)

6.1 伯努利过程(Bernoulli Process)

  • 伯努利过程是互相独立的伯努利随机变量X_1,X_2,dots的一个序列,随机变量X_i满足:
    P(X_i=1)=P(text{success at the ith trail})=p
    P(X_i=0)=P(text{failure at the ith trail})=1-p

6.2 与伯努利过程有关的随机变量

  •  二项随机变量(参数np),描述n次试验中成功的次数S的概率:
    p_{S}(k)=(begin{matrix} n  k end{matrix})p^k(1-p)^{n-k},~~~~~k = 0,1,dots,n
    mathbb{E}[S]=np
    var(S)=np(1-p)
  • 几何随机变量(参数p),描述直至T次试验才出现第一次成功的概率:
    p_T(t)=(1-p)^{t-1}p,~~~~~t=1,2,dots
    mathbb{E}[T]=frac{1}{p}
    var(T)=frac{1-p}{p^2}

6.3 伯努利过程的独立性属性

  • X_1,X_2,dots是一个伯努利过程,给定时间n,则该过程的未来(随机变量序列X_{n+1},X_{n+2},dots)也是一个伯努利过程,并且与过程的过去(X_{1},X_{2},dots,X_{n})相互独立
  • X_1,X_2,dots是一个伯努利过程,给定时间n,令在此后首次出现成功的时间为bar{T},则bar{T}-n满足几何分布,参数为p,并且与随机变量X_1,dots,X_n独立

6.4 伯努利过程的另一种描述

  • 从相互独立且共同参数为p的一个几何随机变量序列T_1,T_2,dots开始,将这些随机变量理解为两次成功试验之间的时间间隔,即:
    T_1,T_1+T_2,T_1+T_2+T_3这些时刻的试验是成功的,其余时刻均为失败

6.5 第k次成功时刻

  • k 次试验成功的时刻Y_k等于前k次成功试验之间的时间间隔之和,即:
    Y_k=T_1+T_2+dots+T_k
  • 随机变量Y_k的分布成为k阶帕斯卡(Pascal)分布,其概率质量函数为:
    p_{Y_{k}}(t)=(begin{matrix} t-1  k-1 end{matrix})p^k(1-p)^{t-k},~~~~~t=k,k+1,dots
    期望与方差分别为:
    mathbb{E}[Y_k]=mathbb{E}[T_1]+dots +mathbb{E}[T_k]=frac{k}{p}
    var(Y_k)=var(T_1)+dots +var(T_k)=frac{k(1-p)}{p^2}

6.6 二项分布的泊松近似(Poisson Approximation to the Binomial)

  • 参数为lambda的泊松随机变量Z的概率质量函数为:
    p_Z(k)=e^{-lambda}frac{{lambda}^k}{k!},~~~~~k = 0,1,2,dots
    期望和方差为:
    mathbb{E}[Z]=lambda
    var(Z)=lambda
  • 给定一个非负整数k,令p=frac{lambda}{n},则在nrightarrow infty时二项随机变量概率质量函数p_S(k)=frac{n!}{(n-k)!k!}p^k(1-p)^{n-k}收敛于p_Z(k)
  • 一般地,n较大且p较小的情况下,泊松随机变量的概率质量函数是二项随机变量概率质量函数的一个很好的近似

6.7 泊松过程

  •  一个到达过程(arrival process)若要是一个柏松过程,则需要满足如下属性:
  1. 时间齐性(Time-homogeneity):
    对于任意长度为tau的时间区间,发生k次到达的概率P(k,tau)相同
  2. 独立性:
    任何一个时间区间内的到达次数与区间外的到达情况无关
  3. 小区间属性:
    lim_{tau rightarrow 0}时,P(k,tau)满足:
    P(0,tau)=1-lambdatau+o(tau)
    P(1,tau)=lambdatau+o_1(tau)
    P(k,tau)=o_k(tau),~~~~~~text{for}~k=2,3,dots
    其中o(tau),dots{o_k(tau)}tau的函数并且满足:
    lim(taurightarrow 0)frac{o(tau)}{tau}=0
    lim(taurightarrow 0)frac{o_k(tau)}{tau}=0

6.8 与柏松过程有关的随机变量

  • 柏松随机变量,参数lambdatau,描述一个到达频率为lambda的柏松过程中,任意一个间隔为tau的时间区间中到达发生的次数N_{tau}
    概率质量函数p_{N_tau}(k)=P(k,tau)=e^{-lambdataufrac{(lambdatau)^k}{k!}},~~~~k=0,1,dots
    期望mathbb{E}[N_tau]=lambdatau
    方差var(N_tau)=lambdatau
  • 指数随机变量,参数lambda,描述直至第一次到达所需要的时间T
    概率密度函数f_T(t)=lambda e^{-lambda t},~~~tge{0}
    期望mathbb{E}[T]=frac{1}{lambda}
    方差var(T)=frac{1}{{lambda}^2}

6.9 柏松过程的独立性

  • 对于一个柏松过程,给定时刻t data-recalc-dims=0" />,则t之后的过程也是一个柏松过程,并且独立于t时刻之前的过程
  • t是一个给定时刻,bar{T}是时刻t之后第一次到达的时刻,则bar{T}-t满足参数为lambda的指数分布,并且独立于t时刻之前的过程

6.10 柏松过程的另一种描述

  • T_1,T_2,dots,是相互独立且为具有共同参数lambda的指数随机变量序列,T_1,T_2,dots表示各次到达之间的时间间隔
  • 到达发生在时刻T_1,T_1+T_2,T_1+T_2+T_3dots

6.11 k次成功时刻

  • k阶厄兰随机变量(Erlang of order k),描述第k次到达时间Y_kY_k等于前k次到达之间的时间间隔的和
    Y_k=T_1+T_2+dots+T_k
  • mathbb{E}[Y_k]=mathbb{E}[T_1]+dotsmathbb{E}[T_k]=frac{k}{lambda}
  • var(Y_k)=var(T_1)+dots+var(T_K)=frac{k}{{lambda}^2}
  • f_{Y_k}(y)=frac{{lambda}^ky^{k-1}e^{-lambda y}}{(k-1)!},~~yge{0}

6.12 随机个随机变量之和的属性

  • N,X_1,X_2,dots是相互独立的随机变量,N取值为非负整数,令Y=X_1+X_2dots+X_N
  • X_i为参数为p的伯努利随机变量
    N为参数为m,q的二项随机变量
    Y为参数为m,pq的二项随机变量
  • X_i为参数为p的伯努利随机变量
    N为参数为lambda的柏松随机变量
    Y为参数为lambda p的柏松随机变量
  • X_i为参数为p的几何随机变量
    N为参数为q的几何随机变量
    Y为参数为pq的几何随机变量
  • X_i为参数为lambda的指数随机变量
    N为参数为q的几何随机变量
    Y为参数为lambda q的指数随机变量

Probability Notes 9 经典统计

9 经典统计(Classical Statistics)

9.1 重要概念

  • 经典统计将未知的参数当作常数处理,对于参数值的每一个估计值都对应于一个模型
  • 在参数估计(parameter estimation)中,我们希望生成在未知参数任何取值情况下均尽可能正确的估计
  • 在假说检验(hypothesis testing)中,未知参数只可取有限种可能值,对应于相应数量个假说,我们希望选择一个假说,使得错误的概率较小
  • 在显著性检验(significance testing)中,对于一个特定的假说,我们希望决定是接受还是否定该假说,希望决定错误的概率较小
  • 经典的推断方法有:
  1. 最大似然估计(Maximum likelihood estimation, ML):选择能使得获得手头所有数据的可能性最大的参数值
  2. 线性回归(Linear Regression):发现适合手头数据的线性关系,使得模型和数据间差异的平方和最小
  3. 似然比值检验(Likelihood ratio test):给定两个假说,根据两个假说的似然比例确定选择哪一个
  4. 显著性检验(Significance testing):给定一个假说,当且仅当观察到的数据在特定的否定区域内时否定该假说

9.2 有关估计量(estimator)的一些术语

  • hat{Theta}_n 是未知参数theta的一个估计量(estimator),即hat{Theta}_nn个观测值X_1,X_2,dots,X_n的一个函数,且hat{Theta}_n的分布取决于theta
  • hat{Theta}_n的估计误差(estimation error)tilde{Theta}_n定义为: tilde{Theta}_n=hat{Theta}_n-theta
  • 估计量的偏倚(bias)记为b_{theta}(hat{Theta}_n)是估计误差的期望值: b_{theta}(hat{Theta}_n)=mathbb{E}_{theta}[hat{Theta}_n]-theta
  • 估计量hat{Theta}_n 的期望、方差和偏倚都取决于theta而估计误差tilde{Theta}_n还额外取决于观测值X_1,X_2,dots,X_n
  • foralltheta,~~mathbb{E}_{theta}[hat{Theta}_n]=theta则称hat{Theta}_n是无偏倚(unbiased)的估计量
  • forall~theta,~~lim_{nrightarrow{infty}}{mathbb{E}_{theta}[hat{Theta}_n]}=theta则称hat{Theta}_n是渐近无偏倚(asymptotically unbiased)的估计量
  • forall~{theta},~~hat{Theta}_n依概率收敛于参数值theta,则称hat{Theta}_n是一致的(consistent)

9.3 最大似然估计(Maximum likelihood estimation)

  • 我们手头已有数据是依据概率密度函数f_X(x;theta)或概率质量函数p_X(x;theta)分布的随机向量X=(X_1,dots,X_n)的一个实现x=(x_1,dots,x_n)
  • 最大似然估计是选择一个theta值,使得似然函数p_X(x;theta)f_X(x;theta)最大
  • htheta的一个一一映射的函数,则对h的最大似然估计是h(hat{theta}_n),其中hat{theta}_ntheta的最大似然估计

9.4 随机变量期望与方差的估计

  • X_1,X_2,dots,X_n独立同步分布(i.i.d.)的随机变量,共同的期望为theta,方差为nu,两者均未知
  • 样本期望为: M_n=frac{X_1+X_2+dots +X_n}{n} 样本期望是theta的一个无偏倚的估计量,其均方差(mean squared error, MSE)是:frac{nu}{n}
  • 方差的估计量为: bar{S}_{n}^{2}=frac{1}{n}sum_{i=1}^{n}(X_i-M_n)^2 bar{S}_{n}^{2}是偏倚但渐近无偏倚的 hat{S}_{n}^{2}=frac{1}{n-1}sum_{i=1}^{n}(X_i-M_n)^2 hat{S}_{n}^{2}是无偏倚的

9.5 置信区间(Confidence Intervals)

  • 未知标量参数theta的置信区间是一个端点为{hat{Theta}}_{n}^{-}{hat{Theta}}_{n}^{+}并且有高概率包含theta的区间
  • {hat{Theta}}_{n}^{-}{hat{Theta}}_{n}^{+}也是随机变量,并且取决于手头的数据X_1,X_2,dots,X_n
  • 一个1-alpha置信区间满足: forall~theta,~~~P_{theta}({hat{Theta}}_{n}^{-}le{theta}le{hat{Theta}}_{n}^{+})ge 1-alpha

9.6 线性回归

  • 给定n个数据(x_i,y_i),可以使残差平方和(sum of squared residuals, SSR)最小的估计是: hat{theta}_1=frac{sum_{i=1}^{n}(x_i-bar{x})(y_i-bar{y})}{sum_{i=1}^{n}(x_i-bar{x})^2} hat{theta}_0=bar{x}-hat{theta}_1bar{x} 其中: bar{x}=frac{1}{n}sum_{i=1}^{n}x_ibar{y}=frac{1}{n}sum_{i=1}^{n}y_i

9.7 贝叶斯线性回归

  • 模型:
  1. 假设线性关系Y_i=Theta_0+Theta_1 x_i+W_i
  2. x_i是已知的常数(手头的数据)
  3. 随机变量Theta_0,Theta_1,W_1,W_2,dots W_n是正态随机变量,并且相互独立
  4. 随机变量Theta_0,Theta_1期望为0方差分别为{sigma}_{0}^{2}{sigma}_{1}^{2}
  5. 随机变量W_i期望为0,方差为{sigma}^2
  • 估计量公式:
  1. 给定数据(x_i,y_i)Theta_0Theta_1后验概率最大(MAP)估计为: {hat{theta}}_1=frac{{sigma}_{1}^2}{{sigma}^2+{sigma}_{1}^2sum_{i=1}^{n}(x_i-bar{x})^2}cdot sum_{i=1}^{n}(x_i-bar{x})(y_i-bar{y}) {hat{theta}}_0=frac{nsigma_{0}^2}{sigma^2+nsigma_{0}^2}(bar{y}-hat{theta}_1bar{x})
  2. 其中: bar{x}=frac{1}{n}sum_{i=1}^{n}x_i bar{y}=frac{1}{n}sum_{i=1}^{n}y_i

9.8 似然比例检验(Likelihood Ratio Test)

  • 从目标错误拒绝概率(false rejection probability)alpha开始
  • 选择一个xi值,使得错误拒绝概率等于alpha P(L(X) data-recalc-dims=xi;H_0)=alpha" />
  • 一旦获得了X的观测数据,若L(x) data-recalc-dims=xi" />则拒绝零假说H_0

9.9 显著性检验(Significance Testing)

  • 根据观测值X_1,dots X_n,对假说H_0:~theta=theta*进行统计检验
  • 在获得观测数据之前进行如下步骤:
  1. 选择统计量(statistic)S,即一个能够总结手头数据的标量随机变量,通常涉及一个函数h:mathbb{R^n}rightarrowmathbb{R},统计量S=h(X_1dots X_n)
  2. 判断拒绝区域的形状,即将能够拒绝零假说H_0S的值写成未知变量xi的一个函数
  3. 选择显著性级别,即想要的错误拒绝概率alpha
  4. 选择关键值xi使得错误拒绝概率等于alpha
  • 一旦获得X_1,X_2,dots,X_n的观测值x_1,x_2,dots,x_n
  1. 计算统计量S的值s=h(x_1,x_2,dots,x_n)
  2. 如果s属于拒绝区域,则拒绝零假说H_0

9.10 卡方检验(The Chi-Square Test)

  • 选择统计量 S=sum_{k=1}^{m}N_klog{(frac{N_k}{ntheta_k^*})} 或相应的T统计量
  • 拒绝区域为 2S data-recalc-dims=gamma" />T data-recalc-dims=gamma" />
  • 关键值gamma从自由度m-1的卡方分布{chi}^2的累积分布函数值查表获得,使得: P(2S data-recalc-dims=gamma;H_0)=alpha" />,其中alpha是给定的显著性级别

Probability Notes 5 极限定理

5 极限定理(Limit Theorem)

5.1 马尔可夫不等式(Markov Inequality)

  • 设随机变量X只可取非负值,则:
    P(Xge{a})lefrac{mathbb{E}[X]}{a}, for all~a data-recalc-dims=0" />

5.2 契比雪夫不等式(Chebyshev Inequality)

  • 设随机变量X期望为mu,方差为sigma^{2},则:
    P(|X-mu|ge{c})lefrac{{sigma}^{2}}{c^2}, for all~c data-recalc-dims=0" />

5.3 弱大数定律(Weak Law of Large Numbers, WLLN)

  • {X}_{1},{X}_{2},dots,{X}_{n}是独立同步分布(independent identically distributed, i.i.d.)的随机变量,共同的期望为mu,则:
    对于任意epsilon data-recalc-dims=0" />有:
    P(|{M}_{n}-mu|ge{epsilon})=P(|frac{{X}_{1}+{X}_{2}+dots+{X}_{n}}{n}-mu|ge{epsilon})rightarrow 0, ~~~~text{as}~nrightarrowinfty

5.4 概率收敛(Convergence in Probability)

  • {Y}_{1},{Y}_{2}dots{Y}_{n}是随机变量的一个数列(sequence),且a为常数。若对于任意epsilon data-recalc-dims=0" />均有:
    lim _{nrightarrowinfty}{P(|{Y}_{n}-a|ge{epsilon})} =0
    则称数列{Y}_{n}依概率收敛于a

5.5 中央极限定理(Central Limit Theroem)

  • {X}_{1},{X}_{2},dots,{X}_{n}是独立同步分布的随机变量,共同的期望为mu,方差为{sigma}^{2},定义标准值{Z}_{n}为:
    {Z}_{n}=frac{{X}_{1}+{X}_{2}+dots+{X}_{n}-nmu}{sigmasqrt{n}}
  • {Z}_{n}的累积分布函数收敛于标准正态累积分布函数:
    lim_{nrightarrow{infty}}P({Z}_{n}le{z})=Phi{(z)},~~for everyz
    Phi{(z)}=frac{1}{sqrt{2pi}}int_{-infty}^{z}{e^{-frac{x^2}{2}}dx}

5.6 德莫佛-拉普拉斯二项分布近似公式(De Moivre-Laplace Approximation to the Binomial)

  • {S}_{n}是二项随机变量,其参数为npn较大且k,l为非负整数时有:
    P(kle{S}_{n}le{l})approxPhi(frac{l+frac{1}{2}-np}{sqrt{np(1-p)}})-Phi(frac{k-frac{1}{2}-np}{sqrt{np(1-p)}})

5.7 强大数定律(Strong Law of Large Numbers)

  • {X}_{1},{X}_{2},dots,{X}_{n}是独立同步分布的随机变量,共同的期望为mu,则:
    P(lim_{nrightarrowinfty}{frac{{X}_{1}+{X}_{2}+dots+{X}_{n}}{n}}=mu)=1

5.8 依概率1收敛

  • {Y}_{1},{Y}_{2}dots{Y}_{n}是随机变量的一个数列(sequence),且c为常数。若:
    P(lim _{nrightarrowinfty}{{Y}_{n}=c})=1
    则称数列{Y}_{n}依概率1收敛于c

Probability Notes 8 贝叶斯统计推断(Bayesian Statistical Inference)

8 贝叶斯统计推断 (Bayesian Statistical Inference)

8.1 重要概念

  • 贝叶斯统计(Bayesian Statistics)将一个未知的参数当作一个已知先验分布(prior distribution)的随机变量来处理。
  • 在参数估计(parameter estimation)中,希望生成与参数真值接近的估计值
  • 在假说检验(hypothesis testing)中,未知的参数可以取有限种可能值,每个取值对应于一种假说,希望选择一个假说使得误差的概率最小
  • 主要贝叶斯推断方法(Principal Bayesian Inference Methods):
  1. 后验概率最大法则(Maximum a Posteriori Probability Rule, MAP Rule):
    在所有可能的参数值的估计值或假说中针对手头的数据选择一个可使条件/后验概率最大的参数
  2. 最小均方估计(Least Mean Squares Estimation, LMS Estimation):
    针对手头的数据选择一个使得参数值和参数估计值之间误差的均方最小的估计量或函数
  3. 线性最小均方估计(Linear Least Mean Squares Estimation, LLMS Estimation):
    针对手头的数据选择一个使得参数值和参数估计值之间误差的均方最小的线性函数

8.2 贝叶斯推断(Bayesian Inference)

  • 从对未知随机变量Theta的先验分布p_thetaf_theta开始
  • 对观测X(向量)建模p_{X|Theta}f_{X|Theta}
  • 在获得具体的观测值x后,通过合适的贝叶斯法则构建Theta的后验分布

8.3 贝叶斯法则

  1. Theta离散,X离散:
    p_{Theta|X}=frac{p_{Theta}(theta)p_{X|Theta}(x|theta)}{sum_{theta'}p_{Theta}(theta')p_{X|Theta}(x|theta')}
  2. Theta离散,X连续:
    p_{Theta|X}=frac{p_{Theta}(theta)f_{X|Theta}(x|theta)}{sum_{theta'}p_{Theta}(theta')f_{X|Theta}(x|theta')}
  3. Theta连续,X离散:
    f_{Theta|X}=frac{f_{Theta}(theta)p_{X|Theta}(x|theta)}{int{f_{Theta}(theta')p_{X|Theta}(x|theta')dtheta'}}
  4. Theta连续,X连续:
    f_{Theta|X}=frac{f_{Theta}(theta)f_{X|Theta}(x|theta)}{int{f_{Theta}(theta')f_{X|Theta}(x|theta')dtheta'}}

8.4 后验概率最大法则

  • 给定观测值x,后验概率最大法则在theta中选择一个可使后验分布p_{Theta|X}(theta|x)f_{Theta|X}(theta|x)最大的hat{theta}
  • 等价于:选择hat{theta}使得如下量最大
  1. Theta离散,X离散:
    p_{Theta}(theta)p_{X|Theta}(x|theta)
  2. Theta离散,X连续:
    p_{Theta}(theta)f_{X|Theta}(x|theta)
  3. Theta连续,X离散:
    f_{Theta}(theta)p_{X|Theta}(x|theta)
  4. Theta连续,X连续:
    f_{Theta}(theta)f_{X|Theta}(x|theta)
  • 如果Theta只可在有限个值中选择,则后验概率最大法则使得选择错误假说的概率最低

8.5 点估计值(Point Estimates)

  • 估计量(Estimator)是一个随机变量,其形式为hat{Theta}=g(X),是X的函数
    选择不同的函数g,即是在选择不同的估计量
  • 估计值(Esitmate)是估计量的一个具体值,是根据获得的X的观测值x而确定的值
  • 给定X的一个具体观测值x,后验概率最大估计量将选择估计值hat{theta}使得后验概率分布最大
  • 给定X的一个具体观测值x,条件期望估计量将选择估计值hat{theta}mathbb{E}[Theta|X=x]

8.6 假说检验的后验概率最大法则(The MAP Rule for Hypothesis Testing)

  • 给定X的一个具体观测值x,后验概率最大法则选择一个假说H_{i}使得后验概率P(Theta=theta_{i}|X=x)最大
  • 等价于,选择假说H_{i}使得p_{Theta}(theta_{i})p_{X|Theta}(x|theta_{i})p_{Theta}(theta_{i})f_{X|Theta}(x|theta_{i})最大
  • 后验概率最大法则使得在给定观测x的情况下,选择错误假说的概率最低

8.7 最小均方估计

  • 在没有任何观测的情况下,选择hat{theta}=mathbb{E}[Theta]可使的mathbb{E}[(Theta-hat{theta})^2]最小:
    mathbb{E}[(Theta-mathbb{E}[Theta])^2]le{mathbb{E}[(Theta-hat{theta})^2]},~~~~~text{for all}~hat{theta}
  • 给定一个观测值x,选择hat{theta}=mathbb{E}[Theta|X=x]可使的mathbb{E}[(Theta-hat{theta})^2|X=x]最小:
    mathbb{E}[(Theta-mathbb{E}[Theta]|X=x)^2|X=x]le{mathbb{E}[(Theta-hat{theta})^2|X=x]},~~~~~text{for all}~hat{theta}
  • 在所有对于Theta的估计量g(X)中,选择g(X)=mathbb{E}[Theta|X]可使均方估计误差mathbb{E}[(Theta-g(X))^2]最小:
    mathbb{E}[(Theta-mathbb{E}[Theta|X])^2]le{mathbb{E}[(Theta-g(X))^2]},~~~~text{for all estimators}~~g(X)

8.8 估计误差的属性

  • 估计误差tilde{Theta}是无偏倚的(unbiased),即:
    mathbb{tilde{Theta}}=0,~~~~~~~mathbb{E}[tilde{Theta|X=x}=0],~~~~text{for all}~x
  • 估计误差tilde{Theta}与估计值hat{Theta}是不相关的(uncorrelated):
    cov(tilde{Theta},hat{Theta})=0
  • Theta的方差可以被分解为:
    var(Theta)=var(hat{Theta})+var(tilde{Theta})

8.9 线性最小均方估计公式

  • 根据观测X,对未知参数Theta的线性最小均方估计量hat{Theta}为:
    hat{Theta}=mathbb{E}[Theta]+frac{cov(Theta,X)}{var(X)}(X-mathbb{E})=mathbb{E}+rhofrac{sigma_{Theta}}{sigma_{X}}(X-mathbb{E}[X])
  • 其中:
    rho=frac{cov(Theta,X)}{sigma_{Theta}sigma_{X}}
    为相关性系数(correlation coefficient)
  • 线性最小均方估计误差为:
    (1-{rho}^2){sigma_{Theta}}^2