Learning From Data Lecture 4 误差和噪声

 segment 1 继续讨论非线性转变:

transformation1

上图左边的空间X是非线性可分割的,需要将其转变成线性可分割的。

通过函数Φ将其转变为线性可分割的空间Z。

seperatable

空间Z是线性可分割的,将在空间Z中获得的分割线通过'Φ-1'映射回原本的空间X中,得到一个空间X中的非线性分割模型。

经过这样的转变,得到的最终假说为:

transformed h


segmen2 误差测量

目前为止监督学习的图表为:

误差测量的意义在于:帮助我们理解h近似于f意味着什么,以及如何比较不同的h哪个更好。

  • 定义误差函数E(h,f):
    测量假说h和目标函数f的总体误差
  • 对于每一个点,定义误差函数e(h(X),f(X)) :
    测量假说h和目标函数f在给定的一个数据点X处的误差

如,平方误差:

squared error

或,二元误差:

binary error

从e(h(X),f(X))到E(h,f) :

样本内误差:

in sample error measure

样本外误差:

out of sample error measure

修改学习图表为:

revised learning digram

在判断g(x)是否近似f(x)时,用用于生成输入空间X的概率分布P所生成的数据进行检验。

如果在这些在同样的概率分布P所生成的数据上检验得出g(x)近似于f(x),则可以推广至g约等于f。

如何选择误差测量?

以指纹识别为例:

error measure for finger print id

目标函数f,根据指纹返回1代表识别出是你,返回-1代表识别出是别人。

要测量误差的假说h也是根据指纹返回+1或-1。

two types of error

存在两种误差:

  1. 错误接受:实际上不是你,但假说h说是你。
  2. 错误拒绝:实际上是你,但假说h说不是你。

在选择究竟采用哪种误差时,不存在标准的误差测量方法。

误差测量方法的选择是应用领域的问题。

例1:超市根据客户的指纹来识别用户是否能够购享受打折。

  • 错误接受是可以接受的(多给出些折扣给本不应该享受折扣的客户,首先这样的用户非常勇于尝试,而且还留下了指纹)
  • 错误拒绝的代价却很大(激怒本应该享受折扣的客户)

例2:机密资料室的门禁系统

  • 错误接受是不可接受的
  • 错误拒绝是可以接受的,可以开出那些不愿意偶尔被拒绝的员工
  • 误差测量需要根据用户的需求来选择。

妥协的误差测量,在不知道用户的实际需求时采用:

  • 如果数据是高斯噪声采用平方误差测量
  • 一些存在封闭解、最优化解的误差测量

最后将误差测量放入学习图表:

digram2

误差测量的用处有2:

  1. 对于学习算法而言,从h中选择g
  2. 测量g与f的误差

segment 3 带噪声的目标函数

考虑:有没有两个信用卡申请者,他们在银行的数据全部一样,但是一个批准了,一个被拒绝了。

目标函数并不是一个函数y=f(x),而是一个分布:

f as a distribution

之前我们考虑数据(X,y)都是根据概率P生成的,现在将其视为由联合分布生成:

joint distribution

因此带噪声的目标行数即为期望加噪声:

noisy target

修改学习图表为:

final digram

目标函数由分布P(y|X )生成,且带有噪声的。

训练集中的X由分布P(X)生成

训练集数据(X,y)则是由两个概率分布联合起来的P(X)P(y|X)生成,通常被称为P(X,y)


segment4 VC理论后续讨论的展望

学习意味着g近似于f。

目前我们将学习分割成两个子问题:

  1. 如何能确保Eout(g)约等于Ein(g)
  2. 如何能使的Ein(g)尽可能小

回想上节最后得到的不等式:

QQ截图20131012160020

VC理论能最终实现的是:用一个有限数来替代原本可能为无限大的M。

课程地址:

http://work.caltech.edu/telecourse.html

Leave a Reply

Your email address will not be published. Required fields are marked *