机器学习笔记 Week1 机器学习介绍

学习笔记(Machine Learning) Week1

全部笔记PDF版:http://vdisk.weibo.com/s/J4rRX/1373287206

Week1 由两部分内容构成:

  1. 机器学习介绍
  2. 单变量线性回归

1机器学习介绍

1.1什么是机器学习?

对于机器学习,并没有一个一致认同的定义,一个比较古老的定义是由Arthur Samuel在1959年给出的:

“机器学习研究的是如何赋予计算机在没有被明确编程的情况下仍能够学习的能力。(Field of study that fives computers the ability to learn without being explicitly programmed.)”

Samuel编写了一个跳棋游戏的程序,并且让这个程序和程序自身玩了几万局跳棋游戏,并且记录下来棋盘上的什么位置可能会导致怎样的结果,随着时间的推移,计算机学会了棋盘上的哪些位置可能会导致胜利,并且最终战胜了设计程序的Samuel.

另一个比较现代且形式化的定义是由Tom Mitchell在1998年给出的:

“对于某个任务T和表现的衡量P,当计算机程序在该任务T的表现上,经过P的衡量,随着经验E而增长,我们便称计算机程序能够通过经验E来学习该任务。( computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.)”

在跳棋游戏的例子中,任务T是玩跳棋游戏,P是游戏的输赢,E则是一局又一局的游戏。

一些机器学习的应用举例:

  • 数据库挖掘
  • 一些无法通过手动编程来编写的应用:如自然语言处理,计算机视觉
  • 一些自助式的程序:如推荐系统
  • 理解人类是如何学习的

1.2监督学习(Supervised Learning)

在课程稍后阶段我们再给监督学习一个更加正式的定义,现在我们从一个例子开始:

假设你有下面这些房价数据,图表上的每个实例都是一次房屋交易,横坐标为交易房屋的占地面积,纵坐标为房屋的交易价格。

Housing price prediction.
现在,假设你希望能够预测一个750平方英尺的房屋的交易价格可能是多少。一种方法是根据这些数据点的分布,画一条合适的直线,然后根据这条直线来预测。在房价预测这个例子中,一个二次函数可能更适合已有的数据,我们可能会更希望用这个二次函数的曲线来进行预测。

Housing price prediction with marks.

我们称这样的学习为监督学习。称其为监督式的学习,因为我们预先给了算法“正确结果”——即所有我们观察到的变量。

上面这个问题又称为回归问题(Regression),因为我们能预测的结果是连续地值。

再来看另一种类型的监督学习问题:

假使你希望预测一个乳腺癌是否是恶性的,你现在有的数据是不同年龄的病人和她们身上肿瘤的尺寸以及这些肿瘤是否是恶性的。如果我们将这些信息绘制成一张2D图表,以横坐标为肿瘤的尺寸,以纵坐标为病人的年龄,以O代表良性肿瘤,以X代表恶性肿瘤。则我们的算法要学习的问题就变成了如何分割良性肿瘤和恶性肿瘤。

Breast cancer Classification

 

这样的问题是分类问题(Classification),我们希望算法能够学会如何将数据分类到不同的类里。

上面的例子中我们只适用了两个特征(features)来进行分类,现实中,我们会有非常多的特征,并且我们希望算法能够处理无限多数量的特征,在课程后面我们会介绍能够处理这样问题的算法,例如支持向量机(Support Vector Machine)。

1.3非监督学习(Unsupervised Learning)

在监督学习中,无论是回归问题还是分类问题,我们的数据都具有一个结果(房价问题中的房价,肿瘤问题中的良性与否)。

而在非监督学中,我们的现有数据中并没有结果,我们有的只是特征,因而非监督学习要解决的问题是发现这些数据是否可以分为不同的组。

unsupervised learning

非监督学习的一个例子是聚类问题(Clustering),例如对一个大型的数据中心的网络传输数据情况进行分析,发现那些多数时候是在协作的计算机。

再一个例子,给定一些人和他们所有的基因,非监督学习可以根据是否具有某些基因而将这些人聚类:

human gene clustering

图中纵坐标为一个个人以及他们的基因,横坐标为各种类型的基因。

再一个非监督学习问题的例子是鸡尾酒会问题(Cocktail Party Problem),在一个满是人的房间中,人们都在互相对话,我们使用一些麦克风录下房间中的声音,利用非监督学习算法来识别房间中某一个人所说的话。

鸡尾酒会问题的一个简化版本是一个房间中有两个人在同时在讲话,利用两个麦克风来录音。

Cocktail Party Problem

下面这个只有一行的机器学习算法(Octave)可以非常漂亮地将两个人的说话给分离开来:

课程地址:https://class.coursera.org/ml-003/class/index

One thought on “机器学习笔记 Week1 机器学习介绍

  1. Pingback: 机器学习笔记 Week1 单变量线性回归 - The Ontology of Ryan

Leave a Reply

Your email address will not be published. Required fields are marked *