分类树模型用于预测手机用户的行为

数据来源是Jorge L.等人收集的“用智能手机识别人类行为“数据集,原始数据地址:

http://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones

实际上用于分析的是Jeff Leek预处理过的数据:

https://spark-public.s3.amazonaws.com/dataanalysis/samsungData.rda。

数据是由30个实验者将手机邦手腕上,进行“坐”、“立”、“趟”、“上坡走”、“平地走”、“下坡走"等六项不同行为,记录下手机中各种感知器的数据。

数据框的每一行对应一次观测

数据框的第1-561列分别代表一种手机内感应器的读数

第562列对应于被测试者

第563列对应于用户的行为

处理掉变量名中的符号:

将用户的行为变量处理为因子变量(factor variable)

按作业要求,将数据集分为训练集和测试集:

分类树模型的构建过程是一个递归过程,找出一个能将数据集“最好地”分割成两组数据的变量和阀值,然后递归地对每一组数据继续进行分割,直至每一组数据都只含唯一一类数据。

对训练集拟合分类树模型:

拟合出分类树模型的总结,模型从561个变量中挑选出了10个变量用于分类:

分类树模型的可视化:

classification tree

对测试集运用分类树模型进行结果预测,并测试准确率:

模型运用于测试集数据,分类正确率为80.32%

Leave a Reply

Your email address will not be published. Required fields are marked *