R Data Munging 数据整理

数据整理的若干操作:

    1 修改变量名
    2 创建新变量
    3 合并数据集
    4 改变数据集的维度
    5 处理缺失数据
    6 数据变换

1 修改变量名:

读入巴尔的摩交通监控摄影数据,查看变量名称:

任务:将变量名改成小写,限定变量名称为1个词(第6个变量名为用"."号隔开的location和1)

将所有变量名都改为小写:

将变量名分割开

sapply批处理,定义一个简单函数只保留原变量名分割后的第一个词作为新变量名

2 创建新变量

读入数据,第一列为因变量真实值,第二列为线性回归模型的预测值:

新增变量difference,令其等于真实值和预测值的差,用此变量求均方根:

3 合并数据集

读入Jeff Leek的同行评议研究数据:

注意:review数据框中包含变量solution_id,在合并时应当与solutions数据框中的id匹配。

去掉变量名中的下划线

查看一下合并前两个数据框的分别维度:

简单合并两个数据框的所有数据:

合并时保留两个数据框中的全部数据,并不是想要的合并结果

查看合并后的数据框维度:

数据行数是之前两个数据框的数据行数之和。

需要在合并时指明匹配的规则,要reviews中的solutionid与solutions中的id匹配:

检查一下这样合并后的数据维度:

4 改变数据的维度

构造一个维度错误的数据框:

正确的数据框应该是:每一个变量应该对应一列,每一行对应一次观测:

5 处理缺失数据

还是同行评议数据,accept变量为1或0,缺失数据表示为NA,任务去除变量accept值缺失的所有数据

6 数据变换

读入数据RMR.txt,其中变量weights代表灵长类动物的体重,RMR代表相对代谢速率:

绘制图表:

unnamed-chunk-18

注意到数据实际上是略微有些凹向下(concave down)的,虽然也可以用一条直线来拟合,但是可以对数据进行一些转变,如都取对数:

unnamed-chunk-19

Leave a Reply

Your email address will not be published. Required fields are marked *