统计与R入门 I 研究方法和描述性统计

最近打算整理下Statistic One的笔记:

统计学的一些概念:

数据(data):定性变量的值(字符)或定量变量的值(数字) ,数据是知识和信息的最底层抽象,数据->信息->知识 。

统计学家(statistican):熟练掌握应用统计工具的人

统计量(statistic):从样本数据中计算得出的数值,这个数值被用于描述样本的一项特性。

样本(sample):总体的一个子集

参数(parameter):描述了总体的某一项特征的数值

描述性统计(descriptive statistics):用于总结、组织、简化数据的过程

推论性统计(inferential statistics): 根据从样本计算出的统计量,将其推广为总体参数的过程

常见统计研究方法:

  1. 描述性研究:组织和总结数据。
  2. 相关性研究:研究变量之间的关系。
  3. 实验性研究:将研究对象随机分组,研究不同变量对结果的影响。

随机实验

随机实验的优点在于能够提出因果关系,但需要的条件为:

  1. 真正的自变量
  2. 没有混杂变量(confounder)
  3. 随机抽取的具有代表性的样本
  4. 样本被随机分配给实验对象

变量的类型

变量的四种类型:

  1. 类别数据(nomial):将不同的情况分配给不同的类型,如人的国别
  2. 有序变量(ordinal):用于对不同的情况进行排序,如学科排名
  3. 区间变量(interval):用于对不同的情况进行排序,排序的依据是区间,如国家的经度维度
  4. 比率变量(ratio):同区间变量类似,但可以包含真零点,如年龄、人口、气温
  • 见Stevens 1946 On the Theory of Scales of Measurement

变量的用途:

  1. 类别变量:实验性研究中用作自变量(independent variable),相关性研究中用作准独立自变量(Quasi-independent variable)
  2. 区间变量和比率变量:实验性研究中用作因变量(dependent variable),相关性研究中用作被测变量(measured variable)

离散和连续变量:

  • 类别变量是离散的
  • 区间变量和比率变量是连续的
  • 有序变量实际上是离散的,但通常被当作连续的进行处理

柱图(histogram)

柱图的主要作用是显示分布情况

柱图可以揭示一些用统计量(如平均数)无法揭示的信息

R示例:
cars是R里自带的数据集,包含了对50辆车的观测结果,第一列为车的初始速度,第二列为车停下时所行驶的距离。

绘制柱图观测两个变量的分布:

unnamed-chunk-2

测量的尺度(scale)

任何一个测量都是有尺度依据的,如温度可有摄氏度可有华氏度。

统计学中有一个标准尺度,Z尺度。

以Z尺度作为尺度的测量值称为Z值

以任何尺度作为测量的结果都可以换算成对应的Z值

计算公式为:Z=(X-M)/SD,其中:

  • X为原始测量值
  • M为均值(mean)
  • SD为标准差(standard deviation)

Z值可用于计算百分比等级(percentile rank),如Z=0表示百分比等级为50,即有50%的数据比其大,同时也有50%的数据比其小。

R示例:
同样以cars数据集为例,将速度变量转变为Z尺度测量结果

总结性统计量(summary statistics)

中心趋势性(central tendency)的测量是描述了分布中中心数据点的统计值。

好的中心性测量统计量能够较好地表达数据的分布。

常见的统计量:

  • 平均值(mean):M =(ΣX)/N,正态分布情况下最好的中心性测量
  • 中位数(median): 中间位置的值,有异常值情况下较好的中心性测量
  • 众数(mode):出现次数最多的值,可以用于类别数据

R示例:
同样以cars数据集为例,针对速度变量求三种测量的统计值。

平均值或中位数可以用R的函数来获得:

差异性(variability)的测量是描述了分布中数值的范围和差异的统计值。

常见的统计量有:

  • 标准差(standard deviation, SD):SD=SQRT([Σ(X-M)2]/N)一个分布中的数值与平均值之间偏差的平均值。
  • 方差(variance,MS or SD2):MS = SD2=[Σ(X-M)2]/N,MS代表平方差的平均值(Mean Squares)

R示例:
同样以cars数据集为例,针对速度变量求方差和标准差。

R中有更便捷的计算函数:

R中可以用psych函数库中的describe()函数来生成总结性统计量的报告:

注意,R中利用sd()或describe()计算出的标准差与公式计算出的不同,因为在R中默认的是将标准差用于推理性统计,分母上为自由度N-1而非N。

相关性研究

相关性研究是一种用于测量和描述两个或多个变量之间关系的统计研究过程。

通常两个变量之间的相关性在[-1,+1]之间

  • +1代表完美的正相关
  • 0代表没有相关性(即独立independence)
  • -1代表完美的负相关

当两个变量X,Y之间是相关的,可以用其中一个变量如预测另一个变量的值。

值得注意的是,相关性并不意味着因果关系。

相关性的程度取决于很多因素,至少包括:

  • 抽样的方法
  • 变量的测量方法
  • 其他一些因相关系数而异的假设前提

相关系数(correlation coefficient)也是一个样本统计量,就像平均值一样,并不代表样本中所有对象的X值和Y值减都适应这个相关性。

对于不同类型的变量,有不同的相关系数:

  • 当X与Y都是连续变量时,可以用皮尔森积差相关系数(Pearson product-moment correlation coefficient):r
  • 当1个变量为连续变量,另一个变量是二元变量时,可以用Point bi-serial correlation
  • 当两个变量都是二元变量时,可以用Phi系数
  • 当两个变量都是有序变量是,可以用斯皮尔曼等级相关(Spearman rank correlation)

通常可以通过看散点图(scatter plot)来观察变量之间的相关性

R示例,通过散点图观察cars数据集中两个变量之间的相关性:

unnamed-chunk-9

看上去是呈现正相关

r值的计算

皮尔森积差相关系数r描述的是:相对于(X与Y各自不相关地变化)而言,(X与Y一起变化)的程度有多大。

其计算公式为:r =(X与Y的协方差)/(X与Y的方差)

计算方法如下:

  • 平方和(sum of squares,SS):SSX= Σ(X-MX)2,SSY= Σ(Y-MY)2
  • 方差(variance, MS): MSX= SSX/N,MSY= SSY/N
  • 外积和(sum of cross Products, SP):SPXY= Σ[(X-MX)×(Y-MY)]
  • 协方差(Covariance, COV): 测量两个变量一起变化的程度,SPXY/N
  • r值:(SPXY/N)/SQRT(MSX×MSY)=(SPXY/N)/SQRT((SSX/N)×(SSY/N))=SPXY/SQRT(SSX×SSY)

另外可以用等价地Z值计算方法:rZ=Σ(ZXxZY)/N
其中:

  • ZX=(X-MX)/SDX
  • ZY=(Y-MY)/SDY
  • SDX=SQRT(Σ(X-MX)2/N)
  • SDY=SQRT(Σ(Y-MY)2/N)

从计算方法中可以看出:相关系数是标准化(Standardized)的协方差值,值的取值在[-1,+1]之间。

R示例,计算cars数据集中两个变量之间的相关性:

R示例,利用Z值计算cars数据集中两个变量之间的相关性:

最后,最简单的计算方法,利用cor()函数:

通常,用于描述性统计的相关系数是除以N得到的,用于推理性统计的相关系数是除以N-1得到的。

解读皮尔森积差相关系数r时需要注意如下三个假设前提:

  • 变量X与Y均满足正态分布,可以通过看柱图和总结性统计量来验证
  • 变量X与Y之间呈现的是线性相关,可以通过观察散点图来验证
  • 方差齐性(Homoscedasticity),也可以通过观察散点图验证

还需考虑:

  • 变量X与Y的可靠性(reliability)
  • 变量X与Y的有效性(validity)
  • 变量X与Y是否来自于随机抽样生成的具有代表性的样本

检验方差齐性(Homoscedasitcity)

残差(residual)回归线(regression)与数据点之间的水平距离,残差揭示的是预测值与实际值之间的误差。

方差齐性意味着,残差的值与变量X之间是无关的。

以著名的Anscombe’s quartet为例:

unnamed-chunk-13

上述四个图中的X与Y之间的皮尔森积差相关系数r均相同,但只有图1是符合方差齐性的。

图2和图4中的残差与X的值有明显的关系,图3、4中有明显的异常值。

可靠性(reliability)

经典检验理论(Classical test theory)/真值理论(true score theory)

  • 原始值(X)并不是完美的,而是受到各种偏倚(bias)随机误差(chance error)的影响的。
  • X实际上是真实值+偏倚+随机误差。
  • 因为我们不知道真实值是多少,只能估计原始值X的可靠性

常见的方法有:

  • 再检验(re-test),例如:多次测量取平均
  • 平行检验(parallel test),例如:用水银温度计和电子温度计测量体温并求平均
  • 项间估计(inter-item estimates),例如:设计一份20题的问卷,随机选择10题作为组A,再随机选择10题作为组B,计算两组之间的相关性,用于估计可靠性。

有效性(validity)

构造(construct):是针对那些无法直接观测的对象而言的。例如:智力。

因为对象无法直接观测到,需要定义一个构造,使得其可被观察,可定量记录。例如:智力测验。

构造的有效性包括如下方面:

  • 内容有效性(content validity),例如:智力测验是否有过多的专业领域题目
  • 收敛有效性(convergent validity),例如:智力测验的结果是否与情商测试结果有相关性
  • 分歧有效性(divergent validity),例如:智力测验的结果是否与运动能力测试结果无关
  • 理论有效性(Nomological validity),例如:智力测验的结果是否与有关理论统一

抽样(sampling)

抽样误差(sampling error):是总体与样本之间的误差。

通常,抽样误差与样本大小有关,样本量越大,抽样误差通常越小。

同样,也与总体的方差有关,总体方差越大,抽样误差通常越大。

抽样误差通常由样本量和样本方差作估计,估计的前提是:样本是随机抽样的有代表性的。

标准误差(standard error)是抽样误差的估计值,计算方法为:SE = SD/SQRT(N)。

R示例,计算cars数据集中速度变量的抽样误差:

Leave a Reply

Your email address will not be published. Required fields are marked *