Tag Archives: Research Methods

统计与R入门 I 研究方法和描述性统计

最近打算整理下Statistic One的笔记:

统计学的一些概念:

数据(data):定性变量的值(字符)或定量变量的值(数字) ,数据是知识和信息的最底层抽象,数据->信息->知识 。

统计学家(statistican):熟练掌握应用统计工具的人

统计量(statistic):从样本数据中计算得出的数值,这个数值被用于描述样本的一项特性。

样本(sample):总体的一个子集

参数(parameter):描述了总体的某一项特征的数值

描述性统计(descriptive statistics):用于总结、组织、简化数据的过程

推论性统计(inferential statistics): 根据从样本计算出的统计量,将其推广为总体参数的过程

常见统计研究方法:

  1. 描述性研究:组织和总结数据。
  2. 相关性研究:研究变量之间的关系。
  3. 实验性研究:将研究对象随机分组,研究不同变量对结果的影响。

随机实验

随机实验的优点在于能够提出因果关系,但需要的条件为:

  1. 真正的自变量
  2. 没有混杂变量(confounder)
  3. 随机抽取的具有代表性的样本
  4. 样本被随机分配给实验对象

变量的类型

变量的四种类型:

  1. 类别数据(nomial):将不同的情况分配给不同的类型,如人的国别
  2. 有序变量(ordinal):用于对不同的情况进行排序,如学科排名
  3. 区间变量(interval):用于对不同的情况进行排序,排序的依据是区间,如国家的经度维度
  4. 比率变量(ratio):同区间变量类似,但可以包含真零点,如年龄、人口、气温
  • 见Stevens 1946 On the Theory of Scales of Measurement

变量的用途:

  1. 类别变量:实验性研究中用作自变量(independent variable),相关性研究中用作准独立自变量(Quasi-independent variable)
  2. 区间变量和比率变量:实验性研究中用作因变量(dependent variable),相关性研究中用作被测变量(measured variable)

离散和连续变量:

  • 类别变量是离散的
  • 区间变量和比率变量是连续的
  • 有序变量实际上是离散的,但通常被当作连续的进行处理

柱图(histogram)

柱图的主要作用是显示分布情况

柱图可以揭示一些用统计量(如平均数)无法揭示的信息

R示例:
cars是R里自带的数据集,包含了对50辆车的观测结果,第一列为车的初始速度,第二列为车停下时所行驶的距离。

绘制柱图观测两个变量的分布:

unnamed-chunk-2

测量的尺度(scale)

任何一个测量都是有尺度依据的,如温度可有摄氏度可有华氏度。

统计学中有一个标准尺度,Z尺度。

以Z尺度作为尺度的测量值称为Z值

以任何尺度作为测量的结果都可以换算成对应的Z值

计算公式为:Z=(X-M)/SD,其中:

  • X为原始测量值
  • M为均值(mean)
  • SD为标准差(standard deviation)

Z值可用于计算百分比等级(percentile rank),如Z=0表示百分比等级为50,即有50%的数据比其大,同时也有50%的数据比其小。

R示例:
同样以cars数据集为例,将速度变量转变为Z尺度测量结果

总结性统计量(summary statistics)

中心趋势性(central tendency)的测量是描述了分布中中心数据点的统计值。

好的中心性测量统计量能够较好地表达数据的分布。

常见的统计量:

  • 平均值(mean):M =(ΣX)/N,正态分布情况下最好的中心性测量
  • 中位数(median): 中间位置的值,有异常值情况下较好的中心性测量
  • 众数(mode):出现次数最多的值,可以用于类别数据

R示例:
同样以cars数据集为例,针对速度变量求三种测量的统计值。

平均值或中位数可以用R的函数来获得:

差异性(variability)的测量是描述了分布中数值的范围和差异的统计值。

常见的统计量有:

  • 标准差(standard deviation, SD):SD=SQRT([Σ(X-M)2]/N)一个分布中的数值与平均值之间偏差的平均值。
  • 方差(variance,MS or SD2):MS = SD2=[Σ(X-M)2]/N,MS代表平方差的平均值(Mean Squares)

R示例:
同样以cars数据集为例,针对速度变量求方差和标准差。

R中有更便捷的计算函数:

R中可以用psych函数库中的describe()函数来生成总结性统计量的报告:

注意,R中利用sd()或describe()计算出的标准差与公式计算出的不同,因为在R中默认的是将标准差用于推理性统计,分母上为自由度N-1而非N。

相关性研究

相关性研究是一种用于测量和描述两个或多个变量之间关系的统计研究过程。

通常两个变量之间的相关性在[-1,+1]之间

  • +1代表完美的正相关
  • 0代表没有相关性(即独立independence)
  • -1代表完美的负相关

当两个变量X,Y之间是相关的,可以用其中一个变量如预测另一个变量的值。

值得注意的是,相关性并不意味着因果关系。

相关性的程度取决于很多因素,至少包括:

  • 抽样的方法
  • 变量的测量方法
  • 其他一些因相关系数而异的假设前提

相关系数(correlation coefficient)也是一个样本统计量,就像平均值一样,并不代表样本中所有对象的X值和Y值减都适应这个相关性。

对于不同类型的变量,有不同的相关系数:

  • 当X与Y都是连续变量时,可以用皮尔森积差相关系数(Pearson product-moment correlation coefficient):r
  • 当1个变量为连续变量,另一个变量是二元变量时,可以用Point bi-serial correlation
  • 当两个变量都是二元变量时,可以用Phi系数
  • 当两个变量都是有序变量是,可以用斯皮尔曼等级相关(Spearman rank correlation)

通常可以通过看散点图(scatter plot)来观察变量之间的相关性

R示例,通过散点图观察cars数据集中两个变量之间的相关性:

unnamed-chunk-9

看上去是呈现正相关

r值的计算

皮尔森积差相关系数r描述的是:相对于(X与Y各自不相关地变化)而言,(X与Y一起变化)的程度有多大。

其计算公式为:r =(X与Y的协方差)/(X与Y的方差)

计算方法如下:

  • 平方和(sum of squares,SS):SSX= Σ(X-MX)2,SSY= Σ(Y-MY)2
  • 方差(variance, MS): MSX= SSX/N,MSY= SSY/N
  • 外积和(sum of cross Products, SP):SPXY= Σ[(X-MX)×(Y-MY)]
  • 协方差(Covariance, COV): 测量两个变量一起变化的程度,SPXY/N
  • r值:(SPXY/N)/SQRT(MSX×MSY)=(SPXY/N)/SQRT((SSX/N)×(SSY/N))=SPXY/SQRT(SSX×SSY)

另外可以用等价地Z值计算方法:rZ=Σ(ZXxZY)/N
其中:

  • ZX=(X-MX)/SDX
  • ZY=(Y-MY)/SDY
  • SDX=SQRT(Σ(X-MX)2/N)
  • SDY=SQRT(Σ(Y-MY)2/N)

从计算方法中可以看出:相关系数是标准化(Standardized)的协方差值,值的取值在[-1,+1]之间。

R示例,计算cars数据集中两个变量之间的相关性:

R示例,利用Z值计算cars数据集中两个变量之间的相关性:

最后,最简单的计算方法,利用cor()函数:

通常,用于描述性统计的相关系数是除以N得到的,用于推理性统计的相关系数是除以N-1得到的。

解读皮尔森积差相关系数r时需要注意如下三个假设前提:

  • 变量X与Y均满足正态分布,可以通过看柱图和总结性统计量来验证
  • 变量X与Y之间呈现的是线性相关,可以通过观察散点图来验证
  • 方差齐性(Homoscedasticity),也可以通过观察散点图验证

还需考虑:

  • 变量X与Y的可靠性(reliability)
  • 变量X与Y的有效性(validity)
  • 变量X与Y是否来自于随机抽样生成的具有代表性的样本

检验方差齐性(Homoscedasitcity)

残差(residual)回归线(regression)与数据点之间的水平距离,残差揭示的是预测值与实际值之间的误差。

方差齐性意味着,残差的值与变量X之间是无关的。

以著名的Anscombe’s quartet为例:

unnamed-chunk-13

上述四个图中的X与Y之间的皮尔森积差相关系数r均相同,但只有图1是符合方差齐性的。

图2和图4中的残差与X的值有明显的关系,图3、4中有明显的异常值。

可靠性(reliability)

经典检验理论(Classical test theory)/真值理论(true score theory)

  • 原始值(X)并不是完美的,而是受到各种偏倚(bias)随机误差(chance error)的影响的。
  • X实际上是真实值+偏倚+随机误差。
  • 因为我们不知道真实值是多少,只能估计原始值X的可靠性

常见的方法有:

  • 再检验(re-test),例如:多次测量取平均
  • 平行检验(parallel test),例如:用水银温度计和电子温度计测量体温并求平均
  • 项间估计(inter-item estimates),例如:设计一份20题的问卷,随机选择10题作为组A,再随机选择10题作为组B,计算两组之间的相关性,用于估计可靠性。

有效性(validity)

构造(construct):是针对那些无法直接观测的对象而言的。例如:智力。

因为对象无法直接观测到,需要定义一个构造,使得其可被观察,可定量记录。例如:智力测验。

构造的有效性包括如下方面:

  • 内容有效性(content validity),例如:智力测验是否有过多的专业领域题目
  • 收敛有效性(convergent validity),例如:智力测验的结果是否与情商测试结果有相关性
  • 分歧有效性(divergent validity),例如:智力测验的结果是否与运动能力测试结果无关
  • 理论有效性(Nomological validity),例如:智力测验的结果是否与有关理论统一

抽样(sampling)

抽样误差(sampling error):是总体与样本之间的误差。

通常,抽样误差与样本大小有关,样本量越大,抽样误差通常越小。

同样,也与总体的方差有关,总体方差越大,抽样误差通常越大。

抽样误差通常由样本量和样本方差作估计,估计的前提是:样本是随机抽样的有代表性的。

标准误差(standard error)是抽样误差的估计值,计算方法为:SE = SD/SQRT(N)。

R示例,计算cars数据集中速度变量的抽样误差:

笔记 研究方法的第一本书 七至九章

第七章 介绍研究方法

7.1定量研究

定量研究的特点是有三个基本的阶段:
  1. 为概念寻找变量
  2. 在研究中对其进行分解化
  3. 衡量这些变量
定量分析倾向于从特定的例子中进行提炼,从而寻找一般性的描述或验证因果假说,这种方法寻求的是可以被其他研究人员很容易复制的测量和分析。
研究人员开发可以被衡量的概念或变量,并将其转化为具体的数据收集技巧。这些技巧产生了准确的数字信息,而这些数字信息则可以被理解为(抽象)概念的实证表现。
定量技巧包括确认变量之间的一般模式和关系,验证假说和理论,以及在这些结果的基础上作出预测。
定量研究一般对比较和因果关系比较感兴趣而且一般都是用大量的案例。
有关定量研究的批评:
  • 使用定量研究策略的人员经常会很不情愿地从相关性的陈述专为因果陈述。
  • 对定量方法的依赖会导致对衡量的变量所处的社会背景和文化背景的忽略。
  • 定量研究依赖于寻求“可被衡量的”现象的概念,而且我们很难对概念及它们在社会中的指示物进行配比。
  • 定量研究并不是与价值无关的。
  • 很多人类行为上的现象很难定量去捕捉。

7.2定性研究

定性研究经常包含深度的知识调查。
定性研究的研究人员一般努力从他们的研究中积累信息,同时带着审视的观点去辨别重要变量之间的模式、趋势和关系。
定性研究的语言倾向于围绕着案例研究和社会背景。
对于定性研究的批评:
  • 小规模的样本或很少的案例中进行的研究会导致研究结果有效性的问题。
  • 研究人员置身于他所研究的社会背景中,导致研究缺乏客观性。

7.3定性——定量二分法

定量的 定性的
对多少感兴趣 对性质和本质感兴趣
目的是预测、控制、描述、验证假说 目的是理解、描述、发现、生成假说
数据 文字、图形
客观 主观
宏观问题、大规模的随机的、具有代表性的样本 分析微观问题、小规模的非随机的、不具有代表性的样本
演绎法 归纳法
认识论根植于实证主义 认识论根植于诠释主义
目的是确认一般性的模式和关系 从历史意义和文化意义上诠释事件
度量在收集数据之前确定 数据互作用过程中确定度量
调查方法 访谈
程序标准化,假定可以复制 程序是特殊的,很少能复制
与价值无关 政治的
抽象的 实际的
概念以变量形式出现 概念是以主题或基调的形式出现的
结果是广泛的、整体的一般化的 结果是准确的、狭窄的、不一般化的

7.5混合方法和数据

一般地,应该尝试并使用超过一种的调查方法来提高你获得更好的、更可靠的数据的机会,并使得出具有偏差的结果的概率达到最小化。
意识到你是如何运用一种具体方法的,这一方法将你指向何处,以及这与你运用其他方法的方式有什么样的联系。
检查你所运用的方法之间是否在本体论上是相互一致的,以及由此导致的它们是否在认识论上也是相互一致的。
仔细思考一套数据或一个方法建立在什么样的基础之上才可以确认另一套数据或另一套方法。
研究人员使用两种或更多中研究方法来研究同一问题,这一过程一般按照顺序分别运用两种方法。

第八章 研究中的学术规范、剽窃和伦理

第九章 结论

  1. 是自己熟悉任务,确认学位的要求,翻阅成功的硕士论文,关注他们是如何组织论文的。
  2. 熟悉研究的语言,概念、关键词、术语、短语。
  3. 熟悉研究的技术语言:假说、变量
  4. 选择那些最适合你的研究工具,不要因为你认为必须有一个复杂的理论才能造就高质量的研究成果,就去选择不适合自己的工具。好的理论应该能够阐释你在研究中要展示的实证上的本体。
  5. 掌握使用的工具、研究中的不同理论、关键术语、最普遍的研究技巧、核心的研究范式,以及在范式之内的主要的学科的视角。
  6. 思考研究中希望关注的分析层面和分析单元。思考你的研究计划、研究问题或假说,并初步确定这些是如何将你引向特定的分析层面和分析但愿以及研究类型的。思考结构——能动性问题以及它是如何影响你的研究的。
  7. 意识到学术规范,尽早地开始正确的运用参考方法。
  8. 研究过程中预期会有未预期的事情发生。
  9. 能够进行研究的方式不止一种。
  10. 试着对你的学科之外的视角保持一种开放的心态,对研究项目、对象保持诚信。

格里斯. 研究方法第一本书[M]. 大连:东北财经大学出版社. 2011.1

笔记 研究方法的第一本书 第六章

第六章 研究中理论的类型和使用

6.1引入理论

简而言之,理论是我们能投掷用于捕捉我们称为"世界"的网:去理性化、去解释,并去掌握它。我们尽力使网眼越来越密实。
理论有很多形式:大理论、中层理论、基层理论
理论部分必须与实证部分相互联系,只有通过提炼出理论概念与观察结果之间的联系,概念才获得了实证上的意义。

6.2关于理论的传统观点

理论被理解为抽象的观念,它指出了概念之间的具体关系。
理论是由“包含很多假说或定律的陈述体系”组成的。
假说由一个自变量和一个因变量组成,它经常包含一种因果主张。假说由概念组成,概念是理论的基石,概念随后会转变成变量。

6.4研究范式和理论的作用

  1. 实证主义范式:
    用一种演绎法的研究策略,将理论看作一种用来“整理、解释和预测事实"的工具。
    只有在理论产生可被验证的假说时,理论才被看作是有用的。
  2. (批判)现实主义范式:
    理论的通过“确认生成的机制”来解释支撑社会本体的深层结构,这种生成的机制不一定能够被看到,但是可以被确认。
    将理论作为一种敏感机制去揭示表面下的结构性的本体。
  3. 诠释主义范式:
    理论来源于数据收集。
    理论通过描述并诠释人们在日常生活中是如何表现的来帮助我们理解社会。
  4. 后现代主义范式:
    会解构其他类别研究者使用的假设和术语。
    不相信理论在研究中的预测作用。不相信大理论对当今世界会有任何的实用性。

6.5理论的不同应用

抽象                                                                     实证
————————————————————————
超理论              大理论         中层理论                   基层理论
metatheory grand theory  substantive theory  grounded theory
超理论适用于所有研究的基础性假设和哲学基础。
大理论倾向于表现整个社会的重要特性,一般都有点推测性的和抽象的。
中层理论被限制在一个具体的社会关注点的领域内,正对这一具体的社会关注点的领域而开发的。
基层理论被理解成一种缩短理论与研究之间差距的尝试。
理论在研究中的作用:
  1. 通过将你指向具体的“变量”尽量为你提供结构和方向。
  2. 理论是一种具体的语言,我们用这种语言去描述和解释我们所研究的社会。
  3. 理论是对现实的一种抽象,其中的概念——以及其在现实世界中的指代物——是与其他概念相联系的,理论为我们提供了试验性的假说或解释。
  4. 理论可以有不同的使用方式以及不同的应用层次,例如大理论和中层理论。
  5. 所有的研究都由“超理论的”假设支撑着,即使我们根本不相信理论,我们也会对研究采取一种“理论的”理性态度的。
  6. 大多数具体理论都在这些超理论的框架内运行。

6.6 归纳法和演绎法理论和研究

归纳指的是“从对实证证据的直接观察中提取结论的过程”,非假说驱动的,而是通过对实证数据进行分析和相互作用才产生和创立了理论。
寻找模式,寻找变量之间的关系。
演绎法中,理论在初始阶段即指导研究,并且假说决定了研究人员需要寻找什么证据。
演绎法和归纳法之间是相互作用的。
自反性——持续不断地在具体数据和抽象之间来回往复——是应该努力去达到的。
格里斯. 研究方法第一本书[M]. 大连:东北财经大学出版社. 2011.1

笔记 研究方法的第一本书 第五章

第五章 介绍重要的研究范式

研究范式

研究范式——也就是,我们对“关于一些事物一个人能够知道些什么”以及“一个人如何获得对它的认知”的理解——是社会研究中的每个单独研究方法所固有的。
一般来说社会学和人类学的哲学中,有三种主要的范式:实证主义,后实证主义和诠释主义。
实证主义(解释)————————后实证主义———————诠释主义(理解)
实证主义(对有规定的定律的搜寻、为什么):
  • 实证主义是一种认识论的方法。
  • 实证主义建立在一种现实主义、基础主义的本体论的基础上,将世界看作是独立于我们对其认知而存在的。
  • 实证主义者被认为“社会存在模式、规律性和因果”,实证主义立场认为作出因果陈述是可能的。
  • 许多人试图用科学的方法去分析世界。
  • 这些方法是中性的,研究人员对这些方法的应用也是中性的。
  • 实证主义将重点放在社会研究中的解释上,而不是理解上,而且许多实证主义者认为“解释的真实目的是预测”。
  • 强调实践经验中的观察和实证方面,同时在“事实”和“价值”之间做出清晰的区分,更多地关注事实而非价值。
  • 实证主义者追求研究中的客观性。
  • 实证主义者认为可以通过运用理论来产生假说,从而在社会现象之间建立规律性的关系,然后通过直接观察来验证它。
  • 实证主义者不认可“双重诠释”。
诠释主义(对意义的理解、怎么样):
  • 诠释主义者立场是建立在一种反基础主义本体论基础之上的,赞同世界并不是独立于我们对其的认知而存在的。
  • 世界通过个体之间的互动由全社会构建而成的,“事实”和“价值”并不是泾渭分明。
  • 重点放在理解上。
  • 将社会科学与自然科学看作是彼此可以区分的。
  • 社会现象并不是独立于我们对其的认知而存在的,而且正是这些认知影响了研究结果。研究人员与他们正在研究的主题并不是分离的。
  • 认知在理论上和推论上都承担着主观因素带来的重负,研究人员是他自身的和主观的主张、态度和价值观的综合体。
  • 承认“双重诠释”。
  • 倾向于将重点放在对社会生活的研究的意义上,并强调语言在构建“现实”中所起到的作用。
  • 强调赋予研究对象在这个世界的意义。
后实证主义——批判现实主义(尝试将诠释主义和实证主义之间搭建联系):
  • 批判现实主义横跨实证主义范式和诠释主义范式,与现实主义范式共享基础主义本体论,并允许在研究中进行理解。
  • 批判现实主义方法认为即使是关于因果解释方面,社会学依然可以使用与自然科学一样的方法,但它需要通过诠释性的理解来实现跨越。
  • 批判现实主义者不仅要寻求理解社会世界,还要寻求解释社会世界。
  • 批判现实主义者认为我们需要透过现象去看本质。
  • 批判现实主义者认为对事件、客观事物及社会关系等作出更为全面的诠释,在一个具有“结构性的”或者是“有层次的”本体重就需要一种“深度本体论”以及对因果关系的理解。
  • 批判现实主义者认为先存在的结构影响了能动性,同时也会受到能动性的影响。
  • 批判现实主义能够做出因果陈述并确认因果机制。
  • 结构和能动性被看作是互相构建的,但是出于分析的目的,它们应该被当成是相互独立的,从而便于研究。
  • 选择应用哪一种方法应该取决于所要研究的客观事物的性质以及关于它我们希望知道些什么。
  • 许多批判现实主义者认同“双重诠释”。

5.4跨学科

愿意越过学科的界限看问题,并且愿意发展并重新调整我们自己的观点,对于学术整体来说是有益的。
我们不太需要在一系列不同的学科内进行特殊的训练,更多需要的是在进行研究时拥有一种开放的心态。
格里斯. 研究方法第一本书[M]. 大连:东北财经大学出版社. 2011.1

笔记 研究方法的第一本书 第四章

第四章 研究的基础部分

想要对为研究打下基础的本体论和认识论的假设产生清晰而又透彻的认识,原因如下:
  1. 为了理解构成研究过程中各个重要组成部分之间的相互关系。
  2. 为了在讨论关于社会现象的理论上的争论和途径时避免混淆
  3. 为了能够识别出其他人的立场,并捍卫我们自己的立场
在我们的研究中,贯穿我们研究生涯的整个过程,我们既适用实证主义的研究范式,又实用诠释主义的研究范式,重点是我们采取的研究态度是它们要适合于我们的研究。

4.1本体论

本体论主张是“所做出的关于社会本体本质的主张和假设,关于存在什么、它是什么样的、它的组成单元是什么以及这些单元是如何相互作用的主张。”
本体论的假设关注的是我们认为是什么构成了社会本体
对于当前的讨论来说,重要的是要使你意识到你需要理解、熟悉并捍卫你自己的本体论立场。
一个人的本体论立场是:对于问题“在现存条件下我们可能获取到什么知识”的回答。
只有非常清楚地理解并承认实际上确实存在着很多种本体论立场,而且这些本体论立场将会把我们引至不同的研究结果,我们才能够开始了解其他学者的研究成果。
  • 基础主义观点的核心是本体被认为是独立于我们对其的认识而存在的。
  • 反基础主义者认为“本体”是由人类的能动性在全社会通过推理“构建”而成的。
  • 客观主义:断言社会现象以及它们的内涵是独立于社会能动性而存在的本体论立场。
  • 构成主义:断言社会现象和它们的内涵持续地由社会能动性实现。
如果本体论是关于我们可能知道什么的,那么认识论就是关于我们如何去知道我们所知道的。

4.2认识论

认识论是哲学的一个重要分支,它关心的是关于认识的理论,尤其是关于它的方法、确认和“获得关于社会本体认识的可能的方式。”简言之,是“关于我们如何认识假设其存在的本体的主张。”
  • 实证主义:是一种提倡将自然科学中的方法应用到对社会本体以及更多未知事物的研究中的认识论立场。
  • 诠释注意:是一种建立在需要一种尊重人与自然科学中物体之间的区别从而需要社会学家去抓住社会行为的主管含义的策略这一观点基础上的认识论立场。

4.4本体论、认识论、方法论、方法和原始资料之间的方向性关系

本体论(存在着什么)
——>认识论(关于这种客观存在我们能够知道什么以及如何知道?)
——>方法论(我们如何着手获得认知?)
——>方法(我们能够应用哪些准确的程序去获取认知?)
——>原始资料(我们能够收集哪些资料?)
  • 我们应该特别提防“方法导向”的研究,防止自身由一种特定的研究方法所指引
  • “问题导向”的研究,在问题的指引下研究问题指向最合适的研究方法,因此也指向最合适的资料来源。

格里斯. 研究方法第一本书[M]. 大连:东北财经大学出版社. 2011.1