社会科学实验研究方法
从原理到实践

中国农业大学

胡悦

清华大学政治学系
清华大学计算社会科学平台
清华大学数据与治理研究中心

2024-10-17

概要

  1. 方法逻辑:
    • 为什么要做实验、要分组、要随机
    • 怎么样进行一个实验
  1. 核心原则:
    • 科学性原则
    • 设计认知谬误
    • 方法应用局限
    • 应用举例

心理预设

  • 涉及
    • 核心逻辑
    • 设计原则
    • 方法局限
  • 不包含
    • 具体实验设计
    • 实验结果分析

→ “理论家” + “鉴赏家”

实验方法逻辑

为何使用实验法

我们必须坚持解放思想、实事求是、与时俱进、求真务实……得出符合客观规律的科学认识,形成与时俱进的理论成果,更好指导中国实践。
——习近平 (《在中国共产党第二十次全国代表大会上的报告》,2020)

何以“实事求是、求真务实”?
如何获得“科学认识”?

研究目标与理论解法

建模因果

干预因素(Treatment, \(T\), 0/1) 对实验对象(Subject, 被试) \(i\) 引发效果(Effect, \(Y_i\)) , 那么\(T\)\(Y_i\)的因果效为实验效果(treatment effect, TE or \(\Delta\)):

\[\Delta_i = Y_{0i} - Y_{1i}.\] \[\Downarrow\] \[Y_i = TY_{i1} + (1 - T)Y_{i0}.\]

实验:实证检验RCM

TE → ATE (Average treatment effect)

实验是权宜之计

实验室一种对因果效果的模拟和基于人类认知局限的妥协

因果推断的“圣杯”

RCM强悍之处

  1. 因果律 → 单一因素因果效果;
  2. 定义了因果关系;
  3. 使因果关系可见、可测。

实验甚至成为“科学”的象征

随机

创建“一样的”的两组

操作流程

完整版

  1. 随机分组
  2. 前测
  3. 干预
  4. 后测
  5. 比较
  • Randomized Controlled Trials (RCTs)

缩略版 I

  1. 随机分组
  2. 前测
  3. 干预
  4. 后测
  5. 比较
  • “社科实验”

缩略版 II

  1. 随机分组
  2. 前测
  3. 干预
  4. 后测
  5. 比较
  • “初中试验”

缩略版 III

  1. 随机分组
  2. 前测
  3. 干预
  4. 后测
  5. 比较
  • “自然实验”
    • 不是实验

设计种类

按干预形式分:

行为

心理

田野

按实验环境分:

实验在政治学的应用

  • 早期(1920年代-1950年代): Harold Gosnell (1926); 早期实验主要在实验室中进行,集中在选民行为和政治沟通。
  • 行为主义革命(1950年代-1960年代): 政治科学中的行为主义革命导致了对经验研究的更大重视,为实验方法铺平了道路。

  • 田野实验(1970年代-1980年代): 现场实验的引入使研究人员能够在自然环境中研究政治行为。Donald Green 和 Alan Gerber在此方面起到了关键作用。

  • 随机对照试验(1990年代至今): 随机对照试验(RCT)的使用变得更加普遍,允许进行严格的因果推断。

小结

  1. 为什么要做实验:获得科学的因果推论
  2. 为什么要分组
    • 因果模型: RCM
    • 个体(treatment effect) → 群体 (average treatment effect)
  3. 为什么要随机
    • 获得“一样的”两组人
  1. 怎么样进行一个实验
    • 完整版(RCTs)及缩略版
    • 设计:环境;干预
  2. 怎么样进入的政治学
    • 仿照自然科学 → 行为主义革命 → 田野 → 标准RCTs

实验原则与应用

衡量实验(及其他研究)科学性的标准

效度(Validity):推断与真实的接近程度。

  • 与研究目的的接近程度——内部效度
  • 与广泛人群的接近程度——外部效度

正确理解实验效度

内部效度: 目标人群

  • 建构性:是否能合理且有针对性地评鉴目标理论
  • 因果性:可识别性
  • 统计性: 因-果因素间显著且稳定的统计关系

外部效度: 超越目标人群

常见误解

  • 目标人群 ≠ 总体
  • 生态效度: 与目标人群在非实验环境中行为决策的一致性
    • 并不关注实证推断与真实规律的联系,而考察的是研究环境与实际环境的相似程度
    • 内部效度的一个维度

效度是个整体概念,不能完全孤立看待!

对实验法的认知谬误 I

“实验结果是科学的”

对实验法的认知谬误 II

“随机是万灵药”

Morgan and Rubin (2012):

在一个有10个变量的模型中, 如果令α = 0.05, 那么出现随机分配不可控差异的几率为 1-(1-0.05)10 ≈ 0.4013。

Data imbalance ⇒ low causal & statistical validity!

  • 解法
    • Rerandomization
    • Matching
    • Control

对实验法的认知谬误 II

“随机是万灵药”

对实验法的认知谬误 III

“实验室实验外部效度低”

  1. 被试问题
    • 实验室实验都用的一群学生,怎么能代表总体人口?

  1. 实验效应(experimental effects/experimenter effects)问题
    • “在多数情况下,被试者清楚知道自己在做实验,进而影响行为决策。”
    • 生态效度问题, 不是外部效度问题
    • 非自然环境,可是实验所需(Bassi, Morton, and Williams 2011)

局限与破局之法

  • 被试的局限性
  • 数据质量(compliance问题)
  • 实验数据分析并不简单
    • 只能比较平均值
  • 生态效度始终是个问题

提高效度方法:详见 胡悦 (2021)

应用举例

心理实验1

  • 研究问题:抽象道德驱动力 vs. 具体复权驱动力
  • 实验设计:分区随机析因实验
    • 邀请您参与回答一份日常生活和社会观察的问卷,您不会从参与本次研究中获得重大的直接收益

    • 干预:
      1. 但我们希望您的参与能够帮助增进对于相关问题的理解,进而为公共福祉做出贡献。(集体主义)
      2. 但我们希望您的参与能够帮助增进对于相关人群的理解,从而更好地帮助那些有需要的人们。(利他主义)
      3. 您被选中是因为您特殊的背景和专业。(自我价值)
      4. 但我们希望您的参与能够帮助政策制定者增进对于相关问题的理解,进而为改进相关政策提供借鉴。(政策影响赋权)

实验结果(Average Treatment Effect, ATE)

行为(心理混合)实验

信任博弈(Trust Game)

  1. 玩家A(信任者): 玩家A首先收到一定数量的货币单位(例如10元)。然后,他们可以选择将其中的一部分或全部交给玩家B。交给玩家B的金额将乘以一个系数(例如3),从而增加总金额。
  2. 玩家B(受托人): 玩家B接收到乘以系数后的金额,并可以选择将其中的一部分或全部归还给玩家A。
  3. 结果: 游戏的结果揭示了玩家A对玩家B的信任程度,以及玩家B对这种信任的回应。

Hu (2020): 改良变语匹配实验 +(半)信任博弈测量

实验结果

敏感问题实验

探索敏感问题:列举实验(“有几个?”)

控制组

实验组

应用(Tang and Hu 2022)

Take-Home points

  1. 实验方法逻辑: 三个为什么和一个怎么样
  2. 实验原则
    • 科学性原则: 内部与外部有效性
    • 设计认知谬误:科学性迷信、随机迷信、外部效度低
    • 方法应用局限:被试、数据、分析
    • 应用举例:心理、行为、特殊

Tip

延伸阅读:

Morton, Rebecca B., and Kenneth C. Williams. 2010. Experimental Political Science and the Study of Causality: From Nature to the Lab. Cambridge; New York: Cambridge University Press.

胡悦. 2021. “实验室实验:政治科学研究的一种有效方法?” 《国外理论动态》 (06): 160–71.

“如何用实验探索政治——对话清华大学胡悦副教授”

感谢关注·欢迎交流

  sammo3182

  yuehu@tsinghua.edu.cn

  https://www.drhuyue.site/

参考文献

Bassi, Anna, Rebecca B. Morton, and Kenneth C. Williams. 2011. “The Effects of Identities, Incentives, and Information on Voting.” The Journal of Politics 73 (2): 558–71.
Chang, Andrew, and Phillip Li. 2015. “Is Economics Research Replicable? Sixty Published Papers from Thirteen Journals Say ’Usually Not’.” Finance and Economics Discussion Series 7: 1–25. http://dx.doi.org/10.17016/FEDS.2015.083.
Egas, Martijn, and Arno Riedl. 2008. “The Economics of Altruistic Punishment and the Maintenance of Cooperation.” Proceedings of the Royal Society of London B: Biological Sciences 275 (1637): 871–78.
Gosnell, Harold F. 1926. “An Experiment in the Stimulation of Voting.” American Political Science Review 20 (4): 869–74. https://doi.org/10.2307/1945435.
Green, Donald P., and Alan S. Gerber. 2019. Get Out the Vote: How to Increase Voter Turnout. Brookings Institution Press. https://books.google.com?id=lPlyDwAAQBAJ.
Hu, Yue. 2020. “Culture Marker Versus Authority Marker: How Do Language Attitudes Affect Political Trust?” Political Psychology 41 (4): 699–716. https://doi.org/10.1111/pops.12646.
Kam, Cindy D., Jennifer R. Wilking, and Elizabeth J. Zechmeister. 2007. “Beyond the ’Narrow Data Base’: Another Convenience Sample for Experimental Research.” Political Behavior 29 (4): 415–40.
Lu, Yi, Jianting Zhao, Xueying Wu, and Siu Ming Lo. 2021. “Escaping to Nature During a Pandemic: A Natural Experiment in Asian Cities During the COVID-19 Pandemic with Big Social Media Data.” Science of The Total Environment 777 (July): 146092. https://doi.org/10.1016/j.scitotenv.2021.146092.
Morgan, Kari Lock, and Donald B. Rubin. 2012. “Rerandomization to Improve Covariate Balance in Experiments.” The Annals of Statistics 40 (2): 1263–82.
Open Science Collaboration. 2015. “Estimating the Reproducibility of Psychological Science.” Science 349 (6251): aac4716.
Rubin, Donald B. 1990. “Comment: Neyman (1923) and Causal Inference in Experiments and Observational Studies.” Statistical Science 5 (4): 472–80.
Solt, Frederick, Yue Hu, Kevan Hudson, Jungmin Song, and Dong "Erico" Yu. 2017. “Economic Inequality and Class Consciousness.” The Journal of Politics 79 (3, 3): 1079–83. https://doi.org/10.1086/690971.
Splawa-Neyman, Jerzy, Dorota M. Dabrowska, and T. P. Speed. 1923. “On the Application of Probability Theory to Agricultural Experiments. Essay on Principles. Section 9.” Statistical Science, 465–72.
Tai, Yuehong ‘Cassandra’, Yue Hu, and Frederick Solt. 2022. “Democracy, Public Support, and Measurement Uncertainty.” American Political Science Review, May, First View. https://doi.org/10.1017/S0003055422000429.
Tang, Wenfang, and Yue Hu. 2022. “Detecting Grassroots Bribery and Its Sources in China: A Survey Experimental Approach.” Journal of Contemporary China 32 (140): 207–24. https://doi.org/10.1080/10670564.2022.2071883.
胡悦. 2021. “实验室实验:政治科学研究的一种有效方法?” 国外理论动态, no. 06: 160–71. https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFDAUTO&filename=GWLD202106020&uniplatform=NZKPT&v=PJYfzUdELnpV-fTfaz1qhlzXK-PBjlfPmQ9ieLN3AwtLHnQA7zFItljLs4eCH3va.