0Prim 1somehs 2hsgrad 3somecol 4colgrad
0 0.50102529 0.62285381 0.76896442 0.82792701 0.91397195
1 0.49897471 0.37714619 0.23103558 0.17207299 0.08602805
政务大数据应用与分析 (80700673)
清华大学
AI时代为什么还要学统计和计量?
Is soft science a real science?
信念
程序
方法
想法 → 判断 → 证据
呈现形式
反事实分析 (counterfactual analysis)
研究设计原则
大数据不是全数据
全数据不一定是好数据
从一大堆到一小撮 ⇒ 代表性
问题: 为什么要随机
矫正
S + W + (FPC)
后果
复杂抽样是不得已而为之
Behavioral Risk Factor Surveillance System (BRFSS) County data by US Centers of Disease Control and Prevention (CDC)
Unweighted
0Prim 1somehs 2hsgrad 3somecol 4colgrad
0 0.50102529 0.62285381 0.76896442 0.82792701 0.91397195
1 0.49897471 0.37714619 0.23103558 0.17207299 0.08602805
Weighed
0Prim 1somehs 2hsgrad 3somecol 4colgrad
0 0.54784913 0.69288237 0.80457219 0.86034095 0.92834751
1 0.45215087 0.30711763 0.19542781 0.13965905 0.07165249
数据收集原则
统计学 vs. 计量经济学
Statistics vs. Econometrics
数据
分析
材料
测量
一个研究者想了解全市居民上个月的平均通讯支出是多少元,为此在全市人口中随机抽取了1800个居民进行了访问,得到了这些居民上个月的平均通讯支出为300元。
请指出以上叙述中,总体、样本、参数、系数各是什么?
调查发现,人们对市政府工作的满意度,在不同年龄、教育水平、收入、职业以及不同户口人群中都有显著的差异。
问题:上述这段描述中提到了几个变量,分别是什么类型的数据?
类型
记录
Tidy version
面板数据
好
(成本高,样本局限大🙄)
重复抽样数据
周期性调查
每次随机
时序性信息
e.g., WVS, DCPO, Global barometers, CGSS, CFPS, CEPS, CLDS, CUGS, CHFS, GSS, CESS…
呈现社会、政治、经济现象的变化趋势
探索特定人群(Cohort)社会行为与态度的变迁模式
适用于识别自然实验的效应
描述性分析
比较分析
总体分析
数据分析工具
研究设计原则
数据收集原则
分析原则