【香樟推文3604】遥感数据在社科研究的测量误差陷阱

B站影视 日本电影 2025-08-07 12:39 1

摘要:原文信息: Josephson, A., Michler, J. D., Kilic, T., Murray, S. (2025). The mismeasure of weather: Using Earth Observation data for est

图片来源: 互联网
原文信息: Josephson, A., Michler, J. D., Kilic, T., Murray, S. (2025). The mismeasure of weather: Using Earth Observation data for estimation of socioeconomic outcomes. Journal of Development Economics, 103553 .

在撒哈拉以南非洲的一个偏远村庄,一位农户站在他的玉米田边,抬头望着天空。根据卫星数据,昨夜本应有一场拯救庄稼的暴雨,但这场雨从未发生。在这个高度依赖雨水灌溉的农业世界中,这样的“天气预测偏差”可能影响着农业政策的制定、减贫项目的实施,乃至全球气候变化模型的准确性。这引出了一个关键的研究问题:不同地球观测(EO)数据产品之间的测量差异,将如何影响对撒哈拉以南非洲农业生产力的计量经济学分析?具体而言,这些差异是否会导致估计结果的不稳健性,以及这种不稳健性是否超出简单的线性变换关系,即是否存在“差异性测量误差”?

01

引言

从17世纪开始,人类就用雨量计和温度计 测量并记录降水量和温度,以此预报天气 ,技术门槛并不高。但在撒哈拉以南非洲,由于长期投资不足,整个非洲大陆在世界气象组织数据库中只有37个气象站,且分布不均,却要为11亿人提供天气数据。 由于地面观测数据稀缺,社会科学研究者开始转向卫星遥感数据。但卫星并不能直接测量降水或温度,它测的是地表在不同光谱区域的反射率,然后通过算法估算出天气现象。这就产生了一个悖论:遥感数据需要地面气象站来校准模型,但非洲恰恰缺少这样的站点。结果就是,在非洲地区完全基于卫星的降水数据,反而比经过地面数据校正的产品更准确。我们的研究目标不是比较哪种数据产品更好,遥感领域已有大量此类研究。我们关注的是:当这些已知的测量误差遇到小农农业生产的社会现实时,会产生什么影响?这对使用类似数据的社会科学研究者有什么启示? 本文 结合九个地球观测天气数据集与六个撒哈拉以南非洲国家的“生活水平测量研究-农业综合调查”(LSMS-ISA)家庭调查数据。通过模拟天气对小农户生产力的影响,评估了测量误差。研究发现,不同地球观测产品的测量差异不仅影响回归系数的大小,还会影响系数的排序关系,表明存在“差异性测量误差”。因此,社会科学家在将地球观测数据与社会经济调查数据结合时应谨慎行事。

数据

02

(一) 地球观测 (EO) 天气数据

第一类EO产品: 融合 地面 站点 直接观测数据 与卫星 间接测量数据 ,包括非洲降水气候学版本2(ARC2)、气候危害组红外降水(CHIRPS)和热带应用气象学(TAMSAT)。

第二类EO产品: 使用 同 化模 型整合 卫星、站点、船舶、飞机等多源数据,生成全球气候模型输出,包括欧洲中期天气预报中心ERA5和NASA现代回顾性分析(MERRA-2)。

第三类EO产品: 主要 基于站点数据 ,使用空间插值生成连续表面。交叉验证显示,性能随站点距离增加而下降,不适于非洲站点稀疏区。

(二) 家庭调查数据

研究使用世界银行LSMS-ISA项目数据,覆盖埃塞俄比亚、马拉维、尼日尔、尼日利亚、坦桑尼亚和乌干达的多轮纵向家庭调查。估计中纳入两个农业生产力指标: 主要谷物作物产量 (kg/ha)和 农场季节性作物产值 (2015年美元/公顷)。

03

研究设计

由于缺乏特定地点和年份的独立遥感数据,研究团队采用了创新的研究设计来确保结果客观性。首先,制定了 预分析计划 ,并在开放科学框架进行注册。预先定义纳入研究的数据来源、函数形式、测试指标,以及比较不同模型结果的方法。其次,采用 “盲法”策略 确保客观性。团队人员分成两组: 数据生成组 负责提取遥感数据并与家庭调查数据匹配,创建多个遥感-调查配对数据集,在共享前将遥感产品身份匿名化; 数据分析组 负责清理农业生产力数据、运行回归分析。

(一)估计

研究遵循Deschêne和Greenstone(2007)的基本模型,使用双曲正弦函数对LSMS-ISA家庭调查的结果变量进行 对数转换 ,控制年份固定效应,某些规格中包含家庭固定效应。

团队估计了两个版本的模型:模型2a考察天气指标与作物生产力的简单相关性,将数据视为汇总横截面,称为 “仅天气”模型 ;模型2b考虑同一家庭的多个时间观测值,包含家庭固定效应和年份固定效应,称为 “带固定效应的天气”模型 ,代表当前流行的双向固定效应方法。

考虑到2个模型、6个国家、22个定义变量、9个遥感产品和2个因变量,研究总共进行了2592次回归,在648个不同版本数据上测试两个模型和两个结果。

(二)推断

由于回归数量庞大,研究预先指定了 启发式方法 和 标准 进行推断。方法需满足三个特征:对系数符号保持中立,能确定天气指标与结果的显著相关性,能衡量天气在模型中解释的方差量。研究重点关注两种启发式方法:(1)使用排名图跟踪系数在不同规范下的幅度排序,遥感产品中天气指标系数排名的变化反映了不能简单通过数据仿射变换解释的序数变化;(2)使用规范图检查回归系数的大小、显著性、符号及估计置信区间,确定某个遥感产品是否比其他产品更一致地预测输出。需要注意的是,点估计的显著性并不意味着模型指定正确或农学意义,这些结果仅用于可视化系数排序及其变异性,作为差异性测量误差存在的证据。

结果

04

本研究聚焦四个核心天气变量: 季节性总降雨量 、 无雨日数 、 季节性平均温度 和 生长积温 ,通过多维度对比分析揭示了地球观测产品在测量上的差异。

(一) 系数排序

研究采用了 系数排序分析方法 ,使用bumpline函数展示不同地球观测产品在各国的系数大小排名。在每个国家面板中, x轴代表不同的结果变量 (Val.表示值;Qty.表示数量)和不同的计量经济学规范(W.表示仅天气;W+FE表示天气和FE)。 y轴代表在给定规范-数据组合回归中每个EO产品的系数大小排名 。结果显示,天气系数排序在不同规范、变量和国家间存在显著差异,表明地球观测产品间并非简单的仿射变换关系。

图1.总季节性降雨的系数排名

在季节性总降雨量分析中(图1),各国表现迥异:在埃塞俄比亚,仅天气规范中CPC系数最大、ERA5最小,但加入固定效应后排序完全逆转;尼日利亚呈现相对稳定的排序模式,ARC2、CPC和ERA5排后三位;而尼日尔的结果则较为混乱,排序随规范变化频繁跳跃。这表明研究者 无 法预先 判断某个地球观测产品的降雨量如何与特定结果变量关联 。

图2.无雨天数的系数排名

接下来我们分析图2中的无雨日数据。研究发现与季节性总降雨量的情况相同,虽然可以在单个国家内部对地球观测产品的系数进行排序,但 无法在跨国层面找到一致的趋势 。

图3.平均温度的系数排名

接下来,我们转向平均每日温度的分析,如图3所示。该图保持相同的列和行结构,但仅涉及三个温度产品(ERA5、CPC和MERRA-2)。EO温度数据的国家内部序数变化远少于降雨数据,但跨国家一致性仍差。 与降雨类似,EO产品间存在国家间差异,即使产品数量较少,差异仍显著。

图4.生长积温(GDD)的系数排名

最后考察生长积温(GDD),如图4所示。与平均温度规格类似,这些结果比任一降雨变量更一致。对于GDD,与平均温度和降雨指标一样,产生最大或最小系数的EO产品因国家而异,再次表明这些 产品在不同社会化背景下的表现不一致 。研究结果高度依赖规范和数据决策,一个EO产品在不改变回归结果的情况下,不能简单地替代另一个产品。

(二) 系数大小

接下来,我们通过规范图表展示研究结果,重点分析方程(2b)。每个国家的降雨量指标进行12次回归,温度指标进行6次回归,图表提供点估计和95%置信区间的可视化。 灰色圆圈代表数据类型 (每公顷总农场价值或玉米产量),方块指示EO产品来源及其系数的符号与显著性。系数大小与置信区间关系用不同标记表示: 黑色三角形为不显著,蓝色叉号为正向显著,红色叉号为负向显著 。解读时, 主要关注灰色标记模式 。如果不同EO产品报告的降雨量和温度差异仅为彼此的仿射变换,标记位置应呈现一致模式。测量差异若只产生基数变化,系数大小和显著性会改变,但排序不变。相反,若EO产品差异导致序数变化,则无法观察到一致的标记位置模式。

图5.总季节性降雨量的规范图表

图5展示按国家划分的总季节性降雨量。标记位置更似噪声,而非国家内/间重复模式。72次回归中,26次显著(36%),多数不显著。显著系数中,20/26为正向(77%),符合预期。 国家内无相反符号显著系数,但国家间差异大。 结果表明,同一EO产品测量的降雨量可能在一国与农业生产正相关,在另一国负相关,而另一产品在同样两国报告完全相反的系数符号。

图6.无雨天数规格图

转向图6,以无雨天数衡量的降雨量往往比季节总降雨量产生更显著系数。在72次回归中,37次显著(51%),显著系数大多为负(30/37,81%),符合预期。与季节总降雨量类似,国家内EO产品内部一致:无显著正负系数对立。但 国家内不同产品间或同一产品跨国间仍缺乏一致性 。

图7.平均温度的规范图

接下来,我们转向图7中的季节平均温度。近一半系数显著(16/36,44%),但显著值符号混合:6正、10负。有些国家高温与高产量相关,其他国家相反。

图8.生长积温(GDD)的规范图

最后,我们考察图8中的GDD(生长积温)。总体而言,GDD是产量的糟糕预测指标,36个回归中仅12个系数显著(33%)。这种预测力缺失可能源于这些热带国家的狭窄温度范围。但即使在天气指标预测力弱的环境中,同一EO产品跨国间仍不一致。

基于这些结果, 天气系数符号可能因EO产品而异 。这些产品报告的天气-产量正/负关系可通过选择EO产品、天气指标和计量经济学规范进行改变,表明超出简单仿射变换的差异化测量误差。

05

遥感数据使用的实践建议

如果研究者选择了不同的EO产品,他们可能会得出完全不同的结果和结论。基于这一发现,我们提出四项关键建议:

第一, 仔细选择EO产品 。应充分了解产品的时空分辨率、校准方法和数据生成过程,并在论文中明确说明选择理由。

第二, 验证结果的稳健性 。研究者需证明关键结果不依赖于特定EO产品选择。

第三,在缺乏气象站数据的低收入国家,研究者应在数据收集中 纳入地面真实气象数据 。

最后,需要以批判性思维审视科学研究。正如古尔德所言,科学是社会现象而非纯粹信息收集。研究者既要对研究结果保持质疑态度,也要理解其他学者可能面临的数据局限性。

推文作者:严祥武。研究兴趣:贸易弹性、自然资源管理。电子邮箱:xiangwu.yan@xynu.edu.cn。推文内容若存在错误与疏漏,欢迎邮箱批评指正!

来源:老夏看商业一点号

相关推荐