在数字经济实证研究中,“内生性问题” 往往是阻碍因果识别的关键瓶颈。无论是研究企业上云对创新的影响,还是数字基础设施建设与区域经济增长的关系,研究者常面临 “反向因果”(如企业创新能力越强越倾向于上云)或 “遗漏变量”(如地区技术水平未被完全控制)的干扰。而解决这一问题的核心,在于找到一个同时满足 “相关性” 与 “外生性” 的工具变量 —— 因此我们推出的 1995-2023 年各省市区县雷击频率及交乘面板数据,正是为数字经济研究量身打造的优质工具变量。

一、数据核心:时间、空间与指标的三重覆盖
这份数据的核心价值,首先体现在其 “全维度覆盖” 的特性,从时间跨度到空间粒度,再到指标设计,均贴合学术研究的实际需求:
1. 时间与空间范围
时间跨度:1995-2023 年,覆盖近 30 年的长时序观测,足以支撑动态面板模型、政策效应评估等研究设计。
空间粒度:涵盖省、市、区县三级行政单位,既支持宏观层面(省级)的数字经济发展研究,也能满足微观层面(区县)的精准分析,避免了 “空间聚合偏误”。
2. 核心指标解析
数据的核心是 “雷击频率” 及衍生的 “交乘项”,其中雷击频率包含三个关键变量,均来自卫星监测的权威数据:
此外,为解决原始雷击频率 “截面数据” 与企业固定效应的共线性问题,数据还创新性地引入 “交乘项”—— 将雷击频率与全国长途光缆线路增长率(数据来自《中国统计年鉴 2024》)相乘,生成 HRFC_COM_FR_g、HRFC_LIS_FR_g、HRFC_OTD_FR_g 三个时变指标,最终形成 “面板数据”,完美适配双向固定效应模型等主流实证方法。
二、工具变量的有效性:为何是 “雷击频率”?
一个合格的工具变量必须同时满足 “相关性” 与 “外生性” 两大条件,而雷击频率恰好天然契合这两点,这也是其被《世界经济》等顶刊论文(如田利辉等 2025 年研究 “企业上云与创新”)采用的核心原因。
1. 相关性:雷击与数字经济行为的逻辑关联
雷击并非与数字经济无关的随机事件,而是会直接影响数字基础设施的使用成本与可靠性,进而作用于企业或地区的数字经济决策:
破坏设备稳定性:雷击产生的电磁脉冲会损坏数据中心、服务器等硬件,导致云服务中断。例如 2023 年 8 月悉尼数据中心遭雷击,甲骨文云、微软云服务瘫痪,客户数据无法迁移,直接降低了企业对云服务的信任度。
增加建设成本:为应对雷击风险,云服务商需额外投入资源加强设备防护(如安装避雷针、备用电源)和灾备系统,这会提高企业上云的边际成本,尤其对中小企业形成 “准入壁垒”。
这种 “雷击频率越高→数字基础设施使用成本越高→企业上云意愿越低” 的负向关联,确保了雷击频率与核心解释变量(如企业上云)的强相关性。
2. 外生性:自然现象的 “天然随机性”
工具变量的 “外生性” 要求其与模型误差项(即未观测到的干扰因素)无关,而雷击的自然属性恰好满足这一点:
雷击是由大气电场、地形、气候等自然因素决定的随机现象,不受企业创新能力、地区经济水平等人为变量的影响;
无论是省级还是区县级的雷击频率,均无法通过政策干预或企业行为改变,不存在 “人为操纵” 的可能,从根本上排除了 “工具变量与遗漏变量相关” 的风险。
三、数据处理:从卫星栅格到可用面板的 “全流程透明”
原始雷击数据为 NASA 提供的 netCDF 格式栅格文件,普通研究者直接使用存在门槛。通过我们的处理实现了 “从原始数据到学术级面板数据” 的转化,关键步骤如下:
栅格数据读取:使用 R 语言terra包将 nc 文件解析为栅格数据,提取 HRFC_LIS_FR、HRFC_OTD_FR、HRFC_COM_FR 三个核心变量;
区域平均计算:叠加各省市区县的矢量行政边界数据,对栅格数据进行 “分区域平均”,得到各行政单位的雷击频率截面数据;
时变指标构建:将截面数据与《中国统计年鉴 2024》中的 “全国长途光缆线路增长率” 相乘,生成具有时间变化特征的交乘项;
数据格式输出:最终生成.dta格式(Stata 常用格式)的数据集,包含省、市、区县三级,具体文件如下:
基础数据:各省份 / 城市 / 区县闪电频率数据.dta(含 371 个城市观测值);
面板数据:1995-2023 年各省份 / 城市 / 区县雷击频率 – 光缆增长率交乘数据.dta(含 7791 个总观测值)。
整个处理过程透明可复现,研究者可参考 RStata 的配套课程(如 “R 语言栅格数据转面板数据”)验证数据可靠性,也可根据自身需求调整处理细节。
四、数据应用:从学术研究到实践指南
1. 应用场景拓展
除了已被验证的 “企业上云” 研究,这份数据还可应用于更多数字经济相关议题:
数字基础设施建设:研究雷击频率对 5G 基站布局、数据中心选址的影响;
数字政务效率:分析雷击导致的网络中断对政务服务办理时长的冲击;
区域数字鸿沟:比较不同地区雷击频率差异是否加剧了数字经济发展不平衡。


