气象数据是气候分析、农业规划、灾害预警、科研探索的核心,一份长期、权威、格式规范的全球气象数据,往往要面对 “技术门槛高”“数据量庞大”“格式不兼容” 等难题。而 NOAA(美国国家海洋和大气管理局)下属 NCEI 机构发布的 GSOD(Global Summary of the Day)气象站点数据,恰好填补了这一空白。
GSOD 原始数据总量庞大,完整年份的观测值超过 1 亿条,因此我们做了键优化:
1. 分年拆分,降低单文件压力
将 1930-2024 年的数据按年份拆分为独立的 CSV 文件。每个文件对应单一年份的观测记录。以 2022 年为例,单年数据就包含近 400 万条观测值,覆盖全球多个站点的逐日气象信息。
2. 规避 Excel 坑点:明确正确读取方式
很多人习惯用 Excel 打开 CSV 文件,但 GSOD 数据会遇到两个问题:
中文乱码:CSV 文件采用 UTF-8 编码,Excel 默认编码不兼容,直接打开会导致气象站名称等中文 / 特殊字符乱码。
行数限制:Excel 最多支持约 100 万条观测值显示,而 GSOD 单年数据常超过这个上限,会导致数据 “被截断”。
3.指标:



