任务描述
知识点:
重? 点:
内? 容:
任务指导
数据源为NCDC(美国国家气候数据中心,National Climatic Data Center),隶属于NOAA(美国国家海洋及大气管理局,National Oceanic and Atmospheric Administration)。 数据来自NCDC的公开FTP服务器?ftp://ftp.ncdc.noaa.gov/pub/data/noaa/isd-lite/?,本项目只选取了中国区域(含港澳台)的观测站点数据,按年打包。
任务实现
数据源为NCDC(美国国家气候数据中心,National Climatic Data Center),隶属于NOAA(美国国家海洋及大气管理局,National Oceanic and Atmospheric Administration)。 数据来自NCDC的公开FTP服务器?ftp://ftp.ncdc.noaa.gov/pub/data/noaa/isd-lite/?,本项目只选取了中国区域(含港澳台)的观测站点数据,按年打包。
按年打包文件是几百个站点数据文件,每个文件是单个站点全年的数据。文件名如“552990-99999-2000.gz”,第1段数字是站点ID,第3段数字是年份。数据格式ISD-Lite,是简化的ISD(Integrated Surface Data)数据。每列固定宽度,非常易于程序解析,也可直接当做“空格分隔的CSV”使用。具体每列的含义及数据格式见isd-lite-format.txt,有详细解释。时间是GMT时间。
1)使用FTP下载NCDC气象数据,本文所使用的FTP工具为FlashFXP(该工具安装包已存放在Windows机器的C:\software目录下,请自行安装),配置信息如下,效果如下图所示。
图1? ftp工具登录界面
图2 ftp目录
2)本项目只选取中国区域(含港澳台)的观测站点数据,站点ID范围45007~59948,以2022年的数据为例:
图3? ftp下载过程
3)这里只下载2021和2022年的中国的气象数据即可。我们以这两年的数据处理为例,介绍数据的预处理过程,然后学生可以自行处理其他年份的数据。
4)在后续的数据分析、预测和可视化任务中使用的数据,是由老师提供已经处理好的2000年到2022年的22年间的数据。
上一个任务下一个任务