任务15：使用Hive进行全国气象数据分析

发布时间：2024年01月16日

任务描述

知识点：

使用Hive进行数据分析

重? 点：

掌握Hive基本语句
熟练使用Hive对天气数据进行分析

内? 容：

使用Hive创建外部表
使用Hive对数据进行统计分析

任务指导

1. 使用Hive创建基础表

将China_stn_city.csv文件上传到HDFS的/china_stn目录中
启动metastore（后台运行）
进入Hive命令行模式，创建Hive数据库（china_all）
创建Hive外部表：china_all，并加载HDFS上/china_all的数据

创建基站与城市对应关系表：stn_city

创建天气数据与各城市的对应表

创建2022年天气数据表：tmp_city_2022，基于tmp_city获取2022年全年的天气数据，并将数据插入到tmp_city_2022表中

2. 使用Hive分析数据（可视化数据支持）

1）统计2022年每个月各省份的平均气温及平均风速

创建china_map表，表字段包含：月份，省份，平均气温，平均风速
统计2022年每个月各省份的平均气温及平均风速，由于气温与风速数据中存在缺失值"-9999"，所以统计平均气温和平均风速时只统计不等于(<>)"-9999"的数据

2）统计2022年每个月平均降水量TOP10的城市

创建city_precipitation_top10表，表字段包含：月份，城市，平均降水量（6小时）
统计2022年每个月平均降水量TOP10的城市。本次查询通过两次子查询进行统计，通过第一次子查询获取2022年每个月各个城市的平均降水量（原数据中关于降水量的有两个字段“precipitation_1 string”和“precipitation_6 string”，分别为1小时内的降水量与6小时内的降水量，此时我们统计各城市平均6小时内的降水量），基于第一次子查询所得的结果，使用row_number()函数对各城市的平均降水量进行排名，进行第二次子查询，通过两次子查询分别获取到平均降水量以及排名，最后使用最外层查询根据排名取得前十的城市

3）统计2022年每个月各个城市的平均气温

创建city_temp表，表字段包含：月份，城市，平均气温
统计2022年每个月各个城市的平均气温

4）统计2022年每个月各个省份的平均气温

创建province_temp表，表字段包含：省份，月份，平均气温，(预留) 预测气温
统计2022年每个月各个省份的平均气温。表中的forecast字段作为预留的气温预测字段，用于写入后面的气温预测数据，当前该字段填入"0"

5）统计2022年每个月各省份的平均气压

创建province_pressure表，表字段包含：月份，省份，平均气压
统计2022年每个月各省份的平均气压

3. 使用Hive分析数据（气温预测数据支持）

在后续任务中会使用时间序列模型分别山东省以及全国各省份的气温进行预测，所以需要使用2000-2022年各个省份每个月的平均气温作为训练数据

创建2000-2022年各省份平均气温表province_temp_all，表字段包含：年份，省份，月份，平均气温
统计2000-2022年各省份每月的平均气温

任务实现