携程上海酒店数据采集及可视化

发布时间:2024年01月12日

酒店的数量、价格、评分和人流量是衡量一个城市消费水平的指标,也间接反映出城市的经济发展水平和居民的生活水平。

我抓取了整个上海的携程酒店数据,一共 6000 余个酒店,包含几十个字段,主要的字段信息如下:并进行了简要的分析。

第一步,先来看看这个 dataframe 的整体分析 df.describle():

       discounted_price  entity_score         star          lng          lat
count       5712.000000   6013.000000  6203.000000  6203.000000  6203.000000
mean         460.375875      4.216498     2.035467   121.418132    31.220763
std          900.588455      0.664155     1.213317     0.163744     0.191488
min           19.000000      1.000000     0.000000   120.914303    30.707439
25%          152.000000      4.000000     2.000000   121.323827    31.128369
50%          253.000000      4.400000     2.000000   121.432059    31.218784
75%          429.000000      4.700000     3.000000   121.491432    31.292182
max        25017.000000      5.000000     5.000000   121.918401    31.827032

酒店价格最贵 25000 一晚,最低 19 块一晚(可能是青旅),

不愧是魔都,让月薪 1k 的不至于流落街头,年入千万的天天七星级,挺好的。

从价格的中位数来看,只平平无奇,但是从平均价格来看,上海的酒店价格至少是我老家,湖南一个省内著名省外无名三线城市价格的 2 倍。

剔除价格的极端值后,再看可视化看看上海酒店价格的主要分布区间。

在这里插入图片描述

可以这么说,至少绝大部分的酒店价格都在 750 以下。

再来看看上海分区的价格情况。

在这里插入图片描述

最贵的是黄埔区、徐汇区、杨浦区,最便宜的是嘉定区、奉贤区。

然后看看各字段的相关性分析。

在这里插入图片描述

这张图信息量说大也大,毕竟有 16 个图。

说小也小,拆成一个个小图,每一个图都是一个变量关于其他变量的散点图(对角线上的除外)看 x、y 坐标,同时注意 label 是酒店星级。

其中经纬度和其他变量相关性太小,可以忽略,所以只看左上角四个小图构成的方块即可。

这样一来,可以很快得出一些无用的结论。

  • 价格多分布在区间的下行,即大部分酒店价格较低,评分则多分布在区间上行,大部分酒店评分较高,这反映了上海市酒店服务业的整体水平较高。

  • 图例表示酒店星级,颜色越深,等级越高,在图中的位置越靠右、越靠上,也就是价格越高、评分越高。

  • 价格越低,消费者评分的方差就越大,1-5 分都有分布,价格越高,评分越高,几乎都在 4 分以上。我觉得这有两个原因,第一,价格高的酒店数量远远不如酒店低的数量,第二,花了 2w 块住一晚酒店,那体验能不好吗?

最后,把酒店价格可视化地展示在上海地图上。

柱子颜色深浅代表酒店人气,柱子高度代表酒店价格。

在这里插入图片描述

最后一个无用的结论,即大部分高价酒店人气低,大部分低价酒店人气高。

文章来源:https://blog.csdn.net/ygdxt/article/details/135544953
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。