酒店的数量、价格、评分和人流量是衡量一个城市消费水平的指标,也间接反映出城市的经济发展水平和居民的生活水平。
我抓取了整个上海的携程酒店数据,一共 6000 余个酒店,包含几十个字段,主要的字段信息如下:并进行了简要的分析。
第一步,先来看看这个 dataframe 的整体分析 df.describle():
discounted_price entity_score star lng lat
count 5712.000000 6013.000000 6203.000000 6203.000000 6203.000000
mean 460.375875 4.216498 2.035467 121.418132 31.220763
std 900.588455 0.664155 1.213317 0.163744 0.191488
min 19.000000 1.000000 0.000000 120.914303 30.707439
25% 152.000000 4.000000 2.000000 121.323827 31.128369
50% 253.000000 4.400000 2.000000 121.432059 31.218784
75% 429.000000 4.700000 3.000000 121.491432 31.292182
max 25017.000000 5.000000 5.000000 121.918401 31.827032
酒店价格最贵 25000 一晚,最低 19 块一晚(可能是青旅),
不愧是魔都,让月薪 1k 的不至于流落街头,年入千万的天天七星级,挺好的。
从价格的中位数来看,只平平无奇,但是从平均价格来看,上海的酒店价格至少是我老家,湖南一个省内著名省外无名三线城市价格的 2 倍。
剔除价格的极端值后,再看可视化看看上海酒店价格的主要分布区间。
可以这么说,至少绝大部分的酒店价格都在 750 以下。
再来看看上海分区的价格情况。
最贵的是黄埔区、徐汇区、杨浦区,最便宜的是嘉定区、奉贤区。
然后看看各字段的相关性分析。
这张图信息量说大也大,毕竟有 16 个图。
说小也小,拆成一个个小图,每一个图都是一个变量关于其他变量的散点图(对角线上的除外)看 x、y 坐标,同时注意 label 是酒店星级。
其中经纬度和其他变量相关性太小,可以忽略,所以只看左上角四个小图构成的方块即可。
这样一来,可以很快得出一些无用的结论。
价格多分布在区间的下行,即大部分酒店价格较低,评分则多分布在区间上行,大部分酒店评分较高,这反映了上海市酒店服务业的整体水平较高。
图例表示酒店星级,颜色越深,等级越高,在图中的位置越靠右、越靠上,也就是价格越高、评分越高。
价格越低,消费者评分的方差就越大,1-5 分都有分布,价格越高,评分越高,几乎都在 4 分以上。我觉得这有两个原因,第一,价格高的酒店数量远远不如酒店低的数量,第二,花了 2w 块住一晚酒店,那体验能不好吗?
最后,把酒店价格可视化地展示在上海地图上。
柱子颜色深浅代表酒店人气,柱子高度代表酒店价格。
最后一个无用的结论,即大部分高价酒店人气低,大部分低价酒店人气高。