在这个挑战中,使用了 pandas 和数据可视化库(Matplotlib、Seaborn)来对数据集进行分析,特别是比利时地产销售的价格。
任务是清理、完整分析和解释之前挑战中创建的数据集,以便建立一个机器学习模型来预测比利时地产销售的价格。挑战的目标包括:
我们使用了由Kai Yung及其团队在先前挑战中获取的50,000个房地产观察数据集。为了获取地理信息,我们将此数据集与belgium.be的邮政编码数据集以及ArcGis提供的比利时市政GeoJSON合并。
为了更好地理解比利时的房地产状况,我们决定添加地理数据。我们使用了Folium工具,该工具可以在Leaflet地图上轻松可视化数据。我们从code-postaux-belge.csv文件中获取了邮政编码数据,并添加了省份和地区的信息。
数据清理阶段非常重要,我们的目标是创建一个干净的数据集,以避免异常值的干扰。我们进行了两个阶段的清理:
最终,我们得到了40,395行观察和18列的清理后的数据集。
这是有趣的部分!我们的目标是价格,因为我们的挑战是创建一个机器学习模型来预测比利时销售的价格。我们使用了热图来识别变量之间的相关性。根据我们的观察,价格主要与房间数量和房屋面积相关。
基于这些观察,我们得出以下结论:
基于我们的观察,我们回答了挑战中提出的问题,并计算了比利时、瓦隆和佛兰德地区最昂贵和最便宜的市镇的平均价格、中位价格和每平方米价格。我们还将公寓和房屋分开进行分析,并创建了一些地图以更好地理解情况。
在团队协作方面,我们遇到了一些困难,包括找到适合我们愿望的协作工作方法和学习使用Matplotlib或Seaborn等工具。我们通过各自独立工作,并共享工作结果来解决这些问题。
在数据分析和解释方面,我们发现如果不对值进行最小过滤,图表的可视化效果不够相关。我们解决了这个问题,并展示了相应的图表。
这个挑战使我们面临了一些困难,但通过团队合作和克服这些问题,我们成功地完成了任务。这也为我们提供了在统计和编程方面的宝贵经验。