安德尔房产数据分析

发布时间：2024年01月11日

安德尔房产数据分析

安德尔房产数据分析

安德尔房产数据分析

介绍

在这个挑战中，使用了 pandas 和数据可视化库（Matplotlib、Seaborn）来对数据集进行分析，特别是比利时地产销售的价格。
在这里插入图片描述

挑战概要

任务是清理、完整分析和解释之前挑战中创建的数据集，以便建立一个机器学习模型来预测比利时地产销售的价格。挑战的目标包括：

使用 Pandas 进行数据操作。
使用 MatplotLib 和/或 Seaborn 进行绘图。
查找并理解数据集变量之间的相关性。

数据集

我们使用了由Kai Yung及其团队在先前挑战中获取的50,000个房地产观察数据集。为了获取地理信息，我们将此数据集与belgium.be的邮政编码数据集以及ArcGis提供的比利时市政GeoJSON合并。

添加地理数据

为了更好地理解比利时的房地产状况，我们决定添加地理数据。我们使用了Folium工具，该工具可以在Leaflet地图上轻松可视化数据。我们从code-postaux-belge.csv文件中获取了邮政编码数据，并添加了省份和地区的信息。

数据清理

数据清理阶段非常重要，我们的目标是创建一个干净的数据集，以避免异常值的干扰。我们进行了两个阶段的清理：

原始数据清理： 删除重复行，删除只有一个唯一值的列，检查每列的属性。
细化数值： 对数据进行深入研究，删除异常值和无用列，将所有浮点数转换为整数。

最终，我们得到了40,395行观察和18列的清理后的数据集。

数据分析与解释

这是有趣的部分！我们的目标是价格，因为我们的挑战是创建一个机器学习模型来预测比利时销售的价格。我们使用了热图来识别变量之间的相关性。根据我们的观察，价格主要与房间数量和房屋面积相关。

基于这些观察，我们得出以下结论：

开放式火灾、花园、房屋位置（市政）以及立面数量确定了房地产类型。这对房间数量和房屋面积产生很大影响：公寓的空间和房间比房屋少。
房间数量和房屋面积是基于财产大小的两个变量，并且它们是价格的主要影响因素：较大的房屋/公寓比较小的房屋/公寓更昂贵。

结论

基于我们的观察，我们回答了挑战中提出的问题，并计算了比利时、瓦隆和佛兰德地区最昂贵和最便宜的市镇的平均价格、中位价格和每平方米价格。我们还将公寓和房屋分开进行分析，并创建了一些地图以更好地理解情况。

困难与解决方案

在团队协作方面，我们遇到了一些困难，包括找到适合我们愿望的协作工作方法和学习使用Matplotlib或Seaborn等工具。我们通过各自独立工作，并共享工作结果来解决这些问题。

在数据分析和解释方面，我们发现如果不对值进行最小过滤，图表的可视化效果不够相关。我们解决了这个问题，并展示了相应的图表。

这个挑战使我们面临了一些困难，但通过团队合作和克服这些问题，我们成功地完成了任务。这也为我们提供了在统计和编程方面的宝贵经验。

文章来源:https://blog.csdn.net/qq_36315683/article/details/135538956
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！