建造你的第一个模型,万岁!
本课程所需数据集夸克网盘下载链接:https://pan.quark.cn/s/9b4e9a1246b2
提取码:uDzP
您的数据集中有太多的变量,以至于您无法理解,甚至无法很好地打印出来。你怎样才能把这么庞大的数据压缩成你能理解的东西呢?
我们先用我们的直觉挑选一些变量。稍后的课程将向您展示数据统计技术,以自动排列变量的优先级。
要选择变量/列,我们需要查看数据集中所有列的列表。这是通过 DataFrame
的 column
属性完成的(下面的代码底线)
In [1]:
import pandas as pd
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)
melbourne_data.columns
Out[1]:
Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea',