今天继续Kaggle之旅,尝试Titanic - Machine Learning from Disaster
预测泰坦尼克号上的生存者,了解基础的ML。
学习这篇教程《Titanic Tutorial》,并重点学习其中用到的一个算法:随机森林 – random forest model
随机森林是由很多决策树构成的,不同决策树之间没有关联。当我们进行分类任务时,新的输入样本进入,就让森林中的每一棵决策树分别进行判断和分类,每个决策树会得到一个自己的分类结果,决策树的分类结果中哪一个分类最多,那么随机森林就会把这个结果当做最终的结果。
按照教程所描述,下面示意图里三个决策树,输入同一个人的不同属性,第一个根据性别、兄弟姐妹、父母子女(保姆)确定是否生存;第二个根据舱位等级、兄弟姐妹、父母子女(保姆)确定是否生存;第三个根据兄弟姐妹、性别、舱位等级确定是否生存,最终投票最高的获得生存。
will individually consider each passenger’s data and vote on whether the individual survived.
最终 the random forest model makes a democratic decision: the outcome with the most votes wins!
关键代码,使用sklearn里的随机森林分类器,输入对应的字段作为特征量,就可以开始训练:
from sklearn.ensemble import RandomForestClassifier
y = train_data["Survived"]
features = ["Pclass", "Sex", "SibSp", "Parch"]
X = pd.get_dummies(train_data[features])
X_test = pd.get_dummies(test_data[features])
model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)
model.fit(X, y)
predictions = model.predict(X_test)
以上是今天学的内容记录,还发现了一个挺好的网站:产品经理的人工智能学习库。