本数据集由保险公司收集,其中主要包括参保人健康信息如:是否患有糖尿病,高血压、和患者的年龄信息共11个字段。本案例里通过机器学习和可视化的方法分析哪些因素对保费价格影响最大。
1.读取医疗保险保费数据集
含了986例保险人的身体健康指标等数据,包括是否患有糖尿病,高血压等。
Age | Diabetes | BloodPressureProblems | AnyTransplants | AnyChronicDiseases | Height | Weight | KnownAllergies | HistoryOfCancerInFamily | NumberOfMajorSurgeries | PremiumPrice |
---|---|---|---|---|---|---|---|---|---|---|
45 | 0 | 0 | 0 | 0 | 155 | 57 | 0 | 0 | 0 | 25000 |
60 | 1 | 0 | 0 | 0 | 180 | 73 | 0 | 0 | 0 | 29000 |
36 | 1 | 1 | 0 | 0 | 158 | 59 | 0 | 0 | 1 | 23000 |
52 | 1 | 1 | 0 | 1 | 183 | 93 | 0 | 0 | 2 | 28000 |
38 | 0 | 0 | 0 | 1 | 166 | 88 | 0 | 0 | 1 | 23000 |
2.字段基本统计信息
对医疗保险保费数据集的各个字段进行统计分析,并展示相应的信息。
Age | Diabetes | BloodPressureProblems | AnyTransplants | AnyChronicDiseases | Height | Weight | KnownAllergies | HistoryOfCancerInFamily | NumberOfMajorSurgeries | PremiumPrice | |
---|---|---|---|---|---|---|---|---|---|---|---|
样本数 | 986 | 986 | 986 | 986 | 986 | 986 | 986 | 986 | 986 | 986 | 986 |
均值 | 41.7454361055 | 0.4198782961 | 0.4685598377 | 0.0557809331 | 0.1805273834 | 168.1825557809 | 76.9503042596 | 0.215010142 | 0.1176470588 | 0.6673427992 | 24336.7139959432 |
标准差 | 13.9633713899 | 0.4937892288 | 0.4992637777 | 0.2296146599 | 0.3848213057 | 10.0981548277 | 14.2650958391 | 0.4110378716 | 0.3223532463 | 0.7492049513 | 6248.1843822397 |
最小值 | 18 | 0 | 0 | 0 | 0 | 145 | 51 | 0 | 0 | 0 | 15000 |
下四分位数 | 30 | 0 | 0 | 0 | 0 | 161 | 67 | 0 | 0 | 0 | 21000 |
中位数 | 42 | 0 | 0 | 0 | 0 | 168 | 75 | 0 | 0 | 1 | 23000 |
上四分位数 | 53 | 1 | 1 | 0 | 0 | 176 | 87 | 0 | 0 | 1 | 28000 |
最大值 | 66 | 1 | 1 | 1 | 1 | 188 | 132 | 1 | 1 | 3 | 40000 |
通过上表可以发现,年龄的最小值为18岁,最大值为66岁,其中保费价格的均值为24336元,最小值为15000元最大值为40000元。
3.查看唯一值及数量
下面我们用查看唯一值及数量
组件检测是否患有糖尿病
字段。
0 | 572 |
1 | 414 |
可以发现其中患有糖尿病的患者为414人,不患有糖尿病的为572人。
4.数据相关性
index | Age | Diabetes | BloodPressureProblems | AnyTransplants | AnyChronicDiseases | Height | Weight | KnownAllergies | HistoryOfCancerInFamily | NumberOfMajorSurgeries | PremiumPrice |
---|---|---|---|---|---|---|---|---|---|---|---|
Age | 1 | 0.210908 | 0.244888 | -0.008549 | 0.051072 | 0.039879 | -0.01859 | -0.024416 | -0.027623 | 0.429181 | 0.69754 |
Diabetes | 0.210908 | 1 | 0.127727 | -0.036652 | -0.089428 | -0.003783 | -0.024563 | -0.080102 | -0.055527 | 0.122722 | 0.076209 |
BloodPressureProblems | 0.244888 | 0.127727 | 1 | -0.024538 | 0.045424 | -0.037926 | -0.061016 | -0.01155 | 0.048239 | 0.251568 | 0.167097 |
AnyTransplants | -0.008549 | -0.036652 | -0.024538 | 1 | 0.035285 | -0.031543 | 0.002087 | 0.001876 | -0.020171 | -0.004154 | 0.289056 |
AnyChronicDiseases | 0.051072 | -0.089428 | 0.045424 | 0.035285 | 1 | 0.047419 | -0.033318 | -0.027418 | 0.008666 | 0.014835 | 0.20861 |
Height | 0.039879 | -0.003783 | -0.037926 | -0.031543 | 0.047419 | 1 | 0.066946 | -0.0102 | 0.010549 | 0.037289 | 0.02691 |
Weight | -0.01859 | -0.024563 | -0.061016 | 0.002087 | -0.033318 | 0.066946 | 1 | 0.037492 | 0.003481 | -0.006108 | 0.141507 |
KnownAllergies | -0.024416 | -0.080102 | -0.01155 | 0.001876 | -0.027418 | -0.0102 | 0.037492 | 1 | 0.115383 | 0.103923 | 0.012103 |
HistoryOfCancerInFamily | -0.027623 | -0.055527 | 0.048239 | -0.020171 | 0.008666 | 0.010549 | 0.003481 | 0.115383 | 1 | 0.212657 | 0.083139 |
NumberOfMajorSurgeries | 0.429181 | 0.122722 | 0.251568 | -0.004154 | 0.014835 | 0.037289 | -0.006108 | 0.103923 | 0.212657 | 1 | 0.26425 |
PremiumPrice | 0.69754 | 0.076209 | 0.167097 | 0.289056 |
?用散点图分析医疗保险保费数据集中年龄与保费的关系,面板参数中,选择列选择age
与PremiumPrice
。
用柱状图分析医疗保险保费数据集中,保费价格的情况,面板参数中,选择列选择PremiumPrice
。
?
用饼状图展示参保人中患有糖尿病的情况,在面板参数中,选择列选择Diabetes
。
?
15.回归决策树
通过回归决策树组件,我们分析一下医疗保险保费数据集中,各个特征的重要性,其中参数面板中,特征列选择除PremiumPrice
其他列,标签列选择PremiumPrice
。
?
?
16.模型预测
利用训练好的决策树进行预测
Age | Diabetes | BloodPressureProblems | AnyTransplants | AnyChronicDiseases | Height | Weight | KnownAllergies | HistoryOfCancerInFamily | NumberOfMajorSurgeries | PremiumPrice | PremiumPrice_predict |
---|---|---|---|---|---|---|---|---|---|---|---|
-0.4116736331 | 1.1754329041 | -0.9389778428 | -0.2430560883 | -0.4693581039 | 1.1708516657 | -0.2069247574 | -0.5233562924 | -0.3651483717 | -0.8911866704 | -0.2140449572 | -0.0017144346 |
0.3048492305 | 1.1754329041 | 1.0649878564 | -0.2430560883 | -0.4693581039 | 1.5671646565 | -0.2069247574 | 1.9107441996 | -0.3651483717 | 0.4442389481 | -0.2140449572 | -0.0017144346 |
1.3079812396 | -0.8507503886 | 1.0649878564 | -0.2430560883 | -0.4693581039 | -1.702417518 | 0.774989767 | -0.5233562924 | -0.3651483717 | 1.7796645666 | 0.5865936157 | 0.6267650284 |
0.4481538033 | -0.8507503886 | 1.0649878564 | -0.2430560883 | -0.4693581039 | 0.0809909408 | 0.1437590013 | -0.5233562924 | -0.3651483717 | 0.4442389481 | -0.2140449572 | 0.6267650284 |
-0.6982827786 | -0.8507503886 | -0.9389778428 | 4.1142766955 | 2.1305693705 | 0.2791474362 | -1.399249537 | -0.5233562924 | 2.7386127875 | 0.4442389481 | 2.1878707616 | 1.9850423231 |
通过可视化分析中的相关性矩阵,和机器学习中决策树,我们发现与医疗保险保费相关性最大的是年龄字段,由此可知年龄直接决定了医疗保险保费的价格。