基于聚类和机器学习的疾病医疗保费预测 计算机毕设完整代码数据 (博文底部vx获取)

发布时间:2024年01月19日

本数据集由保险公司收集,其中主要包括参保人健康信息如:是否患有糖尿病,高血压、和患者的年龄信息共11个字段。本案例里通过机器学习和可视化的方法分析哪些因素对保费价格影响最大。

1.读取医疗保险保费数据集

含了986例保险人的身体健康指标等数据,包括是否患有糖尿病,高血压等。

AgeDiabetesBloodPressureProblemsAnyTransplantsAnyChronicDiseasesHeightWeightKnownAllergiesHistoryOfCancerInFamilyNumberOfMajorSurgeriesPremiumPrice
4500001555700025000
6010001807300029000
3611001585900123000
5211011839300228000
3800011668800123000

2.字段基本统计信息

对医疗保险保费数据集的各个字段进行统计分析,并展示相应的信息。

AgeDiabetesBloodPressureProblemsAnyTransplantsAnyChronicDiseasesHeightWeightKnownAllergiesHistoryOfCancerInFamilyNumberOfMajorSurgeriesPremiumPrice
样本数986986986986986986986986986986986
均值41.74543610550.41987829610.46855983770.05578093310.1805273834168.182555780976.95030425960.2150101420.11764705880.667342799224336.7139959432
标准差13.96337138990.49378922880.49926377770.22961465990.384821305710.098154827714.26509583910.41103787160.32235324630.74920495136248.1843822397
最小值1800001455100015000
下四分位数3000001616700021000
中位数4200001687500123000
上四分位数5311001768700128000
最大值66111118813211340000

通过上表可以发现,年龄的最小值为18岁,最大值为66岁,其中保费价格的均值为24336元,最小值为15000元最大值为40000元。

3.查看唯一值及数量

下面我们用查看唯一值及数量组件检测是否患有糖尿病字段。

0572
1414

可以发现其中患有糖尿病的患者为414人,不患有糖尿病的为572人。

4.数据相关性

indexAgeDiabetesBloodPressureProblemsAnyTransplantsAnyChronicDiseasesHeightWeightKnownAllergiesHistoryOfCancerInFamilyNumberOfMajorSurgeriesPremiumPrice
Age10.2109080.244888-0.0085490.0510720.039879-0.01859-0.024416-0.0276230.4291810.69754
Diabetes0.21090810.127727-0.036652-0.089428-0.003783-0.024563-0.080102-0.0555270.1227220.076209
BloodPressureProblems0.2448880.1277271-0.0245380.045424-0.037926-0.061016-0.011550.0482390.2515680.167097
AnyTransplants-0.008549-0.036652-0.02453810.035285-0.0315430.0020870.001876-0.020171-0.0041540.289056
AnyChronicDiseases0.051072-0.0894280.0454240.03528510.047419-0.033318-0.0274180.0086660.0148350.20861
Height0.039879-0.003783-0.037926-0.0315430.04741910.066946-0.01020.0105490.0372890.02691
Weight-0.01859-0.024563-0.0610160.002087-0.0333180.06694610.0374920.003481-0.0061080.141507
KnownAllergies-0.024416-0.080102-0.011550.001876-0.027418-0.01020.03749210.1153830.1039230.012103
HistoryOfCancerInFamily-0.027623-0.0555270.048239-0.0201710.0086660.0105490.0034810.11538310.2126570.083139
NumberOfMajorSurgeries0.4291810.1227220.251568-0.0041540.0148350.037289-0.0061080.1039230.21265710.26425
PremiumPrice0.697540.0762090.1670970.289056

?用散点图分析医疗保险保费数据集中年龄与保费的关系,面板参数中,选择列选择agePremiumPrice

用柱状图分析医疗保险保费数据集中,保费价格的情况,面板参数中,选择列选择PremiumPrice

?

用饼状图展示参保人中患有糖尿病的情况,在面板参数中,选择列选择Diabetes

?

15.回归决策树

通过回归决策树组件,我们分析一下医疗保险保费数据集中,各个特征的重要性,其中参数面板中,特征列选择除PremiumPrice其他列,标签列选择PremiumPrice

?

?

16.模型预测

利用训练好的决策树进行预测

AgeDiabetesBloodPressureProblemsAnyTransplantsAnyChronicDiseasesHeightWeightKnownAllergiesHistoryOfCancerInFamilyNumberOfMajorSurgeriesPremiumPricePremiumPrice_predict
-0.41167363311.1754329041-0.9389778428-0.2430560883-0.46935810391.1708516657-0.2069247574-0.5233562924-0.3651483717-0.8911866704-0.2140449572-0.0017144346
0.30484923051.17543290411.0649878564-0.2430560883-0.46935810391.5671646565-0.20692475741.9107441996-0.36514837170.4442389481-0.2140449572-0.0017144346
1.3079812396-0.85075038861.0649878564-0.2430560883-0.4693581039-1.7024175180.774989767-0.5233562924-0.36514837171.77966456660.58659361570.6267650284
0.4481538033-0.85075038861.0649878564-0.2430560883-0.46935810390.08099094080.1437590013-0.5233562924-0.36514837170.4442389481-0.21404495720.6267650284
-0.6982827786-0.8507503886-0.93897784284.11427669552.13056937050.2791474362-1.399249537-0.52335629242.73861278750.44423894812.18787076161.9850423231

总结

通过可视化分析中的相关性矩阵,和机器学习中决策树,我们发现与医疗保险保费相关性最大的是年龄字段,由此可知年龄直接决定了医疗保险保费的价格。

文章来源:https://blog.csdn.net/qq_38735017/article/details/135701299
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。