之前我们通过k近邻算法和决策树做出了 分类,这是分类器会给出一个艰难的预测的最优的结果,我们可以根据这个结果做出决策,但是这个结果如果是错误的,就芭比扣了。我现在想要分类器不仅仅给我一个最优结果,我还想分类器给我一个这个结果对应的概率。这时候我们可以采用贝叶斯决策理论。
百度对其的描述是: 贝叶斯决策理论,是主观贝叶斯派归纳理论的重要组成部分。 贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。 我听不懂,不妨以一个高数题入局。当我还是个大学生的时候,觉得高数没什么用,现在觉得自己当时太年轻了。
废话就不说了,我们做一个高数题:
人的性别由一对性染色体决定:男为XY,女为XX,每个人从父母处各得到一个性染色体,色盲基因由X染色体携带,且若男性的X染色体有此基因则男性患色盲,女性则要两个X染色体均有此基因才患色盲,而两个X是否有色盲基因是独立的。设色盲基因出现概率为0.08。又设男女婴出生比为110:100。问一新生儿有色盲的概率是多少?
这是一个高数的典型题目,其实不难,我们只要知道,男孩如果出现色盲基因必须是色盲,概率是百分比,女生是色盲的概率是 色盲基因 ** 2。那么结果是
# 定义已知概率
p_colorblind_gene = 0.08 # 色盲基因出现的概率
ratio_male = 110 # 男性新生儿比例
ratio_female = 100 # 女性新生儿比例
total_newborns = ratio_male + ratio_female # 总新生儿数
# 计算男性和女性新生儿患色盲的概率
p_colorblind_male = p_colorblind_gene
p_colorblind_female = p_colorblind_gene**2
# 计算男性和女性的比例
p_male = ratio_male / total_newborns
p_female = ratio_female / total_newborns
# 使用全概率公式计算新生儿患色盲的总概率
p_colorblind_total = (p_colorblind_male * p_male) + (p_colorblind_female * p_female)
print(p_colorblind_total)
答案是约等于 0.04495238095238096,有了这个结论我可以告诉他们,孩子得色盲概率小,是0.045
这个叫做全概率,全概率是概率论中用于计算一个事件发生总概率的方法。当一个事件的发生可以由几个互斥事件的并集来表示时,全概率公式就非常有用。
先验概率就是根据经验给出的概率;后验概率就是经过随机试验后,由结果对先验概率进行修正。修正方法用贝叶斯公式。
再来一个高数题:
已知一老战士与一新战士射击命中率分别为0.9与0.5。两人一同去射击,各3发。设每发命中与否均为独立的。后发现现场留下一靶纸,初步判断认为属于新、老战士留下的可能性是等同的。(这个就是由以往经验,我们可以估计属于新、老战士留下的概率各是二分之一)。后发现靶纸上有2发命中,问此时对可能性问题有什么新看法?
已知信息
老战士的命中率:0.9
新战士的命中率:0.5
每人射击3发,独立事件。
靶纸上有2发命中。
先验概率认为靶纸属于新战士和老战士的概率各是50%。
老战士三发命中两发得概率和新战士三发命中两发得概率。
# 重新计算老战士和新战士各自射中2发的概率(不考虑第三发是否命中)
p_2_hits_old_corrected = comb(shots, hits) * (p_hit_old ** hits) * ((1 - p_hit_old) ** (shots - hits))
p_2_hits_new_corrected = comb(shots, hits) * (p_hit_new ** hits) * ((1 - p_hit_new) ** (shots - hits))
p_2_hits_old_corrected, p_2_hits_new_corrected
后验概率得出新兵留下得大,这个修正得过程就叫做贝叶斯理论
在这个打靶案例中,贝叶斯决策理论帮助我们根据观察到的新信息(靶纸上有2发命中)来更新关于靶纸可能属于哪位射手的看法。具体的结论如下:
1.初始假设:我们最初假设靶纸属于新战士和老战士的可能性各是50%。
2.新信息:我们观察到靶纸上有2发命中。
3.后验概率:根据贝叶斯定理,我们计算了在观察到2发命中的情况下,靶纸分别属于新战士和老战士的后验概率。
结论:计算结果表明,靶纸属于新战士的概率大于属于老战士的概率。这意味着,基于我们观察到的2发命中这一新信息,我们可以更加倾向于认为靶纸是新战士留下的。这个结论是一个基于统计概率的推断,它展示了贝叶斯决策理论在处理不确定性信息和更新概率估计方面的力量。在实际决策中,这种方法可以用于结合新证据来修正和优化先前的判断或预测。
初识贝叶斯决策理论结束