最大似然估计通俗理解小记

发布时间：2023年12月17日

一、最大似然
　　假设我们需要调查我们学校的男生和女生的身高分布。你怎么做啊？你说那么多人不可能一个一个去问吧，肯定是抽样了。假设你在校园里随便地活捉了100个男生和100个女生。他们共200个人（也就是200个身高的样本数据，为了方便表示，下面，我说“人”的意思就是对应的身高）都在教室里面了。那下一步怎么办啊？你开始喊：“男的左边，女的右边，其他的站中间！”。然后你就先统计抽样得到的100个男生的身高。假设他们的身高是服从高斯分布的。但是这个分布的均值u和方差?我们不知道，这两个参数就是我们要估计的。记作θ=［u， ?］T。

　　用数学的语言来说就是：在学校那么多男生（身高）中，我们独立地按照概率密度p（x|θ）抽取100了个（身高），组成样本集X，我们想通过样本集X来估计出未知参数θ。这里概率密度p（x|θ）我们知道了是高斯分布N（u，?）的形式，其中的未知参数是θ=［u， ?］T。抽到的样本集是X={x1，x2，…，xN}，其中xi表示抽到的第i个人的身高，这里N就是100，表示抽到的样本个数。

　　? ? ? ? ? ? ? ? ? ? ? ?? $L(\theta )=L(x1,...,xn:\theta )=\prod_{i=1}^{n}p(xi:\theta )$

　　这个概率反映了，在概率密度函数的参数是θ时，得到X这组样本的概率。因为这里X是已知的，也就是说我抽取到的这100个人的身高可以测出来，也就是已知的了。而θ是未知了，则上面这个公式只有θ是未知数，所以它是θ的函数。这个函数放映的是在不同的参数θ取值下，取得当前这个样本集的可能性，因此称为参数θ相对于样本集X的似然函数（likehood function）。记为L（θ）。

　　这里出现了一个概念，似然函数。还记得我们的目标吗？我们需要在已经抽到这一组样本X的条件下，估计参数θ的值。怎么估计呢？似然函数有啥用呢？那咱们先来了解下似然的概念。

在学校那么男生中，我一抽就抽到这100个男生（表示身高），而不是其他人，那是不是表示在整个学校中，这100个人（的身高）出现的概率最大啊。那么这个概率怎么表示？哦，就是上面那个似然函数L（θ）。所以，我们就只需要找到一个参数θ，其对应的似然函数L（θ）最大，也就是说抽到这100个男生（的身高）概率最大。这个叫做θ的最大似然估计量，记为：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? $\widehat{\theta }=arg maxl(\theta )$

可以看到L（θ）是连乘的，所以为了便于分析，还可以定义对数似然函数，将其变成连加的：

? ? ? ? ? ? ? ? ? ?? $H(\theta )=lnL(\theta )=\prod_{i=1}^{n}p(xi:\theta )=\sum_{i=1}^{n}p(xi:\theta )$

现在我们知道了，要求θ，只需要使θ的似然函数L（θ）极大化，然后极大值对应的θ就是我们的估计。这里就回到了求最值的问题了。怎么求一个函数的最值？当然是求导，然后让导数为0，那么解这个方程得到的θ就是了（当然，前提是函数L（θ）连续可微）。那如果θ是包含多个参数的向量那怎么处理啊？当然是求L（θ）对所有参数的偏导数，也就是梯度了，那么n个未知的参数，就有n个方程，方程组的解就是似然函数的极值点了，当然就得到这n个参数了。

? ? ? ? 极大似然估计，只是一种概率论在统计学的应用，它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。最大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。

　　求最大似然函数估计值的一般步骤：

　　（1）写出似然函数；

　　（2）对似然函数取对数，并整理；

　　（3）求导数，令导数为0，得到似然方程；

　　（4）解似然方程，得到的参数即为所求；

文章来源:https://blog.csdn.net/chehec2010/article/details/135048921
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！