将链接看做投票,从重要的网站来的链接其权重更高,所以是递归定义的。
如果网页j权重为rj,有n个出边,每个出边的权重为rj/n,而网页j的自身权重为所有入边的权重之和。定义如下:
3个未知数3个方程没有唯一解,都是free的,所以可以引入限制sum=1
t时刻,浏览者在网页i,在t+1时刻,从i的超链接中随机选择一个作为下一个浏览的网页,选择每一个网页的概率是一致的 p ( t + 1 ) = M ? p ( t ) p(t+1)=M·p(t) p(t+1)=M?p(t)。
假设随机游走达到一个状态 p ( t + 1 ) = M ? p ( t ) = p ( t ) p(t+1)=M·p(t)=p(t) p(t+1)=M?p(t)=p(t)时,称pt为随机游走的稳定分布。
我们的原始r向量满足r=Mr,所以r就是随机游走的稳定分布。
满足确定条件的图来说其稳定分布是存在且唯一的,且无论初始向量是什么最后一定会到达平稳分布
原来表达形式的问题:不一定会收敛,或者收敛不到我们想要的结果
可能存在的两种特殊情况:
dead end:没有出边,随机行走没有下一个点可以选择,容易造成泄漏
spider traps:环,所有的出边都在环内,将被困在环中,最终,spider trap吸收了所有的importance
举例:如果走到m,则不会跳出,将一直访问m,最后r向量收敛为[0,0,1]。
解决方法:随机跳转teleports
理解
spider-traps不是问题,但是trap的pagerank 评分不是我们想要的,所以我们使用随机跳转在有限步内跳出trap,不会被困在里面
dead-ends是一个问题,因为此时列向量不是随机向量,不满足初始条件,所以我们在之上执行随机游走,将列向量变为随机向量
最后公式变为:
此时矩阵A可以写为:
从而 r = A ? r r=A·r r=A?r,依然可以使用幂迭代法,实际中 β \beta β=0.8