?
?
?
?
p k P B = α ? p k R + ( 1 ? α ) ? p k M = α ? N k ∑ i = 1 K N i + ( 1 ? α ) ? 1 K \begin{aligned}p_{k}^{\mathrm{PB}}& =\alpha*p_k^R+(1-\alpha)*p_k^M \\&=\alpha*\frac{N_k}{\sum_{i=1}^KN_i}+(1-\alpha)*\frac1K\end{aligned} pkPB??=α?pkR?+(1?α)?pkM?=α?∑i=1K?Ni?Nk??+(1?α)?K1??
K表示簇的数量,D是hidden dimension等同于节点embedding的长度,下式计算节点embedding和簇中心embedding的均方误差大小
min ? C ∈ R D × K 1 N ∑ n = 1 N min ? y ^ n ∥ z t , n ? C y ^ n ∥ 2 2 ?such?that y ^ n ? 1 K = 1 \begin{aligned}\min_{C\in\mathbb{R}^{D\times K}}\frac{1}{N}\sum_{n=1}^{N}\min_{\hat{y}_{n}}\|z_{t,n}-C\hat{y}_{n}\|_{2}^{2}\text{ such that}\quad\hat{y}_{n}^{\top}1_{K}=1\end{aligned} C∈RD×Kmin?N1?n=1∑N?y^?n?min?∥zt,n??Cy^?n?∥22??such?thaty^?n??1K?=1?
z t , n z_{t,n} zt,n?表示第t个iteration时第n个节点的embedding, z t , n ∈ R D z_{t,n}\in\mathbb{R}^D zt,n?∈RD
即节点重要性的影响因素是节点本身的度,连接的节点的重要性,因此需要循环传播节点连接重要性
p v , j N P B = min ? { σ v ? σ min ? σ max ? ? σ min ? ? p j P B , p τ } p_{v,j}^{\mathrm{NPB}}=\min\left\{\frac{\sigma_{v}-\sigma_{\min}}{\sigma_{\max}-\sigma_{\min}}\cdot p_{j}^{\mathrm{PB}},p_{\tau}\right\} pv,jNPB?=min{σmax??σmin?σv??σmin???pjPB?,pτ?}
p j P B p_{j}^{\mathrm{PB}} pjPB?是PBS采样概率经正则化的概率小,即采样每类节点的概率,用于调整类别之间数量由不平衡线性过渡到平衡, p τ p_{\tau} pτ?表示最低采样限度,防止部分边缘节点无法被采样
?
?
?
?
?
???
?