新型双模式加权机制及其对网络计算的影响

全文HTML

--> --> -->

3.复杂网络基本理论

3.1.基本定义

-->

3.1.基本定义

假设$ G(V, E) $

是一个无向连通图, V为节点集, E为边界集. 这里考虑三个最常用的衡量拓扑结构和信息流通的中心度指标.
节点度　节点度$ {k}_{i} $

^[34]表示节点i相连的边的数量, 根据邻接矩阵$ {\boldsymbol{A}}=\left({a}_{ij}\right) $

将其定义为

$ {k}_{i}=\sum\limits_{j\in V}{a}_{ij}, $

其中, $ {a}_{ij} $

是节点i和节点j之间的邻接矩阵值. 还可以将节点度扩展到加权网络得到节点强度的概念.
节点强度　节点强度$ {s}_{i} $

^[35]是节点i相关联的边的权重总和, 定义如下:

$ {s}_{i}=\sum\limits_{j\in V}{w}_{ij}, $

其中, $ {w}_{ij} $

为节点i和节点j之间的边的权重值.
介数中心度　一个节点在信息传播中的重要性可以通过其介数中心度^[36]来计算, 定义为

$ {B}_{u}=\sum\limits_{i\ne u\ne j\in V}\frac{{\sigma }_{ij}\left(u\right)}{{\sigma }_{ij}}, $

其中, $ {\sigma }_{ij}\left(u\right) $

为节点i和节点j之间的通过节点u的最短路径的数量, $ {\sigma }_{ij} $

是节点i和节点j之间的最短路径的总数量. 介数中心度的概念还可以拓展到边. 边$ {e}_{ij} $

的介数中心度$ {B}_{ij} $

表示通过该边的最短路径的数量, 在信息传播研究中常用来表示流通负载.
紧密中心度(closeness)　节点i的紧密中心度^[36]定义为一个网络中其他节点到节点i的平均距离的倒数

$ {C}_{i}=\sum\limits_{j\in V}\frac{n-1}{{D}_{ij}}, $

其中, $ {D}_{ij} $

是节点i和节点j之间最短路径的长度; $ {C}_{i} $

用来测量一个节点与其他节点的(平均)紧密程度. 为了定义该中心性与最短路径的直接(正比例)关系, 还可以将其定义为$ {C}_{i} $

的倒数: ${C}_{i}=\dfrac{1}{{C}_{i}}= $

$ \dfrac{1}{n-1}{\displaystyle\sum }_{j\in V}{D}_{ij}$

.
k-邻域图　k-邻域图^[37,38]定义为将节点i和节点j连接起来的最短路径上的点的集合, 其中i和j之间的最短距离值小于等于k. 由于邻域关系是不对称的($ i\to j $

), 因此根据k-邻域图的定义得到的可能是一个有向子图. 在特定网络中, 节点i的k-邻域图被构造为特定的相似性度量(这里指最短路径距离)下显示与i最相似的子图. 然而在大多数应用中, k的值难以直接给定, 以致其应用领域受到限制.
2

3.2.双模式加权算法

-->

3.2.双模式加权算法

1)通信邻域图
受到k-邻域图定义的启发, 为了增强网络信息流, 本文提出了一个新的拓扑定义——通信邻域图(communication neighbor graph, CNG), 并进一步提出一种新的加权算法. 通信邻域图的具体定义如下.
通讯邻域图　假设$ G(V, E) $

是一个无自循环的无向网络, 其中节点的数量$ \left|\left|V\right|\right|=N $

. 对于G中的节点来说, $ {\zeta }_{ij} $

是节点i与节点j之间的最短路径(路径为节点序列集合). 节点i通过节点j的通信邻域图用$ {\varPi }_{i\to j} $

表示, 其定义为: 给定节点u, 如果满足通过节点i与u之间的最短路径长度大于节点j与u之间的最短路径长度, 即$ l\left({\zeta }_{iu}\right) > $

$ l\left({\zeta }_{ju}\right) $

, 那么节点u属于$ {\varPi }_{i\to j} $

. 如果节点i和节点u之间存在一条以上的最短路径, 那么就认为$ {\zeta }_{iu} $

是其中任意一条. 根据通信邻域图CNG的定义, 对于特定节点u, 假定节点i与节点u之间有边相连, 如果$ {\zeta }_{iu} $

经过节点j, 那么节点u就属于$ {\varPi }_{i\to j} $

.
注意到通信邻域图CNG是非对称的, 即一般情况下$ {\varPi }_{i\to j} $

与$ {\varPi }_{j\to i} $

是不同的. 对于任意一对相邻的节点i和j来说, 节点j一定属于$ {\varPi }_{i\to j} $

. 另外, 任一节点$ u\ne i $

属于且仅属于节点i的一个通讯邻域图. 图1(a)给出了两个相邻节点的通信邻域图的例子. 当网络是稠密且规模不大时, 该定义是非常直观的.

图 1 (a)节点4和节点5之间边对应的通讯邻域图; (b)网络中的桥边
Figure1. (a) Communication neighborhood graph corresponding to the edge between node 4 and node 5; (b) bridge side in the network.

2) 加权算法
如果边权与流量成正比, 那么为了增强连边上的信息流, 需要研究最有可能出现瓶颈的桥点和桥边. 因为桥点和桥边数目较少且处于两个类之间, 它们往往无法承载端点需要发送的全部信息, 如图1(b)所示. 如果节点具有大的度、介数中心性和紧密中心性, 那么它更有可能具有高信息吞吐量, 因此这些节点及其所连的边更可能成为瓶颈. 在本文模型中, 这种可能性被假设为与单一实数成正比, 即定义图中每个节点的$ \gamma $

值.
在给定通信邻域图CNG的定义后, 接下来介绍一种新型的加权机制. 令$ \gamma \left(u\right)\in R $

表示属于$ {\varPi }_{i\to j} $

中节点u的一个特定指标, ${\boldsymbol{\varGamma }}\left({\varPi }_{i\to j}\right)=\{\gamma \left({u}_{1}\right), $

$ \gamma \left({u}_{2}\right), \cdots, \gamma \left({u}_{k}\right)\}$

且是$ {\varPi }_{i\to j} $

中所有节点的$ \gamma $

值集合, 其中$ u\in {\varPi }_{i\to j} $

. 那么, 本文的加权机制定义如下:

$ {W}_{ij}=\psi \left({\boldsymbol{\varGamma }}\left({\varPi }_{i\to j}\right)\right), $

其中, $ \psi $

为任意实数集中的单一实数相关的函数. 这是一种具有代表性的加权方法, 可以用来加强与网络通信相关的多种计算与应用.
本文加权算法旨在重点增强瓶颈节点的各种中心性值, 使其与加权权重成正比, 以便增强网络的整体通信能力. 定义$ \psi $

为一个集合所有元素的加和, 即如果${\boldsymbol{X}}=\{{x}_{1}, {x}_{2}, \cdots, {x}_{N}\}$

, 那么$\psi \left({\boldsymbol{X}}\right)= $

$ {{\displaystyle\sum }_{i=1}^{N}{x}_{i}}$

, 同时$\psi \left({\boldsymbol{X}}\right)={\displaystyle\sum }_{i=1}^{N}{x}_{i}$

. 定义节点u的加权参数为

$ \gamma \left(u\right)=\left[\frac{{k}_{u}\left(\varepsilon +{B}_{u}\right)}{{\widetilde {C}}_{u}}\right]{}^{\alpha }={\xi }^{\alpha }, $

其中, $ \alpha \in R $

, 且$ {k}_{u} $

, $ {B}_{u} $

和$ {\widetilde {C}}_{u} $

分别为网络G中节点的度、介数中心性和紧密中心度$ {C}_{u} $

的倒数. $ \varepsilon $

设定为0.01, 以避免$ \gamma $

值为0. 设计加权参数$ \gamma $

是为了反映瓶颈节点u的各项参数, 包括度$ {k}_{u} $

, 介数中心性$ {B}_{u} $

和紧密中心度$ {C}_{u} $

, 如果各项参数比较大, 则$ \gamma $

也比较大, 节点u成为瓶颈节点的概率也会很大. 那么, 节点j到节点i的权重为

$\begin{split} {W}_{ij}=\;&\frac{\psi \left({\boldsymbol{\varGamma }}\left({\varPi }_{i\to j}\right)\right)}{\displaystyle\sum\limits_{m}\psi ({\boldsymbol{\varGamma }}\left({\varPi }_{i\to m}\right))}=\frac{\displaystyle\sum\limits_{u\in {\varPi }_{i\to j}}\gamma \left(u\right)}{\displaystyle\sum\limits_{m}\displaystyle \sum\limits_{u\in {\varPi }_{i\to m}}\gamma \left(u\right)}\\ =\;&\frac{\displaystyle\sum\limits_{u\in {\varPi }_{i\to j}}{\left[\frac{\left(\varepsilon +{B}_{u}\right){k}_{u}}{{\widetilde {C}}_{u}}\right]}^{\alpha }}{\displaystyle\sum\limits_{m}\displaystyle\sum\limits_{u\in {\varPi }_{i\to m}}{\left[\frac{\left(\varepsilon +{B}_{u}\right){k}_{u}}{{\widetilde {C}}_{u}}\right]}^{\alpha }},\end{split} $

其中$ {\varPi }_{i\to j} $

表示节点i通过节点j的通信邻域图. (12) 式表示的加权机制的原理为当传输线路 $ i\to j $

比较重要时, 其通信邻域图$ {\varPi }_{i\to j} $

的规模也会相应比较大. 则当$ \alpha > 0 $

时, (12)式的分子项${\displaystyle\sum }_{u\in {\varPi }_{i\to j}}\gamma \left(u\right)$

和相应的权重$ {W}_{ij} $

也会相应比较大, 从而实现了加权机制增强重要通信边的权重的目的. 这里, 分母项的设置是为了实现标准化, 权重矩阵的对角线元素被设置具有零行和属性, 即${W}_{ii}=-{\displaystyle\sum }_{k}{W}_{ij}=1$

.
在加权策略((12)式)中, 分母的标准化项使得入度更加均匀. 另外, $ \gamma $

函数((11)式)增强了以高$ \gamma $

值节点为起点的路径, 并且进一步使得网络流量更加趋向于流向这类节点. 这个过程使节点的负载分配更加倾向于平均. 总而言之, 本文提出的加权策略使负载分布更加均匀化, 同时降低了平均路径长度. 本文加权算法具体流程如算法1所示. 本算法由于需要计算节点的介数、度、紧密度三种中心性度量, 时间复杂度分别为O(n³), O(n²)和O(n³), 因此总的时间复杂度为O(n³).
算法1　网络加权算法流程
输入: 网络G, 其节点数为n, 边数为m; 加权参数$ \alpha .$

输出: 网络加权矩阵W.
1）根据“通讯邻域图”的定义计算网络中每条边的通讯邻域图;
2）计算$ {k}_{u} $

, $ {B}_{u} $

和$ {\widetilde {C}}_{u} $

, 分别为网络G中节点的度、介数中心性和紧密中心度$ {C}_{u} $

的倒数;
3）根据(6)式和(11)式计算节点u的加权值$ \gamma \left(u\right) $

;
4）根据(12)式更新网络中边的加权值w_ij.
需要说明的是, 本文提出的加权机制是使用虚拟方式改变拓扑结构, 但是仅通过加权来达到网络重连的效果是不大可能的. 例如, 在环形规则网络中, 所有节点的$ \gamma $

值是相等的, 加权机制并不能增强网络的传输容量. 因此, 本文的加权机制旨在通过降低瓶颈节点的限制, 使网络层次结构趋于平坦以提高传输容量. 这种加权机制对具有非均匀层次结构和瓶颈节点的网络(如无标度网络)来说很有效率. 反之, 均匀网络或无瓶颈节点的网络则不具备这种加权机制的优势. 此外, 本文的加权策略还有一个重要优点: 只受一个参数调控, 即参数$ \alpha $

, 可以用来控制加权权重的异质程度(即非均匀性). 这里有三种典型的情况:
当$ \alpha > 0~(\alpha < 0) $

, 在通信邻域图中, 具有高$ \xi $

值的节点对信息传输会有更多(更少)的贡献. 特别地, 在同质(均匀)网络中, 节点呈现出均匀的负载和度分布, 那么节点的$ \xi $

值和随之得到的加权值也会变得均匀. 在这种情况下, 改变$ \alpha $

不会导致权重和网络传输效率发生显著变化. 类似地, 当网络负载分布和度分布是异质(非均匀)时, 不同的$ \alpha $

会导致权重和网络传输效率发生显著变化. 因此, 在异质(同质)网络中, $ \alpha $

会有更多(更少)的影响.
当$ \alpha =0 $

时, $ \gamma $

值将退化为对所有节点u都有$ \gamma \left(u\right)=1 $

. 值得注意的是, 这种情况与无权网络或者标准化仅仅应用于节点度的情况不同. 在这种情况下, 仅考虑每个通信邻域图的节点数量, 它在$ \gamma $

值分布的方差较小的网络中将会相当有效, 即$ \gamma $

值的同质性.
由于受标准化因子和通信邻域图节点数目的影响, $ \alpha < 0 $

并不会产生负值, 但是会使得信息传输能力下降(即具有高$ \xi $

值的节点对信息传输会有更少的贡献). 根据本文框架, 我们提出了利用转置权重矩阵以降低传输能力的逆加权方案. 为了能够更方便地转换, 权重矩阵被定义为

$ {{\boldsymbol{W}}}^{*}=\rho {\boldsymbol{W}}+\left(1-\rho \right){{\boldsymbol{W}}}^{\mathrm{T}}, $

其中, 参数$ 0\leqslant \rho \leqslant 1 $

, 表示传输程度. 例如, 当$ \rho =1 $

意味着高传输流量, 而$ \rho =0 $

意味着低传输流量.
逆模式加权机制　在(12)式的加权机制中, 设定参数$ \alpha < 0 $

, 定义为逆模式加权机制. 根据(12)式, 在逆模式加权机制中, 即具有高$ \xi $

值的节点对信息传输会有更少的贡献, 从而会使得网络流量更加趋向于避开这类节点, 使得信息传输能力下降. 为了能够更方便地转换, 权重矩阵被定义为(13)式. 逆模式加权算法如算法2所示.
算法2　逆模式加权算法流程
输入: 网络G, 其节点数为n, 边数为m; 加权参数$ \alpha < 0 $

; 传输程度参数$0\leqslant \rho \leqslant 1.$

输出: 网络加权矩阵W.
1) 根据“通讯邻域图”的定义计算网络中每条边的通讯邻域图;
2) 根据(11)式计算节点u的加权值$ \gamma \left(u\right) $

;
3) 根据(12)式更新网络中边的加权值$ {w}_{ij}^{*} $

;
4) 根据(13)式更新网络中边的加权值$ {w}_{ij}^{*} $

.
为了测试参数$ \alpha $

的影响, 将其应用到著名的BA网络中, 分别考虑$ \alpha =2 $

和$ \alpha =6 $

两种情况, 结果如图2所示. 可以看出, 受加权机制的影响, 节点强度和节点度会出现明显异化. 此外, 当$ \alpha =6 $

时, 节点强度和节点度的关系的分布相较于$ \alpha =2 $

时更加分散. 这是因为$ \alpha $

的值越大, 更多的边会得到较大的权重值. 该结果与前面加权机制的分析相符合. 因此, 通过本文的加权策略, 权重分布、节点强度以及度的关系均依赖于参数$ \alpha $

的值, 该加权网络比相应的二进制无权网络提供了更多的信息.

图 2 参数α取不同值时BA模型中节点强度s和节点度k之间的关系(N = 5000)　(a) $ \alpha =2 $

; (b) $ \alpha =6 $

Figure2. Relationship between node strength s and node degree k in BA model (N = 5000) with different values of parameter α: (a) $ \alpha =2 $

; (b) $ \alpha =6 $

4.复杂网络的属性分析

许多研究^[20,39,40]发现, 网络中信息传输的难易程度可以解释为同步能力, 并且它们都被网络拓扑矩阵的特征值所限制. 由此直接引出本文提出的加权方案, 它可以试图通过改善信息流以增强同步能力. 然而, 并不是所有的应用都需要提高同步能力, 有些反而需要降低, 比如降低网络的同步性有助于辨别网络中的聚类结构^[17]. 本节将分析加权机制对网络同步能力的作用, 并进一步分析其对聚类探测及其效率的影响, 从而有效验证加权机制的高效性. 除了同步和聚类分析, 本文加权机制还可以有效应用于网络流行病传播关键路径识别、免疫策略分析、演化博弈分析、路由策略设计、交通拥塞预防等多个方面.
2

4.1.同步性分析

-->

4.1.同步性分析

首先说明加权机制增强网络同步性能的原因. 设${\lambda }_{1}\leqslant {\lambda }_{2}\leqslant, \cdots, \leqslant {\lambda }_{N}$

为加权矩阵W的N个特征值. 根据文献[41], 矩阵W的特征值比$ {\lambda }_{N}/{\lambda }_{2} $

越小, 则意味着该网络具有更大的同步能力. 如上所述, 网络通信的能力可以被解释为在网络中信息流动的难易程度. 更确切地说, 可以将动态方程写作:

$\begin{split} {{\dot x_1}} =\;&F\left({x}_{i}\right)-\frac{\sigma }{\displaystyle\sum\nolimits_{k}\psi \left({\boldsymbol{\varGamma }}\left({G}^{i\to k}\right)\right)}\\ &\times\sum\limits_{j=1}^{N}\psi \left({\boldsymbol{\varGamma }}\left({\varPi }_{i\to j}\right)\right)H\left({x}_{j}-{x}_{i}\right), \end{split}$

通过网络加权, 总是可以将W的对角线元素标准化为1, 从而防止任意大或者任意小的耦合值. 权重矩阵W是不对称的, 并且一般而言非对称矩阵的特征值非常复杂. 下面的推论证明了非对称矩阵W具有有界的实数特征值.
推论1　加权机制((12)式)得到的权重矩阵的所有特征值是实数, 且值介于0—2之间.
证明　权重矩阵W对应的拉普拉斯矩阵$ {\boldsymbol{L}}^{\mathrm{w}} $

, 写作$ {\boldsymbol{L}}^{\mathrm{w}}={\boldsymbol{M}}{\boldsymbol{Q}} $

, 其中

${\boldsymbol{M}}\!=\!\mathrm{diag}\Bigg\{\frac{1}{\displaystyle\sum\limits_{k}\psi ({\boldsymbol{\varGamma }}({G}^{1\to k}))}, \cdots, \frac{1}{\displaystyle\sum\limits_{k}\psi ({\boldsymbol{\varGamma }}({G}^{N\to k}))}\Bigg\}$

Q是一个零行和矩阵, 具有负非对角项, 即$ {Q}_{ij}=-\psi \left({\boldsymbol{\varGamma }}\left({\varPi }_{i\to j}\right)\right) $

. 容易看出, W的特征值${\lambda }_{i}(i=1, \cdots, N)$

与$ {{\boldsymbol{M}}}^{1/2}{\boldsymbol{Q}}{{\boldsymbol{M}}}^{1/2} $

的特征值相等, 即是实数且非负的, 且最小特征值$ {\lambda }_{1}=0 $

. 另一方面, Gerschgorin循环定理^[42]证明了$ {\boldsymbol{L}}^{\mathrm{w}} $

的每个特征值都在一个半径为1的圆的内部, 因此$0= $

$ {\lambda }_{1}\leqslant $

$ {\lambda }_{2}\leqslant, \cdots, \leqslant {\lambda }_{N}\leqslant 2$

. 证明完毕.
接下来引入超中心节点的定义.
超中心节点　网络中具有最大$ \gamma $

值的节点被称为网络的超中心节点.
定理1 令$ G(V, E) $

为一个无向网络, 对于每一对节点u和v, 选择它们之间的最短路径$ S{P}_{uv} $

, 并根据通信邻域图的定义确定通信邻域图运用加权机制((12)式). 如果该邻域图具有唯一的超中心节点, 那么当$ \alpha \to +\infty $

时, 通过移除超中心节点的输入边, 剩余网络将会退化到一个以超中心节点为根节点的有向生成树, 因此总有一条有向路径可以从超中心节点通向其他所有节点.
证明根据(12)式, 当$ \alpha \to +\infty $

时, 可以得到$ \psi \left({\boldsymbol{\varGamma }}\left({\varPi }_{i\to j}\right)\right)\approx \mathrm{max}\left\{{\boldsymbol{\varGamma }}\left({\varPi }_{i\to j}\right)\right\} $

, 从而有 ${\displaystyle\sum }_{k}\psi\times $

$ \left({\boldsymbol{\varGamma }}\left({\varPi }_{i\to j}\right)\right)\approx \underset{k}{\mathrm{max}}\left\{\mathrm{max}\left\{{\boldsymbol{\varGamma }}\left({G}^{i\to k}\right)\right\}\right\}$

. 现在, 假设节点$ {u}^{*} $

是唯一的超中心节点, 即网络中具有最大的$ \gamma $

值的节点. 当$ \alpha \to +\infty $

时, 如果$ {u}^{*}\in {\varPi }_{i\to j} $

并收敛于0, 权重$ {W}_{ij} $

将收敛于1. 换言之, 每个节点$ i\ne {u}^{*} $

只保持一条边连接网络中具有最大$ \gamma $

值的那个节点. 由于$ {u}^{*} $

的输入边被删除了, 也就是所有到$ {u}^{*} $

的输入边的权重都等于0, 仅保留N – 1条有向边. 因此, 从节点$ {u}^{*} $

到网络中所有其他节点都有一条有向路径, 且仅保留有N – 1条边, 由此得到的网络结构是一个有向生成树, 其中具有最大$ \gamma $

值的节点是根节点. 证明完毕.
推论2　根据参考文献[41], 定理1中得到的有向生成树的特征值比$ {\lambda }_{N}/{\lambda }_{2}=1 $

, 意味着该网络具有最大的同步能力. 简单来说, 由于生成树的根拥有最大的$ \gamma $

值, 因此在所得的生成树中, 大多数节点都在树的较低层次上, 也就是说大多数节点与根节点的平均距离较短. 值得一提的是, 当$ \alpha \to +\infty $

时, 如果不移除根节点的输入边, 那么特征值比$ {\lambda }_{N}/{\lambda }_{2}=2 $

, 也就是说, $0={\lambda }_{1} < {\lambda }_{2}= $

$ {\lambda }_{3}, \cdots, ={\lambda }_{N-1} < {\lambda }_{N}=2$

. 如果超中心节点并不唯一, 当$ \alpha \to +\infty $

时, 网络将退化为有向图, 其中所有超中心节点都属于边权重相等的团. 此外, 该团中的任意节点都能与图中的所有其他节点相连, 即对于网络中的每个节点来说, 都有一条有向路径通向每个超中心节点. 基于上述可以发现, 只有参与这些路径的边被留下来, 而其他的边都将会消失.
2

4.2.聚类结构分析

-->

4.2.聚类结构分析

前文已经提到, 在一些应用中, 有时候还需要降低同步能力, 如辨别网络中的聚类结构^[17]. 本文提出的加权策略对聚类结构探测也有很强的影响, 并且可以进一步发现聚类结构与同步性之间的隐藏关系. 首先给出聚类结构的弱定义:
聚类结构的弱定义　Radicchi等^[43]分别从弱定义和强定义这两方面给出了衡量聚类结构的量化标准, 其中弱定义被认为是一个子图集合能够成为聚类结构的最弱标准, 即聚类是网络的子图集合, 子图内部的边的密度高于子图之间的边的密度. 给定一个网络$ G=(V, E) $

, 其中V是节点集, E是边界集, $ {\boldsymbol{A}}=\left({a}_{ij}\right) $

为其邻接矩阵, 令$ {V}_{\mathrm{s}}\subset V $

为一个特定子图, $ {\overline {V}}_{\mathrm{s}}=V\backslash {V}_{\mathrm{s}} $

为网络其余的节点集, 那么在弱灵敏度条件下$ {\boldsymbol{V}}_{\mathrm{s}} $

能够成为一个聚类的条件是:

$ L\left({V}_{\mathrm{s}},{V}_{\mathrm{s}}\right) > L\left({V}_{\mathrm{s}},{\overline {V}}_{\mathrm{s}}\right), $

其中, $L\left({V}_{\mathrm{s}}, {V}_{\mathrm{s}}\right)={\displaystyle\sum }_{i\in {V}_{\mathrm{s}}}{\displaystyle\sum }_{j\in {V}_{\mathrm{s}}}{a}_{ij}$

, $L\left({V}_{\mathrm{s}}, {\overline {V}}_{\mathrm{s}}\right)= $

$ {\displaystyle\sum }_{i\in {V}_{\mathrm{s}}}{\displaystyle\sum }_{j\notin {V}_{\mathrm{s}}}{a}_{ij}$

. 在弱定义下的网络聚类中, $ {V}_{\mathrm{s}} $

内部的边的个数至少应该超过其连接网络剩余部分的边个数的一半.
推论3　如果$ {e}_{ij} $

是一个类间边, 那么邻域图$ {\varPi }_{i\to j} $

和$ {\varPi }_{j\to i} $

很可能是两个相邻的聚类. 此外, 在极端情况下, 如果网络是二划分且$ {e}_{ij} $

是唯一的类间边, 根据聚类结构的弱定义, $ {\varPi }_{i\to j} $

和$ {\varPi }_{j\to i} $

将是严格的网络聚类.
证明: 根据弱定义, 如果一个网络拥有聚类结构, 由于存在高密度的类内边, 一个随机游走者将会在一个聚类中停留很多的时间. 这意味着一个节点到同一聚类内的节点的路径长度通常比到不同聚类的节点的路径长度短. 如图2中$ \alpha =2 $

时, $ {\varPi }_{i\to j} $

中的节点到节点j的路径长度比到节点i的路径长度都要长. 相反, $ {\varPi }_{j\to i} $

中的节点到节点i的路径长度比到节点j的路径长度长. 因此可以得出结论: $ {\varPi }_{i\to j} $

和$ {\varPi }_{j\to i} $

很可能是两个不同的聚类. 此外, 如果$ {e}_{ij} $

是唯一的类间界, 根据聚类结构的弱定义, 这个结论是严格的. 证明完毕.
为了阐明加权机制对聚类结构的影响, 逐步增大$ \alpha $

的值并在示例网络中删除$ {W}_{ij} < 0.5 $

的边. 如图3所示, 当$ \alpha $

值从2增加到4, 聚类结构会显著增强.

图 3 应用加权机制后网络的动态演化示例图
Figure3. Example of dynamic evolution of network after applying weighting mechanism.

根据弱定义, 比率$ R={l}^{\mathrm{o}\mathrm{u}\mathrm{t}}/{l}^{\mathrm{i}\mathrm{n}} $

在解决模块度优化问题上发挥着十分重要的作用. 为了满足弱定义的标准, 这个比率的区间应该为[0, 2].
定理2　令$ {l}^{\mathrm{o}\mathrm{u}\mathrm{t}} $

为类间边的数量, $ {l}^{\mathrm{i}\mathrm{n}} $

为类内边的数量, 那么比率$ R={l}^{\mathrm{o}\mathrm{u}\mathrm{t}}/{l}^{\mathrm{i}\mathrm{n}} $

可以用来有效量化网络中的聚类结构.
证明　对于特定的网络G, 其相对的超图$ {G}^{*} $

定义为一个有向加权的C团结构, 其中的每个节点对应于G的一个聚类. 在$ {G}^{*} $

中, 节点r和节点s之间的边用$ {l}_{\mathrm{o}\mathrm{u}\mathrm{t}}^{rs}/{l}_{\mathrm{i}\mathrm{n}}^{r} $

来加权, 其中$ {l}_{\mathrm{o}\mathrm{u}\mathrm{t}}^{rs} $

代表G中聚类r和聚类s之间的团间边数量, $ {l}_{\mathrm{i}\mathrm{n}}^{r} $

代表聚类r内部边的数量. $ {G}^{*} $

对应的$ C\times C $

拉普拉斯矩阵${\boldsymbol{F}}= $

$ \left\{{F}_{rs}\right\}$

是不对称的, 但是可以变换为$ {\boldsymbol{F}}={\boldsymbol{\varDelta }}\varTheta $

, 其中$ \varDelta =\left\{{\varDelta }_{rs}\right\} $

是一个对称的零行和矩阵, 其非对角元素为$ {\varDelta }_{rs}=-{l}_{\mathrm{o}\mathrm{u}\mathrm{t}}^{rs} $

, 对角元素为${\varDelta }_{rr}={\displaystyle\sum }_{r\ne s}{l}_{\mathrm{o}\mathrm{u}\mathrm{t}}^{rs}$

, 且$\varTheta =\mathrm{diag}\left\{1/{l}_{\mathrm{i}\mathrm{n}}^{1}, \cdots, 1/{l}_{\mathrm{i}\mathrm{n}}^{c}\right\}$

. 那么可以将F写成:

$\begin{split} & {\boldsymbol{F}}=\varTheta {\boldsymbol{\varDelta }}=\left( {\begin{array}{*{20}{c}}{\dfrac{1}{{l_{{\rm{in}}}^1}}}&0& \cdots &0\\0&{\dfrac{1}{{l_{{\rm{in}}}^2}}}& \cdots &0\\ \vdots & \vdots & \ddots & \vdots \\0&0& \cdots &{\dfrac{1}{{l_{{\rm{in}}}^C}}}\end{array}} \right) \\ & \qquad \qquad \times \left( {\begin{array}{*{20}{c}}{l_{{\rm{out}}}^1}&{ - l_{{\rm{out}}}^{12}}& \cdots &{ - l_{{\rm{out}}}^{1C}}\\{ - l_{{\rm{out}}}^{21}}&{l_{{\rm{out}}}^2}& \cdots &{ - l_{{\rm{out}}}^{2C}}\\ \vdots & \vdots & \ddots & \vdots \\{ - l_{{\rm{out}}}^{C1}}&{ - l_{{\rm{out}}}^{C2}}& \cdots &{l_{{\rm{out}}}^C}\end{array}} \right), \end{split}$

因为F是零行和的, 所以F的谱元素都是非负实数, 其中F的最小特征值$ {\lambda }_{1}^{*}=0 $

, 次小特征值$ {\lambda }_{2}^{*} > 0 $

.
根据谱方法和信息论^[42,44-46], $ {\lambda }_{2}^{*} $

能够量化超图的连通性, 从而衡量不同聚类的性质和互相关联的程度. 应该注意到, $ {\lambda }_{2}^{*} $

已经过标准化, 所以它应该是一维的. 这里, 可以得出$ {\lambda }_{2}^{*}\approx {l}_{\mathrm{o}\mathrm{u}\mathrm{t}}/{l}_{\mathrm{i}\mathrm{n}} $

. 特殊情况下, 如果C个聚类都具有相等规模$ {N}_{c}=N/C $

, 那么类内边数量$ {l}_{\mathrm{i}\mathrm{n}}^{r} $

和类间边$ {l}_{\mathrm{o}\mathrm{u}\mathrm{t}}^{r} $

数量对所有聚类来说都是一样的. 此时, 由$ {l}_{\mathrm{i}\mathrm{n}}^{r}={l}_{\mathrm{i}\mathrm{n}}/C $

和$ {l}_{\mathrm{o}\mathrm{u}\mathrm{t}}^{r}={l}_{\mathrm{o}\mathrm{u}\mathrm{t}}/C $

, 可以得到$ L=C\left({l}_{\mathrm{i}\mathrm{n}}^{r}+0.5{l}_{\mathrm{o}\mathrm{u}\mathrm{t}}^{r}\right)={l}_{\mathrm{i}\mathrm{n}}+0.5{l}_{\mathrm{o}\mathrm{u}\mathrm{t}} $

: 由$\varDelta = $

$ CI/{l}_{\mathrm{i}\mathrm{n}}$

, 可以得到$ {\lambda }_{2}^{*}={l}_{\mathrm{o}\mathrm{u}\mathrm{t}}/{l}_{\mathrm{i}\mathrm{n}}={l}_{\mathrm{o}\mathrm{u}\mathrm{t}}^{r}/{l}_{\mathrm{i}\mathrm{n}}^{r} $

. 证明完毕.
接下来将展示本文的加权策略如何化解聚类探测中的分辨率限制问题, 以使优化方法更加有效. Fortunato和Barthelemy^[32]发现了聚类探测的分辨率限制问题, 表明对于优化模块度Q((1)式)的算法, 如果$ {l}_{\mathrm{i}\mathrm{n}}^{r} $

的取值区间不在[0, L]内, 那么模块度优化算法将无法检测到这些聚类. 直观地看, 如果引入一种加权策略, 能够有效扩大这个限制区间, 那么许多优化算法就能够在一个较大的限制范围内探测到准确聚类. 为了分析简便, 假设权重之和边的个数L保持相等. 这里, 加权网络中所有的量都以上尖号为区分, 即$ \widehat{R} $

. 首先, 回顾一个关于聚类规模边界的定理^[32].
定理3　聚类规模对模块度函数Q的影响有如下限制:

$ \frac{{l}^{\mathrm{i}\mathrm{n}}}{L} < \frac{4}{{\left(2+R\right)}^{2}}, $

其中, $ R={l}^{\mathrm{o}\mathrm{u}\mathrm{t}}/{l}^{\mathrm{i}\mathrm{n}} $

. 如果合并聚类i和聚类j不能提高模块度函数Q的值, 那么对于聚类i和聚类j的规模有如下约束条件^[31]:
对所有j, 有

$ \frac{{l}_{i}^{\mathrm{i}\mathrm{n}}}{L}\geqslant \frac{2{R}_{ij}}{\left({R}_{i}+2\right)\left({R}_{j}+2\right)}; $

对所有i, 有

$ \frac{{l}_{j}^{\mathrm{i}\mathrm{n}}}{L}\geqslant \frac{2{R}_{ji}}{\left({R}_{i}+2\right)\left({R}_{j}+2\right)}, $

其中, 聚类i和聚类j之间的团间边权重之和为$ {R}_{ij}{l}_{j}^{\mathrm{i}\mathrm{n}}={R}_{ji}{l}_{i}^{\mathrm{i}\mathrm{n}}={l}_{ij}^{\mathrm{o}\mathrm{u}\mathrm{t}} $

.
设定网络加权后所有权重之和为L. 如果$ {\hat{l}}_{i}^{\mathrm{i}\mathrm{n}} $

和$ {\hat{l}}_{i}^{\mathrm{o}\mathrm{u}\mathrm{t}} $

分别表示聚类i的类内边权重之和以及聚类i与其他聚类节点的类间边权重之和, 那么有$ {\widehat{R}}_{i}= $

$ {\hat{l}}_{i}^{\mathrm{o}\mathrm{u}\mathrm{t}}/{\hat{l}}_{i}^{\mathrm{i}\mathrm{n}} $

, $ {\widehat{R}}_{ij}={\hat{l}}_{ij}^{\mathrm{o}\mathrm{u}\mathrm{t}}/{\hat{l}}_{i}^{\mathrm{i}\mathrm{n}} $

. 利用加权模块度函数Q, 根据定理3, 可以推导出聚类规模的上下界为

$ \frac{2{\widehat{R}}_{ij}}{\left(2+{\widehat{R}}_{i}\right)\left(2+{\widehat{R}}_{j}\right)}\leqslant \frac{{\hat{l}}_{i}^{\mathrm{i}\mathrm{n}}}{L}\leqslant \frac{4}{{\left(2+{\widehat{R}}_{i}\right)}^{2}} . $

本文的加权策略将减少$ {\widehat{R}}_{ij} $

的值, 因此能提高聚类探测规模的上限.
值得注意的是, 如果减少$ {\widehat{R}}_{i} $

, $ {\widehat{R}}_{j} $

和$ {\widehat{R}}_{ij} $

的值, 聚类探测规模的下限不一定会降低. 然而, 如果假设对所有i都有${\widehat{R}}_{i}\leqslant 2$

, 将得到下限的区间:

$ \frac{1}{8}{\widehat{R}}_{ij}\leqslant \frac{2{\widehat{R}}_{ij}}{\left(2+{\widehat{R}}_{i}\right)\left(2+{\widehat{R}}_{j}\right)}\leqslant\frac{1}{2}{\widehat{R}}_{ij}, $

当$ {\widehat{R}}_{ij} $

逐渐减少, 可以发现该区间的上下两端都将减少, 表明引入本文加权机制后, 聚类探测规模的下界会减少.
总结来说, 如果将本文的加权策略应用于网络中, 那么能够通过优化算法探测出更大或更小的聚类, 从而可以有效地降低分辨率限制的问题.

5.实　验

本节将上述加权机制运用在人工网络和大量现实世界网络中. 结果表明, 这种加权机制可以分别利用原模式和逆模式来提高网络同步能力以及增强聚类结构检测能力.
2

5.1.同步性

-->

5.1.同步性

在本文提出的加权策略中, 唯一的调整参数是$ \alpha $

. 通过改变$ \alpha $

参数, 可以控制权重值的异质性和特征值比$ {\lambda }_{N}/{\lambda }_{2} $

.
1)人工基准网络
这里利用无标度网络^[2]和Watts-Strogatz小世界网络^[1]作为基准模型网络, 并将本文加权机制应用其中. 无标度网络的节点度分布服从幂律特性, 即该模型有两个参数, 其中节点初始边数$ {k}_{0} $

控制平均度, 即$ \left\langle k \right\rangle \approx 2{k}_{0} $

. 另外, 参数$\beta $

调整控制网络度分布的异质性, 当$ \beta $

增加时, 网络的异质性会减少到特定程度.
图4给出了在无标度网络上的实验结果, 其中数据点为50次实验结果的平均值. 图4(a)为特征值比$ {\lambda }_{N}/{\lambda }_{2} $

和参数($ \alpha $

, $ \left\langle k \right\rangle $

)的对应关系, 这里网络的平均度用$ \left\langle k \right\rangle $

表示. 设$ \alpha =1 $

, 对于所有的平均度$ \left\langle k \right\rangle $

, 可以得到$ {\lambda }_{N}/{\lambda }_{2} < 2 $

, 这比文献[23]的最优情况还要好, 而又优于文献[21, 22, 39]的研究结果. 对于较大的平均度$ \left\langle k \right\rangle $

, 权重分布和度分布的同质性增加, 这表示$ \gamma $

值将更加均匀, 而$ \alpha $

的影响也会较弱. 所以, 无论$ \alpha $

的大小, 加权过程都将显著提高网络同步能力. 对于平均度$ \left\langle k \right\rangle $

较低的网络, 由于网络中异质性较高, 因此较大的$ \alpha $

将会得到更好的结果. 接下来研究网络的异质性(非均匀性), 该性质可以用参数$ \beta $

来衡量. 已有研究表明, 网络度分布的异质性是影响同步性能最重要的因素之一. 无标度网络中特征值比$ {\lambda }_{N}/{\lambda }_{2} $

和参数$ \alpha $

, $ \beta $

的关系如图4(b)所示. 对于不同的$ \beta $

, 因为无标度特征导致节点度的非均匀性, 参数$ \alpha $

的影响作用会更加显著. 此外可以看出, 随着$ \beta $

值增加, 网络非均匀性降低, 得到的加权网络的同步性会逐渐变差.

图 4 (a) 无标度网络中$ {\lambda }_{N}/{\lambda }_{2} $

与($ \alpha $

, $ \left\langle k \right\rangle $

)的对应关系(N = 500, $ \beta =0 $

); (b)无标度网络中$ {\lambda }_{N}/{\lambda }_{2} $

与($ \alpha $

, $ \beta $

)的对应关系(N = 500, $ \left\langle k \right\rangle =4 $

)
Figure4. (a) Corresponding relationship (N = 500, $ \beta =0 $

) in scale-free networks between $ {\lambda }_{N}/{\lambda }_{2} $

and ($ \alpha $

, $ \left\langle k \right\rangle $

); (b) Corresponding relationship (N = 500, $ \left\langle k \right\rangle =4 $

) in scale-free networks between $ {\lambda }_{N}/{\lambda }_{2} $

and ($ \alpha $

, $ \beta $

).

接下来将加权机制应用到Watts-Strogatz网络中, 相对于无标度网络来说, Watts-Strogatz网络的节点度分布是均匀的. 该网络受两个参数控制, 即平均度$ \left\langle k \right\rangle =2{k}_{0} $

, 和重连概率P. 图5给出了在Watts-Strogatz网络中应用本文加权算法的结果, 图中数据点为50次实验结果的平均值. 其中, 图5(a)为特征值比$ {\lambda }_{N}/{\lambda }_{2} $

随参数$ \alpha $

和网络平均度$ \left\langle k \right\rangle $

的变化情况. 和无标度网络相似, 当平均度$ \left\langle k \right\rangle $

增加时, 网络的异构程度随之降低$ \alpha $

, 从而降低$ \alpha $

的贡献程度. 可以看出, 当平均度$ \left\langle k \right\rangle $

非常高时, $ \alpha $

对特征值比$ {\lambda }_{N}/{\lambda }_{2} $

几乎没有影响. 图5(b)为特征值比$ {\mathrm{\lambda }}_{{N}}/{{\lambda }}_{2} $

随参数$ \alpha $

和重连概率P的变化情况. 当P较小时, 网络度分布几乎是均匀的, 但是节点的负载分布却是极度非均匀的. 这是由于极少数的重连边可以被视作捷径, 它们承担着很高的负载, 导致负载的分布具有高度的不均匀性. 随着重连概率P的增加, 网络重连边的数量会逐渐增加, 负载分布会因此变得越来越均匀. 在这种情况下, 虽然度分布的方差会逐渐增加, 但仍不足以提升$ \gamma $

值的异质程度. 因此, 增加P会使$ \gamma $

值分布更加均匀, 从而降低加权机制的贡献程度. 特别地, 当P = 1时, Watts-Strogatz网络等同于完全随机图.

图 5 (a) Watts-Strogatz网络中$ {\lambda }_{N}/{\lambda }_{2} $

与($ \alpha $

, $ \left\langle k \right\rangle $

)的对应关系(N = 500, P = 0.1); (b) Watts-Strogatz网络中$ {\lambda }_{N}/{\lambda }_{2} $

与($ \alpha $

, P)的对应关系(N = 500, $ \left\langle k \right\rangle =4 $

)
Figure5. (a) Corresponding relationship (N = 500, P = 0.1) in Watts-Strogatz networks between $ {\lambda }_{N}/{\lambda }_{2} $

and ($ \alpha $

, $ \left\langle k \right\rangle $

); (b) corresponding relationship (N = 500, $ \left\langle k \right\rangle =4 $

) in Watts-Strogatz networks between $ {\lambda }_{N}/{\lambda }_{2} $

and ($ \alpha $

, P).

2) 现实世界网络
虽然现实世界极其复杂以致无法获取全部信息, 但是为了充分地进行验证, 我们将9个不同的加权机制应用到大量现实世界网络中并进行对比, 包括Chavez方法^[21]、Wang方法^[22]、Jalili方法^[23]、Khadivi方法^[31]、模拟退火(SA)算法^[25]、随机游走(RW)算法^[27]、变分贝叶斯(VB)算法^[29]、概率推断(PL)方法^[30]和本文方法, 结果列在表1中, 其中设定$ \alpha =4 $

. 可以看出, 本文使用的加权机制的性能超过了其他所有的加权方法. 值得一提的是, 对于所有的现实世界网络, 随着$ \alpha $

的增加, 特征值$ {\lambda }_{N}/{\lambda }_{2} $

比都将收敛于2.

现实世界网络	N	$ \left\langle k \right\rangle $	$ {\lambda }_{N}/{\lambda }_{2} $
现实世界网络	N	$ \left\langle k \right\rangle $	Chavez	Wang	Jalili	Khadivi	RW	SA	VB	PL	This work
蛋白质结构网络2	53	4.64	20.92	20.54	6.06	5.83	5.61	4.87	4.43	4.59	4.27
海豚网络	62	5.12	16.89	43.01	6.83	6.22	6.04	5.33	5.07	5.30	4.95
蛋白质结构网络1	95	4.48	63.1	262.2	23.5	19.82	15.71	13.65	10.59	11.88	8.45
蛋白质结构网络3	99	4.37	43.75	299.85	13.07	10.84	10.27	9.87	9.14	9.00	8.02
中国航空网络	203	18.48	13.25	5.79	3.29	2.88	2.23	2.08	1.83	1.76	1.55
电子邮件通讯	1133	9.62	8.63	5.81	5.40	4.04	3.86	3.91	3.84	3.54	3.77
酵母蛋白质交互作用	1458	2.67	52.44	269.07	25.60	17.63	15.61	13.21	10.76	12.66	9.52
蛋白质交互作用	2840	2.92	34.87	41.60	16.50	13.85	11.48	10.47	8.94	9.87	5.50
中国电力网络	865	5.20	49.77	133.8	25.43	20.90	23.44	15.19	12.04	10.56	5.04
科学家合作网络	4380	3.25	68.31	273.14	38.69	25.87	20.02	17.36	10.42	11.77	7.21
因特网AS2	7690	4.00	12.90	3.26	2.94	2.15	2.04	2.10	1.91	1.59	1.88
因特网AS5	8063	4.10	12.88	3.41	3.37	2.56	2.27	2.09	1.97	2.20	1.83

表1在现实世界网络中使用8种不同加权策略的实验结果对比, 其中RW代表随机游走方法, SA代表模拟退火方法, VB代表变分贝叶斯方法, PL代表概率推断方法
Table1.Comparison of experimental results using eight different weighting strategies in real world networks, in which RW represents random walk method, SA stands for simulated annealing method, VB stands for variational Bayesian method, PL stands for probability inference method.

2

5.2.聚类探测

-->

5.2.聚类探测

1)人工基准网络
本文采用两个著名的人工基准网络, 即Girvan-Newman (GN)基准网络和Lancichinetti-Fortunato-Radicchi (LFR)基准网络, 用以评估加权机制对社区探测效率的影响. 其中, GN基准测试^[9,11]已经广泛应用于对不同聚类算法的效率评估. GN网络共包括128个节点, 这些节点被分配到4个聚类中, 每个聚类包含32个节点, 每个聚类内部点之间连边和与类外节点连边的概率分别为$ {p}_{\mathrm{i}\mathrm{n}} $

和$ {p}_{\mathrm{o}\mathrm{u}\mathrm{t}} $

. 因此, 对于每个节点, 它们在聚类内部的边的个数和与其他类节点关联的边的期望分别为$ {z}_{\mathrm{i}\mathrm{n}}=31{p}_{\mathrm{i}\mathrm{n}} $

和$ {z}_{\text{out}}=96{p}_{\text{out}} $

, 可以看出$ {z}_{\mathrm{i}\mathrm{n}}\text{+}{\text{z}}_{\mathrm{o}\mathrm{u}\mathrm{t}}\text{=16} $

.
更进一步地, Lancichinetti等^[47]提出了LFR基准网络, 它可以通过调整相关参数来符合现实网络中的无标度特征. 在该基准网络中, 节点的度分布和聚类规模遵循幂律分布. 此外, 还需要设定一些其他参数, 包括节点最大度、节点平均度、节点总数、聚类最大规模和最小规模以及最重要的混合参数$ \mu $

. 混合参数$ \mu $

的取值区间为[0, 1], 决定了LFR基准图的聚类模糊性程度: $ \mu $

越大, 聚类就越难被正确划分. 可以看出, GN基准网络是LFR基准网络的一个特例. 由于GN基准网络和LFR基准网络的社团都是预先给定的, 而不同划分算法得到的结果是不同的, 因此这里利用正确率R(正确划分的节点和全部节点的比值)衡量划分的正确性.
首先, 将加权策略将应用于GN基准网络. 在图6(a)的原加权网络中, $ \alpha $

取2和4, 在逆加权网络中, $ \alpha $

取–2和–4, 数据点为50次实验结果的平均值. 图6(a)给出了在GN基准网络上应用加权策略前后的平均正确率R的对比. 可以看出, 当$ \alpha =4 $

和$ \alpha =2 $

时, 加权策略的原模式都提高了平均正确率R, 而相应的两个逆模式 ($ \alpha =-4 $

和$ \alpha =-2 $

)都会降低平均正确率R. 与$ \alpha =4 $

的情况相比, 在$ \alpha =2 $

的情况下, 平均正确率R会下降约2—3倍. 而且在逆模式中, 当${z}_{\mathrm{o}\mathrm{u}\mathrm{t}}\leqslant 6.5$

时, $ \alpha =-4 $

的情况与$ \alpha =-2 $

相比, 平均正确率R会降低2倍以上.

图 6 (a) GN基准网络中使用加权机制(逆加权机制)前后平均比率R的对比; (b) LFR基准网络中使用加权机制(逆加权机制)前后平均比率R的对比
Figure6. (a) Comparison of average ratio R before and after using weighting mechanism (inverse weighting mechanism) in GN benchmark network; (b) comparison of average ratio R before and after using weighting mechanism (inverse weighting mechanism) in LFR benchmark network.

其次, 在LFR基准网络上进行分析, 其中参数设置如下: 节点数量为1000、平均度为20、最大节点度为50、幂律分布指数为2、混合参数$ \mu $

在区间[0, 0.5]内变化. 从图6(b)可以看出, 加权策略的原模式会显著提高平均正确率R, 而相应的逆模式会降低平均正确率R. 与$ \alpha =4 $

的情况相比, 在$ \alpha =2 $

的情况下, 平均正确率R会下降约4—5倍. 另外, 在逆加权模式也会得到相似的结果. 比较两种基准网络, 对于提高平均正确率R, 加权策略在LFR基准网络中会取得更好的效果.
再次, 为了展示加权机制对聚类探测的影响, 首先利用具有不同$ \alpha $

值的加权机制对网络赋权, 然后利用一些著名的聚类算法运行并测试其准确性. 这里使用在信息论中被广泛研究的标准化互信息(normalized mutual information, NMI)来衡量聚类结果的准确性^[40]. NMI位于区间[0, 1]内, 其值的大小表明真实聚类和模型结果之间重叠的比例. 特别地, 当NMI的值为1时, 算法结果与真实聚类完全相同, 具有最高的划分效率. 真实划分X和模型结果Y之间的标准化互信息NMI的数学定义为

$ I\left(x,y\right)=\frac{-2\displaystyle\sum\limits _{i=1}^{{c}_{X}}\displaystyle \sum\limits _{j=1}^{{c}_{Y}}{N}_{ij}\mathrm{l}\mathrm{n}(n{N}_{ij}/{N}_{i}{N}_{j})}{\displaystyle\sum\limits _{i=1}^{{c}_{X}}{N}_{i}\mathrm{ln}\left(\frac{{N}_{i}}{n}\right)+\sum\limits _{j=1}^{{c}_{Y}}{N}_{j}\mathrm{ln}\left(\frac{{N}_{j}}{n}\right)}, $

其中, $ {c}_{X} $

和$ {c}_{Y} $

分别表示真实划分X和模型结果Y中的聚类数量. 在(21)式, $ {N}_{ij} $

代表真实划分中聚类i和实验结果中聚类j之间重叠的节点数量, $ {N}_{i} $

和$ {N}_{j} $

分别表示矩阵N中第i行和第j列值的总和.
图7(a)和图7(b)给出了利用两种著名算法, 即模拟退火法(SA)^[48]和Duch-Arenas法(DA)^[49], 在运用加权机制的网络上的实验结果, 图中数据点为50次实验结果的平均值. 其中, SA算法被证明是效果最好的聚类算法之一, 然而其计算复杂性也较高. 与SA相比, DA不仅在模块化优化方面具备一定可靠性, 而且计算过程也相对简单. 从图7(a)和图7(b)可以看到, 当$ \alpha $

值从–2降低到–4, 逆加权模式对应的NMI值越来越高, 要优于无权网络. 相反, 在原加权模式中, 当$ \alpha $

值从2增加到4, 加权网络的NMI相对于无权网络的NMI却越来越少. 这些结果均验证了本文的加权策略的有效性. 此外, 通过比较两种方法发现, 图7(a)中$ \alpha =4 $

($ \alpha =-4 $

)和$ \alpha =2 $

($ \alpha =-2 $

)两种情况的NMI差异区间小于图7(b). 这可能是因为, 即使是在无权网络中, SA都拥有更高的精确度, 难以通过加权策略提高它的表现. 但是对于DA来说, 通过提高$ \alpha $

, 加权机制能够大幅提高它的计算精度.

图 7 在LFR网络中运用加权机制(逆加权机制), 当取不同的$ \alpha $

值时, 利用(a) SA算法和(b) DA算法后NMI的计算值
Figure7. Weighted mechanism (inverse weighted mechanism) is used in LFR network. When the $ \alpha $

value is different, the NMI value is calculated by using (a) SA algorithm and (b) DA algorithm.

此外, 本文还考虑了聚类规模的影响, 验证结果如图8所示, 图中数据点为50次实验结果的平均值. 考虑两种不同聚类规模条件下的LFR基准网络, 其中, 每个聚类的节点数量在10—50之间为小聚类网络, 在20—100之间为大聚类网络. 为了增强这两种LFR基准网络的可比性, 规定它们的区别仅限于聚类的规模大小, 其他方面的性质则完全相同. 图8验证了在逆加权网络中, SA和DA算法的准确性都得到提升. 此外, 通过比较不同规模LFR网络的聚类结果可以看出, 大聚类网络中两种算法的精确度更低, 这可能是因为小聚类网络中具有更多的类间边, 而类间边更可能是被加权的. 并且通过比较两种方法, 图8(a)显示的小聚类和大聚类LFR网络(无论是逆加权网络还是加权网络)之间的NMI区间差距小于图8(b), 原因与图7相同, 完美证明了本文加权机制的有效性.

图 8 在LFR网络中运用加权机制(逆加权机制), 当$ \alpha =4 $

($ \alpha =-4 $

)并考虑聚类规模时, 利用(a) SA算法和(b) DA算法后NMI的计算值
Figure8. The weighted mechanism (inverse weighted mechanism) is used in LFR network. When α = 4 (α = –4) and considering the cluster size, the NMI calculated by (a) SA algorithm and (b) DA algorithm.

2) 现实世界网络
进一步将加权策略应用到现实世界网络中, 结果在表2中列出. 这里使用了7种广泛使用的网络, 并标识了相应的文献出处. 为了便于比较, 提供了关于7种网络已发表方法中的最优模块度Q值^[56]. 本文计算了当$ \alpha =4 $

时三种代表性算法, 即SA^[48], DA^[49]和CNM^[10]的加权前后模块度Q值, 其中“/”左右表示加权后和加权前的模块度Q值, 结果如表2所列. 这三种算法的精确度虽然并不处于最顶级的行列, 然而正如表2所列, 在应用加权策略后, 结果非常接近已发表的最优值, 并且计算过程更加简便.

网络	文献	最优Q	SA^[48]	DA^[49]	CNM^[10]
中国航空网络	[11]	—	0.644/0.525	0.589/0.428	0.577/0.483
空手道俱乐部	[50]	0.420	0.416/0.342	0.411/0.351	0.413/0.376
《悲惨世界》	[51]	0.561	0.554/0.389	0.539/0.406	0.531/0.395
海豚社会网络	[52]	0.531	0.527/0.375	0.521/0.362	0.517/0.356
电子邮件	[53]	0.579	0.568/0.462	0.543/0.436	0.538/0.444
爵士乐	[54]	0.446	0.439/0.333	0.437/0.341	0.431/0.328
PGP密钥签名	[55]	0.878	0.883/0.674	0.843/0.705	0.872/0.754

表2在不同现实网络使用加权策略得到的实验结果, 其中“/”左右表示加权后和加权前的模块度Q值
Table2.Experimental results are obtained by using weighting strategy in different real networks, where /’s left or right represents the modularity Q value after or before weighting.

进一步将9种加权策略应用到现实世界网络中, 包括Chavez方法^[21]、Wang方法^[22]、Jalili方法^[23]、Khadivi方法^[31]、模拟退火(SA)算法^[25]、随机游走(RW)算法^[27]、变分贝叶斯(VB)算法^[29]、概率推断方法^[30]和本文方法, 用以对比不同加权方法的聚类效果. 聚类算法统一使用CNM方法^[10], 并计算当$ \alpha =4 $

时的模块度Q值. 结果列在表3中, 可以看出, 本文所使用的加权机制的性能超过了其他所有的加权方法, 从而验证了本文加权算法的高效性.

网络	Chavez	Wang	Jalili	Khadivi	RW	SA	VB	PL	This work
空手道俱乐部	0.316	0.322	0.351	0.362	0.374	0.381	0.390	0.386	0.413
中国航空网络	0.449	0.478	0.423	0.432	0.506	0.543	0.564	0.578	0.603
《悲惨世界》	0.357	0.369	0.399	0.411	0.439	0.457	0.488	0.433	0.531
爵士乐	0.338	0.347	0.353	0.361	0.383	0.399	0.42	0.387	0.431
PGP密钥签名	0.583	0.678	0.676	0.715	0.744	0.786	0.839	0.820	0.872
海豚社会网络	0.357	0.381	0.371	0.374	0.406	0.444	0.483	0.500	0.517
电子邮件	0.368	0.409	0.431	0.443	0.471	0.499	0.503	0.495	0.538

表3在现实世界网络中使用不同加权策略的实验结果对比, 这里网络聚类算法利用CNM算法, 其中RW代表随机游走方法, SA代表模拟退火方法, VB代表变分贝叶斯方法, PL代表概率推断方法
Table3.Comparison of experimental results using different weighting strategies in the real world network. CNM algorithm is used as the network clustering algorithm, in which RW represents the random walk method, SA represents the simulated annealing method, VB represents the variable dB method, and PL represents the probability inference method.

本站小编 Free考研考试/2021-12-29

English Abstract

A new tunable weighting strategy for enhancing performance of network computation

1.School of Science, Beijing University of Posts and Telecommunications, Beijing 100876, China
2.School of Computer and Communication Engineering, TianjinUniversity of Technology, Tianjin 300384, China

Corresponding author:Li Hui-Jia, hjli@bupt.edu.cn

全文HTML

3.1.基本定义

3.2.双模式加权算法

4.1.同步性分析

4.2.聚类结构分析

5.1.同步性

5.2.聚类探测

相关话题/网络 结构 计算 通信 信息

领限时大额优惠券,享本站正版考研考试资料!

结构改进的厘米尺寸谐振腔的磁场传感特性

单层缺陷碲烯电子结构与光学性质的第一性原理研究

CdS/CdMnTe太阳能电池异质结界面与光电性能的第一性原理计算

有机铅碘钙钛矿太阳电池结构优化及光电性能计算

基于时延光子储备池计算的混沌激光短期预测

褶皱状蜂窝结构的单层二维材料研究进展

基于蛛网结构的量子卫星广域网构建策略及性能仿真

金属-介质-金属多层结构可调谐Fabry-Perot共振及高灵敏折射率传感

疏水表面振动液滴模态演化与流场结构的数值模拟

一种计算非平衡等离子体中粒子能级布居的简化方法