全文HTML
--> --> --> -->2.1.网络定义
设图2
2.2.度中心性
度中心性(degree centrality, DC)[7]是衡量节点影响力的最简单指标. 节点拥有的度数越大, 该节点的影响力就越大. 节点2
2.3.介数中心性
介数中心性(betweenness centrality, BC)[8]是基于节点的最短路径数定义的全局指标. 通常, 节点的BC越大, 该节点的影响力就越大. 节点2
2.4.混合度分解方法
混合度分解方法(mixed degree decomposition method, MDD)由Zeng等[11]提出, 该方法有效提高了K壳分解方法的区分度. 它通过同时考虑节点的剩余度值2
2.5.全方位距离
Hou等[13]提出了全方位距离(all-around distance, AAD)指标, 其综合考虑了节点的度值、BC、K壳等3个不同指标的影响, 采用欧拉距离公式计算了这3个指标的组合度量, 计算公式如下所示:2
2.6.改进的K壳方法
改进的K壳方法(improved K-shell method, IKS)由Wang等[21]提出, 该方法结合了K壳分解方法和节点信息熵. 它按照K壳分层从大到小的顺序进行迭代, 在每层未被选中节点中选择节点信息熵最高的节点, 直至网络中所有节点都被选中为止, 节点2
2.7.结构洞理论
结构洞理论(structural holes theory)是Burt等[15]在1992年研究社交网络中的竞争关系时提出的. 在社会网络中, 结构洞是指个体之间为非冗余关系, 且存在互补信息的差距. 为了量化结构洞节点对这些关系的控制, Burt采用约束系数来测量结构洞中节点形成的约束. 当系数越小, 节点越容易形成结构洞, 节点的影响力越大. 节点在计算节点的约束系数时, 考虑到节点及其邻域的度值和拓扑结构对节点重要性的影响将
2
2.8.Tsallis非广延统计力学
对于1个有限的离散概率集, Boltzmann-Gibbs熵[22]被定义为1988年, 基于Boltzmann-Gibbs熵[22]和Shannon熵[23], Tsallis[24]提出了一种新的熵, 它是一种更一般的形式, 能够描述广延的和非广延的系统, 被定义为
-->
3.1.方法构造
基于Tsallis熵的节点重要性评估方法构造的基本思想是在综合考虑节点的结构洞特征和K壳中心性的同时, 利用Tsallis熵度量网络结构的复杂性, 评估网络中节点的重要性. 由于结构洞特征能体现节点的局部拓扑信息, 而K壳中心性表征了节点的全局拓扑信息, 结合这两种拓扑信息, 利用Tsallis熵度量网络结构复杂性, 并通过对每个节点的自身及其邻域节点的综合考察, 可以给出1个合理的评估网络中节点重要性的方法, 即本文提出的TSM方法.基于Tsallis非广延统计力学, 可以得到Tsallis熵的如下形式:
利用Tsallis熵度量网络结构复杂性得到
2
3.2.时间复杂度分析
本节将对本文提出的TSM算法进行计算时间复杂度分析, 其具体计算步骤如表1所列. 由表1可知, TSM要遍历网络中每个节点, 在计算节点的结构洞约束系数值RCi时, 考虑了节点的度及其与邻居拓扑结构间的关系, 故时间复杂度应为Algorithm 1: TSM algorithm. |
Input: Network $ G(V, E) $ Output: TSM value for each node 1. Find neighboring nodes $\varGamma (i)$of node $ {v_i} $ 2. Compute the restraint coefficient ${\rm{RC}}_i$ of node $ {v_i} $ 3. Compute the ${\rm Ks}_i$ value of node $ {v_i} $according to formula $k_i^{\rm m} = k_i^{\rm r} + \lambda k_i^{\rm e}$ 4. Compute $ {q_i} $ for node $ {v_i} $ 5. For node $ {v_j} $ in $\varGamma (i)$ do 6. ratio = ($1 - {\rm{RC}}_j$)/${\rm{sum}}$($1 - {\rm{RC}}$(all neighbors of $ {v_i} $)) 7. $ T({v_i}) $= (pow(ratio, $ {q_i} $)-ratio)/(1 – $ {q_i} $) 8. End For 9. Compute ${\rm{IC} }\left( { {v_i} } \right) = \left( {1 - {\rm{RC} }_i } \right)*T\left( { {v_i} } \right)$ 10. For node $ {v_j} $ in $\varGamma (i)$ do 11. ${\rm{Cnc}}\left( { {v_i} } \right) = {\rm{sum}}\left( {{\rm{IC}}\left( { {v_j} } \right)} \right)$ 12. End For 13. For node $ {v_j} $ in $\varGamma (i)$ do 14. ${\rm{TSM}}\left( { {v_i} } \right) = {\rm{sum}}\left( {{\rm{Cnc}}\left( { {v_j} } \right)} \right)$ 15. End For |
表1计算步骤
Table1.Step of the calculation.
表2列出了几种不同方法的时间复杂度, 并按照评估方法所包含的网络信息将这些方法分成了局部、全局、混合等3个类型. 其中,
Method | Category | Time complexity |
$ {\text{DC}} $ | Local | $ O(n) $ |
$ {\text{BC}} $ | Global | $ O({n^3}) $or$ O(nm) $ |
$ {\text{MDD}} $ | Global | $ O(n) $ |
${\text{N-Burt} }$ | Local | $ O({n^2}) $ |
$ {\text{Cnc + }} $ | Hybrid | $ O(n) $ |
$ {\text{AAD}} $ | Hybrid | $ O({n^3}) $ or $ O(nm) $ |
$ {\text{IKS}} $ | Hybrid | $ O(n) $ |
$ {\text{TSM}} $ | Hybrid | $ O({n^2}) $ |
表2不同方法的时间复杂度
Table2.Time complexity of different methods.
-->
4.1.实验数据
本文选用了8个来自不同领域的真实网络进行实验, 分别是: 空手道俱乐部社交网络Karate network[25]、海豚社交网络Dolphins network[26]、美国政治书籍网络Polbooks network[27]、爵士音乐家网络Jazzmusic network[28]、美国航空运输网络USAirline network[29]、秀丽隐杆线虫网络C.Elegans network[30]、大学电子邮件网络Email network[31]、美国电力网络PowerGrid network[1]. 各网络的统计特征如表3所列. 其中Network | $ n $ | $ m $ | $\langle k \rangle$ | $ c $ | $\langle d \rangle$ | ${\beta _{\rm th} }$ | $\beta $ |
Karate | 34 | 78 | 4.5880 | 0.5706 | 2.4082 | 0.1287 | 0.25 |
Dolphins | 62 | 159 | 5.1290 | 0.2590 | 3.3570 | 0.1470 | 0.15 |
Polbooks | 105 | 441 | 8.4000 | 0.4880 | 3.0788 | 0.0838 | 0.10 |
Jazz | 198 | 2742 | 27.6970 | 0.6175 | 2.2350 | 0.0259 | 0.04 |
USAir | 332 | 2126 | 12.8072 | 0.7494 | 2.7381 | 0.0225 | 0.03 |
C.Elegans | 453 | 2025 | 8.9404 | 0.6465 | 2.4553 | 0.0249 | 0.03 |
1133 | 5451 | 9.6222 | 0.2540 | 3.6060 | 0.0535 | 0.05 | |
PowerGrid | 4941 | 6594 | 2.6691 | 0.0801 | 18.9892 | 0.2583 | 0.25 |
表3网络的统计特征
Table3.Statistical characteristics of the networks.
2
4.2.有效性分析
为了验证本文提出的TSM算法的有效性和准确性, 首先以Karate网络为例进行仿真分析, 其拓扑图如图1所示. 选用了DC[7]、 BC[8]、 MDD[11]、邻域结构洞方法[16] (N-Burt)、核心邻域中心性[12] (Cnc+)、AAD [13]以及IKS[21]等7种方法与本文提出的TSM方法进行对比, 得到网络前15个关键节点的重要性评估结果如表4所列.图 1 Karate网络的拓扑结构
Figure1. Topological structure of the Karate network.
排名 | 节点 | DC | 节点 | BC | 节点 | MDD | 节点 | N-Burt | 节点 | Cnc+ | 节点 | AAD | 节点 | IKS | 节点 | TSM | ||
1 | ${v_{34}}$ | 17 | ${v_1}$ | 0.4119 | ${v_{34}}$ | 11.9 | ${v_{34}}$ | 0.1682 | ${v_{34}}$ | 1156 | ${v_{34}}$ | 17.4666 | ${v_1}$ | 1.5215 | ${v_{34}}$ | 89.8687 | ||
2 | ${v_1}$ | 16 | ${v_{34}}$ | 0.2862 | ${v_1}$ | 11.2 | ${v_1}$ | 0.1731 | ${v_1}$ | 1024 | ${v_1}$ | 16.4976 | ${v_{34}}$ | 1.4782 | ${v_1}$ | 81.8535 | ||
3 | ${v_{33}}$ | 12 | ${v_{33}}$ | 0.1367 | ${v_{33}}$ | 8.7 | ${v_3}$ | 0.2257 | ${v_{33}}$ | 576 | ${v_{33}}$ | 12.6498 | ${v_3}$ | 1.2610 | ${v_{33}}$ | 72.0759 | ||
4 | ${v_3}$ | 10 | ${v_3}$ | 0.1352 | ${v_3}$ | 7.6 | ${v_{33}}$ | 0.2746 | ${v_3}$ | 400 | ${v_3}$ | 10.7712 | ${v_{33}}$ | 1.2307 | ${v_3}$ | 70.7235 | ||
5 | ${v_2}$ | 9 | ${v_{32}}$ | 0.1301 | ${v_2}$ | 6.9 | ${v_{32}}$ | 0.2793 | ${v_2}$ | 324 | ${v_2}$ | 9.8490 | ${v_2}$ | 1.0208 | ${v_2}$ | 59.4435 | ||
6 | ${v_4}$ | 6 | ${v_9}$ | 0.0526 | ${v_4}$ | 5.1 | ${v_9}$ | 0.3266 | ${v_4}$ | 144 | ${v_4}$ | 7.2111 | ${v_9}$ | 0.9425 | ${v_9}$ | 47.6431 | ||
7 | ${v_{32}}$ | 6 | ${v_2}$ | 0.0508 | ${v_{32}}$ | 5.1 | ${v_2}$ | 0.3357 | ${v_{32}}$ | 108 | ${v_{32}}$ | 6.7095 | ${v_{14}}$ | 0.9411 | ${v_{14}}$ | 46.9374 | ||
8 | ${v_9}$ | 5 | ${v_{14}}$ | 0.0432 | ${v_{14}}$ | 5 | ${v_{14}}$ | 0.3541 | ${v_9}$ | 100 | ${v_9}$ | 6.4033 | ${v_{32}}$ | 0.9004 | ${v_4}$ | 45.5295 | ||
9 | ${v_{14}}$ | 5 | ${v_{20}}$ | 0.0306 | ${v_9}$ | 4.7 | ${v_{28}}$ | 0.3674 | ${v_{14}}$ | 100 | ${v_{14}}$ | 6.4033 | ${v_4}$ | 0.8343 | ${v_{32}}$ | 41.3938 | ||
10 | ${v_{24}}$ | 5 | ${v_6}$ | 0.0282 | ${v_{24}}$ | 4.1 | ${v_{31}}$ | 0.3810 | ${v_{24}}$ | 75 | ${v_{24}}$ | 5.8310 | ${v_{31}}$ | 0.7137 | ${v_{31}}$ | 37.1209 | ||
11 | ${v_6}$ | 4 | ${v_7}$ | 0.0282 | ${v_8}$ | 4 | ${v_{20}}$ | 0.3935 | ${v_8}$ | 64 | ${v_{31}}$ | 5.6569 | ${v_{24}}$ | 0.7027 | ${v_8}$ | 35.7453 | ||
12 | ${v_7}$ | 4 | ${v_{28}}$ | 0.0210 | ${v_{31}}$ | 4 | ${v_{29}}$ | 0.4115 | ${v_{31}}$ | 64 | ${v_8}$ | 5.6569 | ${v_8}$ | 0.6996 | ${v_{24}}$ | 33.3428 | ||
13 | ${v_8}$ | 4 | ${v_{24}}$ | 0.0166 | ${v_{28}}$ | 3.7 | ${v_{24}}$ | 0.4348 | ${v_6}$ | 48 | ${v_6}$ | 5.0001 | ${v_{20}}$ | 0.6397 | ${v_{28}}$ | 29.9028 | ||
14 | ${v_{28}}$ | 4 | ${v_{31}}$ | 0.0136 | ${v_{30}}$ | 3.7 | ${v_4}$ | 0.4684 | ${v_7}$ | 48 | ${v_7}$ | 5.0001 | ${v_{30}}$ | 0.6050 | ${v_{20}}$ | 29.6927 | ||
15 | ${v_{30}}$ | 4 | ${v_4}$ | 0.0112 | ${v_6}$ | 3.4 | ${v_{26}}$ | 0.4845 | ${v_{28}}$ | 48 | ${v_{28}}$ | 5.0000 | ${v_{28}}$ | 0.6039 | ${v_{30}}$ | 29.1552 |
表4Karate网络的节点重要度评估结果
Table4.Node importance evaluation results in the Karate network.
通过结合Karate网络拓扑结构(图1)与重要性评估结果(表4)分析可知: 节点
本文所提出的TSM方法克服了以上方法的不足, 它从节点的局部和全局拓扑信息两个角度出发, 综合考虑节点自身的结构洞特征和网络位置信息以及邻域节点的影响, 并基于Tsallis熵度量网络结构的复杂性, 可提高节点重要性的区分度, 准确地评估节点重要性. 如表4所列, 通过TSM方法评估出的前15个重要节点与其他方法评估出的重要节点基本相同, 说明TSM方法能够有效地评估节点的重要性. 在TSM方法中, 节点
2
4.3.评价标准
接下来介绍验证所提出的TSM方法准确性的评价标准. 它们分别是单调性指标[12]、SIR模型[32]和Kendall相关系数[33].本文采用单调性指标[12]
目前, 大多数****采用标准的SIR模型[32]来检测信息和病毒的传播能力. 在SIR模型中, 网络中的每个节点可以处于以下3种状态中的1种: 易感状态S (susceptible)、感染状态I (infected)以及恢复状态R (removed). 在传播初始阶段, 网络中只有节点
为了评估节点重要性评估方法的精准度, 本文使用Kendall相关系数[33]
2
4.4.实验分析
本节记录并分析了不同节点重要性评估方法在不同真实网络中的实验结果.Network | $ M{\text{(DC)}} $ | M (BC) | M (MDD) | $M{\text{(N-Burt)} }$ | $ M{\text{(Cnc + )}} $ | M (ADD) | $ M{\text{(IKS)}} $ | $ M{\text{(TSM)}} $ |
Karate | 0.7079 | 0.7723 | 0.7536 | 0.9542 | 0.9472 | 0.8395 | 0.9612 | 0.9542 |
Dolphins | 0.8312 | 0.9623 | 0.9041 | 0.9623 | 0.9895 | 0.9623 | 0.9905 | 0.9979 |
Polbooks | 0.8252 | 0.9974 | 0.9077 | 1 | 0.9971 | 0.9996 | 1 | 1 |
Jazz | 0.9659 | 0.9885 | 0.9883 | 0.9983 | 0.9993 | 0.9981 | 0.9994 | 0.9994 |
USAir | 0.8586 | 0.6970 | 0.8871 | 0.9453 | 0.9945 | 0.9068 | 0.9943 | 0.9951 |
C.Elegans | 0.7922 | 0.8740 | 0.8748 | 0.9983 | 0.9980 | 0.9381 | 0.9974 | 0.9990 |
0.8874 | 0.9400 | 0.9229 | 0.9650 | 0.9991 | 0.9629 | 0.9995 | 0.9999 | |
PowerGrid | 0.5927 | 0.8313 | 0.6928 | 0.8770 | 0.9568 | 0.8748 | 0.9667 | 0.9999 |
表5不同评估方法的单调性指标M
Table5.Monotonicity index M of different evaluation methods.
图 3 不同传播率下SIR和各评估方法之间的Kendall相关系数, 图中黑色虚线为传播阈值
Figure3. Kendall correlation coefficient between SIR and the evaluation methods under different transmission rates, the black dashed line in the figure is the propagation threshold
首先选用了DC, BC, MDD, N-Burt, Cnc+, AAD以及IKS等7种评估方法作为对比方法, 利用单调性指标[12]M考察了7种对比方法与本文所提出的TSM方法的分辨率, 即对节点重要性的区分度. 表5记录了不同评估方法在8个真实网络中的分辨率, 并在图2中更为直观地呈现了它们之间的差异. 从图2可以看出, TSM方法在8个真实网络中表现十分出色. 此外, Cnc+和IKS方法的区分度也很好. 与其他7种方法相比, TSM方法大多数情况下可以给出更高M值, 而且在所有网络中M (TSM)都非常接近甚至等于1. 因此, TSM方法能够更好地区分节点的重要性.
图 2 不同评估方法的单调性指标M (a) Karate网络、Dolphins网络、Polbooks网络和Jazz网络; (b) USAir网络、C.Elegans网络、Email网络和PowerGrid网络
Figure2. Monotonicity index M of different evaluation methods: (a) Karate network, Dolphins network, Polbooks network and Jazz network; (b) USAir network, C.Elegans network, Email network and PowerGrid network.
其次, 使用SIR模型得到节点的传播能力排序
Network | $\tau ({\text{DC, }}\sigma {\text{)}}$ | $\tau ({\text{BC, }}\sigma {\text{)}}$ | $\tau ({\text{MDD, }}\sigma {\text{)}}$ | $\tau ({\text{N-Burt, } }\sigma {\text{)} }$ | $\tau ({\text{Cnc + , }}\sigma {\text{)}}$ | $\tau ({\text{AAD, }}\sigma {\text{)}}$ | $\tau ({\text{IKS, }}\sigma {\text{)}}$ | $\tau ({\text{TSM, }}\sigma {\text{)}}$ |
Karate | 0.6435 | 0.5651 | 0.6756 | 0.7683 | 0.9258 | 0.6591 | 0.8445 | 0.9637 |
Dolphins | 0.7768 | 0.5643 | 0.8181 | 0.7282 | 0.8611 | 0.7532 | 0.8526 | 0.9492 |
Polbooks | 0.7528 | 0.3579 | 0.8029 | 0.7037 | 0.9098 | 0.7691 | 0.9165 | 0.9436 |
Jazz | 0.8185 | 0.4628 | 0.8503 | 0.8216 | 0.9132 | 0.8235 | 0.8804 | 0.9363 |
USAir | 0.6982 | 0.4744 | 0.7175 | 0.7929 | 0.9047 | 0.6995 | 0.9055 | 0.9461 |
C.Elegans | 0.6376 | 0.4711 | 0.6521 | 0.6251 | 0.8127 | 0.659 | 0.8217 | 0.8570 |
0.7911 | 0.6467 | 0.8015 | 0.7735 | 0.8980 | 0.7797 | 0.8758 | 0.9250 | |
PowerGrid | 0.5469 | 0.4167 | 0.5786 | 0.4298 | 0.7341 | 0.5563 | 0.7399 | 0.8207 |
表6选定传播率下SIR和各评估方法之间的Kendall相关系数
Table6.Kendall correlation coefficient between SIR and evaluation methods under a certain transmission rate.
为了进一步验证所提方法的准确性和可靠性, 对比了不同传播率下各评估方法与SIR模型排序结果之间的Kendall相关系数, 如图3所示. 从图3可以看出, 当传播率
然后, 对Kendall相关系数的考察节点范围进行了调整, 将考察的节点从整体节点变为部分节点, 进一步研究了各个评估方法得到的不同比例排序靠前的节点与节点传播能力排序的相关性结果. 在8个真实网络中进行实验, 设置节点比例L的变化范围为0.05—1. 如图4所示, 给出不同比例节点下各评估方法的相关系数值. 从图4可以看出, 本文提出的TSM算法在不同比例节点下都能取得不错的节点重要性评估结果, 且在更大范围的L值下可以取得更好的评估结果.
图 4 不同比例节点下各评估方法的Kendall相关系数 (a) Karate网络; (b) Dolphins网络; (c) Polbooks网络; (d) Jazz网络; (e) USAir网络; (f) C.Elegans网络; (g) Email网络; (h) PowerGrid网络
Figure4. Kendall correlation coefficient of the evaluation methods under different proportion nodes: (a) Karate network; (b) Dolphins network; (c) Polbooks network; (d) Jazz network; (e) USAir network; (f) C.Elegans network; (g) Email network; (h) PowerGrid network.
最后, 分析了TSM方法与其他评估方法之间的关系, 如图5所示. 图中每个点代表复杂网络中的1个节点, 点的颜色表示由SIR模型得到的节点传播能力, 横轴和纵轴分别为TSM方法和其他方法得到的网络中各节点重要性数值. 当图中的节点呈线性分布时, 说明TSM方法与该方法有强的相关性. 从图5中的节点分布情况可以发现, TSM与DC, MDD, N-Burt之间存在强的相关性, 这说明TSM方法既充分考虑了节点的DC和位置信息, 而且有能力识别到网络中的“桥接”节点. 此外, TSM与Cnc+, AAD, IKS之间节点分布呈较明显的线性关系, 这说明节点重要性排名总体相似, 亦证明TSM方法能有效评估节点重要性. 从图5还可以发现, 有一些节点尽管其BC数值大, 但其传播能力并不是很强, 因此仅靠BC评估节点的重要性并不准确. 所以在评估网络中节点的重要性上, TSM方法较其他方法更有优势.
图 5 TSM与其他评估方法之间的关系 (a) Karate网络, β = 0.25; (b) Dolphins网络, β = 0.15; (c) Polbooks网络, β = 0.1; (d) Jazz网络, β = 0.04
Figure5. Relationship between TSM and other evaluation methods (a) Karate network, β = 0.25; (b) Dolphins network, β = 0.15; (c) Polbooksnetwork, β = 0.1; (d) Jazz network, β = 0.04.