全文HTML
--> --> -->在不同研究背景下, 研究人员提出了众多节点重要性评估方法. 目前, 度中心性[7]是评估网络节点重要性的常用方法, 该方法简单但不够精准. 介数中心性[8]和接近中心性[9]分别考虑的是节点间的最短路径数量和平均最短距离, 此类方法从全局信息的角度出发, 效果明显但计算时间复杂度较高, 不适用于大型复杂网络. Kitsak等[10]依据网络中节点处于网络的核心位置往往有较高影响力的思想, 提出用K壳分解法确定网络中节点的位置, 此方法时间复杂度低, 适用于大型复杂网络, 然而其区分度过于粗粒化. 为了提高节点区分度, Zeng等[11]提出了混合度分解(mixed degree decomposition, MDD)法, 以网络中剩余的邻居节点以及删除的邻居节点的混合度进行K壳分解. Bae和Kim[12]在改进K壳算法时提出了邻域核心的概念, 利用节点自身及其邻居的K壳值之和来评估网络中节点的重要性. Hou等[13]考虑多指标评估, 基于欧拉距离公式计算节点的度值、介数、K壳等3个不同指标的组合度量, 更为综合地评估了节点的重要性. 王凯莉等[14]提出了一种基于多阶邻居壳数的向量中心性方法, 利用向量的形式来表示节点在网络中的相对重要性. Burt等[15]提出经典社会学中的“结构洞”理论, 设计了网格约束系数来量化节点形成结构洞时所受到的约束, 该方法利用了节点的局部信息, 具有良好的精度和较低的计算时间复杂度. 苏晓萍和宋玉蓉[16]提出一种基于节点及其邻域结构洞的评估节点重要性的方法, 该方法综合考虑了节点及其邻域的度值和拓扑结构, 能有效评估网络中节点的重要性. 韩忠民等[17]提出了一种融合结构洞等7个度量指标的方法, 该方法利用基于ListNet的排序学习方法, 能够较为全面地评估网络中节点的重要性.
当使用熵来评估复杂网络时, 复杂网络的结构越有序, 熵值就越小, 反之亦然. 同时, 熵也可用来描述整个网络结构的复杂性和复杂网络的统计特性. 例如, Chen等[18]提出了结构熵来量化复杂网络的结构特征. Zhang等[19]提出了一种基于非广延统计力学的结构熵来度量网络的复杂性. 黄丽亚等[20]提出了一种基于网络节点在K步内可达的节点总数的K-阶结构熵, 用于度量复杂网络的异构性. Wang等[21]提出了一种基于K壳和节点信息熵的改进算法, 用于区分上层外壳和下层外壳中节点的重要性.
受到上述研究工作的启发, 本文提出了一种基于Tsallis熵的复杂网络节点重要性评估方法(TSM). 该方法不仅考虑了节点的结构洞特征和K壳中心性, 还充分考虑了节点自身及其邻域节点的影响, 在兼顾节点的局部和全局拓扑信息的同时, 采用Tsallis熵来度量网络结构的复杂性. 时间复杂度分析表明, 该方法的时间复杂度仅为


2.1.网络定义
设图



















2
2.2.度中心性
度中心性(degree centrality, DC)[7]是衡量节点影响力的最简单指标. 节点拥有的度数越大, 该节点的影响力就越大. 节点







2
2.3.介数中心性
介数中心性(betweenness centrality, BC)[8]是基于节点的最短路径数定义的全局指标. 通常, 节点的BC越大, 该节点的影响力就越大. 节点





2
2.4.混合度分解方法
混合度分解方法(mixed degree decomposition method, MDD)由Zeng等[11]提出, 该方法有效提高了K壳分解方法的区分度. 它通过同时考虑节点的剩余度值






2
2.5.全方位距离
Hou等[13]提出了全方位距离(all-around distance, AAD)指标, 其综合考虑了节点的度值、BC、K壳等3个不同指标的影响, 采用欧拉距离公式计算了这3个指标的组合度量, 计算公式如下所示:

2
2.6.改进的K壳方法
改进的K壳方法(improved K-shell method, IKS)由Wang等[21]提出, 该方法结合了K壳分解方法和节点信息熵. 它按照K壳分层从大到小的顺序进行迭代, 在每层未被选中节点中选择节点信息熵最高的节点, 直至网络中所有节点都被选中为止, 节点




2
2.7.结构洞理论
结构洞理论(structural holes theory)是Burt等[15]在1992年研究社交网络中的竞争关系时提出的. 在社会网络中, 结构洞是指个体之间为非冗余关系, 且存在互补信息的差距. 为了量化结构洞节点对这些关系的控制, Burt采用约束系数来测量结构洞中节点形成的约束. 当系数越小, 节点越容易形成结构洞, 节点的影响力越大. 节点










在计算节点的约束系数时, 考虑到节点及其邻域的度值和拓扑结构对节点重要性的影响将

2
2.8.Tsallis非广延统计力学
对于1个有限的离散概率集, Boltzmann-Gibbs熵[22]被定义为


1988年, 基于Boltzmann-Gibbs熵[22]和Shannon熵[23], Tsallis[24]提出了一种新的熵, 它是一种更一般的形式, 能够描述广延的和非广延的系统, 被定义为





3.1.方法构造
基于Tsallis熵的节点重要性评估方法构造的基本思想是在综合考虑节点的结构洞特征和K壳中心性的同时, 利用Tsallis熵度量网络结构的复杂性, 评估网络中节点的重要性. 由于结构洞特征能体现节点的局部拓扑信息, 而K壳中心性表征了节点的全局拓扑信息, 结合这两种拓扑信息, 利用Tsallis熵度量网络结构复杂性, 并通过对每个节点的自身及其邻域节点的综合考察, 可以给出1个合理的评估网络中节点重要性的方法, 即本文提出的TSM方法.基于Tsallis非广延统计力学, 可以得到Tsallis熵的如下形式:












利用Tsallis熵度量网络结构复杂性得到









2
3.2.时间复杂度分析
本节将对本文提出的TSM算法进行计算时间复杂度分析, 其具体计算步骤如表1所列. 由表1可知, TSM要遍历网络中每个节点, 在计算节点的结构洞约束系数值RCi时, 考虑了节点的度及其与邻居拓扑结构间的关系, 故时间复杂度应为












Algorithm 1: TSM algorithm. |
Input: Network $ G(V, E) $ Output: TSM value for each node 1. Find neighboring nodes $\varGamma (i)$of node $ {v_i} $ 2. Compute the restraint coefficient ${\rm{RC}}_i$ of node $ {v_i} $ 3. Compute the ${\rm Ks}_i$ value of node $ {v_i} $according to formula $k_i^{\rm m} = k_i^{\rm r} + \lambda k_i^{\rm e}$ 4. Compute $ {q_i} $ for node $ {v_i} $ 5. For node $ {v_j} $ in $\varGamma (i)$ do 6. ratio = ($1 - {\rm{RC}}_j$)/${\rm{sum}}$($1 - {\rm{RC}}$(all neighbors of $ {v_i} $)) 7. $ T({v_i}) $= (pow(ratio, $ {q_i} $)-ratio)/(1 – $ {q_i} $) 8. End For 9. Compute ${\rm{IC} }\left( { {v_i} } \right) = \left( {1 - {\rm{RC} }_i } \right)*T\left( { {v_i} } \right)$ 10. For node $ {v_j} $ in $\varGamma (i)$ do 11. ${\rm{Cnc}}\left( { {v_i} } \right) = {\rm{sum}}\left( {{\rm{IC}}\left( { {v_j} } \right)} \right)$ 12. End For 13. For node $ {v_j} $ in $\varGamma (i)$ do 14. ${\rm{TSM}}\left( { {v_i} } \right) = {\rm{sum}}\left( {{\rm{Cnc}}\left( { {v_j} } \right)} \right)$ 15. End For |
表1计算步骤
Table1.Step of the calculation.
表2列出了几种不同方法的时间复杂度, 并按照评估方法所包含的网络信息将这些方法分成了局部、全局、混合等3个类型. 其中,




Method | Category | Time complexity |
$ {\text{DC}} $ | Local | $ O(n) $ |
$ {\text{BC}} $ | Global | $ O({n^3}) $or$ O(nm) $ |
$ {\text{MDD}} $ | Global | $ O(n) $ |
${\text{N-Burt} }$ | Local | $ O({n^2}) $ |
$ {\text{Cnc + }} $ | Hybrid | $ O(n) $ |
$ {\text{AAD}} $ | Hybrid | $ O({n^3}) $ or $ O(nm) $ |
$ {\text{IKS}} $ | Hybrid | $ O(n) $ |
$ {\text{TSM}} $ | Hybrid | $ O({n^2}) $ |
表2不同方法的时间复杂度
Table2.Time complexity of different methods.
4.1.实验数据
本文选用了8个来自不同领域的真实网络进行实验, 分别是: 空手道俱乐部社交网络Karate network[25]、海豚社交网络Dolphins network[26]、美国政治书籍网络Polbooks network[27]、爵士音乐家网络Jazzmusic network[28]、美国航空运输网络USAirline network[29]、秀丽隐杆线虫网络C.Elegans network[30]、大学电子邮件网络Email network[31]、美国电力网络PowerGrid network[1]. 各网络的统计特征如表3所列. 其中






Network | $ n $ | $ m $ | $\langle k \rangle$ | $ c $ | $\langle d \rangle$ | ${\beta _{\rm th} }$ | $\beta $ |
Karate | 34 | 78 | 4.5880 | 0.5706 | 2.4082 | 0.1287 | 0.25 |
Dolphins | 62 | 159 | 5.1290 | 0.2590 | 3.3570 | 0.1470 | 0.15 |
Polbooks | 105 | 441 | 8.4000 | 0.4880 | 3.0788 | 0.0838 | 0.10 |
Jazz | 198 | 2742 | 27.6970 | 0.6175 | 2.2350 | 0.0259 | 0.04 |
USAir | 332 | 2126 | 12.8072 | 0.7494 | 2.7381 | 0.0225 | 0.03 |
C.Elegans | 453 | 2025 | 8.9404 | 0.6465 | 2.4553 | 0.0249 | 0.03 |
1133 | 5451 | 9.6222 | 0.2540 | 3.6060 | 0.0535 | 0.05 | |
PowerGrid | 4941 | 6594 | 2.6691 | 0.0801 | 18.9892 | 0.2583 | 0.25 |
表3网络的统计特征
Table3.Statistical characteristics of the networks.
2
4.2.有效性分析
为了验证本文提出的TSM算法的有效性和准确性, 首先以Karate网络为例进行仿真分析, 其拓扑图如图1所示. 选用了DC[7]、 BC[8]、 MDD[11]、邻域结构洞方法[16] (N-Burt)、核心邻域中心性[12] (Cnc+)、AAD [13]以及IKS[21]等7种方法与本文提出的TSM方法进行对比, 得到网络前15个关键节点的重要性评估结果如表4所列.
Figure1. Topological structure of the Karate network.
排名 | 节点 | DC | 节点 | BC | 节点 | MDD | 节点 | N-Burt | 节点 | Cnc+ | 节点 | AAD | 节点 | IKS | 节点 | TSM | ||
1 | ${v_{34}}$ | 17 | ${v_1}$ | 0.4119 | ${v_{34}}$ | 11.9 | ${v_{34}}$ | 0.1682 | ${v_{34}}$ | 1156 | ${v_{34}}$ | 17.4666 | ${v_1}$ | 1.5215 | ${v_{34}}$ | 89.8687 | ||
2 | ${v_1}$ | 16 | ${v_{34}}$ | 0.2862 | ${v_1}$ | 11.2 | ${v_1}$ | 0.1731 | ${v_1}$ | 1024 | ${v_1}$ | 16.4976 | ${v_{34}}$ | 1.4782 | ${v_1}$ | 81.8535 | ||
3 | ${v_{33}}$ | 12 | ${v_{33}}$ | 0.1367 | ${v_{33}}$ | 8.7 | ${v_3}$ | 0.2257 | ${v_{33}}$ | 576 | ${v_{33}}$ | 12.6498 | ${v_3}$ | 1.2610 | ${v_{33}}$ | 72.0759 | ||
4 | ${v_3}$ | 10 | ${v_3}$ | 0.1352 | ${v_3}$ | 7.6 | ${v_{33}}$ | 0.2746 | ${v_3}$ | 400 | ${v_3}$ | 10.7712 | ${v_{33}}$ | 1.2307 | ${v_3}$ | 70.7235 | ||
5 | ${v_2}$ | 9 | ${v_{32}}$ | 0.1301 | ${v_2}$ | 6.9 | ${v_{32}}$ | 0.2793 | ${v_2}$ | 324 | ${v_2}$ | 9.8490 | ${v_2}$ | 1.0208 | ${v_2}$ | 59.4435 | ||
6 | ${v_4}$ | 6 | ${v_9}$ | 0.0526 | ${v_4}$ | 5.1 | ${v_9}$ | 0.3266 | ${v_4}$ | 144 | ${v_4}$ | 7.2111 | ${v_9}$ | 0.9425 | ${v_9}$ | 47.6431 | ||
7 | ${v_{32}}$ | 6 | ${v_2}$ | 0.0508 | ${v_{32}}$ | 5.1 | ${v_2}$ | 0.3357 | ${v_{32}}$ | 108 | ${v_{32}}$ | 6.7095 | ${v_{14}}$ | 0.9411 | ${v_{14}}$ | 46.9374 | ||
8 | ${v_9}$ | 5 | ${v_{14}}$ | 0.0432 | ${v_{14}}$ | 5 | ${v_{14}}$ | 0.3541 | ${v_9}$ | 100 | ${v_9}$ | 6.4033 | ${v_{32}}$ | 0.9004 | ${v_4}$ | 45.5295 | ||
9 | ${v_{14}}$ | 5 | ${v_{20}}$ | 0.0306 | ${v_9}$ | 4.7 | ${v_{28}}$ | 0.3674 | ${v_{14}}$ | 100 | ${v_{14}}$ | 6.4033 | ${v_4}$ | 0.8343 | ${v_{32}}$ | 41.3938 | ||
10 | ${v_{24}}$ | 5 | ${v_6}$ | 0.0282 | ${v_{24}}$ | 4.1 | ${v_{31}}$ | 0.3810 | ${v_{24}}$ | 75 | ${v_{24}}$ | 5.8310 | ${v_{31}}$ | 0.7137 | ${v_{31}}$ | 37.1209 | ||
11 | ${v_6}$ | 4 | ${v_7}$ | 0.0282 | ${v_8}$ | 4 | ${v_{20}}$ | 0.3935 | ${v_8}$ | 64 | ${v_{31}}$ | 5.6569 | ${v_{24}}$ | 0.7027 | ${v_8}$ | 35.7453 | ||
12 | ${v_7}$ | 4 | ${v_{28}}$ | 0.0210 | ${v_{31}}$ | 4 | ${v_{29}}$ | 0.4115 | ${v_{31}}$ | 64 | ${v_8}$ | 5.6569 | ${v_8}$ | 0.6996 | ${v_{24}}$ | 33.3428 | ||
13 | ${v_8}$ | 4 | ${v_{24}}$ | 0.0166 | ${v_{28}}$ | 3.7 | ${v_{24}}$ | 0.4348 | ${v_6}$ | 48 | ${v_6}$ | 5.0001 | ${v_{20}}$ | 0.6397 | ${v_{28}}$ | 29.9028 | ||
14 | ${v_{28}}$ | 4 | ${v_{31}}$ | 0.0136 | ${v_{30}}$ | 3.7 | ${v_4}$ | 0.4684 | ${v_7}$ | 48 | ${v_7}$ | 5.0001 | ${v_{30}}$ | 0.6050 | ${v_{20}}$ | 29.6927 | ||
15 | ${v_{30}}$ | 4 | ${v_4}$ | 0.0112 | ${v_6}$ | 3.4 | ${v_{26}}$ | 0.4845 | ${v_{28}}$ | 48 | ${v_{28}}$ | 5.0000 | ${v_{28}}$ | 0.6039 | ${v_{30}}$ | 29.1552 |
表4Karate网络的节点重要度评估结果
Table4.Node importance evaluation results in the Karate network.
通过结合Karate网络拓扑结构(图1)与重要性评估结果(表4)分析可知: 节点







































本文所提出的TSM方法克服了以上方法的不足, 它从节点的局部和全局拓扑信息两个角度出发, 综合考虑节点自身的结构洞特征和网络位置信息以及邻域节点的影响, 并基于Tsallis熵度量网络结构的复杂性, 可提高节点重要性的区分度, 准确地评估节点重要性. 如表4所列, 通过TSM方法评估出的前15个重要节点与其他方法评估出的重要节点基本相同, 说明TSM方法能够有效地评估节点的重要性. 在TSM方法中, 节点














2
4.3.评价标准
接下来介绍验证所提出的TSM方法准确性的评价标准. 它们分别是单调性指标[12]、SIR模型[32]和Kendall相关系数[33].本文采用单调性指标[12]










目前, 大多数****采用标准的SIR模型[32]来检测信息和病毒的传播能力. 在SIR模型中, 网络中的每个节点可以处于以下3种状态中的1种: 易感状态S (susceptible)、感染状态I (infected)以及恢复状态R (removed). 在传播初始阶段, 网络中只有节点




















为了评估节点重要性评估方法的精准度, 本文使用Kendall相关系数[33]













































2
4.4.实验分析
本节记录并分析了不同节点重要性评估方法在不同真实网络中的实验结果.Network | $ M{\text{(DC)}} $ | M (BC) | M (MDD) | $M{\text{(N-Burt)} }$ | $ M{\text{(Cnc + )}} $ | M (ADD) | $ M{\text{(IKS)}} $ | $ M{\text{(TSM)}} $ |
Karate | 0.7079 | 0.7723 | 0.7536 | 0.9542 | 0.9472 | 0.8395 | 0.9612 | 0.9542 |
Dolphins | 0.8312 | 0.9623 | 0.9041 | 0.9623 | 0.9895 | 0.9623 | 0.9905 | 0.9979 |
Polbooks | 0.8252 | 0.9974 | 0.9077 | 1 | 0.9971 | 0.9996 | 1 | 1 |
Jazz | 0.9659 | 0.9885 | 0.9883 | 0.9983 | 0.9993 | 0.9981 | 0.9994 | 0.9994 |
USAir | 0.8586 | 0.6970 | 0.8871 | 0.9453 | 0.9945 | 0.9068 | 0.9943 | 0.9951 |
C.Elegans | 0.7922 | 0.8740 | 0.8748 | 0.9983 | 0.9980 | 0.9381 | 0.9974 | 0.9990 |
0.8874 | 0.9400 | 0.9229 | 0.9650 | 0.9991 | 0.9629 | 0.9995 | 0.9999 | |
PowerGrid | 0.5927 | 0.8313 | 0.6928 | 0.8770 | 0.9568 | 0.8748 | 0.9667 | 0.9999 |
表5不同评估方法的单调性指标M
Table5.Monotonicity index M of different evaluation methods.


Figure3. Kendall correlation coefficient between SIR and the evaluation methods under different transmission rates, the black dashed line in the figure is the propagation threshold

首先选用了DC, BC, MDD, N-Burt, Cnc+, AAD以及IKS等7种评估方法作为对比方法, 利用单调性指标[12]M考察了7种对比方法与本文所提出的TSM方法的分辨率, 即对节点重要性的区分度. 表5记录了不同评估方法在8个真实网络中的分辨率, 并在图2中更为直观地呈现了它们之间的差异. 从图2可以看出, TSM方法在8个真实网络中表现十分出色. 此外, Cnc+和IKS方法的区分度也很好. 与其他7种方法相比, TSM方法大多数情况下可以给出更高M值, 而且在所有网络中M (TSM)都非常接近甚至等于1. 因此, TSM方法能够更好地区分节点的重要性.

Figure2. Monotonicity index M of different evaluation methods: (a) Karate network, Dolphins network, Polbooks network and Jazz network; (b) USAir network, C.Elegans network, Email network and PowerGrid network.
其次, 使用SIR模型得到节点的传播能力排序






Network | $\tau ({\text{DC, }}\sigma {\text{)}}$ | $\tau ({\text{BC, }}\sigma {\text{)}}$ | $\tau ({\text{MDD, }}\sigma {\text{)}}$ | $\tau ({\text{N-Burt, } }\sigma {\text{)} }$ | $\tau ({\text{Cnc + , }}\sigma {\text{)}}$ | $\tau ({\text{AAD, }}\sigma {\text{)}}$ | $\tau ({\text{IKS, }}\sigma {\text{)}}$ | $\tau ({\text{TSM, }}\sigma {\text{)}}$ |
Karate | 0.6435 | 0.5651 | 0.6756 | 0.7683 | 0.9258 | 0.6591 | 0.8445 | 0.9637 |
Dolphins | 0.7768 | 0.5643 | 0.8181 | 0.7282 | 0.8611 | 0.7532 | 0.8526 | 0.9492 |
Polbooks | 0.7528 | 0.3579 | 0.8029 | 0.7037 | 0.9098 | 0.7691 | 0.9165 | 0.9436 |
Jazz | 0.8185 | 0.4628 | 0.8503 | 0.8216 | 0.9132 | 0.8235 | 0.8804 | 0.9363 |
USAir | 0.6982 | 0.4744 | 0.7175 | 0.7929 | 0.9047 | 0.6995 | 0.9055 | 0.9461 |
C.Elegans | 0.6376 | 0.4711 | 0.6521 | 0.6251 | 0.8127 | 0.659 | 0.8217 | 0.8570 |
0.7911 | 0.6467 | 0.8015 | 0.7735 | 0.8980 | 0.7797 | 0.8758 | 0.9250 | |
PowerGrid | 0.5469 | 0.4167 | 0.5786 | 0.4298 | 0.7341 | 0.5563 | 0.7399 | 0.8207 |
表6选定传播率下SIR和各评估方法之间的Kendall相关系数
Table6.Kendall correlation coefficient between SIR and evaluation methods under a certain transmission rate.
为了进一步验证所提方法的准确性和可靠性, 对比了不同传播率下各评估方法与SIR模型排序结果之间的Kendall相关系数, 如图3所示. 从图3可以看出, 当传播率








然后, 对Kendall相关系数的考察节点范围进行了调整, 将考察的节点从整体节点变为部分节点, 进一步研究了各个评估方法得到的不同比例排序靠前的节点与节点传播能力排序的相关性结果. 在8个真实网络中进行实验, 设置节点比例L的变化范围为0.05—1. 如图4所示, 给出不同比例节点下各评估方法的相关系数值. 从图4可以看出, 本文提出的TSM算法在不同比例节点下都能取得不错的节点重要性评估结果, 且在更大范围的L值下可以取得更好的评估结果.

Figure4. Kendall correlation coefficient of the evaluation methods under different proportion nodes: (a) Karate network; (b) Dolphins network; (c) Polbooks network; (d) Jazz network; (e) USAir network; (f) C.Elegans network; (g) Email network; (h) PowerGrid network.
最后, 分析了TSM方法与其他评估方法之间的关系, 如图5所示. 图中每个点代表复杂网络中的1个节点, 点的颜色表示由SIR模型得到的节点传播能力, 横轴和纵轴分别为TSM方法和其他方法得到的网络中各节点重要性数值. 当图中的节点呈线性分布时, 说明TSM方法与该方法有强的相关性. 从图5中的节点分布情况可以发现, TSM与DC, MDD, N-Burt之间存在强的相关性, 这说明TSM方法既充分考虑了节点的DC和位置信息, 而且有能力识别到网络中的“桥接”节点. 此外, TSM与Cnc+, AAD, IKS之间节点分布呈较明显的线性关系, 这说明节点重要性排名总体相似, 亦证明TSM方法能有效评估节点重要性. 从图5还可以发现, 有一些节点尽管其BC数值大, 但其传播能力并不是很强, 因此仅靠BC评估节点的重要性并不准确. 所以在评估网络中节点的重要性上, TSM方法较其他方法更有优势.

Figure5. Relationship between TSM and other evaluation methods (a) Karate network, β = 0.25; (b) Dolphins network, β = 0.15; (c) Polbooksnetwork, β = 0.1; (d) Jazz network, β = 0.04.
