全文HTML
--> --> -->采用复杂网络的方法预测节点影响力一般是基于网络拓扑结构[13]. 基本思路是如果目标节点在网络中的拓扑特征非常显著, 我们就认为该节点在网络中具有重要作用或影响力, 从而用来预测节点实际的影响力, 如传播影响力、社会影响力、区域经济影响力. 例如最简单的网络拓扑结构方法—-度(Degree)[14]即计算节点在网络中邻居个数. 在一个社交网络中, 有大量的邻居数目的用户(即该节点的度拓扑特征非常显著)可能有较大的社会影响力; 又如在引文网络中, 利用文章的引用次数来评价科学论文的影响力; 再如在国际贸易网络中, 通过出口国家数目度量国家的贸易影响力. 经典的网络拓扑结构方法除度外, 还有度量网络中的节点对其他节点施加影响的能力的紧密度指标(Closeness)[15], 衡量个体社会地位的介数指标(Betweenness)[16], 将单个节点的影响力看成是所有其他节点影响力的线性组合的特征向量指标(Eigenvector)[17], 以及通过节点在网络中的位置来挖掘节点影响力的K- 壳(K-shell)分解方法[18]. 不过研究者们并不满足于仅使用这些经典的指标. 例如直接改进度[19,20]、紧密度及介数[21,22]等经典指标, 设法降低特征向量的计算复杂度[23], 优化K-壳分解方法[24-26]. ?Lü等[27]提出H-index指标可以刻画节点度到K-壳的变化, 并依据H-index选择高影响力节点, 以及探索K-壳扩展的度量指标[28-30]. 这些都是为了使复杂网络中节点影响力预测和识别更有效. 另外还有一类基于随机游走的节点影响力排序方法如PageRank[31,32], LeaderRank[33]和HITS算法[34].
然而上述的这类方法多是从某一角度对网络的某一方面的结构特征进行刻画, 如果目标网络的结构在该方面表现显著, 即可得到较好的效果[35]. 那么这些指标在不同拓扑结构的网络的准确性又是怎样呢? Da Silva等[36]通过随机网络、小世界网络和随机集合网络等网络理论模型以及美国航空网络的传播仿真实验, 采用皮尔逊系数, 讨论了节点的拓扑性质如度、可达性、节点强度、介数、K-壳指标与该节点传播影响力相关程度. 另外由于网络结构的异质性, 大量的节点的拓扑特征是不显著的, 这些指标在不同拓扑结构特征不显著的节点的影响力预测准确性又是怎样呢? 任卓明等[37]对复杂网络中最小K-壳节点的传播影响力进行了分析, 发现真实网络中存在大量的K-壳值非常小的节点, 而传统的K-壳分解方法无法对这部分节点的传播影响力进行度量.
近5年来已有多篇综述文献对现有的复杂网络中节点影响力研究进行了系统的回顾, 总结了最新研究进展. 如刘建国等[38]从网络结构和传播动力学的角度总结了节点影响力排序方法的最新研究进展, 并对各种方法的优缺点以及适用环境进行了分析. 任晓龙和吕琳媛[39]系统地介绍了复杂网络领域具有代表性的30余种重要节点挖掘方法, 并详细比较各种方法的计算思路、应用场景和优缺点. Pei和Makse[40]总结了识别和预测复杂网络中传播影响力的方法, 给出了在不同场景下有效识别和预测传播影响力的策略. Lü等[3]在物理科学和复杂交叉科学的综述期刊之一Physics Reports上撰文深度总结了复杂网络中节点影响力近年来的研究现状及并讨论了发展动态. 目前这几篇综述的被引用次数都已经超过百次, 表明节点影响力依然是复杂网络的一个热点研究领域.
在这几篇综述的总结和展望中都提到一个问题: 节点影响力的识别和预测局限于特定网络拓扑结构, 一旦该方法在对应拓扑结构上不显著, 那么该方法的识别和预测的准确性就令人存疑, 并且在实际应用场景中, 几乎所有的复杂网络, 比如社会、生物、信息、技术、交通运输都在不停地演化中, 网络的规模和结构也的确是在不断变化的[41]. 当网络规模小, 结构单一时, 我们可选择的节点影响力方法也多, 但是随着时间推移, 网络规模变得足够大, 网络结构变得更加复杂, 那么之前介绍的节点影响力算法就面临巨大的挑战和局限. 如图1所示, 我们给出一个动态复杂网络示例图, 在




Figure1. An example of the dynamic network
网络在演化过程中, 网络规模可能进一步增大, 结构随时发生改变, 网络结构中某种特性有可能是大体保持不变, 也有可能发生剧烈变化. 于是在本文中, 我们根据网络结构演化的特点, 分别详细讨论三类动态网络的节点影响力的研究进展. 第一类是增长网络, 节点影响力算法复杂性和时间偏见的问题. 因为涉及网络全局结构特征的算法, 虽计算复杂但预测准确性高, 为减少算法复杂性和针对不同网络规模, 我们介绍将网络全局结构特征的算法改进成局部到全局的渐进式算法; 另外在增长网络中, 我们讨论新旧节点的网络拓扑特征带有时间偏见的问题, 特别是基于引文网络和合作网络等, 评价和预测科学家和科技论文影响力尤为明显. 第二类是网络结构实时动态演化时, 节点影响力算法适应性问题. 在社交网络领域, 网络结构是实时动态变化的, 介绍了如何通过分析和预测网络结构特征的动态演化规律, 建立有针对性节点影响力的算法; 并讨论了网络结构演变过程中, 节点影响力的预测能力变化的问题. 第三类是网络随时间演化, 结构微扰或突变时, 节点影响力算法鲁棒性问题. 总结了在网络结构受到微扰或者突变时, 目前一系列关于经典的算法和设计高效的算法预测网络中超级稳定的节点和超级敏感的节点的工作; 并介绍了通过分析结构微扰或突变对网络拓扑特征的影响定量刻画国家经济复杂性的研究工作. 最后介绍了在动态网络中关于节点的动力学演化与网络结构特征的关系的研究工作.
2.1.增长网络
增长网络最显著的特征是网络规模不断地变大, 最常见的例子比如因特网、合作网络、引文网络. 网络增长导致算法的复杂性和成本提高, 因此有必要设计针对不同算法复杂性和不同网络规模, 利用节点局部到全局信息的渐进式的算法. 像紧密度、介数还有基于矩阵特征向量等网络结构全局信息的方法计算复杂性太高导致难以在大规模网络中应用[42], 而像度等这样局部特征的算法虽然算法复杂性低但预测的准确性低. 那么如何在网络规模增长到上千万甚至过亿节点的情况下快速而准确地预测节点影响力, Ercse-Ravasz等[43,44]提出了如图2所示的局部介数方法, 该方法可以只计算节点的局部信息就可以预测节点的介数. Lü等[45]也通过节点的局部特征近似计算katz指标用于复杂网络链路预测.
Figure2. The diagram of local to global progressive algorithm: (a) Global algorithm; (b) The local to global progressive algorithm.
另外在增长网络中, 因为节点加入网络的先后不同, 节点影响力方法具有时间偏见, 即对旧节点更有优势. 特别是基于引文网络和合作网络等评价和预测科学家和科技论文影响力尤为明显, Mariani等[46,47]和Wasserman等[48]发现了PageRank算法[31,32]在增长网络模型中存在缺陷, 即原始的PageRank算法过于偏向于旧节点, 网络中具有潜力的新节点往往会被PageRank算法压制, 进而提出了一个重标(Rescaled)的含时PageRank算法. 该算法将每个节点与其相邻时间的节点相比较, 消除了时间偏向, 弥补了PageRank算法的不足. 在该算法中, 不同时代的节点不会因为加入网络的早晚受到影响, 而且该算法相比于传统算法, 能够及早甄别出极具潜力的重要节点. 目前常见的度量影响力的算法有Citations和PageRank, 还有诸如Long Gap[49,50], CiteRank[51], Rescaled Citations和Rescaled PageRank[47]等算法基于修正节点加入网络的时间的影响. Ren等 [52,53]利用美国电影引用数据和科学家引文数据, 分析了这6种节点影响力算法, 比较了这些算法的优劣. 虽然这些指标将每个节点与其相邻时间的节点相比较, 消除了对老的节点的时间偏向, 弥补了传统算法的不足, 仍有两个问题待解决: 1)如何修改这个方法以便在不同学科方向的论文都能够广泛适用? (不同学科的论文引用模式差别非常大, 例如在生物方面的论文引用要远远高出别的学科方向); 2)如何利用这个方法来衡量科研人员的表现, 也能更好地识别出具有潜力的科研工作者?
2
2.2.实时动态网络
在实时动态网络中, 节点影响力算法的适应性问题. 现实世界的网络的统计分析表明, 大量网络的集聚性[54]、度-度相关性[55,56]、度分布[57]等基本网络结构拓扑特征是随时间演化的, 诸如社交网络之类网络结构几乎是实时动态变化的, 图3给出一个实时动态网络示例图.
Figure3. An example of the time-variant dynamic network: (a) A network with a period of time; (b) the time-variant dynamic network.
在社交网络中, 大量的研究表明网络集聚性会影响网络的传播、同步、控制等功能[58]. Klemm等[59]研究表明集群动力学中节点的影响力是由网络拓扑结构和集群动力学机制共同决定的. Aral和Walker[60]研究网络上的用户传播行为时, 发现有影响力的节点更具有集聚性. Centola[61]发现传播行为在高集聚类网络中传播更快. Bond等[62]以2010年美国大选为实例研究时发现Facebook用户的影响力与网络结构和传播机制两者都相关. 宋玉萍和倪静[63]通过构建可变集聚系数的无标度网络模拟现实中的实时动态网络的结构演化, 以及通过采用经典传播模型进行传播影响力的仿真实验, 系统分析了在不同集聚系数的无标度网络中预测节点影响力算法的准确性. 结果发现度和介数的准确性在低集聚系数的网络中表现更好, 特征向量则在高集聚网络中更准确, 而紧密度的准确性受网络集聚系数的变化影响较小. 因此当网络的集聚系数较低时, 可选择度或者介数进行网络节点影响力评价; 反之则需要选择紧密度指标或特征向量指标. 另一方面, 传播过程的感染率越高, 度指标和介数指标越可靠, 紧密度和特征向量则相反. 另外Ma等[64]和邵凤等[65]也进行其他网络特征属性的研究, 结果如图4所示. 4种经典节点影响力算法 (度、紧密度、介数、特征向量中心性) 在可变度-度相关性的无标度网络中的准确性也是不同的. 另外也可以通过将实时动态网络变成高阶网络[66,67], 这时原来网络的结构就发生改变. 如Xu等[68]和Tao等[69]将全球航运网络转换为高阶网络, 分析Pagerank的排序变化情况.

Figure4. The accuracy analysis of four centrality (degree, closeness, betweenness, eigenvector) methods on the scale-free network model with tunable assortative coefficient r and different infectious rate β.
2
2.3.结构微扰或突变的动态网络
在生态网络中, 网络结构经过自然演化基本形成了稳定的结构, 但是经常可能遭遇一些自然因素, 比如极端天气、自然灾害或人为因素的干扰, 这样就会对原本稳定的网络结构造成了扰动. 还有就是交通网络, 节点代表站点, 边代表客流量, 我们知道在一般的工作日中, 由站点和客流量构成网络结构基本是固定的, 但是在周末或者节假日等会导致某些站点变得异常重要, 特别是在遭遇局部的极端天气时会导致某些站点重要性失效或者其周边可替代的节点就变得异常重要. 与交通网络类似, 还有日常生活中的电网, 由于某些节点突发原因导致级联失效. 另外在国际贸易网络中也有类似的现象, 例如遭遇局部战争、局部地区动荡或者突发的金融经济危机等, 造成网络结构发生微小扰动或者重大改变.对于这类问题, 抽象成复杂网络问题就是网络结构在演化过程中保持某种状态, 但是随时会遇到网络中部分节点和边的状态发生变化即结构微扰或突变. 那么在这种复杂动态网络中, 如何预测节点影响力? 这就涉及到节点影响力方法的鲁棒性问题. 美国东北大学的Ghoshal和Barabasi[70]研究了对随机网络和无标度网络结构微扰时, 通过PageRank算法的计算所得的节点影响力排序的稳定性. 结果表明PageRank面对经过微扰过的随机网络进行节点影响力排序表现很敏感, 而对经过微扰过的无标度网络的节点排序时表现很好的鲁棒性, 特别地还存在排序超级稳定(super-stable)的节点. Lü等[71]也将结构微扰理论用于预测复杂网络连边.
最近出现一个热门领域, 即经济复杂性-基于数据驱动预测经济发展潜力[11,12]. 其基本想法是通过国家进出口贸易数据构建一个国家-产品的二部分网络(网络中边代表国家或地区有能力生产和出口某种产品), 通过对这个二部分网络的结构特征分析, 定量刻画国家的经济复杂性. 研究结果发现未来经济的发展状况, 至少在短期内, 主要由国家产业结构复杂性所决定的. 如果想要实现持续的经济增长和繁荣, 就应该把力气花在满足自身经济复杂性涌现的条件上, 而这就取决于二部分网络的结构特征. 目前该研究主题方兴未艾, 国内外主要有意大利罗马大学Pietronero小组[72-74]、美国麻省理工学院的Hidalgo小组[75-77]、瑞士弗里堡大学Zhang小组[78,79]、电子科技大学周涛小组[11,80,81]等在这方面做了一系列的研究工作. 一般国家竞争力或影响力与其进出口的产品组合(即国际贸易网络的嵌套结构(nested structure))紧密相连. 嵌套结构的定义原本来自生态学中, 简单讲就是岛屿生物系统中, 在小岛屿中出现的物种多数也出现在物种相对丰富的大岛屿中, 这一非随机分布格局被命名为嵌套结构[5]. 图5 给出了三个网络嵌套性分别为0, 0.5, 1的进出口网络的示意图. 这里选取经典网络的嵌套性算法NODF[82]如下. 首先对邻接矩阵的列和行按照度降序排列, 然后按照(1)式和(2)式计算网络的嵌套性.

Figure5. The nestedness of the adjacency matrix: (a) The nestedness of the adjacency matrix is 0; (b)the nestedness of the adjacency matrix is 0.5; (c)the nestedness of the adjacency matrix is 1.

嵌套结构也常用来刻画非生态系统, 例如全球或地方的经济贸易格局的演变[83]. 图6给出了牛肉、摩托车、医疗器械三类不同商品的国际贸易网络的可视化邻接矩阵, 对应三个显著不同的嵌套特性, 图中的曲线为国际贸易中786类商品的嵌套性分布图. 随着科技进步和贸易日趋紧密, 这种贸易网络中对应的嵌套特性演化规律和机制, 以及与国家经济复杂性和影响力的映射关系. Bustos等[84]研究发现在网络在演化过程中, 嵌套拓扑结构特性保持稳定, 但是网络中会有部分连边消失或新出现一些连边. 这一发现可以用来描述和预测国家某些新产业的出现或消失的模式, 从而找到经济发展的新动力, 为国家或地区经济的发展做出前瞻指导.

Figure6. Distribution of the nestedness in the international trade networks with 786 kinds of goods. (subgraphs) The matrices are representations of the different layer of world trade networks which respectively corresponds to the network of Bovine, Motorcycles, and Medical Instruments.




另外也可以从从微观角度出发, 描述节点生命周期内其拓扑和动力学特征的普遍演化规律, 并给出其表达方式, 建立模型刻画节点拓扑和动力学结构特征的演化机制. 节点的拓扑和动力学特征演化特征如(4)式[88,89]所示.












