删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

一种基于分支过程的信息流行度动力学模型

本站小编 Free考研考试/2021-12-29

摘要:Web 2.0时代, 建模和预测在线信息流行度是信息传播中的重要问题. 本文基于社交网络系统信息传播的机制, 通过假设和简化, 提出了分支过程的概率模型, 来描述在线社交网络信息的流行度动力学过程. 对典型在线社交网络系统的信息流行度数据和网络结构数据进行了分析, 统计结果表明信息流行度衰减遵循幂律分布(幂指数为1.8), 微博网络的入度和出度分布也均服从幂律分布(幂指数为1.5). 模型仿真结果发现, 该模型能够再现真实社交网络数据的若干特征, 且信息流行度与网络结构相关. 对模型方程进行求解得到理论预测的结果与仿真分析和实际数据结果相符合.
关键词: 统计物理/
分支过程/
复杂网络/
信息流行度

English Abstract


--> --> -->
社交媒体上的信息流行度演化与预测给复杂系统的研究者提出了诸多挑战, 如识别“病毒式”传播的原因、网络结构特征以及通过信息的内容和早期的关注预测未来的流行度. 虽然在线信息流行度的建模与预测已经取得了一定的研究进展[1-4], 然而这个方向的研究大多由于可用的大规模数据缺少而受到阻碍. 近年来, 从在线社交网络获得的大规模社交数据为探索人类行为特征及其对在线内容流行的影响创造了前所未有的机会.
建模和预测信息流行度的困难在于各种混杂因素的共存[5-9]. 同时, 它给研究人员带来了许多挑战, 包括原因的识别[10-13], 时间效应[14] 和结构特征[15,16]. 一些****对这一问题提出了不同的看法. Cetin和Bingol[17]认为个人注意力对信息的流行有重要影响, 并且提出能见度的衰退和分散注意力的结合解释了为什么社交网络中的大多数信息级联不能成为流行. Weng等[18]采用agent-based模型来研究模因(memes)之间的竞争是否会影响其流行度, 结果表明模因的流行度存在异质性, 这种现象是由模因竞争用户有限的注意力和在线网络的结构共同导致的. Gleeson等[19]认为, 有限的用户注意力资源限制了消息的流行, 并且自然地导致一些消息变得非常流行, 其他消息只是中等流行, 或者被忽略. Yan等[20,21]通过微博信息数据从人类动力学方面研究微博信息传播及扩散.
针对上述问题, 本文对新浪微博的信息数据和网络结构数据进行了分析, 结果发现信息流行度衰减遵循标度律. 其次, 提出了基于分支过程的概率模型, 来描述微博信息流行度变化的过程. 第三, 对所提出的模型进行数值仿真和理论求解, 发现该模型能够再现真实社交网络数据的若干特征. 此外, 信息流行度分布的幂指数与微博网络的度分布幂指数相关, 微博系统中信息流行度受网络结构的影响.
在线社交网络用户之间相互关注形成有向网络(如Twitter、新浪微博等). 在新浪微博系统中, 每个用户具有“微博首页”和“个人页面”两个列表. 用户关注的好友如果发出信息, 这些信息按时间先后顺序都将显示在“微博首页”这个列表上. 当用户打开微博系统查看“微博首页”列表上的信息时, 就会对感兴趣的微博进行转发或评论. 转发的微博信息同时会显示在“个人页面”这个列表上. 本文定义$n\left( t \right)$表示微博信息的流行度, 即从信息被生成后$t$时间内获得转发和评论的总数. ${q_n}\left( t \right)$表示在时间$t$信息获得流动度$n\left( t \right)$的概率.
由于“微博首页”存储列表的顶部是最新收到的信息, 之前收到的信息会逐渐淹没在列表的底部. 根据用户注意力有限的假设, 每次用户从“微博首页”列表顶部开始查看信息, 并且查看的信息是有限的. 这就会导致一些被淹没在列表底部的信息不被用户评论或转发. 不失一般性, 此处假设“微博首页”和“个人首页”存储信息的能力为1, 即都只能保存一条信息, 新的信息到来时将覆盖掉原来保存在列表上的信息.
图1描述的是微博系统中信息传播的过程. 对于每个用户在当前时刻有两个动作(或状态): 1)以概率${\mu}$生成一条新的信息发出去; 2)以概率$(1 - {\mu} )$转发“微博列表”上已有的信息. 如用户1在${t_1}$时刻以概率${\mu} $生成了一条信息(用圆圈表示), 同时发给其粉丝用户2和3; 在${t_2}$时刻用户2以概率$(1 - {\mu} )$转发这条信息给其粉丝用户4和5; 在${t_3}$时刻, 用户3又以概率${\mu} $生成一条新的信息(用方框表示), 并将该信息发给其粉丝用户6和7. 每当信息被传播一次, 信息的流行度加1.
图 1 流行度模型示意图
Figure1. Schematic of the model.

根据第2节的模型描述, 本节采用分支过程来刻画信息的流行度动力学过程, 微博系统中每条消息的传播都遵循一个分支过程.
首先, 引入$H\left( {t,x} \right)$作为流行度分布的概率生成函数, 则
$H\left( {t;x} \right) = xG\left( {t,x} \right)f\left( {G\left( {t,x} \right)} \right) = \sum\limits_{n = 1}^\infty {{q_n}\left( t \right)} {x^n},$
其中${q_n}\left( t \right)$表示的是在$t$时间, 信息具有流行度$n$的概率. 同时, 在时间$t =\varOmega $, 定义${G_{jk}}\left( {t,\varOmega ;x} \right)$作为信息$M$流行度分布的概率生成函数, 并且信息$M$是由节点${n_{jk}}$(节点$n$$j$个出度(关注)和$k$个入度(粉丝))生成的或第一个转发的.
根据网络的度分布概率${p_k}$, 可得到如下关系:
$G\left( {t,x} \right) = \sum\limits_k {{p_k}{G_{jk}}\left( {t,\varOmega ;x} \right)} ,$
在时间$t = \tau $, 随机选择一个节点(用户), 那么在下一个时间$t = \tau + \Delta t$, 该节点(用户)“微博首页”存在四种可能的结果, 如表1所列.
列表S概率${G_{jk}}\left( {t,\varOmega ;x} \right)$
(a)被新收到的信息所占据$k\Delta t$1
(b)创造了一条新的信息${\mu} \Delta t$1
(c)以概率$1 - {\mu} $转发信息$(1 - {\mu} )\Delta t$$x{G_{jk}}\left( {t - \Delta t,\varOmega ;x} \right){\left[ {G\left( {t - \Delta t,\varOmega ;x} \right)} \right]^k}$
(d)保持原样$1 - \left( {k + 1} \right)\Delta t$${G_{jk}}\left( {t - \Delta t,\varOmega ;x} \right)$


表1一个时间步节点(用户)“微博首页”的结果
Table1.Single time-step outcomes of user’s list.

表1中的四种结果相加, 得到${G_{jk}}\left( {t,\varOmega ;x} \right)$表达式如下:
$\begin{split}&{G_{jk}}\left( {t,\varOmega ;x} \right) = \\&\quad k\Delta t + {\mu} \Delta t + (1 - {\mu} )\Delta tx{G_{jk}}\left( {t - \Delta t,\varOmega ;x} \right)\\&\quad {\left[ {G\left( {t - \Delta t,\varOmega ;x} \right)} \right]^k} + 1 - \left( {k + 1} \right)\\&\quad \Delta t{G_{jk}}\left( {t - \Delta t,\varOmega ;x} \right),\end{split}$
$\lim \Delta t \to 0$ 得到${G_{jk}}\left( {t,\varOmega ;x} \right)$的一个常微分方程,该微分方程含有参数$x$:
$\frac{{\partial {G_{jk}}}}{{\partial t}} = k + {\mu} - \left( {k + 1} \right){G_{jk}} + (1 - {\mu})x{G_{jk}}{\left[ G \right]^k}.$
通过乘以网络度分布概率${p_k}$, 对节点${n_{jk}}$可能的入度进行平均, 得到关于$G\left( {t,\varOmega ;x} \right)$的方程:
$\frac{{\partial G}}{{\partial t}} = k + {\mu} - \left( {k + 1} \right)G + (1 - {\text{μ}} )x\sum\limits_k {{p_k}{G_{jk}}{{\left[ G \right]}^k}}, $
要从方程5中求解$G$需要知道在所有度$k$下的函数${G_{jk}}\left( {t,\varOmega ;x} \right)$, 但如果做如下的近似:
$\begin{split}&\sum\limits_k {{p_k}\left( {{G_{jk}}{{\left[ G \right]}^k}} \right)} \approx \left( {\sum\limits_k {{p_k}{G_{jk}}} } \right)\\&\left( {\sum\limits_k {{p_k}{{\left[ G \right]}^k}} } \right) = Gf\left( G \right), \end{split}$
则(5)式变为
$\frac{{\partial G}}{{\partial t}} = k + {\mu} - \left( {k + 1} \right)G + \left({1 - {\mu}}\right) xGf\left( G \right).$
将上面的推导一般化为每个用户的列表具有容量c, 即用户的“微博首页”和“个人页面”可同时保存c条微博信息:
$c\frac{{\partial G}}{{\partial t}} = k +{\mu} - \left( {k + 1} \right)G + \left( {1 - {\mu}}\right)xGf\left( G \right),$
$\begin{split}&m\left( t \right) = \sum\limits_{n = 1}^\infty {n{q_n}\left( t \right)} = \frac{{\partial H}}{{\partial x}}\left( {t,1} \right) = \\&\quad 1 + \left( {k + 1} \right)\frac{{\partial G}}{{\partial x}}\left( {t,1} \right),\end{split}$
可得到信息$M$在时间$t$的平均流行度$m\left( t \right)$的方程为
$c\frac{{{\rm{d}}m\left( t \right)}}{{{\rm{d}}t}} = \left( {k + 1} \right)\left( {1 - {\mu} m} \right).$
$m\left( 0 \right) = 1$, 得到平均流行度$m\left( t \right)$的解为
$m\left( t \right) = \left\{ {\begin{aligned}&{1 + \frac{{\left( {k + 1} \right)}}{c}t,\begin{array}{*{20}{c}}{}&{{\mu} = 0}\end{array}}\\&{\frac{1}{{\mu} } - \frac{{1 - {\mu} }}{{\mu} }{{\rm{e}}^{ - \frac{{{\mu} \left( {k + 1} \right)}}{c}t}},\begin{array}{*{20}{c}}{}&{{\mu} > 0}.\end{array}}\end{aligned}} \right.$
下面对流行度${q_n}\left( t \right)$进行分析, ${q_n}\left( t \right)$表示在时间$t$信息获得流动度$n\left( t \right)$的概率, 表达式可以通过(1)式在$t \to \infty $时近似求解:
$\mathop {\lim }\limits_{t \to \infty } H\left( {t;x} \right) = x{G_{jk}}\left( {\infty ,\varOmega ;x} \right)f\left( {{G_{jk}}\left( {\infty ,\varOmega ;x} \right)} \right),$
其中, ${G_{jk}}\left( {\infty,\varOmega ;x} \right)$= $\mathop {\lim }\limits_{t \to \infty } {G_{jk}}\left( {t,\varOmega ;x} \right)$. 如果
$H\left( {\infty ;x} \right) = x{G_{jk}}\left( {\infty,\varOmega ;x} \right)f({G_{jk}}\left( {\infty,\varOmega ;x} \right))$
为流行度概率${q_n}\left( t \right)$的生成函数, 且${G_{jk}}( \infty,\varOmega ;$$1 - w ) \sim 1 - \phi \left( w \right)\;{\rm as}\;{w \to 0} $, 其中$w = 1 - x$. 则$H\left( {\infty ;x} \right)$的近似形式为
$H\left( {\infty ;1 - w} \right) \sim 1 - w - \left( {k + 1} \right)\phi \left( w \right)\;{\rm as}\;{w \to 0} .$
因此, ${G_{jk}}\left( {\infty,\varOmega ;x} \right)$是方程10的解
$k + {\mu} - \left( {k + 1} \right){G_{jk}} + \left( {1 - {\mu} } \right)x{G_{jk}}f\left( {{G_{jk}}} \right) = 0.$
如果网络度分布服从幂律分布, 即${p_k} \sim D{k^{ - \gamma }}$$\gamma $满足$1 < \gamma < 3$, 在这种情况下, 可得到当$t \to \infty $
${q_n}\left( \infty \right) \sim \left\{ {\begin{aligned}&{B{n^{ - \frac{\gamma }{{\gamma - 1}}}}\begin{array}{*{20}{c}}{}&{{\mu} = 0}\end{array}}\\&{C{n^{ - \gamma }}\begin{array}{*{20}{c}}{}&{{\mu} > 0},\end{array}}\end{aligned}} \right. $
其中因子$B = - \left( {k + 1} \right)\displaystyle\frac{{{{\left( {D\Gamma (1 - \gamma )} \right)}^{ - \frac{1}{{\gamma - 1}}}}}}{{\Gamma \left( {\displaystyle\frac{1}{{1 - \gamma }}} \right)}}$$C =$$ \left( {k + 1} \right)\left( {\displaystyle\frac{{1 - {\mu} }}{{{\mu} \left( {k + 1} \right)}}} \right)$.
从(11)式可知, 当$t \to \infty $, 信息流行度分布${q_n}\left( t \right)$服从幂律分布, 且幂指数为$\displaystyle\frac{\gamma }{{\gamma - 1}}$$\left( {{\mu} = 0} \right)$$\gamma $$\left( {{\mu} > 0} \right)$, 幂指数等于或大于网络度分布的幂指数$\gamma $.
2
4.1.数据描述和处理
-->本文分析了两个数据集, 均通过新浪微博开放平台API收集(www.weibo.com), 新浪微博是目前中国最流行的微博平台之一. 第1个数据集是微博信息数据, 通过滚雪球采样的方法收集了某个话题在2009/8/20―2010/9/3之间发布的125139条微博, 以及这些微博被转发了2260826次和1822450条评论. 每条微博包括发出用户ID、微博ID、微博发布时间、微博内容、转发次数和评论次数. 此外还采集了微博的评论时间, 微博的转发时间虽无法获得, 但微博的转发流行度分布和评论流行度分布具有相同的分布特征(如图2所示), 均服从幂指数约为1.8的幂律分布. 因此, 评论流行度的变化可近似表示微博整体流行度的变化(评论流行度和转发流行度).
图 2 微博的流行度分布
Figure2. Distribution of micro-blogs popularity.

第2个数据是微博用户数据, 第2个数据集收集了参与话题讨论的41667个用户信息. 对每个用户, 采集了用户ID、用户关注数和关注关系、用户粉丝数. 从而获得微博网络用户度分布情况, 数据统计分析发现用户入度(粉丝)和出度(关注)分布均服从幂指数约为1.5的幂律分布(如图3所示), 但出度分布在2000附近具有一个截断, 这是由于新浪微博系统初期允许关注的上限是2000.
图 3 微博用户度分布
Figure3. Distribution of out-degree and in-degree.

2
4.2.数值模拟
-->为了验证分支过程近似的精确性, 并探讨网络结构与有限注意力的相互作用, 本文将模型的数值仿真结果与实际数据和理论预测结果进行比较. 首先生成具有指定度分布的有向网络, 网络的度分布服从幂律分布${p_k} \sim {k^{ - \gamma }}$, $\gamma = 1.5$. 模型参数设定为节点总数是$N = {10^5}$, 且
${\mu} = \frac{\text{数据集1中不重复的微博数}}{\text{数据集1中微博总数}} = \frac{{125139}}{{2260826}} \approx 0.055.$
${\mu} $值反映的是微博系统中原创微博信息的占比, 从本数据集中的${\mu} $值可知, 该话题下大部分微博是重复转发的, 原创微博的占比很小.
数值仿真的微博信息的平均流行度(蓝圆线), 与实际数据(黑钻石线)和方程6的理论预测(红方线)的比较如图4所示. 其中参数取值为微博生成概率${\mu} = 0.055$, 平均入度$k = 12.3$, 微博列表存储信息能力$c = 1$. 因新浪微博网络中不同时间窗口、不同主题话题下微博信息流行度存在差异, 本文实证数据计算结果与理论模拟存在偏差. 从图4可见, 在初始阶段, 平均流行度的实际数据与理论预测和仿真偏差较大, 随着时间$t$不断增加, 偏差先减小后增大, 最后实际平均流行度值和理论预测值均趋向于定值, 偏差稳定. 另外在数据处理与选择时, 单个微博信息流行度时间序列$\left\{ {n\left( t \right)} \right\}$数据点大于等于10时, 该微博信息才被纳入计算平均流行度的数据. 每个微博信息流行度的时间序列$\left\{ {n\left( t \right)} \right\}$数据点不相等, 也导致了平均流行度的计算结果和理论模拟的偏差.
图 4 微博信息平均流行度
Figure4. Mean popularity of Micro-blogs.

图5比较了微博信息流行度模型仿真结果、实际数据和理论预测的结果. 其中参数取为${p_k} \sim {k^{ - \gamma }}$, $\gamma = 1.5$,$N = {10^5}$, ${\mu} = 0.055$. 网络结构是新浪微博中41667个用户数据生成的网络. 在$n$较小时, 模型仿真结果与实际数据及理论预测结果一致, 当$n \to \infty $时, 实证数据与仿真结果和理论预测之间存在一定偏差, 但大致结果是符合的. 导致偏差的主要原因是, 基于分支过程的流行度模型是建立在假设微博网络是树形结构基础上的, 但实际上, 新浪微博41667用户生成的网络中34%的链接是互惠链接. 基于树形结构理论的精确结果应用于现实世界的网络中, 因此导致了一定的偏差.
图 5 微博信息流行度的互补累积概率分布(CCDF)
Figure5. Complementary cumulative distribution functions (CCDFs)—the fraction of micro-blogs with popularity$ \geqslant n$.

通过对微博信息评论转发数据和网络结构数据的统计分析可知, 在微博系统中存在高度的异质性, 如流行度小于100的微博信息占比达到95.8%, 而流动度超过1万的微博信息数量是非常少的. 粉丝数(入度)小于100的用户占比达56.4%, 而有的用户粉丝数高达百万. 通过仿真, 重现了复杂社会系统中的高度异质性, 大量的流行度(或关注)都被少量的信息(或用户)获得, 得到了流行度依赖时间的重尾分布特征. 本文所提出的框架构成了社会传播现象的零模型, 与纯粹的实证研究或基于模拟的模型相比, 它清楚地区分了影响信息流行度的两个不同因素的作用, 即用户的记忆时间和社交网络的连接结构.
在线社交媒体极大地影响了人们彼此沟通的方式. 近年来, 在线社交媒体信息流行度的预测和建模引起了众多****的关注. 例如, 预测和建模社交媒体上的新闻流行度[22]和量化论文流行度[23]. 本文引入并分析了一种信息传播的概率模型, 该模型具有分析易处理性, 可以再现实际数据的若干特征. 但是该模型也存在一定的局限性, 其中要求做出一些假设以获得分析结果. 在将来的研究中, 我们希望对模型进行一些可能的扩展.
相关话题/信息 网络 数据 概率 结构

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 相依网络的条件依赖群逾渗
    摘要:相依网络鲁棒性研究多集中于满足无反馈条件的一对一依赖,但现实网络节点往往依赖于多节点构成的依赖群,即使群内部分节点失效也不会导致依赖节点失效.针对此现象提出了一种相依网络的条件依赖群逾渗模型,该模型允许依赖群内节点失效比例不超过容忍度$\gamma$时,依赖节点仍可正常工作.通过理论分析给出了 ...
    本站小编 Free考研考试 2021-12-29
  • 低温辐射计热结构设计与分析
    摘要:低温辐射计利用低温超导下的电替代测量原理,将光辐射计量溯源到可以精确测量的电参数测量,是目前国际上光功率测量的最高基准.本文实验研究了低温辐射计的热路结构,系统分析了腔体组件与热链材料的热学特性对低温辐射计响应率和时间常数特性参数影响的机理.在此基础上,设计了由黑体腔、热链和支撑结构组成的热结 ...
    本站小编 Free考研考试 2021-12-29
  • 含磷酸胍基间作用的磷酸双乙酸胍晶体电子结构与光学性质研究
    摘要:基于磷酸胍基间作用在L-精氨酸磷酸盐晶体特异性与生物化学功能中的重要角色,已制备了含有磷酸胍基的新晶体磷酸双乙酸胍.本文采用第一性原理计算了磷酸双乙酸胍晶体的电子结构与三个晶向上的光学性质,探讨了其中基团间作用与光学性质的关联.结果表明,磷酸双乙酸胍晶体能隙为4.77eV,远小于磷酸二氢钾晶体 ...
    本站小编 Free考研考试 2021-12-29
  • 金属-光折变材料复合全息结构对表面等离激元的波前调控
    摘要:表面等离激元(surfaceplasmonpolaritons,SPPs)控制具有重要意义.表面电磁波全息法是在金属表面设计能有效控制SPP传输的凹槽阵列结构.本文提出一种新的SPP传输的控制方法,利用金属-光折变材料复合全息结构控制SPP传播.在金属表面覆盖一层光折变材料,两束SPP波在光折 ...
    本站小编 Free考研考试 2021-12-29
  • 同心椭圆柱-纳米管结构的双重Fano共振研究
    摘要:提出了一种同心椭圆柱-纳米管复合结构,该结构由金纳米管中内嵌椭圆形金柱构成,利用时域有限差分法分析了尺寸参数、周围环境及纳米管内核材料对该结构光学性质的影响.结果表明,调节椭圆柱芯的旋转角度可产生双重偶极-偶极Fano共振,其主要是由椭圆柱芯的纵向或横向偶极共振模式与纳米管的偶极成键和反成键模 ...
    本站小编 Free考研考试 2021-12-29
  • B2-和B19'-NiTi表面原子弛豫、表面能、电子结构及性能的理论研究
    摘要:采用基于密度泛函理论的第一性原理系统研究了B2-和B19'-NiTi合金所有低指数表面的表面能、表面结构稳定性、表面电子结构等性质.计算结果表明两种NiTi合金所有低指数表面的原子弛豫主要集中在表面2—3个原子层,且以Ti原子为终止原子表面构型的原子振荡最为剧烈,Ni和Ti原子共同终止表面构型 ...
    本站小编 Free考研考试 2021-12-29
  • 三明治结构graphene-2Li-graphene的储氢性能
    摘要:本文使用密度泛函理论中的广义梯度近似对扩展三明治结构graphene-2Li-graphene的几何结构、电子性质和储氢性能进行计算研究.计算得知:位于单层石墨烯中六元环面心位上方的单个Li原子与基底之间的结合能最大(1.19eV),但小于固体Li的实验内聚能(1.63eV),然而,在双层石墨 ...
    本站小编 Free考研考试 2021-12-29
  • 层状氧化钼的电子结构、磁和光学性质第一原理研究
    摘要:按照基于自旋密度泛函理论的赝势平面波第一原理计算方法,理论研究了两种层堆叠结构氧化钼(正交和单斜MoO3)的电子结构、磁性和光学特性,探讨其作为电致变色材料或电磁材料在光电子器件中的技术应用.采用先进的半局域GGA-PW91和非局域HSE06交换相关泛函精确计算晶体结构和带隙宽度.计算得出较低 ...
    本站小编 Free考研考试 2021-12-29
  • 基于量子Fisher信息的量子计量进展
    摘要:量子计量是超冷原子气体研究中的一个热点领域.超冷原子体系独特的量子性质(量子纠缠)和量子效应有助于大幅度提高待测物理量的测量精度,这已经成为量子精密测量中的共识.量子Fisher信息对该领域的发展起了非常重要的作用.本文首先介绍量子Fisher信息的基本概念和量子计量的主要内容;然后简要回顾这 ...
    本站小编 Free考研考试 2021-12-29
  • 相干与信息守恒及其在Mach-Zehnder干涉中的应用
    摘要:自量子力学诞生以来,相干性和互补性一直是被广泛而深入研究的两个重要课题.随着量子信息近年来的发展,人们引入了若干度量来定量地刻画相干性和互补性.本文建立两个信息守恒关系式,分别基于“Bures距离-保真度”和“对称-非对称”,并且利用它们来刻画相干性和互补性.具体来说,首先从信息守恒的观点解释 ...
    本站小编 Free考研考试 2021-12-29