删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于时序超网络模型的突发事件网络舆情热点话题发现与演化

本站小编 Free考研考试/2023-11-25

陈舒婷1,2, 疏学明1,2, 胡俊3,4, 解学才1,2, 张雷1,2, 张伽1,2
1. 清华大学 工程物理系, 北京 100084;
2. 城市综合应急科学北京市重点实验室, 北京 100084;
3. 北京师范大学(珠海校区) 国家安全与应急管理学院, 珠海 519087;
4. 北京师范大学 应急管理部-教育部减灾与应急管理研究院, 北京 100875
收稿日期:2022-11-04
基金项目:国家重点研发计划项目(2020YFC0833400)
作者简介:陈舒婷(1998—), 女, 硕士研究生
通讯作者:疏学明, 副研究员, E-mail: shuxm@tsinghua.edu.cn

摘要:网络舆情安全是社会安全的重要组成部分, 识别和追踪热点话题是治理突发事件网络舆情的基础。现有研究具有网络舆情事件表征不全面、对于热点话题的识别和追踪局限于语义信息等问题。该研究基于社交、内容、话题、情感4个维度构造超网络模型, 并引入时间特征作为网络的连接关系, 用于定量表征时序的网络舆情事件; 将话题节点在超网络中的中心性及中心性变化率作为话题热度的度量指标, 实现热点话题发现及演化跟踪; 应用“甘肃白银马拉松”微博舆情案例对模型和指标进行验证分析。研究结果表明:该时序超网络模型能够清晰表征突发网络舆情事件, 中心性及中心性变化率指标能够准确识别和跟踪热点话题, 并为实时态势研判预警、舆论引导等提供指导。
关键词:超网络网络舆情中心性微博话题
Discovery and evolution of hot topics of network public opinion in emergencies based on time-series supernetwork
CHEN Shuting1,2, SHU Xueming1,2, HU Jun3,4, XIE Xuecai1,2, ZHANG Lei1,2, ZHANG Jia1,2
1. Department of Engineering Physics, Tsinghua University, Beijing 100084, China;
2. Beijing Key Laboratory of City Integrated Emergency Response Science, Beijing 100084, China;
3. School of National Safety and Emergency Management, Beijing Normal University at Zhuhai, Zhuhai 519087, China;
4. Academy of Disaster Reduction and Emergency Management of Ministry of Emergency Management and Ministry of Education, Beijing Normal University, Beijing 100875, China

Abstract: Objective Network public opinion security is an important part of social security, and identifying and tracking hot topics is the basis for the governance of online public opinion in emergencies. Existing research on the evolution of hot topics is limited by text semantics, and network public opinion text is severely limited by sparsity. Existing online public opinion event models based on complex network analysis focus on the static and isolated dimension of user characteristics, which provides an incomplete representation of online public opinion events. Meanwhile, existing online public opinion event models based on the supernetwork refer to the life-cycle theory of public opinion, divide time windows according to the development stage of public opinion, and construct them as nodes in the network. Hence, these models are limited to retrospective studies and are difficult to use. Methods To address the aforementioned problems, first, a supernetwork model with four levels—social, content, topic, and emotion—was constructed. This model departed from previously isolated interpretations of relevant factors of hot topics in online public opinion and effectively utilized the internal relationship between multiple public opinion elements and hot topics. The model provided a reference for mining hot topic information with complex network characteristics. Second, considering the universality and timeliness of the model, time information was constructed differently from traditional research, which was based on the development stage of public opinion. In this study, time windows were divided equidistantly with a certain granularity, and the order of time windows, rather than the nodes in the network, represented the connectivity characteristics of the network. To discover, migrate, and predict hot topics, a topic popularity index based on the centrality of the supernetwork and a topic popularity change rate index based on the hypernetwork centrality change rate were proposed in this paper. These indices were verified and analyzed for the "Gansu Baiyin Marathon" Microblog public opinion event. Results The findings of this study are as follows: (1) The time-series supernetwork model clearly represents network public opinion events and has significant advantages over the traditional methods in model visualization. (2) The topic popularity index accurately identifies the hot topics in each time window and evaluates the changes in topic popularity throughout the development of the event. For example, "accident notification" was the most popular topic in the early stage of the public opinion event, and its heat decreased with fluctuation thereafter. The "event guarantee" topic remained popular throughout the development of the event, and its popularity fluctuated on a daily basis. (3) Based on the topic popularity curve and network structure, topics with similar communities are found to migrate, such as "liability compensation", "competition guarantee", and "popular science knowledge". (4) The topic popularity change rate index effectively predicts hot topics in the next time window. Conclusions This paper provides a general time-series model for network public opinion events with high sparsity and complex network characteristics. Topic heat and heat change rate indices can lead to the accurate identification of hot topics as well as the accurate tracking of the evolution, migration, and prediction of hot topics. Further, this study provides intuitive and useful guidance for the governance of online public opinion in real-world situations.
Key words: supernetworknetwork public opinioncentralityMicroblog topic
舆情是由个人以及各种社会群体构成的公众,在一定的社会空间内,对自己关心或与自身利益紧密相关的各种公众事务所持有的多种情绪、态度和意见交错的总和。网络作为一种新兴传播载体,已经成为民众表达舆情的重要窗口[1]。作为社会舆论的重要发源地,网络舆情在社会生活中发挥着日益重要的作用[2]
热点话题的演化与跟踪研判是网络舆情研究的重点问题。有关热点话题演化的前期研究主要聚焦于文本语义特征,并通过先建模后离散时间[3]、先离散时间后建模[4]、将时间作为模型的变量[5]等方式,将文本语料的时间信息引入静态的文档分析模型中,从而研究热点话题随着时间演化的规律[6]
当前热点话题演化研究主要采用文档模型,适用于长文本数据分析,受限于文本语义的完整性。然而,网络舆情信息的文本具有短小乃至语义缺失严重的稀疏性问题,不能直接采用文档模型进行研究。网络舆情信息包含时间、社交互动关系、情感等多维特征,将以上异质于文本信息的特征加入模型能更真实地刻画网络舆情事件,可以作为语义缺失的有益补充。其中,社交网络舆情传播模型的已有研究分为两个方向:一个方向聚焦于基于用户特征行为(兴趣、转发、评论、地域等)构造舆情预测模型[7-8],另一个方向关注用户影响力与舆情传播关系[9-10]。此外,传染病模型及其改进模型[11-13]也常用于研究网络舆情传播。
当前关于社交网络舆情的研究主要根据用户社交特征进行建模,这些社交特征未能与文本特征进行结合,时间、情感信息也未得到有效利用。
目前舆情分析常借鉴社会计算及其相关学科中的一个主要研究方法——复杂网络分析的成果[14]。针对网络舆情信息不同于传统文本的短小、高噪声、动态变化快、高交互性、多维性等特点,本文提出基于超网络这一复杂网络,构造通用的多维时序网络舆情表征模型,基于话题的网络特征分析热点话题及其核心社群演化规律,为实时态势研判、舆论引导、同类事件预测等提供指导。
1 研究方法1.1 超网络与网络舆情超网络模型超网络是复杂网络的一种,泛指节点众多、网络中含有网络的系统,在嵌套、多层、多级和多属性方面表现出自身的优越性[15]。Nagurney等于2002年给出超网络的明确定义,即高于而又超于现存网络的网络[16]
在网络舆情事件表征方面,超网络由于其多层、多级、多维、多属性的特征,尤其适用于刻画网络舆情的特征、发生和动态演化机理,有效克服了传统的社会网络分析方法难以描述网络舆情事件信息结构的问题。尚艳超等[17]基于虚拟社交网络的拓扑结构,构建了话题-用户二维超网络模型,提出以积极方式与关键人物交流从而引导舆论的网络舆情治理建议;潘芳等[18]通过构造网络社群舆情传播网络-社会网络的微博舆情反腐二维超网络模型,对基于微博网络社群的反腐舆情传播的行为结构和演化过程展开研究,重点研究了政府在反腐舆情中的意见引领作用;马宁等[19]构造了社交-话题-态度三维超网络模型,提出包括节点超度超边重叠度、集聚系数、平均最短距离等的超网络测度指标,详细介绍了这些指标用以识别网络舆论引领者的机制并加以验证;武澎等[20]构造了手机网-人际网-互联网三网融合的超网络模型,提出一种基于超网络的突发事件信息传播系统节点介入、调控能力的评判算法,分别从全网维度、同质子网维度和异质子网维度,对突发事件信息传播载体节点的介入、调控能力作出评判;孙英苹等[21]构造了用户-事件-回音室的三维网络舆情差异化引导模型,实现目标回音室与目标用户的识别,最后根据舆情事件的情感方向给出目标用户的网络舆情引导策略。此外,常用模型还有环境-社交-心理-观点[22]四维社会舆论超网络模型等。
采用超网络研究网络舆情热点话题,可将网络舆情模型由单一的文本维度特征扩展到异质的多维特征,摆脱了以往研究对网络舆情事件受限于文本或用户特征的孤立解释,有效利用了多舆情要素与热点话题的内在联系。
时间因素是影响舆情价值的重要因素。突发公共事件网络舆情属于一种典型的信息生态系统, 并且随着事件发展进程, 网络舆情也将呈现一定的信息生命周期特性[23]。张连峰等[24]、梁晓贺等[25]、王丹等[26]参照舆情的生命周期理论,按照舆情的发展阶段将时间子网纳入超网络,研究了话题发现、关键节点及情感倾向等。
按照舆情的发展阶段,将时间因素加入超网络会带来3点问题:1) 按照事件发展阶段进行时间划分并构造超网络,导致该模型局限于事后分析,无法随事件的发生发展实时构造;2) 由突发事件引发的网络舆情具有高突发性和高时效性,仅按照事件发展阶段进行时间划分,粒度过于粗糙;3) 将时间特征构造为超网络子网,仅连接了该子网节点的超边具有时间特征。为解决以上问题,本文按一定粒度等距划分时间窗口,并将时间窗口序号作为超边的特征而非时间子网的节点。
1.2 基于超网络的微博舆情事件表征模型一个具体的微博舆情事件由多条微博信息构成。每条微博信息都包含发表时间、是否原创、对该舆情事件讨论的不同角度(即该事件所包含的不同话题)、表达的情感倾向等信息。因此,一条微博信息可抽象为“在某个时间,某个用户在与其他用户的互动中,对于某些话题发表了特定文本内容,表达了一定情感倾向”。其中包含的主体为社交主体s、内容主体c、话题主体t、情感主体e以及时间主体。将前4个主体抽象为节点,对这4个节点构造连边,并将时间作为边的特征,即可表征该条微博信息。在此基础上构建改进的微博舆情事件超网络模型,模型的网络结构示意图如图 1所示。
图 1 微博舆情事件表征模型
图选项





1.2.1 子网构建本文构建的超网络模型具有4个子网:内容子网MC、社交子网MS、话题子网MT、情感子网ME
1) 内容子网MC:表示舆情的文本信息。内容子网的定义为
$M_C=C \text {. }$ (1)
式中:C={c1, c2, …cn}是内容子网所包含的节点集,集合中每个元素表示一条微博信息文本内容抽象出的内容节点。
2) 社交子网MS:表示参与舆情讨论的社交主体及其交互关系。社交子网的定义为
$M_S=S \cup E_{s_i-s_j} \text {. }$ (2)
式中:S={s1, s2, …sn}是社交子网所包含的节点集,集合中每个元素表示一条或多条微博信息的发表者,即参与舆情讨论的一个社交主体;Esi-sj是社交主体节点间连边的集合,
$\begin{gathered}E_{s_i-s_j}=\left\{\left(s_i, s_j\right) \mid \alpha\left(s_i, s_j\right)=1, \right. \\\left.\quad w\left(s_i, s_j\right), i, j=1, 2, \cdots n\right\} .\end{gathered}$ (3)
式中:α(si, sj)=1表示社交主体sisj间存在转发关系;w(si, sj)表示该转发关系所在的时间窗口。
3) 话题子网MT:表示网络舆情事件发展过程中网民讨论的不同话题。话题子网的定义为
$M_T=T.$ (4)
式中:T={t1, t2, …tn}是话题子网所包含的节点集,集合中每个元素表示对于该网络舆情事件,网民关注的某一具体话题。
4) 情感子网ME:表示网络舆情事件中网民所表达的情感倾向。情感子网的定义为
$M_E=E.$ (5)
式中:E={e1, e2, e3, e4}是情感子网所包含的节点集,集合中每个元素表示一种情感倾向抽象出的情感节点,节点e1表示情感极性为正向,e2表示情感中立,e3表示情感负向,e4表示情感极端负向。
1.2.2 超边映射一对分属不同子网的节点间的无向边称为超边。
1) 内容子网与社交子网间的超边Eci-sj定义为
$\begin{gathered}E_{c_i-s_j}=\left\{\left(c_i, s_j\right) \mid \alpha\left(c_i, s_j\right)=1, \right. \\\left.w\left(c_i, s_j\right), i, j=1, 2, \cdots, n\right\} .\end{gathered}$ (6)
式中:α(ci, sj)=1表示内容主体ci由社交主体sj发布,w(ci, sj)表示该发布关系所在的时间窗口。
2) 内容子网与话题子网间的超边Eci-tj的定义为
$\begin{gathered}E_{c_i-t_j}=\left\{\left(c_i, t_j\right) \mid \alpha\left(c_i, t_j\right)=1, \right. \\\left.w\left(c_i, t_j\right), i, j=1, 2, \cdots, n\right\} .\end{gathered}$ (7)
式中:α(ci, tj)表示内容主体ci参与讨论话题tj, w(ci, tj)表示该讨论关系所在的时间窗口。
3) 内容子网与情感子网间的超边Eci-ej的定义为
$\begin{gathered}E_{c_i-e_j}=\left\{\left(c_i, e_j\right) \mid \alpha\left(c_i, e_j\right)=1, w\left(c_i, e_j\right), \right. \\i=1, 2, \cdots, n, j=1, 2, 3, 4\} .\end{gathered}$ (8)
式中:α(ci, ej)=1表示内容主体ci的情感倾向为ejw(ci, ej)表示该情感关系所在的时间窗口。
4) 超边的时间窗口w(p, q)的定义为
$\begin{gathered}w(p, q)= \\\left\{k \mid(p, q) \in\left(E_{s_i-s_j} \cup E_{c_i-s_j} \cup\right.\right. \\\left.E_{c_i-t_j} \cup E_{c_i-e_j}\right), \\i, j=1, 2, \cdots, n\} .\end{gathered}$ (9)
式中:k表示时间窗口序号;pq为超网络中2个节点,且二者由超边相连。
1.2.3 超网络及超网络切片将文本流划分成连续等距的时间窗口,并对其中具有时序关系的文本集进行建模,每个时间窗口的数据集彼此平行,构造为超网络切片,即超网络切片内的所有超边具有同一个时序特征标识。将全部超网络切片叠加,彼此包含的相同主体用同一个节点表示,构造为超网络,即对于第k个超网络切片,剔除了超网络中时间特征非k的全部超边,以及剔除上述超边后节点度为0的社交节点和内容节点。
本文通过将时序特征构造为超边关系而非某一子网的节点,以一种简单的逻辑实现了随事件发展、数据新增更新模型;同时,同一时间窗口的数据既可以相对独立,用来开展静态的模型分析,又与其他时间窗口数据相关联,可以用来实现动态的模型分析。
1.3 基于超网络接近中心性的热点话题预测1.3.1 热点话题发现与中心性算法社会网络分析理论认为,如果一个节点处于许多网络交往路径上,可以认为此节点居于重要地位,因为它具有控制其他两节点之间交往的能力。处于这种位置的节点可以通过控制或者曲解信息的传递而影响群体[27]。本文所述超网络模型,其网络结构是对网络舆情事件的多维抽象,能够表征与话题讨论相关的传播、社群关系、情感趋势等因素,而这些因素是评判某一话题是否为热点话题的核心因素。话题节点参与的超网络交往路径越多,即表明该话题的传播能力、引领社群交互与情感走向的能力越强。
中心性是衡量节点在网络中的角色及其对网络影响程度的指标。平亮等[28]在用户这一维度上应用中心性对微博社会网络进行分析。该方法可以扩展到超网络中。节点的中心性大小与节点在网络中的重要性呈正相关关系。网络舆情的热点话题就是在一段时间和范围内网民最关心的问题。因而,可以用话题节点在超网络切片中的中心性大小来衡量该话题是否为当前时间窗口的热点话题。
接近中心性(closeness)[29]是经典的中心性指标,其定义为节点到其他所有节点的最短路径长度的平均值;可以理解为利用信息在网络中的平均传播时长来确定节点的重要性[30]。节点的接近中心性的计算公式为
$C_{\rm o}(u)=\frac{1}{\sum\limits_{i=1}^{n-1} d\left(u, v_i\right)}.$ (10)
式中:u为待计算接近中心性的节点;vi为连通图中所有的所有的非u节点,i=1,2,…,n-1;n为连通图中所有的节点数量;d(u, vi)是节点vi和节点u之间的最短距离。
接近中心性适用于连通图,且其值受图的规模影响较大。对于不同时间窗口对应的超网络切片,其图的规模不同,且可能存在非连通图。为适应非连通图,并实现对不同规模图的节点接近中心性进行公平比较,定义变体接近中心性为
$C_{\mathrm{WF}}(u, k)=\frac{n_u-1}{N-1}\left(\frac{n_u-1}{\sum\limits_{i=1}^{n-1} d\left(u, v_i\right)}\right) .$ (11)
式中:k为当前时间窗口序号;N为当前时间窗口中超网络切片的总节点数;nu为当前时间窗口中,与节点u在同一最大联通子图的节点的数量。
1.3.2 热点话题预测与中心性变化率由于网络舆情事件话题的形成具有时域性,表现为话题的讨论在某个时间窗口前热度较低,而在该时间窗口中热度突增,因此可以用话题节点在临近时间窗口的超网络切片中的中心性变化率来衡量热度变化的快慢。选取热度上升快的话题作为当前时间窗口应重点关注的话题,它们在下一个时间窗口内具有更高概率成为热点话题,从而可以实现对热点话题的追踪和预警。
节点u在第k个时间窗口的变体接近中心性变化率G(u, k)为
$G(u, k)=\frac{C_{\mathrm{WF}}(u, k)-C_{\mathrm{WF}}(u, k-1)}{1+C_{\mathrm{WF}}(u, k-1)}.$ (12)
合理设置阈值GTH。若某话题在当前时间窗口的中心性变化率超过该阈值,该话题记为当前时间窗口应重点关注的热点话题。
2 研究实例2.1 事件背景与数据预处理2021年5月22日,甘肃省白银市举办“第四届黄河石林山地马拉松百公里越野赛暨乡村振兴健康跑”活动。活动当日,受突变极端天气影响,局部地区出现冰雹、冻雨、大风灾害性天气,气温骤降,造成多名参赛人员伤亡。这场因局部天气突变导致的公共安全事件发生后,迅速在新浪微博上传播、发酵,网民围绕这一事件展开了多角度多话题的讨论。
本研究以“马拉松”为关键词,采样时间为2021年5月23日0时至5月26日24时,从新浪微博平台爬取“甘肃白银马拉松极端天气致多人死亡”这一网络舆情事件数据,具体包括:微博ID、微博文本、发布时间、发布用户、是否转发、转发原微博发布用户。初步清洗和预处理后得到有效数据共40 536条。
2.2 超网络模型搭建针对爬取并预处理后的有效微博数据,将2021年5月23日0时至5月26日24时划分为等长的32个时间窗口,构造4个维度的舆论超网络模型。其中:内容子网中的节点代表某条微博的文本内容;用户子网中的节点代表发布或转发某条微博的用户,用户子网内的超边表示两用户间存在微博的转发关系,用户-内容节点超边表示微博的发布关系;情感子网中的节点分别表示正向、中立、负向情感。以上都可由微博数据中提取得到,而话题子网的节点及包含话题节点、情感节点的超边不能直接获得,因此分别基于潜在Dirichlet分配(latent Dirichlet allocation, LDA)主题模型和Hownet情感词典对微博话题和情感进行数据准备。
2.2.1 基于LDA的话题发现对采集到的微博内容数据首先利用THULAC分词工具实现分词,并在词性筛选和去除停用词后,过滤得到有意义的名词组,用于替代原始微博内容数据。然后,基于LDA实现话题数目的选择、话题发现及话题标注。LDA构造了文档集-隐含主题-词汇集3个层次的Bayes概率模型,并将Dirichlet分布作为其共轭先验分布,从而可以将每条微博内容数据(即过滤后的名词组)先根据文档-主题的概率分布选取主题,再根据主题-词汇的概率分布选取若干个词汇来表征。最终,每个话题由一组关键词来表征,并对每条微博所属的话题进行自动标注。
LDA常用主题困惑度[31]确定最优主题划分数,该指标衡量各条微博内容数据属于不同主题的不确定性。困惑度越低,说明划分效果越好。当主题划分数为1~14时,主题困惑度变化曲线如图 2所示。由图 2可知,在主题划分数小于7时,随主题划分数增加,主题困惑度显著减小,主题划分数大于7时,主题困惑度的变化趋于平缓,故选取7个话题为最优主题划分数。
图 2 不同主题划分数的主题困惑度
图选项





基于LDA进行主题发现,每个话题由抽取得到的一组关键词表示。各话题主要关键词见表 1表 1中:话题“责任赔付”主要涉及事故原因的问责及遇难者亲属的赔付与谅解情况;话题“衍生问题”主要涉及网民对电视台马拉松开幕式重播事件的声讨、对有关单位的不满和官方回应;话题“赛事保障”着重讨论主办方物资和救援力量应提供的保障、赛事举办和熔断标准、参赛者应作出的生理和心理准备;话题“事故通报”主要包含极端天气与伤亡情况,以及遇害的残运会冠军相关情况;话题“救援认亲”主要涉及牧羊人及邻近村民救人情况和遇难者家属认亲情况;话题“事件还原”围绕遇难者生前最后的消息、亲历者发声、实地探访,还原事件全程;话题“科普知识”普及了在恶劣自然环境下的自救知识,并传播了有关大自然的知识。
表 1 话题及主要关键词表
话题 关键词
话题1:责任赔付 天灾/人祸/事故/悲剧/遇难者/家属/保险/协议/赔偿
话题2:衍生问题 重播/电视台/开幕式/新闻/工作人员/组委会/悲剧
话题3:赛事保障 全面/细节/政府/主办方/参赛者/活动/问题/准备
话题4:事故通报 天气/极端/大风/灾害性/气温/冻雨/冰雹/海拔/发布会/好友/残运会/冠军/奖金/事故
话题5:救援认亲 牧羊人/村民/大叔/救援队/救援/窑洞/景区/生命/体征/失联/医院/家属
话题6:事件还原 调查组/调查/事故/应急/省政府/新闻/原因/安全事件/发布会/情况/救助/现场/专家/亲历者
话题7:科普知识 运动/生命/跑步/身体/失温/体温/运动员/挑战/人体/地震/能量


表选项






在抽取话题的基础上,LDA对每条微博内容计算了所属各话题的概率,并选取所属概率最大的话题作为它的主题划分,从而可以抽取得到超网络模型中对应的话题节点和相关超边。
2.2.2 基于Hownet的情感标注微博内容数据的情感判别由知网情感词典Hownet实现。该方法设置情感词库,其中每个词对应一个情感倾向度的权值。然后,针对文本中的每个句子,提取所有的情感词并根据情感词前后的程度副词、句式修正情感得分,累加后得到文本的情感分数。由此实现微博内容数据的情感判别,抽取得到超网络模型中对应的情感相关超边。
2.2.3 模型展示搭建4个维度的舆情超网络模型,超网络结构(子网、超边类型及连接关系)如图 3所示。
图 3 超网络结构
图选项





该模型能独立地表征某一特定时间窗口内的舆情特征。图 4展示了第26个时间窗口的数据构造的超网络切片。比较不同超网络切片结构,可实现对舆情事件演化的研究。
图 4 时间窗口26对应的超网络切片(部分)
图选项





不同时间窗口的数据通过共同的节点实现交互。图 5展示了某官方媒体在不同时间发布多条文本分别讨论不同的话题和表达不同情感的情况。可以看到,在不同时间窗口中共同存在的社交节点、话题节点和情感节点不会重复构造,时间信息通过节点间超边的时序特征体现。
图 5 超网络中某官方媒体相关节点(部分)
图选项





3 结果分析3.1 热点话题发现计算各话题在不同时间窗口内的变体接近中心性,得到网络舆情事件发展全程的各话题热度变化曲线,如图 6所示。
图 6 网络舆情事件发展全程的各话题热度变化
图选项





图 6可知,在该网络舆情事件发生的前期,网民关注的核心热点话题为事故通报,此后对该话题的关注波动性减少;随着网络舆情的发展,新的信息出现,衍生问题、救援认亲、事件还原、科普知识等话题的热度依次分别出现峰值,占据讨论热点;在事件发展的后期,责任赔付话题占据讨论的主流。此外,赛事保障话题在事件发展的全程都具有较高热度,且热度变化按日规律性波动。
3.2 热点话题迁移随着网络舆情事件的发展,旧的话题演进孕育出新话题,话题间彼此具有联系。以赛事保障话题为例,讨论赛事保障话题的微博常转发讨论责任赔付话题的原微博,其自身又常作为讨论科普知识微博的原微博出现。图 7展示了在时间窗口4内,参与赛事保障话题的用户转发了讨论责任赔付话题用户的微博并作出评论,同时该用户发布的微博也被其他用户转发到科普知识话题并讨论。
图 7 时间窗口4内参与赛事保障话题的用户社群(部分)
图选项





由3.1节对各话题热度的分析发现,各话题热度依次出现峰值,因此整体来看,热点话题在不同话题间传递迁移,不同话题的热度变化具有相关性。责任赔付-赛事保障-科普知识3个话题具有典型的演进关系。
1) 责任赔付话题到赛事保障话题的话题演化与热点迁移。
图 8绘制了责任赔付话题在第3~27个时间窗口内热度变化曲线和赛事保障话题在第8~32个时间窗口内热度变化曲线,可以看到二者趋势相近;计算二者Pearson系数为0.778 2,构成强相关。
图 8 责任赔付话题与赛事保障话题热度比较
图选项





由此可知,赛事保障话题与责任赔付话题是相关的,且前者相对后者有5个时间窗口的延迟。基于语义进行分析,在对已发生事故进行定责后,微博用户转向关注对未来同类事件的预防准备具有合理性,即话题从责任赔付迁移到赛事保障。基于模型结构进行分析,考虑参与讨论2个话题的是相近的社群,信息通过转发在社群中传递,话题在社群中演化发展。两话题社交节点的交互如图 9所示。
图 9 赛事保障话题与责任赔付话题交互社群
图选项





2) 赛事保障话题到科普知识话题的话题演化与热点迁移。
同理,赛事保障话题在第11~26个时间窗口内热度和科普知识话题在第16~31个时间窗口内热度趋势相近(如图 10所示),且构成强相关(Pearson系数为0.691 9)。如图 11所示,信息在相近的社群中交互传递,促成话题演化和热点迁移。
图 10 赛事保障话题与科普知识话题热度比较局部
图选项





图 11 赛事保障话题与科普知识话题交互社群
图选项





3.3 热点话题预测在网络舆情的实时监控和预警中,有2类话题需要重点关注:1) 当前的热点话题,该话题在下一时刻仍然有较大可能是热点话题;2) 当前热度虽低但热度增长快的话题,该话题在下一时刻有较大概率成为新兴的热点话题。热度增长的快慢可用变体接近中心性变化率表示,见式(12)。
计算各话题在不同时间窗口内的变体接近中心性变化率,得到网络舆情事件发展全程的话题热度变化率,如表 2所示。取热度变化率最大的前10%的值作为超过阈限的值,得到阈值为11.9×10-3表 2中加粗数字表示超过阈值,对应话题为当前时间窗口热度增长最快的若干个话题之一。据此在不同时刻可以动态选择若干个应重点关注的话题,来辅助预测下一时刻的热点话题。
表 2 不同时间窗口的话题热度变化率
时间窗口序号 话题热度变化率/10-3
责任赔付 衍生问题 赛事保障 事故通报 救援认亲 事件还原 科普知识
4 6.4 9.3 8.5 -39.8 0.9 6.5 0.9
5 0.9 -1.1 4.9 -19.2 15.5 -1.3 1.8
6 1.3 7.0 5.3 -2.2 -10.7 21.6 2.1
7 1.7 -1.7 2.3 8.7 -0.8 -15.0 0.2
8 1.9 -1.0 -1.8 7.8 -5.2 -1.3 -1.5
9 2.0 3.5 1.3 12.2 -1.5 -6.0 -3.1
10 21.3 -1.0 -9.8 -15.5 -6.0 6.5 -5.4
11 -3.1 0.2 7.4 -2.1 11.9 7.8 8.7
12 5.8 14.9 -3.6 -7.0 0.1 0.0 8.0
13 -18.1 32.7 -3.5 14.7 -10.5 -15.5 7.7
14 -8.5 0.1 2.4 -9.8 7.4 -5.5 -1.9
15 2.7 -3.0 19.7 -8.4 -0.4 -0.2 -6.2
16 4.7 -28.4 0.6 -1.8 -0.8 9.7 -14.3
17 -5.2 -3.2 -4.1 0.0 -4.2 -6.4 -3.3
18 2.0 -26.2 2.2 -8.9 -11.2 3.9 -7.3
19 11.3 45.1 -7.7 6.6 39.3 3.4 10.0
20 3.0 2.1 -8.3 0.6 1.9 11.9 9.4
21 -8.8 -20.7 0.0 -1.3 -16.1 13.1 -2.2
22 15.4 -9.6 -1.1 2.2 -5.2 -9.2 -0.4
23 10.7 -8.6 -3.7 -3.0 0.0 -20.4 0.5
24 -1.2 -3.4 10.9 0.1 -3.3 3.1 4.3
25 -4.0 -3.9 7.0 -16.0 -2.3 -6.8 -17.9
26 7.7 -10.9 -5.2 -0.5 -1.9 0.7 -3.2
27 1.6 20.8 -5.8 0.1 4.2 1.9 14.3
28 -7.7 -1.8 12.8 4.0 10.0 2.5 3.0
29 -32.9 -10.9 8.2 5.7 -9.0 -0.5 -1.2
30 5.5 10.0 -0.1 -10.7 -2.1 -17.3 1.5
31 -2.1 0.0 -5.9 2.0 11.3 10.0 2.3
32 3.8 8.9 1.0 4.5 -15.3 -14.0 3.5


表选项






比较表 2得到的重点话题和图 6的在各个时间窗口中的话题热度曲线,可以发现在网络舆情事件刚刚发生时(第1、2个时间窗口),话题尚未完全分化,从时间窗口4开始,各话题开始分化。1) 责任赔付话题。该话题的热度变化率分别在第10、22个时间窗口超过阈值,有效预测了该话题在第11、23个时间窗口是新兴热点话题。2) 衍生问题话题。该话题的热度变化率分别在第12、13、19、27个时间窗口超过阈值,有效预测了该话题在第13、14个时间窗口是新兴热点话题,并在第20、28个时间窗口热度达到局部极大值。3) 赛事保障话题。该话题的热度变化率分别在第15、28个时间窗口超过阈值,有效预测了该话题在第16、29个时间窗口是新兴热点话题。4) 事故通报话题。该话题的热度变化率分别在第9、13个时间窗口超过阈值,虽然不是热点话题,但热度分别达到了局部极大值。5) 救援认亲话题。该话题的热度变化率分别在第5、11、19个时间窗口超过阈值,有效预测了该话题在第20个时间窗口是新兴热点话题,并在第6、12个时间窗口热度达到局部极大值。6) 事件还原话题。该话题的热度变化率分别在第6、20、21个时间窗口超过阈值,有效预测了该话题在第21、22个时间窗口是新兴热点话题,并在第6个时间窗口热度达到局部极大值。7) 科普知识话题。该话题的热度变化率在第27个时间窗口超过阈值,虽然不是热点话题,但预测了该话题在之后的时间窗口内热度不断上升的趋势。
4 总结对突发事件网络舆情热点话题治理,本文从以下3个角度进行研究:
1) 针对已有网络舆情事件模型信息结构描述困难、表征不全面的问题,本文构造了包含社交子网、内容子网、话题子网、情感子网4个维度的超网络模型,为挖掘具有复杂网络特征的网络舆情事件信息提供了通用模型。
2) 针对既有超网络模型对于时间信息表征不明的问题,提出了超网络切片的概念,将时间作为子网间的连接特征,构造时序超网络。该方法以一种简单的逻辑实现了随事件发展,新时间窗口内模型的更新;同时,同一时间窗口的数据既可以相对独立,用来开展静态的模型分析,又与其他时间窗口数据相关联,可以用来实现动态的模型分析。
3) 针对已有研究中热点话题的发现受限于文本语义的问题,本文使用多维超网络表征网络舆情事件,摆脱了以往对网络舆情热点话题相关因素的孤立解释,有效利用了多舆情要素与热点话题的内在联系,可作为语义缺失的有益补充。在此基础上,进一步提出用变体接近中心性和变体接近中心性变化率来衡量在不同时间窗口的话题热度,实现热点话题的识别和追踪,并辅助进行热点话题的预测,能够为实时态势研判预警、舆论引导提供参考。
经“甘肃白银马拉松”案例验证,本方法不仅能够准确发现热点话题,还可以结合多维特征跟踪热点话题的演化迁移情况,预测下一时段的热点话题,为真实情境下的网络舆情治理提供直观有益的指导。

参考文献
[1] 刘毅. 略论网络舆情的概念、特点、表达与传播[J]. 理论界, 2007(1): 11-12.
LIU Y. The concept, characteristics, expression and dissemination of online public opinion[J]. Theory Horizon, 2007(1): 11-12. DOI:10.3969/j.issn.1003-6547.2007.01.004 (in Chinese)
[2] 郭乐天. 互联网虚假信息的控制与网络舆情的引导[J]. 新闻记者, 2005(2): 23-26.
GUO L T. The control of Internet false information and the guidance of Internet public opinion[J]. Shanghai Journalism Review, 2005(2): 23-26. DOI:10.3969/j.issn.1006-3277.2005.02.007 (in Chinese)
[3] GRIFFITHS T L, STEYVERS M. Finding scientific topics[J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101(S1): 5228-5235.
[4] 胡艳丽, 白亮, 张维明. 网络舆情中一种基于OLDA的在线话题演化方法[J]. 国防科技大学学报, 2012, 34(1): 150-154.
HU Y L, BAI L, ZHANG W M. OLDA-based method for online topic evolution in network public opinion analysis[J]. Journal of National University of Defense Technology, 2012, 34(1): 150-154. DOI:10.3969/j.issn.1001-2486.2012.01.029 (in Chinese)
[5] WANG X R, MCCALLUM A. Topics over time: A non-Markov continuous-time model of topical trends[C]// Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Philadelphia, USA: ACM, 2006: 424-433.
[6] 单斌, 李芳. 基于LDA话题演化研究方法综述[J]. 中文信息学报, 2010, 24(6): 43-49, 68.
SHAN B, LI F. A survey of topic evolution based on LDA[J]. Journal of Chinese Information Processing, 2010, 24(6): 43-49, 68. DOI:10.3969/j.issn.1003-0077.2010.06.007 (in Chinese)
[7] 周沧琦, 赵千川, 卢文博. 基于兴趣变化的微博用户转发行为建模[J]. 清华大学学报(自然科学版), 2015, 55(11): 1163-1170.
ZHOU C Q, ZHAO Q C, LU W B. Modeling of the forwarding behavior in microblogging with adaptive interest[J]. Journal of Tsinghua University (Science and Technology), 2015, 55(11): 1163-1170. DOI:10.16511/j.cnki.qhdxxb.2015.21.007 (in Chinese)
[8] 陈安滢, 朱昊然, 苏国锋. 微博用户的应急预警信息传播行为研究[J]. 清华大学学报(自然科学版), 2021, 61(6): 527-535.
CHEN A Y, ZHU H R, SU G F. Emergency warning information repost behavior of Weibo users[J]. Journal of Tsinghua University (Science and Technology), 2021, 61(6): 527-535. DOI:10.16511/j.cnki.qhdxxb.2020.26.045 (in Chinese)
[9] 康伟. 基于SNA的突发事件网络舆情关键节点识别: 以"7·23动车事故"为例[J]. 公共管理学报, 2012, 9(3): 101-111.
KANG W. Analysis of the key nodes in public opinion spread during emergencies based on social network theory: A case study of the 7·23 Wenzhou high-speed train collision[J]. Journal of Public Management, 2012, 9(3): 101-111. DOI:10.3969/j.issn.1672-6162.2012.03.011 (in Chinese)
[10] 赵宇, 黄开枝, 郭云飞, 等. 在线社会网络中面向节点影响力的信息传播阻断模型[J]. 清华大学学报(自然科学版), 2017, 57(12): 1245-1253.
ZHAO Y, HUANG K Z, GUO Y F, et al. Information diffusion blocking model of node influence-oriented in online social network[J]. Journal of Tsinghua University (Science and Technology), 2017, 57(12): 1245-1253. DOI:10.16511/j.cnki.qhdxxb.2017.25.061 (in Chinese)
[11] 赵剑华, 万克文. 基于信息传播模型-SIR传染病模型的社交网络舆情传播动力学模型研究[J]. 情报科学, 2017, 35(12): 34-38.
ZHAO J H, WAN K W. Research on the communication dynamics model of social network public opinion based on the SIR model[J]. Information Science, 2017, 35(12): 34-38. (in Chinese)
[12] 范纯龙, 宋会敏, 丁国辉. 一种改进的SEIR网络谣言传播模型研究[J]. 情报杂志, 2017, 36(3): 86-91.
FAN C L, SONG H M, DING G H. Research on an improved SEIR network rumor propagation model[J]. Journal of Intelligence, 2017, 36(3): 86-91. DOI:10.3969/j.issn.1002-1965.2017.03.015 (in Chinese)
[13] ZHAO L J, QIU X Y, WANG X L, et al. Rumor spreading model considering forgetting and remembering mechanisms in inhomogeneous networks[J]. Physica A: Statistical Mechanics and Its Applications, 2013, 392(4): 987-994. DOI:10.1016/j.physa.2012.10.031
[14] 陈昱, 张慧琳. 社会计算在信息安全中的应用[J]. 清华大学学报(自然科学版), 2011, 51(10): 1323-1328.
CHEN Y, ZHANG H L. Overview of social computing in information security[J]. Journal of Tsinghua University (Science and Technology), 2011, 51(10): 1323-1328. (in Chinese)
[15] 田儒雅, 孙巍, 吴蕾, 等. 基于超网络的图书情报领域知识合作特征分析[J]. 情报理论与实践, 2016, 39(10): 25-30.
TIAN R Y, SUN W, WU L, et al. Feature analysis of knowledge cooperation in the field of library and information science based on supernetwork[J]. Information Studies: Theory & Application, 2016, 39(10): 25-30. (in Chinese)
[16] NAGURNEY A, DONG J. Supernetworks: Decision-making for the information age[M]. Cheltenham: Edward Elgar Publishing, 2002.
[17] 尚艳超, 王恒山, 王艳灵. 基于微博上信息传播的超网络模型[J]. 技术与创新管理, 2012, 33(2): 175-178.
SHANG Y C, WANG H S, WANG Y L. The supernetwork model of information transmission based on the microblog[J]. Technology and Innovation Management, 2012, 33(2): 175-178. (in Chinese)
[18] 潘芳, 鲍雨亭. 基于超网络的微博反腐舆情研究[J]. 情报杂志, 2014, 33(8): 173-177, 172.
PAN F, BAO Y T. Study of microblog anti-corruption public opinion based on the supernetwork[J]. Journal of Intelligence, 2014, 33(8): 173-177, 172. (in Chinese)
[19] 马宁, 刘怡君. 基于超网络的舆论领袖识别应用研究[J]. 中国科学院院刊, 2012, 27(5): 586-594.
MA N, LIU Y J. Recognition of online opinion leaders based on supernetwork analysis[J]. Bulletin of Chinese Academy of Sciences, 2012, 27(5): 586-594. (in Chinese)
[20] 武澎, 王恒山, 李煜, 等. 突发事件信息传播超网络中重要调控节点的判定研究[J]. 图书情报工作, 2013, 57(1): 112-116, 148.
WU P, WANG H S, LI Y, et al. Judgment of important control nodes in the information dissemination super-network of emergency[J]. Library and Information Service, 2013, 57(1): 112-116, 148. (in Chinese)
[21] 孙英苹, 刘凤鸣, 高艺畅, 等. 基于回音室超网络的网络舆情差异化引导研究[J]. 情报理论与实践, 2022, 45(12): 138-145.
SUN Y P, LIU F M, GAO Y C, et al. Research on differentiated guidance of network public opinion based on echo chamber super-network[J]. Information Studies: Theory & Application, 2022, 45(12): 138-145. (in Chinese)
[22] 刘怡君, 李倩倩, 田儒雅, 等. 基于超网络的社会舆论形成及应用研究[J]. 中国科学院院刊, 2012, 27(5): 560-568.
LIU Y J, LI Q Q, TIAN R Y, et al. Formation and application of public opinion based on supernetwork analysis[J]. Bulletin of Chinese Academy of Sciences, 2012, 27(5): 560-568. (in Chinese)
[23] 崔鹏, 张巍, 何毅, 等. 突发公共事件网络舆情演化及政府应对能力研究[J]. 现代情报, 2018, 38(2): 75-83, 95.
CUI P, ZHANG W, HE Y, et al. Dynamic evolution research on the government's response capability to the public opinions in the context of public emergencies[J]. Journal of Modern Information, 2018, 38(2): 75-83, 95. (in Chinese)
[24] 张连峰, 周红磊, 王丹, 等. 基于超网络理论的微博舆情关键节点挖掘[J]. 情报学报, 2019, 38(12): 1286-1296.
ZHANG L F, ZHOU H L, WANG D, et al. Key node mining of Weibo public opinion based on super network theory[J]. Journal of the China Society for Scientific and Technical Information, 2019, 38(12): 1286-1296. (in Chinese)
[25] 梁晓贺, 田儒雅, 吴蕾, 等. 基于超网络的微博相似度及其在微博舆情主题发现中的应用[J]. 图书情报工作, 2020, 64(11): 77-86.
LIANG X H, TIAN R Y, WU L, et al. Microblog similarity based on super network and its application in microblog public opinion topic detection[J]. Library and Information Service, 2020, 64(11): 77-86. (in Chinese)
[26] 王丹, 张海涛, 刘雅姝, 等. 微博舆情关键节点情感倾向分析及思想引领研究[J]. 图书情报工作, 2019, 63(4): 15-22.
WANG D, ZHANG H T, LIU Y S, et al. Sentiment analysis and ideological guidance of key nodes in micro-blog public opinion[J]. Library and Information Service, 2019, 63(4): 15-22. (in Chinese)
[27] 刘军. 社会网络分析导论[M]. 北京: 社会科学文献出版社, 2004.
LIU J. An introduction to social network analysis[M]. Beijing: Social Sciences Academic Press, 2004. (in Chinese)
[28] 平亮, 宗利永. 基于社会网络中心性分析的微博信息传播研究: 以SINA微博为例[J]. 图书情报知识, 2010(6): 92-97.
PING L, ZONG L Y. Research on microblog information dissemination based on SNA centrality analysis: A case study with SINA microblog[J]. Document, Information & Knowledge, 2010(6): 92-97. (in Chinese)
[29] FREEMAN L C. Centrality in social networks conceptual clarification[J]. Social Networks, 1978-1979, 1(3): 215-239.
[30] 任晓龙, 吕琳媛. 网络重要节点排序方法综述[J]. 科学通报, 2014, 59(13): 1175-1197.
REN X L, Lü L Y. Review of ranking nodes in complex networks[J]. Chinese Science Bulletin, 2014, 59(13): 1175-1197. (in Chinese)
[31] BLEI D M, NG A Y, JORDAN M I, et al. Latent Dirichlet allocation[J]. The Journal of Machine Learning Research, 2003, 3: 993-1022.

相关话题/

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19