中文语境下基于事件关联挖掘的金融网络构建与分析

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2021-12-25

表 1 英文语境下基于事件因果的金融网络构建Table 1 Cause-effect based financial network construction under English context

Algorithm 1: Constructing Cause-effect based Financial network
Input: Dataset of news headings NH, English lexical database WordNet and VerbNet, Engish part-of-speech tagger POSTagger
Output: The financial network G
1.D ← [] 2.for h in NH do 3.??if h∈ given patterns do 4.????split h into h₁ and h₂ 5.????extract verbs and nouns in h₁ and h₂ using POSTagger then generate semi-headings E₁, E₂ 6.??????add E₁ and E₂ to D 7.????end if 8.end for 9.FCOPA←[] 10.for i in D do 11.????using WordNet and VerbNet generalize all w in i then generate i_new 12.add i_new to FCOPA 13.end for 14.map relationships among i ’s corresponding headings that are included in D then generate G, where all i is in FCOPA 15.return G

表 1 英文语境下基于事件因果的金融网络构建Table 1 Cause-effect based financial network construction under English context

根据表 1所示的网络构建逻辑，面对搜集的新闻标题数据，识别关系事件是基于人工给定的包含因果关联的句法模式，以关键词匹配形式实现；提取关系事件即提取文本中起主谓宾作用的动、名词；因果事件的抽象则是引入现成的英文语义知识库，借助其给出的词语语义上下位概念体系，得到文本层面的语义抽象，直接完成不同事件在语义上的聚类。最后将抽象出来的一般化事件作为网络节点，把具体事件间已知的因果关系映射至抽象事件得到网络边，完成抽象事件间因果关联网络的构建。
然而，面对不同语言间的巨大差异，如何在非英文语境下选择合适的句法模式以处理文本，以及面对缺乏WordNet等成熟语义知识库的情形，如何完成事件抽象得到网络节点与连边，本文以在中文语境下获取的新闻标题数据为例，就表 1中抽象得到网络节点与网络边的思路提出改进。
2 金融事件关联网络构建方法在表 1所示的现有网络构建方法基础上，淡化现有网络构建方法因语言差异导致的局限性，同时考虑更普遍的事件间关联关系(而非仅局限于因果关联关系)，提出基于文本共现和层次聚类的金融网络构建方法框架，如表 2所示。其中，变量D、SimMtrx、SimIdx分别记录网络构建过程中，生成的事件文本集合、文本关联矩阵、指定阈值下筛选出的关联文本的索引集合。
Table 2

表 2 构建金融事件关联网络Table 2 Framework of constructing financial event correlation network

Algorithm 2: Financial event correlation network construction
Input: Dataset of news headings NH, Chinese word segmenter Seg and part-of-speech tagger POSTagger, correlation threshold CoT
Output: The financial network G(V, E)
1.D ← [] 2.for h in NH do 3.????if h∈ given patterns do 4.????????split h into h₁ and h₂ 5.????????add h₁ and h₂ to D 6.????end if 7.end for 8.training word embedding model using D with Seg then generate Word2Vec 9.using Word2Vec and D then generate Doc2Vec 10.SimMtrx←[] 11.for i in Doc2Vec do 12.????for j in Doc2Vec do 13.????????SimVal←calculate_similarity(i, j) 14.????????add SimVal to SimMtrx 15.????end for 16.end for 17.SimIdx←[] 18.for i in SimMtrx do 19.????if i > CoT do 20.????????add index of i to SimIdx 21.????end if 22.end for 23.map D with SimIdx then generate SimPairs 24.applying hierarchical clustering algorithm on SimPairs then generate Hcluster 25.applying keyword extraction on Hcluster with POSTagger then generate HclusterKW 26.for i in HclusterKW do 27.????for j in HclusterKW do 28.????????if a, b∈i and c, d∈j while a+c, b+d∈D do 29.????????????add i, j to V, (i, j) to E 30.????????end if 31.????end for 32.end for 33.return G(V, E)

表 2 构建金融事件关联网络Table 2 Framework of constructing financial event correlation network

相比于表 1的网络构建方法，表 2方法的改进包含以下3个方面：
1) 关联关系识别：表 2所示的方法框架中，考虑到新闻标题的高度概括性，新闻标题仍是网络构建的原材料。经过大量观察发现，中文语境下，新闻作者往往为了表达两个不同事件存在某种关联关系，如因果、时间顺序、类比对比等，而构造“两段式”标题——即由两个各自独立描述不同事件的半句及其间起黏结作用的空格复合成的标题。因此，通过“两段式”标题，能帮助获取不同事件之间，包括因果、时间顺序、类比对比等多种形式的关联关系。
2) 关联事件提取：表 1所示的现有网络构建方法中，关联事件识别与关联关系识别同时进行，其基于“新闻标题只简洁地传递事件最核心元素”的认知，认为直接提取文本中的动、名词，即可将其作为事件的基本描述，并用作后续关联事件抽象。这一逻辑是建立在后续可以直接借助WordNet等现成语义知识库中的词汇语义体系，利用上下位关系词完成事件的抽象。然而，在其他语言中，特别是中文语境下，考虑中文用语在分词和词性上的多变性，不仅缺乏类似的成熟语义知识库，更要考虑到分词尺度对文本语义的影响。因此，在表 2提出的网络构建方法中，关联事件提取被放在关联事件抽象后进行，即当完成关联事件抽象后，针对抽象事件下包含的一系列描述具体事件的文本，以关键词提取的方式，利用TextRank算法^[22]，按动、名词词性优先识别的规则，用不超过4个词语将抽象事件进行提炼概括。
3) 关联事件抽象：前文提到，表 1所示方法框架中，其直接借助WordNet等现成语义知识库中的词汇语义体系，利用词语上下位关系完成事件的抽象，然后将已知具体事件间的关联关系映射为抽象事件间的关联关系。然而在中文语境下，该方法并不适用，最直接原因即缺乏现成的语义知识库供文本语义聚类之用。本文认为，不考虑语言上的差异，可直接考虑采用基于自底向上的层次聚类(hierarchical agglomerative clustering)框架^[23]，基于预先训练的词向量模型获取各文本向量并计算两两间相似度后，按相似度的降序将相似文本进行聚集，直至相似度达到预设的阈值停止，如此可避免表 1方法内相应步骤的通用性问题；然后，查找不少于两个共现于同一聚类的文本，若与之分别组成标题的文本同属另一个聚类，则这两个聚类间存在关联关系，以此尽可能确保形成的事件路径是基于某一事件框架下的，同时令网络维持一定的路径形成能力，达到对抽象层面事件路径描述准确性和形成能力之间的平衡；遍历所有聚类后，即完成抽象类层面的事件关联。
3 金融事件-实体关联映射分析方法通过金融事件网络，我们不仅可以从中获取一般化的金融事理关联及事件传递路径，更能利用事件层面的关联关系，通过事件-实体映射关系，探讨实体(如金融交易市场上的股票)间基于事件关联，可以呈现怎样的关联关系。
本文研究的“事件-实体关联”的内涵是一种针对不同关系集合间的映射，它将事件间关联关系和实体间关联关系联系起来，利用事件层面的关联关系和事件与实体间的对应关系，发现实体的关联关系；外延是由事件关联集合和实体关联集合及两个集合构成元素间的内在关联映射所构成的关联集合整体。其中，“实体关联”的内涵是一种关联关系，描述可造成金融领域活动的个体间由于某方面属性或表现，基于一定视角予以配对；外延是涉及金融领域的一切活动中，所有参与个体之间构成的关联关系的集合。
本文选择股票为映射实体对象，以股票关联为切入点，开展基于事件关联的实体关联映射尝试。我们设计通过事件-实体映射关系获取股票关联关系大致思路为：
1) 给定目标股票集合，从构建事件关联网络所用的新闻数据集中，获取每只股票对应的事件集合；
2) 根据已构建的事件关联网络，将各股票所包含事件全部转化为抽象事件，并得到抽象事件间形成的传递演变路径；
3) 对比各股票的事件传递演变路径，计算路径相似度，得到基于事件关联的股票关联关系。
同样是发现股票之间的关联关系，目前的研究基本都是围绕股票价格数据开展的，常见方法包括基于股票价格时间序列的Granger因果关系^[24-25]，考虑给定时间段内股票价格趋势变化的Pearson相关性分析^[26-28]，等等；待得到股票间关联关系后，可通过每只股票基于其关联股票的价格变化，判断自身股价涨跌趋势，以趋势预测准确度来度量股票关联关系构建效果^[26]。
本文同样选择以股票价格为切入点，考察基于事件关联的股票关联关系构建效果。考虑事件发生的时间先后，假设，给定一只股票，若有其他股票与该股票在事件演变路径上存在一致之处，则可认为这些股票与该股票间存在关联关系，且利用这些股票的市场价格数据，能够预测该股票价格的变化趋势；在相似事件传递路径基础上，路径时间同步度越高，股票基于其关联股票价格的趋势预测准确性越高。
图 1展示了从事件关联网络映射实体(股票)关联，以及利用基于事件的实体关联关系判断股票价格变化趋势的实验流程。
Fig. 1

	Download: JPG larger image
图 1 基于事件关联发现实体关联的步骤 Fig. 1 Experimental procedures of finding relationships among entities based on event correlations 图 1 基于事件关联发现实体关联的步骤 Fig. 1 Experimental procedures of finding relationships among entities based on event correlations -->

其中，通过新闻数据集和金融事件关联网络，发现某与给定股票S相关的事件构成的演变路径形式为Path(S)={s₁(t₁), s₂(t₂), …, s_m(t_m)}，组成该路径的m个二元组各自包含了一个描述股票S的事件s和该事件的时间戳t；此外，分别用match、sync和allpairs记录两个路径上累计时间同步值、累计同步事件数、累计共现事件数，给定股票事件路径的时间同步阈值，计算事件路径之间两两相似度pathsim的方法如表 3所示。
Table 3

表 3 股票事件路径相似度计算Table 3 Similarity calculation among stocks' event paths

Algorithm 3: Calculate event paths’ similarity
Input: Event paths of stock A and stock B Path(A)={a₁(t₁), a₂(t₂), …, a_m(t_m)}, Path(B)={b₁(t₁), b₂(t₂), …, b_n(t_n)}, time-sync threshold g
Output: Similarity of stock A and B pathsim
1.match, sync, allpairs← 0, 0, 0 2.for i in Path(A) do 3.for j in Path(B) do 4.????allpairs←allpairs+1 5.????if a_i=b_j do 6.????????if t_i-t_j < g do 7.????????????match←match+1 8.????????????sync←sync+g-t_i-t_j 9.??????????end if 10.??????end if 11.????end for 12.end for 13.simrate←match/allpairs 14.pathsim←simrate*sync 15.return pathsim

表 3 股票事件路径相似度计算Table 3 Similarity calculation among stocks' event paths

在关联结果检验环节，假设已知股票S与其基于事件关联的n只关联股票的关联权重为W={w₁, w₂, …, w_n}，并得知这n只股票t+1个交易日内的股价数据P={p₁, p₂, …, p_n}，P_n={p_{n, 1}, p_{n, 2}, …，p_{n, t+1}}，在第t和第t+1个交易日，各支股票的价格构成的集合分别为P_t={p_{1, t}, p_{2, t}, …, p_{n, t}}和P_t+1={p_{1, t+1}, p_{2, t+1}, …, p_{n, t+1}}，即得到从第t个到第t+1个交易日，这n只股票的价格日变化幅度集合C_{(t, t+1)}={c_{1, (t, t+1)}, c_{2, (t, t+1)}, …, c_{n, (t, t+1)}}，其中每只股票的变化值c_{i, (t, t+1)}=p_{i, t+1}-p_{i, t}，i∈n。对于股票S而言，可以通过式(1)估计其从第t到第t+1个交易日的股价变化趋势q_{S, (t, t+1)}

$q_{S,(t, t+1)}=\boldsymbol{W} * \boldsymbol{C}_{t+1}^{\mathrm{T}}=\left\{\begin{array}{ll}1, & q_{S,(t, t+1)}>0 \\0, & q_{S,(t, t+1)}=0 \\-1, & q_{S,(t, t+1)}<0\end{array}\right..$

(1)

最终可得到股票S在t+1个交易日内的股价变化趋势序列Q_S={q_{S, (1, 2)}, q_{S, (2, 3)}, …, q_{S, (t, t+1)}}。将Q_S与股票S在t+1个交易日内的股票价格实际变动序列C_{S, (t, t+1)}={c_{S, (1, 2)}, c_{S, (2, 3)}, …, c_{S, (t, t+1)}}按式(2)计算，即可得到股票S在t+1个交易日内依据事件关联的趋势预测准确度Acc(S)：

$\begin{array}{*{20}{c}}{{\mathop{\rm Acc}\nolimits} (S) = \frac{{\left| {\left\{ {j\mid {q_{S,(j,j + 1)}} = 1,{q_{S,(j,j + 1)}} \in {\mathit{\boldsymbol{Q}}_S}} \right\} \cap \left\{ {j\mid {c_{S,(j,j + 1)}} > 0,{c_{S,(j,j + 1)}} \in {\mathit{\boldsymbol{C}}_{S,(j,j + 1)}}} \right\}} \right|}}{{\left| {{\mathit{\boldsymbol{Q}}_S}} \right|}} + }\\{\frac{{\left| {\left\{ {j\mid {q_{S,(j,j + 1)}} = 0,{q_{S,(j,j + 1)}} \in {\mathit{\boldsymbol{Q}}_S}} \right\} \cap \left\{ {j\mid {c_{S,(j,j + 1)}} = 0,{c_{S,(j,j + 1)}} \in {{\bf{C}}_{S,(j,j + 1)}}} \right\}} \right|}}{{\left| {{\mathit{\boldsymbol{Q}}_S}} \right|}}}\\{\frac{{\left| {\left\{ {j\mid {q_{S,(j,j + 1)}} = - 1,{q_{S,(j,j + 1)}} \in {\mathit{\boldsymbol{Q}}_S}} \right\} \cap \left\{ {j\mid {c_{S,(j,j + 1)}} < 0,{c_{S,(j,j + 1)}} \in {{\bf{C}}_{S,(j,j + 1)}}} \right\}} \right|}}{{\left| {{\mathit{\boldsymbol{Q}}_S}} \right|}},j \in t.}\end{array}$

(2)

4 实验分析本节依照表 2网络构建方法，搜集数据构建金融事件关联网络，分析构建出网络拓扑连通性；此外，利用这一网络进行事件-实体映射，得到股票市场实体关联网络，验证通过事件关联获取的实体关联关系在发现实体行业关联上的效果。实验在配置为Ubuntu 18.04操作系统的台式机平台上运行，核心硬件配置为：两个主频2.6 GHz的Intel Xeon E5-2560 v2处理器，32 G运行内存。
4.1 网络构建数据为获取构建网络所需数据，即财经新闻标题，通过爬取新浪财经网站上2017年3月2日至2019年7月2日的2 054 662条中文财经新闻标题，经过筛选处理后，得到520 056条符合网络构建要求的标题数据。
4.2 网络构建与拓扑分析依照表 2所示的方法构建网络时，存在一个不确定性变量，即在关联事件抽象过程中，如何选择文本对的聚类相似度阈值。基于直观判断，文本的相似度阈值选取决定网络的规模与形态：文本的相似度阈值设置的越低，能够用于事件抽象的文本对数量就越多，抽象出的事件数量对应着网络节点的数量；相反，相似度阈值选取得越高，进行聚类抽象的都是高相似度文本，保证了聚类抽象的质量，而这也将进一步影响网络边即抽象事件之间关联关系的生成质量。
按照表 2所示的方法，利用HanLP中文自然语言处理包https://github.com/hankcs/HanLP中Word2Vec预封装模块默认的CBOW框架训练词向量模型，用余弦相似度计算文本相似度，依次生成相似度阈值为0.95、0.90、0.85、0.80的4个网络。图 2是这4个网络在以下3种特征的对比结果：
Fig. 2

	Download: JPG larger image
CC 即连通分支(connected components)的英文缩写。图 2 文本相似度阈值变化与所构建网络拓扑的关系 Fig. 2 Relationship between the changing of text similarity threshold and network topology 图 2 文本相似度阈值变化与所构建网络拓扑的关系 Fig. 2 Relationship between the changing of text similarity threshold and network topology -->

1) 网络内所有连通分支的规模分布(即连通分支内节点数，按降序排列)，见图 2(a)；
2) 连通分支大小按降序排列和网络规模(即网络中节点数)之间的累积占比，见图 2(b)；
3) 抽象事件数量与网络节点规模之比，见图 2(c)。
图 2中的3个子图展示了，文本相似度阈值设置的越低，整个网络的连通分支集中度就越高(如图 2(a)和图 2(b)所示)；随着文本相似度阈值的降低，整个网络的规模会先膨胀后收缩，网络连通分支的数量会一直减少，而网络节点数与抽象事件数之比会逐渐上升(如图 2(c)所示)。
上述现象反映事件话题种类数变化。随着文本相似度阈值的降低，可供网络构建使用的文本数据量不断增加，这不仅使得每个网络节点所对应的抽象事件内包含的文本数量增加，同时随着越来越多较低相似度文本对的加入，又涌现出更多新事件话题，从而抽象得到更多事件。但是，事件话题类别并不是无限制增长的——当相似文本对达到一定数量后，两个原本并不相干的抽象事件所对应的文本集可能会出现交叉，随着层次聚类不断深入二者被重新合并，因此孤立存在的抽象事件也随之减少。
由于设置的文本相似度阈值越高，抽象事件间的关联度也就越高。综合考虑网络构建所使用原始材料(即相似文本对)的可靠性，以及对抽象事件进行层次聚类后的主题覆盖率，我们认为：在文本相似度阈值设置为0.90时，可以构建出相对完善的事件关联网络，文本相似度阈值为0.85的网络次之；文本相似度阈值设置为0.95时，用于构建网络的数据相对较少，因此事件类型的覆盖广度和事件间关联挖掘程度上不如文本相似度阈值为0.90和0.85的网络；文本相似度阈值为0.80的网络明显存在网络节点过于集中的现象，而且网络整体节点数相比另外3个网络大幅减少，推断其可能过度地合并事件话题，使得各个事件类型被定义得过于宽泛，而网络中的连边，即“类事件”联系可靠性也随之被削弱。
4.3 金融事件路径传递分析本文以4.2小节中生成的相似度阈值为0.95的网络为例，说明利用4.1小节中搜集的数据构建网络，可以帮助发现并解释一些金融现象，获取其中存在的事件传递关系。
图 3展示文本相似度阈值为0.95的网络中最大的连通分支概况。
Fig. 3

	Download: JPG larger image
图 3 生成的金融事件关联网络与部分路径细节 Fig. 3 Generated financial event correlation network and some of its path details 图 3 生成的金融事件关联网络与部分路径细节 Fig. 3 Generated financial event correlation network and some of its path details -->

对网络中的部分细节予以放大，共包含以下5条路径，分属网络的2个部位(图中突出显示部分)：
路径Ⅰ：[发、飞越、导弹、日本]→[开盘、下挫、下跌、道指]→[下跌、延续、趋势、昨日]
路径Ⅱ：[发、飞越、导弹、日本]→[避险、升温、情绪、市场]→[来袭、重磅、原油、EIA]
路径Ⅲ：[担忧、贸易战]→[避险、升温、情绪、市场]→[来袭、重磅、原油、EIA]
路径Ⅳ：[下跌、股价、供应商、苹果]→[瑞声科技、挫]→[回吐、领跌、现、蓝筹]
路径Ⅴ：[下跌、股价、供应商、苹果]→[瑞声科技、挫]→[沽空、否认、指控、机构]→[扩大、跌幅、股价、持续]
路径Ⅰ、Ⅱ、Ⅲ共同阐释了由政治事件造成的恐慌情绪，会对包括股票、原油等在内的金融市场产生影响。其中，路径Ⅰ和Ⅱ都描述的是源于地缘政治因素(导弹飞射)产生的恐慌情绪，不仅会使股票市场反映出连续的消极情绪，也可能会使原油市场有“大动作”出现；路径Ⅲ是贸易争端引起的市场恐慌，同样可能导致原油市场产生较大反应。
路径Ⅳ、Ⅴ反映了关联股票彼此间影响及可能引发的后续影响。瑞声科技作为苹果公司供应商，其股价会受苹果公司这一大型下游客户影响，并且影响之大可能会造成其在蓝筹股中的领跌局面；而当出现这种因供应链关系造成的股价牵连下跌时，相关机构不仅不会承认存在沽空的指控，股价反而可能会进一步下探。
通过构建网络，获取以上所示的事件传递路径，不仅可以帮助发现金融领域一般化事理演变，而且由于网络是基于大量描述具体事件的文本而构建，对于其中包含的参与事件的实体对象，在金融网络构建的同时，也可以帮助发现这些实体之间存在的关联关系，并利用实体关联开展一些应用。
4.4 事件-实体关联网络映射分析按照本文图 1和表 3所示的方法步骤，开展金融事件-实体关联网络映射实验。实施过程中，利用本文4.2小节中构建的文本相似度阈值为0.90的网络，选择中证100指数(CSI100)成分股^①作为实验中的实体目标。通过Tushare Pro财经数据接口^②，获取2019年7月2日至2019年8月13日共计31个交易日的中证100指数(CSI100)收盘价格数据。为研究预测时间远近与预测结果准确性之间的关系，我们将7月2日至7月16日11个交易日数据作为一组实验数据，7月2日至8月13日31个交易日数据作为另一组实验数据，进行两组预测实验；此外，选择1，3，5，7，14，30 d作为股票事件路径时间同步阈值，探讨事件演进路径的时间同步度对预测结果的影响。最终的实验结果如表 4所示。
① CSI100成分股数据为2019年6月3日的调整版本。
②https://tushare.pro/
Table 4

表 4 基于事件关联网络的股票趋势预测Table 4 Stock price prediction based on event correlation network

股票事件路径时间同步阈值/d	股票可预测率		趋势预测平均准确率
股票事件路径时间同步阈值/d	t=10	t=30	t=10	t=30
1	0.64	0.64	0.812 5	0.669 8
3	0.69	0.69	0.798 6	0.664 7
5	0.73	0.73	0.780 8	0.656 2
7	0.76	0.76	0.776 3	0.651 8
14	0.84	0.84	0.788 1	0.652 8
30	0.85	0.85	0.788 2	0.649 8

表 4 基于事件关联网络的股票趋势预测Table 4 Stock price prediction based on event correlation network

由表 4可见，随着股票事件路径时间同步阈值的增加，即路径两两间一致的事件也更趋向同步发生，会使得最终的趋势预测更加准确，但也会因同步条件变得严格，使得可预测的股票数量减少；同等可预测率下，预测时段整体越靠近起始时间节点，趋势的预测效果越好。
作为对比，获取2017年3月2日至2019年7月2日共570个交易日的中证100指数(CSI100)收盘价格，按照文献[26]里提供的基于股票价格发现股票关联关系的方法，选择用Pearson关联构建股票关联预测方法得到股票关联关系，并基于同样的预测数据和预测思路，输出与表 4中同等可预测率的预测结果，如图 4所示。
Fig. 4

	Download: JPG larger image
图 4 基于事件关联的预测和基于Pearson关联的预测结果对比 Fig. 4 Comparison of trend prediction of event correlation based and Pearson correlation based 图 4 基于事件关联的预测和基于Pearson关联的预测结果对比 Fig. 4 Comparison of trend prediction of event correlation based and Pearson correlation based -->

相比以Pearson相似为代表的传统基于股价相关系数所建立的网络，我们提出的方法在股价预测方面体现出的本质不同可概括为以下两个方面：
1) 实验数据上：实验数据所蕴含的信息量
以Pearson相似为代表的传统的基于股价相关系数所建立的网络，使用的都是最原始的交易数据，将这些原始时序数据作为确定股票关联相似度的素材；而我们的方法基于新闻文本搭建的金融事件关联网络，将获取的各个股票所发生的事情在事件关联网络上找出股票演变路径集合，作为股票相似度计算的素材。
2) 方法实现上：股票关联网络边的生成
传统的基于股价相关系数所建立的股票关联网络，其网络边是通过对比所搜集的各股票价格日变化数据确定的。以本实验中利用Pearson相似度构建的网络为例，股票关联网络边是计算其彼此间时序数据的Pearson相关系数确定的；而本文方法所用股票关联网络的边是通过对比各股票的事件演进路径确定的，其建立在先期已构建好的事件关联网络上，通过查找各支股票在事件网络中的演进路径集合，设置路径相似度的计算规则，通过比较两两间演进路径相似性确定。
由图 4可以得出，尽管从整体上看，在同等可预测率下，基于Pearson相关性方法发现的股票关联能够更好地运用关联股票数据预测给定股票的价格变化趋势，但运用本文提出的基于事件关联的方法，在可预测率为0.64时预测10、30 d的股价趋势变化，以及在可预测率为0.69时预测30 d的股价趋势变化效果相对更好。因此，为保证用于预测的股票关联关系可靠性，在较低的股票可预测率下，面对有限数量的股票间关联关系，利用关联股票数据预测给定股票的价格变化趋势时，我们的方法比利用Pearson相关性的方法有更好的预测准确率。
5 总结本文提出一种更具语言环境普适性、以发现事件基本关联关系为目的的金融事件关联网络构建思路。通过构建这种网络，可以从中发现一般化的事件关联关系，并观察到一些规律：
1) 构建网络的规模与文本相似度阈值的设置相关。文本相似度阈值设置越低，整个网络的连通分支集中度就越高，即事件变得越来越抽象，最终会体现为几个高度抽象事件之间的关联；
2) 随着文本相似度阈值的降低，整个网络的规模会先增加后减小，网络连通分支的数量会一直减少，整个网络的连接会更加紧密，越来越多经抽象处理的事件会产生关联关系。
本文所提出的网络构建方法，可以挖掘事件的关联关系和演进路径，帮助对于社会热点话题的理解；此外，利用这种事件关联网络，可以通过其内在事件-实体映射关系，发现指定的金融实体间的关联关系，并用于股票价格趋势预测，且相比于现有类似的基于股票价格发现实体关联、进行股票价格趋势预测的研究，本文所提出的实体关联关系挖掘方法，在较低可预测率，即已知有限数量股票间关联关系下，表现出更好的预测性能。
本文提出的网络构建和分析方法可以应用于多种情景：除可在与金融有关的领域开展应用外，还可以在其他领域开展类似应用。如利用本文提出的聚类方法，可对新闻事件抽象聚类并梳理得到事理逻辑，设计出一套财经新闻个性化推荐机制；而在其他的学科领域中，基于本文提出的方法，可以研究个体潜在关联对象。如在流行病学研究中，通过分析以文字形式记录的研究个体近期活动历史和过往社交历史，自动化挖掘并确定与该个体可能有关联的个体及关联密切程度。
在未来的研究中，将进一步围绕本文提出的方法，就基于金融事件关联的实体关联应用开展深入探讨。

参考文献

[1]	Golosovsky M, Solomon S. Growing complex network of citations of scientific papers: Modeling and measurements[J]. Physical Review E, 2017, 95(1): 012324. Doi:10.1103/PhysRevE.95.012324
[2]	Rocha L E. Dynamics of air transport networks: a review from a complex systems perspective[J]. Chinese Journal of Aeronautics, 2017, 30(2): 469-478. Doi:10.1016/j.cja.2016.12.029
[3]	Saleh M, Esa Y, Mohamed A. Applications of complex network analysis in electric power systems[J]. Energies, 2018, 11(6): 1381. Doi:10.3390/en11061381
[4]	欧阳红兵, 刘晓东. 中国金融机构的系统重要性及系统性风险传染机制分析: 基于复杂网络的视角[J]. 中国管理科学, 2015, 23(10): 30-37.
[5]	Zhu Y, Yang F, Ye W. Financial contagion behavior analysis based on complex network approach[J]. Annals of Operations Research, 2018, 268(1-2): 93-111. Doi:10.1007/s10479-016-2362-6
[6]	刘超, 郝丹辉, 唐孝文, 等. 基于复杂网络的金融风险跨市场传导机制研究: 以金融危机时期(2007-2009年)数据为例[J]. 运筹与管理, 2018, 27(8): 155-161.
[7]	边巧妹, 翟永会, 佘小博. 系统重要性银行与系统重要性行业分析: 基于复杂网络的研究[J]. 金融, 2019, 9(3): 197-204.
[8]	隋聪, 谭照林, 王宗尧. 基于网络视角的银行业系统性风险度量方法[J]. 中国管理科学, 2016, 24(5): 54-64.
[9]	Fu P, Zhu A, Ni H, et al. Threshold behaviors of social dynamics and financial outcomes of Ponzi scheme diffusion in complex networks[J]. Physica A: Statistical Mechanics and its Applications, 2018, 490: 632-642. Doi:10.1016/j.physa.2017.08.148
[10]	Zhu A, Fu P, Zhang Q, et al. Ponzi scheme diffusion in complex networks[J]. Physica A: Statistical Mechanics and its Applications, 2017, 479: 128-136. Doi:10.1016/j.physa.2017.03.015
[11]	崔瑜, 谢艳, 安立波, 等. 金融市场风险交叉传染机制: 基于医学SIRS传染病模型[J]. 南方金融, 2017(2): 3-13. Doi:10.3969/j.issn.1007-9041.2017.02.001
[12]	Derbali A, Hallara S. Measuring systemic risk of Greek banks: New approach by using the epidemic model "SEIR"[J]. Cogent Business Management, 2016, 3(1): 1153864. Doi:10.1080/23311975.2016.1153864
[13]	Alamsyah A, Ramadhani D P. The dynamic of banking network topology case study: Indonesian presidential election event[C]//2018 International Workshop on Big Data and Information Security(IWBIS). IEEE, 2018: 37-42.
[14]	Lismont J, Cardinaels E, Bruynseels L, et al. Predicting tax avoidance by means of social network analytics[J]. Decision Support Systems, 2018, 108: 13-24. Doi:10.1016/j.dss.2018.02.001
[15]	Zhou Y, Wang X, Zhang J, et al. Analyzing and detecting money-laundering accounts in online social networks[J]. IEEE Network, 2018, 32(3): 115-121. Doi:10.1109/MNET.2017.1700213
[16]	Al-Nabki M W, Fidalgo E, Alegre E, et al. ToRank: Identifying the most influential suspicious domains in the Tor network[J]. Expert Systems with Applications, 2019, 123: 212-226. Doi:10.1016/j.eswa.2019.01.029
[17]	Colladon A F, Remondi E. Using social network analysis to prevent money laundering[J]. Expert Systems with Applications, 2017, 67: 49-58. Doi:10.1016/j.eswa.2016.09.029
[18]	Zhao S, Wang Q, Massung S, et al. Constructing and embedding abstract event causality networks from text snippets[C]//Proceedings of the 10th ACM International Conference on Web Search and Data Mining. ACM, 2017: 335-344.
[19]	Souza T T, Aste T. Predicting future stock market structure by combining social and financial network information[J]. Physica A: Statistical Mechanics its Applications, 2019, 535: 122343. Doi:10.1016/j.physa.2019.122343
[20]	王子傲. 金融新闻中的关联实体挖掘研究[D]. 哈尔滨: 哈尔滨工业大学, 2018.
[21]	周威. 融合因果事件的知识图谱构建及其应用研究[D]. 上海: 华东师范大学, 2019.
[22]	Mihalcea R, Tarau P. Textrank: Bringing order into texts[C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2004: 404-411.
[23]	Murtagh F, Contreras P. Algorithms for hierarchical clustering: an overview[J]. Wiley Interdisciplinary Reviews: Data Mining Knowledge Discovery, 2012, 2(1): 86-97. Doi:10.1002/widm.53
[24]	Corsi F, Lillo F, Pirino D, et al. Measuring the propagation of financial distress with Granger-causality tail risk networks[J]. Journal of Financial Stability, 2018, 38: 18-36. Doi:10.1016/j.jfs.2018.06.003
[25]	Vyrost T, Lyócsa ?, Baum?hl E. Granger causality stock market networks: Temporal proximity and preferential attachment[J]. Physica A: Statistical Mechanics its Applications, 2015, 427: 262-276. Doi:10.1016/j.physa.2015.02.017
[26]	Zhong T, Peng Q, Wang X, et al. Novel indexes based on network structure to indicate financial market[J]. Physica A: Statistical Mechanics its Applications, 2016, 443: 583-594. Doi:10.1016/j.physa.2015.10.008
[27]	Xu R, Wong W K, Chen G, et al. Topological characteristics of the hong kong stock market: A test-based p-threshold approach to understanding network complexity[J]. Scientific Reports, 2017, 7: 41379. Doi:10.1038/srep41379
[28]	Zhao L, Wang G J, Wang M, et al. Stock market as temporal network[J]. Physica A: Statistical Mechanics its Applications, 2018, 506: 1104-1112. Doi:10.1016/j.physa.2018.05.039