基于深度神经网络的个体阅读眼动预测

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2020-04-15

图 1 成人读者阅读时的眼睛运动轨迹

图选项

眼动模型通常在认知心理学领域中研究^[4-11]。研究人员综合了大量的实验数据，提出了多种眼动控制模型，如E-Z读者(easy-rider reader, E-Z Reader)模型^[12]或自发眼跳-中央凹抑制(saccade generation with inhibition by foveal targets, SWIFT)模型^[13]。虽然眼动心理学模型的各个参数拟合了经验数据集，但几乎不能对未见文本数据进行预测^[14]。此外，这些模型的预测通常基于受试读者群体中的平均值，但是眼动模式在个体之间是显著不同的^[15]。因此，预测个体读者在阅读新文本时所做的眼球运动实际上是一个比较困难的问题。
最近的一些研究已经从机器学习的角度研究眼动模式^[14-18]。这些研究的灵感来源于在自然语言处理方面的工作，与之前的研究相比，较少地与心理学假设联系在一起。文[14]是第一个用机器学习方法来模拟人眼运动的研究，对未见文本进行基于词的阅读注视点预测。文[18]使用条件随机场模型研究预测文本中哪些词被读者注视。然而，传统的监督学习需要较多的数据特征和数据预处理过程，这可能导致实时人机交互应用中的高延迟。
近年来，神经网络由于具有并行分布的性质，在模式识别、智能机器人、自动控制、预测估计、语言处理等领域得到了广泛的应用^[19-20]。随着对神经网络的深入研究，一些基于神经网络的方法已经被提出、发展和研究用于自然语言处理^[21-26]。本文将单词注视点预测问题形式化为基于单词的序列标注任务(这是一个经典的自然语言处理任务)。本文提出的任务是：把读者阅读文本的眼动数据作为训练数据，使用双向长短期记忆-条件随机场(bi-directional long short-term memory-conditional random field, bi-LSTM-CRF)神经网络架构学习个体的眼动模式，从而预测读者在新文本上的注视点位置。该模型专注于表征读者之间眼动模式的个体差异，只需较少的数据特征和数据预处理就能达到现有机器学习模型的预测准确度。值得强调的是，在这项研究中，只关注眼球在阅读过程中移动的位置特征，而不关注眼睛在注视点上停留多长时间。
1 问题设置眼动和阅读研究中的实验结果表明：阅读中的眼球运动既是目标导向的，也是离散的^[4]。这意味着眼跳系统在选择视觉目标上是非随机的，并且眼跳的目标指向特定的单词而非特定的距离。基于此理论，在眼跳潜伏期过程中有许多候选词，每个词都有一定的机会被选为后续眼跳的目标。本研究中，在不加任何约束的情况下，让眼动模型赋予文本中的每个词一个可能会被注视到的概率，使用如下的文本和注视序列来阐述。
R表示一组读者集合，T表示词序为(w₁, w₂，…, w_n)的文本。对于每个r∈R，根据T中的每个单词产生一个注视点序列F。注视点标记集合记为S(F)，它是与F相一致的注视点位置的集合S={S₁, S₂, …, S_m } (1≤S_i≤n)，服从

$S \sim p(S | T, r).$

(1)

这里的p(S|T, r)是一个特定受试者阅读一段文本时的眼动模式分布。例如，有文本“Human body can tolerate only a small range of temperature”，被表示为T=(Human, body, can, tolerate, only, a, small, range, of, temperature)，一个注视点序列被记为F=(1, 2, 4, 5, 4, 7, 8, 10)，那么与之相应的S(F)={1, 4, 5, 7, 8, 10}。
此时需要考虑的是对由受试者R和文本T组成阅读过程E的一个注视点序列F的预测。训练数据由单词和注视次数序列构成，这些数据源自于同一读者阅读不同文本(T₁, T₂, …, T_k)的阅读过程E。M是一个神经网络模型。给定一些文本作为输入，模型的目标是产生与人类阅读行为相似的注视点位置预测。通过比较预测的注视点集合S_M与在阅读文本T时受试R的真实注视点集合S_O，评价模型M的性能。
在预测阶段，对于受试r∈R在一个新的文本X = {X₁, X₂, …, X_m}上使用模型M，目标是推算出

$s* = \arg \mathop {\max }\limits_{s \in S(F)} p(S|M, X, r).$

(2)

2 基于深度神经网络的眼动模型架构在本节中，详细描述所提出的基于深度神经网络的眼动模型架构，自底向上地介绍神经网络的各个组件(层)。
2.1 词嵌入层文[27]已经证明，词嵌入(embedding)在提高序列标记性能方面起着至关重要的作用。本文使用keras.preprocessing.text.Tokenizer类来对文本语料库进行矢量化，方法是将每个文本转换为整数序列(每个整数是字典中标记的索引)，其中每个标记的系数基于单词数生成。在训练阶段，通过fit_on_texts方法，可以使用word_index属性得到单词索引：{ ‘Human’: 74, ‘body’: 960, ‘can’: 1027, ‘tolerate’: 190, …}，然后使用SentenceGetter类来检索带有标签和特征的句子。节3.2将讨论所需的特征。最后，将句子映射到一个数字序列，并填充该序列。注意，此处将单词的索引增加1，以便使用零作为填充值。这样做是因为想要使用嵌入层的mask_zero参数来忽略值为零的输入。
2.2 双向长短期记忆网络层本节描述了双向长短期记忆网络(long short-term memory, LSTM)模型，它可以使用未来的输入特征。正如将在实验中展示的一样，这种特殊的结构可以提高标记精度。
2.2.1 循环神经网络和LSTM单元众所周知，读者可以基于对阅读中先前单词的理解来推断当前单词的真实含义。然而，传统的神经网络无法模拟这种现象，也无法推断出前一个事件的后续事件。循环神经网络(recurrent neural networks, RNN)可以解决这个问题，它可以被视为神经网络单元的多个副本，能在一定程度上实现信息持久性。RNN的一个关键点是它可以用于将先前的信息连接到当前任务，例如从前面的单词中推断出当前单词的含义。但是，当相关信息与当前位置之间的差距增大时，RNN将无法获取较远位置的信息。
长短期记忆网络(long short-term memory, LSTM)是一种特殊的RNN，能够通过特殊的设计学习长期相关性^[28]。LSTM也是神经网络的多拷贝结构，其中单个神经网络层包含4个交互层，如图 2所示。

图 2 LSTM网络中的重复单元

图选项

一般地，在时间t更新LSTM单元的公式是：

$\begin{array}{c}{f_{t}=\sigma\left(\boldsymbol{W}_{f} \cdot\left[\boldsymbol{h}_{t-1}, \boldsymbol{x}_{t}\right]+\boldsymbol{b}_{f}\right)} , \\ {i_{t}=\sigma\left(\boldsymbol{W}_{i} \cdot\left[\boldsymbol{h}_{t-1}, \boldsymbol{x}_{t}\right]+\boldsymbol{b}_{i}\right)} , \\ {C_{t}=f_{t} \times C_{t-1}+i_{t} \times C_{t}^{\prime} t} , \\ {C_{t}=\tanh \left(\boldsymbol{W}_{C} \cdot\left[h_{t-1}, x_{t}\right]+\boldsymbol{b}_{c}\right)} , \\ {o_{t}=\sigma\left(\boldsymbol{W}_{o}\left[h_{t-1}, x_{t}\right]+\boldsymbol{b}_{o}\right)} , \\ {\boldsymbol{h}_{t}=o_{t} \times \tanh \left(C_{t}\right)}.\end{array}$

(3)

其中：f_t是遗忘门的值；i_t是输入门的值；C_t是更新内容；C_t'是备选更新内容；O_t是输出门的值；σ是sigmoid函数；×是元素的乘积; x_t是t时刻的输入向量(例如，词嵌入); h_t是隐藏状态(也称为输出)向量，存储t时刻(和之前)的所有有用信息; W_i、W_f、W_c、W_o是隐藏状态h_t的权重矩阵；b_i、b_f、b_c、b_o表示偏置向量。
2.2.2 双向LSTM网络对于许多序列标记任务，如果既可以访问过去(左)又可以访问未来(右)的上下文，那将是大有裨益的。然而，LSTM的隐藏状态h_t仅能从过去获取信息，对未来一无所知。一个优秀的解决方案是使用双向LSTM(bi-directional LSTM, bi-LSTM)，其有效性已通过早期的相关研究得以证明^[27]。其基本思想是将每个序列分为向前和向后2个单独的隐藏状态表示，以分别获取过去和未来信息，然后连接2个隐藏状态形成最终的输出^[29]。这样，在特定的时间范围内，它可以有效地利用过去的特征(通过前向状态)和未来的特征(通过后向状态)。使用反向传播时间(back propagation through time, BPTT)训练双向LSTM网络^[20]。通过批处理措施，就可以同时处理多个句子。
2.3 条件随机场层条件随机场(conditional random field, CRF)是一个条件概率分布模型，其节点可以精确地分为2个不相交的节点集X和Y，分别代表观测变量和输出变量。在CRF下，给出一组输入随机变量X，并观测输出Y，CRF的推理问题与Markov随机场基本相同。在条件概率P(Y|X)模型中，输出变量Y表示眼跳目标(注视点)标记序列，输入变量X表示需要标记的单词序列。此时，将要解决的阅读眼跳目标预测问题就转化为了序列标记问题。在随机变量X为x的条件下，随机变量Y为y的条件概率是：

$\begin{array}{*{20}{c}}{P(y|x) = \frac{1}{{Z(x)}} \cdot }\\{\exp \left[ {\sum\limits_{i, k} {{\lambda _k}} {t_k}\left( {{y_{i - 1}}, {y_i}, x, i} \right) + \sum\limits_{i, l} {{\mu _l}} {s_l}\left( {{y_i}, x, i} \right)} \right].}\end{array}$

(4)

其中：Z (x)是归一化因子; t_k是转移特征函数，它取决于当前注视位置和先前位置；s_l是状态特征函数，取决于当前注视位置；特征函数t_k和s_l的值取1或0，这意味着当它满足特征条件时，该值为1，否则为0；λ_k和μ_l是通过模型训练获得的相应权重。参数训练主要基于最大似然准则和最大后验准则，其训练目标是最大化在训练集中正确标记目标序列的概率。
在眼跳目标预测任务中，需要预测当前词是否是注视点(y_i)，其结果不仅依赖于当前词的特征取值(x)，而且依赖于对上一个词是否为注视点的预测结果(y_i-1)，因为上一个词是否被预测为注视点会影响当前词的预测，这与线性链CRF模型正好吻合。
2.4 bi-LSTM-CRF网络最后，通过将bi-LSTM的输出向量馈送到CRF层来构建深度神经网络模型。图 3详细说明了该网络的架构。

图 3 基于深度神经网络的眼动模型架构

图选项

bi-LSTM-CRF模型分为4层：第1层是词嵌入层，利用预训练或随机初始化的嵌入矩阵将句子中的每个单词x_i由one-hot向量映射为低维稠密的词向量(词嵌入)；第2层是双向LSTM神经网络，用于自动提取文字序列特征；第3层是TimeDistributed完全连接层，它对张量的每个时间步长应用相同的稠密(完全)连接操作；第4层是CRF层，进行句子级的序列标注。
CRF只考虑了标注序列的转移特征和状态特征，没有考虑到文字序列的上下文信息。LSTM作为一种时间递归神经网络，可以处理和预测时间序列中间隔和延迟相对较长的重要事件。在CRF之前加上LSTM，相当于用LSTM抽象过的一种语言关系来进行CRF训练，这样利用了文字序列与标注序列两方面的上下文关系，更符合实际的阅读眼跳加工过程。
可以将表达式P(Y|X) =Score_crf (x, y)看作一个评分，表示该评分状态序列与给定的输入序列匹配得如何。现在的思路是，用非线性神经网络来代替式(4)中的线性评分函数。此时，定义得分函数：

$\begin{array}{c}{\rm{Scor}}{{\rm{e}}_{{\rm{lstm\_crf}}}}(x, {\rm{ }}y) = \\\sum\limits_{i = 0}^n {{\mathit{\boldsymbol{W}}_{{s_{i - 1}}, {s_i}}}} \cdot {\mathop{\rm LSTM}\nolimits} {(x)_i} + {b_{{s_{i - 1}}, {s_i}}}.\end{array}$

(5)

其中: W_{s_{i-1, s_i}}和b分别是权重向量和对应于从s_i-1到s_i的状态转变的偏差。在构建该得分函数之后，就可以像通常的CRF一样优化条件概率p (y|x; W, b)，并通过神经网络向后传播。
3 模型训练本节提供了有关训练神经网络的详情。使用keras-contrib库实现提出的神经网络，该库包含官方keras包的有用扩展。单个模型的计算在GeForce GTX TITAN X GPU上运行。使用本节中讨论的设置和语料库，模型训练需要大约20 min。
3.1 数据集本研究基于Provo语料库^[30]的数据而开展。语料库是公开的，可以从Open Science Framework下载(网址为https://osf.io/sjefs)。语料库由可预测性规范和眼动追踪数据2部分组成。眼动追踪语料库包含84位以英语为母语的参与者的眼动数据，他们阅读了包括网络新闻文章、科普杂志和虚构的公共领域作品在内的所有55种文本。这些段落平均长度为50个单词(单词个数范围：39~62)，平均包含2.5个句子(句子个数范围：1~5)。句子平均长度为13.3个单词(单词个数范围：3~52)。在所有文本中，共有2 689个单词，包括1 197个独特的单词形式。通过SR Research EyeLink 1000 Plus眼动仪(空间分辨率为0.01°)以1 000 Hz的频率采样记录眼球运动(参见文[30]以了解更多细节)。
对于本文的实验，语料库按以下比例随机分成3个数据集：60%的文本用于训练，20%的文本用于开发和验证，最后20%的文本用于测试。
3.2 特征选取心理学研究中的证据表明：注视和眼跳的模式部分是由低级视觉因素(例如：词长)驱动的，部分是由文本的语言和认知等高级视觉因素驱动^[5]。目前已知的影响阅读眼跳单词的可能性特征是字长、频率和可预测性等^[31]。例如，文本中较短的单词比较长的单词更容易被跳读^[32]。可预测性属于高水平认知因素，其不能被很好地量化。因此，本文使用词性(part of speech, POS)来表示高级认知因素。使用构成似然自动词标记系统(constituent likelihood automatic word-tagging system, CLAWS)为单词进行词性标记，单词被分成9个单独的类。总共包括227个形容词，169个副词，196个连词，364个限定词，682个名词，287个介词，109个代词，502个动词，以及153个其他单词和符号。
最终，神经网络使用的特征包含嵌入处理过的单词，词长(用于低级视觉特征)和词性(用于高级认知特征)。
3.3 训练过程本文使用一个通用的随机梯度下降(stochastic gradient descent, SGD)前向和后向训练程序。图 4中显示了训练算法过程。

图 4 bi-LSTM-CRF模型训练算法过程

图选项

在每个训练周期，将整个训练数据分成若干批次，并且每次处理一批。每批包含一个由批量大小参数确定的句子列表。在实验中，使用100的批量大小，这意味着包括总长度不大于100的句子。对于每一批，首先运行双向LSTM-CRF模型正向传递，包括LSTM的正向状态和向后状态的正向传递。作为结果，得到所有位置的所有标签的输出分数f_θ([x]₁^T)。然后，运行CRF层前向和后向传递以计算网络输出和状态转移的边缘梯度。之后，可以将误差从输出反向传播到输入，其中包括LSTM的前向和后向状态的反向传递。最后，更新网络参数，包括状态转移矩阵[A]_jⁱ和原始双向LSTM参数θ。
3.4 优化算法采用具有批量大小10和动量0.9的小批量随机梯度下降来执行参数优化。选择初始学习率η₀，并且在每个训练周期将学习率更新为η_t=η₀/(1+ρ_t)，衰减率ρ= 0.05，t是批处理完成的时刻。为了减少“梯度爆炸”的影响，使用5.0的梯度剪裁值^[33]。本文也考察了其他更复杂的优化算法，如AdaDelta ^[34]、Adam ^[35]或RMSProp ^[36]，但在实验中，发现它们都没有显着改善SGD的动量和梯度裁剪。
3.5 调谐超参数表 1列出了实验所选择的超参数。通过随机搜索来调节超参数。由于时间限制，在整个超参数空间中进行随机搜索是不可能的。
表 1 实验的超参数

层级	超参数	值
Embedding	input_dimoutput_diminput_length	n_words + 120text_max_len
LSTM	unitsrecurrent_dropout	500.1
TimeDistributed	unitsactivation	50relu
	batch sizeoptimizervalidation_split	32SGD0.2

表选项

该模型的概要如图 5所示(由Kears生成)。每层的参数数量=(上层神经元数量×本层中神经元数量)+(本层中神经元数量)。因此，需要训练的所有超参数是每层参数的总和，即57 420。

图 5 每层的参数数量和所有需要训练的超参数

图选项

3.6 防止训练过拟合为了防止因训练数据量较少而可能带来的过拟合问题，本文采取了4种策略：1)使用结构较简单的模型，即减少设计模型的复杂度，使模型深度仅为4层，单层的节点数最多处为50；2)选用较少的特征，即仅选用词长和词性作为候选特征，在对实验精度影响有限的前提下，有效地防止了训练过拟合；3)应用dropout丢掉一些网络节点，即丢掉10%的无用节点，以防止过拟合；4)使用数据增强技术(data augmentation)扩充训练样本，即通过对文本序列数据应用一维卷积操作。卷积核长度(length)分别为2、3、4，权值依次取集合{unique(S)}中的元素，经过卷积运算之后训练样本增加的倍数为sizeof(unique(S))×3，实际的训练样本中所包含的单词数为：Σ[sizeof(S)+lenth-1]×sizeof(unique(S))，lenth∈{2, 3, 4}。其中，unique表示去除重复操作，得到唯一单词，sizeof表示求元素个数操作。以数据集中的第一个受试为例，所阅读的单词数为2 743，sizeof(unique(S))数为1 272，采用长度为2、3、4的卷积核进行一维卷积操作之后，训练样本数据量扩充了3 816倍，实际的训练样本中所包含的单词数为18 854 856个(见表 2)。
表 2 测试数据中注视词的基线率

受试编号	受试1	受试2	受试3	受试4	受试5	受试6	受试7	受试8	受试9	受试10
注视词数	1 907	2 158	2 120	1 788	1 666	2 040	1 856	1 989	1 537	2 046
基线率/%	69.52	78.67	77.29	65.18	60.74	74.37	67.66	72.51	56.03	74.59
总词数	2 743(100%)

表选项

4 模拟验证4.1 评价指标和基线仿照NN09^[14]和HMKA12 ^[18]中有关基线率的确定方法，为了评估由每个受试者的眼动数据所训练的模型，对测试数据中的单词数量进行了统计，并将每个受试者的眼动数据中受注视的单词比率作为基线(baseline)(参见表 2)。对于测试集，预测在受试上每个单词的注视/眼跳分布，并将预测为注视单词的准确性作为评估指标。对于每个预测分布，根据眼动数据中观察到的分布计算准确度。然后，采用测试集中所有单词的平均精度。
4.2 准确率比较基于节3.2中的分析，实验确定了用于预测注视点的数据特征。特征可以分为2种类型：低级视觉特征和高级认知特征。实验探索了低级视觉特征和高级认知特征分别对预测准确度的贡献，以及这些特征的组合对预测准确度的影响。
表 3和图 6中的实验结果表明：字长特征(word lenth, WL, 对应低级视觉特征)对提高准确度的影响为76.53%，而词性特征(part of speech, POS, 对应高级认知特征)对提高准确度的影响较小。
表 3 测试数据的注视词预测准确率

%
受试编号	baseline	WL	POS	WL&POS
受试1	69.52	78.31	70.28	79.84
受试2	78.67	81.35	78.97	83.89
受试3	77.29	80.73	79.64	82.85
受试4	65.18	76.67	68.80	78.58
受试5	60.74	71.38	63.41	73.02
受试6	74.37	77.63	75.18	79.30
受试7	67.66	72.56	69.43	77.90
受试8	72.51	76.67	73.79	78.56
受试9	56.03	70.85	61.82	72.44
受试10	74.59	79.11	75.88	79.83
平均值	69.66	76.53	71.72	78.62

表选项

图 6 使用测试数据的不同特征进行注视点预测准确度比较

图选项

实验还考虑了2种特征类型的组合。从表 3中可以看出，为WL特征添加其他特征几乎无助于提高准确度。此外，POS特征对提高准确度的影响并不明显。仅依靠POS特征获得的预测精度类似于基线精度。这些观察结果表明，当单独使用这些特征时，高级认知特征不会捕获太多额外信息，组合特征仅与低层次视觉特征结合时才会产生良好的作用。
综上可以得出：虽然认知因素对眼跳目标选择有一定的作用，但低水平视觉线索对选择眼跳目标的影响大于高水平认知因素，这对于眼动预测模型来说是一个有用的结论。
由于与NN09^[14]和HMKA12 ^[18]的实验设置不同，无法直接将本文的结果与他们的预测准确度进行比较。然而，考虑到模型的预测准确率与NN09和HMKA12的预测准确率相似，但使用的数据特征较少(见表 4)，因此可以说所提出的bi-LSTM-CRF模型在模拟阅读眼动方面表现出色。
表 4 E-Z Reader, NN09, HMKA12和本文的模型之间的比较

比对参数	E-Z Reader	NN09	HMKA12	本文模型
训练集大小(句子数)	/	157.8	157.8	137.5
使用特征数	/	8	7	2
注视词预测准确率/%	57.7	69.5	78.601	78.621

表选项

4.3 讨论基于深度神经网络的模型实现了与现有机器学习模型类似的注视点预测准确度，同时比现有模型需要更少的数据特征。本文认为原因有：一方面，它利用卷积运算，客观地增加训练样本的数量；另一方面，注视和眼跳机制的决定因素部分是由低级视觉因素驱动的，部分是由文本的高级认知因素驱动的。CRF可以考虑标签序列的转移特征和状态特征，这符合人类对低级视觉特征的处理。LSTM是一种能够处理和预测时间序列中具有较长间隔和延迟的重要事件的时间递归神经网络，它符合人类对高级视觉特征的处理。在CRF之前加入LSTM相当于使用LSTM提取的语言关系来训练CRF，利用了文本序列和标签序列两方面的上下文，这更符合阅读眼跳的实际原理。
此外，在实验中，神经网络的每一层处理相对简单，仍然存在改进的空间，例如词向量嵌入的初始化方法，这仅是这里最简单的词嵌入。在未来的工作中，可以考虑对句子进行分段，然后将词向量初始化为字符向量。也可以尝试通过卷积神经网络(convolutional neural networks, CNN)处理低水平特征，然后使用“组合”来获得字符级嵌入。或者可以尝试在模型中加入注意力(attention)机制，借鉴SWIFT眼动控制模型的注意梯度指导理论(guidance by attention gradient, GAG)研究成果，构建新型神经网络眼动模型。
5 结论本文提出了一种基于深度神经网络的新型眼动模型，并且评估其在阅读注视点预测上的能力。该方法在预测读者阅读注视点方面能达到与传统眼动模型相似的准确度。此外，与现有的机器学习模型相比，所提出的模型较少依赖于数据特征，并且需要较少的预处理，这使得所提出的模型在实时人机应用领域具有吸引力。实验结果进一步证明了所提出的模型在阅读眼动预测方面的新颖性、有效性和优越性。

参考文献

[1]	孟红霞, 白学军, 闫国利, 等. 词边界信息对读者阅读歧义短语时眼跳策略的影响[J]. 心理科学, 2015, 38(4): 770-776. MENG H X, BAI X J, YAN G L, et al. The effect of word boundary information on the saccade strategy upon reading the spatially ambiguous words[J]. Journal of Psychological Science, 2015, 38(4): 770-776. (in Chinese)
[2]	FISHMAN G A, BIRCH D G, HOLDER G E, et al. Electrophysiologic testing in disorders of the retina, optic nerve, and visual pathway[M]. 2nd ed. San Francisco: The Foundation of the American Academy of Ophthalmology, 2001.
[3]	RAYNER K. Eye movements in reading and information processing:20 years of research[J]. Psychological Bulletin, 1998, 124(3): 372-422. DOI:10.1037/0033-2909.124.3.372
[4]	RADACH R, MCCONKIE G W. Determinants of fixation positions in words during reading[M]//UNDERWOOD G. Eye guidance in reading and scene perception. Oxford, England: Elsevier Science Ltd., 1998: 77-100.
[5]	CLIFTON JR C, FERREIRA F, HENDERSON J M, et al. Eye movements in reading and information processing:Keith Rayner's 40 year legacy[J]. Journal of Memory and Language, 2016, 86: 1-19. DOI:10.1016/j.jml.2015.07.004
[6]	FRISSON S, HARVEY D R, STAUB A. No prediction error cost in reading:Evidence from eye movements[J]. Journal of Memory and Language, 2017, 95: 200-214. DOI:10.1016/j.jml.2017.04.007
[7]	KUPERBERG G R, JAEGER T F. What do we mean by prediction in language comprehension?[J]. Language, Cognition and Neuroscience, 2016, 31(1): 32-59. DOI:10.1080/23273798.2015.1102299
[8]	LUKE S G, CHRISTIANSON K. Limits on lexical prediction during reading[J]. Cognitive Psychology, 2016, 88: 22-60. DOI:10.1016/j.cogpsych.2016.06.002
[9]	REICHLE E D. Computational models of reading:A primer[J]. Language and Linguistics Compass, 2015, 9(7): 271-284. DOI:10.1111/lnc3.v9.7
[10]	SLATTERY T J, YATES M. Word skipping:Effects of word length, predictability, spelling and reading skill[J]. The Quarterly Journal of Experimental Psychology, 2017. DOI:10.1080/17470218.2017.1310264
[11]	苏衡, 刘志方, 曹立人. 中文阅读预视加工中的词频和预测性效应及其对词切分的启示:基于眼动的证据[J]. 心理学报, 2016, 48(6): 625-636. SU H, LIU Z F, CAO L R. The effects of word frequency and word predictability in preview and their implications for word segmentation in Chinese reading:Evidence from eye movements[J]. Acta Psychologica Sinica, 2016, 48(6): 625-636. (in Chinese)
[12]	REICHLE E D, RAYNER K, POLLATSEK A. The E-Z reader model of eye-movement control in reading:Comparisons to other models[J]. Behavioral and Brain Sciences, 2003, 26(4): 445-476. DOI:10.1017/S0140525X03000104
[13]	ENGBERT R, NUTHMANN A, RICHTER E M, et al. SWIFT:A dynamical model of saccade generation during reading[J]. Psychological Review, 2005, 112(4): 777-813. DOI:10.1037/0033-295X.112.4.777
[14]	NILSSON M, NIVRE J. Learning where to look: Modeling eye movements in reading[C]//Proceedings of the 13th Conference on Computational Natural Language Learning. Boulder, Colorado: Association for Computational Linguistics, 2009: 93-101. https://dl.acm.org/citation.cfm?id=1596392
[15]	NILSSON M, NIVRE J. Towards a data-driven model of eye movement control in reading[C]//Proceedings of 2010 Workshop on Cognitive Modeling and Computational Linguistics. Uppsala, Sweden: Association for Computational Linguistics, 2010: 63-71. https://www.researchgate.net/publication/262211099_Towards_a_data-driven_model_of_eye_movement_control_in_reading
[16]	MATTHIES F, S? GAARD A. With blinkers on: Robust prediction of eye movements across readers[C]//Proceedings of 2013 Conference on Empirical Methods in Natural Language Processing. Seattle, Washington, USA: Association for Computational Linguistics, 2013: 803-807.
[17]	LANDWEHR N, ARZT S, SCHEFFER T, et al. A model of individual differences in gaze control during reading[C]//Proceedings of 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: Association for Computational Linguistics, 2014: 1810-1815.
[18]	HARA T, MOCHIHASHI D, KANO Y, et al. Predicting word fixations in text with a CRF model for capturing general reading strategies among readers[C]//Proceedings of the 1st Workshop on Eye-Tracking and Natural Language Processing. Mumbai, India: The COLING 2012 Organizing Committee, 2012: 55-70.
[19]	MOCH B N, KOMARUDIN K, SUSILO M S. Development of eye fixation points prediction model from eye tracking data using neural network[J]. International Journal of Technology, 2017, 8(6): 1082-1088. DOI:10.14716/ijtech.v8i6
[20]	HOU Y, LI Z, WANG P, et al. Skeleton optical spectra-based action recognition using convolutional neural networks[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018, 28(3): 807-811.
[21]	COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research, 2011, 12: 2493-2537.
[22]	GOLDBERG Y. A primer on neural network models for natural language processing[J]. Journal of Artificial Intelligence Research, 2016, 57: 345-420. DOI:10.1613/jair.4992
[23]	DAT N D, DAT N D, TRAN V T N, et al. Fuzzy C-means for english sentiment classification in a distributed system[J]. Applied Intelligence, 2017, 46(3): 717-738. DOI:10.1007/s10489-016-0858-z
[24]	HUANG M L, QIAN Q, ZHU X Y. Encoding syntactic knowledge in neural networks for sentiment classification[J]. ACM Transactions on Information Systems (TOIS), 2017, 35(3): 26-33.
[25]	张宇, 张鹏远, 颜永红. 基于注意力LSTM和多任务学习的远场语音识别[J]. 清华大学学报(自然科学版), 2018, 58(3): 249-253. ZHANG Y, ZHANG P Y, YAN Y H. Long short-term memory with attention and multitask learning for distant speech recognition[J]. Journal of Tsinghua University(Science and Technology), 2018, 58(3): 249-253. (in Chinese)
[26]	张雪英, 牛溥华, 高帆. 基于DNN-LSTM的VAD算法[J]. 清华大学学报(自然科学版), 2018, 58(5): 509-515. ZHANG X Y, NIU P H, GAO F. DNN-LSTM based VAD algorithm[J]. Journal of Tsinghua University (Science and Technology), 2018, 58(5): 509-515. (in Chinese)
[27]	DYER C, BALLESTEROS M, LING W, et al. Transition-based dependency parsing with stack long short-term memory[C]//Proceedings of the 53rd Annual Meeting of the Association for Com-putational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing, China: Association for Computational Linguistics, 2015: 321-332.
[28]	GREFF K, SRIVASTAVA R K, KOUTNíK J, et al. LSTM:A search space odyssey[J]. IEEE Transactions on Neural Networks and Learning Systems, 2016, 28(10): 2222-2232.
[29]	HUANG Z, XU W, YU K. Bidirectional LSTM-CRF models for sequence tagging[J/OL]. (2015-08-09)[2018-09-10]. https://arxiv.org/abs/1508.01991v1.
[30]	LUKE S G, CHRISTIANSON K. The Provo Corpus:A large eye-tracking corpus with predictability norms[J]. Behavior Research Methods, 2018, 50(2): 826-833. DOI:10.3758/s13428-017-0908-4
[31]	KENNEDY A, PYNTE J, MURRAY W S, et al. Frequency and predictability effects in the Dundee Corpus:An eye movement analysis[J]. Quarterly Journal of Experimental Psychology, 2013, 66(3): 601-618. DOI:10.1080/17470218.2012.676054
[32]	YU A W, LEE H, LE Q V. Learning to skim text[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Ancouver, Canada: Association for Computational Linguistics, 2017: 1880-1890.
[33]	PASCANU R, MIKOLOV T, BENGIO Y. On the difficulty of training recurrent neural networks[C]//Proceedings of the 30th International Conference on International Conference on Machine Learning. Atlanta, USA: JMLR.org, 2012: Ⅲ-1310-Ⅲ-1318. https://www.researchgate.net/publication/233730646_On_the_difficulty_of_training_Recurrent_Neural_Networks
[34]	ZEILER M D. ADADELTA: An adaptive learning rate method[J/OL]. (2012-12-22)[2018-09-10] http://cn.arxiv.org/abs/1212.5701.
[35]	KINGMA D P, BA J. Adam: A method for stochastic optimization[J/OL]. (2014-12-22)[2018-09-10]. https://arxiv.org/abs/1412.6980.
[36]	DAUPHIN Y N, DE VRIES H, BENGIO Y. Equilibrated adaptive learning rates for non-convex optimization[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press, 2015: 1504-1512. https://www.researchgate.net/publication/272423025_RMSProp_and_equilibrated_adaptive_learning_rates_for_non-convex_optimization