基于场景与话题的聊天型人机会话系统

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2022-11-27

图 1 基于LSTM的序列变换模型

图选项

其工作原理是通过编码器(输入端BiLSTM)从输入序列中提取出固定长度的语义向量，然后以该向量为输入通过解码器(输出端LSTM)得出输出序列，$\text { 即变长输人 } \stackrel{\text { 编码器 }}{\longrightarrow} \text { 定长向量 } \stackrel{\text { 解码器 }}{\longrightarrow} \text { 变长输 }$。模型训练即是根据语料库数据拟合上述变换关系的过程。
1.2 长短期记忆网络作为序列变换模型的框架基础，首先考虑LSTM中的信息传播和训练问题，其单元结构如图 2a所示。对于未知长度的输入序列，LSTM的实际结构可看作沿时间方向自重复堆叠，同时可沿深度方向扩展，构成深度LSTM如图 2b所示。

图 2 长短期记忆网络

图选项

不难看出，由于LSTM是对基础RNN的一种推广，因此其本身也是递推自迭代模型：每个网络单元以x_t为外部输入，h_t-1、c _t-1为上一时刻的单元状态，经计算处理得出新单元状态h_t、c_t并传递给下一时刻，同时将h_t作为当前时刻的输出传递给下一层，相当于一个三输入二输出系统。单元内部计算过程为

$\left\{\begin{array}{l}\boldsymbol f_{t}=\operatorname{Logistic}\left(\boldsymbol{W}_{\mathrm{f}, \mathrm{h}} \boldsymbol{h}_{t-1}+\boldsymbol{W}_{\mathrm{f}, \mathrm{d}} \boldsymbol{d}_{t}+\boldsymbol{b}_{\mathrm{f}}\right) ,\\\boldsymbol i_{t}=\operatorname{Logistic}\left(\boldsymbol{W}_{i, \mathrm{~h}} \boldsymbol{h}_{t-1}+\boldsymbol{W}_{\mathrm{i}, \mathrm{d}} \boldsymbol d_{t}+\boldsymbol{b}_{\mathrm{i}}\right) ,\\\boldsymbol{\gamma}_{t}=\tanh \left(\boldsymbol{W}_{\mathrm{c}, \mathrm{h}} \boldsymbol{h}_{t-1}+\boldsymbol{W}_{\mathrm{c}, \mathrm{d}} \boldsymbol{d}_{t}+\boldsymbol{b}_{\mathrm{c}}\right) ,\\\boldsymbol{c}_{t}=\boldsymbol{f}_{t}{ }^{\circ} \boldsymbol{c}_{t-1}+\boldsymbol{i}_{t} \cdot \boldsymbol{\gamma}_{t}, \\\boldsymbol{o}_{t}=\operatorname{Logistic}\left(\boldsymbol{W}_{\mathrm{o}, \mathrm{h}} \boldsymbol{h}_{t-1}+\boldsymbol{W}_{\mathrm{o}, \mathrm{d}} \boldsymbol{d}_{t}+\boldsymbol{b}_{\mathrm{o}}\right) ,\\\boldsymbol{h}_{t}=\boldsymbol{o}_{t} \circ \tanh \boldsymbol c_{t},\end{array}\right.$

(1)

其中：f_t、i_t和o_t分别表示遗忘门、输入门和输出门的控制向量，γ_t表示单元状态c_t的原始增量，是信息流正向传播的中间结果；W_f，h、W_f，d、b_f、W_i，h、W_i，d、b_i、W_o，h、W_o，d、b_o、W_c，h、W_c，d、b_c则分别表示对应于各中间量的模型参数，也是LSTM的训练目标。
与传统神经网络的学习方法类似，LSTM同样采用残差梯度的反向传播算法进行训练。图 2b中，残差梯度须沿时间和深度2个维度同时进行反向传播计算并叠加形成迭代优化算法。
1.3 双向长短期记忆网络由于自然语言天生具有语序特性，LSTM也具备时序性质，因此使用后者建模描述前者时可分为2种基本情形：使词向量输入顺序与LSTM时序相同或相反。2种情形下的特征提取结果均可在一定程度上表征语句的整体语义，故可将两者融合为一个整体，共同作为输入序列的语义向量，模型结构如图 3所示。

图 3 双向长短期记忆网络

图选项

不难看出，BiLSTM适用于特征提取，而难以应用于序列生成，故在图 1的序列变换模型中，仅编码器端可做双向推广，解码器端仍为单向LSTM。进一步，从图 3中不难发现，对于BiLSTM，只需取式(2)，则BiLSTM的正向传播公式与单向LSTM无异，仍遵从式(1)，从而其反向传播算法也与单向LSTM相同，故此处不再专门列出。

$\left\{\begin{array}{l}\boldsymbol{h}_{\mathrm{e}, i}=\left[\boldsymbol{h}_{\mathrm{e}, i,+}^{\mathrm{T}}, \boldsymbol{h}_{\mathrm{e}, L+1-i,-}^{\mathrm{T}}\right]^{\mathrm{T}}, i=1,2, \cdots, L ; \\\boldsymbol{c}_{\mathrm{e}}=\boldsymbol{c}_{\mathrm{e}, L}=\left[\boldsymbol{c}_{\mathrm{e}, L,+}^{\mathrm{T}}, \boldsymbol{c}_{\mathrm{e}, L,-}\right]^{\mathrm{T}} ; \\\boldsymbol{h}_{\mathrm{e}}=\left[\boldsymbol{h}_{\mathrm{e}, L,+}^{\mathrm{T}}, \boldsymbol{h}_{\mathrm{e}, L,-}^{\mathrm{T}}\right]^{\mathrm{T}} ;\end{array}\right.$

(2)

其中变量的下标“+”和“-”分别表示其指代BiLSTM正序和逆序分支中的参数。
2 序列变换附加控制信息2.1 注意力机制在编码器(BiLSTM)—解码器(LSTM)框架基础上，若采用图 1的方式直接将语义向量作为单元状态初值赋予解码器，然后依次生成输出序列，则不难发现，语义向量在解码阶段各时刻的作用是均质化的，而这与自然语言的语境关联对应特性并不相符。
因此，可引入注意力机制，使解码结果更加符合自然语言习惯。从物理意义上来看，该机制与人类行为中注意力的分配与流转相似。引入注意力机制的会话系统结构如图 4所示。

图 4 引入注意力机制的序列变换模型

图选项

进一步，根据系统结构可知，注意力向量d_a，t也必须是一个定长向量，故可取

$\boldsymbol{d}_{\mathrm{a}, t}=\sum\limits_{i=1}^{L} a_{i, t} \boldsymbol{h}_{\mathrm{e}, i}=\boldsymbol{H}_{\mathrm{e}} \boldsymbol{a}_{t},$

(3)

即d_a，t是编码器输出序列h_e，i(i = 1，2，…，L)的线性组合。组合系数a_i，t可通过Softmax函数构造：

$a_{i, t}=\operatorname{Softmax}_{i}\left(\boldsymbol s_{t}\right)=\frac{\mathrm{e}^{s_{i, t}}}{\sum\limits_{j=1}^{L} \mathrm{e}^{s_{j, t}}}, \quad i=1,2, \cdots, L \text {. }$

(4)

其中参数s_i，t表示解码器t时刻输入状态h_d，t-1与编码器i时刻输出状态h_e，i的相关性，可将其建模为

$s_{i, t}=\boldsymbol{w}_{\mathrm{s}}^{\mathrm{T}} \tanh \left(\boldsymbol{A}_{\mathrm{e}} \boldsymbol{h}_{\mathrm{e}, i}+\boldsymbol{A}_{\mathrm{d}} \boldsymbol{h}_{\mathrm{d} , t-1}+\boldsymbol{b}_{\mathrm{a}}\right)+b_{\mathrm{s}} .$

(5)

其中w_s、A_e、A_d、b_a和b_s表示各待学习参数。至此，只需将注意力向量与解码器原输入相连接，共同构成新的输入向量参与解码计算即可。
注意力机制的训练方法同样基于残差梯度的反向传播，且与序列变换模型同步进行。
2.2 场景与话题注意力机制的数学本质是对解码器输入进行扩维，并入用于指示语义局部对应关系的注意力向量，以控制解码过程达到更好的效果。不难发现，同解码器实时输出一样，额外添加的d_a，t也随着解码时刻t的迭代后移而不断变化，即以图 4的系统结构进行会话建模，则解码器的输入信息均为时变量。另一方面，恰好与之相对的是，在自然语言会话中，还有一些在语义层面上更加抽象、更高层次的控制因素即场景与话题，随时间变化较为缓慢，特别是在同一轮对话中通常需保持一致(可认为是时不变的)。
因此，考虑对序列变换模型的控制机制做进一步扩展：引入在同轮会话中保持不变的场景与话题向量(简称为话题向量)。为使模型结构不至过于复杂，将场景与话题建模为一个定长向量，与注意力向量一样，以连接方式并入解码器输入端，最终会话系统结构如图 5所示。

图 5 进一步引入话题网络的序列变换模型

图选项

该扩展需从编码器输出中提取话题向量，即实现从一个定长向量到另一个定长向量的变换，故可将其建模为一个神经网络，简称为话题网络。进一步，由于绝大多数语料库均不直接提供场景与话题信息，故不宜采用“语义向量 $\boldsymbol{c}_{\mathrm{e}, L} \stackrel{\text { 神经网络 }}{\longrightarrow}$话题向量”的一般神经网络建模话题网络(无法预先得到训练目标)。此处采用稀疏自编码机(sparse auto-encoder，SAE)^[21]方式对话题网络进行建模优化，如图 6所示。

图 6 稀疏自编码机

图选项

SAE对应的数学优化问题为

$\min _{p} \frac{1}{N} \sum\limits_{k=1}^{N}\left\|\boldsymbol{F}\left(\boldsymbol{x}_{k} ; \boldsymbol{p}\right)-\boldsymbol{x}_{k}\right\|_{2}^{2}+p_{\mathrm{s}} \sum\limits_{j=1}^{h_{i}} E\left(\rho \| \bar{a}_{i, j}\right) .$

(6)

其中：x_k(k = 1，2，…，N)表示全体训练样本，p表示待学习的全体网络参数，p_s表示稀疏性惩罚因子，h_i表示第i隐层的节点数，ρ表示稀疏性参数，a_i，j表示第i隐层第j节点的平均激发率，E(x‖y)表示Kullback-Leibler散度(相对熵)，用于衡量x、y之间的差距。
由式(6)可知，SAE的数学本质是在稀疏性约束下逼近恒等变换c_e，L→c_e，L(将c_e，L代入诸x_k)，而其训练是逐层进行的：从自编码机的某一隐层截断，叠加上一个训练解码层后使最终解码输出逼近原始输入向量；然后固定从输入层到当前隐层的所有网络参数，将训练解码层后移一层，重新训练并固定下一隐层与解码层参数，以此类推。学习完成后，网络各中间隐层的激发输出即可看作从输入向量中提取到的逐层抽象化的特征表达，在本问题中则对应于从输入语义向量中提取出的话题向量。
3 实验与讨论3.1 语料库说明本文采用从剧本网(http://www.juben98.com) 和华语编剧网(https://www.1bianju.com)提供的部分剧本中提取的中文对话语料库为数据集，进行模型训练(采用90%数据)和测试评价(采用剩余10%数据)。
这些剧本创作者多为业余编剧或戏剧爱好者，因此格式并不统一，内容质量有一定差距，因此本文在人工筛选的基础上采用以下规则对原始文本数据进行规范整理：
1) 删除空白行与各种括号中的内容；
2) 删除剧本介绍等头、尾部分的非对白内容；
3) 通过模板匹配方法删除场景介绍等穿插在剧本中的辅助文本内容；
4) 删除空对白或长度超过64汉字(128字节)的对白内容；
5) 仅保留同一场景中的双人对话，删除涉及3个或3个以上角色的多人会话内容；
6) 删除少于4轮的对白，即两个角色每人至少各发言2次。
最终得到的语料库属性如表 1所示。
表 1 语料库说明与对比

语料库	对话数	平均轮次	平均单轮字数
基于剧本网、编剧网的对话语料库	49 113	6.08	12.41
康奈尔对话语料库	83 097	3.67	11.23

表选项

注意到作为参照的康奈尔对话语料库^[22]平均对话轮次小于4，这是因为该数据集对“对话”的定义较为严苛，同样2个人物在连续时间上的对话过程，即使只是话题有所转变也会被切分为多段对话独立看待。不难看出，这与本文基于场景和话题流转特性的研究背景有一定出入。
3.2 模型与训练本文最终采用图 5的结构实现聊天型人机会话系统：在编码器—解码器框架基础上引入注意力机制和话题网络，以增加系统柔性和解码指向性，最终提高系统对序列变换的拟合能力。
进一步，对于上述聊天型人机会话系统，由于话题网络以自编码机为基本模型，其训练方式特别是残差来源有别于传统神经网络，故无法直接按图 5的完整结构执行反向传播算法。综合考量模型结构和训练复杂度，此处采用分步方式进行参数学习：
1) 首先按图 4的结构使用整体反向传播算法训练编码器、注意力机制和解码器参数；
2) 然后以编码器输出为样本集训练话题网络；
3) 最后，固定编码器和话题网络参数，再按图 5结构执行反向传播算法，更新注意力机制和解码器参数。
综合考虑模型复杂度、会话性能、训练过程等因素，最终选取模型结构与训练参数如下：
1) 模型结构参数：
(a) 编码器和解码器分别采用2层BiLSTM和2层LSTM；
(b) 词向量(编码器输入、解码器输出)为512维；
(c) 语义向量(编码器、解码器单元状态，话题网络输入)为512维；
(d) 注意力向量为512维；
(e) 话题网络采用4层(3隐藏层)SAE；
(f) 稀疏性参数ρ为0.03；
(g) 话题向量(话题网络输出)为128维；
2) 训练参数：
(a) 迭代学习率为0.2；
(b) BiLSTM和LSTM批处理规模均为1 024。
3.3 结果与讨论以基于剧本网和编剧网的中文会话语料库为数据集，采用公开的结巴算法^[23]实现中文分词，以Word2Vec算法实现中文词汇的向量化，并按3.2节所述的分步算法对模型进行训练学习。
最终，本文采取综合指标评价模型性能：
1) 改进的BLEU评价指标：
(a) 主要参考BLEU-1至BLEU-3，以度量模型给出的预测回复与测试样本标准回复之间的措辞重复度；
(b) 引入指数短句惩罚因子，即认为长度过短的回复不是“好的聊天回复”；
2) 同时参考回复用词的信息熵，即认为由高频词汇堆砌而成的通用型回复不是“好的聊天回复”。
表 2展示的是不同训练和预测条件下各模型在测试集上的评价结果(以图 4系统结构，即3.2节中第1步训练结果为对比基准)。
表 2 不同训练和预测条件下各模型的评价结果

系统模型	训练终止条件	集束搜索窗口宽度	P_B-1	P_B-2	P_B-3	词汇信息熵
基于话题网络的聊天型人机会话系统	自然收敛	1	0.005	0.003	0.002	4.35
	过拟合	1	0.221	0.128	0.096	7.63
	过拟合	2	0.197	0.113	0.085	7.39
	过拟合	3	0.183	0.104	0.080	7.30
基于注意力机制的LSTM会话模型	自然收敛	1	0.004	0.003	0.002	4.18
	过拟合	1	0.191	0.109	0.083	7.58
	过拟合	2	0.172	0.096	0.074	7.33
	过拟合	3	0.160	0.088	0.069	7.26

表选项

其中评价指标栏P_B-n表示引入指数短句惩罚的BLEU-n评价指标；训练终止条件栏的“自然收敛”是指以最大似然为训练目标时，模型在负梯度下降迭代算法下自然收敛的训练结果，而“过拟合”则是指以评价指标P_B-3取到局部最大值为终止条件的训练结果，后者所需的训练步数通常不少于前者的15倍。
从表 2中不难看出，第2行P_B-3指标最大，对应的系统模型与训练条件是最优选择：引入话题网络，训练时适当过拟合，并在预测阶段取输出端的集束搜索^[24]窗口宽度为1。其中训练和预测条件的选取与通常机器学习问题有所不同，这是因为：基于LSTM的序列模型通常根据最大似然原理构造训练算法，所以模型往往自然收敛于以一些较短的通用型回复为预测输出的结果(这些通用型回复因“不易出错”而成为“最大似然”)，但该倾向在前述综合评价体系下大多属于“不好的聊天回复”。特别是引入短句惩罚因子后，长度明显短于测试样本标准回复的P_B-1、P_B-2、P_B-3值均会按指数降低，这就导致表 2中第1行的P_B-1、P_B-2、P_B-3很低(小于1%)，因此，以P_B-3取到局部最大值为终止条件进行适当过拟合训练成为必然选择。
进一步，解码输出本质上是一个集束搜索过程，窗口宽度的选取也会对预测结果产生影响。纵观表 2第2至4行不难发现，随着窗口宽度增大，聊天评价反而有所降低，这是因为集束搜索窗口宽度增大不但意味着计算复杂度的提升，同时也意味着搜索空间的扩大，而在较大的搜索空间内模型仍倾向于依最大似然概率给出“通用型回复”。因此本文建议，在预测阶段将集束窗口宽度取为1，即采取简单贪婪搜索进行预测输出即可。
4 结论为使聊天型人机会话能够具有更强的拟人性，本文在基于LSTM的序列变换模型结构基础上，进一步引入场景与话题作为对话调控因素，与注意力机制一同辅助解码器预测聊天回复，而对模型结构的调整要求训练过程分3步进行。实验结果表明，当直接以基于BLEU-3和短句惩罚的综合评价指标指导适度过拟合训练，并在预测阶段采取简单贪婪搜索策略时，模型能够在测试集上表现出最优性能。
自然语言处理特别是聊天型人机会话方向的研究还有许多挖掘空间，如具有多轮记忆能力的会话系统、具有情感辨别能力的会话系统、具有自我人格认知的会话系统等。此外，对于场景与话题因素在会话系统中的应用，除本文提出的话题网络外，还可进一步建立基于多轮会话的话题流转模型。这些有助于提升人机会话拟人泛化能力的问题有待于后续深入研究。

参考文献

[1]	SHAWAR B A, ATWELL E S. Using corpora in machine-learning chatbot systems[J]. International Journal of Corpus Linguistics, 2005, 10(4): 489-516. DOI:10.1075/ijcl.10.4.06sha
[2]	易顺明, 胡振宇. 中文聊天机器人原型系统的设计[J]. 沙洲职业工学院学报, 2007, 10(2): 5-9. YI S M, HU Z Y. The prototype design for the Chinese chat robots[J]. Journal of Shazhou Professional Institute of Technology, 2007, 10(2): 5-9. (in Chinese)
[3]	SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks [EB/OL]. (2014-12-14). https://arxiv.org/abs/1409.3215v3.
[4]	SUNDERMEYER M, NEY H, SCHLVTER R. From feedforward to recurrent LSTM neural networks for language modeling[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015, 23(3): 517-529. DOI:10.1109/TASLP.2015.2400218
[5]	LUONG M T, PHAM H, MANNING C D. Effective approaches to attention-based neural machine translation [EB/OL]. (2015-09-20) [2021-05-01]. https://arxiv.org/abs/1508.04025v5.
[6]	王红, 史金钏, 张志伟. 基于注意力机制的LSTM的语义关系抽取[J]. 计算机应用研究, 2018, 35(5): 1417-1420, 1440. WANG H, SHI J C, ZHANG Z W. Text semantic relation extraction of LSTM based on attention mechanism[J]. Application Research of Computers, 2018, 35(5): 1417-1420, 1440. DOI:10.3969/j.issn.1001-3695.2018.05.029 (in Chinese)
[7]	NIO L, SAKTI S, NEUBIG G, et al. Conversation dialog corpora from television and movie scripts [C]//2014 17th Oriental Chapter of the International Committee for the Co-ordination and Standardization of Speech Databases and Assessment Techniques (COCOSDA). Phuket, Thailand: IEEE Press, 2014: 1-4.
[8]	曾小芹. 基于Python的中文结巴分词技术实现[J]. 信息与电脑(理论版), 2019, 31(18): 38-39, 42. ZENG X Q. Technology implementation of Chinese jieba segmentation based on python[J]. China Computer & Communication, 2019, 31(18): 38-39, 42. (in Chinese)
[9]	RONG X. Word2vec parameter learning explained [EB/OL]. (2016-06-05) [2021-05-01]. https://arxiv.org/abs/1411.2738v4.
[10]	张伟男, 张杨子, 刘挺. 对话系统评价方法综述[J]. 中国科学: 信息科学, 2017, 47(8): 953-966. ZHANG W N, ZHANG Y Z, LIU T. Survey of evaluation methods for dialogue systems[J]. Scientia Sinica (Informationis), 2017, 47(8): 953-966. (in Chinese)
[11]	MOLDOVAN D I, TATU M. Natural language question answering system and method utilizing multi-modal logic: US20060053000 A1 [P]. 2006-03-09.
[12]	邢超. 智能问答系统的设计与实现[D]. 北京: 北京交通大学, 2015. XING C. The design and implementation of intelligent question and answering system [D]. Beijing: Beijing Jiaotong University, 2015. (in Chinese)
[13]	WEN T H, VANDYKE D, MRKSIC N, et al. A network-based end-to-end trainable task-oriented dialogue system [EB/OL]. (2017-04-24) [2021-05-01]. https://arxiv.org/abs/1604.04562v3.
[14]	张杰晖. 任务型对话系统的自然语言生成研究[D]. 广州: 华南理工大学, 2019. ZHANG J H. Research on natural language generation in task-based dialogue system [D]. Guangzhou: South China University of Technology, 2019. (in Chinese)
[15]	MěKOTA O, G?KIRMAK M, LAITOCH P. End to end dialogue transformer [EB/OL]. (2020-08-24) [2021-05-01]. https://www.researchgate.net/publication/343849046_End_to_End_Dialogue_Transformer.
[16]	THIERGART J, HUBER S, VBELLACKER T. Under- standing emails and drafting responses—An approach using GPT-3 [EB/OL]. (2021-02-15) [2021-05-01]. https://arxiv.org/abs/2102.03062v3.
[17]	张献涛, 张猛, 暴筱, 等. 一种提升人机交互对话语料质量与多样性的对话语料库生成方法: CN111026884A [P]. 2020-04-17. ZHANG X T, ZHANG M, BAO X, et al. Dialogue corpus generation method for improving quality and diversity of man-machine interaction dialogue corpora: CN111026884A [P]. 2020-04-17. (in Chinese)
[18]	WIKIPEDIA. Long short-term memory [EB/OL]. (2021-03-25) [2021-05-01]. https://en.wikipedia.org/wiki/Long_short-term_memory.
[19]	WIKIPEDIA. Attention (machine learning) [EB/OL]. (2021-02-27) [2021-05-01]. https://en.wikipedia.org/wiki/Attention_(machine_learning).
[20]	WIKIPEDIA. BLEU [EB/OL]. (2020-11-09) [2021-05-01]. https://en.wikipedia.org/wiki/BLEU.
[21]	WIKIPEDIA. Autoencoder [EB/OL]. (2021-03-24) [2021-05-01]. https://en.wikipedia.org/wiki/Autoencoder.
[22]	DANESCU-NICULESCU-MIZIL C, LEE L. Chameleons in imagined conversations: A new approach to understanding coordination of linguistic style in dialogs [C]// CMCL 2011: Proceedings of the 2nd Workshop on Cognitive Modeling and Computational Linguistics. Portland, Oregon, USA: Association for Computational Linguistics, 2011: 76-87.
[23]	GITHUB. Fxsjy/jieba [DB/OL]. (2020-01-20) [2021-05-01]. https://github.com/fxsjy/jieba.
[24]	WIKIPEDIA. Beam search [EB/OL]. (2021-03-11) [2021-05-01]. https://en.wikipedia.org/wiki/Beam_search

基于场景与话题的聊天型人机会话系统

本站小编 Free考研考试/2022-11-27

相关话题/

领限时大额优惠券,享本站正版考研考试资料!