Motivation
本文的研究领域为完形填空类型阅读理解,但当时(2016年)关于该方向的工作独立应用多跳推理和注意力,没有以互补的方式将二者结合;此外,它们应用的查询注意力要么是逐token,要么逐句,非细粒度注意力交互,从而使得当时的模型性能不够强。
Contribution
- 提出一种新的门控注意力机制,以互补的方式将多跳推理以及注意力相结合,使得在每一跳都更新token表示。
- 本文使用的注意力机制为语义级,即允许token表示的每个维度都直接交互,并且应用逐层过滤的方法。
- 在5种大规模实验数据集上的定量和定性分析都表明GA reader能够取得非常好的效果。
Model
模型的主要架构如下图所示:
该模型主要由输入嵌入层,多跳推理层以及答案预测层组成,其中多跳推理层的每一跳都包含Gated-Attention机制。
本文使用GRU分别对输入的文档和对应的查询进行编码,在每跳种,将之前文档的更新输入以及原始的查询输入作为新的输入,两者都需要过一个不同的Bi-GRU。在下一跳之前,还需要将两者过一个门控注意力组件,即先求得文档感知的查询,然后将文档中的token与每一个新的查询token表示相乘,得到新的文档token表示。
当预测答案时,先找出查询中被mask的位置,得到在该位置的查询Bi-GRU的最后一层的中间输出,然后再将其与文档GRU的最后完整输出做点积,过一个softmax,得到文档中每个token的概率分布。然后采用AS Reader[1]中的pointer sum attention,对于候选答案集中的每个候选答案,如果候选答案中的token出现在文档中,则将该token的概率累加作为该候选答案的概率,然后再对所有候选对象进行归一化。
此外,作者还采用一些tricks来增强模型,即字符级嵌入(Character-level Embeddings)以及问题证据共同单词特征(Question Evidence Common Word Feature, qe-comm)。前者由look-up表中的token嵌入以及字符组合模型连接构成,后者则采用Li等人[3]在2016年提出的token级指示器特征,即为文档中的每个token构造一个二维one-hot向量,两个值分别表明该token是否在文档以及其相应的查询中。
实验
表1为在WDW(Who Did What)验证集和测试集上的准确率,从表中可知当GA添加tricks中的特征以及将look-up表中的token表示在训练时固定,能取得最佳效果。
表2为在CNN, Daily Mail以及CBT(Children’s Book Text)上的验证集和测试集上的准确率,在不同的数据集上,使用不同的设置取得不同的效果。
图2为在不同大小训练集上有和无GA 组件的性能影响,该图说明GA大多数情况下始终比没有情况下性能好。
表2为不同门控函数以及不同跳数对模型性能的影响,表4为没有qe-comm并且固定look-up token表示的情况下的消融分析,前者表明使用乘法比求和以及连接效果好,并且跳数为4时效果最好。后者的消融研究则体现了文中提出多种组件的效果,其中-glove表示不使用现有golve而是使用在语料本身上进行训练的词嵌入,-char表示不使用字符嵌入,-token-attentions指在GA中不使用token之间各维的注意力,该注意力能使得文档关注查询中的特定token而不是真个查询。
上图为逐层即不同跳之前的注意力变化,表明多跳GA能够使文档中的正确答案在每一条都关注查询中不同的token,并且最终关注查询中的mask,而非正确答案则只关注查询中的某一部分并且在最后一跳也无法得到很高的分数。因此,该模型能够取得非常好的效果。
文章
Unsupervised Domain Adaptation on Reading Comprehension[3](ACL 2017)
参考文献
[1] Kadlec R, Schmid M, Bajgar O, et al. Text understanding with the attention sum reader network[J]. arXiv preprint arXiv:1603.01547, 2016.
[2] Li P, Li W, He Z, et al. Dataset and neural recurrent sequence labeling model for open-domain factoid question answering[J]. arXiv preprint arXiv:1607.06275, 2016.
[3] Dhingra B, Liu H, Yang Z, et al. Gated-attention readers for text comprehension[J]. arXiv preprint arXiv:1606.01549, 2016.
If you like this blog or find it useful for you, you are welcome to comment on it. You are also welcome to share this blog, so that more people can participate in it. If the images used in the blog infringe your copyright, please contact the author to delete them. Thank you !