Cross-Lingual Transfer Learning for Question Answering

reading note

Posted by You Hao on 2020-09-25
Estimated Reading Time 2 Minutes
Words 792 In Total
Viewed Times

动机

大多数语言缺乏高质量的训练样本来训练QA模型,并且为QA注释大规模的数据代价很大,因此可以考虑用训练样本丰富的语言如英语,利用其训练数据训练的QA模型将知识迁移到具有较少训练样本的目标语言(甚至无训练样本)。

贡献

  1. 证明句子级的机器翻译模型对解决针对问答的跨语言迁移学习非常有效。
  2. 提出使用域对抗训练方法,即基于GAN的方法,仅使用逐词双语词典来学习QA模型的不变隐式表示,并且其性能匹敌句子级机器翻译的方法。
  3. 通过在SQuAD以及NewsQA上的实验发现,结合机器翻译以及GAN方法能够产生最好的效果,在DRCD数据集上得到87.26的F1值。

模型

基于机器翻译的方法

使用机器翻译解决跨语言的迁移有Train-on-Target以及Test-on-Source两种,前者将源语言数据集翻译成目标语言数据集,然后在新数据集上像传统QA训练方法一样进行训练;后者则是将目前语言数据翻译成源领域数据,从而将在源语言上训练好的模型应用到翻译的目标数据集上进行测试(测试时答案为源语言,可以将其再翻译为目标语言)。

基于GAN的方法

双语嵌入

由于将不同语言领域数据映射到同一空间使得模型能够受益于两种语言数据,作者提出使用逐词双语词典方法,即对源语言中的每个单词,根据词典找到目标语言中对应的单词,然后将目标语言单词的嵌入作为对应的源语言单词的嵌入表示。

具体架构

由于该方法不足以实现联合训练,作者提出一种新的模型。该基于GAN的模型以QANet模型[1]为主体,整体结构如下图所示:

Fig1

即包括语言依赖层以及语言独立层。语言依赖层独立编码源语言以及目标语言的句子,然后将两者输出送入语言独立层,即QANet得另一部分。注意,语言独立层的参数在不同语言中是共享的。之后,作者融入语言判别器[2]根据语言依赖层的输出来判断输入向量序列的语言,即识别来自源语言还是目标语言。当判别器无法识别时,抽取的表示则就是不变的,从而使得模型利用来自两种语言的知识。

文章标题

Cross-Lingual Transfer Learning for Question Answering[3](EMNLP 2019)

参考文献

[1] Yu A W, Dohan D, Luong M T, et al. Qanet: Combining local convolution with global self-attention for reading comprehension[J]. arXiv preprint arXiv:1804.09541, 2018.

[2] Gulrajani I, Ahmed F, Arjovsky M, et al. Improved training of wasserstein gans[C]//Advances in neural information processing systems. 2017: 5767-5777.

[3] Lee C H, Lee H Y. Cross-lingual transfer learning for question answering[J]. arXiv preprint arXiv:1907.06042, 2019.


If you like this blog or find it useful for you, you are welcome to comment on it. You are also welcome to share this blog, so that more people can participate in it. If the images used in the blog infringe your copyright, please contact the author to delete them. Thank you !