动机
获取问答的训练数据费时费力,尤其是对于很多新领域或者语言,因此作者研究在完全没有训练数据(上下文-问题-答案)的情况下如何解决抽取式问答任务。
贡献
- 首次提出用于无监督问答的方法,即使用无监督机器翻译方法将生成的完形填空类型问题转化为自然问题。
- 提出四种针对答案被隐藏的完形填空类型问题翻译成自然问题的方法,并且通过消融实验分析各种算法对性能的影响。
- 该架构具有较强的灵活性和扩展性,可以直接将生成的训练数据用于已有问答模型或者预训练模型。
- 将该方法用于少样本学习,并且实验证明该方法对少样本学习的有效性。
模型
整体架构
由上图可知,传统的抽取式问答是根据问题以及上下文求得答案,而文章提出的无监督问答首先采样上下文段落抽取答案(命名实体或者名词短语),然后根据上下文和抽取的答案生成完形填空式问题,然后将该问题翻译成自然问题。注意,在答案的抽取过程中,默认上下文与答案是对应的,但该过程不要求问题与答案或者问题与上下文对齐。
答案生成
首先从给定的文档中以合适的长度(文中未细说)均匀采样段落,然后通过分块算法来获取名词短语或者根据NER系统来获取命名实体(均使用均匀采样)。
问题生成
完型填空式问题生成
文章首先使用启发式方法来生成完型填空式类型问题,即根据之前获得的上下文-答案对,使用整个句子或者基于英文句法解析器获得句子中的子句,将其中的答案mask。
完型填空式问题翻译
提出四种方法,即恒等映射(Identity Mapping),引入噪声(Noisy Clozes),基于规则方法(Rule-Based),序列到序列的无监督机器翻译(Seq2Seq)。
Identity Mapping则直接采用随机或者启发式方法将wh*类型的单词如who,where等替代mask token。
Noisy Clozes则是先从生成的问题中删除mask token,再用Lample等人[1]于2018年提出的简单噪声函数,然后使用随机或者启发式方法在问题前添加wh*类型单词并且再加一个问号。
Rule-Based则直接采用Heilman和Smith[2]于2010年提出的陈述句转化为问句的规则方法。
Seq2Seq方法采用无监督神经机器翻译NMT,该方法的目的在于学习一个函数即在生成的完型填空式问题以及自然问题之间映射,该函数不需要对齐的语料(即源语言句子与目标语言句子之间不是平行的)。在创建语料时,如果答案是实体类型,则需要使用特定类型的mask token:
采用的NMT是结合了去噪自编码器的域内训练以及在线反翻译的跨域训练。Identity Mapping以及Noisy Clozes中的启发式方法是利用上表中的答案类型对应的合适的wh*。此外,在NMT训练过程中,作者也应用该启发式规则,即将答案类型token添加到目标问题的wh*单词前。
文章标题
Unsupervised Question Answering by Cloze Translation[3](ACL 2019)
参考文献
[1]: Lample G, Ott M, Conneau A, et al. Phrase-based & neural unsupervised machine translation[J]. arXiv preprint arXiv:1804.07755, 2018.
[2]: Heilman M, Smith N A. Good question! statistical ranking for question generation[C]//Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. 2010: 609-617.
[3]: Lewis P, Denoyer L, Riedel S. Unsupervised question answering by cloze translation[J]. arXiv preprint arXiv:1906.04980, 2019.
If you like this blog or find it useful for you, you are welcome to comment on it. You are also welcome to share this blog, so that more people can participate in it. If the images used in the blog infringe your copyright, please contact the author to delete them. Thank you !