11-08 01:05 阅读 121

文献整理 CoNLL 2021 Question Answering方向

最近在读文献，主要是问答方向的，以后主攻这个方面。恰好用博客记录表一下。

Relation-aware Bidirectional Path Reasoning for Commonsense Question Answering

常识问答是NLP领域一个重要的任务，其主要目标是通过常识推理预测目标的正确答案。之前的研究都是在大规模语料库上使用诸如BERT等预训练模型，或者在知识图谱上进行尝试推理。

然而这些方法没有显式地对连接实体之间的关系进行建模，然而这些关系是可以用来增强推理能力的信息性的东西。

为了解决这个问题，我们提出了一种关系感知的推理方法。

我们的方法是一种一个关系感知神经网络（relation-aware graph neural networ）来捕获实体和关系之间丰富的上下文信息。与预训练模型中固定关系嵌入的方法相比，我们的模型使用多个外部知识源构建的多源子图中的上下文信息动态的更新关系。将强化关系表现反馈给双向推理模型。在问题序列和关系实体的路径之间使用双向注意力机制，给我们提供了透明的可解释性（which provides us with transparent interpretability）。

在CommonsenseQA数据集上的实验结果表明，我们的方法在提供清晰的推理路径的同时在baseline的基础上有显著提升。

VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering

提出了VQA-MHUG：使用高速眼动跟踪器收集了一个49名参与者的多模态数据集，该数据集记录了在视觉问答（VQA）过程中，人类注视的图像和问题的情况。

我们使用我们的数据集分析了五种最新（state-of-the-art）的VQA模型：

Modular Co-Attention Network (MCAN) with either grid or region features（2）
Pythia
Bilinear Attention Network (BAN),
the Multimodal Factorized Bilinear Pooling Network (MFB)

虽然之前的工作主要是集中在图像模态上，我们的分析首次表明，对于所有的模型来说，文本与人类注意力的高度相关性是VQA性能的重要预测因素。这一发现指出了提高VQA性能的潜力，同时呼吁进一步研究神经文本注意机制，并将其整合到视觉和语言任务的体系结构中，包括但也可能超越VQA。

作者：LolitaAnn
链接：https://juejin.cn/post/7027855195782512671