中山大学发布无偏视觉问答数据集

发布时间：2021-04-07 13:05:01 所属栏目：评论来源：互联网

导读：使用的三元组，将知识从其他偏差中分离出来，并平衡答案的分布，避免答案歧义。两个主要的约束为： 1. 一个问题必须与知识库中的多个三元组相关，但仅有一个三元组与图像相关。 2. 所有的问题都基于不同的知识库三元组，但训练集和测试集拥有相同的候选答案

使用的三元组，将知识从其他偏差中分离出来，并平衡答案的分布，避免答案歧义。两个主要的约束为：

1. 一个问题必须与知识库中的多个三元组相关，但仅有一个三元组与图像相关。

2. 所有的问题都基于不同的知识库三元组，但训练集和测试集拥有相同的候选答案集合。

约束 1 能强制视觉问答模型正确地感知图像，而不能仅仅根据给定的问题猜测知识。约束 2 则能避免现有方法通过训练集中的样本来拟合知识库，强制模型通过外部知识来处理未见过的问题，促进模型在泛化性上的研究。

研究者对各种知识库编码方法和最新视觉问答模型进行了大量实验，结果表明，在给定知识库的情况下，是否给定问题相关的三元组的两张情况间仍然会存在较大的差距。这说明提出的 KRVQA 数据集能很好体现现有深度模型在知识推理问题上的不足。

KRVQA 数据集

该数据集基于从自然图像场景图和外部知识库中提取的一个或两个三元组，组成推理结构，并以该结构为基础通过模板构建问题答案对。

给定一个图像，研究者首先合并其场景图和外部知识库以形成和图像相关的知识图。该数据集利用现有的公开标注数据构建数据集，包括使用 Visual Genome 数据集中图像场景图标注以获得图像中的所有对象 / 关系三元组, 使用 WebChild、ConceptNet、DBpedia 等一般常识知识库获取图像信息以外的常识三元组。场景图和知识库中的三元组都包含一个主语、一个关系和一个宾语共三个项。如果图像场景图中的物体和知识库某个三元组中一项的名称相同，这两项就将合并。在合并所有名称相同的项之后，可以得到一个与图像相关的知识图。研究者利用其中包含的三元组来生成复杂的问题——答案对。

然后从图中提取一条路径并根据路径提出一阶或二阶问题。推理路径的提取由一组层级化的基本查询的构建。一个基本查询将告知模型在已知主语 A，宾语 B 和关系 R 中的其中两个时，需要去哪个信息源取出第三个信息。例如，表示需要模型从知识库中找到包括主语 A 和宾语 B 的三元组，并将三元组的关系 R 取出作为输出。有如下 6 个基本查询:

（编辑：宁德站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

小米12青春版再次被确	小米12配置参数总结并
线上暂无差评？OPPO R	拓展云计算边界，开启