NICO竞赛启动：面向OOD的图像识别新赛道

喜欢

来源：互联网
|
2022-04-19
|
0 条评论
|
我要分享
|
T小字　 T大字

竞赛背景

以深度学习为首的机器学习方法在计算机视觉、自然语言处理、推荐系统等领域都表现出了卓越的能力。尽管机器学习模型在很多实验条件下的表现优于人类，但许多研究者也揭示了其在面对不同分布的数据时存在泛化性能差的弱点。

相对于传统满足独立同分布假设下的学习问题，这种训练环境和测试环境存在数据分布偏移的问题称为分布外泛化Out-of-Distribution (OOD) Generalization问题。在机器学习的应用逐渐进入医疗、司法和金融等高风险领域的当下，研究者们不得不考虑如何让模型在快速变化的场景中保持鲁棒性。

更自然的上下文语义信息，有助于学习真实场景下的分布变化
更丰富的高质量真实图像，可以支撑深度学习模型（例如ResNet-50等）在不借助预训练的条件下进行充分学习
更多元的赛道设置，在兼容大部分已有研究方法的同时鼓励更具创新性和开拓性的方法

NICO竞赛以“研究模型的泛化机理”为主题，设置了 公共上下文泛化和 混合上下文泛化如下两个赛道：

赛道一：公共上下文泛化

与传统领域泛化任务 (Domain Generalization，DG) 相同，公共上下文泛化旨在评估模型在训练域标签可知时在未知测试数据上的泛化能力。具体地，在本赛道中，训练数据中的所有类别都共享相同的域 (Domain) 空间。

如下图所示，训练数据中的物体类别“车辆”，“火车”，“狗”都共享相同的公共上下文“草地”，“秋季”，“室内”，“沙滩”，“水面”，“冬季”，所以每个训练样本的标签都是二元组<物体类别，上下文类别>形式。本赛道旨在模拟真实应用中训练数据采样于若干已知领域（如若干不同搜索引擎，不同地点或不同季节等）且未知测试数据来源的场景。

本赛道支持需要领域标签的传统领域泛化 (DG) 方法以及不需要领域标签的领域泛化 (DG) 方法。

受限于先前领域泛化数据集中领域个数和可用图片的局限性，传统领域泛化的模型评估方法较为单一且低效，他们大多采用“单一领域测试”(leave-one-out) 策略，每次选定一个领域作为目标领域，剩余全部领域作为训练领域。

这种测试方式无法真正测试模型在一次训练结束后在多个未知领域的泛化能力，而只能评估模型在某些特定领域组合到一个特定目标领域的泛化能力，无法满足真实应用场景中的需求。并且这种测试方式导致对每个模型的测试都需要遍历所有领域作为目标领域进行训练和测试，导致验证开销较大。而本赛道得益于NICO++数据集中丰富领域标注和图片数量，可以实现仅一次训练就可在多个未知领域上测试模型的泛化能力。

赛道二：混合上下文泛化

为了更好地验证模型在未知领域上的泛化能力且不局限于仅使用特定领域的训练数据，混合上下文泛化赛道放宽了对训练数据的要求。每个物体类别都共享相同的上下文空间在实际应用中并不合理，例如，鸟经常出现在树上而通常不会出现在水中，鱼经常出现水中而通常不会出现在树上，所以对于物体类别“鸟”而言上下文“在树上”合理而“在水中”不合理，对于物体类别“鱼”而言上下文“在水中”合理而“在树上”不合理。为了放宽对数据上下文的假设，在本赛道中不同类别的物体的上下文可以不同。

如图所示，物体类别车辆，火车，狗的上下文各不相同，且在训练中这些上下文并无标注。所以本赛道可以充分评估模型在真实应用时跨分布场景中的泛化能力（训练数据集来源于未知领域的混合，测试数据的分布完全未知）。而由于不同类别的上下文各不相同，所以需要领域标签的方法无法直接应用于本赛道中。故本赛道更适合创新性的直接利用数据分布的多样性学习有预测能力表征的跨分布泛化方法。

NICO++：竞赛数据集介绍

为了支持NICO CHALLENGE2022，我们对NICO数据集进行了全面的扩展升级，构建了NICO++数据集。一致于NICO，NICO++把图像分解成（主体概念，视觉上下文）组合，通过采集大量的视觉上下文，可以灵活在训练环境和测试环境形成不同的主体-上下文组合，产生数据分布偏移。

不同于NICO，NICO++包括公共上下文（common context）和特有上下文（unique context）两种上下文。其中，公共上下文同时出现在所有NICO++的类别中（支持公共上下文视觉泛化任务），包含自然环境、季节、人文环境、光照条件；特有上下文仅出现在相关类别里（支持混合上下文视觉泛化任务），例如属性、背景、拍着角度、常伴物体等。

目前，NICO++已经包含了80个类别，从动物、植物、交通到物体，10个公共上下文，以及每个类别各有的10个特有上下文，共20W张图像，可以支持大规模OOD视觉模型的训练。

和以往多环境的数据集（如DomainNet，PACS）相比，NICO++数据集具有数据规模大，图像均采取真实场景，图像内容丰富，各环境样本量均衡等优势，使其能支持足够复杂的异质性场景的模拟。

竞赛时间节点