图像识别中的领域泛化问题研究 | |
Liu Geng | |
2023-06-20 | |
页数 | 76 |
学位类型 | 硕士 |
中文摘要 | 深度学习已经在计算机视觉和自然语言处理等领域内取得了很大的进展,但是传统的深度学习模型在面对域偏移,即测试数据与训练数据的分布差异较大的情况时,其性能往往会出现严重的下降。针对这个问题,有大量的领域泛化(Domain Generalization, DG)方法被提出,尝试将在多个源域上训练的模型泛化到未知的目标域上。本文针对经典的领域泛化问题以及更加困难且贴近实际的开集领域泛化问题进行了研究,提出了新颖的方法来提升模型的性能,并在多个领域泛化数据集上进行了系统的测试评估。本文的主要研究成果如下: 1. 针对当前领域泛化任务中存在的训练数据的领域多样性不足的问题,本文提出了一种基于大规模视觉语言预训练模型的文本引导的领域泛化方法,通过引入额外的文本信息来增强训练数据的领域多样性,进而提升模型的泛化性。 2. 目前已有大量的领域泛化方法被提出来增强模型的泛化性,减少域偏移对模型的影响从而提升模型在未知测试域上的性能。然而传统的领域泛化方法都基于训练数据与测试数据的类别空间一致的假设,这个假设在现实中常常无法成立,因此本文进一步研究了在训练数据与测试数据的类别空间不一致情况下的开集领域泛化问题。本文提出了基于孪生网络的开集领域泛化框架,该框架通过对原始训练图像进行分块打乱来构建合理的未知类别数据,把其作为负样本来不断地对模型进行负面监督,以此让模型学到真正关键的特征表达。这样的做法减少了模型对于原始训练数据的过拟合,有效抑制了模型的过度自信问题,进而增强了模型在开集领域泛化任务上的性能。实验结果显示,该框架在两个开集领域泛化数据集上均取得了目前最佳的性能表现。 |
英文摘要 | Deep learning has made great progress in many fields, such as computer vision and natural language processing. But the performance of traditional deep learning models will be seriously degraded when facing the domain shift, which means that the distribution of test data and training data is significantly different. A large number of Domain Generalization (DG) methods have been proposed to generalize a model trained on multiple source domains to the unseen target domain. 2. A large number of domain generalization methods have been proposed to enhance the generalizability of models, so as to reduce the impact of domain shift on models and improve the performance of models on unknown target domains. However, traditional domain generalization methods are based on the assumption that the category space of training data and test data is consistent, which is always untenable in practice. Therefore, this paper further studies the open-set domain generalization problem when the category spaces of training data and test data are inconsistent. This paper proposes an open-set domain generalization framework based on the Siamese network, which generates images in unknown categories through patch-shuffling, and treats generated images as negative samples to negatively supervise models. Thus models are forced to learn the critical feature representations, the over-fitting of models reduces, and then the performance of models on open-set domain generalization tasks is enhanced. The experimental results show that the proposed framework achieves state-of-the-art on the two open-set domain generalization benchmarks. |
关键词 | 深度学习 图像识别 领域泛化 开集识别 |
学科领域 | 模式识别 |
学科门类 | 工学 ; 工学::计算机科学与技术(可授工学、理学学位) |
语种 | 中文 |
是否为代表性论文 | 是 |
七大方向——子方向分类 | 类脑模型与计算 |
国重实验室规划方向分类 | 脑启发多模态智能模型与算法 |
是否有论文关联数据集需要存交 | 否 |
文献类型 | 学位论文 |
条目标识符 | http://ir.ia.ac.cn/handle/173211/52317 |
专题 | 毕业生_硕士学位论文 |
推荐引用方式 GB/T 7714 | Liu Geng. 图像识别中的领域泛化问题研究[D],2023. |
条目包含的文件 | ||||||
文件名称/大小 | 文献类型 | 版本类型 | 开放类型 | 使用许可 | ||
ucasthesis.pdf(6822KB) | 学位论文 | 限制开放 | CC BY-NC-SA |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[Liu Geng]的文章 |
百度学术 |
百度学术中相似的文章 |
[Liu Geng]的文章 |
必应学术 |
必应学术中相似的文章 |
[Liu Geng]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论