基于注意与记忆机制的视觉描述 | |
王君波 | |
2019-12 | |
页数 | 132 |
学位类型 | 博士 |
中文摘要 | 视觉描述是一个融合计算机视觉、自然语言处理和机器学习的综合问题,其任务目标是利用计算机生成一段文字去描述图像或视频里的视觉内容。随着基础设备和互联网的普及,视觉描述在人机交互、盲人导航、跨模态检索等场景中具有很多的应用需求。该任务对于人类来说非常容易,但是对于机器却具有非常大的挑战性。首先它需要算法去检测出视觉内容中的目标、属性、行为、关系等细节信息,还需要一个强大的语言模型来生成语法结构合理的句子,最后还需要算法能够准确合理地将这些视觉信息映射到语言模型能够理解的语义空间。传统的视觉描述方法一般都是通过端到端的深度卷积网络和递归神经网络来完成从视觉内容到文本的生成,而并不能很好地对视觉内容和文本元素之间的映射关系进行建模。鉴于注意与记忆机制在视觉模态与语言模态之间的对应关系建模的有效性,本论文将从注意与记忆机制出发来探索更加有效的视觉描述算法。本论文的具体工作概况如下:
本文提出的一系列方法解决了视觉描述领域的许多重要问题,并在许多不同的视觉描述基准数据集上取得了很好的实验结果。同时,本文的研究工作也指出了视觉描述技术应用于实际场景的一些关键问题,进而为后续的研究提供了一些参考方向。 |
英文摘要 | Visual description is a comprehensive problem which combines computer vision, natural language processing, and machine learning. The goal of this problem is to utilize computer to generate a sentence to describe the visual content in an image or video. With the widely used visual devices and the Internet, visual description has many applications in practical scenes such as human-computer interaction, blind navigation, and cross-modal retrieval. This task is very easy for humans, but it is very challenging for machines. First, it calls for an algorithm to detect the details of the objects, attributes, actions, relationships, etc. in the visual content. Second, it also needs a powerful language model to generate sentences with reasonable grammatical structure. Finally, an algorithm should be designed to map these visual information into the semantic space that the language model can understand. In general, traditional visual captioning methods use end-to-end deep convolution networks and recurrent neural networks to translate visual content to text, but these methods are not good at modelling semantic alignment between visual content and text element. Considering the effectiveness of attention and memory mechanism in modelling semantic alignment between visual modality and linguistic modality, this dissertation explores many effective visual captioning algorithms based on attention and memory mechanism. The overall work of this dissertation is summarized as follows:
The proposed methods in this dissertation solve many important problems in the field of visual description and have achieved better experimental results than the state-of-the-art methods on different visual description benchmark datasets. Moreover, the research work of this dissertation also points out some critical issues in the practical scenes, and provides some suggestions for subsequent research in this field. |
关键词 | 视觉描述 注意与记忆机制 长序列建模 模态相关性 关系学习 |
语种 | 中文 |
七大方向——子方向分类 | 图像视频处理与分析 |
文献类型 | 学位论文 |
条目标识符 | http://ir.ia.ac.cn/handle/173211/28357 |
专题 | 毕业生_博士学位论文 |
推荐引用方式 GB/T 7714 | 王君波. 基于注意与记忆机制的视觉描述[D]. 中国科学院自动化研究所. 中国科学院自动化研究所,2019. |
条目包含的文件 | ||||||
文件名称/大小 | 文献类型 | 版本类型 | 开放类型 | 使用许可 | ||
王君波博士毕业论文.pdf(6335KB) | 学位论文 | 限制开放 | CC BY-NC-SA |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[王君波]的文章 |
百度学术 |
百度学术中相似的文章 |
[王君波]的文章 |
必应学术 |
必应学术中相似的文章 |
[王君波]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论