Knowledge Commons of Institute of Automation,CAS
视觉语言导航研究进展 | |
司马双霖![]() ![]() ![]() ![]() ![]() | |
发表期刊 | 自动化学报
![]() |
ISSN | 0254-4156 |
2023 | |
卷号 | 49期号:1页码:1-14 |
摘要 | 视觉语言导航,即在一个未知环境中,智能体从一个起始位置出发,结合指令和周围视觉环境进行分析,并动态响应生成一系列动作,最终导航到目标位置.视觉语言导航有着广泛的应用前景,该任务近年来在多模态研究领域受到了广泛关注.不同于视觉问答和图像描述生成等传统多模态任务,视觉语言导航在多模态融合和推理方面,更具有挑战性.然而由于传统模仿学习的缺陷和数据稀缺的现象,模型面临着泛化能力不足的问题.系统地回顾了视觉语言导航的研究进展,首先对于视觉语言导航的数据集和基础模型进行简要介绍;然后全面地介绍视觉语言导航任务中的代表性模型方法,包括数据增强、搜索策略、训练方法和动作空间四个方面;最后根据不同数据集下的实验,分析比较模型的优势和不足,并对未来可能的研究方向进行了展望. |
关键词 | 视觉语言导航 视觉语言理解 跨模态匹配 具身智能 |
DOI | 10.16383/j.aas.c210352 |
引用统计 | |
文献类型 | 期刊论文 |
条目标识符 | http://ir.ia.ac.cn/handle/173211/56205 |
专题 | 学术期刊_自动化学报 |
推荐引用方式 GB/T 7714 | 司马双霖,黄岩,何科技,等. 视觉语言导航研究进展[J]. 自动化学报,2023,49(1):1-14. |
APA | 司马双霖,黄岩,何科技,安东,袁辉,&王亮.(2023).视觉语言导航研究进展.自动化学报,49(1),1-14. |
MLA | 司马双霖,et al."视觉语言导航研究进展".自动化学报 49.1(2023):1-14. |
条目包含的文件 | ||||||
文件名称/大小 | 文献类型 | 版本类型 | 开放类型 | 使用许可 | ||
AAS-CN-2021-0352.pdf(6272KB) | 期刊论文 | 出版稿 | 开放获取 | CC BY-NC-SA | 浏览 |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[司马双霖]的文章 |
[黄岩]的文章 |
[何科技]的文章 |
百度学术 |
百度学术中相似的文章 |
[司马双霖]的文章 |
[黄岩]的文章 |
[何科技]的文章 |
必应学术 |
必应学术中相似的文章 |
[司马双霖]的文章 |
[黄岩]的文章 |
[何科技]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论