中国科学院自动化研究所机构知识库

Knowledge Commons of Institute of Automation，CAS

图片搜索

粘贴图片网址

CASIA OpenIR > 学术期刊 > 自动化学报

	视觉语言导航研究进展
	司马双霖; 黄岩; 何科技; 安东; 袁辉; 王亮
发表期刊	自动化学报
ISSN	0254-4156
	2023
卷号	49 期号:1 页码:1-14
摘要	视觉语言导航,即在一个未知环境中,智能体从一个起始位置出发,结合指令和周围视觉环境进行分析,并动态响应生成一系列动作,最终导航到目标位置.视觉语言导航有着广泛的应用前景,该任务近年来在多模态研究领域受到了广泛关注.不同于视觉问答和图像描述生成等传统多模态任务,视觉语言导航在多模态融合和推理方面,更具有挑战性.然而由于传统模仿学习的缺陷和数据稀缺的现象,模型面临着泛化能力不足的问题.系统地回顾了视觉语言导航的研究进展,首先对于视觉语言导航的数据集和基础模型进行简要介绍;然后全面地介绍视觉语言导航任务中的代表性模型方法,包括数据增强、搜索策略、训练方法和动作空间四个方面;最后根据不同数据集下的实验,分析比较模型的优势和不足,并对未来可能的研究方向进行了展望.
关键词	视觉语言导航视觉语言理解跨模态匹配具身智能
DOI	10.16383/j.aas.c210352
引用统计
文献类型	期刊论文
条目标识符	http://ir.ia.ac.cn/handle/173211/56205
专题	学术期刊_自动化学报
推荐引用方式 GB/T 7714	司马双霖,黄岩,何科技,等. 视觉语言导航研究进展[J]. 自动化学报,2023,49(1):1-14.
APA	司马双霖,黄岩,何科技,安东,袁辉,&王亮.(2023).视觉语言导航研究进展.自动化学报,49(1),1-14.
MLA	司马双霖,et al."视觉语言导航研究进展".自动化学报 49.1(2023):1-14.

条目包含的文件
文件名称/大小	文献类型	版本类型	开放类型	使用许可
AAS-CN-2021-0352.pdf（6272KB）	期刊论文	出版稿	开放获取	CC BY-NC-SA	浏览

个性服务

保存到收藏夹

查看访问统计

导出为Endnote文件

谷歌学术

谷歌学术中相似的文章

[司马双霖]的文章

[黄岩]的文章

[何科技]的文章

百度学术

百度学术中相似的文章

[司马双霖]的文章

[黄岩]的文章

[何科技]的文章

必应学术

必应学术中相似的文章

[司马双霖]的文章

[黄岩]的文章

[何科技]的文章

相关权益政策

收藏/分享

文件名：	AAS-CN-2021-0352.pdf
格式：	Adobe PDF

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。

条目量25851
全文量13686
访问量5778742
下载量901202