CASIA OpenIR

浏览/检索结果: 共142条,第1-10条 帮助

已选(0)清除 条数/页:   排序方式:
从视频到语言:视频标题生成与描述研究综述 期刊论文
自动化学报, 2022, 卷号: 48, 期号: 2, 页码: 375-397
作者:  汤鹏杰;  王瀚漓
Adobe PDF(8546Kb)  |  收藏  |  浏览/下载:3/1  |  提交时间:2024/05/20
视频描述  卷积神经网络  循环神经网络  语段生成  情感表达  逻辑语义  
视觉Transformer研究的关键问题:现状及展望 期刊论文
自动化学报, 2022, 卷号: 48, 期号: 4, 页码: 957-979
作者:  田永林;  王雨桐;  王建功;  王晓;  王飞跃
Adobe PDF(6913Kb)  |  收藏  |  浏览/下载:2/0  |  提交时间:2024/05/20
视觉Transformer  图像分类  目标检测  图像分割  计算机视觉  
卷积神经网络表征可视化研究综述 期刊论文
自动化学报, 2022, 卷号: 48, 期号: 8, 页码: 1890-1920
作者:  司念文;  张文林;  屈丹;  罗向阳;  常禾雨;  牛铜
Adobe PDF(36687Kb)  |  收藏  |  浏览/下载:0/0  |  提交时间:2024/05/20
深度学习  卷积神经网络  可解释性  表征可视化  显著图  
基于多重注意结构的图像密集描述生成方法研究 期刊论文
自动化学报, 2022, 卷号: 48, 期号: 10, 页码: 2537-2548
作者:  刘青茹;  李刚;  赵创;  顾广华;  赵耀
Adobe PDF(5134Kb)  |  收藏  |  浏览/下载:2/1  |  提交时间:2024/05/20
图像密集描述  多重注意结构  多尺度特征环路融合  多分支空间分步注意力  
视觉语言导航研究进展 期刊论文
自动化学报, 2023, 卷号: 49, 期号: 1, 页码: 1-14
作者:  司马双霖;  黄岩;  何科技;  安东;  袁辉;  王亮
Adobe PDF(6272Kb)  |  收藏  |  浏览/下载:16/5  |  提交时间:2024/05/09
视觉语言导航  视觉语言理解  跨模态匹配  具身智能  
Comprehensive Relation Modelling for Image Paragraph Generation 期刊论文
Machine Intelligence Research, 2024, 卷号: 21, 期号: 2, 页码: 369-382
作者:  Xianglu Zhu;  Zhang Zhang;  Wei Wang;  Zilei Wang
Adobe PDF(1963Kb)  |  收藏  |  浏览/下载:14/7  |  提交时间:2024/04/23
Image paragraph generation, visual relationship, scene graph, graph convolutional network (GCN), long short-term memory  
Cogeneration of Innovative Audio-visual Content: A New Challenge for Computing Art 期刊论文
Machine Intelligence Research, 2024, 卷号: 21, 期号: 1, 页码: 4-28
作者:  Mengting Liu;  Ying Zhou;  Yuwei Wu;  Feng Gao
Adobe PDF(14438Kb)  |  收藏  |  浏览/下载:20/1  |  提交时间:2024/04/23
Artificial intelligence (AI) art, audio-visual, artificial intelligence generated content (AIGC), multimodal, artistic evaluation  
Cross-modal Contrastive Learning for Generalizable and Efficient Image-text Retrieval 期刊论文
Machine Intelligence Research, 2023, 卷号: 20, 期号: 4, 页码: 569-582
作者:  Haoyu Lu;  Yuqi Huo;  Mingyu Ding;  Nanyi Fei;  Zhiwu Lu
Adobe PDF(2928Kb)  |  收藏  |  浏览/下载:9/2  |  提交时间:2024/04/23
Image-text retrieval, multimodal modeling, contrastive learning, weak correlation, computer vision  
Large-scale Multi-modal Pre-trained Models: A Comprehensive Survey 期刊论文
Machine Intelligence Research, 2023, 卷号: 20, 期号: 4, 页码: 447-482
作者:  Xiao Wang;  Guangyao Chen;  Guangwu Qian;  Pengcheng Gao;  Xiao-Yong Wei;  Yaowei Wang;  Yonghong Tian;  Wen Gao
Adobe PDF(3540Kb)  |  收藏  |  浏览/下载:17/3  |  提交时间:2024/04/23
Multi-modal (MM), pre-trained model (PTM), information fusion, representation learning, deep learning  
VLP: A Survey on Vision-language Pre-training 期刊论文
Machine Intelligence Research, 2023, 卷号: 20, 期号: 1, 页码: 38-56
作者:  Fei-Long Chen;  Du-Zhen Zhang;  Ming-Lun Han;  Xiu-Yi Chen;  Jing Shi;  Shuang Xu;  Bo Xu
Adobe PDF(1427Kb)  |  收藏  |  浏览/下载:13/4  |  提交时间:2024/04/23
Vision and language  pre-training  transformers  multimodal learning  representation learning