CASIA OpenIR

浏览/检索结果: 共92条,第1-10条 帮助

已选(0)清除 条数/页:   排序方式:
面向视觉-语言的跨模态预训练与匹配方法研究 学位论文
, 2024
作者:  chen yuxin
Adobe PDF(46981Kb)  |  收藏  |  浏览/下载:34/2  |  提交时间:2024/07/11
视觉语言匹配  图像文本预训练  知识蒸馏  双向匹配评估  令牌合并  
Modal Contrastive Learning Based End-to-End Text Image Machine Translation 期刊论文
IEEE/ACM Transactions on Audio, Speech, and Language Processing (IEEE/ACM TASLP), 2023, 卷号: 32, 期号: 32, 页码: 2153-2165
作者:  Ma, Cong;  Han, Xu;  Wu, Linghui;  Zhang, Yaping;  Zhao, Yang;  Zhou, Yu;  Zong, Chengqing
Adobe PDF(6551Kb)  |  收藏  |  浏览/下载:43/20  |  提交时间:2024/06/26
Transformers  Machine translation  Decoding  Semantics  Pipelines  Text recognition  Task analysis  Text image machine translation  contrastive learning  text image recognition  machine translation  
基于视觉-语言引导的机器人导航研究 学位论文
, 2024
作者:  何科技
Adobe PDF(29796Kb)  |  收藏  |  浏览/下载:71/5  |  提交时间:2024/06/25
视觉语言导航、数据稀缺、时序信息挖掘噪声、跨模态对齐、异常行为  
UniGen: Unified Generative Pre-training for Multilingual Multimodal Representation 会议论文
, Waseda University, Tokyo, Japan, 2024.03.15-2024.03.18
作者:  Zheyuan, Tian;  Guan, Luo;  Bo, Wang;  Bing, Li;  Weiming, Hu
Adobe PDF(975Kb)  |  收藏  |  浏览/下载:74/19  |  提交时间:2024/05/31
DARTScore: DuAl-Reconstruction Transformer for Video Captioning Evaluation 期刊论文
IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, 2024, 卷号: 34, 期号: 4, 页码: 2041-2055
作者:  Chen, Yuxin;  Zhang, Ziqi;  Qi, Zhongang;  Yuan, Chunfeng;  Wang, Jie;  Shan, Ying;  Li, Bing;  Hu, Weiming;  Qie, Xiaohu;  Wu, Jianping
Adobe PDF(13765Kb)  |  收藏  |  浏览/下载:58/5  |  提交时间:2024/05/30
Chinese video captioning evaluation  dual-reconstruction transformer  
视觉自监督学习关键技术研究 学位论文
, 2024
作者:  Li, Zhaowen(李朝闻)
Adobe PDF(42567Kb)  |  收藏  |  浏览/下载:62/4  |  提交时间:2024/05/27
请输入关键词  
基于自回归预训练的多语言文本-图像理解方法研究 学位论文
, 2024
作者:  田哲源
Adobe PDF(10331Kb)  |  收藏  |  浏览/下载:45/3  |  提交时间:2024/05/27
多语言模型  文本-图像跨模态理解  自回归预训练  参数微调  
从视频到语言:视频标题生成与描述研究综述 期刊论文
自动化学报, 2022, 卷号: 48, 期号: 2, 页码: 375-397
作者:  汤鹏杰;  王瀚漓
Adobe PDF(8546Kb)  |  收藏  |  浏览/下载:60/14  |  提交时间:2024/05/20
视频描述  卷积神经网络  循环神经网络  语段生成  情感表达  逻辑语义  
基于语境辅助转换器的图像标题生成算法 期刊论文
自动化学报, 2023, 卷号: 49, 期号: 9, 页码: 1889-1903
作者:  连政;  王瑞;  李海昌;  姚辉;  胡晓惠
Adobe PDF(3362Kb)  |  收藏  |  浏览/下载:63/17  |  提交时间:2024/04/24
图像标题生成  注意力机制  转换器  视觉连贯性  
Cogeneration of Innovative Audio-visual Content: A New Challenge for Computing Art 期刊论文
Machine Intelligence Research, 2024, 卷号: 21, 期号: 1, 页码: 4-28
作者:  Mengting Liu;  Ying Zhou;  Yuwei Wu;  Feng Gao
Adobe PDF(14438Kb)  |  收藏  |  浏览/下载:73/14  |  提交时间:2024/04/23
Artificial intelligence (AI) art, audio-visual, artificial intelligence generated content (AIGC), multimodal, artistic evaluation