CASIA OpenIR

浏览/检索结果: 共47条,第1-10条 帮助

已选(0)清除 条数/页:   排序方式:
E2TIMT: Efficient and Effective Modal Adapter for Text Image Machine Translation 会议论文
Proceedings of the 17th Document Analysis and Recognition (ICDAR 2023), San José, California, USA, August 21-26, 2023
作者:  Ma, Cong;  Zhang, Yaping;  Tu, Mei;  Zhao, Yang;  Zhou, Yu;  Zong, Chengqing
Adobe PDF(1430Kb)  |  收藏  |  浏览/下载:35/10  |  提交时间:2024/06/26
Multi-teacher Knowledge Distillation for End-to-End Text Image Machine Translation 会议论文
Proceedings of the 17th Document Analysis and Recognition (ICDAR 2023), San José, California, USA, August 21-26, 2023
作者:  Ma, Cong;  Zhang, Yaping;  Tu, Mei;  Zhao, Yang;  Zhou, Yu;  Zong, Chengqing
Adobe PDF(1478Kb)  |  收藏  |  浏览/下载:38/16  |  提交时间:2024/06/26
跨模态信息融合的文本图像翻译方法研究 学位论文
, 2024
作者:  马聪
Adobe PDF(11285Kb)  |  收藏  |  浏览/下载:59/5  |  提交时间:2024/06/26
文本图像翻译  跨模态信息融合  多任务学习  跨模态对比学习  参数高效微调  
Modal Contrastive Learning Based End-to-End Text Image Machine Translation 期刊论文
IEEE/ACM Transactions on Audio, Speech, and Language Processing (IEEE/ACM TASLP), 2023, 卷号: 32, 期号: 32, 页码: 2153-2165
作者:  Ma, Cong;  Han, Xu;  Wu, Linghui;  Zhang, Yaping;  Zhao, Yang;  Zhou, Yu;  Zong, Chengqing
Adobe PDF(6551Kb)  |  收藏  |  浏览/下载:43/20  |  提交时间:2024/06/26
Transformers  Machine translation  Decoding  Semantics  Pipelines  Text recognition  Task analysis  Text image machine translation  contrastive learning  text image recognition  machine translation  
CCIM: Cross-modal Cross-lingual Interactive Image Translation 会议论文
Findings of the 2023 Conference on Empirical Methods in Natural Language Processing (EMNLP 2023), Singapore, December 6-10, 2023
作者:  Ma, Cong;  Zhang, Yaping;  Tu, Mei;  Zhao, Yang;  Zhou, Yu;  Zong, Chengqing
Adobe PDF(373Kb)  |  收藏  |  浏览/下载:37/13  |  提交时间:2024/06/26
基于视觉-语言引导的机器人导航研究 学位论文
, 2024
作者:  何科技
Adobe PDF(29796Kb)  |  收藏  |  浏览/下载:71/5  |  提交时间:2024/06/25
视觉语言导航、数据稀缺、时序信息挖掘噪声、跨模态对齐、异常行为  
自然场景图像中的文本分割方法研究 学位论文
, 2024
作者:  李天佐
Adobe PDF(4674Kb)  |  收藏  |  浏览/下载:32/0  |  提交时间:2024/05/29
文本分割、自适应缩放、自注意力机制、金字塔特征、半监督训练  
基于自回归预训练的多语言文本-图像理解方法研究 学位论文
, 2024
作者:  田哲源
Adobe PDF(10331Kb)  |  收藏  |  浏览/下载:45/3  |  提交时间:2024/05/27
多语言模型  文本-图像跨模态理解  自回归预训练  参数微调  
从基础智能到通用智能:基于大模型的GenAI和AGI之现状与展望 期刊论文
自动化学报, 2024, 卷号: 50, 期号: 4, 页码: 674-687
作者:  缪青海;  王兴霞;  杨静;  赵勇;  王雨桐;  陈圆圆;  田永林;  俞怡;  林懿伦;  鄢然;  马嘉琪;  那晓翔;  王飞跃
Adobe PDF(3381Kb)  |  收藏  |  浏览/下载:159/103  |  提交时间:2024/04/28
生成式人工智能  大语言模型  基础模型  通用人工智能  基础智能  平行智能  Sora  
基于低秩张量图学习的不完整多视角聚类 期刊论文
自动化学报, 2023, 卷号: 49, 期号: 7, 页码: 1433-1445
作者:  文杰;  颜珂;  张正;  徐勇
Adobe PDF(3228Kb)  |  收藏  |  浏览/下载:52/13  |  提交时间:2024/04/25
多视角聚类  视角缺失  不完整多视角聚类  图学习