CASIA OpenIR

浏览/检索结果: 共39条,第1-10条 帮助

已选(0)清除 条数/页:   排序方式:
面向视觉-语言的跨模态预训练与匹配方法研究 学位论文
, 2024
作者:  chen yuxin
Adobe PDF(46981Kb)  |  收藏  |  浏览/下载:13/1  |  提交时间:2024/07/11
视觉语言匹配  图像文本预训练  知识蒸馏  双向匹配评估  令牌合并  
ViLEM: Visual-Language Error Modeling for Image-Text Retrieval 会议论文
, 加拿大温哥华, 2023-6
作者:  chen yuxin;  ma zongyang;  zhang ziqi;  qi zhongang;  yuan chunfeng;  shan ying;  li bing;  hu weiming;  qie xiaohu;  wu jianping
Adobe PDF(1379Kb)  |  收藏  |  浏览/下载:24/6  |  提交时间:2024/06/25
Investigating Compositional Challenges in Vision-Language Models for Visual Grounding 会议论文
, Seattle WA, USA, 17-21 June 2024
作者:  Yunan Zeng;  Yan Huang;  Jinjin Zhang;  Zequn Jie;  Zhenhua Chai;  Liang Wang
Adobe PDF(4268Kb)  |  收藏  |  浏览/下载:51/13  |  提交时间:2024/06/05
组合性感知的弱监督视觉定位研究 学位论文
, 2024
作者:  曾宇楠
Adobe PDF(7681Kb)  |  收藏  |  浏览/下载:50/3  |  提交时间:2024/06/04
视觉定位,视觉语言预训练模型,弱监督,组合性  
弱监督数据条件下的场景分割方法研究 学位论文
, 2024
作者:  覃杰
Adobe PDF(9886Kb)  |  收藏  |  浏览/下载:41/3  |  提交时间:2024/06/03
场景分割  弱监督数据  图像级标注  半监督分割  开放域场景  
GPT-4V with Emotion: A Zero-shot Benchmark for Generalized Emotion Recognition 期刊论文
Information Fusion, 2024, 页码: 1-12
作者:  Zheng Lian;  Licai Sun;  Haiyang Sun;  Kang Chen;  Zhuofan Wen;  Hao Gu;  Bin Liu;  Jianhua Tao
Adobe PDF(6888Kb)  |  收藏  |  浏览/下载:59/8  |  提交时间:2024/05/31
基于低秩约束的熵加权多视角模糊聚类算法 期刊论文
自动化学报, 2022, 卷号: 48, 期号: 7, 页码: 1760-1770
作者:  张嘉旭;  王骏;  张春香;  林得富;  周塔;  王士同
Adobe PDF(1846Kb)  |  收藏  |  浏览/下载:19/10  |  提交时间:2024/05/20
多视角模糊聚类  香农熵  低秩约束  核范数  交替方向乘子法  
VLP: A Survey on Vision-language Pre-training 期刊论文
Machine Intelligence Research, 2023, 卷号: 20, 期号: 1, 页码: 38-56
作者:  Fei-Long Chen;  Du-Zhen Zhang;  Ming-Lun Han;  Xiu-Yi Chen;  Jing Shi;  Shuang Xu;  Bo Xu
Adobe PDF(1427Kb)  |  收藏  |  浏览/下载:47/14  |  提交时间:2024/04/23
Vision and language  pre-training  transformers  multimodal learning  representation learning  
Causal Reasoning Meets Visual Representation Learning: A Prospective Study 期刊论文
Machine Intelligence Research, 2022, 卷号: 19, 期号: 6, 页码: 485-511
作者:  Yang Liu;  Yu-Shen Wei;  Hong Yan;  Guan-Bin Li;  Liang Lin
Adobe PDF(3224Kb)  |  收藏  |  浏览/下载:40/4  |  提交时间:2024/04/23
Causal reasoning  visual representation learning  reliable artificial intelligence  spatial-temporal data  multi-modal analysis  
Multi-Correlation Siamese Transformer Network With Dense Connection for 3D Single Object Tracking 期刊论文
IEEE ROBOTICS AND AUTOMATION LETTERS, 2023, 卷号: 8, 期号: 12, 页码: 8066-8073
作者:  Feng, Shihao;  Liang, Pengpeng;  Gao, Jin;  Cheng, Erkang
Adobe PDF(2745Kb)  |  收藏  |  浏览/下载:122/6  |  提交时间:2023/12/21
3D object tracking  Point cloud  Transformer