CASIA OpenIR

浏览/检索结果: 共5条,第1-5条 帮助

已选(0)清除 条数/页:   排序方式:
Comprehensive Relation Modelling for Image Paragraph Generation 期刊论文
Machine Intelligence Research, 2024, 卷号: 21, 期号: 2, 页码: 369-382
作者:  Xianglu Zhu;  Zhang Zhang;  Wei Wang;  Zilei Wang
Adobe PDF(1963Kb)  |  收藏  |  浏览/下载:52/21  |  提交时间:2024/04/23
Image paragraph generation, visual relationship, scene graph, graph convolutional network (GCN), long short-term memory  
Large-scale Multi-modal Pre-trained Models: A Comprehensive Survey 期刊论文
Machine Intelligence Research, 2023, 卷号: 20, 期号: 4, 页码: 447-482
作者:  Xiao Wang;  Guangyao Chen;  Guangwu Qian;  Pengcheng Gao;  Xiao-Yong Wei;  Yaowei Wang;  Yonghong Tian;  Wen Gao
Adobe PDF(3540Kb)  |  收藏  |  浏览/下载:52/10  |  提交时间:2024/04/23
Multi-modal (MM), pre-trained model (PTM), information fusion, representation learning, deep learning  
Cyberbullying and Cyberviolence Detection: A Triangular User-Activity-Content View 期刊论文
IEEE/CAA Journal of Automatica Sinica, 2022, 卷号: 9, 期号: 8, 页码: 1384-1405
作者:  Shuwen Wang;  Xingquan Zhu;  Weiping Ding;  Amir Alipour Yengejeh
Adobe PDF(10999Kb)  |  收藏  |  浏览/下载:165/20  |  提交时间:2022/08/01
Classification  clustering  cyberbullying  natural language processing  social network  
Visuals to Text: A Comprehensive Review on Automatic Image Captioning 期刊论文
IEEE/CAA Journal of Automatica Sinica, 2022, 卷号: 9, 期号: 8, 页码: 1339-1365
作者:  Yue Ming;  Nannan Hu;  Chunxiao Fan;  Fan Feng;  Jiangwan Zhou;  Hui Yu
Adobe PDF(56128Kb)  |  收藏  |  浏览/下载:179/21  |  提交时间:2022/08/01
Artificial intelligence  attention mechanism  encoder-decoder framework  image captioning  multi-modal understanding  training strategies  
从视频到语言:视频描述和标题生成方法研究 学位论文
, 中国科学院自动化研究所: 中国科学院自动化研究所, 2022
作者:  张子琦
Adobe PDF(19170Kb)  |  收藏  |  浏览/下载:1157/15  |  提交时间:2022/06/16
视觉与语言  视频内容描述  视频标题生成  外部语言模型  开卷视频描述  中文短视频-文本基准  大规模多模态预训练