CASIA OpenIR  > 学术期刊  > 自动化学报
基于语言−视觉对比学习的多模态视频行为识别方法
张颖; 张冰冰; 董微; 安峰民; 张建新; 张强
Source Publication自动化学报
ISSN0254-4156
2024
Volume50Issue:2Pages:417-430
Abstract以对比语言-图像预训练(Contrastive language-image pre-training, CLIP)模型为基础,提出一种面向视频行为识别的多模态模型,该模型从视觉编码器的时序建模和行为类别语言描述的提示学习两个方面对CLIP模型进行拓展,可更好地学习多模态视频表达.具体地,在视觉编码器中设计虚拟帧交互模块(Virtual-frame interaction module, VIM),首先,由视频采样帧的类别分词做线性变换得到虚拟帧分词;然后,对其进行基于时序卷积和虚拟帧分词移位的时序建模操作,有效建模视频中的时空变化信息;最后,在语言分支上设计视觉强化提示模块(Visual-reinforcement prompt module,VPM),通过注意力机制融合视觉编码器末端输出的类别分词和视觉分词所带有的视觉信息来获得经过视觉信息强化的语言表达.在4个公开视频数据集上的全监督实验和2个视频数据集上的小样本、零样本实验结果,验证了该多模态模型的有效性和泛化性.
Keyword视频行为识别 语言-视觉对比学习 多模态模型 时序建模 提示学习
DOI10.16383/j.aas.c230159
Citation statistics
Document Type期刊论文
Identifierhttp://ir.ia.ac.cn/handle/173211/55749
Collection学术期刊_自动化学报
Recommended Citation
GB/T 7714
张颖,张冰冰,董微,等. 基于语言−视觉对比学习的多模态视频行为识别方法[J]. 自动化学报,2024,50(2):417-430.
APA 张颖,张冰冰,董微,安峰民,张建新,&张强.(2024).基于语言−视觉对比学习的多模态视频行为识别方法.自动化学报,50(2),417-430.
MLA 张颖,et al."基于语言−视觉对比学习的多模态视频行为识别方法".自动化学报 50.2(2024):417-430.
Files in This Item: Download All
File Name/Size DocType Version Access License
AAS-CN-2023-0159.pdf(6014KB)期刊论文出版稿开放获取CC BY-NC-SAView Download
Related Services
Recommend this item
Bookmark
Usage statistics
Export to Endnote
Google Scholar
Similar articles in Google Scholar
[张颖]'s Articles
[张冰冰]'s Articles
[董微]'s Articles
Baidu academic
Similar articles in Baidu academic
[张颖]'s Articles
[张冰冰]'s Articles
[董微]'s Articles
Bing Scholar
Similar articles in Bing Scholar
[张颖]'s Articles
[张冰冰]'s Articles
[董微]'s Articles
Terms of Use
No data!
Social Bookmark/Share
File name: AAS-CN-2023-0159.pdf
Format: Adobe PDF
All comments (0)
No comment.
 

Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.