中国科学院自动化研究所机构知识库

Knowledge Commons of Institute of Automation，CAS

图片搜索

粘贴图片网址

CASIA OpenIR > 学术期刊 > 自动化学报

	基于语言−视觉对比学习的多模态视频行为识别方法
	张颖; 张冰冰; 董微; 安峰民; 张建新; 张强
发表期刊	自动化学报
ISSN	0254-4156
	2024
卷号	50 期号:2 页码:417-430
摘要	以对比语言-图像预训练(Contrastive language-image pre-training, CLIP)模型为基础,提出一种面向视频行为识别的多模态模型,该模型从视觉编码器的时序建模和行为类别语言描述的提示学习两个方面对CLIP模型进行拓展,可更好地学习多模态视频表达.具体地,在视觉编码器中设计虚拟帧交互模块(Virtual-frame interaction module, VIM),首先,由视频采样帧的类别分词做线性变换得到虚拟帧分词;然后,对其进行基于时序卷积和虚拟帧分词移位的时序建模操作,有效建模视频中的时空变化信息;最后,在语言分支上设计视觉强化提示模块(Visual-reinforcement prompt module,VPM),通过注意力机制融合视觉编码器末端输出的类别分词和视觉分词所带有的视觉信息来获得经过视觉信息强化的语言表达.在4个公开视频数据集上的全监督实验和2个视频数据集上的小样本、零样本实验结果,验证了该多模态模型的有效性和泛化性.
关键词	视频行为识别语言-视觉对比学习多模态模型时序建模提示学习
DOI	10.16383/j.aas.c230159
引用统计
文献类型	期刊论文
条目标识符	http://ir.ia.ac.cn/handle/173211/55749
专题	学术期刊_自动化学报
推荐引用方式 GB/T 7714	张颖,张冰冰,董微,等. 基于语言−视觉对比学习的多模态视频行为识别方法[J]. 自动化学报,2024,50(2):417-430.
APA	张颖,张冰冰,董微,安峰民,张建新,&张强.(2024).基于语言−视觉对比学习的多模态视频行为识别方法.自动化学报,50(2),417-430.
MLA	张颖,et al."基于语言−视觉对比学习的多模态视频行为识别方法".自动化学报 50.2(2024):417-430.

条目包含的文件
文件名称/大小	文献类型	版本类型	开放类型	使用许可
AAS-CN-2023-0159.pdf（6014KB）	期刊论文	出版稿	开放获取	CC BY-NC-SA	浏览

个性服务

保存到收藏夹

查看访问统计

导出为Endnote文件

谷歌学术

谷歌学术中相似的文章

[张颖]的文章

[张冰冰]的文章

[董微]的文章

百度学术

百度学术中相似的文章

[张颖]的文章

[张冰冰]的文章

[董微]的文章

必应学术

必应学术中相似的文章

[张颖]的文章

[张冰冰]的文章

[董微]的文章

相关权益政策

收藏/分享

文件名：	AAS-CN-2023-0159.pdf
格式：	Adobe PDF

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。

条目量25851
全文量13686
访问量5775047
下载量900603