CASIA OpenIR

浏览/检索结果: 共11条,第1-10条 帮助

已选(0)清除 条数/页:   排序方式:
Large-scale Multi-modal Pre-trained Models: A Comprehensive Survey 期刊论文
Machine Intelligence Research, 2023, 卷号: 20, 期号: 4, 页码: 447-482
作者:  Xiao Wang
Adobe PDF(3540Kb)  |  收藏  |  浏览/下载:54/16  |  提交时间:2023/08/02
Multi-modal (MM), pre-trained model (PTM), information fusion, representation learning, deep learning  
WL-MSR: Watch and Listen for Multimodal Subtitle Recognition 会议论文
, Greece, 2023-6-4
作者:  Liu, Jiawei;  Wang, Hao;  Wang, Weining;  He, Xingjian;  Liu, Jing
Adobe PDF(1673Kb)  |  收藏  |  浏览/下载:122/30  |  提交时间:2023/07/06
基于受限样本的语音合成方法研究 学位论文
, 2023
作者:  汪涛
Adobe PDF(10568Kb)  |  收藏  |  浏览/下载:111/4  |  提交时间:2023/06/08
语音合成,声学建模,风格参数解耦,上下文风格感知,多风格声码器  
多模态感知的对话技术研究 学位论文
, 2023
作者:  陈飞龙
Adobe PDF(34661Kb)  |  收藏  |  浏览/下载:182/14  |  提交时间:2023/06/05
自然语言处理,对话系统,多模态感知,多模态融合,对话推理  
AI资讯 2022年 第09期(总第101期) 其他
2022-09-22
作者:  张桂英
Adobe PDF(2873Kb)  |  收藏  |  浏览/下载:245/58  |  提交时间:2022/09/22
Exploring wav2vec 2.0 on speaker verification and language identification 会议论文
, 线上会议, 2021-8-30
作者:  Fan ZY(范志赟);  Li M(李蒙);  Zhou SY(周世玉);  Xu B(徐波)
Adobe PDF(2081Kb)  |  收藏  |  浏览/下载:158/29  |  提交时间:2022/09/17
self-supervised  speaker verification  language identification  multi-task learning  wav2vec 2.0  
会议场景智能语音处理技术研究 学位论文
工学博士, 中国科学院自动化研究所: 中国科学院自动化研究所, 2022
作者:  范志赟
Adobe PDF(3323Kb)  |  收藏  |  浏览/下载:238/11  |  提交时间:2022/09/15
会议场景,语音识别,说话人转换点检测,说话人自适应  
Semantic-diversity transfer network for generalized zero-shot learning via inner disagreement based OOD detector 期刊论文
KNOWLEDGE-BASED SYSTEMS, 2021, 卷号: 229, 页码: 11
作者:  Liu, Bo;  Dong, Qiulei;  Hu, Zhanyi
Adobe PDF(1224Kb)  |  收藏  |  浏览/下载:304/65  |  提交时间:2021/11/04
Zero-shot learning  Visual-semantic embedding  Out-of-distribution detection  
面向语音翻译的文本规范化和端到端建模方法研究 学位论文
, 中科院自动化所: 中科院自动化所, 2021
作者:  董倩倩
Adobe PDF(4379Kb)  |  收藏  |  浏览/下载:268/11  |  提交时间:2021/06/24
语音翻译、级联系统、文本规范化、端到端模型  
面向低资源场景的端到端语音识别方法研究 学位论文
, 中科院自动化所: 中科院自动化所, 2021
作者:  易澄
Adobe PDF(3846Kb)  |  收藏  |  浏览/下载:315/13  |  提交时间:2021/06/21
低资源语音识别  端到端  预训练