已选(0)清除
条数/页: 排序方式: |
| Large-scale Multi-modal Pre-trained Models: A Comprehensive Survey 期刊论文 Machine Intelligence Research, 2023, 卷号: 20, 期号: 4, 页码: 447-482 作者: Xiao Wang Adobe PDF(3540Kb)  |  收藏  |  浏览/下载:54/16  |  提交时间:2023/08/02 Multi-modal (MM), pre-trained model (PTM), information fusion, representation learning, deep learning |
| WL-MSR: Watch and Listen for Multimodal Subtitle Recognition 会议论文 , Greece, 2023-6-4 作者: Liu, Jiawei; Wang, Hao; Wang, Weining; He, Xingjian; Liu, Jing Adobe PDF(1673Kb)  |  收藏  |  浏览/下载:122/30  |  提交时间:2023/07/06 |
| 基于受限样本的语音合成方法研究 学位论文 , 2023 作者: 汪涛 Adobe PDF(10568Kb)  |  收藏  |  浏览/下载:111/4  |  提交时间:2023/06/08 语音合成,声学建模,风格参数解耦,上下文风格感知,多风格声码器 |
| 多模态感知的对话技术研究 学位论文 , 2023 作者: 陈飞龙 Adobe PDF(34661Kb)  |  收藏  |  浏览/下载:182/14  |  提交时间:2023/06/05 自然语言处理,对话系统,多模态感知,多模态融合,对话推理 |
| AI资讯 2022年 第09期(总第101期) 其他 2022-09-22 作者: 张桂英 Adobe PDF(2873Kb)  |  收藏  |  浏览/下载:245/58  |  提交时间:2022/09/22 |
| Exploring wav2vec 2.0 on speaker verification and language identification 会议论文 , 线上会议, 2021-8-30 作者: Fan ZY(范志赟); Li M(李蒙); Zhou SY(周世玉); Xu B(徐波) Adobe PDF(2081Kb)  |  收藏  |  浏览/下载:158/29  |  提交时间:2022/09/17 self-supervised speaker verification language identification multi-task learning wav2vec 2.0 |
| 会议场景智能语音处理技术研究 学位论文 工学博士, 中国科学院自动化研究所: 中国科学院自动化研究所, 2022 作者: 范志赟 Adobe PDF(3323Kb)  |  收藏  |  浏览/下载:238/11  |  提交时间:2022/09/15 会议场景,语音识别,说话人转换点检测,说话人自适应 |
| Semantic-diversity transfer network for generalized zero-shot learning via inner disagreement based OOD detector 期刊论文 KNOWLEDGE-BASED SYSTEMS, 2021, 卷号: 229, 页码: 11 作者: Liu, Bo; Dong, Qiulei; Hu, Zhanyi Adobe PDF(1224Kb)  |  收藏  |  浏览/下载:304/65  |  提交时间:2021/11/04 Zero-shot learning Visual-semantic embedding Out-of-distribution detection |
| 面向语音翻译的文本规范化和端到端建模方法研究 学位论文 , 中科院自动化所: 中科院自动化所, 2021 作者: 董倩倩 Adobe PDF(4379Kb)  |  收藏  |  浏览/下载:268/11  |  提交时间:2021/06/24 语音翻译、级联系统、文本规范化、端到端模型 |
| 面向低资源场景的端到端语音识别方法研究 学位论文 , 中科院自动化所: 中科院自动化所, 2021 作者: 易澄 Adobe PDF(3846Kb)  |  收藏  |  浏览/下载:315/13  |  提交时间:2021/06/21 低资源语音识别 端到端 预训练 |