CASIA OpenIR  > 毕业生  > 硕士学位论文
视频中的场景文本检测方法研究
杨学行
2020-05
简介

视频中的文本,尤其是视频中的场景文本,对于视频信息获取,以及对视频的标注索引检索等都是不可或缺的信息。随着智能手机、可穿戴设备以及增强现实技术的发展,视频中的文本检测研究近年来获得更广泛的关注。本文主要针对视频中的场景文本检测技术进行了研究。主要工作分为三个部分:
提出了一种改进的基于最大稳定极值区域(MSER)的文本检测算法,对极值区域树剪枝和基于分治思想的置信度判别进行改进,并针对阿拉伯语文本进行了设计。基于该算法的检测系统在 ICPR 2016 举办的阿拉伯视频文本检测竞赛上获得第一,f值为79%.

提出了一种基于网络流的场景视频文本检测算法。该算法在视频帧上采用基于卷积神经网络的文本检测算法进行单帧检测,然后利用网络流算法有效地融合前后多帧的检测结果。该算法在 ICDAR 2015视频数据集上取得第一,且ATA (average tracking accuracy)性能超过第二15.66%.

提出了一种基于马尔科夫决策过程的在线场景视频文本检测算法,实现了视频中多方向场景文本的在线检测跟踪。该算法将帧间文本跟踪问题重构成马尔科夫决策过程 (Markov Decision Processes, MDPs),并利用MDP算法求解帧间关联问题。其中的文本关联相似度通过强化学习自动获得。实验结果表明,该方法在ICDAR 2015、Minetto等视频数据集上取得良好结果,且能实现在线检测。

学科领域人工智能
学科门类工学::控制科学与工程
关键词视频文本检测,最大稳定极值区域,网络流,马尔科夫决策过程
语种中文
文献类型其他
条目标识符http://ir.ia.ac.cn/handle/173211/39854
专题毕业生_硕士学位论文
作者单位中国科学院自动化研究所
第一作者单位中国科学院自动化研究所
推荐引用方式
GB/T 7714
杨学行. 视频中的场景文本检测方法研究. 2020-05-01.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
杨学行硕士论文-signed.pdf(9073KB)学位论文 限制开放CC BY-NC-SA
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[杨学行]的文章
百度学术
百度学术中相似的文章
[杨学行]的文章
必应学术
必应学术中相似的文章
[杨学行]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。