CASIA OpenIR  > 毕业生  > 博士学位论文
广播视频节目层结构分析及视觉内容检索研究
其他题名Program Layer Structure Analysis and Visual Content Retrieval for Broadcast Videos
陈见耸
学位类型工学博士
导师徐波
2013-05-29
学位授予单位中国科学院大学
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词广播视频 节目层结构分析 音视频模板匹配 重复序列检测 图像检索 台标识别 Broadcast Videos Program Layer Structure Analysis Audio/video Template Matching Repeated Sequence Detection Image Retrieval Tv Logo Recognition
摘要随着广播电视事业的不断发展,广播电视行业积累了大量的多媒体数据。一方面,由于缺乏有效的电视节目结构信息和内容标注,人们很难从海量的广播电视多媒体数据中快速准确的查找到需要的信息。另一方面,因行业和受众的不同,广播电视多媒体数据历经多年的发展形成了一些不同于其他多媒体数据的特点。因此,亟需研究针对广播电视多媒体数据的分析技术,以辅助人们方便地对广播电视数据进行管理。本文以广播电视多媒体数据为研究对象,以节目层结构分析和视觉内容检索为立足点,深入研究了音视频模板匹配技术、重复序列检测技术、相似图像检索技术和台标识别技术等。本文的主要工作和贡献如下: 提出了一种新的视频指纹特征——全局二值模式(Global Binary Patterns)特征。该特征采用了结构和统计相结合的分析方法,在图像的局部计算统计信息保留了统计特征的鲁棒性,在全局上计算结构信息增强了特征的区分性。实验结果表明,相比传统特征,该特征取得了更高的平均检索精度,且对广播视频中的多种图像噪音都具有较强的鲁棒性。在此基础上,通过对广播电视音视频内容特点的分析,提出了一种融合音频和视觉信息的模板匹配框架,并应用于节目检索中。和单模态的方法相比,提出的框架同时利用了两种模态特征的信息,从而提高了节目检索的准确率。 提出了一种鲁棒的在广播电视流中检测重复序列的方法。该方法将重复序列检测问题形式化为隐马尔科夫模型的解码问题。通过定义状态转移之间的约束来松弛传统检测算法中的严格时间一致性条件,以期抵抗片段之间的漏匹配问题。在此基础上定义了待检测的目标为“最长松弛连接序列”,并采用一种近似维特比算法进行检测,使得可以从多条冗余状态序列中选择最优序列,从而降低误报。实验表明,提出的方法有效的提高了重复序列检测的准确率和召回率。除此之外,为了解决实际应用中复杂的节目重复模式问题,提出了重复序列检测算法应用于广播电视流中重复节目检测的三个基本原则:独立出现原则、最长重复原则和等价原则。实验表明应用提出的检测原则的方法能很好的检测重复出现的节目。 提出了一种基于视觉词组的相似图像检索方法。该方法首先将近邻空间上独立的视觉词组合构成视觉词组的候选,然后根据提出的“与图像相关的视觉词组选择策略”为每幅图片选择并保留合适视觉词组,以期降低视觉词组的冗余。另外,在度量视觉词组之间的相似性时,提出了视觉词组的“空间相似性度量”。通过定量地刻画视觉词之间的空间相对位置信息,并融入到视觉词组的相似性度量中,提高了视觉词组度量的区分性。和传统的基于视觉词组的图像检索方法相比,提出的两种改进方法在公共数据集Ukbench和广播电视数据集TRECVID上都很大地提高了检索的性能。 研究了两种不同的台标识别方法:基于图像匹配的方法和基于分类器的方法。对于前一种方法中,将Chamfer匹配算法引入到台标识别中。与传统的只描述形状的基于图像矩的方法相比,由于Chamfer匹配方法对台标的形状和位置都敏感,因而可以获得更加准确的匹配效果。对于第二种方法,实现了一种基于人工神经网络的台标...
其他摘要With the stead development of broadcast TV, the industry accumulates large amount of multimedia data. Due to the lack of effective information of structure and index, it is very difficult to conveniently search from such amount of broadcast multimedia data. On the other hand, because of its specific industry and audiences, after many years of development, the multimedia data of broadcast TV develops its own characteristics. In order to exploit the multimedia data more effectively, it is urgent to construct a management and retrieval system for broadcast TV multimedia data. This thesis covers several bottleneck problems in program layer structure analysis and visual content retrieval, including audio/video template matching, repeated sequence detection, similar image retrieval as well as TV logo recognition. The objective is to research and develop working retrieval system for broadcast TV multimedia data. In particular, the main contributions of this thesis are summarized as follows: This thesis proposes a novel video fingerprinting feature--Global Binary Pattern (GBP). The feature adopts an analysis method combining statistical and structure information. It computes statistical information in local region of image, which preserves robustness of statistical feature, and then computes structure information in global area, which enhance the discriminative power. In the research of audio/video template matching technique, through the deep analysis of characteristics of audio and visual content of broadcast TV data, this thesis proposes a program retrieval framework of fusing audio and visual information. Compared with the method using only single modal feature, proposed framework utilizes the visual feature and the audio feature simultaneously, which improves the accuracy of program video retrieval. This thesis proposes a robust repeated sequence detection method in broadcast streams. The method transforms the repeated sequence detection problem to decoding problem of Hidden Markov Model(HMM). By defining the constraints of state transfer, it relaxes the strict consistency constraints of time. On the basis of it, it defines the detection objective as Maximal Loosely Connected Sequence(MLCS) and adopts a Viterbi-like algorithm to detect them. Due to Viterbi-like algorithm, the proposed method can select the optimal sequence from several redundant state sequences. In addition, we apply the repeated sequence detection to repeated program detection. In order ...
馆藏号XWLW1863
其他标识符201018014628028
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6539
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
陈见耸. 广播视频节目层结构分析及视觉内容检索研究[D]. 中国科学院自动化研究所. 中国科学院大学,2013.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20101801462802(3915KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[陈见耸]的文章
百度学术
百度学术中相似的文章
[陈见耸]的文章
必应学术
必应学术中相似的文章
[陈见耸]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。