CASIA OpenIR  > 毕业生  > 博士学位论文
视音频全局时序特征在疑似广告检测中的应用研究
其他题名Research on Exploiting Audio-Visual and the Global Temporal Characteristics for Suspected Commercial Detection
张波
学位类型工学博士
导师徐波
2012-12-05
学位授予单位中国科学院大学
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词广告检测 广告分割 视频分析 多模态融合 在线学习 Commercial Detection Commercial Segmentation Video Analysis Multi-model Fusion Online Learning
摘要广告视频作为广播电视视频中的重要组成部分,影响着人们的生活和工作方式。实现海量广告的有效管理,满足高效的浏览与检索需求,依赖于具备大型已知广告库的广告智能管理系统。传统的已知广告库的建立和更新需要人工手动选取和添加新广告,工作强度大、效率低下,无法满足快速膨胀的海量视频发展的需要。如何利用机器学习技术通过人机交互的方式完善已知广告库是视频分析领域的重点和难点问题。疑似广告检测包含广告片段检测和广告片段分割两部分,其中,广告片段检测是对视频片段进行广告视频和正常节目视频的分类,广告片段分割是将广告视频片段分割为一条条独立的广告条目。 利用疑似广告检测技术自动发现视频中的广告片段并分割为独立广告段,对于视频内容的编目和检索具有重要意义。 已有的研究主要集中在视觉和听觉特征的选择上,忽视了全局时序特性的使用,在分类器的选择和融合框架上也很难满足大数据的需要。我们筛选和完善了符合国内特点的视音频特征,根据广播电视播出过程中的时序特点和统计信息提出了最小持续时长(MDC)、最大分割数目(MSC)和独立广告长度分布(DICL)三种时序特征,并采用了一个新的融合框架将视音频及全局时序特性进行融合进行疑似广告片段检测和分割。同时我们提出了一种在线学习的疑似广告检测算法,并将其与较为成熟的已知广告识别和重复性视频片段检测算法结合,构建了一套广告智能管理系统。论文主要由以下五个方面组成: 1、通过分析广告视频制作与播出过程中的结构化信息,提出了引人关注镜头和产品信息镜头两个新的语义概念。同时介绍了广告视频的时序性和持续创新性特点,并对视音频特征及全局时序特性进行了多模态分析。文章中研究了疑似广告检测中常用的视音频及全局时序特征,例如边缘变化率、镜头频率、音频场景直方图、产品信息镜头、音频场景变化检测等。分析了目前常见的多模态融合方法的优缺点,并介绍了一种新的融合框架用于疑似广告检测。 2、提出了融合视音频及全局时序特征的算法框架,并将其应用到广告片段检测中。通过将视频片段进行镜头分割,将广告片段检测问题转化为视频镜头是广告镜头还是正常节目镜头的分类问题。提出了斐波那契特征窗,充分利用当前镜头与周围镜头的视音频特征,构建了具有上下文语义信息的特征描述。利用支持向量机分类器融合视音频特征获取当前镜头的分类可能值,将其视作镜头序列的观察值。 根据广播电视播出过程中的规律,提出了最小持续时长(MDC)和最大分割数目(MSC)两种时序特征,并将其作为约束条件,利用动态规划算法对上述由镜头组成的马尔科夫链进行最优分类结果搜索,获取疑似广告片段。 3、研究了视音频特征及统计信息在广告片段分割中的应用。提出了五种中层语义特征,产品信息镜头(SSPI)、颜色直方图的全局相似性(GSCH)、静音帧比率(SFR)、声学场景变化点(AECP)和独立广告长度分布(DICL),并利用支持向量机与动态规划算法结合的算法框架将其融合。首先,将广告视频片段进行镜头分割,广告片段分割问题转化为视频镜头边界是否为独立广告边界点的分类...
其他摘要Commercials which are an important component of TV videos have great influence upon our lives. The efficient management of commercials which concludes detection, identification and retrieval relies on a database of known individual commercials. Traditional addition of new commercial which is mainly dependent on artificial means is work intensity and low efficiency. Using Suspected Commercial Detection to find candidate commercial clips and reviewed by human-computer interaction to perfect the Known Commercial Database can improve the efficiency of the system. Most previous works utilized exclusively audio-visual characteristics, which neglected the global temporal characteristics. Few studies have paid attention to the exploitation of the global temporal information appearing in the videos, which is one of the most important characteristics to detect and segment commercials. In this paper, we have proposed a two-stage scheme to collaboratively exploit audio-visual and global temporal characteristics for Commercial Block Detection and Commercial Block Segmentation. The following points highlight several contributions of this paper: 1. From the structure and production characteristics of commercial video, we have proposed two new concepts: Shot Attracting Viewer's Attention (SAVA) and Static Shot with Product Information (SSPI), which are the main component of most commercials. We study the basic audio, visual and global temporal features, such as Edge Change Ratio, Frame Difference, Shot Frequency, and Audio Class Histogram. We also analyze the problems of existing fusion methods and propose a novel fusion framework for Suspected Commercial Detection. 2. We have proposed a SVM-DP scheme to fuse audio-visual and global temporal characteristics associated with commercials for Commercial Block Detection. Firstly, likelihood values of commercial and general program are calculated by context-dependent audio-visual features and SVM-based classifiers for each video shot. And then, these values are considered as observations of a two states markov chain, providing assistance for merging shots into blocks. At last, Minimum Duration Constraint (MDC) and Maximum Segment Constraint (MSC) which grasp the global temporal characteristics are presented to search optimal combination path with Dynamic Programming approaches, respectively. 3. We have proposed a coarse to fine Commercial Block Segmentation algorithm, based on audio-visual characteristics and statistical pr...
馆藏号XWLW1942
其他标识符200918014628067
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6492
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
张波. 视音频全局时序特征在疑似广告检测中的应用研究[D]. 中国科学院自动化研究所. 中国科学院大学,2012.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20091801462806(7235KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[张波]的文章
百度学术
百度学术中相似的文章
[张波]的文章
必应学术
必应学术中相似的文章
[张波]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。