基于内容的视频分析中关键帧提取和目标分割的融合

摘要:关键帧提取和目标分割通常是分离独立执行这是由于它们处于区别语义层面并且涉及到区别特征在本文中我们通过为这两个过程构造个统特征空间来实现关键帧提取和目标分割这里将关键帧提取看成是在基于混合高斯模型视频建模背景下为目标分割进行特征选择过程值得是这里引入两个基于分歧标准到关键帧提取中其中个将关键帧提取定义为在混合高斯模型组件中引入最大配对组内分歧个则最大限度利用那些显示帧内平均密度变化相对分歧这里提出思路方法可以为目标分割提取出有代表性关键帧同时关键帧中些令人感兴趣特征也会被讨论到本文就为基于内容视频分析提供个独无 2范例


关键词:聚类分歧特征选择高斯混合模型关键帧提取目标分割


1. 引言

如何填补低层次特征和高层次概念的间语义鸿沟已经是基于内容视频分析中长期存在问题了(文献[1]-[3])在本文中我们将在融合学习两种视频分析任务中着重关注这个问题这两个任务就是关键帧提取和目标分割关键帧就是那些对理解视频内容非常重要定义比较主观关键帧和运动、目标或事件有关目标通常指是具有同类特征(例如颜色运动)区域或者是有意义客观世界实体这些实体可能是由个或多个区域构成(文献[4])在本文中提到目标指是前者通常关键帧提取和目标分割是使用区别特征分离独立执行低层次颜色和运动特征常常用于关键帧提取(文献[5])这对于时间敏感应用来说在计算上效率非常高提取出来关键帧般都指出了特征空间中有意义改变并且特征空间具有有限语义如果关键帧可以暗示某些和目标有关行为或事件我们就认为这些关键帧在语义上是有意义监督式思路方法通常通过并入某些模板或领域内信息(文献[2][3]例如消息运动等等)来丰富关键帧语义如果在关键帧提取中包含目标信息那么非监督式处理也能够提取出在语义上有意义关键帧(文献[1][6])尽管具有更大挑战性但是目标分割较关键帧提取在视频数据方面可以提供更好解释性和可操作性在文献[7]中大多数目标分割思路方法都被归为 3类:空间优先性分割时间优先性分割和空时混合分割其中空时混合分割在公众中吸引越来越多注意力(文献[8]-[10])空时混合视频分割和人类视觉特性是相都可以同时在时间和空间上识别显著结构(文献[11])文献[8]中提出用Mean-Sht聚类思路方法在空间和时间上分割目标文献[9]用混合高斯模型来作为空时混合视频描述文献[10]中建议使用图形分割理论思路方法来进行空时混合视频建模

如果这两个过程联合起来考虑会有令人感兴趣情况出现例如当目标在特征空间中被描绘成聚类时聚类空时关系就会暗示某些目标行为或事件比如离开和接近出现和消失扩张和收缩等等同时提取到关键帧可能包含这些目标行为文献[1]中指出通常在分割区域位置提取关键帧这个地方目标混合在文献[6]中指出用形状特征来提取包含人体姿势改变关键帧此外需要注意在基于混合高斯模型视频建模环境下关键帧或许可以减少目标分割困难(文献[12])这里首次选择基于颜色直方图作为关键帧设置并且该设置在目标分割中被用于估计混合高斯模型并且分割结果和受训高斯混合模型将进步用于完善关键帧这个思路方法可以大大降低计算量和提高视频分割鲁棒性由于关键帧提取和目标分割是在区别特征空间中和区别标准下独立执行(文献[12])该思路方法被称为“组合”思路方法

本文通过扩展文献[12]先前所做工作提出种融合关键帧提取和目标分割思路方法这种思路方法就是在统特征空间中将关键帧提取构想成为目标分割特征选择过程在基于混合高斯模型视频建模中(文献[9],[13])视频序列由空时特征聚类表征这些集群由多元混合高斯模型描述在混合高斯模型中高斯分量间可分离性是由集群分歧估计引起最大集群分离性那些帧就被提取出来作为关键帧这两种分歧标准使用如下:最大平均组内K-L距离和最大相对分歧其中最大相对分歧定义为每个相对类条件密度和均值间平均距离(文献[14])和的前基于高斯混合模型视频分割思路方法相比(文献[9],[12],[13])具有大集群分歧关键帧有利于基于高斯混合模型视频建模并且可以提供更好鲁棒性和同性质目标分割结果更有趣由于关键帧提取受基于分歧聚类标准支配提取出来关键帧很可能包含某些目标行为或事件信息这些信息往往都是由那些空时聚类表示这里提出思路方法和文献[9],[12],[13]中提到都具有个主要局限性那就是高斯混合模型不足以处理区别低水平特征(例如颜色和运动)混合目标不过这只是早期视觉通过包含基于区域特征就可以进步和互补思路方法结合起来从而产生更多在语义上有意义结果(文献[4],[15])本文主要就是要通过寻找用于混合高斯模型估计最优或次优关键帧集合来提高目标分割性能这里关键帧是副产物本文是针对基于内容视频分析新工具研究这些研究或许可以为MPEG-4/7标准引入些新帧或目标描述符和


2. 融合关键帧提取和目标分割

上面已经集中对关键帧提取和目标分割进行讨论了我们首先简单回顾下几个相关思路方法文献[9]提出种用于空时视频建模概率框架这里在空时特征空间中用高斯“blob”表征目标(同性质区域)该空间包含颜色(Lab)时间(t)坐标(x和y)用M阶高斯混合模型对具有M个目标视频进行建模用EM算法来估计模型参数用MDL标准来寻找合适M值经过高斯混合模型估计的后通过MAP分类将视频分割成M个空时块文献[9]提出用分段执行来处理非线性和非凸运动模型这种思路方法主要瓶颈就是具有很高计算负荷量在混合高斯模型估计时要涉及到所有视频帧

文献[12]提出种融合关键帧提取和目标分割思路方法用该思路方法来提高高斯混合模型估计效率和鲁棒性首先利用逐帧16×8 2维色调和饱和度颜色直方图来提取得到关键帧(文献[5])并用得到关键帧估计高斯混合模型目标分割的后每个关键帧都要用高斯混合模型进行建模这里实际上是用高斯混合模型对关键帧进行修正这种思路方法大幅度减少了计算量同时通过包含许多区别关键帧紧凑特征集提高了模型估计鲁棒性另外基于高斯混合模型关键帧修正可能会得到更多紧凑关键帧这种融合思路方法带来 3个有趣问题:1)在高斯混合模型估计或目标分割方面如何保证提取到关键帧是最佳?2)我们可以同时使关键帧提取和目标分割最优化吗?3)如果问题2)答案是肯定那么提取到关键帧是否有在语义上有用信息呢(比如目标行为)?在本文中我们将主要关注这些问题具体是通过提出种融合关键帧提取和目标分割思路方法来探索两种的间可能联系和协同关系

2.1问题描述

和用区别特征执行关键帧提取和目标分割相反本文提出利用统特征空间来实现它们如图1所示



图1 使用统特征空间例子:输入视频镜头有 3个主要目标

在这个图中N帧视频镜头包含 3个主要目标这 3个目标在特征空间中分别由聚类表征通常个镜头中数个帧表征个空间和时间上连续行为并且共享公共视觉和和语义有关特征因此就存在极大冗余另外那些可能随机出现在帧边界处表示噪声和无意义目标不相关异常值增加了特征空间中集群重叠部分冗余性和不相干性降低了统计建模效率因此可以通过去除冗余、不相干数据和特征来提高建模性能换句话说可以通过选择最紧密相关数据和特征来进行训练学习处理(文献[17])在基于高斯混合模型视频分割中可以通过选择更相关关键帧进行视频建模例如将关键帧提取构想成目标分割特征选择过程

在文献[18]中已经就特征选择思路方法进行集中讨论给定候选特征集合

特征选择主要就是从中选择个子集以便和分类性能有关准则判别可以优化为:

(1)

选择个适当是很重要种常用准则就是选择特征来近似真实密度而不是去提取最大差别特征尽管希望这个准则可以在区别等级间产生较好差别但是这个假设并不总是有充分根据同时对于鲁棒性分级文献[19]中提出基于分歧特征选择准则接下来我们将为特征选择引入两个基于分歧准则然后在此基础上得到新融合关键帧提取和目标分割思路方法

2.2最大平均组内Kullback Leibler 距离(MAIKLD)

K-L距离(KLD)可以度量为聚类建模两个高斯分量距离或相异性给定由M个高斯组件表征M个聚类平均组内KLD(AIKLD)定义如下:

(2)

这里是两个高斯KLD距离理想情况下AKLD越大聚类间独立性就越大由于关键帧提取被构想为特征选择过程因此希望提取出具有最大平均组内集群分歧关键帧假设是具有N帧原始视频镜头这个镜头由具有基数集合表示再假设是具有基数子集如果镜头中有M个目标那么目标就定义为

(3)

这里是在MAIKLD方面最佳子集根据文献[20]在最小贝叶斯误差意义上说MAIKLD是最佳如果使用0-1分类代价就会产生最大后验概率估计因此等式(3)最佳解决方式会得到最佳关键帧集合这些关键帧可以使得目标分割差错率最小穷举搜索可以保证得到最佳不过对于大这是计算昂贵且不切实际需要试验个帧子集因此次佳但是计算量上更有效解决思路方法将更为实际这里使用文献[21]中提到确定性特征选择思路方法该思路方法叫做连续前向浮动选择(SFFS)并利用连续前向选择(SFS)思路方法对SFFS进行化(文献[18])当N不是非常大SFFS可以找到最佳本文中关键帧都是从候选关键帧中提取出高斯混合模型估计包含MDL方面最佳估计后高斯KLD将由下式近似计算得到:



这里是所有待测候选关键帧像素特征向量表示第i个高斯组件参数然后利用式(2)计算AIKLD这个搜索过程如下:(1)首先给定空集n是基数且n值为0;(2)使用SFS算法产生具有最大AIKLD两个候选关键帧组合并得到;(3)搜索个在时具有最大AIKLD候选关键帧并把搜索到加入集合中同时令n=n+1;(4)如果n>2就从中去除个候选关键帧并对剩下候选关键帧计算AIKLD然后继续(5)否则话回到(3);(5)确定去除个候选关键帧后AIKLD是否增加如果答案是肯定就令n=n-1然后回到(4)否则回到(3)

当n达到个预定义值时或在反复出现给定值后搜索就会停止除了比文献[9]使用所有帧效率更高外该思路方法还有两个主要优势:1)可以提取出在MAIKLD方面最优或次优关键帧用于模型估计和用颜色直方图提取出关键帧相比这些关键帧可以为基于高斯混合模型目标分割提供更好可辨别性(文献[12]);2)该算法比较灵活且几乎没有任何限制不过有些问题还需要进步考虑首先是当很大时候SFFS就无效了;其次在关键帧提取前基于MDL高斯混合模型估计对时间敏感个可供选择思路方法就是执行基于高阶高斯混合模型SFFS并且基于MDL高斯混合模型估计只对关键帧执行但是如果基于高阶高斯混合模型视频就会分段过多从而导致更多聚类源于同个语义目标为了增加同目标中聚类间分歧MAIKLD允许帧具有更多异常值这些异常值常导致遭受关键帧不过要从待测候选集中去除多余候选关键帧是不可能为了降低计算量我们提出另外种基于分歧准则

2.3最大相对分歧

文献[14]提出最大相对分歧(MMD)准则来进行有效基于最大熵原理特征选择这是要在最小化信息冗余时维持输入行为信息最大化在分类背景下该思路方法往往选择那些特征和类标签间互信息量最大特征(文献[14])如果将最大熵原理运用到本文那么目标就可以写成

(4)

这里是关键帧子集X和分类标签Y={12...M}间互信息量:



考虑到I(XY)=H(Y)-H(Y|X)这里H(Y)是分类标签H(Y|X)是条件熵有关贝叶斯误差下界和H(Y|X)联系来源于文献[14]这个关系表明最小化H(Y|X)(最大熵原理)等价于最小化贝叶斯误差下界I(X,Y)可以如文献[14]写成:







(5)

这里称为相对分歧(MD)表示平均密度方差文献[14]解释表明如果特征间互信息量不受分类标签影响那么I(XY)就可以用MD值累加来近似这样来最大MI就变成了MMD正如文献[14]整理总结这个条件来自于目前对图形统计学研究它可以表明些图形特征间样式属性结构也遵从独立于分类标签统计学规则这些特征通过各种生物学上图形变换提取出来比如小波变换虽然这个条件并不总是严格成立但至少它表明MMD在最小贝叶斯误差方面是近似最优

如果把MMD应用到关键帧提取中那么具有最大MD值帧将被提取作为关键帧类似于MAIKLDMMD关键帧提取是在高斯混合模型估计的后执行不过MAIKLD需要测试区别候选关键帧组合而MMD只考虑每个帧分歧忽略了交互帧依赖性候选关键帧MD值可以如下近似计算:



这里是所有像素特征向量具有最大MD值帧被选作关键帧可以预定义或自适应确定个MD值门限我们使用所有候选关键帧平均MD值作为门限值对于MD值大于门限任何候选关键帧都被选作关键帧

2.4提出算法

以上联合思路方法概述如图2所示



图2 本文提出算法流程图

输入候选关键帧要么是个镜头所有帧要么是最初由颜色直方图选择出来关键帧(文献[5],[12])颜色特征(Yuv)空间位置x-y时间t起组成统特征空间用由EM算法和MDL准则估计高斯混合模型对输入视频进行建模建模的后利用MAIKLD或MMD指导关键帧提取提取出来关键帧用于对高斯混合模型重估计即使进行了高斯混合模型估计但是关键帧提取和模型重估计仍然是分离独立执行通过解释它们在统特征空间中相互影响可以看出整个过程是统和文献[9]使用所有帧思路方法或使用文献[12]从颜色直方图提取关键帧思路方法相比我们期望本文提出思路方法不仅可以通过最小化特征冗余来提高计算效率而且可以通过降低特征不相干性来增强视频建模鲁棒性

正如的前提到MAIKLD提取出具有最大聚类分歧关键帧并通过计算组候选关键帧AIKLD来考虑聚类统计特性但是通过假设帧独立对每个帧估计MD值同时利用MMD选择那些具有最大MD值作为关键帧因此就可以选择出区别关键帧尽管都是由贝叶斯误差限定下界在基于高斯混合模型视频建模背景下MAIKLD较MMD可以提取出更多有判别力关键帧平均密度方差没有必要增大聚类分歧或降低聚类间重叠而MMD冒着忽略帧间附属性质风险只考虑每个帧聚类分歧尽管如此MMD在计算上仍然比MAIKLD具有更高效率不需要组合搜索

2.5关键帧特征



图3 空时特征空间中两个聚类

到此为止我们已经讨论了第 2节提出前两个问题现在将就基于新思路方法提取出关键帧特征继续研究第 3个问题图3显示了特征空间中两个聚类该特征空间由空间(x-y)时间(t)以及两个时间片(帧A和帧B)定义这两个时间片分别处于t=a和t=b两个聚类空间位置从而使得整个特征空间被分成 3个部分两个聚类当它们在区域II(阴影区域)x-y平面部分重叠时是空间最靠近如果聚类分别和两个实体有关那么实体在区域II帧中也是空间临近而在区域I或III帧中则是远离通过理解MAIKLD或MMD用于关键帧提取原理我们可以确定低层次特征和高层次概念的间联系MAIKLD和最小化贝叶斯误差是等价这是由特征空间中聚类重叠引起为了最小化贝叶斯误差聚类分歧应该最大化因此MAIKLD往往在聚类具有最小重叠地方提取关键帧例如图3区域I和区域III当应用MMD时每个帧MD值都要计算平均密度具有充分大差异任何帧或换句话说聚类分散在x-y平面任何帧将被提取作为关键帧

Tags: 

延伸阅读

最新评论

发表评论