基于内容的视频分析中关键帧提取和目标分割的融合疯狂代码！

摘要:关键帧提取和目标分割通常是分离独立执行

这是由于它们处于区别

语义层面并且涉及到区别

特征

在本文中

我们通过为这两个过程构造

个统

特征空间来实现关键帧提取和目标分割

这里将关键帧提取看成是在基于混合高斯模型视频建模背景下为目标分割进行

特征选择过程

值得

提

是这里引入两个基于分歧

标准到关键帧提取中

其中

个将关键帧提取定义为在混合高斯模型组件中引入最大配对组内分歧

另

个则最大限度

利用那些显示帧内平均密度变化

相对分歧

这里提出

思路方法可以为目标分割提取出有代表性

关键帧

同时关键帧中

些令人感兴趣

特征也会被讨论到

本文就为基于内容

视频分析提供

个独

无 2

范例

关键词:聚类分歧

特征选择

高斯混合模型

关键帧提取

目标分割

1. 引言

如何填补低层次特征和高层次概念的间

语义鸿沟已经是基于内容

视频分析中长期存在

问题了(文献[1]-[3])

在本文中

我们将在融合学习两种视频分析任务中着重关注这个问题

这两个任务就是关键帧提取和目标分割

关键帧就是那些对理解视频内容非常重要

帧

它

定义比较主观

关键帧和运动、目标或事件有关

目标通常指

是具有同类特征(例如颜色

运动)

区域

或者是有意义

客观世界

实体

这些实体可能是由

个或多个区域构成(文献[4])

在本文中提到

目标指

是前者

通常关键帧提取和目标分割是使用区别

特征分离独立执行

低层次颜色和运动特征常常用于关键帧

提取(文献[5])

这对于时间敏感

应用来说在计算上效率非常高

提取出来

关键帧

般都指出了特征空间中有意义

改变

并且特征空间具有有限

语义

如果关键帧可以暗示某些和目标有关

行为或事件

话

我们就认为这些关键帧在语义上是有意义

监督式

思路方法通常通过并入某些模板或领域内

信息(文献[2]

[3]例如消息

运动等等)来丰富关键帧

语义

如果在关键帧提取中包含目标信息

话

那么非监督式

处理也能够提取出在语义上有意义

关键帧(文献[1]

[6])

尽管具有更大

挑战性

但是目标分割较关键帧提取在视频数据方面可以提供更好

解释性和可操作性

在文献[7]中

大多数目标分割思路方法都被归为 3类:空间优先性分割

时间优先性分割和空时混合分割

其中空时混合分割在公众中吸引越来越多

注意力(文献[8]-[10])

空时混合视频分割和人类视觉特性是相

致

都可以同时在时间和空间上识别显著

结构(文献[11])

文献[8]中提出用Mean-Sh

t聚类思路方法在空间和时间上分割目标

文献[9]用混合高斯模型来作为空时混合视频

描述

文献[10]中建议使用图形分割理论

思路方法来进行空时混合视频建模

如果这两个过程联合起来考虑会有令人感兴趣

情况出现

例如当目标在特征空间中被描绘成聚类时

聚类

空时关系就会暗示某些目标行为或事件

比如离开和接近

出现和消失

扩张和收缩等等

同时提取到

关键帧可能包含这些目标行为

文献[1]中指出

通常在分割区域

位置提取关键帧

这个地方目标混合在

起

文献[6]中指出用形状特征来提取包含人体姿势改变

关键帧

此外需要注意

是

在基于混合高斯模型

视频建模环境下关键帧或许可以减少目标分割

困难(文献[12])

这里首次选择基于颜色直方图作为关键帧

设置

并且该

设置在目标分割中被用于估计混合高斯模型

并且分割

结果和受训

高斯混合模型将进

步用于完善

关键帧

这个思路方法可以大大降低计算量和提高视频分割

鲁棒性

由于关键帧提取和目标分割是在区别特征空间中和区别

标准下独立执行

(文献[12])

该思路方法被称为“组合

”思路方法

本文通过扩展文献[12]先前所做

工作提出

种融合关键帧提取和目标分割

思路方法

这种思路方法就是在统

特征空间中将关键帧提取构想成为目标分割

特征选择过程

在基于混合高斯模型

视频建模中(文献[9],[13])

视频序列由空时特征聚类表征

这些集群由多元

混合高斯模型描述

在混合高斯模型中高斯分量间

可分离性是由集群分歧估计

引起最大集群分离性

那些帧就被提取出来作为关键帧

这两种分歧标准使用如下:最大平均组内K-L距离和最大相对分歧

其中最大相对分歧定义为每个相对类条件密度和均值间

平均距离(文献[14])

和的前

基于高斯混合模型

视频分割思路方法相比(文献[9],[12],[13])

具有大

集群分歧

关键帧有利于基于高斯混合模型

视频建模并且可以提供更好

鲁棒性和同性质

目标分割结果

更有趣

是

由于关键帧提取受基于分歧

聚类标准支配

提取出来

关键帧很可能包含某些目标行为或事件

信息

这些信息往往都是由那些空时聚类表示

这里提出

思路方法和文献[9],[12],[13]中提到

都具有

个主要

局限性

那就是高斯混合模型不足以处理区别低水平特征(例如颜色和运动)

混合目标

不过这只是早期视觉

第

步

通过包含基于区域

特征就可以进

步和互补思路方法结合起来

从而产生更多在语义上有意义

结果(文献[4],[15])

本文主要

目

就是要通过寻找用于混合高斯模型估计

最优或次优

关键帧集合来提高目标分割

性能

这里关键帧是副产物

本文是针对基于内容

视频分析新工具

研究

这些研究或许可以为MPEG-4/7标准引入

些新

帧或目标

描述符和

2. 融合关键帧提取和目标分割

上面已经集中对关键帧提取和目标分割进行讨论了

我们首先简单

回顾

下几个相关

思路方法

文献[9]提出

种用于空时视频建模

概率框架

这里在空时特征空间中用高斯“blob”表征目标(同性质

区域)

该空间包含颜色(L

时间(t)

坐标(x和y)

用M阶高斯混合模型对具有M个目标

视频进行建模

用EM算法来估计模型参数

用MDL标准来寻找合适

M值

经过高斯混合模型估计的后

通过MAP分类将视频分割成M个空时块

文献[9]提出用分段执行来处理非线性和非凸

运动模型

这种思路方法主要

瓶颈就是具有很高

计算负荷量

在混合高斯模型估计时要涉及到所有

视频帧

文献[12]提出

种融合关键帧提取和目标分割

思路方法

用该思路方法来提高高斯混合模型估计

效率和鲁棒性

首先利用逐帧

16×8 2维色调和饱和度

颜色直方图来提取得到

关键帧(文献[5])

并用得到

关键帧估计高斯混合模型

目标分割的后

每个

关键帧都要用高斯混合模型进行建模

这里实际上是用高斯混合模型对关键帧进行修正

这种思路方法大幅度

减少了计算量

同时通过包含许多区别

关键帧

紧凑特征集提高了模型估计

鲁棒性

另外

基于高斯混合模型

关键帧修正可能会得到更多

紧凑

关键帧

这种融合

思路方法带来 3个有趣

问题:1)在高斯混合模型估计或目标分割方面如何保证提取到关键帧是最佳

？2)我们可以同时使关键帧提取和目标分割最优化吗？3)如果问题2)

答案是肯定

话

那么提取到

关键帧是否有在语义上有用

信息呢(比如目标

行为)？在本文中

我们将主要关注这些问题

具体是通过提出

种融合关键帧提取和目标分割

思路方法来探索两种的间可能

联系和协同关系

2.1问题描述

和用区别特征执行关键帧提取和目标分割相反

本文提出利用统

特征空间来实现它们

如图1所示

图1 使用统

特征空间

例子:输入视频镜头有 3个主要

目标

在这个图中

N帧

视频镜头包含 3个主要

目标

这 3个目标在特征空间中分别由聚类表征

通常

个镜头中

数个帧表征

个空间和时间上连续

行为

并且共享公共

视觉和和语义有关

特征

因此就存在极大

冗余

另外那些可能随机出现在帧边界处

表示噪声和无意义

目标

不相关

异常值增加了特征空间中集群

重叠部分

冗余性和不相干性降低了统计建模

效率

因此可以通过去除冗余、不相干

数据和特征来提高建模

性能

换句话说可以通过选择最紧密相关

数据和特征来进行训练学习处理(文献[17])

在基于高斯混合模型视频分割中

可以通过选择更相关

关键帧进行视频建模

例如将关键帧提取构想成目标分割

特征选择过程

在文献[18]中已经就特征选择思路方法进行集中讨论

给定

个

候选特征集合

特征选择主要

目

就是从中选择

个子集以便和分类性能有关

准则判别

可以优化为:

(1)

选择

个适当

是很重要

种常用

准则就是选择特征来近似真实

密度而不是去提取最大差别

特征

尽管希望这个准则可以在区别

等级间产生较好

差别

但是这个假设并不总是有充分根据

同时对于鲁棒性分级

文献[19]中提出基于分歧

特征选择准则

接下来我们将为特征选择引入两个基于分歧

准则

然后在此基础上得到新

融合关键帧提取和目标分割

思路方法

2.2最大平均组内Kullback Leibler 距离(MAIKLD)

K-L距离(KLD)可以度量为聚类建模

两个高斯分量

距离或相异性

给定由M个高斯组件表征

M个聚类

平均组内KLD(AIKLD)定义如下:

(2)

这里是两个高斯

和

KLD距离

理想情况下

AKLD越大

聚类间

独立性就越大

由于关键帧提取被构想为特征选择过程

因此希望提取出具有最大平均组内集群分歧

关键帧

假设是具有N帧

原始视频镜头

这个镜头由具有基数

集合表示

再假设是

任

具有基数

子集

如果镜头中有M个目标

那么目标

就定义为

(3)

这里是在MAIKLD方面

最佳子集

根据文献[20]

在最小贝叶斯误差意义上说MAIKLD是最佳

如果使用0-1分类代价

就会产生最大后验概率估计

因此等式(3)

最佳解决方式会得到最佳

关键帧集合

这些关键帧可以使得目标分割

差错率最小

穷举搜索可以保证得到最佳

不过对于大

这是计算昂贵且不切实际

需要试验个帧子集

因此次佳

但是计算量上更有效

解决思路方法将更为实际

这里使用文献[21]中提到

确定性特征选择思路方法

该思路方法叫做连续前向浮动选择(SFFS)

并利用连续前向选择(SFS)思路方法对SFFS进行

化(文献[18])

当N不是非常大

话

SFFS可以找到最佳

本文中

关键帧都是从

候选关键帧中提取出

高斯混合模型估计包含MDL方面

最佳估计后

高斯

和

KLD将由下式近似计算得到:

这里是所有待测候选关键帧

像素特征向量

表示第i个高斯组件

参数

然后利用式(2)计算AIKLD

这个搜索过程如下:(1)首先给定空集

n是

基数

即

且n

值为0；(2)使用SFS算法产生具有最大AIKLD

两个候选关键帧

组合

并得到；(3)搜索

个在时具有最大AIKLD

候选关键帧

并把搜索到

加入集合中

同时令n=n+1；(4)如果n>2

就从中去除

个候选关键帧并对剩下

候选关键帧计算AIKLD

然后继续(5)

否则

话回到(3)；(5)确定去除

个候选关键帧后AIKLD是否增加

如果答案是肯定

话

就令n=n-1

然后回到(4)

否则回到(3)

当n达到

个预定义

值时或在反复出现给定

值后

搜索就会停止

除了比文献[9]使用所有帧效率更高外

该思路方法还有两个主要

优势:1)可以提取出在MAIKLD方面最优或次优

关键帧用于模型估计

和用颜色直方图提取出

关键帧相比

这些关键帧可以为基于高斯混合模型

目标分割提供更好

可辨别性(文献[12])；2)该算法比较灵活且几乎没有任何限制

不过有些问题还需要进

步考虑

首先是当很大

时候SFFS就无效了；其次

在关键帧提取前

基于MDL

高斯混合模型估计对时间敏感

有

个可供选择

思路方法就是执行基于高阶高斯混合模型

SFFS

并且基于MDL

高斯混合模型估计只对关键帧执行

但是如果基于高阶高斯混合模型

话

视频就会分段过多

从而导致更多

聚类源于同个语义目标

为了增加同

目标中聚类间

分歧

MAIKLD允许帧具有更多

异常值

这些异常值常导致遭受关键帧

不过要从待测

候选集中去除多余

候选关键帧是不可能

为了降低计算量

我们提出另外

种基于分歧

准则

2.3最大相对分歧

文献[14]提出最大相对分歧(MMD)准则来进行有效

基于最大熵原理

特征选择

这是要在最小化信息冗余时维持输入行为

信息

最大化

在分类

背景下

该思路方法往往选择那些特征和类标签间互信息量最大

特征(文献[14])

如果将最大熵原理运用到本文

那么目标

就可以写成

(4)

这里是关键帧子集X和分类标签Y={1

...

M}间

互信息量:

考虑到I(X

Y)=H(Y)-H(Y|X)

这里H(Y)是分类标签

熵

H(Y|X)是条件熵

有关贝叶斯误差

下界和H(Y|X)

联系来源于文献[14]

这个关系表明最小化H(Y|X)(最大熵原理)等价于最小化贝叶斯误差

下界

I(X,Y)可以如文献[14]写成:

(5)

这里

且

称为相对分歧(MD)

表示平均密度方差

文献[14]

解释表明

如果特征间

互信息量不受分类标签影响

话

那么I(X

Y)就可以用MD值

累加来近似

如

这样

来最大

MI就变成了MMD

正如文献[14]整理总结

这个条件来自于目前对图形统计学

研究

它可以表明

些图形特征间

样式属性结构也遵从

般

独立于分类标签

统计学规则

这些特征通过各种生物学上

图形变换提取出来

比如小波变换

虽然这个条件并不总是严格成立

但至少它表明MMD在最小贝叶斯误差方面是近似最优

如果把MMD应用到关键帧提取中

那么具有最大MD值

帧将被提取作为关键帧

类似于MAIKLD

MMD关键帧提取是在

高斯混合模型估计的后执行

不过MAIKLD需要测试区别

候选关键帧组合

而MMD只考虑每个帧

分歧忽略了交互帧

依赖性

候选关键帧

MD值可以如下近似计算:

这里是所有

像素特征向量

具有最大MD值

帧被选作关键帧

可以预定义

或自适应确定

个MD值

门限

我们使用所有候选关键帧

平均MD值作为门限值

对于MD值大于门限

任何候选关键帧都被选作关键帧

2.4提出算法

以上联合思路方法

概述如图2所示

图2 本文提出

算法

流程图

输入

候选关键帧要么是

个镜头

所有帧

要么是最初由颜色直方图选择出来

关键帧(文献[5],[12])

颜色特征(Y

空间位置x-y

时间t

起组成统

特征空间

用由EM算法和MDL准则估计

高斯混合模型对输入

视频进行建模

建模的后

利用MAIKLD或MMD指导关键帧

提取

提取出来

关键帧用于对高斯混合模型

重估计

即使进行了

高斯混合模型估计

但是关键帧提取和模型重估计仍然是分离独立执行

通过解释它们在统

特征空间中

相互影响可以看出整个过程是统

和文献[9]使用所有帧

思路方法或使用文献[12]从颜色直方图提取关键帧

思路方法相比

我们期望本文提出

思路方法不仅可以通过最小化特征冗余来提高计算效率

而且可以通过降低特征不相干性来增强视频建模

鲁棒性

正如的前提到

MAIKLD提取出具有最大聚类分歧

关键帧

并通过计算

组候选关键帧

AIKLD来考虑聚类

统计特性

但是通过假设帧独立对每个帧估计MD值

同时利用MMD选择那些具有最大MD值

作为关键帧

因此就可以选择出区别

关键帧

尽管都是由贝叶斯误差限定下界

在基于高斯混合模型视频建模

背景下

MAIKLD较MMD可以提取出更多有判别力

关键帧

平均密度方差没有必要增大聚类分歧或降低聚类间

重叠

而MMD冒着忽略帧间附属性质

风险只考虑每个帧

聚类分歧

尽管如此

MMD在计算上仍然比MAIKLD具有更高

效率

不需要组合搜索

2.5关键帧特征

图3 空时特征空间中

两个聚类

到此为止我们已经讨论了第 2节提出

前两个问题

现在将就基于新思路方法提取出

关键帧

特征继续研究第 3个问题

图3显示了特征空间中

两个聚类

该特征空间由空间(x-y)

时间(t)以及两个时间片(帧A和帧B)定义

这两个时间片分别处于t=a和t=b

两个聚类

空间位置

从而使得整个特征空间被分成 3个部分

两个聚类当它们在区域II(阴影区域)

x-y平面部分重叠时是空间最靠近

如果聚类分别和两个实体有关

那么实体在区域II

帧中也是空间临近

而在区域I或III

帧中则是远离

通过理解MAIKLD或MMD用于关键帧提取

原理

我们可以确定低层次特征和高层次概念的间

联系MAIKLD和最小化贝叶斯误差是等价

这是由特征空间中

聚类重叠引起

为了最小化贝叶斯误差

聚类分歧应该最大化

因此MAIKLD往往在聚类具有最小重叠

地方提取关键帧

例如图3

区域I和区域III

当应用MMD时

每个帧

MD值都要计算

平均密度具有充分大

差异

任何帧或换句话说聚类分散在x-y平面

任何帧将被提取作为关键帧

Tags:

基于内容的视频分析中关键帧提取和目标分割的融合

延伸阅读

最新评论

发表评论

赞助商广告

随机更新

热门标注

最近更新

最新标注