欧美色欧美亚洲高清在线观看,国产特黄特色a级在线视频,国产一区视频一区欧美,亚洲成a 人在线观看中文

  1. <ul id="fwlom"></ul>

    <object id="fwlom"></object>

    <span id="fwlom"></span><dfn id="fwlom"></dfn>

      <object id="fwlom"></object>

      實時視頻圖像的清晰度檢測算法研究教案(精選合集)

      時間:2019-05-15 04:33:19下載本文作者:會員上傳
      簡介:寫寫幫文庫小編為你整理了多篇相關(guān)的《實時視頻圖像的清晰度檢測算法研究教案》,但愿對你工作學(xué)習(xí)有幫助,當(dāng)然你在寫寫幫文庫還可以找到更多《實時視頻圖像的清晰度檢測算法研究教案》。

      第一篇:實時視頻圖像的清晰度檢測算法研究教案

      實時視頻圖像的清晰度檢測算法研究

      2010-12-18 17:11:42

      來源:微型機(jī)與應(yīng)用

      關(guān)鍵字: 實時視頻圖像

      背景提取

      Sobel算子

      清晰度檢測

      實時視頻圖像的質(zhì)量分析已成為眾多應(yīng)用領(lǐng)域性能好壞的關(guān)鍵因素之一,因此實時視頻圖像的清晰度檢測變得尤為重要。目前針對實時視頻圖像清晰度檢測的研究較少,圖像清晰度檢測算法的研究對象主要針對靜止的圖像。現(xiàn)有的圖像清晰度檢測算法大致分為空域和頻域兩類。在空域中多采用基于梯度的算法,如拉普拉斯(Laplace)算法、差分平方和(SPSMD)算法、Sobel算子等。此類算法計算簡潔、快速、抗噪性能好、可靠性較高。在頻域中多采用圖像的FFT變換(或其他變換),如功率譜(Power-spectra)算法等[1-2]。此類算法的檢測效果好,但計算復(fù)雜度高、計算時間長,不適合應(yīng)用在基于軟件實現(xiàn)的實時檢測系統(tǒng)中。

      當(dāng)前對實時視頻圖像的一種重要應(yīng)用是對運(yùn)動目標(biāo)的檢測,常用的目標(biāo)檢測方法有幀差法、背景減法、光流法及運(yùn)動能量法[3],其中最簡單而又快捷的方法是背景差法。其基本思想是通過對輸入圖像與背景圖像進(jìn)行比較來分割運(yùn)動目標(biāo),關(guān)鍵環(huán)節(jié)是背景圖像的提取。目前常用的背景提取方法有多幀圖像平均法、灰度統(tǒng)計法、中值濾波法、基于幀差的選擇方法、單高斯建模等。參考文獻(xiàn)[4]中對以上算法做了充分的研究。

      本文是針對實時視頻圖像的清晰度檢測,基于實時視頻圖像背景基本保持不變的環(huán)境。通過比較上述算法,針對實時視頻圖像的特點,提出一種基于背景提取與Sobel算子相結(jié)合的實時視頻圖像的清晰度檢測算法。實時視頻圖像的清晰度檢測算法原理

      當(dāng)視頻播放畫面超過24幀/s時,根據(jù)視覺暫留原理,人眼無法辨別每幅單獨(dú)的靜態(tài)畫面,看上去是平滑連續(xù)的視覺效果。視頻中的事物通常分為靜止和運(yùn)動兩類,連續(xù)多幀畫面中保持靜止的物體可視為靜止的背景,連續(xù)多幀畫面中位置變化的物體可視為運(yùn)動的前景。因此,實時視頻圖像中的每幀圖像都可以劃分為靜止的背景和運(yùn)動的前景兩類區(qū)域。由于視頻序列圖像中運(yùn)動的前景區(qū)域隨機(jī)變化,引起圖像像素點梯度值的隨機(jī)改變,使得實時視頻圖像的清晰度檢測較難實現(xiàn)。因此,本文的算法是利用實時視頻圖像中靜止的背景區(qū)域檢測視頻序列圖像的清晰度,即由背景提取和清晰度檢測兩部分組成。

      1.1 實時視頻圖像的背景提取

      由參考文獻(xiàn)[5]可知,視頻序列中幀圖像的靜止背景區(qū)域由灰度值變化較小的像素點構(gòu)成,每個像素點都有一個對應(yīng)的像素值,這個值在一段時間內(nèi)保持不變;運(yùn)動的前景區(qū)域由灰度值變化較大的像素點構(gòu)成,各像素點在不同的幀圖像中的位置改變,形成運(yùn)動軌跡。背景提取的目標(biāo)就是根據(jù)實時視頻圖像中像素值的上述特點,找出圖像中背景像素點的值。采用多幀圖像累加平均的方法來獲取圖像的背景,從統(tǒng)計學(xué)角度,運(yùn)動物體可視為隨機(jī)噪聲,而均值可以降噪,采用多幀圖像累加取均值可消除運(yùn)動物體,獲得靜止的背景圖片。背景圖像的計算公式為:

      式中,f(x,y)為圖像灰度,gx和gy可以用卷積模板來實現(xiàn),如圖1所示。

      傳統(tǒng)的邊緣檢測中,Sobel算子利用如圖1的水平和垂直兩個方向的模板,但實際情況中的梯度方向是未知的,因此利用兩個方向計算出來的結(jié)果存在一定的誤差。為了提高梯度計算精度,將模板的數(shù)量增加到4個,如圖2所示,即0°、45°、90°、135° 4個方向。雖然繼續(xù)增加模板的數(shù)量可以進(jìn)一步提高計算精度,但考慮到計算效率,模板數(shù)量不宜過多。算法描述

      本算法大致分為三步:

      (1)截取一段實時視頻圖像,獲取初始背景圖像。

      (2)利用當(dāng)前實時視頻圖像更新初始背景,獲得待檢測的背景圖像。

      (3)根據(jù)Sobel算子計算背景圖像的邊緣梯度值之和,根據(jù)閾值判斷背景圖像的清晰度,得到實時視頻圖像的清晰度評價值。

      算法描述如下:

      從實時視頻圖像中截取一段時長為1 min的視頻圖像,每5 s進(jìn)行1次采樣,共得到12幀圖像。為減少計算量,將采樣得到的12幀圖像由RGB空間轉(zhuǎn)換到灰度空間。對圖像中每個像素點的灰度值f(x,y)累加求平均,得到實時視頻圖像的初始背景圖像。計算公式為:

      式中,n為邊緣點的個數(shù)。將value與清晰的實時視頻圖像背景的清晰度檢測范圍值(經(jīng)大量的實時視頻圖像實驗得到)比較,若value∈T(α1,α2),則實時視頻圖像是清晰的;若valueT(α1,α2),則實時視頻圖像是模糊的。實驗結(jié)果與分析

      目前,大部分的攝像系統(tǒng)都是基于RGB顏色空間,每個像素點在RGB空間中是一個三維矢量。為了減少計算量,使用灰度圖像序列,即將彩色視頻序列轉(zhuǎn)換成灰度視頻序列,基于灰度視頻圖像完成提取背景及實時視頻圖像的清晰度檢測。

      實驗程序在PC機(jī)上運(yùn)行,編程軟件是Matlab R2007b,采用的是24位RGB視頻序列,30幀/s,每幀圖片的分辨率是320×240。從實時視頻圖像中提取背景圖像后,本文分別采用Sobel算子、平方梯度法和快速檢測法三種算法對圖像的清晰度進(jìn)行檢測。

      實驗拍攝的視頻圖如圖3所示。視頻中杯子為移動的物體,杯子由視野的右側(cè)移動到視野的左側(cè),背景物體基本保持不變。圖3中的圖片1和圖片2分別是從實驗視頻中截取的圖片,杯子的位置不斷改變,圖片3為清晰的實時視頻圖像的背景圖像,其像素梯度值作為判斷視頻序列圖像清晰度的參考閾值,如表1所示。圖3中的圖征4~9分別是從6段不同的實時視頻圖像中提取的背景圖片。6段視頻序列圖像的清晰度逐漸減弱,其背景圖像也越來越模糊?;谏鲜霰尘皥D,本文采用了三種算法:Sobel算子清晰度檢測、平方梯度算法和快速檢測法。其中Sobel算子清晰度檢測如文中所述,平方梯度算法將微分值平方,計算公式為:

      式中,圖像大小為M×N,f(x,y)表示(x,y)處的灰度值[6]??焖贆z測法是先求圖像的灰度均值,分別計算灰度值大于和小于圖像灰度均值的像素點的均值H和L,然后利用評價因子F=(H-L)/(H+L)來檢測實時視頻圖像的清晰度。

      三種算法對實時視頻圖像的清晰度檢測結(jié)果如表1所示。清晰度評價值經(jīng)過歸一化處理,便于算法準(zhǔn)確度性能的比較。由表1可知,Sobel算子清晰度檢測和平方梯度算法的清晰度評價值的變化趨勢與幅度和肉眼觀測到的事實基本相符,視頻序列圖像越模糊,清晰度評價值越小,即實時視頻圖像1、2、3的清晰度評價值在評價范圍內(nèi),實時視頻圖像是清晰的,實時視頻圖像4、5、6的清晰度評價值在評價范圍之外,實時視頻圖像是模糊的。快速檢測算法對清晰度的敏感度低,視頻很模糊時,評價值仍然較大,不能很好地衡量清晰度的變化幅度。表2比較了三種算法的時間性能,可知Sobel算子清晰度檢測算法與快速算法計算時間較為接近,平方梯度算法計算時間最長。綜上所述,平方梯度算法評價效果較好,但實時性較差;快速算子計算速率高,但對模糊的靈敏度低;Sobel算子的評價效果好,實時性也符合系統(tǒng)的要求。

      為了對實時視頻圖像的清晰度進(jìn)行實時檢測,針對實時視頻圖像的特點,本文提出了采用背景提取和Sobel算子相結(jié)合的清晰度檢測算法,該算法在幀圖像清晰度檢測時計算效率高,能夠自動實時地完成實時視頻圖像的清晰度檢測。但目前此算法僅適用于實時視頻圖像中背景基本不變或微小變化的場景。如果背景圖像變化幅度較大,需要調(diào)整判斷視頻清晰度的評價范圍作為新的評價標(biāo)準(zhǔn),這也是后續(xù)工作的研究重點,以使該算法在更多的場景中應(yīng)用。

      第二篇:圖像和視頻中的不規(guī)則檢測

      圖像和視頻中的不規(guī)則檢測

      摘要:我們從事于研究可視化數(shù)據(jù)中的不規(guī)則檢測,例如檢測視頻中的可疑行為或者是識別圖像中的跳躍性模式。“不規(guī)則”這個術(shù)語依靠于被定義的“規(guī)則的”或是“合法的”的上下文。然而,期待可以在一個給出的上下文顯定義所有合法的結(jié)構(gòu)是不現(xiàn)實的。我們把決定可視化數(shù)據(jù)合法性的問題當(dāng)作構(gòu)造迷題的過程:我們努力去用大塊的數(shù)據(jù)(“一塊塊的迷題”)組成一個新的已經(jīng)觀察到的圖像區(qū)域或是一個新的視頻片斷(“查詢請求”),這些大塊的數(shù)據(jù)是從先前的可視化樣本(“數(shù)據(jù)庫”)中抽取出來的。這些在被用數(shù)據(jù)庫中的大塊接近的數(shù)據(jù)組成的被觀察的數(shù)據(jù)中的區(qū)域被認(rèn)為是非常相像的,但是這些不可以從數(shù)據(jù)庫(或者僅僅是可以用小片斷數(shù)據(jù)組成)組成的被觀察的數(shù)據(jù)中的區(qū)域是被認(rèn)為是很不相像或是可疑的。這個問題被作為一個處理蓋然論圖像模型中的推論提出來。我們展示一些利用這些方法的應(yīng)用程序來識別圖像和視頻中的顯著,目的是用它來探測可疑行為和高質(zhì)量保證的自動化圖像檢測。

      關(guān)鍵字:探測可疑行為,顯著,不規(guī)則探測,新奇事物探測,自動探測,動作識別,自動圖像檢查

      1. 介紹

      圖像和視頻中不規(guī)則圖像模型的探測在各種各樣的任務(wù)中都是很有用的。對于監(jiān)視和監(jiān)測來說探測可疑行為或是異常目標(biāo)是重要的。對于質(zhì)量控制和自動檢查來說,在圖像中識別空間顯著是有用的。在視頻中的行為顯著對于吸引觀看者的注意力是有用的。先前識別可疑行為或活動的方法可以廣泛的被分成兩類:基于規(guī)則的方法(例如,Ivanov and Bobick(1999))和沒有預(yù)定義規(guī)則的統(tǒng)計方法(例如,Stauffer and Grimson(2000)和Zhong et al.(2004))。統(tǒng)計方法更加有吸引力,這是由于它們不用為所有合法結(jié)構(gòu)假想出一系列預(yù)定義的規(guī)則集,而是,他們嘗試著自動的從數(shù)據(jù)中學(xué)習(xí)規(guī)則中的概念,并且就這樣推斷出各種可疑行為。然而,在先前方法中已經(jīng)被應(yīng)用的代表方法要么是很有限制性(例如,trajectories of moving objects(Stauffer and Grimson, 2000))要么是太過全球性了(例如,a single small descriptor vector for an entire frame(Zhong等人, 2004))本論文中,我們用公式化的形式把探測規(guī)則和不規(guī)則的問題表示成為用從先前視頻樣本(數(shù)據(jù)庫)中提取出來的時空塊組成(解釋)已經(jīng)觀察到的圖像數(shù)據(jù)(一個圖像或是一個視頻,在下面提到時用“查詢”表示)或是視頻的問題。這些可以用從樣本數(shù)據(jù)庫中抽取的巨大接近的數(shù)據(jù)塊組成的查詢中的區(qū)域被認(rèn)為是相似的,這些區(qū)域越大,相似性就越強(qiáng)。在不能用樣本數(shù)據(jù)庫組成的查詢中的區(qū)域被認(rèn)為是不相似的或是可疑的。我們的方法因此可以從僅僅少量的幾個樣本就能推斷或是歸納更大上下文的圖像模式和行為,甚至這些從來都沒有見過的特別結(jié)構(gòu)的圖像模式和行為的合法性,本地描述符是從小圖像或

      是視頻塊(被組成在一起來形成大的塊)中抽取出來的,因此它可以快速和高效的推斷出行為改變中的細(xì)微但重要的改變(例如,一個人在走和一個人拿著一支槍在走的不同)。而且,我們的方法可以同時識別出一個合法的行為在一個視窗區(qū)域部分,并且可疑行為在另一個視窗區(qū)域中部分,因此在這一幀僅僅是標(biāo)明探測到的可疑區(qū)域,而不是整一幀都標(biāo)明出來。在第6節(jié)將給出這樣的例子。從圖像碎片中得出的推斷在先前已經(jīng)被應(yīng)用到基于分類的目標(biāo)識別(例如,Bart and Ullman(2004), Felzenszwalb和 Huttenlocher(2005)and Fergus等人)中的任務(wù)上去了。少數(shù)的情報幀已經(jīng)被人學(xué)習(xí)和預(yù)選擇用來作為少數(shù)的目標(biāo)的預(yù)定義分類。然而,基于分類的表述不可以捕獲組成一幅場景中未知目標(biāo)或行為的所有一切的可能的情況,因此它不適合于探測不規(guī)則性任務(wù)。我們的方法也可以應(yīng)用在探測圖像和視頻中的顯著。例如,給出一幅沒有先前信息的簡單的圖像,我們可以測量出每一幅圖像區(qū)域(查詢)相對于同樣圖像(被用作特殊查詢的“數(shù)據(jù)庫”)的剩下部分的“合法”性。類似的,給出一段簡單的視頻(沒有關(guān)于什么是正常行為先前知識),我們可以探測“顯著行為”,這些行為不能被任何其它在視頻里同時發(fā)生的動態(tài)現(xiàn)象所支持。用來探測圖像顯著(例如,Itti等人(1998))的先前的方法被提議用來測量本地圖像和它的瞬間周圍區(qū)域的相異程度。因此,例如,顯示出巨大改變的圖像區(qū)域被探測為顯著圖像區(qū)域。他們的“視覺注意”的定義是來源于同樣的推理。然而,我們相信顯著的概念沒有必

      要由瞬間周圍圖像所決定。例如,一個在黑色紙上簡單的黃點可以是顯著。然而,假如在黑紙上有很多黃色的點,那么一個簡單的黃點再也無法引起我們的注意,即使它相對于周圍附近來說仍然有巨大的改變。因此我們的方法建議一種新對于術(shù)語“顯著”更加直覺的解釋,它來于整個圖像的內(nèi)部統(tǒng)計。我們處理空間圖像顯著的方法更接近于Honda和Nayar(2001).的方法。然而,(Honda 和Nayar, 2001)在重復(fù)性結(jié)構(gòu)的圖像模型是局限性的并且它高度依賴于本地周圍圖像屬性,然而我們的方法卻不是這樣。用我們的方法探測圖像空間顯著和視頻行為顯著的例子將在第6節(jié)給出。我們的論文因此提供了四方面主要貢獻(xiàn):

      1. 我們提議一個可以從僅有的幾個樣本中就可以推斷和歸納的方法,這個方法是關(guān)于一個更大的上下文圖像模式和行為的合法性的,甚至是這些從來都沒有見過的特殊結(jié)構(gòu)的合法性。2. 我們提出一個基于圖表的貝葉斯定理的推論運(yùn)算法則,它可以在成倍增加的時空范圍里高效的探測巨大碎片塊整體(例如,好幾百塊的碎片塊)。它可以同時增強(qiáng)這些在整體以及單個的描述符上的碎片里的相關(guān)幾何方面的排列上的約束。

      3. 我們提議對圖像和視頻里術(shù)語中的“顯著”和“視覺上的注意”給出一個新的解釋。

      4. 我們給出單個統(tǒng)一的框架來處理幾個計算機(jī)視覺里的問題,這些問題在過去已經(jīng)被單獨(dú)的處理過。這些問題包括:圖像的注意,視頻的注意,可疑行為的識別,異常物體的識別,自動視頻檢查(例如,用來質(zhì)量的保證)等等。

      本論文的短文版在ICCV 2005(Boiman and Irani, 2005)提供。

      2. 由組成得出的推論

      當(dāng)給出了幾個樣例后,我們(人類)對于什么是規(guī)則/合法,什么是不規(guī)則/可疑,甚至是見到以前我們從來沒有見過的新結(jié)構(gòu)的東西,都會有一個概念。我們從來不需要顯定義給定上下文的合法結(jié)構(gòu)的所有可能?!耙?guī)則”/“合法”這些概念可以從簡單的幾個合法模型(視頻中的行為或是圖像的外觀)的樣例中學(xué)習(xí)和歸納得來,并且所有其它結(jié)構(gòu)可以自動的從這些當(dāng)中推斷得到。圖表1(Figure 1)說明了潛在于本論文的基本概念。假設(shè)一幅新圖像(一個查詢—Fig.1(a)),我們檢查是否每個圖像區(qū)域都可以從數(shù)據(jù)庫里找到一張足夠大的接近的區(qū)域來解釋(見 Figs.1(b)和(c))。盡管我們從來沒有見過一個人兩臂舉起來那樣坐著,但是我們可以從這Fig.1(c)里的三個數(shù)據(jù)庫圖像里推斷出這個動作的合法性。這樣,能用數(shù)據(jù)庫里巨大的數(shù)據(jù)塊來解釋的新觀察到數(shù)據(jù)/查詢(一個圖像或是視頻)里的區(qū)域被認(rèn)為是很相像的,相反,不能用數(shù)據(jù)庫里的足夠大的數(shù)據(jù)塊來解釋的查詢里的區(qū)域被認(rèn)為是不相像或是可疑的。當(dāng)一個視覺的查詢是一個圖像,那么這些數(shù)據(jù)塊僅有空間的范圍。當(dāng)一個 視頻查詢是一個視頻,那么這些數(shù)據(jù)塊就既有空間又有時間范圍了。

      Detecting Irregularities in Images and in Video 19 Figure 1.The basic concept—Inference by Composition.A region in the query image is considered likely if it has a large enough contiguous region of support in the database.New valid image configurations can thus be inferred from the database, even though they have never been Seen before.Figure 2.Detecting a matching ensemble of patches.3. 碎片的組合

      人類的行為或自然的空間結(jié)構(gòu)從來都沒有相同的重復(fù)著。例如,沒有兩個人是走路是相同的。一個人比另一個人的手臂抬高一點,或是僅僅走得快一點。我們因此想允許它在我們的“迷題的塊”(數(shù)據(jù)塊)里有一個小小的非嚴(yán)格變形(在空間和時間上)。這對于巨大的數(shù)據(jù)塊來說尤其的正確。為了計算本地的非嚴(yán)格變形,巨大的塊利用它們相對的幾何位置在多維度上被分解成很多小塊的組合。這在Fig.1(d)中有說明。在推論處理過程,我們尋找具有相似屬性(行為或是外表)的塊的相似的幾何結(jié)構(gòu),同時允許在相對幾何排列上有微小的本地未對準(zhǔn)。這個概念在Fig.2中說明。當(dāng)視覺查詢是一個圖像,碎片的組合被組成空間碎片(見Fig.3(a))。當(dāng)視覺的查詢是一個視頻,那么碎片的組合被組成時空碎片(見Fig.3(b)),這允許我們捕捉動態(tài)的行為信息。在我們當(dāng)前的實現(xiàn)來說,一個簡單的典型的組合都同時從多維度(圖像碎片案例中的多空間維度,和時空碎片案例中的多時空維度)具有好幾百個碎片。當(dāng)從樣本碎片中組合新數(shù)據(jù)這個想法被先前證明對于大量的任務(wù)都是有用時,(e.g., Efros and Leung(1999), Freeman et al.(2000)and Wexler et al.(2004)),這些方法沒有在用于構(gòu)建的樣本碎片上強(qiáng)加任何的幾何約束,也就是說,它們的相對位置和距離在數(shù)據(jù)庫里沒有強(qiáng)加任何的幾何約束。對于他們的目的來說一點必要都沒有。然而對于檢測不規(guī)則來說是至關(guān)重要的。經(jīng)常,在相似和不相似現(xiàn)象之間區(qū)別的唯一真實的信息提示是數(shù)據(jù)庫支持的碎片

      程度。例如,一個舉著一支槍的人伸直一條手臂和一個人走路時瞬間伸直手臂是相似的,但是在時間上它的區(qū)域的支持度是非常有限的。獲取碎片的幾何相關(guān)性被認(rèn)為對于基于分類的目標(biāo)識別(Bart and Ullman, 2004;Felzenszwalb and Huttenlocher, 2005;Fergus et al.,;Leibe et al.)任務(wù)來說是重要的。這些方法不適合我們的目標(biāo),因為兩個原因:(i)他們的幾何結(jié)構(gòu)受限制于相關(guān)的小數(shù)量的碎片,這樣就不能捕捉那些用來探測不規(guī)則性的敏感的區(qū)別。(ii)這些結(jié)構(gòu)是為小數(shù)量預(yù)定義的目標(biāo)類來預(yù)學(xué)習(xí)的,然而我們的框架是可以應(yīng)用于任何類型的視覺數(shù)據(jù)。當(dāng)Leibe等人的幾何約束更加的靈活,這樣就允許從僅僅少數(shù)幾個樣本就能識別新的目標(biāo)結(jié)構(gòu),對于一堆有預(yù)定義目標(biāo)中心的預(yù)定義的目標(biāo)類,他們的方法仍然是有局限的。這就不適合于探測不規(guī)則性,它也沒有目標(biāo)類的概念?!癡ideo Google‖(Sivic and Zisserman, 2003)強(qiáng)化了在巨大的非基于分類的描述符的幾何約束,并且搜索他們都非常的高效。然而,這些描述符在自然界中有空間性的并且這搜索受限于單個的圖像幀,這樣就不能允許去捕捉行為。為了在合理的時間里推斷處理完成,小塊的信息和它們之間的相關(guān)排列必須被高效的存儲在數(shù)據(jù)庫里并且能從數(shù)據(jù)庫里高效的抽取出來。對于每個從樣本抽取出來的小塊,一個描述符向量連同絕對相關(guān)碎片(空間的或是時空的相關(guān)性)被計算和存儲(見下面)。這樣,在圖像和視頻數(shù)據(jù)庫里的所有碎片的相對排列都是隱式有效的。后來,我們的推論運(yùn)算法則采取從視覺查詢中的碎片組合并且查找數(shù)據(jù)

      庫來尋找相似的結(jié)構(gòu)碎片(既有描述符又有他們的相對幾何排列)。為了能快速的查找和檢索,這些碎片被存儲成多維的數(shù)據(jù)結(jié)構(gòu)。用一個或然論的圖形模式(第4節(jié)),我們?yōu)閷ふ覇栴}的組合提出了一個高效的推論運(yùn)算法則。

      3.1 碎片描述符

      碎片描述符是為每一個查詢碎片和每一個數(shù)據(jù)庫碎片而產(chǎn)生的。描述符捕捉關(guān)于外表和行為的本地信息。我們當(dāng)前的實現(xiàn)用的是非常簡單的描述符,這些描述符很容易就被那些更加世故圓滑的描述符所替代: 小空間碎片的空間圖像描述符是由以下構(gòu)成:為碎片里的每一個像素計算它的空間傾斜度的大小,這些值然后被一個向量所保存,這個向量規(guī)格化成一個單位長度。如此的描述符被密密麻麻的解壓到圖像里的每一個像素。這個描述符解壓處理過程被幾個圖像的空間高斯金字塔的空間范圍所替換。這樣,一個從粗糙范圍解壓出來的7 X 7的碎片就比它的輸入圖像(也就是說精度)具有更高的空間支持度。在一些應(yīng)用里,一個RGB/基于亮度的描述可能比一個基于傾斜度的描述符更適合。一般來說,我們的整體的框架沒有局限SIFT(Lowe, 2004)于這些特殊的描述符。這些很容易就被比它更世故圓滑的空間描述符例如SIFT(Lowe, 2004)等所替代。一個?。ㄒ簿褪?×7×4)的時空視頻碎片的時空視頻描述符由碎片的所有像素的時間派生的絕對值所構(gòu)成。這些值構(gòu)成一個向量并且規(guī)格化成一個單位長度。這個描述符解壓處理過程被幾個時空視頻金

      字塔的空間時間維度所替代。這樣,一個從粗糙維度解壓出來的7 × 7 × 4的碎片比它的輸入序列具有一個更大的空間和更大的時間支持度。注意到一點是,由于時間派生物在任何的靜態(tài)的背景下總是為零的,所以這個描述符幾乎是一個靜態(tài)背景不等式。所以,利用這時空

      描述符,我們可以在新的查詢序列中探測不規(guī)則,而完全不用理會它的背景。然而,這簡單的描述符依賴于空間織品的質(zhì)量,比如當(dāng)一個人穿著一件織地非常粗糙的衣服時它可能引起一個問題。我們的方法,然而就不會這樣局限于這些簡單描述符特殊的選擇。這些描述符可以很容易的就被那些世故圓滑的時空描述符(這些描述符對動作敏感并且更加的外表不變)所替代,例如Shechtman 和 Irani(2005)或Laptev 和 Lindeberg(2003)。Boiman and Irani

      Figure 3.Ensembles of patches in images and video.4. 基本的運(yùn)算法則

      給定一個新的視覺查詢(一個圖像或是一個視頻),我們很愿意去估計它的每個點的可能性。這可以通過檢查一個巨大的周圍的每一個像素的區(qū)域(也就是說,50 × 50的圖像區(qū)域和50 × 50 × 50視頻區(qū)域)的合法性來實現(xiàn)。這巨大的周圍區(qū)域被多維度(空間或是時空的)的分離成大量(好幾百個)的小的碎片,并且被表述為一個單一的與特殊圖像/視頻點相關(guān)的碎片的組合。令q1, q2,..., qn表示組合中的碎片(見Fig.3(a))。每一個碎片qi都與兩種類型的屬性相關(guān):(i)它的描述向量di和(ii)它的絕對坐標(biāo)的位置li。我們選擇任意的參考點C(也就是這組合的中心(見Fig.3(a)),C點作為本地坐標(biāo)系統(tǒng)(這樣就可以定義組合內(nèi)碎片的相對位置)的“原點” 4.1.統(tǒng)計公式

      令一個觀察到的查詢范圍內(nèi)的碎片組合用y來表示。我們想去計算連接的可能性P(x,y),其中觀察到的查詢中的組合y與在數(shù)據(jù)庫(既在碎片的描述符值相似也在相對位置上相似)中的隱藏的組合x是相似的。我們可以連接可能性變成:P(x, y)= P(y | x)P(x)。我們的模型P(y | x)類似于Felzenszwalb and Huttenlocher(2005)的“星圖”或然論模型。然而,在Felzenszwalb and Huttenlocher(2005)基于分類的設(shè)置表示為P(y;θ),其中θ是一個給定的基于分類的碎片群參數(shù)的預(yù)學(xué)習(xí)集。在我們的案例中,然而,對目標(biāo)是沒有概念的,也就是說,沒

      有數(shù)據(jù)庫組合x的前驗參數(shù)模型。這樣,θ是未定義的,并且P(x)必須直接從樣本數(shù)據(jù)庫中非參數(shù)的評估。令diy表示觀察到的碎片y中的第i個描述符向量,liy表示它的位置(在絕對坐標(biāo)里)。類似的,dix表示在碎片x中的第i個隱藏(數(shù)據(jù)庫)的描述符向量,lix表示它的位置。令cy和 cx表示被觀察到的和隱藏的組合的“原始”點。任何這樣一對組合y和x的相似性被以下的可能性公式捕獲:

      P(x, y)= P(cx , d1x ,..., l1x ,..., cy , d1y ,..., l1y,...)(1)

      為了讓計算Eq.(1)的可能性易于操作,我們做了一些簡化的統(tǒng)計假設(shè)。給定一個隱藏數(shù)據(jù)庫碎片和它的描述符dix,這相應(yīng)的觀察到的描述符diy被假設(shè)成與其它碎片描述符無關(guān)。(這是標(biāo)準(zhǔn)的馬爾可夫鏈的假設(shè),也就是說,F(xiàn)reeman等人(2000),這個在重疊碎片上明顯是不合法的,但它是一個有用近似值)。我們用一個高斯分布在描述符間建立相似性模型:

      P(diy|dix)=α1exp(?1/2(diy? dix)T S D?1(diy? dix))(2)這里,α1是一個常量,SD個常量協(xié)方差矩陣,它決定描述符值的可允許的偏差。其它的分布可以根據(jù)其它描述符的相似性函數(shù)插入到模型中。給定一個隱藏數(shù)據(jù)庫碎片的相對位置(lix? cx),觀察到的相應(yīng)碎片(liy? cy)的相對位置被假設(shè)成不依賴于所有其它碎片位置。這個假設(shè)使得有足夠靈活性去適應(yīng)在視線角度、范圍、位置和行為上的微小變化進(jìn)行比較兩個碎片組合的幾何排列,這樣:

      P(liy | lix, cx , cy)= α2 exp(? 1/2((liy? cy)?(lix? cx))T× S?1L((liy? cy)?(lix? cx))))(3)這里α2是一個常量,SL是一個常量協(xié)方差矩陣,它捕獲了相對碎片位置中的所被允許的偏差。(本案例中,相對位置的依賴是用高斯來建模,然而這模型并沒有受限它)。到目前為止我們已經(jīng)建立了組合(描述符:diy, dix相應(yīng)位置:liy? cy , lix? cx)間屬性的關(guān)系模型,我們?nèi)匀恍枰㈦[藏組合內(nèi)的關(guān)系(也就是一個碎片描述符dix和它的位置間lix.的關(guān)系)模型。在一般的案例中,這關(guān)系是非常的不可分析,因此不能被參數(shù)化(與基于分類方法形成對照,也就是說Felzenszwalb 和 Huttenlocher(2005)和 Fergus 等人(2003))的建模。因此,我們利用數(shù)據(jù)庫中的樣本進(jìn)行非參數(shù)化的為它建模:(dx, lx)∈ Database

      P(dx| lx)=

      0 otherwise

      (4)

      這里 dx 和 lx是任意描述符和位置。我們?yōu)閏x和cy(本地原始點)假設(shè)一個相同的先驗分布,也就是,沒有預(yù)先優(yōu)先選擇哪一個本地數(shù)據(jù)庫或是查詢的組合。所有上面提到的變量之間的關(guān)系在Fig.4中的貝葉斯網(wǎng)絡(luò)所描述。

      Boiman and Irani

      Figure 4 或然論圖形模型

      這貝葉斯依賴通過變量間的箭頭表示出來。這依賴關(guān)系僅僅為組合中的一個碎片(第i個碎片)而表示出來。觀察到的變量用“橙色”表示出來;隱藏變量用“藍(lán)色”表示出來。cx 和 cy分別是隱藏的和觀察到的組合的“原點”,Lix and li y是隱藏的和觀察到的組合的第i個

      碎片的位置(絕對坐標(biāo));dix 和 diy是每一個組合的第i個碎片的描述符向量。

      這樣,對于一個觀察到的組合 y 和一個隱藏數(shù)據(jù)庫組合 x,我

      們可以通過利用Eqs.(2)–(4)來得出Eq.(1)的共同可能性P(x, y)如下: P(cx , d1x ,..., l1x ,..., cy , d1y ,..., l1y)

      = αiP(liy| lix, cx , cy)P(diy| dix)P(dix| lix)(5)∏

      我們可以得出連接可能性的協(xié)方差矩陣,每一個都與模型中的一個不同部分所關(guān)聯(lián)著。當(dāng)識別的任務(wù)受限于幾個已知預(yù)定義的類型時,也就是每一個都有它的預(yù)定義部分和參數(shù)時,這是一個好方法。這,然而,不是我們案例中的設(shè)置,那里沒有預(yù)定義我們要尋找什么的概念,然而,我們想能夠探測相對于樣本細(xì)小的不規(guī)則。我們的模型因此是 非參數(shù)的并且它的歸納能力不依賴于參數(shù)的調(diào)整,但是更依賴于數(shù)據(jù)庫中樣本的差異性。這在個意義上來說,我們的非參數(shù)模型具有了Leibe等人的非參數(shù)處理方法的共同之處。在我們的實現(xiàn)中,我們已經(jīng)設(shè)置協(xié)方差矩陣SD和SL成為一個簡單的憑經(jīng)驗決定的標(biāo)量方差。這個簡單的設(shè)置給我們的實驗一個滿意的答案。注意到在這個設(shè)置里,這兩個參數(shù)的單一的目的就是適當(dāng)?shù)某袚?dān)了幾何變形和外表/描述符變形的代價。而且,注意到這些是模型中的僅有的參數(shù),因此需要非常少的參數(shù)調(diào)整。4.2 信任傳播推論

      給定一個觀察到的組合,我們尋找一個隱藏的數(shù)據(jù)庫組合,這個組合最大化它的MAP(最大歸納的可能性)分配。這被通過上面統(tǒng)計模型來完成,這個模型具有一個簡單并且確切的信任傳播運(yùn)算法則(Yedidia 等人,2003)。根據(jù)Eq.(5),MAP分配可以被寫成: max1111P(c , d ,..., l ,..., c , d ,..., lxxxyyy)X maxP(li| li, c , c)maxP(di| di)P(di| li)(7)= α∏y xxyy xx xilixdix這個表達(dá)式可以被表達(dá)成一個在Fig.4里傳遞運(yùn)算法則的消息。首先我們?yōu)槊恳粋€碎片計算從結(jié)點dix到結(jié)點lix關(guān)于它在位置lix的信任消息midl :

      maxmdl(lx)= dixP(diy | dix)P(di x | lix)(8)ii也就是,對于每一個觀察到的碎片,用高描述符相似性計算每一個候選數(shù)據(jù)庫位置lix。下一步,對這些候選數(shù)據(jù)庫的每一個位置,我們都傳遞一個包含在數(shù)據(jù)庫中可能原始位置cx:

      milc(cx)= maxlixP(liy | lix,cx,cy)mdl(lix)(9)在這一點,我們有一個被每一個碎片暗示的候選原始列表。為了計算一個整體組合任務(wù)的可能性,我們從組合里的所有個體碎片中乘這信任:

      mi(c)(10)mc(cx)=∏ ilcx通過這個運(yùn)算法則處理的推論運(yùn)算量一個MAP推論。因此,在樣本數(shù)據(jù)庫中只發(fā)生一次的東西相等于那些發(fā)生很多次的東西。這個公式在很多應(yīng)用中都很有用,然而,那可能有這樣的應(yīng)用,在那里我們愿意發(fā)生在數(shù)據(jù)庫中的頻率去影響一個組合的可能性。上面運(yùn)算法則的

      一個簡單的修改允許去計算可能性而不是MAP,這是通過轉(zhuǎn)換推論運(yùn)算法則從一個最大乘積轉(zhuǎn)換成一個和乘積。4.3 估計查詢點的可能性

      對查詢中每一個點,我們嘗試去在它周圍組合一個巨大的區(qū)域。這可以通過檢查一個圍繞著每一個點的巨大區(qū)域的合法性,檢查時用上面的推論處理過程(通過計算一個查詢區(qū)域相似性)。這一點參與在很多查詢區(qū)域中。我們定義一個查詢點的相似性為包含那個點的最大區(qū)域可能性。因此,假如存在一個包含它的巨大區(qū)域,有相應(yīng)的相似性數(shù)據(jù)庫區(qū)域的話,在查詢中的一個點將有一個高可能性。這個方法,我們可以利用部份的目標(biāo)閉塞組合成查詢,因為靠近邊界的點被包含在目標(biāo)里的一個巨大的區(qū)域中。然而,部分閉塞可能生成小的鄰接的目標(biāo)區(qū)域,這些區(qū)域不能被用高可能性利用我們當(dāng)前推論運(yùn)算法則去組合而已的。我們希望我們圍繞每一個點組合的區(qū)域盡可能的大,因為這區(qū)域越大,這一點是不規(guī)則的這個證據(jù)就越大。然而,那有這樣的案例,在這些案例里,一個“規(guī)則”的觀察到的組合不能被完全的由一個簡單的數(shù)據(jù)庫組合而組成(例如,由于部分閉塞)。這那些案例中(不是很高頻率的那些),我們減小觀察區(qū)域的尺寸(例如,減小25%)并且重復(fù)著推論的過程,完全沒有包括被丟棄的碎片。我們處罰總體組合可能性的分?jǐn)?shù)為每一個我們丟棄的碎片。根據(jù)Eq.(6)我們增加一個常量代價處罰為每一個我們丟棄的碎片。處罰期限的大小,反映了我們歸因于組合區(qū)域大小的重要程度。

      處理不同大小的組合:為了探測在一個整體觀察里的不規(guī)則區(qū)域,我們僅僅開始了在Eq.(6)里的組合代價。然而,那可能有一些觀察到的組合大小可能不同的案例(例如,因為非情報性區(qū)域,排除分析的區(qū)域,數(shù)據(jù)邊界,等等)。為了比較不同大小的組合合成代價,需要一個標(biāo)準(zhǔn)化的東西。我們利用一個標(biāo)準(zhǔn)化,它是基于統(tǒng)計組合代價顯著水平的標(biāo)準(zhǔn)化。我們定義一個零假設(shè)H0,這樣每一個觀察到的組合都通過上面定義的統(tǒng)計模型來產(chǎn)生。因此,組成代價C0的統(tǒng)計顯著水平可以通過P值 Pr(C > C0 | H0)來測量到。假定這零假設(shè),并且給定一個隱藏的組合,每一期限在Eq(6)里的組成代價都是按照χ2分布的,并且總體代價的分布也是按χ2分布。這些分布可以被用到計算這樣的P值,它為不同大小的組合“規(guī)格化”它們的組成代價。

      5. 一個高效的推論運(yùn)算法則

      在第4.2節(jié)中信息傳遞運(yùn)算法則的一個本地的實現(xiàn)是很不高效的,由于獨(dú)立描符查詢是為每一個觀察到的組合中的碎片而處理的,完全不用回答先前被其它碎片處理的查詢。這導(dǎo)致了一個O(Nk)的復(fù)雜度,N是數(shù)據(jù)庫中碎片的數(shù)量(例如100,000個碎片為一個一分鐘的視頻數(shù)據(jù)庫)并且K是組合中碎片的數(shù)量(例如256)。而且,我們將會掃描整個的查詢(一個新圖像或是一個新視頻),這個查詢導(dǎo)致一個總共O(Nkq)的復(fù)雜度,這里Q是查詢中碎片的數(shù)量。這復(fù)雜性對于真實的應(yīng)用來說是禁止的,因為每一個詞語(N, k 和q)都是不可以忽

      略的。在本章節(jié)中我們給出了怎么樣可以做到不用犧牲精確度而顯著的減少復(fù)雜度。5.1. 改進(jìn)的排除過程

      觀察到的組合中的碎片與某一幾何排列有關(guān)。我們可以用這知識通過改進(jìn)的消除數(shù)據(jù)庫里的查詢空間來進(jìn)行一個高效的查詢:我們?yōu)橐粋€少數(shù)量的碎片(例如1個)來計算消息midl??赡艿暮蜻x原點的結(jié)果列表包含了為下一個碎片的非常有限的查詢空間。下一個碎片,依次,從已經(jīng)候選的短列表中消除附加的原點,等等。這個處理過程在Fig.5.中圖表說明。為了加速這進(jìn)步的消除的過程,我們在 Eqs.(2)和(3)用削去頂端的高斯分布(4σ之后的削去)。因此,根據(jù)幾何學(xué)或是外觀/描述符,這些分布將一個零的可能性給高碎片變形。第一個碎片查詢的代價是O(N)。我們僅僅從被第一碎片(在我們的實現(xiàn)里,c=50)提議列表中保存了最好的C候選原點。第二碎片現(xiàn)在受限于C位置的近鄰。第二碎片將受限于一個更加小數(shù)量的近鄰。這樣,在最糟糕的案例想定,我們的復(fù)雜是O(N + kc)≈ O(N)。相反,在Felzenszwalb and Huttenlocher(2005)and Leibe 等人的推論處理的復(fù)雜度是O(Nk),而這“群星模型”(Fergus 等人)復(fù)雜度在碎片數(shù)量上是指數(shù)型的。上面被提議的在復(fù)雜度方面的減少對于使能擁有幾百個的碎片的組合的視頻推論是極度重要的。值得注意的是極限縮小候選原點的數(shù)量直到C候選可能會是有問題的:例如,假如我們選擇的第一個碎片是非情報的(也就是單邊),那么選擇最優(yōu)C候選是武斷的并且我們可能拋棄了全局最優(yōu)組

      合。在實踐中,我們推論算法(多維度策略,預(yù)搜查,和掃描觀察)的其它組件消除了這風(fēng)險。注意到的是,假如我們采取削峰高斯分布(或其它有限支持分布),并且假如搜查第一個最新碎片范圍少于C候選位置,那么這改進(jìn)的消除處理保證一個確切的解決方法,因為我們僅僅拋棄有零相似性的候選。注意到這使得在這樣的條件下,我們可以提供一個確鑿?fù)普摚@個推論等價于含有簡化復(fù)雜度的信任傳播。而且,我們知道在推論過程中,這結(jié)果是確鑿的(最優(yōu)化)或是它僅僅是一個近似值。

      5.2. 多維查找

      為了進(jìn)一步加速這消除過程,我們用一個由粗糙到精細(xì)的策略(既有時間又有空間)。我們從粗糙的維度選擇第一個查找碎片,因為兩個原因:(i)在數(shù)據(jù)庫里有一個更小數(shù)量的粗糙碎片比精細(xì)的碎片(這樣減少了有效的N在第一個最強(qiáng)烈的步驟中),并且(ii)粗糙的碎片更加有判別力的因為他們從巨大的區(qū)域中捕獲了信息。這消除數(shù)據(jù)庫組合的候選區(qū)域是非常快速的。我們進(jìn)行下去直到我們處理完所有的在觀察到的粗糙維度的碎片。于是我們投出候選原始點到下一個精密標(biāo)度并且繼續(xù)去處理在精密維度(既是空間上也是時間上的)里的碎片。我們用多維度的方法去處理所有在觀察到組合里的碎片。這個多維度查找的復(fù)雜度是O(N0 + kc),這里N0是時空金字塔里最粗糙維度的碎片數(shù)量。

      5.3.高效的數(shù)據(jù)庫存儲和檢索

      一個簡單的數(shù)據(jù)庫實現(xiàn)可以是用一個碎片描述符的排列和線性的查找。然而,時間和空間復(fù)雜度可以顯著的分別的提升數(shù)據(jù)庫的存儲和檢索。存儲空間可以通過保持描述符向量近似值的方法得到顯著的減少。例如,所有描述符向量通過利用標(biāo)準(zhǔn)技術(shù)例如PCA和ICA的技術(shù)可以被到映射成一個低維線性空間。另外,向量量子化技術(shù)(例如K均值,或是Jurie and Triggs(2005))可以被應(yīng)用到描述符的聚類組中。映射和量子化的結(jié)果是出現(xiàn)更少存儲的描述符,并且每一個描述符都更短了。另一個好處是數(shù)據(jù)庫檢索時間被縮短了。注意到映射和量子化在描述符向量里引進(jìn)了錯誤。假如每一個“被壓縮”的描述符向量包含一個連接原始描述符的話,我們就可以消除錯誤了。本案例中,存儲空間沒有被縮小,但是檢索的時候?qū)豢s小。一個接近的相關(guān)的縮短數(shù)據(jù)庫檢索時間的相關(guān)方法是使用更好的數(shù)據(jù)結(jié)構(gòu)去存儲描述符向量,例如KD樹和hash表去查找大約最近鄰。這些數(shù)據(jù)結(jié)構(gòu)使最快范圍查詢(在一個給定的元素的某一范圍里發(fā)現(xiàn)所有在數(shù)據(jù)庫里的元素)。這個時間復(fù)雜度的結(jié)果是O(Range(N0)+ kc),這里(N0)《 N0表示在有N0元素(碎片)的數(shù)據(jù)庫數(shù)據(jù)結(jié)構(gòu)的范圍查詢的代價。

      5.4 利用預(yù)查詢的方法

      到目前為止我們假定上面描述的組合算法是被應(yīng)用到所有觀察的點,這些點完全不彼此不相關(guān)的。這常常是徒勞無功的,因為鄰近的被觀察到的組合在數(shù)據(jù)庫里傾向于擁有近鄰隱藏的組合。我們利用這個事實通過測試隱藏組合變量在空間和時間上的值去加速合成的過程。通過所有的先前組成的組合,憑借著從觀察到的重疊碎片里獲得的知識,我們預(yù)測隱藏組合中心的位置和數(shù)據(jù)庫里的隱藏碎片的身份。我們用最簡單的預(yù)測:給定一個近鄰的觀察到的組合(?y和它的相應(yīng)被探測的數(shù)據(jù)庫組合~ X),我們預(yù)測一些在隱藏組合X里的隱藏變量,相對應(yīng)的是一個新觀察到的組合Y。我們預(yù)測用以下公式預(yù)測隱藏組合中心Cx:

      cx = c?x + cy ? c?y

      (11)而且,對每一個觀察到出現(xiàn)在預(yù)測組合(liy, diy)=(l?jy ,d?jy)的碎片(liy,diy),我們預(yù)測相應(yīng)的隱藏變量(lix, dix)=(l?jx ,d?jx)。沒有預(yù)測的剩下的隱藏變量,可以用改進(jìn)的消除過程非??斓谋煌茢喑鰜?。注意到的是對于近鄰組合,大多數(shù)的觀察到的碎片是重疊在一起的,因此組成一個新組合的復(fù)雜度是非常低的。萬一預(yù)測錯誤并且因此導(dǎo)致一個低質(zhì)量的組合(也就是說,被觀察到的區(qū)域有較低的可能性),我們就拋棄這預(yù)測結(jié)果并且在整個的數(shù)據(jù)庫里都用通用的推論。這樣,這個預(yù)測查詢就不會在數(shù)據(jù)庫的別處阻止探測。然而,在大多數(shù)的情況下,這預(yù)測查詢是很精確的并且它減少相當(dāng)多的推論時間。假定有一個長度為r的合法性預(yù)測“鏈條”,在鏈條中預(yù)測一個組合的代價是O(k)。因此,這樣一個鏈條的總的復(fù)雜度是O(Range(N0)+ kc + kr)而不是沒有預(yù)測時的O(Range(N0)r +

      krc)。除些之外,還非常的明顯的縮短推論時間,預(yù)測確實提升了推論的準(zhǔn)確性。這是因為組合精準(zhǔn)的這些區(qū)域繁殖信息到了精確性不高的那些區(qū)域(例如,一個站立的人的一條腿比身體的上部有更少的確定性)。

      6. 應(yīng)用

      在本論文提出的方法引起了各種各樣包括探測圖像和視頻不規(guī)則方面的應(yīng)用:

      6.1.探測與異常圖像結(jié)構(gòu)

      給定一個樣本圖像數(shù)據(jù)庫,我們可以要新觀察到的圖像中探測一些異常的東西(例如從來都沒有見過的物體,新的圖像模式,等等)在Fig.6里給出一個例子。三個不同姿勢的圖像作為一個數(shù)據(jù)庫被提供(Fig.6(a))。其它姿勢的圖像作為查詢被提供(Fig.6(b))。新的合法的姿勢被自動的從數(shù)據(jù)庫里推斷出來,盡管它們是從來都沒有見過的。不能從三個數(shù)據(jù)庫圖像被推斷出來的新姿勢部分被用紅色標(biāo)示成“不熟悉的”(Fig.6(c))。Figure 6(d)真實的標(biāo)出了這些能夠為大多數(shù)查詢圖像中的每一個像素提供證據(jù)的數(shù)據(jù)庫圖像(也就是說,這告訴我們哪一個數(shù)據(jù)庫圖像包含了最大可能支持那像素的區(qū)域。注意,然而,這些并不是支持它們自己的區(qū)域)。默認(rèn)具有相同碎片的和從推論過程中被拋棄(為了加快速度)的相同的碎片(具有可以忽略的圖像傾斜度)被假定為合法的。

      Figure 6.Detection of irregular image configurations.New valid poses are automatically inferred from the database(e.g., a man sitting on the chair with both arms up, a man sitting on a chair with one arm up), even though they have never been seen before.New pose parts which cannot be inferred from the three database images are highlighted in red as being ―unfamiliar‖.6.2 單一圖像的空間顯著

      給定一幅單一的圖像(也就是說沒有數(shù)據(jù)庫),顯著圖像區(qū)域可以被探測到,例如,那些凸出的不同于剩余部分的圖像的區(qū)域。這可以通過測量每個相對于同一幅圖像中剩余點的圖像區(qū)域(即“查詢”)的可能性來實現(xiàn)(這數(shù)據(jù)庫用作推論這特殊的區(qū)域)。這個處理過程為每一個圖像區(qū)域重復(fù)著。(當(dāng)進(jìn)行著從一個圖像區(qū)域的分析到下一個圖像區(qū)域的分析時,這個處理過程可以通過自適應(yīng)增加或是減少數(shù)據(jù)庫中的大約描述符的方法而很高效的實現(xiàn))。這樣的一個例子在Fig.7.中表示出來。這個方法可以被應(yīng)用到自動視覺檢測的問題中(計算機(jī)芯片、貨物等的檢測)。

      Figure 7.Identifying salient regions in a single image(no database;no prior information).The Jack card was detected as salient.Note that even though the diamond cards are different from each other, none of them is identified as salient.6.3 探測可疑行為

      給定顯示幾個合法行為例子的一個小數(shù)據(jù)系列,我們可以一個新的長

      視頻中探測到可疑和為。這是完全不管我們以前從來都沒有看過這些行為的組合,而且是沒有關(guān)于哪一類的可疑行為可能發(fā)生在視頻里的先驗知識的。這些是自動的組合與從數(shù)據(jù)庫中的時空區(qū)域里推斷出來的。Fig.8有一個這樣的例子,它從一個2分鐘長的視頻短片里顯示出幾個用來探測可疑行為的例子。要看完整的視頻請登錄004km.cnbinations are automatically inferred from the database(e.g., two men walking together, a different person running, etc.), even though they have never been seen before.behaviors which cannot be inferred from the database clips are highlighted in red as being ―suspicious‖.For full videos see www.wisdom.weizmann.ac.il/~vision/Irregularities.html

      6.4 視頻中的時空顯著

      利用我們的方法我們可以從一個簡單的視頻流里就能識別出顯著行為,完全不用任何的數(shù)據(jù)庫或是先驗信息。例如,一個人在歡呼的人群中奔跑。這個人的行為很明顯是顯著的。在這個案例中,顯著性是通過相對于同一時間觀察到的其它行為的比較而測量出來的。每一個

      時空視頻片斷(查詢)的合法性是相對于所有其它視頻片斷而測量出來的。這個處理過程為每一個視頻片斷重復(fù)進(jìn)行著。這樣的例子在Fig.9里有給出。要獲取全部視頻,登錄到www.wisdom.weizmann.ac.il/~vision/Irregularities.html。視頻顯著性也可以通過相對于其它的時間窗口來測量到。例如,當(dāng)顯著性是通過相對于整個視頻而測量的,那么那些只出現(xiàn)過一次的行為將顯得突出。作為選擇的,當(dāng)顯著性的測量是相對于過去(所有之前的幀)而測量的,那么新的之前沒有發(fā)生過的行為就會被認(rèn)出。這提升了應(yīng)用的多樣性,包括視頻大綱。

      Figure 9.Detecting salient behaviors in a video sequence(no database and no prior information).Saliency is measured relative to all the other behaviors observed at the same time.In this example, all the people wave their arms, and one person behaves differently.For full videos see www.wisdom.weizmann.ac.il/~vision/Irregularities.html

      6.5 自動視頻檢查(質(zhì)量保證)

      我們的方法可以被應(yīng)用到自動視覺查檢。自動視覺檢查可以廣泛的應(yīng)

      用在質(zhì)量保證和貨物的制造方面,電子印板,晶片等。自動檢查的一個主要的問題是怎么描述所有可能正確的模式。在這些案例中,自動檢測減少成一個具有轉(zhuǎn)變探測的簡單問題模型匹配。然而,有很多重要復(fù)雜案例,它是毫無意義或不可能提供比較參考,(例如,由于“好”案例的空間的組合復(fù)雜度)。我們用我們的方法從事這樣的案例從而來探測不規(guī)則性。通過提供一些期待/正常模型的樣例(對于貨物,印刷板,晶片,光掩膜,平板顯示,磁磚,織物,水果等)我們努力去從這些樣例通歸納和組成新的從來都沒有見過的現(xiàn)象。具有較低組成可能性的將為認(rèn)為是錯誤的。在Fig.10給出這樣的一個水果檢查的樣例。經(jīng)常,被檢查的產(chǎn)品呈現(xiàn)出重復(fù)的模型(例如,晶片,織物,平板顯示)。在這些案例中,我們可以用我們的顯著方法去探測錯誤根本不需要先驗樣例。這在Fig.11中圖表說明晶片檢查和Fig.12里的織物檢查。對于給出的樣例中,我們已經(jīng)利用到基于RGB或是灰度等級的碎片描述符。我們已經(jīng)利用到一個高斯分布來對描述符相似性建模。我們的方法,然而,沒有局限于特定的描述符。

      Figure 10.Detection of defects in grapefruit images.Using the single image(a)as a ―database‖ of high quality grapefruits, we can detect defects in different grapefruits at different arrangements in images(b),(c).In both image pairs the input image is to the left and the output image is to the right.Detected defects are highlighted in ―red‖.Figure 11.Detection of defects in wafer images(No database and no prior information).Wafers tend to exhibit repeating structures.This can be utilized using our saliency approach to detect defects without any database.In each example, the left image is the input, the right image is

      the output.Detected defects are highlighted in ―red‖.Figure 12.Detection of defects in fabric images(No database and no prior information).Fabric tend to exhibit nearly repeating textures and patterns with small non-rigid deformations.This can be utilized using our saliency approach to detect defects without any database.Detected defects are highlighted in ―red‖.7. 結(jié)論

      我們研究的問題是探測視覺數(shù)據(jù)(圖像或視頻)里的不規(guī)則現(xiàn)象。“不規(guī)則”這個術(shù)語是依賴于被定義“規(guī)則”或“合法”的上下文。然而,對于給定的上下文,期待顯定義所有可能合法結(jié)構(gòu)是不現(xiàn)實的。我們把決定視覺數(shù)據(jù)合法性的問題當(dāng)作構(gòu)造一個迷題的過程:我們盡力利用從先前視覺樣例(數(shù)據(jù)庫)中解壓出來的數(shù)據(jù)塊去組合一個新觀察到的圖像區(qū)域或是一個新視頻片斷(查詢)。能夠用數(shù)據(jù)庫里的巨大鄰接數(shù)據(jù)塊去組成的觀察到的數(shù)據(jù)區(qū)域被認(rèn)為是相似的,相反那些不

      能從數(shù)據(jù)庫里的數(shù)據(jù)組成(或是能組成,但只是可以由小數(shù)量的碎片組成)的觀察到的區(qū)域被認(rèn)為是不相似/可疑的。我們把這個過程定義為“通過組合的推論”。它允許我們在僅僅少數(shù)幾個樣例就能在一個更大的上下文中去歸納什么是規(guī)則的什么是不規(guī)則的。這個壓縮過程的實現(xiàn)是作為一個蓋然論圖像模型里的高效推論運(yùn)算法則來完成的,它適應(yīng)查詢與數(shù)據(jù)庫之間微小的時空變形。“通過組合的推論”也能應(yīng)用在完全沒有先驗樣例的情況下探測視覺數(shù)據(jù)顯著性。為了這個目的我們把每一個圖像區(qū)域稱作一個“查詢”,并且盡力利用剩下部分的圖像(數(shù)據(jù)庫)去組合它。這個過程依次對所有的圖像區(qū)域重復(fù)著。像這樣一些不能用圖像的其它部分“解釋”(組合)的區(qū)域?qū)⒆鳛轱@著區(qū)域被探測出來。這引導(dǎo)了一個新定義的術(shù)語視覺數(shù)據(jù)顯著性。在視頻數(shù)據(jù)的案例中,這些區(qū)域是時空性的,并且這些顯著性視頻區(qū)域是相應(yīng)于顯著性行為。我們的“通過組合的推論”這方法是通用的并且因此能夠研究在簡單統(tǒng)一的框架里問題,它的一般性使它不用采取任何基于分類模型的預(yù)學(xué)習(xí)的方法。我們通過探測可疑行為,顯著性行為,顯著性圖像區(qū)域,探測貨物或產(chǎn)品來證明這個方法的應(yīng)用。我們當(dāng)前的運(yùn)算法則有兩個主要的局限性:(i)盡管閉塞可以被處理到一定程度,它不能處理一些極端的閉塞(例如當(dāng)只有物體的小碎片部分是顯著時)。(ii)時間和存儲的復(fù)雜度在我們當(dāng)前的推論算法中是隨樣例數(shù)據(jù)庫的大小顯線性變化的。這很顯然對于巨大數(shù)據(jù)庫來說是有問題的。這兩個問題是我們將來研究的一個主題。

      第三篇:讀書筆記(圖像和視頻中的不規(guī)則檢測)

      論文題目:Detecting Irregularities in Images and in Video 所載刊物:International Journal of Computer Vision 74(1), 17–31, 2007 作者:Oren Boiman and Michal Irani

      主要內(nèi)容和結(jié)論(觀點):

      該文主要闡述了作者在檢測圖像和視頻等可視化數(shù)據(jù)中的不規(guī)則數(shù)據(jù)的研究成果。

      文章中表明,圖像和視頻中不規(guī)則圖像模型的探測在各種各樣的任務(wù)中都是很有用的。對于監(jiān)視和監(jiān)測來說探測可疑行為或是異常目標(biāo)是重要的。

      早先識別可疑行為或活動的方法可以廣泛的被分成兩類:基于規(guī)則的方法和沒有預(yù)定義規(guī)則的統(tǒng)計方法。

      而在該文中作者提出將探測規(guī)則和不規(guī)則的問題公式化成為用從先前可視樣本(數(shù)據(jù)庫)中提取出來的時空塊組成(解釋)新的觀察的可視數(shù)據(jù)(一個圖像或是一段視頻,在下面提到時用“查詢”表示)的問題。這些可以用從樣本數(shù)據(jù)庫中抽取的大的連續(xù)數(shù)據(jù)塊組成的查詢中的區(qū)域被認(rèn)為是相似的,這些區(qū)域越大,相似性就越強(qiáng)。在不能用樣本數(shù)據(jù)庫組成的查詢中的區(qū)域被認(rèn)為是不相似的或是可疑的。作者的方法因此可以從僅僅少量的幾個樣本就能推斷或是歸納出更大的上下文的圖像模式和行為,甚至那些從來都沒有見過的特別構(gòu)造。(這個過程被定義為“通過組合的推論”)

      作者認(rèn)為該文作出了以下四個主要的貢獻(xiàn):

      1、提出了一個可以從僅有的幾個樣本中就可以推理和歸納的方法,這個方法是關(guān)于一個更大的上下文圖像模式和行為的合法性的,甚至是那些從來都沒有見過的特殊構(gòu)造的合法性。

      2、提出了一個基于圖表的貝葉斯定理的推論算法,它可以在成倍增加的時空范圍里有效探測大的整套的碎片塊(例如,數(shù)以百計的碎片塊)。同時它可以增強(qiáng)這些在整體以及單個的描述符上的碎片里的相關(guān)幾何方面的排列上的約束。

      3、提出了對圖像和視頻里術(shù)語中的“顯著”和“視覺注意”給出一個新的解釋。

      4、提出了一個單一的、統(tǒng)一的框架來處理計算機(jī)視覺里幾個的問題,這些問題在過去已經(jīng)被單獨(dú)地處理過。它們包括:圖像和視頻中值得注意的地方,可疑行為的識別,異常物體的識別,自動視頻檢查(例如,用于質(zhì)量保證)等等。

      論文中的基本算法:

      1、統(tǒng)計公式

      用y來表示一個觀察到的查詢范圍內(nèi)的碎片組合。計算連接的可能性P(x,y),其中觀察到的查詢中的組合y與在數(shù)據(jù)庫(既在碎片的描述符值相似也在相對位置上相似)中的隱藏的組合x是相似的。我們可以把連接的可能性分解成:P(x, y)= P(y|x)P(x)。

      令dy表示觀察到的碎片y中的第i個描述符向量,ly表示它的位置(在絕對坐標(biāo)里)。類似的,dx表示在碎片x中的第i個隱藏(數(shù)據(jù)庫)的描述符向量,lx表示它的位置。令cy和cx表示被觀察到的和隱藏的組合的“原始”點。任何這樣一對組合y和x的相似性被以下的可能性公式捕獲: iiii

      P(x, y)= P(cx , d1x ,..., l1x ,..., cy , d1y ,..., l1y,...)(公式1)

      我們用一個高斯分布在描述符間建立相似性模型:

      P(diy|dix)=α1 exp(?1/2(diy? dix)T S D?1(diy? dix))(公式2)

      這里,α1是一個常量,S D是一個常量協(xié)方差矩陣,它決定描述符值的可允許的偏差。其它的分布可以根據(jù)其它描述符的相似性函數(shù)插入到模型中。給定一個隱藏數(shù)據(jù)庫碎片的相對位置(lx? cx),觀察到的相應(yīng)碎片(ly? cy)的相對位置被假設(shè)成不依賴于所有其它碎片位置。這個假設(shè)使得有足夠靈活性去適應(yīng)在視線角度、范圍、位置和行為上的微小變化進(jìn)行比較兩個碎片組合的幾何排列,這樣: iiP(liy | lix, cx , cy)= α2 · exp(? 1/2((liy? cy)?(lix? cx))T× S?1L((liy? cy)?(lix? cx))))(公式3)

      到目前為止我們已經(jīng)建立了組合(描述符:dy, dx和相應(yīng)位置:ly? cy , lx? iiiicx)間屬性的關(guān)系模型,我們?nèi)匀恍枰㈦[藏組合內(nèi)的關(guān)系(也就是一個碎片描述符dx和它的位置間lx的關(guān)系)模型。利用數(shù)據(jù)庫中的樣本進(jìn)行非參數(shù)化的為它建模:

      ii

      1(dx , lx)∈ Database

      P(dx | lx)=(公式4)

      0otherwise

      這里dx和lx是任意描述符和位置。

      這樣,對于一個觀察到的組合y和一個隱藏數(shù)據(jù)庫組合x,我們可以通過利用公式(2)–(4)來得出公式(1)的共同可能性P(x, y)如下:

      P(cx , d1x ,..., l1x ,..., cy , d1y ,..., l1y)

      =α?P(liy| lix, cx , cy)P(diy| dix)P(dix| lix)(公式5)

      i

      對于任何隱藏的非零可能性的集團(tuán)分配,我們定義組合代價為負(fù)的對數(shù)可能性函數(shù):

      -logP(cx , d1x ,..., l1x ,..., cy , d1y ,..., l1y)

      = ?i-log P(liy| lix, cx , cy)+?-log P(diy| dix)+α1(公式6)i

      當(dāng)α1= log(α)時是常量。

      2、信任傳播推論

      給定一個觀察到的組合,我們尋找一個隱藏的數(shù)據(jù)庫組合,這個組合最大化它的MAP(最大歸納的可能性)分配。這被通過上面統(tǒng)計模型來完成,這個模型具有一個簡單并且確切的信任傳播運(yùn)算法則。根據(jù)公式(5),MAP分配可以被寫成:

      1111P(c , d ,..., l ,..., c , d ,..., lxxxyyy)MaxX

      =α?iiiiiiiP(l| l, c , c)P(d| d)P(d| ly xxyy xx x)(公式7)MaxMaxlxidxi

      首先我們?yōu)槊恳粋€碎片計算從結(jié)點dx到結(jié)點lx關(guān)于它在位置lx的信任消息: iii

      midl(lix)= iii iP(d| d)P(d| ly xx x)(公式8)Maxdxi

      也就是,對于每一個觀察到的碎片,用高描述符相似性計算每一個候選數(shù)據(jù)

      庫位置lx。下一步,對這些候選數(shù)據(jù)庫的每一個位置,我們都傳遞一個包含在數(shù)據(jù)庫中可能原始位置cx: i

      milc(cx)= iiiP(l| l, c, c)m(ly xx ydlx)(公式9)Maxlxi

      在這一點,我們有一個被每一個碎片暗示的候選原始列表。為了計算一個整體組合任務(wù)的可能性,我們從組合里的所有個體碎片中乘這信任:

      mc(cx)=?milc(cx)(公式10)

      i

      通過這個運(yùn)算法則處理的推論運(yùn)算量一個MAP推論。

      3、估算查詢點的可能性

      對于查詢中每一個點,我們嘗試在它周圍組合一個大的區(qū)域。這可以通過檢查圍繞著每一個點的大區(qū)域的有效性,檢查時用上面的推論處理過程(通過計算一個查詢區(qū)域相似性)。這一點參與了很多查詢區(qū)域中。我們定義一個查詢點的相似性為包含那個點的最大區(qū)域可能性。因此,假如存在一個包含它的大區(qū)域,有相應(yīng)的相似性數(shù)據(jù)庫區(qū)域的話,在查詢中的一個點將有一個高可能性。這樣,我們可以利用部份的目標(biāo)遮擋組合成查詢,因為靠近邊界的點被包含在目標(biāo)里的一個大的區(qū)域中。然而,部分遮擋可能生成小的鄰接的目標(biāo)區(qū)域,這些區(qū)域不能用我們當(dāng)前推論算法去組合。

      在文章中,作者還提出了算法的性能改進(jìn),并介紹了一些基于該文中所述方法的探測圖像和視頻中不規(guī)則方面的應(yīng)用:包括探測異常圖像構(gòu)造、單一圖像的顯著空間、探測可疑行為以及自動視頻檢查(質(zhì)量保證)等等。

      最后,文章給出了結(jié)論:“通過組合的推論”,允許我們可以由少數(shù)幾個樣例就能在一個更大的上下文中去歸納什么是規(guī)則的,什么是不規(guī)則的。這個壓縮過程的實現(xiàn)是作為一個概率圖像模型里的高效推論算法來完成的,它適應(yīng)查詢與數(shù)據(jù)庫之間微小的時空變形。

      “通過組合的推論”,也可以應(yīng)用在完全沒有任何早先樣本的情況下探測可視數(shù)據(jù)的顯著性。為了這個目的我們把每一個圖像區(qū)域稱作一個“查詢”,并且盡力利用剩下部分的圖像(數(shù)據(jù)庫)去組合它。這個過程依次重復(fù)所有的圖像區(qū)域。像這樣一些不能用圖像的其它部分“解釋”(組合)的區(qū)域?qū)⒆鳛轱@著區(qū)域

      被探測出來。這導(dǎo)致了在可視數(shù)據(jù)上的一個新定義的術(shù)語:顯著。在視頻數(shù)據(jù)的案例中,這些區(qū)域是時空相關(guān)的,并且這些顯著的視頻區(qū)域是與顯著的行為相呼應(yīng)的。

      “通過組合的推論”,這一方法是通用的并且因此能夠研究在一個單一的、統(tǒng)一的框架里的問題,它的一般性使得它不用采取任何基于分類模型的預(yù)學(xué)習(xí)的方法。我們通過探測可疑行為,顯著行為,顯著圖像區(qū)域,探測貨物或產(chǎn)品來證明這個方法的應(yīng)用。

      文章中也提到,該文中的算法有兩個主要的局限性:(i)盡管遮擋可以處理某種程度的影響,它不能處理一些極端的遮擋(例如當(dāng)只有物體的小碎片部分是顯著時)。(ii)時間和存儲的復(fù)雜度在該文的推論算法中是隨樣本數(shù)據(jù)庫的大小顯線性變化的。這對于大的數(shù)據(jù)庫來說顯然是有問題的。這兩個問題會是作者將來研究的一個主題。

      相關(guān)研究介紹:

      趙峰等人在《計算機(jī)研究與發(fā)展》中發(fā)表的《一種基于奇異值分解的圖像匹配算法》提出一種新的基于奇異值分解的圖像匹配算法。首先在待匹配圖像中分別提取帶主方向的角點作為特征點,通過計算特征點間經(jīng)旋轉(zhuǎn)補(bǔ)償?shù)臍w一化互相關(guān)值建立特征點相似度矩陣,然后利用奇異值分解算法生成特征點匹配矩陣并獲得特征點間的--對應(yīng)關(guān)系。在復(fù)雜自然圖像上的實驗結(jié)果表明,算法能夠匹配任意角度旋轉(zhuǎn)的圖像,對局部遮擋、光照變化、隨機(jī)噪聲等具有較強(qiáng)的健壯性,并具有較快的計算速度和較高的匹配精度。

      張軍、劉志鏡在《模式識別與人工智能》發(fā)表的《基于模糊理論的行人異常動作檢測》中根據(jù)行人軀干和四肢輪廓角度的變化,設(shè)計用于模糊化的函數(shù)式。提出利用軀干和四肢的模糊隸屬度通過計算來得到整個人異常度的一種基于模糊理論異常行為判別的算法。在系統(tǒng)實現(xiàn)中,提出利用質(zhì)心軌跡和模糊判別的聯(lián)合方法來甄別行人是否異常的方法。模糊判別可實現(xiàn)在視頻監(jiān)控范圍內(nèi)對行人行為的主動分析,從而能夠?qū)π腥水惓5膭幼髯龀鲎R別并進(jìn)行報警處理。

      田永鴻等人申請的專利201010568248.X,“圖像顯著對象提取方法、互補(bǔ)顯著度圖學(xué)習(xí)方法及系統(tǒng)”,通過給定任意圖像,自動準(zhǔn)確地提取出圖像中的顯著物體,有效地解決了在復(fù)雜場景下一般顯著物體提取結(jié)果缺乏的準(zhǔn)確性和魯棒性問題。

      下載實時視頻圖像的清晰度檢測算法研究教案(精選合集)word格式文檔
      下載實時視頻圖像的清晰度檢測算法研究教案(精選合集).doc
      將本文檔下載到自己電腦,方便修改和收藏,請勿使用迅雷等下載。
      點此處下載文檔

      文檔為doc格式


      聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)自行上傳,本網(wǎng)站不擁有所有權(quán),未作人工編輯處理,也不承擔(dān)相關(guān)法律責(zé)任。如果您發(fā)現(xiàn)有涉嫌版權(quán)的內(nèi)容,歡迎發(fā)送郵件至:645879355@qq.com 進(jìn)行舉報,并提供相關(guān)證據(jù),工作人員會在5個工作日內(nèi)聯(lián)系你,一經(jīng)查實,本站將立刻刪除涉嫌侵權(quán)內(nèi)容。

      相關(guān)范文推薦