欧美色欧美亚洲高清在线观看,国产特黄特色a级在线视频,国产一区视频一区欧美,亚洲成a 人在线观看中文

  1. <ul id="fwlom"></ul>

    <object id="fwlom"></object>

    <span id="fwlom"></span><dfn id="fwlom"></dfn>

      <object id="fwlom"></object>

      讀書筆記(圖像和視頻中的不規(guī)則檢測)

      時(shí)間:2019-05-14 20:33:47下載本文作者:會(huì)員上傳
      簡介:寫寫幫文庫小編為你整理了多篇相關(guān)的《讀書筆記(圖像和視頻中的不規(guī)則檢測)》,但愿對你工作學(xué)習(xí)有幫助,當(dāng)然你在寫寫幫文庫還可以找到更多《讀書筆記(圖像和視頻中的不規(guī)則檢測)》。

      第一篇:讀書筆記(圖像和視頻中的不規(guī)則檢測)

      論文題目:Detecting Irregularities in Images and in Video 所載刊物:International Journal of Computer Vision 74(1), 17–31, 2007 作者:Oren Boiman and Michal Irani

      主要內(nèi)容和結(jié)論(觀點(diǎn)):

      該文主要闡述了作者在檢測圖像和視頻等可視化數(shù)據(jù)中的不規(guī)則數(shù)據(jù)的研究成果。

      文章中表明,圖像和視頻中不規(guī)則圖像模型的探測在各種各樣的任務(wù)中都是很有用的。對于監(jiān)視和監(jiān)測來說探測可疑行為或是異常目標(biāo)是重要的。

      早先識(shí)別可疑行為或活動(dòng)的方法可以廣泛的被分成兩類:基于規(guī)則的方法和沒有預(yù)定義規(guī)則的統(tǒng)計(jì)方法。

      而在該文中作者提出將探測規(guī)則和不規(guī)則的問題公式化成為用從先前可視樣本(數(shù)據(jù)庫)中提取出來的時(shí)空塊組成(解釋)新的觀察的可視數(shù)據(jù)(一個(gè)圖像或是一段視頻,在下面提到時(shí)用“查詢”表示)的問題。這些可以用從樣本數(shù)據(jù)庫中抽取的大的連續(xù)數(shù)據(jù)塊組成的查詢中的區(qū)域被認(rèn)為是相似的,這些區(qū)域越大,相似性就越強(qiáng)。在不能用樣本數(shù)據(jù)庫組成的查詢中的區(qū)域被認(rèn)為是不相似的或是可疑的。作者的方法因此可以從僅僅少量的幾個(gè)樣本就能推斷或是歸納出更大的上下文的圖像模式和行為,甚至那些從來都沒有見過的特別構(gòu)造。(這個(gè)過程被定義為“通過組合的推論”)

      作者認(rèn)為該文作出了以下四個(gè)主要的貢獻(xiàn):

      1、提出了一個(gè)可以從僅有的幾個(gè)樣本中就可以推理和歸納的方法,這個(gè)方法是關(guān)于一個(gè)更大的上下文圖像模式和行為的合法性的,甚至是那些從來都沒有見過的特殊構(gòu)造的合法性。

      2、提出了一個(gè)基于圖表的貝葉斯定理的推論算法,它可以在成倍增加的時(shí)空范圍里有效探測大的整套的碎片塊(例如,數(shù)以百計(jì)的碎片塊)。同時(shí)它可以增強(qiáng)這些在整體以及單個(gè)的描述符上的碎片里的相關(guān)幾何方面的排列上的約束。

      3、提出了對圖像和視頻里術(shù)語中的“顯著”和“視覺注意”給出一個(gè)新的解釋。

      4、提出了一個(gè)單一的、統(tǒng)一的框架來處理計(jì)算機(jī)視覺里幾個(gè)的問題,這些問題在過去已經(jīng)被單獨(dú)地處理過。它們包括:圖像和視頻中值得注意的地方,可疑行為的識(shí)別,異常物體的識(shí)別,自動(dòng)視頻檢查(例如,用于質(zhì)量保證)等等。

      論文中的基本算法:

      1、統(tǒng)計(jì)公式

      用y來表示一個(gè)觀察到的查詢范圍內(nèi)的碎片組合。計(jì)算連接的可能性P(x,y),其中觀察到的查詢中的組合y與在數(shù)據(jù)庫(既在碎片的描述符值相似也在相對位置上相似)中的隱藏的組合x是相似的。我們可以把連接的可能性分解成:P(x, y)= P(y|x)P(x)。

      令dy表示觀察到的碎片y中的第i個(gè)描述符向量,ly表示它的位置(在絕對坐標(biāo)里)。類似的,dx表示在碎片x中的第i個(gè)隱藏(數(shù)據(jù)庫)的描述符向量,lx表示它的位置。令cy和cx表示被觀察到的和隱藏的組合的“原始”點(diǎn)。任何這樣一對組合y和x的相似性被以下的可能性公式捕獲: iiii

      P(x, y)= P(cx , d1x ,..., l1x ,..., cy , d1y ,..., l1y,...)(公式1)

      我們用一個(gè)高斯分布在描述符間建立相似性模型:

      P(diy|dix)=α1 exp(?1/2(diy? dix)T S D?1(diy? dix))(公式2)

      這里,α1是一個(gè)常量,S D是一個(gè)常量協(xié)方差矩陣,它決定描述符值的可允許的偏差。其它的分布可以根據(jù)其它描述符的相似性函數(shù)插入到模型中。給定一個(gè)隱藏?cái)?shù)據(jù)庫碎片的相對位置(lx? cx),觀察到的相應(yīng)碎片(ly? cy)的相對位置被假設(shè)成不依賴于所有其它碎片位置。這個(gè)假設(shè)使得有足夠靈活性去適應(yīng)在視線角度、范圍、位置和行為上的微小變化進(jìn)行比較兩個(gè)碎片組合的幾何排列,這樣: iiP(liy | lix, cx , cy)= α2 · exp(? 1/2((liy? cy)?(lix? cx))T× S?1L((liy? cy)?(lix? cx))))(公式3)

      到目前為止我們已經(jīng)建立了組合(描述符:dy, dx和相應(yīng)位置:ly? cy , lx? iiiicx)間屬性的關(guān)系模型,我們?nèi)匀恍枰㈦[藏組合內(nèi)的關(guān)系(也就是一個(gè)碎片描述符dx和它的位置間lx的關(guān)系)模型。利用數(shù)據(jù)庫中的樣本進(jìn)行非參數(shù)化的為它建模:

      ii

      1(dx , lx)∈ Database

      P(dx | lx)=(公式4)

      0otherwise

      這里dx和lx是任意描述符和位置。

      這樣,對于一個(gè)觀察到的組合y和一個(gè)隱藏?cái)?shù)據(jù)庫組合x,我們可以通過利用公式(2)–(4)來得出公式(1)的共同可能性P(x, y)如下:

      P(cx , d1x ,..., l1x ,..., cy , d1y ,..., l1y)

      =α?P(liy| lix, cx , cy)P(diy| dix)P(dix| lix)(公式5)

      i

      對于任何隱藏的非零可能性的集團(tuán)分配,我們定義組合代價(jià)為負(fù)的對數(shù)可能性函數(shù):

      -logP(cx , d1x ,..., l1x ,..., cy , d1y ,..., l1y)

      = ?i-log P(liy| lix, cx , cy)+?-log P(diy| dix)+α1(公式6)i

      當(dāng)α1= log(α)時(shí)是常量。

      2、信任傳播推論

      給定一個(gè)觀察到的組合,我們尋找一個(gè)隱藏的數(shù)據(jù)庫組合,這個(gè)組合最大化它的MAP(最大歸納的可能性)分配。這被通過上面統(tǒng)計(jì)模型來完成,這個(gè)模型具有一個(gè)簡單并且確切的信任傳播運(yùn)算法則。根據(jù)公式(5),MAP分配可以被寫成:

      1111P(c , d ,..., l ,..., c , d ,..., lxxxyyy)MaxX

      =α?iiiiiiiP(l| l, c , c)P(d| d)P(d| ly xxyy xx x)(公式7)MaxMaxlxidxi

      首先我們?yōu)槊恳粋€(gè)碎片計(jì)算從結(jié)點(diǎn)dx到結(jié)點(diǎn)lx關(guān)于它在位置lx的信任消息: iii

      midl(lix)= iii iP(d| d)P(d| ly xx x)(公式8)Maxdxi

      也就是,對于每一個(gè)觀察到的碎片,用高描述符相似性計(jì)算每一個(gè)候選數(shù)據(jù)

      庫位置lx。下一步,對這些候選數(shù)據(jù)庫的每一個(gè)位置,我們都傳遞一個(gè)包含在數(shù)據(jù)庫中可能原始位置cx: i

      milc(cx)= iiiP(l| l, c, c)m(ly xx ydlx)(公式9)Maxlxi

      在這一點(diǎn),我們有一個(gè)被每一個(gè)碎片暗示的候選原始列表。為了計(jì)算一個(gè)整體組合任務(wù)的可能性,我們從組合里的所有個(gè)體碎片中乘這信任:

      mc(cx)=?milc(cx)(公式10)

      i

      通過這個(gè)運(yùn)算法則處理的推論運(yùn)算量一個(gè)MAP推論。

      3、估算查詢點(diǎn)的可能性

      對于查詢中每一個(gè)點(diǎn),我們嘗試在它周圍組合一個(gè)大的區(qū)域。這可以通過檢查圍繞著每一個(gè)點(diǎn)的大區(qū)域的有效性,檢查時(shí)用上面的推論處理過程(通過計(jì)算一個(gè)查詢區(qū)域相似性)。這一點(diǎn)參與了很多查詢區(qū)域中。我們定義一個(gè)查詢點(diǎn)的相似性為包含那個(gè)點(diǎn)的最大區(qū)域可能性。因此,假如存在一個(gè)包含它的大區(qū)域,有相應(yīng)的相似性數(shù)據(jù)庫區(qū)域的話,在查詢中的一個(gè)點(diǎn)將有一個(gè)高可能性。這樣,我們可以利用部份的目標(biāo)遮擋組合成查詢,因?yàn)榭拷吔绲狞c(diǎn)被包含在目標(biāo)里的一個(gè)大的區(qū)域中。然而,部分遮擋可能生成小的鄰接的目標(biāo)區(qū)域,這些區(qū)域不能用我們當(dāng)前推論算法去組合。

      在文章中,作者還提出了算法的性能改進(jìn),并介紹了一些基于該文中所述方法的探測圖像和視頻中不規(guī)則方面的應(yīng)用:包括探測異常圖像構(gòu)造、單一圖像的顯著空間、探測可疑行為以及自動(dòng)視頻檢查(質(zhì)量保證)等等。

      最后,文章給出了結(jié)論:“通過組合的推論”,允許我們可以由少數(shù)幾個(gè)樣例就能在一個(gè)更大的上下文中去歸納什么是規(guī)則的,什么是不規(guī)則的。這個(gè)壓縮過程的實(shí)現(xiàn)是作為一個(gè)概率圖像模型里的高效推論算法來完成的,它適應(yīng)查詢與數(shù)據(jù)庫之間微小的時(shí)空變形。

      “通過組合的推論”,也可以應(yīng)用在完全沒有任何早先樣本的情況下探測可視數(shù)據(jù)的顯著性。為了這個(gè)目的我們把每一個(gè)圖像區(qū)域稱作一個(gè)“查詢”,并且盡力利用剩下部分的圖像(數(shù)據(jù)庫)去組合它。這個(gè)過程依次重復(fù)所有的圖像區(qū)域。像這樣一些不能用圖像的其它部分“解釋”(組合)的區(qū)域?qū)⒆鳛轱@著區(qū)域

      被探測出來。這導(dǎo)致了在可視數(shù)據(jù)上的一個(gè)新定義的術(shù)語:顯著。在視頻數(shù)據(jù)的案例中,這些區(qū)域是時(shí)空相關(guān)的,并且這些顯著的視頻區(qū)域是與顯著的行為相呼應(yīng)的。

      “通過組合的推論”,這一方法是通用的并且因此能夠研究在一個(gè)單一的、統(tǒng)一的框架里的問題,它的一般性使得它不用采取任何基于分類模型的預(yù)學(xué)習(xí)的方法。我們通過探測可疑行為,顯著行為,顯著圖像區(qū)域,探測貨物或產(chǎn)品來證明這個(gè)方法的應(yīng)用。

      文章中也提到,該文中的算法有兩個(gè)主要的局限性:(i)盡管遮擋可以處理某種程度的影響,它不能處理一些極端的遮擋(例如當(dāng)只有物體的小碎片部分是顯著時(shí))。(ii)時(shí)間和存儲(chǔ)的復(fù)雜度在該文的推論算法中是隨樣本數(shù)據(jù)庫的大小顯線性變化的。這對于大的數(shù)據(jù)庫來說顯然是有問題的。這兩個(gè)問題會(huì)是作者將來研究的一個(gè)主題。

      相關(guān)研究介紹:

      趙峰等人在《計(jì)算機(jī)研究與發(fā)展》中發(fā)表的《一種基于奇異值分解的圖像匹配算法》提出一種新的基于奇異值分解的圖像匹配算法。首先在待匹配圖像中分別提取帶主方向的角點(diǎn)作為特征點(diǎn),通過計(jì)算特征點(diǎn)間經(jīng)旋轉(zhuǎn)補(bǔ)償?shù)臍w一化互相關(guān)值建立特征點(diǎn)相似度矩陣,然后利用奇異值分解算法生成特征點(diǎn)匹配矩陣并獲得特征點(diǎn)間的--對應(yīng)關(guān)系。在復(fù)雜自然圖像上的實(shí)驗(yàn)結(jié)果表明,算法能夠匹配任意角度旋轉(zhuǎn)的圖像,對局部遮擋、光照變化、隨機(jī)噪聲等具有較強(qiáng)的健壯性,并具有較快的計(jì)算速度和較高的匹配精度。

      張軍、劉志鏡在《模式識(shí)別與人工智能》發(fā)表的《基于模糊理論的行人異常動(dòng)作檢測》中根據(jù)行人軀干和四肢輪廓角度的變化,設(shè)計(jì)用于模糊化的函數(shù)式。提出利用軀干和四肢的模糊隸屬度通過計(jì)算來得到整個(gè)人異常度的一種基于模糊理論異常行為判別的算法。在系統(tǒng)實(shí)現(xiàn)中,提出利用質(zhì)心軌跡和模糊判別的聯(lián)合方法來甄別行人是否異常的方法。模糊判別可實(shí)現(xiàn)在視頻監(jiān)控范圍內(nèi)對行人行為的主動(dòng)分析,從而能夠?qū)π腥水惓5膭?dòng)作做出識(shí)別并進(jìn)行報(bào)警處理。

      田永鴻等人申請的專利201010568248.X,“圖像顯著對象提取方法、互補(bǔ)顯著度圖學(xué)習(xí)方法及系統(tǒng)”,通過給定任意圖像,自動(dòng)準(zhǔn)確地提取出圖像中的顯著物體,有效地解決了在復(fù)雜場景下一般顯著物體提取結(jié)果缺乏的準(zhǔn)確性和魯棒性問題。

      第二篇:圖像和視頻中的不規(guī)則檢測

      圖像和視頻中的不規(guī)則檢測

      摘要:我們從事于研究可視化數(shù)據(jù)中的不規(guī)則檢測,例如檢測視頻中的可疑行為或者是識(shí)別圖像中的跳躍性模式?!安灰?guī)則”這個(gè)術(shù)語依靠于被定義的“規(guī)則的”或是“合法的”的上下文。然而,期待可以在一個(gè)給出的上下文顯定義所有合法的結(jié)構(gòu)是不現(xiàn)實(shí)的。我們把決定可視化數(shù)據(jù)合法性的問題當(dāng)作構(gòu)造迷題的過程:我們努力去用大塊的數(shù)據(jù)(“一塊塊的迷題”)組成一個(gè)新的已經(jīng)觀察到的圖像區(qū)域或是一個(gè)新的視頻片斷(“查詢請求”),這些大塊的數(shù)據(jù)是從先前的可視化樣本(“數(shù)據(jù)庫”)中抽取出來的。這些在被用數(shù)據(jù)庫中的大塊接近的數(shù)據(jù)組成的被觀察的數(shù)據(jù)中的區(qū)域被認(rèn)為是非常相像的,但是這些不可以從數(shù)據(jù)庫(或者僅僅是可以用小片斷數(shù)據(jù)組成)組成的被觀察的數(shù)據(jù)中的區(qū)域是被認(rèn)為是很不相像或是可疑的。這個(gè)問題被作為一個(gè)處理蓋然論圖像模型中的推論提出來。我們展示一些利用這些方法的應(yīng)用程序來識(shí)別圖像和視頻中的顯著,目的是用它來探測可疑行為和高質(zhì)量保證的自動(dòng)化圖像檢測。

      關(guān)鍵字:探測可疑行為,顯著,不規(guī)則探測,新奇事物探測,自動(dòng)探測,動(dòng)作識(shí)別,自動(dòng)圖像檢查

      1. 介紹

      圖像和視頻中不規(guī)則圖像模型的探測在各種各樣的任務(wù)中都是很有用的。對于監(jiān)視和監(jiān)測來說探測可疑行為或是異常目標(biāo)是重要的。對于質(zhì)量控制和自動(dòng)檢查來說,在圖像中識(shí)別空間顯著是有用的。在視頻中的行為顯著對于吸引觀看者的注意力是有用的。先前識(shí)別可疑行為或活動(dòng)的方法可以廣泛的被分成兩類:基于規(guī)則的方法(例如,Ivanov and Bobick(1999))和沒有預(yù)定義規(guī)則的統(tǒng)計(jì)方法(例如,Stauffer and Grimson(2000)和Zhong et al.(2004))。統(tǒng)計(jì)方法更加有吸引力,這是由于它們不用為所有合法結(jié)構(gòu)假想出一系列預(yù)定義的規(guī)則集,而是,他們嘗試著自動(dòng)的從數(shù)據(jù)中學(xué)習(xí)規(guī)則中的概念,并且就這樣推斷出各種可疑行為。然而,在先前方法中已經(jīng)被應(yīng)用的代表方法要么是很有限制性(例如,trajectories of moving objects(Stauffer and Grimson, 2000))要么是太過全球性了(例如,a single small descriptor vector for an entire frame(Zhong等人, 2004))本論文中,我們用公式化的形式把探測規(guī)則和不規(guī)則的問題表示成為用從先前視頻樣本(數(shù)據(jù)庫)中提取出來的時(shí)空塊組成(解釋)已經(jīng)觀察到的圖像數(shù)據(jù)(一個(gè)圖像或是一個(gè)視頻,在下面提到時(shí)用“查詢”表示)或是視頻的問題。這些可以用從樣本數(shù)據(jù)庫中抽取的巨大接近的數(shù)據(jù)塊組成的查詢中的區(qū)域被認(rèn)為是相似的,這些區(qū)域越大,相似性就越強(qiáng)。在不能用樣本數(shù)據(jù)庫組成的查詢中的區(qū)域被認(rèn)為是不相似的或是可疑的。我們的方法因此可以從僅僅少量的幾個(gè)樣本就能推斷或是歸納更大上下文的圖像模式和行為,甚至這些從來都沒有見過的特別結(jié)構(gòu)的圖像模式和行為的合法性,本地描述符是從小圖像或

      是視頻塊(被組成在一起來形成大的塊)中抽取出來的,因此它可以快速和高效的推斷出行為改變中的細(xì)微但重要的改變(例如,一個(gè)人在走和一個(gè)人拿著一支槍在走的不同)。而且,我們的方法可以同時(shí)識(shí)別出一個(gè)合法的行為在一個(gè)視窗區(qū)域部分,并且可疑行為在另一個(gè)視窗區(qū)域中部分,因此在這一幀僅僅是標(biāo)明探測到的可疑區(qū)域,而不是整一幀都標(biāo)明出來。在第6節(jié)將給出這樣的例子。從圖像碎片中得出的推斷在先前已經(jīng)被應(yīng)用到基于分類的目標(biāo)識(shí)別(例如,Bart and Ullman(2004), Felzenszwalb和 Huttenlocher(2005)and Fergus等人)中的任務(wù)上去了。少數(shù)的情報(bào)幀已經(jīng)被人學(xué)習(xí)和預(yù)選擇用來作為少數(shù)的目標(biāo)的預(yù)定義分類。然而,基于分類的表述不可以捕獲組成一幅場景中未知目標(biāo)或行為的所有一切的可能的情況,因此它不適合于探測不規(guī)則性任務(wù)。我們的方法也可以應(yīng)用在探測圖像和視頻中的顯著。例如,給出一幅沒有先前信息的簡單的圖像,我們可以測量出每一幅圖像區(qū)域(查詢)相對于同樣圖像(被用作特殊查詢的“數(shù)據(jù)庫”)的剩下部分的“合法”性。類似的,給出一段簡單的視頻(沒有關(guān)于什么是正常行為先前知識(shí)),我們可以探測“顯著行為”,這些行為不能被任何其它在視頻里同時(shí)發(fā)生的動(dòng)態(tài)現(xiàn)象所支持。用來探測圖像顯著(例如,Itti等人(1998))的先前的方法被提議用來測量本地圖像和它的瞬間周圍區(qū)域的相異程度。因此,例如,顯示出巨大改變的圖像區(qū)域被探測為顯著圖像區(qū)域。他們的“視覺注意”的定義是來源于同樣的推理。然而,我們相信顯著的概念沒有必

      要由瞬間周圍圖像所決定。例如,一個(gè)在黑色紙上簡單的黃點(diǎn)可以是顯著。然而,假如在黑紙上有很多黃色的點(diǎn),那么一個(gè)簡單的黃點(diǎn)再也無法引起我們的注意,即使它相對于周圍附近來說仍然有巨大的改變。因此我們的方法建議一種新對于術(shù)語“顯著”更加直覺的解釋,它來于整個(gè)圖像的內(nèi)部統(tǒng)計(jì)。我們處理空間圖像顯著的方法更接近于Honda和Nayar(2001).的方法。然而,(Honda 和Nayar, 2001)在重復(fù)性結(jié)構(gòu)的圖像模型是局限性的并且它高度依賴于本地周圍圖像屬性,然而我們的方法卻不是這樣。用我們的方法探測圖像空間顯著和視頻行為顯著的例子將在第6節(jié)給出。我們的論文因此提供了四方面主要貢獻(xiàn):

      1. 我們提議一個(gè)可以從僅有的幾個(gè)樣本中就可以推斷和歸納的方法,這個(gè)方法是關(guān)于一個(gè)更大的上下文圖像模式和行為的合法性的,甚至是這些從來都沒有見過的特殊結(jié)構(gòu)的合法性。2. 我們提出一個(gè)基于圖表的貝葉斯定理的推論運(yùn)算法則,它可以在成倍增加的時(shí)空范圍里高效的探測巨大碎片塊整體(例如,好幾百塊的碎片塊)。它可以同時(shí)增強(qiáng)這些在整體以及單個(gè)的描述符上的碎片里的相關(guān)幾何方面的排列上的約束。

      3. 我們提議對圖像和視頻里術(shù)語中的“顯著”和“視覺上的注意”給出一個(gè)新的解釋。

      4. 我們給出單個(gè)統(tǒng)一的框架來處理幾個(gè)計(jì)算機(jī)視覺里的問題,這些問題在過去已經(jīng)被單獨(dú)的處理過。這些問題包括:圖像的注意,視頻的注意,可疑行為的識(shí)別,異常物體的識(shí)別,自動(dòng)視頻檢查(例如,用來質(zhì)量的保證)等等。

      本論文的短文版在ICCV 2005(Boiman and Irani, 2005)提供。

      2. 由組成得出的推論

      當(dāng)給出了幾個(gè)樣例后,我們(人類)對于什么是規(guī)則/合法,什么是不規(guī)則/可疑,甚至是見到以前我們從來沒有見過的新結(jié)構(gòu)的東西,都會(huì)有一個(gè)概念。我們從來不需要顯定義給定上下文的合法結(jié)構(gòu)的所有可能?!耙?guī)則”/“合法”這些概念可以從簡單的幾個(gè)合法模型(視頻中的行為或是圖像的外觀)的樣例中學(xué)習(xí)和歸納得來,并且所有其它結(jié)構(gòu)可以自動(dòng)的從這些當(dāng)中推斷得到。圖表1(Figure 1)說明了潛在于本論文的基本概念。假設(shè)一幅新圖像(一個(gè)查詢—Fig.1(a)),我們檢查是否每個(gè)圖像區(qū)域都可以從數(shù)據(jù)庫里找到一張足夠大的接近的區(qū)域來解釋(見 Figs.1(b)和(c))。盡管我們從來沒有見過一個(gè)人兩臂舉起來那樣坐著,但是我們可以從這Fig.1(c)里的三個(gè)數(shù)據(jù)庫圖像里推斷出這個(gè)動(dòng)作的合法性。這樣,能用數(shù)據(jù)庫里巨大的數(shù)據(jù)塊來解釋的新觀察到數(shù)據(jù)/查詢(一個(gè)圖像或是視頻)里的區(qū)域被認(rèn)為是很相像的,相反,不能用數(shù)據(jù)庫里的足夠大的數(shù)據(jù)塊來解釋的查詢里的區(qū)域被認(rèn)為是不相像或是可疑的。當(dāng)一個(gè)視覺的查詢是一個(gè)圖像,那么這些數(shù)據(jù)塊僅有空間的范圍。當(dāng)一個(gè) 視頻查詢是一個(gè)視頻,那么這些數(shù)據(jù)塊就既有空間又有時(shí)間范圍了。

      Detecting Irregularities in Images and in Video 19 Figure 1.The basic concept—Inference by Composition.A region in the query image is considered likely if it has a large enough contiguous region of support in the database.New valid image configurations can thus be inferred from the database, even though they have never been Seen before.Figure 2.Detecting a matching ensemble of patches.3. 碎片的組合

      人類的行為或自然的空間結(jié)構(gòu)從來都沒有相同的重復(fù)著。例如,沒有兩個(gè)人是走路是相同的。一個(gè)人比另一個(gè)人的手臂抬高一點(diǎn),或是僅僅走得快一點(diǎn)。我們因此想允許它在我們的“迷題的塊”(數(shù)據(jù)塊)里有一個(gè)小小的非嚴(yán)格變形(在空間和時(shí)間上)。這對于巨大的數(shù)據(jù)塊來說尤其的正確。為了計(jì)算本地的非嚴(yán)格變形,巨大的塊利用它們相對的幾何位置在多維度上被分解成很多小塊的組合。這在Fig.1(d)中有說明。在推論處理過程,我們尋找具有相似屬性(行為或是外表)的塊的相似的幾何結(jié)構(gòu),同時(shí)允許在相對幾何排列上有微小的本地未對準(zhǔn)。這個(gè)概念在Fig.2中說明。當(dāng)視覺查詢是一個(gè)圖像,碎片的組合被組成空間碎片(見Fig.3(a))。當(dāng)視覺的查詢是一個(gè)視頻,那么碎片的組合被組成時(shí)空碎片(見Fig.3(b)),這允許我們捕捉動(dòng)態(tài)的行為信息。在我們當(dāng)前的實(shí)現(xiàn)來說,一個(gè)簡單的典型的組合都同時(shí)從多維度(圖像碎片案例中的多空間維度,和時(shí)空碎片案例中的多時(shí)空維度)具有好幾百個(gè)碎片。當(dāng)從樣本碎片中組合新數(shù)據(jù)這個(gè)想法被先前證明對于大量的任務(wù)都是有用時(shí),(e.g., Efros and Leung(1999), Freeman et al.(2000)and Wexler et al.(2004)),這些方法沒有在用于構(gòu)建的樣本碎片上強(qiáng)加任何的幾何約束,也就是說,它們的相對位置和距離在數(shù)據(jù)庫里沒有強(qiáng)加任何的幾何約束。對于他們的目的來說一點(diǎn)必要都沒有。然而對于檢測不規(guī)則來說是至關(guān)重要的。經(jīng)常,在相似和不相似現(xiàn)象之間區(qū)別的唯一真實(shí)的信息提示是數(shù)據(jù)庫支持的碎片

      程度。例如,一個(gè)舉著一支槍的人伸直一條手臂和一個(gè)人走路時(shí)瞬間伸直手臂是相似的,但是在時(shí)間上它的區(qū)域的支持度是非常有限的。獲取碎片的幾何相關(guān)性被認(rèn)為對于基于分類的目標(biāo)識(shí)別(Bart and Ullman, 2004;Felzenszwalb and Huttenlocher, 2005;Fergus et al.,;Leibe et al.)任務(wù)來說是重要的。這些方法不適合我們的目標(biāo),因?yàn)閮蓚€(gè)原因:(i)他們的幾何結(jié)構(gòu)受限制于相關(guān)的小數(shù)量的碎片,這樣就不能捕捉那些用來探測不規(guī)則性的敏感的區(qū)別。(ii)這些結(jié)構(gòu)是為小數(shù)量預(yù)定義的目標(biāo)類來預(yù)學(xué)習(xí)的,然而我們的框架是可以應(yīng)用于任何類型的視覺數(shù)據(jù)。當(dāng)Leibe等人的幾何約束更加的靈活,這樣就允許從僅僅少數(shù)幾個(gè)樣本就能識(shí)別新的目標(biāo)結(jié)構(gòu),對于一堆有預(yù)定義目標(biāo)中心的預(yù)定義的目標(biāo)類,他們的方法仍然是有局限的。這就不適合于探測不規(guī)則性,它也沒有目標(biāo)類的概念?!癡ideo Google‖(Sivic and Zisserman, 2003)強(qiáng)化了在巨大的非基于分類的描述符的幾何約束,并且搜索他們都非常的高效。然而,這些描述符在自然界中有空間性的并且這搜索受限于單個(gè)的圖像幀,這樣就不能允許去捕捉行為。為了在合理的時(shí)間里推斷處理完成,小塊的信息和它們之間的相關(guān)排列必須被高效的存儲(chǔ)在數(shù)據(jù)庫里并且能從數(shù)據(jù)庫里高效的抽取出來。對于每個(gè)從樣本抽取出來的小塊,一個(gè)描述符向量連同絕對相關(guān)碎片(空間的或是時(shí)空的相關(guān)性)被計(jì)算和存儲(chǔ)(見下面)。這樣,在圖像和視頻數(shù)據(jù)庫里的所有碎片的相對排列都是隱式有效的。后來,我們的推論運(yùn)算法則采取從視覺查詢中的碎片組合并且查找數(shù)據(jù)

      庫來尋找相似的結(jié)構(gòu)碎片(既有描述符又有他們的相對幾何排列)。為了能快速的查找和檢索,這些碎片被存儲(chǔ)成多維的數(shù)據(jù)結(jié)構(gòu)。用一個(gè)或然論的圖形模式(第4節(jié)),我們?yōu)閷ふ覇栴}的組合提出了一個(gè)高效的推論運(yùn)算法則。

      3.1 碎片描述符

      碎片描述符是為每一個(gè)查詢碎片和每一個(gè)數(shù)據(jù)庫碎片而產(chǎn)生的。描述符捕捉關(guān)于外表和行為的本地信息。我們當(dāng)前的實(shí)現(xiàn)用的是非常簡單的描述符,這些描述符很容易就被那些更加世故圓滑的描述符所替代: 小空間碎片的空間圖像描述符是由以下構(gòu)成:為碎片里的每一個(gè)像素計(jì)算它的空間傾斜度的大小,這些值然后被一個(gè)向量所保存,這個(gè)向量規(guī)格化成一個(gè)單位長度。如此的描述符被密密麻麻的解壓到圖像里的每一個(gè)像素。這個(gè)描述符解壓處理過程被幾個(gè)圖像的空間高斯金字塔的空間范圍所替換。這樣,一個(gè)從粗糙范圍解壓出來的7 X 7的碎片就比它的輸入圖像(也就是說精度)具有更高的空間支持度。在一些應(yīng)用里,一個(gè)RGB/基于亮度的描述可能比一個(gè)基于傾斜度的描述符更適合。一般來說,我們的整體的框架沒有局限SIFT(Lowe, 2004)于這些特殊的描述符。這些很容易就被比它更世故圓滑的空間描述符例如SIFT(Lowe, 2004)等所替代。一個(gè)?。ㄒ簿褪?×7×4)的時(shí)空視頻碎片的時(shí)空視頻描述符由碎片的所有像素的時(shí)間派生的絕對值所構(gòu)成。這些值構(gòu)成一個(gè)向量并且規(guī)格化成一個(gè)單位長度。這個(gè)描述符解壓處理過程被幾個(gè)時(shí)空視頻金

      字塔的空間時(shí)間維度所替代。這樣,一個(gè)從粗糙維度解壓出來的7 × 7 × 4的碎片比它的輸入序列具有一個(gè)更大的空間和更大的時(shí)間支持度。注意到一點(diǎn)是,由于時(shí)間派生物在任何的靜態(tài)的背景下總是為零的,所以這個(gè)描述符幾乎是一個(gè)靜態(tài)背景不等式。所以,利用這時(shí)空

      描述符,我們可以在新的查詢序列中探測不規(guī)則,而完全不用理會(huì)它的背景。然而,這簡單的描述符依賴于空間織品的質(zhì)量,比如當(dāng)一個(gè)人穿著一件織地非常粗糙的衣服時(shí)它可能引起一個(gè)問題。我們的方法,然而就不會(huì)這樣局限于這些簡單描述符特殊的選擇。這些描述符可以很容易的就被那些世故圓滑的時(shí)空描述符(這些描述符對動(dòng)作敏感并且更加的外表不變)所替代,例如Shechtman 和 Irani(2005)或Laptev 和 Lindeberg(2003)。Boiman and Irani

      Figure 3.Ensembles of patches in images and video.4. 基本的運(yùn)算法則

      給定一個(gè)新的視覺查詢(一個(gè)圖像或是一個(gè)視頻),我們很愿意去估計(jì)它的每個(gè)點(diǎn)的可能性。這可以通過檢查一個(gè)巨大的周圍的每一個(gè)像素的區(qū)域(也就是說,50 × 50的圖像區(qū)域和50 × 50 × 50視頻區(qū)域)的合法性來實(shí)現(xiàn)。這巨大的周圍區(qū)域被多維度(空間或是時(shí)空的)的分離成大量(好幾百個(gè))的小的碎片,并且被表述為一個(gè)單一的與特殊圖像/視頻點(diǎn)相關(guān)的碎片的組合。令q1, q2,..., qn表示組合中的碎片(見Fig.3(a))。每一個(gè)碎片qi都與兩種類型的屬性相關(guān):(i)它的描述向量di和(ii)它的絕對坐標(biāo)的位置li。我們選擇任意的參考點(diǎn)C(也就是這組合的中心(見Fig.3(a)),C點(diǎn)作為本地坐標(biāo)系統(tǒng)(這樣就可以定義組合內(nèi)碎片的相對位置)的“原點(diǎn)” 4.1.統(tǒng)計(jì)公式

      令一個(gè)觀察到的查詢范圍內(nèi)的碎片組合用y來表示。我們想去計(jì)算連接的可能性P(x,y),其中觀察到的查詢中的組合y與在數(shù)據(jù)庫(既在碎片的描述符值相似也在相對位置上相似)中的隱藏的組合x是相似的。我們可以連接可能性變成:P(x, y)= P(y | x)P(x)。我們的模型P(y | x)類似于Felzenszwalb and Huttenlocher(2005)的“星圖”或然論模型。然而,在Felzenszwalb and Huttenlocher(2005)基于分類的設(shè)置表示為P(y;θ),其中θ是一個(gè)給定的基于分類的碎片群參數(shù)的預(yù)學(xué)習(xí)集。在我們的案例中,然而,對目標(biāo)是沒有概念的,也就是說,沒

      有數(shù)據(jù)庫組合x的前驗(yàn)參數(shù)模型。這樣,θ是未定義的,并且P(x)必須直接從樣本數(shù)據(jù)庫中非參數(shù)的評估。令diy表示觀察到的碎片y中的第i個(gè)描述符向量,liy表示它的位置(在絕對坐標(biāo)里)。類似的,dix表示在碎片x中的第i個(gè)隱藏(數(shù)據(jù)庫)的描述符向量,lix表示它的位置。令cy和 cx表示被觀察到的和隱藏的組合的“原始”點(diǎn)。任何這樣一對組合y和x的相似性被以下的可能性公式捕獲:

      P(x, y)= P(cx , d1x ,..., l1x ,..., cy , d1y ,..., l1y,...)(1)

      為了讓計(jì)算Eq.(1)的可能性易于操作,我們做了一些簡化的統(tǒng)計(jì)假設(shè)。給定一個(gè)隱藏?cái)?shù)據(jù)庫碎片和它的描述符dix,這相應(yīng)的觀察到的描述符diy被假設(shè)成與其它碎片描述符無關(guān)。(這是標(biāo)準(zhǔn)的馬爾可夫鏈的假設(shè),也就是說,F(xiàn)reeman等人(2000),這個(gè)在重疊碎片上明顯是不合法的,但它是一個(gè)有用近似值)。我們用一個(gè)高斯分布在描述符間建立相似性模型:

      P(diy|dix)=α1exp(?1/2(diy? dix)T S D?1(diy? dix))(2)這里,α1是一個(gè)常量,SD個(gè)常量協(xié)方差矩陣,它決定描述符值的可允許的偏差。其它的分布可以根據(jù)其它描述符的相似性函數(shù)插入到模型中。給定一個(gè)隱藏?cái)?shù)據(jù)庫碎片的相對位置(lix? cx),觀察到的相應(yīng)碎片(liy? cy)的相對位置被假設(shè)成不依賴于所有其它碎片位置。這個(gè)假設(shè)使得有足夠靈活性去適應(yīng)在視線角度、范圍、位置和行為上的微小變化進(jìn)行比較兩個(gè)碎片組合的幾何排列,這樣:

      P(liy | lix, cx , cy)= α2 exp(? 1/2((liy? cy)?(lix? cx))T× S?1L((liy? cy)?(lix? cx))))(3)這里α2是一個(gè)常量,SL是一個(gè)常量協(xié)方差矩陣,它捕獲了相對碎片位置中的所被允許的偏差。(本案例中,相對位置的依賴是用高斯來建模,然而這模型并沒有受限它)。到目前為止我們已經(jīng)建立了組合(描述符:diy, dix相應(yīng)位置:liy? cy , lix? cx)間屬性的關(guān)系模型,我們?nèi)匀恍枰㈦[藏組合內(nèi)的關(guān)系(也就是一個(gè)碎片描述符dix和它的位置間lix.的關(guān)系)模型。在一般的案例中,這關(guān)系是非常的不可分析,因此不能被參數(shù)化(與基于分類方法形成對照,也就是說Felzenszwalb 和 Huttenlocher(2005)和 Fergus 等人(2003))的建模。因此,我們利用數(shù)據(jù)庫中的樣本進(jìn)行非參數(shù)化的為它建模:(dx, lx)∈ Database

      P(dx| lx)=

      0 otherwise

      (4)

      這里 dx 和 lx是任意描述符和位置。我們?yōu)閏x和cy(本地原始點(diǎn))假設(shè)一個(gè)相同的先驗(yàn)分布,也就是,沒有預(yù)先優(yōu)先選擇哪一個(gè)本地?cái)?shù)據(jù)庫或是查詢的組合。所有上面提到的變量之間的關(guān)系在Fig.4中的貝葉斯網(wǎng)絡(luò)所描述。

      Boiman and Irani

      Figure 4 或然論圖形模型

      這貝葉斯依賴通過變量間的箭頭表示出來。這依賴關(guān)系僅僅為組合中的一個(gè)碎片(第i個(gè)碎片)而表示出來。觀察到的變量用“橙色”表示出來;隱藏變量用“藍(lán)色”表示出來。cx 和 cy分別是隱藏的和觀察到的組合的“原點(diǎn)”,Lix and li y是隱藏的和觀察到的組合的第i個(gè)

      碎片的位置(絕對坐標(biāo));dix 和 diy是每一個(gè)組合的第i個(gè)碎片的描述符向量。

      這樣,對于一個(gè)觀察到的組合 y 和一個(gè)隱藏?cái)?shù)據(jù)庫組合 x,我

      們可以通過利用Eqs.(2)–(4)來得出Eq.(1)的共同可能性P(x, y)如下: P(cx , d1x ,..., l1x ,..., cy , d1y ,..., l1y)

      = αiP(liy| lix, cx , cy)P(diy| dix)P(dix| lix)(5)∏

      我們可以得出連接可能性的協(xié)方差矩陣,每一個(gè)都與模型中的一個(gè)不同部分所關(guān)聯(lián)著。當(dāng)識(shí)別的任務(wù)受限于幾個(gè)已知預(yù)定義的類型時(shí),也就是每一個(gè)都有它的預(yù)定義部分和參數(shù)時(shí),這是一個(gè)好方法。這,然而,不是我們案例中的設(shè)置,那里沒有預(yù)定義我們要尋找什么的概念,然而,我們想能夠探測相對于樣本細(xì)小的不規(guī)則。我們的模型因此是 非參數(shù)的并且它的歸納能力不依賴于參數(shù)的調(diào)整,但是更依賴于數(shù)據(jù)庫中樣本的差異性。這在個(gè)意義上來說,我們的非參數(shù)模型具有了Leibe等人的非參數(shù)處理方法的共同之處。在我們的實(shí)現(xiàn)中,我們已經(jīng)設(shè)置協(xié)方差矩陣SD和SL成為一個(gè)簡單的憑經(jīng)驗(yàn)決定的標(biāo)量方差。這個(gè)簡單的設(shè)置給我們的實(shí)驗(yàn)一個(gè)滿意的答案。注意到在這個(gè)設(shè)置里,這兩個(gè)參數(shù)的單一的目的就是適當(dāng)?shù)某袚?dān)了幾何變形和外表/描述符變形的代價(jià)。而且,注意到這些是模型中的僅有的參數(shù),因此需要非常少的參數(shù)調(diào)整。4.2 信任傳播推論

      給定一個(gè)觀察到的組合,我們尋找一個(gè)隱藏的數(shù)據(jù)庫組合,這個(gè)組合最大化它的MAP(最大歸納的可能性)分配。這被通過上面統(tǒng)計(jì)模型來完成,這個(gè)模型具有一個(gè)簡單并且確切的信任傳播運(yùn)算法則(Yedidia 等人,2003)。根據(jù)Eq.(5),MAP分配可以被寫成: max1111P(c , d ,..., l ,..., c , d ,..., lxxxyyy)X maxP(li| li, c , c)maxP(di| di)P(di| li)(7)= α∏y xxyy xx xilixdix這個(gè)表達(dá)式可以被表達(dá)成一個(gè)在Fig.4里傳遞運(yùn)算法則的消息。首先我們?yōu)槊恳粋€(gè)碎片計(jì)算從結(jié)點(diǎn)dix到結(jié)點(diǎn)lix關(guān)于它在位置lix的信任消息midl :

      maxmdl(lx)= dixP(diy | dix)P(di x | lix)(8)ii也就是,對于每一個(gè)觀察到的碎片,用高描述符相似性計(jì)算每一個(gè)候選數(shù)據(jù)庫位置lix。下一步,對這些候選數(shù)據(jù)庫的每一個(gè)位置,我們都傳遞一個(gè)包含在數(shù)據(jù)庫中可能原始位置cx:

      milc(cx)= maxlixP(liy | lix,cx,cy)mdl(lix)(9)在這一點(diǎn),我們有一個(gè)被每一個(gè)碎片暗示的候選原始列表。為了計(jì)算一個(gè)整體組合任務(wù)的可能性,我們從組合里的所有個(gè)體碎片中乘這信任:

      mi(c)(10)mc(cx)=∏ ilcx通過這個(gè)運(yùn)算法則處理的推論運(yùn)算量一個(gè)MAP推論。因此,在樣本數(shù)據(jù)庫中只發(fā)生一次的東西相等于那些發(fā)生很多次的東西。這個(gè)公式在很多應(yīng)用中都很有用,然而,那可能有這樣的應(yīng)用,在那里我們愿意發(fā)生在數(shù)據(jù)庫中的頻率去影響一個(gè)組合的可能性。上面運(yùn)算法則的

      一個(gè)簡單的修改允許去計(jì)算可能性而不是MAP,這是通過轉(zhuǎn)換推論運(yùn)算法則從一個(gè)最大乘積轉(zhuǎn)換成一個(gè)和乘積。4.3 估計(jì)查詢點(diǎn)的可能性

      對查詢中每一個(gè)點(diǎn),我們嘗試去在它周圍組合一個(gè)巨大的區(qū)域。這可以通過檢查一個(gè)圍繞著每一個(gè)點(diǎn)的巨大區(qū)域的合法性,檢查時(shí)用上面的推論處理過程(通過計(jì)算一個(gè)查詢區(qū)域相似性)。這一點(diǎn)參與在很多查詢區(qū)域中。我們定義一個(gè)查詢點(diǎn)的相似性為包含那個(gè)點(diǎn)的最大區(qū)域可能性。因此,假如存在一個(gè)包含它的巨大區(qū)域,有相應(yīng)的相似性數(shù)據(jù)庫區(qū)域的話,在查詢中的一個(gè)點(diǎn)將有一個(gè)高可能性。這個(gè)方法,我們可以利用部份的目標(biāo)閉塞組合成查詢,因?yàn)榭拷吔绲狞c(diǎn)被包含在目標(biāo)里的一個(gè)巨大的區(qū)域中。然而,部分閉塞可能生成小的鄰接的目標(biāo)區(qū)域,這些區(qū)域不能被用高可能性利用我們當(dāng)前推論運(yùn)算法則去組合而已的。我們希望我們圍繞每一個(gè)點(diǎn)組合的區(qū)域盡可能的大,因?yàn)檫@區(qū)域越大,這一點(diǎn)是不規(guī)則的這個(gè)證據(jù)就越大。然而,那有這樣的案例,在這些案例里,一個(gè)“規(guī)則”的觀察到的組合不能被完全的由一個(gè)簡單的數(shù)據(jù)庫組合而組成(例如,由于部分閉塞)。這那些案例中(不是很高頻率的那些),我們減小觀察區(qū)域的尺寸(例如,減小25%)并且重復(fù)著推論的過程,完全沒有包括被丟棄的碎片。我們處罰總體組合可能性的分?jǐn)?shù)為每一個(gè)我們丟棄的碎片。根據(jù)Eq.(6)我們增加一個(gè)常量代價(jià)處罰為每一個(gè)我們丟棄的碎片。處罰期限的大小,反映了我們歸因于組合區(qū)域大小的重要程度。

      處理不同大小的組合:為了探測在一個(gè)整體觀察里的不規(guī)則區(qū)域,我們僅僅開始了在Eq.(6)里的組合代價(jià)。然而,那可能有一些觀察到的組合大小可能不同的案例(例如,因?yàn)榉乔閳?bào)性區(qū)域,排除分析的區(qū)域,數(shù)據(jù)邊界,等等)。為了比較不同大小的組合合成代價(jià),需要一個(gè)標(biāo)準(zhǔn)化的東西。我們利用一個(gè)標(biāo)準(zhǔn)化,它是基于統(tǒng)計(jì)組合代價(jià)顯著水平的標(biāo)準(zhǔn)化。我們定義一個(gè)零假設(shè)H0,這樣每一個(gè)觀察到的組合都通過上面定義的統(tǒng)計(jì)模型來產(chǎn)生。因此,組成代價(jià)C0的統(tǒng)計(jì)顯著水平可以通過P值 Pr(C > C0 | H0)來測量到。假定這零假設(shè),并且給定一個(gè)隱藏的組合,每一期限在Eq(6)里的組成代價(jià)都是按照χ2分布的,并且總體代價(jià)的分布也是按χ2分布。這些分布可以被用到計(jì)算這樣的P值,它為不同大小的組合“規(guī)格化”它們的組成代價(jià)。

      5. 一個(gè)高效的推論運(yùn)算法則

      在第4.2節(jié)中信息傳遞運(yùn)算法則的一個(gè)本地的實(shí)現(xiàn)是很不高效的,由于獨(dú)立描符查詢是為每一個(gè)觀察到的組合中的碎片而處理的,完全不用回答先前被其它碎片處理的查詢。這導(dǎo)致了一個(gè)O(Nk)的復(fù)雜度,N是數(shù)據(jù)庫中碎片的數(shù)量(例如100,000個(gè)碎片為一個(gè)一分鐘的視頻數(shù)據(jù)庫)并且K是組合中碎片的數(shù)量(例如256)。而且,我們將會(huì)掃描整個(gè)的查詢(一個(gè)新圖像或是一個(gè)新視頻),這個(gè)查詢導(dǎo)致一個(gè)總共O(Nkq)的復(fù)雜度,這里Q是查詢中碎片的數(shù)量。這復(fù)雜性對于真實(shí)的應(yīng)用來說是禁止的,因?yàn)槊恳粋€(gè)詞語(N, k 和q)都是不可以忽

      略的。在本章節(jié)中我們給出了怎么樣可以做到不用犧牲精確度而顯著的減少復(fù)雜度。5.1. 改進(jìn)的排除過程

      觀察到的組合中的碎片與某一幾何排列有關(guān)。我們可以用這知識(shí)通過改進(jìn)的消除數(shù)據(jù)庫里的查詢空間來進(jìn)行一個(gè)高效的查詢:我們?yōu)橐粋€(gè)少數(shù)量的碎片(例如1個(gè))來計(jì)算消息midl??赡艿暮蜻x原點(diǎn)的結(jié)果列表包含了為下一個(gè)碎片的非常有限的查詢空間。下一個(gè)碎片,依次,從已經(jīng)候選的短列表中消除附加的原點(diǎn),等等。這個(gè)處理過程在Fig.5.中圖表說明。為了加速這進(jìn)步的消除的過程,我們在 Eqs.(2)和(3)用削去頂端的高斯分布(4σ之后的削去)。因此,根據(jù)幾何學(xué)或是外觀/描述符,這些分布將一個(gè)零的可能性給高碎片變形。第一個(gè)碎片查詢的代價(jià)是O(N)。我們僅僅從被第一碎片(在我們的實(shí)現(xiàn)里,c=50)提議列表中保存了最好的C候選原點(diǎn)。第二碎片現(xiàn)在受限于C位置的近鄰。第二碎片將受限于一個(gè)更加小數(shù)量的近鄰。這樣,在最糟糕的案例想定,我們的復(fù)雜是O(N + kc)≈ O(N)。相反,在Felzenszwalb and Huttenlocher(2005)and Leibe 等人的推論處理的復(fù)雜度是O(Nk),而這“群星模型”(Fergus 等人)復(fù)雜度在碎片數(shù)量上是指數(shù)型的。上面被提議的在復(fù)雜度方面的減少對于使能擁有幾百個(gè)的碎片的組合的視頻推論是極度重要的。值得注意的是極限縮小候選原點(diǎn)的數(shù)量直到C候選可能會(huì)是有問題的:例如,假如我們選擇的第一個(gè)碎片是非情報(bào)的(也就是單邊),那么選擇最優(yōu)C候選是武斷的并且我們可能拋棄了全局最優(yōu)組

      合。在實(shí)踐中,我們推論算法(多維度策略,預(yù)搜查,和掃描觀察)的其它組件消除了這風(fēng)險(xiǎn)。注意到的是,假如我們采取削峰高斯分布(或其它有限支持分布),并且假如搜查第一個(gè)最新碎片范圍少于C候選位置,那么這改進(jìn)的消除處理保證一個(gè)確切的解決方法,因?yàn)槲覀儍H僅拋棄有零相似性的候選。注意到這使得在這樣的條件下,我們可以提供一個(gè)確鑿?fù)普?,這個(gè)推論等價(jià)于含有簡化復(fù)雜度的信任傳播。而且,我們知道在推論過程中,這結(jié)果是確鑿的(最優(yōu)化)或是它僅僅是一個(gè)近似值。

      5.2. 多維查找

      為了進(jìn)一步加速這消除過程,我們用一個(gè)由粗糙到精細(xì)的策略(既有時(shí)間又有空間)。我們從粗糙的維度選擇第一個(gè)查找碎片,因?yàn)閮蓚€(gè)原因:(i)在數(shù)據(jù)庫里有一個(gè)更小數(shù)量的粗糙碎片比精細(xì)的碎片(這樣減少了有效的N在第一個(gè)最強(qiáng)烈的步驟中),并且(ii)粗糙的碎片更加有判別力的因?yàn)樗麄儚木薮蟮膮^(qū)域中捕獲了信息。這消除數(shù)據(jù)庫組合的候選區(qū)域是非??焖俚?。我們進(jìn)行下去直到我們處理完所有的在觀察到的粗糙維度的碎片。于是我們投出候選原始點(diǎn)到下一個(gè)精密標(biāo)度并且繼續(xù)去處理在精密維度(既是空間上也是時(shí)間上的)里的碎片。我們用多維度的方法去處理所有在觀察到組合里的碎片。這個(gè)多維度查找的復(fù)雜度是O(N0 + kc),這里N0是時(shí)空金字塔里最粗糙維度的碎片數(shù)量。

      5.3.高效的數(shù)據(jù)庫存儲(chǔ)和檢索

      一個(gè)簡單的數(shù)據(jù)庫實(shí)現(xiàn)可以是用一個(gè)碎片描述符的排列和線性的查找。然而,時(shí)間和空間復(fù)雜度可以顯著的分別的提升數(shù)據(jù)庫的存儲(chǔ)和檢索。存儲(chǔ)空間可以通過保持描述符向量近似值的方法得到顯著的減少。例如,所有描述符向量通過利用標(biāo)準(zhǔn)技術(shù)例如PCA和ICA的技術(shù)可以被到映射成一個(gè)低維線性空間。另外,向量量子化技術(shù)(例如K均值,或是Jurie and Triggs(2005))可以被應(yīng)用到描述符的聚類組中。映射和量子化的結(jié)果是出現(xiàn)更少存儲(chǔ)的描述符,并且每一個(gè)描述符都更短了。另一個(gè)好處是數(shù)據(jù)庫檢索時(shí)間被縮短了。注意到映射和量子化在描述符向量里引進(jìn)了錯(cuò)誤。假如每一個(gè)“被壓縮”的描述符向量包含一個(gè)連接原始描述符的話,我們就可以消除錯(cuò)誤了。本案例中,存儲(chǔ)空間沒有被縮小,但是檢索的時(shí)候?qū)?huì)被縮小。一個(gè)接近的相關(guān)的縮短數(shù)據(jù)庫檢索時(shí)間的相關(guān)方法是使用更好的數(shù)據(jù)結(jié)構(gòu)去存儲(chǔ)描述符向量,例如KD樹和hash表去查找大約最近鄰。這些數(shù)據(jù)結(jié)構(gòu)使最快范圍查詢(在一個(gè)給定的元素的某一范圍里發(fā)現(xiàn)所有在數(shù)據(jù)庫里的元素)。這個(gè)時(shí)間復(fù)雜度的結(jié)果是O(Range(N0)+ kc),這里(N0)《 N0表示在有N0元素(碎片)的數(shù)據(jù)庫數(shù)據(jù)結(jié)構(gòu)的范圍查詢的代價(jià)。

      5.4 利用預(yù)查詢的方法

      到目前為止我們假定上面描述的組合算法是被應(yīng)用到所有觀察的點(diǎn),這些點(diǎn)完全不彼此不相關(guān)的。這常常是徒勞無功的,因?yàn)猷徑谋挥^察到的組合在數(shù)據(jù)庫里傾向于擁有近鄰隱藏的組合。我們利用這個(gè)事實(shí)通過測試隱藏組合變量在空間和時(shí)間上的值去加速合成的過程。通過所有的先前組成的組合,憑借著從觀察到的重疊碎片里獲得的知識(shí),我們預(yù)測隱藏組合中心的位置和數(shù)據(jù)庫里的隱藏碎片的身份。我們用最簡單的預(yù)測:給定一個(gè)近鄰的觀察到的組合(?y和它的相應(yīng)被探測的數(shù)據(jù)庫組合~ X),我們預(yù)測一些在隱藏組合X里的隱藏變量,相對應(yīng)的是一個(gè)新觀察到的組合Y。我們預(yù)測用以下公式預(yù)測隱藏組合中心Cx:

      cx = c?x + cy ? c?y

      (11)而且,對每一個(gè)觀察到出現(xiàn)在預(yù)測組合(liy, diy)=(l?jy ,d?jy)的碎片(liy,diy),我們預(yù)測相應(yīng)的隱藏變量(lix, dix)=(l?jx ,d?jx)。沒有預(yù)測的剩下的隱藏變量,可以用改進(jìn)的消除過程非??斓谋煌茢喑鰜?。注意到的是對于近鄰組合,大多數(shù)的觀察到的碎片是重疊在一起的,因此組成一個(gè)新組合的復(fù)雜度是非常低的。萬一預(yù)測錯(cuò)誤并且因此導(dǎo)致一個(gè)低質(zhì)量的組合(也就是說,被觀察到的區(qū)域有較低的可能性),我們就拋棄這預(yù)測結(jié)果并且在整個(gè)的數(shù)據(jù)庫里都用通用的推論。這樣,這個(gè)預(yù)測查詢就不會(huì)在數(shù)據(jù)庫的別處阻止探測。然而,在大多數(shù)的情況下,這預(yù)測查詢是很精確的并且它減少相當(dāng)多的推論時(shí)間。假定有一個(gè)長度為r的合法性預(yù)測“鏈條”,在鏈條中預(yù)測一個(gè)組合的代價(jià)是O(k)。因此,這樣一個(gè)鏈條的總的復(fù)雜度是O(Range(N0)+ kc + kr)而不是沒有預(yù)測時(shí)的O(Range(N0)r +

      krc)。除些之外,還非常的明顯的縮短推論時(shí)間,預(yù)測確實(shí)提升了推論的準(zhǔn)確性。這是因?yàn)榻M合精準(zhǔn)的這些區(qū)域繁殖信息到了精確性不高的那些區(qū)域(例如,一個(gè)站立的人的一條腿比身體的上部有更少的確定性)。

      6. 應(yīng)用

      在本論文提出的方法引起了各種各樣包括探測圖像和視頻不規(guī)則方面的應(yīng)用:

      6.1.探測與異常圖像結(jié)構(gòu)

      給定一個(gè)樣本圖像數(shù)據(jù)庫,我們可以要新觀察到的圖像中探測一些異常的東西(例如從來都沒有見過的物體,新的圖像模式,等等)在Fig.6里給出一個(gè)例子。三個(gè)不同姿勢的圖像作為一個(gè)數(shù)據(jù)庫被提供(Fig.6(a))。其它姿勢的圖像作為查詢被提供(Fig.6(b))。新的合法的姿勢被自動(dòng)的從數(shù)據(jù)庫里推斷出來,盡管它們是從來都沒有見過的。不能從三個(gè)數(shù)據(jù)庫圖像被推斷出來的新姿勢部分被用紅色標(biāo)示成“不熟悉的”(Fig.6(c))。Figure 6(d)真實(shí)的標(biāo)出了這些能夠?yàn)榇蠖鄶?shù)查詢圖像中的每一個(gè)像素提供證據(jù)的數(shù)據(jù)庫圖像(也就是說,這告訴我們哪一個(gè)數(shù)據(jù)庫圖像包含了最大可能支持那像素的區(qū)域。注意,然而,這些并不是支持它們自己的區(qū)域)。默認(rèn)具有相同碎片的和從推論過程中被拋棄(為了加快速度)的相同的碎片(具有可以忽略的圖像傾斜度)被假定為合法的。

      Figure 6.Detection of irregular image configurations.New valid poses are automatically inferred from the database(e.g., a man sitting on the chair with both arms up, a man sitting on a chair with one arm up), even though they have never been seen before.New pose parts which cannot be inferred from the three database images are highlighted in red as being ―unfamiliar‖.6.2 單一圖像的空間顯著

      給定一幅單一的圖像(也就是說沒有數(shù)據(jù)庫),顯著圖像區(qū)域可以被探測到,例如,那些凸出的不同于剩余部分的圖像的區(qū)域。這可以通過測量每個(gè)相對于同一幅圖像中剩余點(diǎn)的圖像區(qū)域(即“查詢”)的可能性來實(shí)現(xiàn)(這數(shù)據(jù)庫用作推論這特殊的區(qū)域)。這個(gè)處理過程為每一個(gè)圖像區(qū)域重復(fù)著。(當(dāng)進(jìn)行著從一個(gè)圖像區(qū)域的分析到下一個(gè)圖像區(qū)域的分析時(shí),這個(gè)處理過程可以通過自適應(yīng)增加或是減少數(shù)據(jù)庫中的大約描述符的方法而很高效的實(shí)現(xiàn))。這樣的一個(gè)例子在Fig.7.中表示出來。這個(gè)方法可以被應(yīng)用到自動(dòng)視覺檢測的問題中(計(jì)算機(jī)芯片、貨物等的檢測)。

      Figure 7.Identifying salient regions in a single image(no database;no prior information).The Jack card was detected as salient.Note that even though the diamond cards are different from each other, none of them is identified as salient.6.3 探測可疑行為

      給定顯示幾個(gè)合法行為例子的一個(gè)小數(shù)據(jù)系列,我們可以一個(gè)新的長

      視頻中探測到可疑和為。這是完全不管我們以前從來都沒有看過這些行為的組合,而且是沒有關(guān)于哪一類的可疑行為可能發(fā)生在視頻里的先驗(yàn)知識(shí)的。這些是自動(dòng)的組合與從數(shù)據(jù)庫中的時(shí)空區(qū)域里推斷出來的。Fig.8有一個(gè)這樣的例子,它從一個(gè)2分鐘長的視頻短片里顯示出幾個(gè)用來探測可疑行為的例子。要看完整的視頻請登錄004km.cnbinations are automatically inferred from the database(e.g., two men walking together, a different person running, etc.), even though they have never been seen before.behaviors which cannot be inferred from the database clips are highlighted in red as being ―suspicious‖.For full videos see www.wisdom.weizmann.ac.il/~vision/Irregularities.html

      6.4 視頻中的時(shí)空顯著

      利用我們的方法我們可以從一個(gè)簡單的視頻流里就能識(shí)別出顯著行為,完全不用任何的數(shù)據(jù)庫或是先驗(yàn)信息。例如,一個(gè)人在歡呼的人群中奔跑。這個(gè)人的行為很明顯是顯著的。在這個(gè)案例中,顯著性是通過相對于同一時(shí)間觀察到的其它行為的比較而測量出來的。每一個(gè)

      時(shí)空視頻片斷(查詢)的合法性是相對于所有其它視頻片斷而測量出來的。這個(gè)處理過程為每一個(gè)視頻片斷重復(fù)進(jìn)行著。這樣的例子在Fig.9里有給出。要獲取全部視頻,登錄到www.wisdom.weizmann.ac.il/~vision/Irregularities.html。視頻顯著性也可以通過相對于其它的時(shí)間窗口來測量到。例如,當(dāng)顯著性是通過相對于整個(gè)視頻而測量的,那么那些只出現(xiàn)過一次的行為將顯得突出。作為選擇的,當(dāng)顯著性的測量是相對于過去(所有之前的幀)而測量的,那么新的之前沒有發(fā)生過的行為就會(huì)被認(rèn)出。這提升了應(yīng)用的多樣性,包括視頻大綱。

      Figure 9.Detecting salient behaviors in a video sequence(no database and no prior information).Saliency is measured relative to all the other behaviors observed at the same time.In this example, all the people wave their arms, and one person behaves differently.For full videos see www.wisdom.weizmann.ac.il/~vision/Irregularities.html

      6.5 自動(dòng)視頻檢查(質(zhì)量保證)

      我們的方法可以被應(yīng)用到自動(dòng)視覺查檢。自動(dòng)視覺檢查可以廣泛的應(yīng)

      用在質(zhì)量保證和貨物的制造方面,電子印板,晶片等。自動(dòng)檢查的一個(gè)主要的問題是怎么描述所有可能正確的模式。在這些案例中,自動(dòng)檢測減少成一個(gè)具有轉(zhuǎn)變探測的簡單問題模型匹配。然而,有很多重要復(fù)雜案例,它是毫無意義或不可能提供比較參考,(例如,由于“好”案例的空間的組合復(fù)雜度)。我們用我們的方法從事這樣的案例從而來探測不規(guī)則性。通過提供一些期待/正常模型的樣例(對于貨物,印刷板,晶片,光掩膜,平板顯示,磁磚,織物,水果等)我們努力去從這些樣例通歸納和組成新的從來都沒有見過的現(xiàn)象。具有較低組成可能性的將為認(rèn)為是錯(cuò)誤的。在Fig.10給出這樣的一個(gè)水果檢查的樣例。經(jīng)常,被檢查的產(chǎn)品呈現(xiàn)出重復(fù)的模型(例如,晶片,織物,平板顯示)。在這些案例中,我們可以用我們的顯著方法去探測錯(cuò)誤根本不需要先驗(yàn)樣例。這在Fig.11中圖表說明晶片檢查和Fig.12里的織物檢查。對于給出的樣例中,我們已經(jīng)利用到基于RGB或是灰度等級(jí)的碎片描述符。我們已經(jīng)利用到一個(gè)高斯分布來對描述符相似性建模。我們的方法,然而,沒有局限于特定的描述符。

      Figure 10.Detection of defects in grapefruit images.Using the single image(a)as a ―database‖ of high quality grapefruits, we can detect defects in different grapefruits at different arrangements in images(b),(c).In both image pairs the input image is to the left and the output image is to the right.Detected defects are highlighted in ―red‖.Figure 11.Detection of defects in wafer images(No database and no prior information).Wafers tend to exhibit repeating structures.This can be utilized using our saliency approach to detect defects without any database.In each example, the left image is the input, the right image is

      the output.Detected defects are highlighted in ―red‖.Figure 12.Detection of defects in fabric images(No database and no prior information).Fabric tend to exhibit nearly repeating textures and patterns with small non-rigid deformations.This can be utilized using our saliency approach to detect defects without any database.Detected defects are highlighted in ―red‖.7. 結(jié)論

      我們研究的問題是探測視覺數(shù)據(jù)(圖像或視頻)里的不規(guī)則現(xiàn)象?!安灰?guī)則”這個(gè)術(shù)語是依賴于被定義“規(guī)則”或“合法”的上下文。然而,對于給定的上下文,期待顯定義所有可能合法結(jié)構(gòu)是不現(xiàn)實(shí)的。我們把決定視覺數(shù)據(jù)合法性的問題當(dāng)作構(gòu)造一個(gè)迷題的過程:我們盡力利用從先前視覺樣例(數(shù)據(jù)庫)中解壓出來的數(shù)據(jù)塊去組合一個(gè)新觀察到的圖像區(qū)域或是一個(gè)新視頻片斷(查詢)。能夠用數(shù)據(jù)庫里的巨大鄰接數(shù)據(jù)塊去組成的觀察到的數(shù)據(jù)區(qū)域被認(rèn)為是相似的,相反那些不

      能從數(shù)據(jù)庫里的數(shù)據(jù)組成(或是能組成,但只是可以由小數(shù)量的碎片組成)的觀察到的區(qū)域被認(rèn)為是不相似/可疑的。我們把這個(gè)過程定義為“通過組合的推論”。它允許我們在僅僅少數(shù)幾個(gè)樣例就能在一個(gè)更大的上下文中去歸納什么是規(guī)則的什么是不規(guī)則的。這個(gè)壓縮過程的實(shí)現(xiàn)是作為一個(gè)蓋然論圖像模型里的高效推論運(yùn)算法則來完成的,它適應(yīng)查詢與數(shù)據(jù)庫之間微小的時(shí)空變形?!巴ㄟ^組合的推論”也能應(yīng)用在完全沒有先驗(yàn)樣例的情況下探測視覺數(shù)據(jù)顯著性。為了這個(gè)目的我們把每一個(gè)圖像區(qū)域稱作一個(gè)“查詢”,并且盡力利用剩下部分的圖像(數(shù)據(jù)庫)去組合它。這個(gè)過程依次對所有的圖像區(qū)域重復(fù)著。像這樣一些不能用圖像的其它部分“解釋”(組合)的區(qū)域?qū)⒆鳛轱@著區(qū)域被探測出來。這引導(dǎo)了一個(gè)新定義的術(shù)語視覺數(shù)據(jù)顯著性。在視頻數(shù)據(jù)的案例中,這些區(qū)域是時(shí)空性的,并且這些顯著性視頻區(qū)域是相應(yīng)于顯著性行為。我們的“通過組合的推論”這方法是通用的并且因此能夠研究在簡單統(tǒng)一的框架里問題,它的一般性使它不用采取任何基于分類模型的預(yù)學(xué)習(xí)的方法。我們通過探測可疑行為,顯著性行為,顯著性圖像區(qū)域,探測貨物或產(chǎn)品來證明這個(gè)方法的應(yīng)用。我們當(dāng)前的運(yùn)算法則有兩個(gè)主要的局限性:(i)盡管閉塞可以被處理到一定程度,它不能處理一些極端的閉塞(例如當(dāng)只有物體的小碎片部分是顯著時(shí))。(ii)時(shí)間和存儲(chǔ)的復(fù)雜度在我們當(dāng)前的推論算法中是隨樣例數(shù)據(jù)庫的大小顯線性變化的。這很顯然對于巨大數(shù)據(jù)庫來說是有問題的。這兩個(gè)問題是我們將來研究的一個(gè)主題。

      第三篇:基于SVW的圖像隱寫盲檢測(讀書筆記)

      基于SVW的圖像隱寫盲檢測

      作者:管超

      內(nèi)容:隱寫技術(shù)與隱寫分析技術(shù)作為信息安全領(lǐng)域一個(gè)研究熱點(diǎn),在短短幾年實(shí)踐中缺的了很大進(jìn)展。隱寫術(shù)是利用人類感覺器官的不敏感性,以及圖像本身存在的冗余,將秘密信息隱藏于一個(gè)數(shù)字媒體而不被察覺。而伴隨而生的隱寫分析技術(shù)即是揭示媒體中隱秘信息的存在性,判別媒體中的隱藏信息可能性。盲檢測技術(shù)是根據(jù)隱藏信息嵌入前后,提取反映圖像細(xì)微變化的數(shù)學(xué)統(tǒng)計(jì)特征,借助分類器對其特征進(jìn)行分類,從而區(qū)分原始圖像與含密圖像。

      此文主要總結(jié)了當(dāng)前主要的盲檢測特征提取算法,并指出其優(yōu)缺點(diǎn)。分析了隱藏信息的嵌入對灰度共生矩陣的影響,提取灰度共生矩陣作為圖像特征。同時(shí)從圖像噪聲的角度研究圖像隱寫和盲檢測。針對紋理圖像檢測的困難,將紋理分類的方法引入圖像隱寫的盲檢測中。

      第四篇:實(shí)時(shí)視頻圖像的清晰度檢測算法研究教案

      實(shí)時(shí)視頻圖像的清晰度檢測算法研究

      2010-12-18 17:11:42

      來源:微型機(jī)與應(yīng)用

      關(guān)鍵字: 實(shí)時(shí)視頻圖像

      背景提取

      Sobel算子

      清晰度檢測

      實(shí)時(shí)視頻圖像的質(zhì)量分析已成為眾多應(yīng)用領(lǐng)域性能好壞的關(guān)鍵因素之一,因此實(shí)時(shí)視頻圖像的清晰度檢測變得尤為重要。目前針對實(shí)時(shí)視頻圖像清晰度檢測的研究較少,圖像清晰度檢測算法的研究對象主要針對靜止的圖像。現(xiàn)有的圖像清晰度檢測算法大致分為空域和頻域兩類。在空域中多采用基于梯度的算法,如拉普拉斯(Laplace)算法、差分平方和(SPSMD)算法、Sobel算子等。此類算法計(jì)算簡潔、快速、抗噪性能好、可靠性較高。在頻域中多采用圖像的FFT變換(或其他變換),如功率譜(Power-spectra)算法等[1-2]。此類算法的檢測效果好,但計(jì)算復(fù)雜度高、計(jì)算時(shí)間長,不適合應(yīng)用在基于軟件實(shí)現(xiàn)的實(shí)時(shí)檢測系統(tǒng)中。

      當(dāng)前對實(shí)時(shí)視頻圖像的一種重要應(yīng)用是對運(yùn)動(dòng)目標(biāo)的檢測,常用的目標(biāo)檢測方法有幀差法、背景減法、光流法及運(yùn)動(dòng)能量法[3],其中最簡單而又快捷的方法是背景差法。其基本思想是通過對輸入圖像與背景圖像進(jìn)行比較來分割運(yùn)動(dòng)目標(biāo),關(guān)鍵環(huán)節(jié)是背景圖像的提取。目前常用的背景提取方法有多幀圖像平均法、灰度統(tǒng)計(jì)法、中值濾波法、基于幀差的選擇方法、單高斯建模等。參考文獻(xiàn)[4]中對以上算法做了充分的研究。

      本文是針對實(shí)時(shí)視頻圖像的清晰度檢測,基于實(shí)時(shí)視頻圖像背景基本保持不變的環(huán)境。通過比較上述算法,針對實(shí)時(shí)視頻圖像的特點(diǎn),提出一種基于背景提取與Sobel算子相結(jié)合的實(shí)時(shí)視頻圖像的清晰度檢測算法。實(shí)時(shí)視頻圖像的清晰度檢測算法原理

      當(dāng)視頻播放畫面超過24幀/s時(shí),根據(jù)視覺暫留原理,人眼無法辨別每幅單獨(dú)的靜態(tài)畫面,看上去是平滑連續(xù)的視覺效果。視頻中的事物通常分為靜止和運(yùn)動(dòng)兩類,連續(xù)多幀畫面中保持靜止的物體可視為靜止的背景,連續(xù)多幀畫面中位置變化的物體可視為運(yùn)動(dòng)的前景。因此,實(shí)時(shí)視頻圖像中的每幀圖像都可以劃分為靜止的背景和運(yùn)動(dòng)的前景兩類區(qū)域。由于視頻序列圖像中運(yùn)動(dòng)的前景區(qū)域隨機(jī)變化,引起圖像像素點(diǎn)梯度值的隨機(jī)改變,使得實(shí)時(shí)視頻圖像的清晰度檢測較難實(shí)現(xiàn)。因此,本文的算法是利用實(shí)時(shí)視頻圖像中靜止的背景區(qū)域檢測視頻序列圖像的清晰度,即由背景提取和清晰度檢測兩部分組成。

      1.1 實(shí)時(shí)視頻圖像的背景提取

      由參考文獻(xiàn)[5]可知,視頻序列中幀圖像的靜止背景區(qū)域由灰度值變化較小的像素點(diǎn)構(gòu)成,每個(gè)像素點(diǎn)都有一個(gè)對應(yīng)的像素值,這個(gè)值在一段時(shí)間內(nèi)保持不變;運(yùn)動(dòng)的前景區(qū)域由灰度值變化較大的像素點(diǎn)構(gòu)成,各像素點(diǎn)在不同的幀圖像中的位置改變,形成運(yùn)動(dòng)軌跡。背景提取的目標(biāo)就是根據(jù)實(shí)時(shí)視頻圖像中像素值的上述特點(diǎn),找出圖像中背景像素點(diǎn)的值。采用多幀圖像累加平均的方法來獲取圖像的背景,從統(tǒng)計(jì)學(xué)角度,運(yùn)動(dòng)物體可視為隨機(jī)噪聲,而均值可以降噪,采用多幀圖像累加取均值可消除運(yùn)動(dòng)物體,獲得靜止的背景圖片。背景圖像的計(jì)算公式為:

      式中,f(x,y)為圖像灰度,gx和gy可以用卷積模板來實(shí)現(xiàn),如圖1所示。

      傳統(tǒng)的邊緣檢測中,Sobel算子利用如圖1的水平和垂直兩個(gè)方向的模板,但實(shí)際情況中的梯度方向是未知的,因此利用兩個(gè)方向計(jì)算出來的結(jié)果存在一定的誤差。為了提高梯度計(jì)算精度,將模板的數(shù)量增加到4個(gè),如圖2所示,即0°、45°、90°、135° 4個(gè)方向。雖然繼續(xù)增加模板的數(shù)量可以進(jìn)一步提高計(jì)算精度,但考慮到計(jì)算效率,模板數(shù)量不宜過多。算法描述

      本算法大致分為三步:

      (1)截取一段實(shí)時(shí)視頻圖像,獲取初始背景圖像。

      (2)利用當(dāng)前實(shí)時(shí)視頻圖像更新初始背景,獲得待檢測的背景圖像。

      (3)根據(jù)Sobel算子計(jì)算背景圖像的邊緣梯度值之和,根據(jù)閾值判斷背景圖像的清晰度,得到實(shí)時(shí)視頻圖像的清晰度評價(jià)值。

      算法描述如下:

      從實(shí)時(shí)視頻圖像中截取一段時(shí)長為1 min的視頻圖像,每5 s進(jìn)行1次采樣,共得到12幀圖像。為減少計(jì)算量,將采樣得到的12幀圖像由RGB空間轉(zhuǎn)換到灰度空間。對圖像中每個(gè)像素點(diǎn)的灰度值f(x,y)累加求平均,得到實(shí)時(shí)視頻圖像的初始背景圖像。計(jì)算公式為:

      式中,n為邊緣點(diǎn)的個(gè)數(shù)。將value與清晰的實(shí)時(shí)視頻圖像背景的清晰度檢測范圍值(經(jīng)大量的實(shí)時(shí)視頻圖像實(shí)驗(yàn)得到)比較,若value∈T(α1,α2),則實(shí)時(shí)視頻圖像是清晰的;若valueT(α1,α2),則實(shí)時(shí)視頻圖像是模糊的。實(shí)驗(yàn)結(jié)果與分析

      目前,大部分的攝像系統(tǒng)都是基于RGB顏色空間,每個(gè)像素點(diǎn)在RGB空間中是一個(gè)三維矢量。為了減少計(jì)算量,使用灰度圖像序列,即將彩色視頻序列轉(zhuǎn)換成灰度視頻序列,基于灰度視頻圖像完成提取背景及實(shí)時(shí)視頻圖像的清晰度檢測。

      實(shí)驗(yàn)程序在PC機(jī)上運(yùn)行,編程軟件是Matlab R2007b,采用的是24位RGB視頻序列,30幀/s,每幀圖片的分辨率是320×240。從實(shí)時(shí)視頻圖像中提取背景圖像后,本文分別采用Sobel算子、平方梯度法和快速檢測法三種算法對圖像的清晰度進(jìn)行檢測。

      實(shí)驗(yàn)拍攝的視頻圖如圖3所示。視頻中杯子為移動(dòng)的物體,杯子由視野的右側(cè)移動(dòng)到視野的左側(cè),背景物體基本保持不變。圖3中的圖片1和圖片2分別是從實(shí)驗(yàn)視頻中截取的圖片,杯子的位置不斷改變,圖片3為清晰的實(shí)時(shí)視頻圖像的背景圖像,其像素梯度值作為判斷視頻序列圖像清晰度的參考閾值,如表1所示。圖3中的圖征4~9分別是從6段不同的實(shí)時(shí)視頻圖像中提取的背景圖片。6段視頻序列圖像的清晰度逐漸減弱,其背景圖像也越來越模糊?;谏鲜霰尘皥D,本文采用了三種算法:Sobel算子清晰度檢測、平方梯度算法和快速檢測法。其中Sobel算子清晰度檢測如文中所述,平方梯度算法將微分值平方,計(jì)算公式為:

      式中,圖像大小為M×N,f(x,y)表示(x,y)處的灰度值[6]??焖贆z測法是先求圖像的灰度均值,分別計(jì)算灰度值大于和小于圖像灰度均值的像素點(diǎn)的均值H和L,然后利用評價(jià)因子F=(H-L)/(H+L)來檢測實(shí)時(shí)視頻圖像的清晰度。

      三種算法對實(shí)時(shí)視頻圖像的清晰度檢測結(jié)果如表1所示。清晰度評價(jià)值經(jīng)過歸一化處理,便于算法準(zhǔn)確度性能的比較。由表1可知,Sobel算子清晰度檢測和平方梯度算法的清晰度評價(jià)值的變化趨勢與幅度和肉眼觀測到的事實(shí)基本相符,視頻序列圖像越模糊,清晰度評價(jià)值越小,即實(shí)時(shí)視頻圖像1、2、3的清晰度評價(jià)值在評價(jià)范圍內(nèi),實(shí)時(shí)視頻圖像是清晰的,實(shí)時(shí)視頻圖像4、5、6的清晰度評價(jià)值在評價(jià)范圍之外,實(shí)時(shí)視頻圖像是模糊的??焖贆z測算法對清晰度的敏感度低,視頻很模糊時(shí),評價(jià)值仍然較大,不能很好地衡量清晰度的變化幅度。表2比較了三種算法的時(shí)間性能,可知Sobel算子清晰度檢測算法與快速算法計(jì)算時(shí)間較為接近,平方梯度算法計(jì)算時(shí)間最長。綜上所述,平方梯度算法評價(jià)效果較好,但實(shí)時(shí)性較差;快速算子計(jì)算速率高,但對模糊的靈敏度低;Sobel算子的評價(jià)效果好,實(shí)時(shí)性也符合系統(tǒng)的要求。

      為了對實(shí)時(shí)視頻圖像的清晰度進(jìn)行實(shí)時(shí)檢測,針對實(shí)時(shí)視頻圖像的特點(diǎn),本文提出了采用背景提取和Sobel算子相結(jié)合的清晰度檢測算法,該算法在幀圖像清晰度檢測時(shí)計(jì)算效率高,能夠自動(dòng)實(shí)時(shí)地完成實(shí)時(shí)視頻圖像的清晰度檢測。但目前此算法僅適用于實(shí)時(shí)視頻圖像中背景基本不變或微小變化的場景。如果背景圖像變化幅度較大,需要調(diào)整判斷視頻清晰度的評價(jià)范圍作為新的評價(jià)標(biāo)準(zhǔn),這也是后續(xù)工作的研究重點(diǎn),以使該算法在更多的場景中應(yīng)用。

      第五篇:圖像視頻處理基礎(chǔ)知識(shí)總結(jié)

      彩色圖像基礎(chǔ)知識(shí)普及篇

      ⑴ 圖像采集的原理

      數(shù)碼相機(jī),攝像機(jī)等都是通過傳感器來獲取圖像的,傳感器陣列是由橫豎兩個(gè)方向密集排列的感光元件(CCD或CMOS)組成的一個(gè)二維矩陣,它收集入射能量并把它聚焦到一個(gè)圖像平面上,與焦點(diǎn)面相重合的傳感器陣列產(chǎn)生與每一個(gè)傳感器接收光總量成正比的輸出。數(shù)字或模擬電路掃描這些輸出,并把它們轉(zhuǎn)換為信號(hào),由成像系統(tǒng)的其他部分?jǐn)?shù)字化。

      ⑵ BAYER矩陣

      傳感器陣列的排列方式可以有很多種,現(xiàn)在最常用的是Bayer矩陣模式的排列方式,即每個(gè)CCD就對應(yīng)一個(gè)像素。其中R感應(yīng)紅光、G感應(yīng)綠光、B感應(yīng)藍(lán)光,而在Bayer模式中G是R和B的兩倍(因?yàn)槲覀兊难劬G色更敏感)。以下是Bayer陣列的一種排列方式: RGRGRGRGRG

      GBGBGBGBGB

      RGRGRGRGRG 以中心綠色的G為例,此像素只有G,缺少R與B,R就等于上下兩個(gè)R的平均值,B就等于左右兩個(gè)B的平均值。其他的R與B都是一樣的,每個(gè)像素補(bǔ)齊RGB三色就可以。此種插值算法是最簡單最高效的,當(dāng)然在一些圖像的邊界之處其影像效果最會(huì)有一些折扣。

      ⑶ 伽馬校正

      數(shù)碼相機(jī)拍攝出的彩色圖像,以及我們把一幅圖像在顯示器上顯示出來都要進(jìn)行相應(yīng)的伽馬校正。數(shù)碼RAW格式的拍攝是采用線性的gamma(即gamma 1.0),可是人的眼睛對光的感應(yīng)曲線卻是一“非線性”的曲線。所以RAW Converter會(huì)在轉(zhuǎn)換時(shí)都會(huì)應(yīng)用一條Gamma曲線到Raw數(shù)據(jù)上(簡單的理解,就是相當(dāng)于對原始數(shù)據(jù)進(jìn)行一個(gè)f(x)的變換,并且注意,f(x)并不是一次的線性函數(shù)),來產(chǎn)生更加接近人眼感應(yīng)的色調(diào)。同理,顯示器的強(qiáng)度(Intensity)并非與輸入訊號(hào)成正比(非線性關(guān)系),這種非線性特性稱為Gamma特性。

      各參數(shù)簡述如下: ① Image_gamma:為輸入影像的γ值,一般訂為γNTSC=2.2,γPAL=2.8,γRGB=1,γMAC=1.8;

      ② Display_gamma:因制造技術(shù)的關(guān)系,每一制造廠生產(chǎn)出來的顯示器γ值都會(huì)不一樣,所以制造廠需提供顯示器γ值,一般訂為γCRT=2.5,γLCD=1.6;

      ③ Viewing_gamma:為最后我們用眼睛去看的結(jié)果,理想狀況為1,即為看到的影像為原

      始影像,一般會(huì)因外在環(huán)境的影響,γ值從1至1.5變化。

      ④ LUT_gamma:伽馬參數(shù)的LUT表。

      輸入訊號(hào)經(jīng)γ修正器與顯示器后,最后希望看到的是與原輸入影像一樣的畫面,即沒有失真。

      ⑷ RGB和YUV圖像

      在計(jì)算機(jī)中使用最多的 RGB 顏色空間,分別對應(yīng)紅、綠、藍(lán)三種顏色;通過調(diào)配三個(gè)分量的比例來組成各種顏色。一般可以使用 1、2、4、8、16、24、32 位來存儲(chǔ)這三顏色,不過現(xiàn)在一個(gè)分量最大是用 8 位來表示,最大值是 255,對于 32 位的顏色,高 8 位是用來表示透明度的。彩色圖一般指 16 位以上的圖?;叶葓D有一個(gè)特殊之處就是組成顏色的三個(gè)分量相等;而一般灰度圖是8 位以下。

      在彩色電視機(jī)系統(tǒng)中,通常使用一種叫 YUV 的顏色空間,其中 Y 表示亮度信號(hào),也就是這個(gè) YUV 空間解決了彩色電視機(jī)和黑白電視機(jī)的兼容問題。對于人眼來說,亮度信號(hào)是最敏感的,如果將彩色圖像轉(zhuǎn)換為灰度圖像,僅僅需要轉(zhuǎn)換保存亮度信號(hào)就可以。

      從 RGB 到 YUV 空間的 Y 轉(zhuǎn)換公式為:

      Y = 0.299R+0.587G+0.114B

      在 WINDOWS 中,表示 16 位以上的圖和以下的圖有點(diǎn)不同; 16 位以下的圖使用一個(gè)調(diào)色板來表示選擇具體的顏色,調(diào)色板的每個(gè)單元是 4 個(gè)字節(jié),其中一個(gè)透明度;而具體的像素值存儲(chǔ)的是索引,分別是 1、2、4、8 位。16 位以上的圖直接使用像素表示顏色。

      ⑸ 彩色圖轉(zhuǎn)換為灰度圖

      灰度圖(GrayScale)是指只含亮度信息,不含色彩信息的圖像。灰度化處理是把含有亮度和色彩的彩色圖像變換成灰度圖像的過程。灰度化處理在許多圖像處理中是很重要的一步,他的結(jié)果就是后續(xù)處理的基礎(chǔ)。所以,尋求一種正確有效的灰度化處理方法尤其重要。

      那么如何將彩色圖轉(zhuǎn)換為灰度圖呢?

      常用的色彩系統(tǒng)有RGB、YIQ、YUV。

      1)YIQ色彩系統(tǒng)屬于NTSC電視廣播制式系統(tǒng)。Y是亮度,即圖像的灰度值,I和Q則是指色調(diào)。它與RGB的關(guān)系為:

      2)YUV屬于PAL電視廣播制式系統(tǒng)。Y也是亮度,U和V也是色調(diào)。它與RGB的關(guān)系為:

      灰度圖中有調(diào)色板,首先需要確定調(diào)色板的具體顏色取值。我們前面提到了,灰度圖的三個(gè)分量相等。當(dāng)轉(zhuǎn)換為 8 位的時(shí)候,調(diào)色板中有 256 個(gè)顏色,每個(gè)正好從 0 到 255 個(gè),三個(gè)分量都相等。當(dāng)轉(zhuǎn)換為 4 位的時(shí)候,調(diào)色板中 16 個(gè)顏色,等間隔平分 255 個(gè)顏色值,三個(gè)分量都相等。當(dāng)轉(zhuǎn)換為 2 位的時(shí)候,調(diào)色板中 4 個(gè)顏色,等間隔平分 255 個(gè)顏色,三個(gè)分量相等。當(dāng)轉(zhuǎn)換為 1 位的時(shí)候,調(diào)色板中兩個(gè)顏色,是 0 和 255,表示黑和白。

      將彩色轉(zhuǎn)換為灰度時(shí)候,按照公式計(jì)算出對應(yīng)的值,該值實(shí)際上是亮度的級(jí)別;亮度從 0 到 255 ;由于不同的位有不同的亮度級(jí)別,所以 Y 的具體取值如下:

      Y = Y/(1<<(8-轉(zhuǎn)換的位數(shù)));

      最后一點(diǎn)需要注意,得到 Y 值存放方式是不同的;分別用對應(yīng)的位數(shù)來存儲(chǔ)對應(yīng)的 Y 值。在計(jì)算 Y 值的時(shí)候,使用的整數(shù)除法,這是有誤差的,為了消除誤差,需要采用誤差擴(kuò)散的算法,也就是將該誤差值向其鄰近的像素點(diǎn)擴(kuò)散,當(dāng)然按照一定的比例來分配;例如:整除之后,余數(shù)是 5,采用 3/2/3 的策略,就是,右邊像素和正下面的像素各占 3/8,而右下角的像素占 2/8。

      2.圖像格式轉(zhuǎn)換的算法描述

      ⑴ BAYER矩陣轉(zhuǎn)換為RGB格式圖像的算法描述

      我們通常采用插值算法(Interpolation)把BAYER矩陣中的像素的顏色值轉(zhuǎn)換為一個(gè)像素的RGB的數(shù)值。我們通常以3×3的插值算法來計(jì)算BAYER矩陣的像素的RGB值,該插值算法中某個(gè)位置像素的RGB分量的值只取決于以該像素為中心的3×3的鄰域中同樣分量的均值。

      ⑵ RGB格式圖像轉(zhuǎn)換為灰度圖像的算法描述

      我們進(jìn)行圖像處理通常都是在微機(jī)上進(jìn)行的,因此以微機(jī)的Windows系統(tǒng)為例來介紹如何將RGB格式圖像轉(zhuǎn)換為灰度圖像。

      Windows系統(tǒng)中使用的是設(shè)備無關(guān)位圖(DIB)

      DIB即Device_Independent Bitmap。目前,Windows處理的DIB通常是以BMP文件存在。BMP文件文件有如下的四個(gè)部分;

      1)位圖頭文件:BITMAPFILEHEADER,它是一個(gè)位圖標(biāo)志

      2)位圖信息頭:BITMAINFOHEADER

      它定義了圖像的大小,長寬等信息,長度固定為40個(gè)字節(jié)。

      3)調(diào)色板(Palette)

      它用來存放位圖的顏色,如果是真彩色圖,則不需要調(diào)色板。其定義為: 所謂調(diào)色板就是在16色或256色的顯示系統(tǒng)中,將圖像中頻率出現(xiàn)最高的16或256種顏色組成顏色表。對這些顏色按0至15或255進(jìn)行編號(hào),每一個(gè)編號(hào)代表其中的一種顏色。這種顏色編號(hào)就叫做顏色的索引號(hào),4位或8位的索引號(hào)與24位顏色值的對應(yīng)表叫做顏色查找表。使用調(diào)色板的圖像叫做調(diào)色板圖像,它們的象素值就是顏色在調(diào)色板查找表中的索引號(hào)。

      4)實(shí)際的圖像數(shù)據(jù)

      對于用到調(diào)色板的位圖,圖像數(shù)據(jù)就是該像素顏色在調(diào)色板中的索引值,對于真彩色圖,圖像數(shù)據(jù)就是實(shí)際上的紅(R)、綠(G)、藍(lán)(B)的值。由前面介紹的原理可知,知道圖像某點(diǎn)的R、G、B值,要得到亮度信息,則可由下式計(jì)算出: Y=0.299*R+0.587*G+0.114*B(1)

      而在用BMP表示的灰度圖中,其紅(R)、綠(G)、藍(lán)(B)三個(gè)分量的值相等,即有

      R=G=B(2)式

      把(2)式代入(1)式中,可得:I=Q=0,即圖像沒有了色彩信息。

      同理,對YUV顏色空間也一樣。

      為了把彩色圖像轉(zhuǎn)換為灰度圖像,首先要找出彩色圖像的顏色值:R、G、B。然后,通過(3)式計(jì)算,即可得出亮度值Y。再令:R=G=B=Y,則得到的新的圖像,即灰度圖像。

      對于24位或32位的真彩色圖像而言,找出每點(diǎn)的RGB值相對容易。前面介紹了,24位或32位真彩不需調(diào)色板,它的圖像數(shù)據(jù)就是實(shí)際的RGB的值。RGB三個(gè)分量分別占有一個(gè)字節(jié),即容易取得RGB的值。

      而對于16位位圖言,它的一個(gè)點(diǎn)用兩個(gè)字節(jié)來表示。它也不用調(diào)色板。要取得RGB的值,就需要了解R、G、B在這兩個(gè)字節(jié)中的位置。它們所占的位置是這樣的:

      R占高5位,B占低5位,G占中間6位。

      取出相應(yīng)的RGB值后,都轉(zhuǎn)變?yōu)榘宋唬ǖ臀谎a(bǔ)0)。再通過(1)式,即可得到該點(diǎn)的亮度值Y。然后,寫回新的256色位圖時(shí),令R=G=B=Y,這樣,就得到了一個(gè)256級(jí)的灰度圖像。

      下載讀書筆記(圖像和視頻中的不規(guī)則檢測)word格式文檔
      下載讀書筆記(圖像和視頻中的不規(guī)則檢測).doc
      將本文檔下載到自己電腦,方便修改和收藏,請勿使用迅雷等下載。
      點(diǎn)此處下載文檔

      文檔為doc格式


      聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)自行上傳,本網(wǎng)站不擁有所有權(quán),未作人工編輯處理,也不承擔(dān)相關(guān)法律責(zé)任。如果您發(fā)現(xiàn)有涉嫌版權(quán)的內(nèi)容,歡迎發(fā)送郵件至:645879355@qq.com 進(jìn)行舉報(bào),并提供相關(guān)證據(jù),工作人員會(huì)在5個(gè)工作日內(nèi)聯(lián)系你,一經(jīng)查實(shí),本站將立刻刪除涉嫌侵權(quán)內(nèi)容。

      相關(guān)范文推薦

        PET圖像檢測技術(shù)申請理由

        PET圖像檢測技術(shù) 申請理由 腫瘤的早期預(yù)防、早期發(fā)現(xiàn)和治療對于人的生命是至關(guān)重要的,PET檢測技術(shù)的使用為腫瘤患者診斷方案的確定提供了便利條件,它獨(dú)特的成像技術(shù)和PET圖......

        廣東省公共安全視頻圖像信息系統(tǒng)管理辦法

        廣東省公共安全視頻圖像信息系統(tǒng)管理辦法 第一章 總則 第一條 為規(guī)范公共安全視頻圖像信息系統(tǒng)的規(guī)劃、建設(shè)、管理和應(yīng)用,維護(hù)公共安全,保障社會(huì)穩(wěn)定,根據(jù)有關(guān)法律、法規(guī),結(jié)合本......

        《安徽省公共安全視頻圖像信息系統(tǒng)管理辦法》

        安 徽 省 人 民 政 府 令 第270號(hào) 《安徽省公共安全視頻圖像信息系統(tǒng)管理辦法》已經(jīng)2016年10月19日省人民政府第85次常務(wù)會(huì)議通過,現(xiàn)予公布,自2017年1月1日起施行。 代省長李......

        視頻圖像偵查可行性研究報(bào)告(最終五篇)

        《視頻圖像偵查》 產(chǎn)品可行性研究報(bào)告 北京XXXXXXX有限公司 2014年4月15日 1、 產(chǎn)品市場定位 “視頻圖像偵查”簡稱“圖偵”,是公安視頻方面的專業(yè)術(shù)語,即公安機(jī)關(guān)通過偵查視......

        視頻中運(yùn)動(dòng)目標(biāo)的檢測標(biāo)記(大全5篇)

        視頻中運(yùn)動(dòng)目標(biāo)的檢測標(biāo)記 摘要:傳統(tǒng)電視監(jiān)控技術(shù)只能把遠(yuǎn)程的目標(biāo)圖像(原始數(shù)據(jù))傳送到監(jiān)控中心,由監(jiān)控人員對現(xiàn)場情況做出判斷。智能化視頻監(jiān)控的目的是將視頻原始數(shù)據(jù)轉(zhuǎn)化為......

        網(wǎng)頁中圖像的格式

        網(wǎng)頁中使用的圖像可以是JPEG、GIF、PNG、BMP、TIFF等格式的圖像文件,美觀的圖片會(huì)為網(wǎng)站添加新的活力。給用戶帶來更直觀的感受。但是網(wǎng)頁上的圖片如果過多,也會(huì)影響網(wǎng)站的瀏......

        視頻采集卡圖像顯示問題的解決方法

        視頻采集卡圖像顯示問題的解決方法?1:處理圖像非正常的因素有兩個(gè)原因? (1):系統(tǒng)問題,DirectX功能沒有啟用。會(huì)導(dǎo)致圖像顯示緩慢,以及色彩不正常。 (2): 硬件問題,顯卡不支持,圖像......

        基于FPGA SoPC的視頻圖像處理系統(tǒng)設(shè)計(jì)

        基于FPGA+SoPC的視頻圖像處理系統(tǒng)設(shè)計(jì) 摘 要: 隨著信息科技技術(shù)的深入研究與應(yīng)用,在很多行業(yè)領(lǐng)域都應(yīng)用到視頻圖像。該文對視頻圖像處理系統(tǒng)設(shè)計(jì)分析與研究關(guān)鍵通過SoPC及FPGA......