第一篇:分布式視頻編碼技術(shù)研究
分布式視頻編碼技術(shù)研究
摘要:對(duì)于視頻壓縮領(lǐng)域,分布式編碼是一種新出現(xiàn)的應(yīng)用機(jī)制,是基于20世紀(jì)70年代Slepian和Wolf以及Wyner和Ziv提出的信息理論而建立的。分布式視頻編碼技術(shù)與傳統(tǒng)編碼技術(shù)相比,從原理到實(shí)現(xiàn)方法上都是全新的。本文在介紹分布式編碼基本原理的基礎(chǔ)上,著重介紹了分布式視頻編碼技術(shù)各個(gè)環(huán)節(jié)的最新研究進(jìn)展,并對(duì)發(fā)展趨勢(shì)進(jìn)行了展望。
關(guān)鍵詞:
分布式視頻編碼
有損編碼
錯(cuò)誤恢復(fù)
Abstract:For video compression distributed video coding is a new paradigm, which is based on the information theory established in 1970’s by Slepian,Wolf and Wyner,Ziv.Compared with traditional video coding standard, distributed video coding is a radical departure.Based on the introduction of distributed coding principles, this paper reviews the advances of fundamental building blocks of distributed
video coding, and the future development is pointed out.Key words: Distributed video coding
lossy compression error resilient
1引言
傳統(tǒng)的視頻編碼標(biāo)準(zhǔn),如MPEG和H.26X等,采用的都是不對(duì)稱編碼方式,編碼器端隱含一個(gè)解碼器。編碼端的主要步驟包括變換,量化,熵編碼,相應(yīng)的解碼過程,以及運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償。因此編碼端的復(fù)雜度遠(yuǎn)遠(yuǎn)高于解碼端,尤其是運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償占用了大量的資源,使編碼端的復(fù)雜度在解碼端的5 至10倍以上。這種不對(duì)稱的編碼方式對(duì)于廣播,流媒體的點(diǎn)播等服務(wù)是非常合適的,因?yàn)檫@些領(lǐng)域的工作方式是一次壓縮多次播放。近年來隨著“普適計(jì)算”(Pervasive Computing)概念的提出, ”無所不在的計(jì)算”已經(jīng)成為計(jì)算機(jī)發(fā)展的大趨勢(shì)。在這種背景下,越來越多的移動(dòng)視頻錄制設(shè)備加入到了網(wǎng)絡(luò)中,如監(jiān)控系統(tǒng)中的無線視頻探測(cè)頭,便攜式視頻攝像機(jī),無線PC相機(jī)等。這些設(shè)備都需要進(jìn)行現(xiàn)場(chǎng)的視頻編碼,并把碼流傳送到一個(gè)中心節(jié)點(diǎn),如監(jiān)控室的中央處理機(jī),進(jìn)行解碼播放。這些應(yīng)用領(lǐng)域中編碼設(shè)備比較簡單,而解碼設(shè)備擁有較多的資源可以進(jìn)行復(fù)雜的計(jì)算,與傳統(tǒng)視頻編碼標(biāo)準(zhǔn)適用的場(chǎng)景恰恰相反。
MPEG和H.26x等傳統(tǒng)的視頻編碼標(biāo)準(zhǔn)在發(fā)展的過程中一直遵循一個(gè)模式,就是由編碼器負(fù)責(zé)信源統(tǒng)計(jì)特性的充分利用,作為一個(gè)基本原則這很少被質(zhì)疑過。然而通過只在解碼端進(jìn)行信號(hào)統(tǒng)計(jì)特性的利用同樣可以進(jìn)行有效的壓縮編碼。這個(gè)令人驚異的發(fā)現(xiàn)來自20世紀(jì)70年代建立的信息理論,即Slepian和Wolf建立的分布式無損編碼理論以及Wyner 和Ziv建立的使用解碼端輔助信息(Side Information)的有損編碼理論。根據(jù)以上理論建立的機(jī)制被統(tǒng)稱為分布式編碼算法。
[1]2 分布式編碼的信息論基礎(chǔ)
傳統(tǒng)的圖像編碼存在兩種形式的壓縮方法,一種是有損壓縮[2],一種是無損壓縮,無損壓縮是有損壓縮的基礎(chǔ),有損壓縮往往是在無損壓縮的基礎(chǔ)上加上通過附加一個(gè)優(yōu)化的量化器而實(shí)現(xiàn)的。分布式編碼的信息論原理同樣有兩種形式,即無損分布式編
碼的Slepian-Wolf理論[3]和使用解碼端輔助信息(Side Information)的有損分布式編碼Wyner-Ziv理論。其中,Wyner-Ziv理論是分布式視頻編碼技術(shù)的主要理論依據(jù),為了紀(jì)念二人對(duì)信息論的貢獻(xiàn),這種視頻編碼機(jī)制又被稱為Wyner-Ziv Video Coding。
2.1分布式無損信源編碼
分布式壓縮指的是編碼兩個(gè)獨(dú)立的任意序列;每個(gè)具有分離的編碼器,每一個(gè)編碼器發(fā)送一個(gè)獨(dú)立的碼流到一個(gè)獨(dú)立的解碼器;該解碼器聯(lián)合解碼所有的碼流并且計(jì)算統(tǒng)計(jì)相關(guān),如圖1所示。
假設(shè)兩個(gè)統(tǒng)計(jì)相關(guān)獨(dú)立同分布的無限長隨機(jī)序列X 和Y,在傳統(tǒng)的熵編碼和解碼可以達(dá)到RY?H(Y)和RX?H(X)的碼率, H(X)和H(Y)為X 和Y 的熵。有趣的是, 聯(lián)合解碼具有更好的率失真性能(獨(dú)立編碼)[4]。對(duì)于編碼長序列,如果滿足對(duì)于恢復(fù)X和Y的殘差錯(cuò)誤概率足夠小,Slepian-Wolf 理論建立碼率區(qū)域
RX?RY?H(XY,)
RX?H(X|Y),RY?H(X|Y)
在此可以發(fā)現(xiàn), RX + RY 可以達(dá)到聯(lián)合信息熵H(X,Y)。
在圖2中的A 點(diǎn),對(duì)X 編碼的碼率為RX =H(X),而對(duì)Y進(jìn)行壓縮時(shí)所需要的碼率僅為RY = H(Y |X)。同樣在B 點(diǎn),對(duì)Y編碼的碼率為RY =H(Y),而對(duì)X 進(jìn)行壓縮時(shí)所需要的碼率僅為RX =H(X |Y)。這就是在解碼端具有邊信息的無損信源編碼問題的理論。
2.2 分布式有損信源編碼
對(duì)于在解碼端具有邊信息有損信源編碼問題Wyner和Ziv給出了其碼率界。給定失真D下的碼率記為為
RX|Y(D); 另外,將兩邊都能得到邊信息Y時(shí)的率失真函數(shù)記
WZRY|X(D)?RY|X(D),D?0RY|X(D)。在文獻(xiàn)[2]中Wyner和Ziv證明,而且給出當(dāng)失真的度量為均方誤差, Y服從獨(dú)立高斯分布,X=Y+U, U也服從獨(dú)立高斯分布且與Y獨(dú)立時(shí)WZRY|X(D)?RY|X(D),D?0。對(duì)于一般信源, 在均方誤差度量下, 其碼率損失小于0.5bit/ sample,在漢明距度量下碼率損失小于0.22 bit。Gastpar對(duì)多信源的Wyner-Ziv編碼進(jìn)行研究并給出了相應(yīng)的理論界。分布式視頻編碼關(guān)鍵技術(shù)
分布式編碼是在視頻壓縮領(lǐng)域的一個(gè)新框架, 基于Slepian-Wolf和Wyner-Ziv的理論。近年來, 人們也著手于實(shí)際編/解碼系統(tǒng)的開發(fā),熵編碼、量化和變換。
3.1 Slepian-Wolf編碼器
雖然Slepian-Wolf的理論產(chǎn)生于20世紀(jì)70年代, 但是它卻是在最近幾年才獲得了實(shí)際的應(yīng)用。三十年前人們就明白Slepian-Wolf編碼非常接近于信道編碼, 可以使用一個(gè)系統(tǒng)信道編碼傳輸校驗(yàn)位。在解碼端, 可以連接校驗(yàn)位和邊信息Y, 并且執(zhí)行糾錯(cuò)解碼。如果X、Y非常相似, 只需要傳輸少許校驗(yàn)位和重要的壓縮結(jié)果。需要強(qiáng)調(diào)的是這個(gè)方法并不執(zhí)行前向糾錯(cuò)來保護(hù)信道傳輸?shù)腻e(cuò)誤, 而是使用一個(gè)虛擬的相關(guān)信道來獲取X 和邊信息Y的統(tǒng)計(jì)關(guān)[6]
[5]。
另一種編碼實(shí)現(xiàn)方法, 即將序列X分為陪集, 編碼端發(fā)送X所屬的陪集索引, 接收端通過選擇陪集中與邊信息Y最可能的碼字??梢钥闯鰞煞N解釋是相同的, 在校驗(yàn)位的解釋下,發(fā)送一個(gè)二進(jìn)制的行矢量
XP?XP,G為系統(tǒng)線性塊編碼的生成矩陣,在陪集的解釋下,發(fā)送伴隨陣S = XH, H 是線性塊碼C的校驗(yàn)矩陣。如果P = H, 傳輸?shù)拇a流是相同的。
可以使用Turbo碼來實(shí)現(xiàn)Slepian-Wolf編碼器。由于Turbo碼的良好性能, 這種方法能夠很好接近Slepian-Wolf給定的編碼界。之后, Liveris等人采用LDPC(low-density paritycheck)碼來實(shí)現(xiàn)Slepian-Wolf編碼器。仿真結(jié)果表明它比當(dāng)時(shí)所有的turbo碼的壓縮性能都好, 更能接近理論限。后來他們又使用IRA(irregular repeat accumulate)碼進(jìn)行實(shí)驗(yàn), 也得到了很好的結(jié)果。另外, Lan、Liveris、Naryanan、Xiong 和Georghiades對(duì)多信源的Slepian-Wolf編碼問題進(jìn)行了研究。
3.2 量化技術(shù)及Wyner-Ziv編碼器
因?yàn)閳D像的失真度基本上是由量化器決定的, 所以對(duì)于視頻編碼而言, 量化器是非常關(guān)鍵的一個(gè)環(huán)節(jié)。由于分布式編碼中, 解碼器的動(dòng)作是整個(gè)編碼系統(tǒng)結(jié)構(gòu)的核心, 這不同于傳統(tǒng)的編碼器端決定圖像質(zhì)量的工作方式。分布式編碼中的量化器無法直接繼承傳統(tǒng)圖像視頻編碼技術(shù)中的量化器設(shè)計(jì)方法。在Slepian-Wolf編碼的基礎(chǔ)上, Wyner-Ziv 編碼機(jī)制有了很大進(jìn)展, 對(duì)于重建邊信息的初步量化器設(shè)計(jì)目的來自于信息論證。在特定情況下, 線性編碼和嵌入式格子, 接近Wyner-Ziv 的率失真函數(shù)。特別是當(dāng)信源和邊信息是聯(lián)合高斯的情況, 構(gòu)成了分布式編碼中量化器設(shè)計(jì)的理論基礎(chǔ)。
通常情況下, 認(rèn)為Wyner-Ziv編碼器由一個(gè)量化器和一個(gè)Slepian-Wolf組成。量化器將信號(hào)空間分為單元, 不相連的子單元影射到相同的量化索引Q, 它由固定碼率的局部最優(yōu) Lloyd算法、Wyner-Ziv矢量量化器設(shè)計(jì)。量化器的設(shè)計(jì)用于理想Slepian-Wolf編碼器編碼量化的索引, 碼率估算依賴于量化索引和邊信息, 使Slepian-Wolf編碼器的塊長與量化器維數(shù)分離。這是實(shí)際系統(tǒng)的基本要求。對(duì)于高碼率, 在特定的情況下, 最優(yōu)量化是格子量化, 分離的量化單元不需要影射到同一個(gè)索引。在編碼端不具有邊信息的情況下, 它是漸進(jìn)無性能損失的。
在Wyner-Ziv編碼器的設(shè)計(jì)實(shí)現(xiàn)上,Zanir等人給出的嵌套線性/格形碼可以達(dá)Wyner-Ziv界。嵌套格形碼的實(shí)現(xiàn)由Servetto中給出。Xiong等人通過嵌入量化器加Slepian-Wolf構(gòu)成Wyner-Ziv編碼器, 后來又使用TCQ(trellis-coded quantization)構(gòu)成Wyner-Ziv編碼器, 兩種方法都能逼近理論界。此外, 可以使用Lbyd算法設(shè)計(jì)量化器加上Slepian-Wolf編碼器實(shí)現(xiàn)Wyner-Ziv編碼。
3.3 聯(lián)合解碼和運(yùn)動(dòng)補(bǔ)償
為了獲得更高的壓縮效率, 可以在解碼端進(jìn)行運(yùn)動(dòng)補(bǔ)償。傳統(tǒng)的運(yùn)動(dòng)補(bǔ)償編碼可以在這里采用。例如,CRC可以用于解碼端的運(yùn)動(dòng)補(bǔ)償, Viterbi解碼對(duì)一系列運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)塊進(jìn)行操作, 每一個(gè)具有不同的運(yùn)動(dòng)矢量, 每個(gè)解碼版本的CRC和傳送的CRC 進(jìn)行比較選用。另外一種方法由Stanford完成, 即發(fā)送一個(gè)魯棒的hash碼字來輔助解碼端估計(jì)運(yùn)動(dòng)。目前, 本文的hash 簡單地由量化的DCT系數(shù)的小子集組成, 在低延遲系統(tǒng)使用前一幀產(chǎn)生邊信息。因?yàn)閔ash比原數(shù)據(jù)小, 所以允許將上幀的hash存儲(chǔ)到內(nèi)存。對(duì)于當(dāng)前幀的每個(gè)塊, 計(jì)算對(duì)應(yīng)的魯棒hash的相鄰幀距離。如果超過一定距離,則發(fā)送hash 數(shù)據(jù)和Wyner-Ziv 位。在hash的基礎(chǔ)上, 解碼端執(zhí)行一個(gè)運(yùn)動(dòng)搜索來產(chǎn)生最優(yōu)的邊信息塊, 量化系數(shù)的hash碼能修正Turbo解碼的相應(yīng)概率, 因此進(jìn)一步減少了校驗(yàn)位的碼率。Hash 也能在重建時(shí)用于精簡。這非常近似于通用的Slepian-Wolf編碼的相關(guān)信道。
3.4 碼率控制
Wyner-Ziv的碼率控制由當(dāng)前幀和邊信息的統(tǒng)計(jì)相關(guān)特性來決定。編碼算法本身并不需要改變, 碼率隨信道的統(tǒng)計(jì)特性而變化。每個(gè)幀需要多少碼率的傳輸是靈活的, 因?yàn)檫呅畔⑹窃诮獯a端獲取而不是在編碼端獲取。
碼率控制解決的方法之一: 完全依賴于解碼端的反饋信息; 解碼端將決定最優(yōu)編碼速率并反饋給編碼端。解碼端使用相關(guān)信道估計(jì)算法將預(yù)測(cè)碼率傳輸給編碼端。
在解碼端進(jìn)行碼率控制, 明顯降低了編碼端的負(fù)擔(dān); 反饋允許解碼器在產(chǎn)生邊信息方面具有很大的靈活性;從簡單的拷貝幀的機(jī)制到非常復(fù)雜的運(yùn)動(dòng)補(bǔ)償; 基于對(duì)象的分割或多幀預(yù)測(cè);一個(gè)精確的邊信息, 需要很少的碼率。因此整個(gè)系統(tǒng)性能的改善只與解碼器有關(guān)系。這與傳統(tǒng)的視頻編碼方式是有區(qū)別的。
這種方法有兩個(gè)比較明顯的缺點(diǎn):首先需要一個(gè)反饋信道,這會(huì)造成延遲; 統(tǒng)計(jì)特性估計(jì)和解碼過程都是在線執(zhí)行。因此這種算法不適宜于低復(fù)雜度的設(shè)備應(yīng)用。
另外一個(gè)碼率控制方式是使用一些在編碼端的估計(jì), 如PRISM。編碼端存儲(chǔ)前一幀, 基于幀差的能量;每個(gè)塊分為不同的編碼模式, 具有不同的碼率, 幀差過小, 則不編碼;在這兩種模式中間是不同的伴隨陣和不同的碼率, 取決于估計(jì)的統(tǒng)計(jì)相關(guān)。運(yùn)動(dòng)估計(jì)在解碼端沒有, 可以降低解碼復(fù)雜度;邊信息的精度不影響碼率, 但是會(huì)影響重建的信號(hào)質(zhì)量。
[8]
[7]4 兩種分布式視頻編碼的仿真實(shí)現(xiàn)及分析
本文對(duì)空間域Wyner-Ziv視頻編碼和頻域Wyner-Ziv視頻編碼算法分別加以仿真實(shí)現(xiàn),并且和H.263的幀間編碼和頓內(nèi)編碼進(jìn)行比較。本文采用的turbo編碼器碼率為4/5,生成矩陣34342M??2,4,8,16?[1,(1?D?D?D)/(1?D?D)]為。通過對(duì)量化級(jí)數(shù)的調(diào)整,產(chǎn)生出不同的輸出碼率,從而獲得不同的壓縮率。關(guān)鍵幀K采用H.263的幀內(nèi)編碼, 它和Wyner-Ziv 幀S的編碼順序?yàn)椤癒-S-S-S”, 即每2個(gè)關(guān)鍵幀K之間有3個(gè)Wyner-Ziv幀S。H.263的編碼器為 TMN8,選取Carphone和Salesman兩個(gè)標(biāo)準(zhǔn)序列,其圖像格式為QCIF(176X144),編碼幀數(shù)為100幀(25fps)。仿真實(shí)驗(yàn)的結(jié)果如圖3所示
圖3 空間域和頻域Wyner-Ziv視頻編碼仿真結(jié)果
從上述的仿真實(shí)驗(yàn)結(jié)果可以看出, 分布式視頻編碼在相同編碼復(fù)雜度的情況下, 其壓縮效率要明顯高于傳統(tǒng)的幀內(nèi)編碼, 但和傳統(tǒng)的幀間編碼相比尚有較大差距。頻域Wyner-Ziv,視頻編碼效率比空間域Wyner-Ziv算法平均高1.5dB以上, 這是因?yàn)轭l域Wyner-Ziv編碼算法在編碼端對(duì)當(dāng)前幀進(jìn)行DCT變換,變換后的低頻分量和高頻分量獨(dú)立編碼, 壓縮了圖像信號(hào)的空間冗余度,提高了編碼效率。結(jié)論和研究展望
本研究對(duì)于探索新的視頻編碼技術(shù)、解決傳統(tǒng)視頻編碼僅在編碼端進(jìn)行信源統(tǒng)計(jì)所遇到的編碼復(fù)雜度高等問題, 具有重要的理論意義和實(shí)用價(jià)值。為了降低編碼端的復(fù)
雜度,分布式視頻編碼采用幀內(nèi)編碼幀間譯碼,將視頻幀分為關(guān)鍵幀與Wyner-Ziv幀,關(guān)鍵幀是使用H.264/AVC進(jìn)行編碼,在譯碼端使用已譯碼的關(guān)鍵幀產(chǎn)生邊信息,并將邊信息作為輔助信息來實(shí)現(xiàn)當(dāng)前Wyner-Ziv幀的編碼。與傳統(tǒng)的視頻編碼相比,分布式視頻編碼在編碼效率方面存在一定的差距,并目_譯碼端的復(fù)雜度較高,因此如何提高分布式視頻編碼的編碼效率與降低譯碼端的復(fù)雜度是本文的主要研究內(nèi)容。
為了提高分布式視頻編碼的效率,可以使用編碼模式選擇機(jī)制、較好的信道編碼機(jī)制與較好的邊信息產(chǎn)生方法。在我們提出的編碼端碼率控制算法中,在編碼端使用編碼模式選擇機(jī)制來通過產(chǎn)生邊信息與當(dāng)前幀之間的相關(guān)性來選擇合適的編碼模式,從而提高分布式視頻編碼的效率。
為了降低譯碼端的復(fù)雜度,本文提出了一種不使用反饋信道的編碼端碼率控制算法。大多數(shù)的分布式視頻編碼使用反饋信道在譯碼端執(zhí)行碼率控制,使用反饋信道會(huì)增加譯碼端的復(fù)雜度并會(huì)帶來一些時(shí)延,為了克服這些缺陷,我們?cè)诰幋a端對(duì)碼率進(jìn)行控制,在編碼端產(chǎn)生一個(gè)低復(fù)雜度的邊信息來對(duì)譯碼端產(chǎn)生的邊信息進(jìn)行估計(jì),從得到譯碼過程中錯(cuò)誤概率的估計(jì)值,使用該估計(jì)值來為前幀分配合適數(shù)目的校驗(yàn)位。
本文對(duì)分布式視頻編碼的理論基礎(chǔ)、關(guān)鍵技術(shù)進(jìn)行了研究,并給出了新的解決方案,但是還有更深入的研究有待進(jìn)行,如:本文使用了比較典型的運(yùn)動(dòng)補(bǔ)償幀內(nèi)插法來產(chǎn)生邊信息的,該方法產(chǎn)生邊信息的質(zhì)量較好,但是它需要的計(jì)算量較大,因此如何產(chǎn)生一個(gè)質(zhì)量好并且計(jì)算量小的邊信息是我們未來工作的一個(gè)研究方向。
本文主要是基十像素域的分布式視頻編碼框架上對(duì)分布式視頻編碼進(jìn)研究的,下一步我們可以研究應(yīng)用十基十像素域的分布式視頻編碼與PRISM視頻編碼下相應(yīng)的解決方案。
6、參考文獻(xiàn)
[1] Baoguo Du and Hong Shen, A Novel Reconstruction Approach for Pixel-Domain Distributed Video Coding.(Accepted by ICFCC 2010).[2] Wang H S, Cheung N M and Ortega A.2006.A framework for adaptive scalable video coding using Wvner-Ziv techniques[ J ] EURASIP Journal on Applied Signal Processing, [3] Xu Q and Xiong Z.2006.Layered Wyner-Ziv video coding [J].IEEE Transactions on ImageProcessing, 15(12): 3791-3803.[4] Zamir R.1996.The rate loss in the Wvner-Ziv problem }J}.IEEE Transactions on InformationTheory, 42(6): 2073-2084.[5] 杜保國 沈鴻 對(duì)分布式視頻編碼若干關(guān)鍵技術(shù)的研究 2010.[6] 干宗良 朱秀昌分布式視頻編碼技術(shù)的研究現(xiàn)狀及其展望 2007.[7] 房勝
鐘玉琢.分布式視頻編解碼技術(shù)的研究進(jìn)展2005.[8]張前進(jìn),郭雷.分布式視頻編碼關(guān)鍵技術(shù)及研究進(jìn)展,2007.
第二篇:分布式視頻編碼演講稿
參考《分布式視頻編碼-答辯.ppt》
分布式視頻編碼演講稿
1.各位老師好,我畢業(yè)論文的題目是,分布式視頻編碼中WZ幀編碼技術(shù)研究。分布式視頻編碼是一種新興的編碼技術(shù),它和傳統(tǒng)編碼技術(shù)不同,傳統(tǒng)的視頻編碼技術(shù)基本都是,編碼端 比較復(fù)雜,解碼端比較簡單。而分布式編碼的編碼端比較簡單,解碼端則比較復(fù)雜。2.為了達(dá)到這個(gè)目的,學(xué)術(shù)界提出了很多實(shí)現(xiàn)方案,在這些方案之中,最為著名的,是斯坦福大學(xué)研究小組提出的分布式編碼方案。就像圖中所示,整個(gè)視頻序列被劃分為關(guān)鍵幀和WZ幀,它們使用兩個(gè)獨(dú)立的系統(tǒng)進(jìn)行編碼。關(guān)鍵幀使用傳統(tǒng)的幀內(nèi)編碼方法傳輸,它主要負(fù)責(zé)生成高質(zhì)量的邊信息,邊信息是分布式視頻編碼里的新概念,它實(shí)際上就是,需要解碼的WZ幀的估計(jì)信息。
比如,像上面這幅圖中所示,第一幀和第四幀為關(guān)鍵幀,中間的第二幀和第三幀為WZ幀。關(guān)鍵幀首先傳輸?shù)浇獯a端,也就是第一幀和第四幀,然后兩個(gè)關(guān)鍵幀使用某種算法生成第二幀和第三幀的估計(jì)數(shù)據(jù),這個(gè)估計(jì)數(shù)據(jù)就可以被稱為邊信息。
再來看一下WZ幀的傳輸,它的處理比較復(fù)雜,因?yàn)閃Z幀的編解碼算法決定了整個(gè)系統(tǒng)的壓縮效率和傳輸質(zhì)量。
WZ幀首先要進(jìn)行DCT變換,然后對(duì)DCT系數(shù)做量化,最后進(jìn)行信道編解碼,信道碼可以使用turbo碼或者是LDPCA碼,LDPCA碼的效果較好。和傳統(tǒng)的信道編解碼不同,分布式編碼的編碼端只需要將編碼后的校驗(yàn)位,傳輸?shù)浇獯a端就可以了。然后,解碼端利用自己估計(jì)好的邊信息,以及傳輸獲得的校驗(yàn)位就可以進(jìn)行糾錯(cuò)解碼了。這個(gè)WZ幀的傳輸系統(tǒng)就是我畢業(yè)論文的研究內(nèi)容了。3.在這個(gè)方案中,我們還可以看到,為了能夠更好的去除圖像的空間冗余,使用的是DCT變換。在傳統(tǒng)編碼領(lǐng)域,我們知道,除了DCT變換,還有另外一種選擇,就是小波變換。下面這幅圖就是小波變換的分布式編碼架構(gòu),從圖中可以看出,兩種方案不同的地方只是,一個(gè)使用DCT,一個(gè)使用小波。從前人的研究成果來看,這兩種主流架構(gòu),在碼率壓縮方面都比較差,而且它們都不適應(yīng)傳輸帶寬不穩(wěn)定的環(huán)境。4.為了解決這些問題,我提出了兩種方法。一種是高頻填充方法,它在一定程度上解決了碼率的問題。另外一種是分級(jí)編碼的思想,它可以讓系統(tǒng)工作在不穩(wěn)定的帶寬環(huán)境中。那么,我的研究內(nèi)容也包括兩塊,一塊是將這兩種方法應(yīng)用在,基于DCT的WZ幀編碼系統(tǒng)中,另一塊是,將它們應(yīng)用在基于小波的WZ幀編碼系統(tǒng)中。5.首先來介紹一下高頻填充方法,在基于DCT變換的分布式編碼系統(tǒng)中的應(yīng)用。DCT變換之后,整幅圖像會(huì)被劃分為高低頻信息,其中LL區(qū)為低頻區(qū),LH、HL區(qū)為高頻區(qū),HH為甚高頻區(qū)。圖中 左邊為待解碼的WZ幀的高低頻信息,右邊是邊信息的高低頻信息,剛才已經(jīng)說過,邊信息實(shí)際上就是解碼端為WZ幀做的估計(jì)。高頻填充方法就是指用邊信息的高頻區(qū)來填充WZ幀的高頻區(qū)。具體來說,就是用邊信息的HH、LH、HL區(qū)來填充WZ幀相應(yīng)的高頻區(qū)。
我們可以假設(shè)一下,如果這種方法可行的話,系統(tǒng)的碼率就會(huì)降低到原來碼率的1/4,因?yàn)?,這個(gè)時(shí)候需要傳輸?shù)闹皇荓L低頻區(qū)。6.下面來證明一下這種方法的可行性。表3-1和表3-2是foreman圖像和coastguard圖像的,DCT變換系數(shù)的統(tǒng)計(jì)特性。包括高低頻系數(shù)的均值,方差和能量。foreman圖像運(yùn)動(dòng)較為緩慢,coastguard圖像運(yùn)動(dòng)較為劇烈。從表中可以看出,圖形的低頻信息包含了圖像90%的能量,高頻信息含有的能量非常低。從人眼的角度來說,低頻信息也遠(yuǎn)比高頻信息要重要。另外,還可以看出,高頻信息的平均值非常接近于零。7.根據(jù)這些分析,我提出了四種不同的填充方法。HH填充邊信息HH填充零值 HH/HL/LH填充邊信息HH/HL/LH填充零值
8.然后我對(duì)這四種填充方法進(jìn)行了對(duì)比,在對(duì)比他們的效果之前,我要說明一下,我做實(shí)驗(yàn)使用的邊信息生成的方法是,關(guān)鍵幀復(fù)制法,這種方法就是將WZ幀的前一個(gè)關(guān)鍵幀作為邊信息,就像圖中,如果要解碼第二幀,那么就將第一幀關(guān)鍵幀作為邊信息。還有一點(diǎn)需要說明一下,人眼可以接受的解碼質(zhì)量必須在30dB以上,因?yàn)樵谶@種情況下,人眼比較難分辨出兩幅圖像的差距。9.下面來看一下foreman圖像的填充結(jié)果。我們可以得出結(jié)論,對(duì)于這種運(yùn)動(dòng)比較緩慢的圖像,四種填充方法都是可以接受的,因?yàn)樗鼈兌汲^了30dB。另外,對(duì)比一下碼率就知道,最好的填充方法是,HH/HL/LH填充邊信息,它的碼率是1/4。10.再來看一下,coastguard圖像的填充結(jié)果。只有兩種方法超過了30dB,HH填充零值或者邊信息。而且這兩種方法的填充效果幾乎一樣,碼率也一樣。所以,這兩種方法都行。11.為了能夠說明這種方法的可行性,我又做了幾組視頻。前三個(gè)視頻屬于那種運(yùn)動(dòng)比較緩慢的,所以它們的填充方法,和foreman類似,最后那個(gè)bus圖像,它的運(yùn)動(dòng)比較劇烈,所以 就用coastguard圖像的填充方法。從它們的實(shí)驗(yàn)結(jié)果上來看,效果還是可以的。12.剛才已經(jīng)把高頻填充方法介紹完了,下面來介紹一下分級(jí)編碼。分級(jí)編碼一般會(huì)根據(jù)間隔的度來劃分,粗間隔的分級(jí)編碼和精細(xì)間隔的分級(jí)編碼,我在這里使用的精細(xì)間隔的分級(jí)編碼。然后我用高頻填充方法和分級(jí)編碼方法構(gòu)造了,新的WZ幀傳輸架構(gòu)。就像圖中所示。編碼端按照從低頻到高頻的順序,依次向解碼端傳輸信息,傳輸?shù)揭欢ǔ潭戎?,就不在傳輸了,然后解碼端就利用邊信息或者零值直接填充剩下的部分。需要說明一下,為了能夠體現(xiàn)出我的實(shí)驗(yàn)成果,所以在邊信息生成算法上,我使用了最簡單的關(guān)鍵幀復(fù)制法。13.來看一下實(shí)驗(yàn)結(jié)果。橫軸是碼率,縱軸是圖像的解碼質(zhì)量。左邊是foreman的實(shí)驗(yàn)結(jié)果,右邊是coastguard的實(shí)驗(yàn)結(jié)果。兩幅圖像的實(shí)驗(yàn)結(jié)果基本類似。從圖中可以看出改進(jìn)的架構(gòu)在解碼效果上基本相當(dāng)于H.263+ 幀內(nèi)解碼的水平。低于H.264 幀內(nèi)解碼的水平。14.這是在200kbps信道帶寬的情況下,圖像的解碼質(zhì)量。foreman的解碼質(zhì)量要更好一些。15.下面來介紹一下,基于小波的WZ幀編碼架構(gòu)。我們知道,DCT變換易于產(chǎn)生塊效應(yīng),而小波變換就沒有這樣的問題。從圖中也可以看出來?;谛〔ǖ腤Z幀編碼架構(gòu)和基于DCT變換的架構(gòu)基本類似。16.那么我也用了同樣的方法來改進(jìn)這個(gè)架構(gòu)。高頻填充方法和分級(jí)編碼思想。簡化小波計(jì)算方法的計(jì)算效率很高,比較適合應(yīng)用于WZ幀編碼。WZ幀在經(jīng)過小波運(yùn)算之后,也會(huì)形成類似的高低頻系數(shù)。其中,LLL和LLH可以被視為低頻信息,類似于DCT變換后的LL區(qū)。H2和LH可以被視為高頻區(qū),類似于DCT變換后的LH和HL區(qū)。H區(qū)是甚高頻區(qū),類似于這里的HH區(qū)。17.和基于DCT的架構(gòu)一樣,填充方法有四種,H填充邊信息H填充零值 H/H2/LH填充邊信息 H/H2/LH填充零值
18.這是foreman圖像的填充效果。從這個(gè)圖中可以看出,效果最好的還是H2/LH/H填充零值,此時(shí),碼率只有1/8,圖像的解碼質(zhì)量大于在32dB左右。20.這是coastguard的填充效果。這個(gè)實(shí)驗(yàn)效果,與之前所做的所有實(shí)驗(yàn)都不一樣,之前的實(shí)驗(yàn),都是填充邊信息比填充零值要好,而這里,出現(xiàn)了,高頻的H區(qū)填充零值比填充邊信息更好。高頻的H2區(qū)和LH區(qū)則是填充邊信息比零值更好的情況。我認(rèn)為出現(xiàn)這種情況的原因是:coastguard圖像變化太快,使得邊信息的H高頻區(qū)與WZ幀的H高頻區(qū)之間的相關(guān)性較小。于其填充邊信息,不如什么都不填。21.所以,接下來我又做了一個(gè)實(shí)驗(yàn),引入一種混合的填充方法。H填充零+H2/LH填充邊信息,然后與之前的方法做了對(duì)比,從實(shí)驗(yàn)結(jié)果來看,這種方法的填充效果最好。圖像的解碼質(zhì)量大約在31dB左右,碼率只有1/8。22.討論完高頻填充方法,再來看一下,分級(jí)編碼。這個(gè)比較簡單,和剛才所說的基于DCT的架構(gòu)一樣使用就可以了。當(dāng)信道傳輸能力有限時(shí),就少傳一些高頻信息,然后在解碼端使用零值或者邊信息直接填充。新的架構(gòu)就像圖中所示。與基于DCT的編碼架構(gòu)基本一致。23.最后來看一下,新架構(gòu)的實(shí)驗(yàn)效果??偟膩碚f,改進(jìn)的基于小波的WZ幀編碼架構(gòu),它的解碼效果大致相當(dāng)于H.264幀內(nèi)編碼的水平。他要比之前介紹的基于DCT的改進(jìn)架構(gòu)要更好。24.這是在200kbps信道帶寬的情況下,圖像的解碼質(zhì)量。foreman的解碼質(zhì)量要更好一些。25.總結(jié)一下論文的成果,通過我的改進(jìn),基于DCT的WZ幀編碼方案在解碼質(zhì)量上大致相當(dāng)于H.263+幀內(nèi)編碼的水平。而基于小波的WZ幀編碼方案,在解碼質(zhì)量上基本可以達(dá)到H.264幀內(nèi)編碼的水平。
第三篇:體育視頻的內(nèi)容標(biāo)注和解析技術(shù)研究
一,開展本課題研究的意義
近年來,數(shù)字視頻的應(yīng)用日趨廣泛.諸如視頻點(diǎn)播,數(shù)字電視,數(shù)字圖書館,視頻會(huì)議,遠(yuǎn)程教育等等,已經(jīng)為越來越多的人所接受和熟悉.面對(duì)大量涌現(xiàn)的視頻數(shù)據(jù),如何找到所需的視頻信息就成為一個(gè)急需解決的問題.簡單的視頻名查詢和類似錄像機(jī)的播放功能已不能滿足人們的需要.正如一本書通常會(huì)有目錄和索引幫助人們迅速瀏覽和查詢內(nèi)容,一部視頻同樣需要有效的目錄和索引.傳統(tǒng)的方法需要由人對(duì)視頻內(nèi)容進(jìn)行標(biāo)注,十分費(fèi)時(shí)費(fèi)力.尤其是當(dāng)視頻資源的數(shù)量達(dá)到海量級(jí),或是處理的速度要求接近實(shí)時(shí)的時(shí)候,完全采用人工的方法都會(huì)遇到難以克服的困難.為了解決這一問題,九十年代以來,出現(xiàn)了基于內(nèi)容的視頻分析和檢索[1][2][3].其核心就是通過對(duì)視頻內(nèi)容進(jìn)行計(jì)算機(jī)分析理解,建立結(jié)構(gòu)和語義索引,以方便用戶檢索.巨大的商業(yè)前景和重要的學(xué)術(shù)價(jià)值,吸引了來自于業(yè)界和學(xué)術(shù)界不同領(lǐng)域的研究人員在這一問題上開展研究.一些原型系統(tǒng)先后被提出,主要有ibm的qbic/cuevideo[4][5],virage公司的video engine[6],卡內(nèi)基梅隆大學(xué)的informedia[7],哥倫比亞大學(xué)的videoq[8]等.這些努力最終促成了國際標(biāo)準(zhǔn)——mpeg-7(多媒體內(nèi)容描述接口)的誕生.但是隨著問題的深入,研究人員面臨了更大的障礙:視覺/聽覺內(nèi)容的機(jī)器理解,即難以建立底層特征與高層語義的聯(lián)系.同樣的難題困擾了人工智能領(lǐng)域多年.一般認(rèn)為,尋找通用的解決方法是異常艱難的.因此,一些研究轉(zhuǎn)而專注于解決特定領(lǐng)域的應(yīng)用問題,如新聞,電影等.在這些特定領(lǐng)域,結(jié)合相應(yīng)的領(lǐng)域知識(shí),是可能將底層特征與高層語義建立某種聯(lián)系的.體育視頻,即體育比賽的電視轉(zhuǎn)播,作為一個(gè)重要的應(yīng)用領(lǐng)域,一直備受關(guān)注.體育比賽一般很漫長,但對(duì)于大多數(shù)觀眾來說,真正關(guān)心并有可能反復(fù)觀看的只是其中的一小部分.例如一場(chǎng)跳水比賽常常需要持續(xù)幾個(gè)小時(shí),而其中的精彩部分——運(yùn)動(dòng)員從起跳到入水的過程卻只有短短幾分鐘.人們需要一種方便快捷的手段來訪問體育視頻的內(nèi)容.與其他視頻相比,體育視頻具有自己的特點(diǎn).首先,體育視頻中存在一些領(lǐng)域相關(guān)的語義事件,如跳水比賽中運(yùn)動(dòng)員的跳水,足球比賽中的射門等.這些語義事件往往是視頻中最有價(jià)值的部分,需要進(jìn)行標(biāo)注以便于檢索.其次,體育比賽一般有較強(qiáng)的結(jié)構(gòu)性,如跳水比賽由若干輪組成,每輪又由若干選手組成等.為了便于對(duì)視頻內(nèi)容的瀏覽,原始的視頻數(shù)據(jù)應(yīng)按這些結(jié)構(gòu)進(jìn)行解析并組織成層次目錄.本課題的目標(biāo)就是研究針對(duì)體育視頻內(nèi)容的語義標(biāo)注和結(jié)構(gòu)解析技術(shù).盡管限于當(dāng)前的技術(shù)水平,完全自動(dòng)的,通用的視頻內(nèi)容理解是不太可能的,但是本課題的研究將證明部分的解決是有可能的和有價(jià)值的,此外我們的研究也將為最終的全面解決奠定基礎(chǔ).除了學(xué)術(shù)上的意義,本課題的研究還可以有以下一些直接的應(yīng)用:
1,視頻資料庫:適用于各類體育專業(yè)人士或愛好者對(duì)收集的體育比賽視頻資料進(jìn)行查詢,瀏覽和管理.目前,我們已申請(qǐng)到國家體育總局的科研項(xiàng)目——跳水訓(xùn)練圖像分析軟件系統(tǒng)研制.通過對(duì)跳水比賽視頻的內(nèi)容標(biāo)注與解析,能夠方便快捷的實(shí)現(xiàn)一個(gè)典型動(dòng)作的視頻數(shù)據(jù)庫.2,web多媒體發(fā)布:適用于新聞或者體育網(wǎng)站在web上及時(shí)發(fā)布體育多媒體信息.今天,已經(jīng)有越來越多人的習(xí)慣于從網(wǎng)上獲取最新的資訊.基于我們的技術(shù),可以在第一時(shí)間采編和發(fā)布綜合圖文和視音頻在內(nèi)的體育多媒體信息.3,個(gè)人移動(dòng)業(yè)務(wù):適用于無線服務(wù)提供商為個(gè)人提供定制的多媒體消息服務(wù)(multimedia message service,簡稱mms).我們的內(nèi)容標(biāo)注和解析技術(shù),可以為冗長的體育視頻生成摘要,從而可以根據(jù)用戶的個(gè)人喜好和終端能力,向移動(dòng)設(shè)備發(fā)送體育多媒體消息.二,國內(nèi)外研究現(xiàn)狀分析
國際上對(duì)于體育視頻的研究是從90年代中期開始的,屬于視頻檢索領(lǐng)域的一個(gè)子課題.與新聞視頻領(lǐng)域取得的成功相比[9][10][11],體育視頻的研究相對(duì)較少也更為困難.這主要是因?yàn)樾侣勔曨l有一個(gè)基本一致的時(shí)域結(jié)構(gòu)和場(chǎng)景語義,即先是播音員鏡頭,然后是新聞報(bào)道,最后再回到播音員鏡頭進(jìn)行下面的新聞報(bào)道,而對(duì)于體育視頻則不存在這樣統(tǒng)一的結(jié)構(gòu)和語義.目前體育視頻的研究尚處于初期探索階段,對(duì)于其過程和方法還沒有統(tǒng)一的結(jié)論,也還沒有可以投入實(shí)用的系統(tǒng).1,鏡頭檢測(cè)
通常在對(duì)體育視頻進(jìn)行分析前,需要將其分割成鏡頭.所謂鏡頭,是指攝像機(jī)不間斷拍攝的一組幀序列,它常被看成一部視頻的最小結(jié)構(gòu)單元.為了將鏡頭分割出來,需要進(jìn)行鏡頭邊界檢測(cè).鏡頭與鏡頭之間的邊界有兩種類型:突變和漸變.突變時(shí),鏡頭直接切換到下一個(gè);漸變時(shí),從一個(gè)鏡頭到下一個(gè)鏡頭會(huì)有一個(gè)持續(xù)多幀的變化過程,常見的主要有淡出淡入(fade out and fade in),溶解(dissolve),擦變(wipe)等.淡出淡入是指視頻幀逐漸隱去直到完全黑屏,再逐漸顯現(xiàn)后一鏡頭的幀圖像.溶解是指在前一鏡頭幀圖像逐漸模糊的同時(shí),后一鏡頭的幀逐漸增強(qiáng),并且產(chǎn)生前后幀圖像的重疊.擦變表現(xiàn)為后一鏡頭幀圖像的區(qū)域逐漸變大把前一鏡頭的圖像擦掉.鏡頭檢測(cè)的關(guān)鍵問題是如何區(qū)分鏡頭之間的切換和因?yàn)閿z像機(jī)或物體運(yùn)動(dòng)造成的鏡頭內(nèi)變化.由于這個(gè)原因,漸變比突變更難以檢測(cè).早期的工作主要在突變檢測(cè),近來更多的研究集中到對(duì)漸變的分析.鏡頭檢測(cè)的方法可以分為兩類:非壓縮域的和壓縮域的.在[12][13]中,對(duì)各種非壓縮域的鏡頭檢測(cè)算法進(jìn)行了實(shí)驗(yàn)評(píng)價(jià).與非壓縮域的方法相比,基于壓縮域的方法不需要對(duì)視頻編碼流進(jìn)行解碼,而是直接使用如dct系數(shù),運(yùn)動(dòng)矢量,宏塊(macroblock)信息等壓縮域特征進(jìn)行分析,從而提高了處理速度[14][15][16][17].今天大量的視頻數(shù)據(jù)是以壓縮格式(如mpeg)存儲(chǔ)的,因此基于壓縮域的方法往往具有更大的實(shí)用價(jià)值.2,語義標(biāo)注
所謂語義標(biāo)注,是指對(duì)體育視頻中的語義事件進(jìn)行檢測(cè)和標(biāo)注,其實(shí)質(zhì)就是依據(jù)事先定義好的類別對(duì)視頻片段進(jìn)行識(shí)別.當(dāng)前,國內(nèi)外對(duì)體育視頻研究實(shí)際上主要集中在這個(gè)方面,下面介紹一下相關(guān)工作.y.gong等首先提出了對(duì)足球比賽視頻的分析[18].他們結(jié)合足球比賽的領(lǐng)域知識(shí),通過場(chǎng)地白線識(shí)別,攝像機(jī)運(yùn)動(dòng)檢測(cè),足球和運(yùn)動(dòng)員檢測(cè)等分析,對(duì)視頻內(nèi)容進(jìn)行推斷,包括處在球場(chǎng)什么位置,射門,角球等.例如,如果場(chǎng)景接近球門區(qū)域而且足球有一個(gè)向球門的運(yùn)動(dòng),則可以推斷這是一個(gè)射門.實(shí)驗(yàn)結(jié)果表明,系統(tǒng)對(duì)于球場(chǎng)位置的識(shí)別較為準(zhǔn)確,達(dá)到90%,但是射門和角球的識(shí)別率只有53%,這主要是因?yàn)楦咚龠\(yùn)動(dòng)和遮擋關(guān)系,使得足球的檢測(cè)較為困難.哥倫比亞大學(xué)的peng xu等觀察到足球比賽可以劃分為兩種狀態(tài):進(jìn)行和暫停(如因?yàn)榍蛟诮缤饣虿门袝憾ū荣?.他們開發(fā)了一個(gè)能夠檢測(cè)視頻中的足球比賽是在進(jìn)行還是暫停的系統(tǒng)[19].該系統(tǒng)對(duì)足球視頻分析分為兩步.首先,根據(jù)顏色分析得出每一幀中的草地顏色比率,使用這個(gè)特征將幀標(biāo)注為三種:全景(globe view),近景(zoom-in view)和特寫(close-up view).在檢測(cè)的時(shí)候,算法可以對(duì)草色和分類決策進(jìn)行學(xué)習(xí)和自動(dòng)調(diào)整.接著,在對(duì)視頻幀進(jìn)行上述分類標(biāo)記后,根據(jù)經(jīng)驗(yàn)總結(jié)的規(guī)則(如全景一般是比賽進(jìn)行,特寫一般是比賽中斷等)判斷比賽是在進(jìn)行還是暫停了.實(shí)驗(yàn)使用了四段來自不同足球比賽的五分鐘片斷,檢測(cè)準(zhǔn)確率最好達(dá)到86.5%,最壞只有67.3%.在另一篇文章里,他們使用了基于隱馬爾科夫模型(hmm)的統(tǒng)計(jì)方法[20].根據(jù)足球視頻的特點(diǎn),選擇主色比率(dominant-color ratio)和運(yùn)動(dòng)強(qiáng)度(motion intensity)為提取特征.他們?yōu)檫M(jìn)行和暫停分別建立了各自的隱馬爾科夫模型組,依據(jù)最大的可能性對(duì)足球視頻進(jìn)行標(biāo)注.與基于規(guī)則的方法相比,這種方法不需要去直接建立復(fù)雜的分類規(guī)則和確定閾值,而是通過訓(xùn)練樣本自動(dòng)學(xué)習(xí).實(shí)驗(yàn)結(jié)果表明該方法較為有效而且表現(xiàn)穩(wěn)定,對(duì)不同的測(cè)試集準(zhǔn)確率都在80%以上,平均準(zhǔn)確率達(dá)到83.5%.清華大學(xué)的ming luo等也以足球?yàn)槔岢隽艘粋€(gè)體育視頻分析系統(tǒng)[21].他們的系統(tǒng)根據(jù)關(guān)鍵幀中場(chǎng)地顏色的比率和物體的大小,將鏡頭分類為遠(yuǎn)鏡頭和近鏡頭.此外,對(duì)于遠(yuǎn)鏡頭,他們觀察到在射門或長傳時(shí),快速的攝像機(jī)運(yùn)動(dòng)通常會(huì)使圖像模糊,從而提出根據(jù)幀圖像的模糊度(blur extent)來檢測(cè)足球比賽中的這些事件.實(shí)驗(yàn)結(jié)果表明算法對(duì)射門和長傳事件檢測(cè)的查準(zhǔn)率為89.3%,查全率為97.2%.drew d.saur等人使用直接基于mpeg壓縮域的特征,實(shí)現(xiàn)了對(duì)籃球視頻內(nèi)容的自動(dòng)分析和標(biāo)注[22].算法首先進(jìn)行基于壓縮域dc圖的鏡頭分割,然后對(duì)每個(gè)p幀統(tǒng)計(jì)其中運(yùn)動(dòng)矢量的大小,考慮特寫(close-up)鏡頭比廣角(wide-angle)鏡頭一般變化更激烈,將視頻劃分為廣角鏡頭和特寫鏡頭.對(duì)于廣角鏡頭,進(jìn)一步分析其中的攝像機(jī)運(yùn)動(dòng),來標(biāo)注特定的視頻內(nèi)容,如搶斷,快攻,可能的投籃等.微軟研究院的y.rui等人提出一種依據(jù)計(jì)算量較小的音頻特征來檢測(cè)棒球比賽中精彩事件的方法,適用于計(jì)算能力有限的環(huán)境[23].他們的算法首先是基于機(jī)器學(xué)習(xí)的解說員激動(dòng)語音識(shí)別和棒球擊打聲檢測(cè),然后將這兩者進(jìn)行概率混合來推斷最終的精彩片斷.與人工標(biāo)注的精彩片斷進(jìn)行對(duì)比,實(shí)驗(yàn)表明他們的算法能夠達(dá)到75%的準(zhǔn)確率.同樣對(duì)于棒球,dongqing zhang等通過對(duì)比賽中比分和狀態(tài)的字幕顯示進(jìn)行檢測(cè)和識(shí)別來分析語義事件的發(fā)生[24][25],如觸壘得分和最后一投(投手被罰出局).他們使用視頻文本檢測(cè)和識(shí)別技術(shù)分析比賽中的字幕信息.識(shí)別結(jié)果再進(jìn)一步利用領(lǐng)域知識(shí)模型來提高準(zhǔn)確度.b.li和m.i.sezan對(duì)美式橄欖球比賽的電視轉(zhuǎn)播進(jìn)行了分析[26].為了濾除比賽視頻中死球的時(shí)間,生成更為緊湊的摘要,他們將比賽片斷定義為表現(xiàn)球在運(yùn)動(dòng)的視頻片斷,并提出了兩種檢測(cè)方法:確定的基于規(guī)則方法和概率的基于統(tǒng)計(jì)的方法.基于規(guī)則的方法,分析了場(chǎng)地顏色,場(chǎng)地標(biāo)線,攝像機(jī)運(yùn)動(dòng)和運(yùn)動(dòng)員衣服顏色等,然后根據(jù)經(jīng)驗(yàn)總結(jié)的規(guī)則,對(duì)視頻內(nèi)容進(jìn)行判斷.基于統(tǒng)計(jì)的方法,使用hmm推斷視頻中的比賽片斷,實(shí)驗(yàn)表明這種方法也是很有效的.兩者相比,前者易于實(shí)現(xiàn)和計(jì)算,但是需要制定推導(dǎo)規(guī)則,而后者則具有一定的學(xué)習(xí)能力避免了直接設(shè)定閾值的困難.在體育比賽轉(zhuǎn)播的時(shí)候,通常會(huì)在精彩事件之后及時(shí)穿插重放慢鏡頭,這方面也吸引了許多研究者的注意[27][28][29][30].通過檢測(cè)重放事件,以及發(fā)現(xiàn)之前視頻中相同內(nèi)容的正常鏡頭,就可以為冗長的體育視頻生成一個(gè)令人滿意的精彩索引.di.zhang針對(duì)體育視頻的分析,試圖提出一個(gè)一般性的框架[31].為了兼顧效率和準(zhǔn)確性,他認(rèn)為事件的檢測(cè)可以分為兩步進(jìn)行.即基于壓縮域分析的初選階段,和基于對(duì)象層次的驗(yàn)證階段.第一步,選擇一些壓縮域的特征,如顏色和運(yùn)動(dòng)等,通過統(tǒng)計(jì)學(xué)習(xí)的方法實(shí)現(xiàn)對(duì)事件的初選.第二步,在候選場(chǎng)景中進(jìn)行對(duì)象分割,根據(jù)總結(jié)的領(lǐng)域規(guī)則進(jìn)行判定,如對(duì)于網(wǎng)球比賽的發(fā)球鏡頭,圖像中應(yīng)有大塊場(chǎng)地區(qū)域,在下方有小的運(yùn)動(dòng)員對(duì)象.j.assfalg等認(rèn)為體育視頻的鏡頭一般可以分為三類:場(chǎng)地,運(yùn)動(dòng)員和觀眾[32].場(chǎng)地鏡頭關(guān)注體育運(yùn)動(dòng)本身,表現(xiàn)為大塊一致的顏色區(qū)域和場(chǎng)地線條等.在運(yùn)動(dòng)員鏡頭中,運(yùn)動(dòng)員作為前景中的物體出現(xiàn),而背景則變得模糊.在觀眾鏡頭中,個(gè)體常常是不清楚的,而觀眾整體可以看作一種紋理.基于這些認(rèn)識(shí),他們通過邊緣提取,圖形分割和顏色
分析等,對(duì)三類鏡頭實(shí)現(xiàn)了有效的識(shí)別.n.babaguchi綜合了文本和視覺特征來對(duì)體育視頻中的事件進(jìn)行檢測(cè)[33].文本信息來自于電視信號(hào)中的隱藏字幕(closed caption).首先,通過搜尋文本中事件相關(guān)的關(guān)鍵字,估計(jì)事件發(fā)生的可能時(shí)間段.然后,再對(duì)時(shí)間段內(nèi)的鏡頭進(jìn)行視覺特征分析,計(jì)算與已有的事件例子的匹配度,檢測(cè)出事件相關(guān)的鏡頭.3,結(jié)構(gòu)解析一部視頻中常常包含了成百上千個(gè)鏡頭,特別是在體育視頻中.這主要是因?yàn)轶w育比賽電視轉(zhuǎn)播的時(shí)候,會(huì)有多個(gè)攝像機(jī)從不同視角對(duì)比賽進(jìn)行拍攝,它們之間的頻繁切換就構(gòu)成了鏡頭.為了更好的訪問視頻內(nèi)容,除了語義標(biāo)注,還需要對(duì)鏡頭進(jìn)行有效的組織.結(jié)構(gòu)解析的任務(wù)就是通過鏡頭組織為視頻數(shù)據(jù)流建立類似書目的分層瀏覽結(jié)構(gòu).以[34][35]為代表,一些研究人員提出了通用的視頻結(jié)構(gòu)分析方法.他們用時(shí)間約束的聚類法把視覺上相似和時(shí)間上相鄰的鏡頭聚類在一起,再在聚類組的基礎(chǔ)上構(gòu)造場(chǎng)景轉(zhuǎn)換圖(scene transition graph)或高層場(chǎng)景,進(jìn)而形成層次化的瀏覽結(jié)構(gòu).但是這種統(tǒng)一的結(jié)構(gòu)組織方式(如[34]中將視頻分成幀/鏡頭/組/場(chǎng)景四層)并不適合針對(duì)體育視頻的分析,這主要是因?yàn)轶w育比賽都有自己特定結(jié)構(gòu)(如圖1所示),對(duì)體育視頻的分析應(yīng)當(dāng)結(jié)合這種領(lǐng)域知識(shí).圖1 跳水比賽的樹狀結(jié)構(gòu)
4,總結(jié)
綜上對(duì)國內(nèi)外研究現(xiàn)狀的調(diào)查,我們有以下結(jié)論:
(1)應(yīng)當(dāng)結(jié)合領(lǐng)域知識(shí)進(jìn)行特征選擇.領(lǐng)域知識(shí)包括比賽相關(guān)和制作相關(guān).比賽相關(guān)的領(lǐng)域特征涉及特定的體育運(yùn)動(dòng),如足球比賽中的草色比率,籃球比賽中快攻時(shí)攝像機(jī)的運(yùn)動(dòng)等.制作相關(guān)的領(lǐng)域特征適用于大多數(shù)體育視頻的分析,主要來自對(duì)體育視頻制作的總結(jié),如精彩場(chǎng)面的重放,有關(guān)運(yùn)動(dòng)員和比分信息的字幕顯示等.綜合這兩類領(lǐng)域知識(shí),選擇合適的特征進(jìn)行分析是取得研究成功的基礎(chǔ).(2)多模式融合分析代表了新的研究趨勢(shì).除了視覺特征外,綜合體育視頻中所包含的音頻特征和文本信息,能夠有效提高視頻分析的準(zhǔn)確度.這也是近年來的研究熱點(diǎn).在體育視頻中,一個(gè)語義事件常常是一個(gè)多模式的表達(dá),如運(yùn)動(dòng)員的跳水事件既有視覺上的運(yùn)動(dòng)也有聽覺上的踏板聲和入水聲,只對(duì)其中一個(gè)模式進(jìn)行分析是不完整的.因此在對(duì)體育視頻進(jìn)行內(nèi)容分析時(shí),融合多模式尤為重要.(3)盡量考慮壓縮域的特征分析.一場(chǎng)體育比賽長達(dá)數(shù)個(gè)小時(shí),其視頻數(shù)據(jù)也非常龐大,因而提高處理速度是很有意義的,在某些要求實(shí)時(shí)應(yīng)用的場(chǎng)合也是必需的.直接基于壓縮域的分析,不需要完全解碼,可以顯著提高處理速度.[22][31]表明基于壓縮域的分析不僅能夠大幅度降低計(jì)算量,同時(shí)也能獲得較好的結(jié)果,或者作為進(jìn)一步處理的基礎(chǔ).(4)基于統(tǒng)計(jì)的事件檢測(cè)方法要優(yōu)于基于規(guī)則的方法.早期的研究多采用基于規(guī)則的方法.但是,體育視頻中的事件檢測(cè)常常需要綜合多種特征分析手段,需要適應(yīng)不同的場(chǎng)景.這些都增加了直接設(shè)定規(guī)則的難度.與之相比,統(tǒng)計(jì)算法易于混合多種特征同時(shí)又具備一定的學(xué)習(xí)能力,因而具有更大的實(shí)用價(jià)值.(1)自動(dòng)生成體育視頻的分層瀏覽目錄;
(2)實(shí)際應(yīng)用中視頻流可能不完整或存在標(biāo)注錯(cuò)誤,解析器應(yīng)具有良好的容錯(cuò)能力;
(3)對(duì)于大數(shù)據(jù)量的體育視頻,要求結(jié)構(gòu)解析的效率要高.四,擬采取的研究方法,技術(shù)路線及可行性分析
1,基于壓縮域的鏡頭分割算法
體育視頻中常見的漸變主要有溶解,擦變,特別是其中的一些擦變具有特技效果,如圖3所示.這些特定模式的擦變,通常出現(xiàn)在慢鏡重放的開始和結(jié)束,識(shí)別這種鏡頭邊界是十分有價(jià)值的.現(xiàn)有壓縮域算法主要對(duì)切變檢測(cè)比較成功,而對(duì)于漸變的研究不多.我們將綜合壓縮域的dct系數(shù),運(yùn)動(dòng)矢量以及宏塊信息等,研究一種有效的漸變檢測(cè)方法.圖3 體育視頻中特定模式的擦變
一般在進(jìn)行鏡頭邊界檢測(cè)的時(shí)候,首先從相鄰幀提取合適的特征,然后比較這些特征之間的差值,如果差值超過了事先設(shè)定的閾值,則認(rèn)為出現(xiàn)了鏡頭轉(zhuǎn)換.因此,選取合適的閾值是非常關(guān)鍵的.常用的方法包括單閾值法,多閾值法和局部閾值法.單閾值法使用一個(gè)全局閾值,方法簡單,但是對(duì)于漸變不能很好檢測(cè).多閾值法使用多個(gè)閾值進(jìn)行分級(jí)判定,如使用較大閾值檢測(cè)突變,使用較小閾值檢測(cè)漸變.局部閾值法根據(jù)局部范圍內(nèi)的變化情況自動(dòng)調(diào)整合適的鏡頭切分閾值,代表了新的研究趨勢(shì).目前,有關(guān)閾值選取的研究仍然是視頻處理中的一個(gè)難點(diǎn).我們將主要基于局部閾值法進(jìn)行研究.2,體育視頻中語義事件的檢測(cè)
我們將體育視頻中的語義事件分為三類:重放事件,狀態(tài)事件和目標(biāo)事件.重放事件是指體育比賽轉(zhuǎn)播中穿插播放的慢鏡重放片斷.重放事件反映了比賽中觀眾感興趣的精彩部分.狀態(tài)事件發(fā)生在比賽狀態(tài)發(fā)生變化的時(shí)候,如跳水比賽每一輪結(jié)束的評(píng)分,網(wǎng)球比賽中一局的開始鏡頭等.狀態(tài)事件的檢測(cè)對(duì)于視頻結(jié)構(gòu)的解析有非常重要的作用.目標(biāo)事件,如跳水比賽中運(yùn)動(dòng)員的跳水,足球比賽中的射門等,是指體育比賽中具有觀賞性的特定運(yùn)動(dòng),通常表現(xiàn)為物體及其之間的運(yùn)動(dòng)關(guān)系.對(duì)這三類事件,我們分別采用如下的技術(shù)路線:
(1)通過標(biāo)志性邊界檢測(cè)來識(shí)別重放事件
[1]中將重放分為三種類型:重復(fù)播放的同一鏡頭;慢動(dòng)作方式重放的同一鏡頭;同一場(chǎng)景但是由不同攝像機(jī)在不同視角拍攝的.直接從內(nèi)容上比較重放事件和先前視頻鏡頭的相似性來進(jìn)行分析,是很難識(shí)別準(zhǔn)確的,尤其對(duì)于最后一種重放.通過對(duì)體育比賽電視轉(zhuǎn)播的觀察,可以發(fā)現(xiàn)一般對(duì)于精彩片斷的重放都會(huì)以一個(gè)標(biāo)志性的鏡頭切換引入,再以類似的變化結(jié)束,如圖3所示.因此對(duì)于重放事件的檢測(cè),事實(shí)上可以歸結(jié)到對(duì)這種標(biāo)志性鏡頭邊界的檢測(cè),從而簡化問題.我們將主要研究這種方法.(2)利用視頻文本識(shí)別確定狀態(tài)事件
狀態(tài)事件是和體育比賽的狀態(tài)變化直接相關(guān)的,而通常在比賽狀態(tài)發(fā)生變化的時(shí)候,電視轉(zhuǎn)播會(huì)在視頻中加入相關(guān)字幕提示,如跳水比賽中在運(yùn)動(dòng)員入場(chǎng)的時(shí)候,會(huì)有文字說明運(yùn)動(dòng)員姓名和所要做的動(dòng)作;在一輪比賽結(jié)束的時(shí)候,會(huì)顯示該輪所有選手的得分情況.根據(jù)這個(gè)特性,我們提出通過視頻中文本檢測(cè)和識(shí)別的方法來檢測(cè)狀態(tài)事件.該方法包括兩個(gè)層次.首先,通過視頻文本的檢測(cè)[36][37][38][39][40]就可以初步確定狀態(tài)事件的出現(xiàn).然后,我們對(duì)檢測(cè)的文本進(jìn)行識(shí)別,通過關(guān)鍵字的匹配,識(shí)別狀態(tài)事件的類別.例如,運(yùn)動(dòng)員入場(chǎng)的字幕顯示中有關(guān)鍵字“round”(輪次),“rank”(排名),“dd”(難度),“total”(總分)等,通過匹配這些關(guān)鍵字,就可以判斷當(dāng)前鏡頭為運(yùn)動(dòng)員入場(chǎng)的狀態(tài)事件.(3)融合視音頻雙模式的目標(biāo)事件檢測(cè)
在目標(biāo)事件中,往往存在顯著的運(yùn)動(dòng)和音頻特征,如運(yùn)動(dòng)員的跳水事件既有視覺上的運(yùn)動(dòng)也有聽覺上的踏板聲和入水聲.融合視音頻的分析避免了單純使用視覺或聽覺特征不能完整描述語義事件的不足,可以有效提高識(shí)別精度.在進(jìn)行識(shí)別的時(shí)候,我們采用混合隱馬爾科夫模型和支持向量機(jī)的方法[41].支持向量機(jī)能夠在小樣本條件下,通過結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則,實(shí)現(xiàn)有效分類.但是支持向量機(jī)只是靜態(tài)分類機(jī),不能很好模擬時(shí)序過程.與之相反,隱馬爾科夫模型雖然能夠較好的處理隨機(jī)時(shí)序數(shù)據(jù)的識(shí)別,但是并不能保證訓(xùn)練好的模型能夠良好的分類未知數(shù)據(jù).這樣,將兩者混合起來使用,通過在隱馬爾科夫模型中引入靜態(tài)數(shù)據(jù)識(shí)別良好的支持向量機(jī),能對(duì)視頻流數(shù)據(jù)取得最佳的識(shí)別效果.3,語法制導(dǎo)
的結(jié)構(gòu)解析為了對(duì)輸入的體育視頻數(shù)據(jù)進(jìn)行結(jié)構(gòu)解析,首先我們需要對(duì)該類體育比賽的文法規(guī)則進(jìn)行描述.喬姆斯基(chomsky)把文法分成4種類型,即0型文法(或稱短語文法),1型文法(或稱上下文有關(guān)文法),2型文法(或稱上下文無關(guān)文法)和3型文法(或稱正則文法).型號(hào)越高所受約束越多,對(duì)語言的描述能力也就越弱.我們使用上下文無關(guān)文法對(duì)體育比賽的結(jié)構(gòu)進(jìn)行描述,主要是基于以下考慮:(1)上下文無關(guān)文法完全可以勝任對(duì)體育比賽樹狀結(jié)構(gòu)的描述;(2)上下文無關(guān)文法在自然語言理解,句法模式識(shí)別,編譯技術(shù)等領(lǐng)域有廣泛的應(yīng)用,技術(shù)比較成熟;(3)基于上下文無關(guān)文法的解析器不僅可以為視頻有效生成層次瀏覽樹,而且具有較強(qiáng)的錯(cuò)誤處理能力.其中終結(jié)符r,b,e,u分別表示一輪比賽的結(jié)束,選手比賽開始,選手比賽結(jié)束和一般鏡頭,非終結(jié)符和為結(jié)構(gòu)單元,分別代表每輪比賽和每個(gè)選手的比賽.對(duì)于語義標(biāo)注序列“buuuuuuuebuuuuuuuueeur”,使用文法分析器進(jìn)行解析得到它的層次結(jié)構(gòu)“[[buuuuuuue][buuuuuuuue]eur]”.其中序列最后“r”前面的“eu”為錯(cuò)誤標(biāo)示,可以用錯(cuò)誤恢復(fù)策略進(jìn)行處理(例如,在發(fā)現(xiàn)終結(jié)符不能匹配時(shí),彈出該終結(jié)符并發(fā)出警告).由于視頻序列在進(jìn)行基于統(tǒng)計(jì)的語義標(biāo)注時(shí),存在某種程度的不確定性.所以錯(cuò)誤處理應(yīng)當(dāng)結(jié)合語義標(biāo)注的確定度來進(jìn)行.如果出錯(cuò)標(biāo)注本身的確定度比較低,則可以認(rèn)為該標(biāo)注有錯(cuò);如果出錯(cuò)標(biāo)注的確定度比較高,則可以認(rèn)為錯(cuò)誤發(fā)生在它的前面.以上,我們通過基于壓縮域的鏡頭分割,語義事件的檢測(cè)和語法制導(dǎo)的結(jié)構(gòu)解析實(shí)現(xiàn)了體育視頻的內(nèi)容標(biāo)注和解析.雖然我們主要以跳水視頻為例進(jìn)行分析,但是其中的技術(shù)完全可以應(yīng)用到其他類似體育視頻的分析中,甚至一般視頻的處理中.我們的研究表明,盡管限于當(dāng)前的技術(shù)水平,完全自動(dòng)的,通用的視頻內(nèi)容理解是不太可能的,但是通過有效的人機(jī)交互和建立應(yīng)用相關(guān)的模型,新的技術(shù)將可以面對(duì)視頻信息大量涌現(xiàn)的挑戰(zhàn),給人們帶來更加豐富和方便的體驗(yàn).五,預(yù)期研究成果及創(chuàng)新之處
一個(gè)壓縮域鏡頭邊界檢測(cè)的有效算法
體育視頻中慢鏡重放的檢測(cè)方法
基于壓縮域的視頻文本檢測(cè)和分割
體育視頻中狀態(tài)事件的識(shí)別
視音頻融合的事件檢測(cè)
基于文法的體育視頻結(jié)構(gòu)解析
一個(gè)通用的體育視頻內(nèi)容分析框架及其系統(tǒng)實(shí)現(xiàn)
六,已有工作基礎(chǔ)
1,已有資源:
4.96g的跳水比賽視頻數(shù)據(jù),總長度約8小時(shí)20分鐘;
5.33g的足球比賽視頻數(shù)據(jù),總長度約9個(gè)小時(shí);
2.58g的其他體育視頻數(shù)據(jù),包括籃球,排球和網(wǎng)球等;
2,已進(jìn)行工作
一個(gè)基于內(nèi)容的智能視頻檢索系統(tǒng):ivideo
一種通過關(guān)鍵幀提取和組織來瀏覽視頻的方式:xplayer
可視化的視頻分析工具:medialab
綜合顏色特征和攝像機(jī)運(yùn)動(dòng)分析的鏡頭邊界檢測(cè)算法
基于標(biāo)志模板的重放鏡頭檢測(cè)算法
跳水比賽視頻中精彩片斷的自動(dòng)提取:ivideoanalyzer
基于壓縮域文本檢測(cè)的體育視頻結(jié)構(gòu)分析:sportsplayer
3,專利和文章
王扉,李錦濤,張勇東,林守勛,“跳水比賽視頻中精彩片斷的自動(dòng)提取”,計(jì)算機(jī)研究與發(fā)展,評(píng)審中.王扉,張勇東,李錦濤,林守勛,“在體育比賽視頻中檢測(cè)精彩片斷的方法”,(發(fā)明)專利號(hào)02156973.8,已受理.七,研究計(jì)劃及預(yù)期進(jìn)展
XX/01 – XX/04 基于文法的體育視頻結(jié)構(gòu)解析
XX/05 – XX/06 壓縮域的鏡頭邊界檢測(cè)算法
XX/07 – XX/10 體育視頻中的語義事件檢測(cè)
XX/11 – XX/12 跳水比賽的視頻分析和檢索系統(tǒng)
XX/01 – XX/04 技術(shù)改進(jìn),論文寫作
八,參考文獻(xiàn)
content-based video analysis and retrieval
[1] c.w.ngo, h.j.zhang, and t.c.pone, “recent advances in content based video analysis”, international journal of image and graphics, dec XX.[2] n.dimitrova, h.j.zhang, b.shahraray, i.sezan, t.huang, and a.zakhor, “applications of video-content analysis and retrieval”, ieee multimedia, vol.9, no.4, XX.[3] 莊越挺,潘云鶴,吳飛編著,網(wǎng)上多媒體信息分析與檢索,清華大學(xué)出版社,XX年.[4] m.flickner et al, “query by image and video content: the qbic system”, ieee computer, 28(9), 1995.[5] d.ponceleon, s.srinivasan, a.amir, d.petkovic, and d.diklic, “key to effective video retrieval: effective cataloging and browsing”, in proc.acm multimedia, 1998.[6] a.hampapur, a.gupta, b.horowitz, c-f.shu, c.fuller, j.bach, m.gorkani, and r.jain, “virage video engine”, spie storage and retrieval for images and video databases v, 1997.[7] h.d.wactlar, t.kanade, m.a.smith, and s.m.stevens, “intelligent access to digital video: informedia project”, ieee computer, vol.29, no.3, pp.46-52, may 1996.[8] s.-f.chang, w.chen, h.meng, h.sundaram, and d.zhong, “videoq: an automated content based video search system using visual cues”, in proc.acm multimedia, november 1997.
第四篇:基于3G網(wǎng)絡(luò)的移動(dòng)P2P視頻直播技術(shù)研究
基于3G網(wǎng)絡(luò)的移動(dòng)P2P視頻直播技術(shù)研究
引言
隨著 3G 網(wǎng)絡(luò)應(yīng)用環(huán)境的逐漸成熟和移動(dòng)終端的普及,移動(dòng)流媒體業(yè)務(wù)成為移動(dòng)增值業(yè)務(wù)發(fā)展的必然趨勢(shì)。它滿足了人們追求能夠更隨時(shí)、隨地、隨意的獲得多媒體信息的需求,權(quán)威機(jī)構(gòu)預(yù)測(cè)流媒體業(yè)務(wù)將是3G網(wǎng)絡(luò)上的主導(dǎo)業(yè)務(wù)。3G網(wǎng)絡(luò)的鋪設(shè)為移動(dòng)流媒體業(yè)務(wù)的開展提供了物理基礎(chǔ),但是有限的移動(dòng)網(wǎng)絡(luò)帶寬和快速增長的移動(dòng)流媒體業(yè)務(wù),使得傳統(tǒng)互聯(lián)網(wǎng)的C/S模式無法適應(yīng)移動(dòng)網(wǎng)絡(luò)的需求。而隨著移動(dòng)通信與計(jì)算機(jī)網(wǎng)絡(luò)的不斷融合,在互聯(lián)網(wǎng)領(lǐng)域飛速發(fā)展的P2P 技術(shù)進(jìn)入了人們的視野,如果把P2P 應(yīng)用在移動(dòng)通信領(lǐng)域,就能解決移動(dòng)流媒體在信息源上的瓶頸。本文在充分分析了P2P視頻直播技術(shù)和3G網(wǎng)絡(luò)的特點(diǎn)后,提出了一種面向3G 環(huán)境下移動(dòng)終端(如手機(jī)、PDA 等)的混合型移動(dòng)P2P 視頻直播服務(wù)模型。該模型適用于3G 網(wǎng)絡(luò)環(huán)境,它將視頻資源的發(fā)現(xiàn)和處理分開,從根本上減少移動(dòng)終端設(shè)備的計(jì)算負(fù)擔(dān)和中心服務(wù)器的負(fù)載,同時(shí)利用P2P 技術(shù)進(jìn)行數(shù)據(jù)分發(fā),提高資源利用率,減小網(wǎng)絡(luò)延遲,從而提高了移動(dòng)視頻直播業(yè)務(wù)的服務(wù)質(zhì)量。經(jīng)實(shí)際測(cè)試,證明了模型的實(shí)時(shí)性、有效性和穩(wěn)定性,同時(shí),40 也為未來移動(dòng)通信網(wǎng)絡(luò)下的其它移動(dòng)P2P 應(yīng)用、移動(dòng)增值業(yè)務(wù)的開發(fā)提供了參考和借鑒。
1.1 3G 3G是英文 3rd Generation 的縮寫,意為第三代移動(dòng)通信技術(shù),是指將無線通信與國際互聯(lián)網(wǎng)等多媒體通信結(jié)合的新一代移動(dòng)通信系統(tǒng),相對(duì)第一代模擬制式手機(jī)(1G)和第二代GSM、CDMA 等數(shù)字手機(jī)(2G),第三代手機(jī)(3G)能夠處理圖像、音樂、視頻流等多種媒體形式,提供包括網(wǎng)頁瀏覽、電話會(huì)議、電子商務(wù)等多種信息服務(wù)。隨著中國3G技術(shù)及市場(chǎng)的進(jìn)一步發(fā)展,亞洲必將成為全球3G 業(yè)務(wù)的中心,由3G業(yè)務(wù)所帶來的前所未有的通信革命以及由此帶來的拉丁美洲、非洲等地電信市場(chǎng)的飛速發(fā)展,必將給各大運(yùn)營商和移動(dòng)設(shè)備提供商帶來豐厚的利潤,而用戶也將享受更加便捷的各種3G增值業(yè)務(wù),3G將更加貼近用戶的生活需求。
1.2 P2P 視頻直播技術(shù)
P2P 視頻直播是目前互聯(lián)網(wǎng)最流行的一種網(wǎng)絡(luò)流媒體廣播方式,它利用P2P 的原理來建立播放網(wǎng)絡(luò),從而達(dá)到節(jié)省服務(wù)端帶寬消耗、減輕服務(wù)端處理壓力的目的。目前國內(nèi)外比較成功的P2P 視頻直播軟件主要有PPLive、PPStream、QQLive 和沸點(diǎn)等。PPLive是目前國內(nèi)知名度最高、用戶數(shù)最多、覆蓋面最廣的網(wǎng)絡(luò)視頻直播軟件。它采用的是比較前沿的P2P 技術(shù),有別于其他同類軟件,它的內(nèi)核采用了獨(dú)特的ALM 多播和內(nèi)聚算法技術(shù),有效地降低了視頻傳輸對(duì)運(yùn)營商主干網(wǎng)的沖擊,減少了出口帶寬流量,并能夠?qū)崿F(xiàn)用戶越多播放越流暢的特性,有效解決了當(dāng)前網(wǎng)絡(luò)視頻點(diǎn)播服務(wù)的帶寬和負(fù)載有限問題,使得整體服務(wù)質(zhì)量大大提高。同時(shí),在同類的網(wǎng)絡(luò)電視軟件中,PPLive 有效的解決了內(nèi)網(wǎng)穿透問題,開發(fā)出了目前最領(lǐng)先的“穿透內(nèi)網(wǎng)自動(dòng)打開UPnP功能”技術(shù),并解除WinXP對(duì)TCP 的連接數(shù)的限制,還有效的使得PPLive 能夠方便的穿透防火墻。以上種種都為局域 及各種內(nèi)網(wǎng)用戶提供了最大程度上的便利。1.3 3G平臺(tái)移動(dòng)P2P 視頻直播服務(wù)面臨的限制和挑戰(zhàn)
與傳統(tǒng) Internet 下的P2P 視頻直播相比,在移動(dòng)終端上實(shí)現(xiàn)移動(dòng)P2P 視頻直播服務(wù)具有一些新的限制和挑戰(zhàn):
(1)移動(dòng)終端:移動(dòng)設(shè)備CPU 的處理能力、可用的存儲(chǔ)空間、電池使用時(shí)間的限制等等和固定網(wǎng)絡(luò)節(jié)點(diǎn)設(shè)備相比是有很大的差距,這使得它不能像固定網(wǎng)絡(luò)設(shè)備的P2P 視頻直播系統(tǒng)那樣長期提供快速穩(wěn)定的數(shù)據(jù)傳輸服務(wù);
(2)業(yè)務(wù)流量:P2P 視頻直播應(yīng)用會(huì)消耗相當(dāng)大的網(wǎng)絡(luò)流量,而無線資源又是非常有限的,因此必須在P2P 業(yè)務(wù)和無線資源消耗之間取得一種新的平衡點(diǎn),這就決定了在互聯(lián)網(wǎng)中普遍使用的全分布式P2P 系統(tǒng)架構(gòu)無法平移到移動(dòng)無線通信網(wǎng)絡(luò)中來;
(3)相對(duì)惡劣的信道環(huán)境和移動(dòng)性:在3G平臺(tái)無線網(wǎng)絡(luò)中,經(jīng)??赡芤?yàn)闊o線信號(hào)的多徑衰落和信道擁塞等問題造成P2P 節(jié)點(diǎn)之間的連通性不能得到保障,而移動(dòng)環(huán)境下節(jié)點(diǎn)的頻繁移動(dòng)性對(duì)現(xiàn)有的P2P 業(yè)務(wù)而言也是個(gè)很大的挑戰(zhàn),P2P 應(yīng)用的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)不能同步地適應(yīng)物理網(wǎng)絡(luò)的調(diào)整,因而必須進(jìn)行實(shí)時(shí)監(jiān)聽以便及時(shí)感知移動(dòng)終端設(shè)備的狀態(tài);
(4)計(jì)費(fèi)模式:在移動(dòng)通信網(wǎng)絡(luò)中部署P2P 業(yè)務(wù),首先要解決的是計(jì)費(fèi)問題。有兩種策略可以考慮:一種是把P2P 網(wǎng)絡(luò)修改成一種可管理的網(wǎng)絡(luò),納入現(xiàn)有移動(dòng)通信網(wǎng)絡(luò)的計(jì)費(fèi)架構(gòu)中去計(jì)費(fèi);另一種策略是保持P2P 業(yè)務(wù)的純潔性,采用簡單而粗略的計(jì)費(fèi)方式,比如“按流量計(jì)費(fèi)”。總之,在移動(dòng)網(wǎng)絡(luò)環(huán)境當(dāng)中,全面的計(jì)費(fèi)模式是其面臨的主要問題之一;
(5)安全問題:對(duì)移動(dòng)P2P 網(wǎng)絡(luò)而言,通信安全、內(nèi)容安全、網(wǎng)絡(luò)安全、數(shù)字版權(quán)等同樣是其必須面臨解決的問題。固定網(wǎng)絡(luò)P2P 業(yè)務(wù)所帶來的法律問題是絕對(duì)不能出現(xiàn)在移動(dòng)通信網(wǎng)絡(luò)中的,所以數(shù)字版權(quán)管理問題、P2P 網(wǎng)絡(luò)垃圾信息過濾、P2P 網(wǎng)絡(luò)病毒隔離、P2P網(wǎng)絡(luò)本身結(jié)構(gòu)的安全問題都是必須解決的,這對(duì)移動(dòng)運(yùn)營商而言是一個(gè)最大的挑戰(zhàn)。
系統(tǒng)架構(gòu)
經(jīng)過以上分析和研究,本文設(shè)計(jì)了如下的模型架構(gòu)。
在P2P 直播系統(tǒng)中,P2P 網(wǎng)絡(luò)模型的選取對(duì)系統(tǒng)的建立及效率有極大影響。P2P 通常有三種不同的網(wǎng)絡(luò)模式,即全分布式、集中式和混合式。通過對(duì)移動(dòng)P2P 視頻直播服務(wù)所面臨的限制和挑戰(zhàn)的分析,全分布式P2P 并不適合開發(fā)移動(dòng)P2P 視頻直播應(yīng)用。集中式P2P雖然能夠最大限度控制網(wǎng)絡(luò)傳輸,但是中心服務(wù)器必須保存網(wǎng)絡(luò)中所有移動(dòng)終端的全部信息,從而大大地增加了中心服務(wù)器的負(fù)荷,同時(shí)由于容易遭到直接的攻擊而存在嚴(yán)重的安全性問題,因而不適用于大型的移動(dòng)P2P 網(wǎng)絡(luò)?;旌闲蚉2P 集中了分布式和集中式二者的優(yōu)點(diǎn),能夠有效地控制和利用網(wǎng)絡(luò)資源,同時(shí)又具有抗攻擊性能強(qiáng)的優(yōu)勢(shì),是移動(dòng)P2P 網(wǎng)絡(luò)模型的最佳選擇。因而本文采用了一種混合型的P2P 視頻直播服務(wù)模型,將視頻資源的發(fā)現(xiàn)和處理分開,從根本上減少移動(dòng)終端的計(jì)算負(fù)擔(dān)和中心服務(wù)器的負(fù)荷,最大程度上實(shí)現(xiàn)資源的廣泛共享和系統(tǒng)的有效控制。3G平臺(tái)移動(dòng)P2P 視頻直播服務(wù)網(wǎng)絡(luò)模型如圖1 所示:
1.移動(dòng) P2P 視頻直播系統(tǒng)模型服務(wù)端由索引服務(wù)器(IS)、狀態(tài)服務(wù)器(ES)、數(shù)據(jù)服務(wù)器(DS)和代理網(wǎng)關(guān)構(gòu)成;
2.索引服務(wù)器為中心服務(wù)器,它實(shí)時(shí)監(jiān)聽數(shù)據(jù)服務(wù)器的視頻數(shù)據(jù)上傳服務(wù),對(duì)所有視頻數(shù)據(jù)建立索引同時(shí)生成xml格式的節(jié)目列表文件,以備移動(dòng)終端選擇下載;
3.狀態(tài)服務(wù)器在接收到移動(dòng)終端發(fā)出的頻道請(qǐng)求信息后會(huì)建立并維護(hù)兩張表:移動(dòng)節(jié)點(diǎn)狀態(tài)信息表和對(duì)應(yīng)的視頻資源片斷狀態(tài)表,同時(shí)將視頻資源以片段的形式進(jìn)行組織并指導(dǎo)其他移動(dòng)終端用戶進(jìn)行下載;
4.數(shù)據(jù)服務(wù)器為直播數(shù)據(jù)源,向移動(dòng)終端用戶提供視頻下載服務(wù),并且定時(shí)向狀態(tài)服務(wù)器發(fā)送其狀態(tài)信息;
5.代理網(wǎng)關(guān)服務(wù)器接入無線通信網(wǎng)絡(luò)以實(shí)現(xiàn)移動(dòng)終端的網(wǎng)絡(luò)通信協(xié)議Internet 協(xié)議的轉(zhuǎn)換、通信數(shù)據(jù)包的轉(zhuǎn)發(fā)以及計(jì)費(fèi)管理等功能[13]。
6.索引服務(wù)器只向移動(dòng)網(wǎng)絡(luò)中的上線用戶發(fā)送視頻資源列表信息,即負(fù)責(zé)視頻資源的發(fā)布工作,不指導(dǎo)終端用戶的下載工作,因而網(wǎng)絡(luò)負(fù)載相對(duì)較小,可位于無線通信網(wǎng)絡(luò)中;狀態(tài)服務(wù)器和數(shù)據(jù)服務(wù)器的處理工作需要大量的網(wǎng)絡(luò)流量,而無線通信網(wǎng)絡(luò)帶寬有限,因此只能位于有線網(wǎng)絡(luò)中,這是由混合型P2P 網(wǎng)絡(luò)的結(jié)構(gòu)所決定的。
業(yè)務(wù)流程
P2P 視頻直播服務(wù)通常采用數(shù)據(jù)分塊策略實(shí)現(xiàn)視頻數(shù)據(jù)的分發(fā)。當(dāng)視頻的某一個(gè)數(shù)據(jù)塊下載完成后,如何去選擇下一個(gè)數(shù)據(jù)塊(數(shù)據(jù)選擇)和擁有此數(shù)據(jù)塊的節(jié)點(diǎn)(節(jié)點(diǎn)選擇),是對(duì)下載算法、終端性能和網(wǎng)絡(luò)帶寬的一個(gè)嚴(yán)峻考驗(yàn)。由于是直播服務(wù),我們采用順序下載算法下載數(shù)據(jù)塊,但為了使視頻直播延遲時(shí)間達(dá)到最小,我們又對(duì)單個(gè)數(shù)據(jù)塊進(jìn)行了分片,然后啟動(dòng)多個(gè)線程并行下載這些片段。因此我們采用數(shù)據(jù)分塊+分片策略進(jìn)行資源控制以實(shí)現(xiàn)視頻直播服務(wù)。3G平臺(tái)移動(dòng)P2P 視頻直播服務(wù)流程如圖2 所示:
資源發(fā)布
如上圖所示,數(shù)據(jù)服務(wù)器為直播數(shù)據(jù)源,負(fù)責(zé)資源發(fā)布工作。當(dāng)數(shù)據(jù)服務(wù)器發(fā)布某一資源R 時(shí),索引服務(wù)器實(shí)時(shí)監(jiān)聽到數(shù)據(jù)服務(wù)器的R 資源發(fā)布信息后將其寫入種子文件,然后賦予該種子文件一個(gè)全局唯一標(biāo)識(shí)的資源ID 號(hào);同時(shí)報(bào)告狀態(tài)服務(wù)器該資源R 的發(fā)布信息以進(jìn)行種子信息的同步,并在種子文件中記錄該狀態(tài)服務(wù)器的IP 地址和端口號(hào);最后,索引服務(wù)器將資源R 的ID 號(hào)和對(duì)應(yīng)狀態(tài)服務(wù)器的IP 地址和端口號(hào)返回給數(shù)據(jù)服務(wù)器。狀態(tài)服務(wù)器在接收到索引服務(wù)器發(fā)出的資源R 的發(fā)布信息后會(huì)建立并維護(hù)兩張表:移動(dòng)節(jié)點(diǎn)信息表(表名為ID_Node_Info,表1)和對(duì)應(yīng)的資源片斷狀態(tài)表(表名為ID_Res_Pieces,表2),表名中的ID 即為該資源的全局唯一標(biāo)識(shí)的資源ID 號(hào)。其中,兩表中的Client_ID 為移動(dòng)節(jié)點(diǎn)的唯一標(biāo)識(shí),ID_Node_Info 表存儲(chǔ)P2P 網(wǎng)絡(luò)中實(shí)時(shí)共享視頻資源R 的所有移動(dòng)節(jié)點(diǎn)的信息;ID_Res_Pieces 表存儲(chǔ)這些處于共享資源R 狀態(tài)的節(jié)點(diǎn)的片段狀態(tài)信息,片段列數(shù)據(jù)采用位圖法表示,即數(shù)字“0”表示節(jié)點(diǎn)無該片段,數(shù)字“1”表示節(jié)點(diǎn)已有該片段。
數(shù)據(jù)服務(wù)器根據(jù)索引服務(wù)器返回的狀態(tài)服務(wù)器的IP 地址和端口號(hào)與狀態(tài)服務(wù)器建立連接,并發(fā)送數(shù)據(jù)服務(wù)器所在位置(IP 地址)、端口號(hào)、資源唯一標(biāo)識(shí)ID、承載能力和當(dāng)前資源片段狀態(tài)等信息。狀態(tài)服務(wù)器根據(jù)此信息在視頻資源R 的兩個(gè)表(ID_Node_Info 和ID_Res_Pieces)中各添加一條記錄,由于數(shù)據(jù)服務(wù)器是視頻資源R 的數(shù)據(jù)源,對(duì)應(yīng)的ID_Res_Pieces 表中片段列數(shù)據(jù)都標(biāo)示為“1”。
資源共享
如前所述,本文中的3G平臺(tái)移動(dòng)P2P 視頻直播服務(wù)模型采用數(shù)據(jù)分塊+分片策略來實(shí)現(xiàn)視頻直播服務(wù)。移動(dòng)節(jié)點(diǎn)A 進(jìn)入該P(yáng)2P 網(wǎng)絡(luò)后,向索引服務(wù)器發(fā)送上線消息。索引服務(wù)器接收到節(jié)點(diǎn)A 的上線消息后,返回給它一個(gè)頻道資源列表,包含資源ID、資源名稱、對(duì)應(yīng)狀態(tài)服務(wù)器的IP 地址和端口號(hào)等信息。假設(shè)移動(dòng)節(jié)點(diǎn)A 選擇觀看頻道R,則它向資源R對(duì)應(yīng)的狀態(tài)服務(wù)器發(fā)送初始連接請(qǐng)求,建立連接,同時(shí)發(fā)送節(jié)點(diǎn)A 所在位置(IP 地址)、端口號(hào)、要下載的資源的ID、承載能力和當(dāng)前資源片段狀態(tài)等信息。狀態(tài)服務(wù)器接收到節(jié)點(diǎn)A的消息后,判斷節(jié)點(diǎn)A是否為初始連接資源R從而做出相應(yīng)的處理。1.初始連接:根據(jù)資源標(biāo)識(shí)ID 在對(duì)應(yīng)的兩張表(ID_Node_Info 和ID_Res_Pieces)中添加新的記錄,其中在ID_Res_Pieces 表中,把表示節(jié)點(diǎn)A 當(dāng)前資源片段狀態(tài)的字段Bitmap的值標(biāo)識(shí)為全“0”,查詢出數(shù)據(jù)服務(wù)器發(fā)送的資源R 最新數(shù)據(jù)塊的塊號(hào),搜索出擁有該數(shù)據(jù)塊的所有移動(dòng)節(jié)點(diǎn),然后把資源R 的最新塊號(hào)和根據(jù)影響移動(dòng)終端下載的多種因素進(jìn)行權(quán)值計(jì)算得到的一批最優(yōu)下載節(jié)點(diǎn)返回給移動(dòng)節(jié)點(diǎn)A。2.非初始連接:移動(dòng)節(jié)點(diǎn)A 根據(jù)上一次連接后狀態(tài)服務(wù)器返回的最新塊號(hào)和節(jié)點(diǎn)地址啟動(dòng)多個(gè)線程進(jìn)行資源的下載,完成之后將下載成功的片段信息報(bào)告給狀態(tài)服務(wù)器以請(qǐng)求下一個(gè)數(shù)據(jù)塊的下載。狀態(tài)服務(wù)器收到節(jié)點(diǎn)A 的請(qǐng)求后更新ID_Res_Pieces 表中節(jié)點(diǎn)A 的片段狀態(tài)信息,搜索出擁有該數(shù)據(jù)塊的所有移動(dòng)節(jié)點(diǎn),然后把根據(jù)影響移動(dòng)終端下載的多種因素進(jìn)行權(quán)值計(jì)算得到的一批最優(yōu)下載節(jié)點(diǎn)返回給移動(dòng)節(jié)點(diǎn)A,如此反復(fù),直到移動(dòng)節(jié)點(diǎn)A 停止視頻直播服務(wù)。不同于傳統(tǒng)固定網(wǎng)絡(luò),無線通信網(wǎng)絡(luò)一般需采用移動(dòng)IP 技術(shù),因此在本模型中采用移 動(dòng)終端定時(shí)報(bào)告機(jī)制,即移動(dòng)終端定時(shí)向狀態(tài)服務(wù)器發(fā)送心跳包報(bào)告其IP 地址,狀態(tài)服務(wù)器通過對(duì)移動(dòng)節(jié)點(diǎn)的實(shí)時(shí)狀態(tài)管理,對(duì)數(shù)據(jù)庫中ID_Node_Info 和ID_Res_Pieces 表做出相應(yīng)的處理,最終保證了視頻直播服務(wù)的可靠性和實(shí)時(shí)性。
視頻播放
流媒體文件在傳輸?shù)臅r(shí)候要先分解成許多數(shù)據(jù)包,為了使媒體數(shù)據(jù)能連續(xù)輸出,不會(huì)因?yàn)榫W(wǎng)絡(luò)暫時(shí)擁塞導(dǎo)致視頻播放出現(xiàn)停頓,需要在每個(gè)節(jié)點(diǎn)設(shè)置一定的流媒體數(shù)據(jù)緩沖區(qū),即采用緩存機(jī)制來彌補(bǔ)延遲和抖動(dòng)的影響,并保證數(shù)據(jù)包的順序正確。本文采用了一種環(huán)式緩存區(qū),把節(jié)點(diǎn)獲得的流媒體數(shù)據(jù)緩存到本地,保證了視頻播放的流暢性和穩(wěn)定性。
實(shí)驗(yàn)結(jié)果與分析
針對(duì)上述 3G平臺(tái)移動(dòng)P2P 視頻直播服務(wù)模型,本文通過開發(fā)基于Windows Mobile 6.0的客戶端軟件進(jìn)行測(cè)試,客戶端軟件包括資源下載、資源上傳、網(wǎng)絡(luò)通信、系統(tǒng)配置等功能性模塊。測(cè)試網(wǎng)絡(luò)環(huán)境:(1)中國移動(dòng)TD-SCDMA
(2)中國聯(lián)通 WCDMA測(cè)試設(shè)備:
Dopod HTC P4550(2 臺(tái))、浪潮英信服務(wù)器NT110D(3 臺(tái))測(cè)試服務(wù)器所在網(wǎng)絡(luò):中國教育和科研計(jì)算機(jī)網(wǎng)測(cè)試時(shí)間段: 8:00-11:00、20:00-23:00文件分片策略:TD-SCDMA(4KB、8KB)、WCDMA(4KB、16KB)文件分片策略、初始緩沖時(shí)間及狀態(tài)服務(wù)器每次返回給節(jié)點(diǎn)的片段數(shù)目直接影響著移動(dòng)P2P 視頻直播服務(wù)模型的性能,在實(shí)際的測(cè)試過程中將每次返回給節(jié)點(diǎn)的片段數(shù)目設(shè)定為32,則P2P 視頻直播服務(wù)的性能相對(duì)穩(wěn)定。由于受到網(wǎng)絡(luò)通信能力及移動(dòng)設(shè)備自身的限制,針對(duì)兩種不同的網(wǎng)絡(luò)環(huán)境,實(shí)驗(yàn)采取了不同的文件分片策略和初始緩沖時(shí)間。實(shí)際的測(cè)試結(jié)果見表3 和表4。
從表 3 和表4 的數(shù)據(jù)可以看出,無論在TD-SCDMA 還是在WCDMA 網(wǎng)絡(luò)中,隨著文 件分片大小的增加,下載速度都明顯的提高,移動(dòng)P2P 網(wǎng)絡(luò)也逐漸趨于穩(wěn)定,系統(tǒng)性能表現(xiàn)十分優(yōu)異,這對(duì)于未來3G 網(wǎng)絡(luò)環(huán)境下其它移動(dòng)增值業(yè)務(wù)的開發(fā)提供了參考;另外也可以看出,在初始緩沖時(shí)間大于15秒的時(shí)候,節(jié)點(diǎn)的平均暫停播放次數(shù)已經(jīng)接近達(dá)到理想化狀態(tài)。但為了使得用戶不用等待太長的時(shí)間,避免占用過多的內(nèi)存,我們?cè)O(shè)定初始緩沖時(shí)間為10秒,基本可以滿足播放連續(xù)性的需要。通過以上實(shí)驗(yàn),證實(shí)了本文中的3G平臺(tái)移動(dòng)P2P 視頻直播服務(wù)模型的可行性和實(shí)時(shí)性。
結(jié)論
本文通過分析現(xiàn)有移動(dòng)網(wǎng)絡(luò)特點(diǎn)和P2P直播技術(shù)的研究現(xiàn)狀,提出了一種面向3G平臺(tái)移動(dòng)終端的視頻直播服務(wù)模型,經(jīng)使用現(xiàn)有網(wǎng)絡(luò)測(cè)試驗(yàn)證了模型的有效性和穩(wěn)定性,為未來3G 移動(dòng)通信網(wǎng)絡(luò)環(huán)境下開展其它增值業(yè)務(wù)提供了參考和借鑒。在下一步的工作中,我們將逐步完善該系統(tǒng)模型,同時(shí)實(shí)現(xiàn)與現(xiàn)有固定網(wǎng)絡(luò)的P2P 系統(tǒng)的互聯(lián)互通。
參考文獻(xiàn)
[1]申坤.面向3G 的移動(dòng)流媒體解決方案[J].中國科技信息報(bào),2009,22:82-83.[2]姚玉坤,林華蓉.影響3G 移動(dòng)流媒體增值業(yè)務(wù)質(zhì)量的主要因素及其解決策略[J].通信技術(shù),2008,8(41):189-191 [3]李倩.基于P2P 的流媒體直播系統(tǒng)[D].湖南:中南大學(xué),2007.
第五篇:拼音編碼
漢字信息處理與漢字輸入法練習(xí)題
一、判斷題
1.在DOS操作系統(tǒng)中,無法進(jìn)行漢字處理。()2.在漢字系統(tǒng)中,我國國標(biāo)漢字一律是按拼音順序排列的。()3.在各種不同的計(jì)算機(jī)系統(tǒng)中,漢字都是采用兩字節(jié)代碼作為機(jī)內(nèi)碼。()4.在Windows中,只要選擇漢字輸入法中的“輸入中文符號(hào)”,則在“中文半角”狀態(tài)下
也可輸入如頓號(hào)、引號(hào)、句號(hào)等全角的中文標(biāo)點(diǎn)符號(hào)。()5.操作系統(tǒng)命令、程序代碼的關(guān)鍵字必須采用半角字符。()6.輸入漢字的編碼方法有很多種,輸入計(jì)算機(jī)后,都按各自的編碼方法存儲(chǔ)在計(jì)算機(jī)內(nèi)部,所以在計(jì)算機(jī)內(nèi)部處理漢字信息相當(dāng)復(fù)雜。()7.在輸入法屬性對(duì)話框中,提供了添加輸入法、刪除輸入法、設(shè)置輸入法的熱鍵和缺省啟
動(dòng)語言功能。()8.智能ABC使用靈活,速度快,容易學(xué)習(xí),但是只能使用拼音輸入漢字。()9.微軟拼音輸入法可使用筆形、聲調(diào)來減少漢字重碼,提高輸入速度。()10.只要會(huì)寫,就可用五筆字型輸入漢字,因而五筆字型適合讓小學(xué)生學(xué)習(xí)。()
二、填空題
1.漢字信息處理過程分為漢字()、加工處理和輸入3個(gè)階段。2.漢字“西”的區(qū)位碼為“4687”,其中的位碼是()。3.把漢字區(qū)位碼的區(qū)碼和位碼分別轉(zhuǎn)換成十六進(jìn)制數(shù)后,加上十六進(jìn)制數(shù)(),即得 到漢字國標(biāo)碼,把漢字區(qū)位碼的區(qū)碼和位碼都加上十六進(jìn)制數(shù)(),即得到漢字內(nèi)碼。
4.與GB2312-80對(duì)應(yīng)的漢字機(jī)內(nèi)碼的字節(jié)值大于()H。5.為了滿足需要,我國在GB2312-80的基礎(chǔ)上制定了擴(kuò)展的國標(biāo)碼,簡稱()。6.以漢字()編碼的輸入法比較適合于“看打”為主的專業(yè)錄入人員,而以()編碼的輸入法適合于“想打”和“聽打”的人員。
7.Windows提供了軟鍵盤功能,以方便用戶輸入各種特殊符號(hào)。要在屏幕上彈出軟鍵盤,應(yīng)先(),然后在彈出的菜單中選擇相應(yīng)的軟鍵盤。8.要安裝或卸除某種中文輸入法,應(yīng)先啟動(dòng)“控制面板”,再使用其中的()功能。
9.在使用拼音輸入漢字時(shí),可用鍵盤上的()鍵翻頁前后查找。10.用拼音或五筆字型輸入漢字,字母鍵必須是()狀態(tài)。
三、單選題
1.漢字國標(biāo)碼(GB2312-80)把漢字分成 等級(jí)。A,常用字、次常用字、罕見字三個(gè) B.簡化字和繁體字兩個(gè)
C.一級(jí)漢字、二級(jí)漢字共兩個(gè)
D.一級(jí)漢字、二級(jí)漢字、三級(jí)漢字共三個(gè) 2.輸入漢字時(shí),計(jì)算機(jī)的輸入法軟件按照?一—一—將輸入編碼轉(zhuǎn)換成機(jī)內(nèi)碼。A.字形碼 B.國標(biāo)碼 C.區(qū)位碼 D.輸入碼 3.計(jì)算機(jī)存儲(chǔ)和處理文檔的漢字時(shí),使用的是
A.字形碼 B.國標(biāo)碼 C.機(jī)內(nèi)碼 D.輸入碼
4.在漢字字模庫中,16×16點(diǎn)陣字形碼用 個(gè)字節(jié)存儲(chǔ)一個(gè)漢字。A.48 B.32 C.64 D.72 5.重碼是指同一個(gè)編碼對(duì)應(yīng)一 個(gè)漢字。A.多 B.3 C.2 D.1 6.五筆字型碼屬于
A.音形混合碼 B.雙拼碼 C.全拼碼 D.形碼
7.在“全角”方式下,顯示一個(gè)ASCII字符要占用 個(gè)漢字的顯示位置。A.半 B.1 C.2 D.3 8.漢字的國標(biāo)碼由兩個(gè)字節(jié)組成,每個(gè)字節(jié)的取值均在十進(jìn)制 范圍內(nèi)。A.33-126 B.0-127 C.161-254 D.32-127 9.在輸入中文時(shí),下列的 操作不能進(jìn)行中英文切換。
A.用鼠標(biāo)左鍵單擊中英文切換按鈕 B.用
10.在缺省情形下,選用中文輸入法后,可以用 實(shí)現(xiàn)全角和半角的切換。A.按
碼。
A.B1A1H B.1234H C,BBBBH D.ABCDH 12.—F列漢字輸入法中,輸入法不存在重碼。
A,區(qū)位碼 B.自然碼 C.智能ABC D.~筆字型 13.當(dāng)從打印機(jī)或者顯示器輸出漢字時(shí),必須
A.根據(jù)漢字的機(jī)內(nèi)碼在字模庫中查找對(duì)應(yīng)的字形點(diǎn)陣(字形碼),并通過驅(qū)動(dòng)程序轉(zhuǎn)變
為具體的操作
B.根據(jù)漢字的機(jī)內(nèi)碼,通過驅(qū)動(dòng)程序轉(zhuǎn)變?yōu)榫唧w的操作 C.根據(jù)漢字的國標(biāo)碼即可產(chǎn)生字形點(diǎn)陣,直接打印和顯示 D.根據(jù)漢字的輸入法編碼即可產(chǎn)生字形點(diǎn)陣,直接打印和顯示
14,假定一個(gè)漢字字形用16X16點(diǎn)陣表示,一個(gè)英文字母字形用8X8點(diǎn)陣表示,以下關(guān)于
存儲(chǔ)開銷的說法中,正確的是
A.存儲(chǔ)一個(gè)漢字字形和一個(gè)英文字母字形的所占字節(jié)數(shù)的比值為8:1 B.存儲(chǔ)一個(gè)漢字字形和一個(gè)英文字母字形的所占字節(jié)數(shù)的比值為4:1 C.存儲(chǔ)一個(gè)漢字字形和一個(gè)英文字母字形的所占字節(jié)數(shù)的比值為2:1 D,存儲(chǔ)一個(gè)漢字字形和一個(gè)英文字母字形的所占字節(jié)數(shù)的比值為1:4 15,從計(jì)算機(jī)鍵盤輸入英文字母可以直接敲擊對(duì)應(yīng)的字母鍵,而輸入漢字時(shí)則需要設(shè)計(jì)輸入
編碼,最主要的原因是
A.漢字的字形比英文復(fù)雜
B.漢字不是拼音文字
C.漢字的字?jǐn)?shù)比英文的單詞個(gè)數(shù)多 D.計(jì)算機(jī)的鍵盤設(shè)計(jì)時(shí)沒有考慮漢字輸入問題 答案
一、判斷題
1.錯(cuò) 2.錯(cuò) 3.錯(cuò) 4.對(duì) 5.對(duì) 6.錯(cuò) 7.對(duì) 8.錯(cuò) 9.錯(cuò) 10.錯(cuò)
二、填空題
1.輸出 2.87 3.20 80 4.AO 5.GBK 6.字形 語音 7.右擊漢字輸入狀態(tài)框的軟鍵盤按鈕 8.鍵盤屬性 9.<->和<=> 10.小寫
三、單選題
1.C 2.D 3.C 4.B 5.A 6.D 7.B 8.A 9.D 10.C
11.B 12.A 13.A 14.B 15.D