時間:2023-01-25 21:24:34
開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇解碼技術論文,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。
關鍵詞:RGB YCbCr FPGA 色彩空間轉換
中圖分類號:TN911 文獻標識碼:A 文章編號:1672-3791(2014)09(a)-0023-01
1 常見色彩空間
我們主要介紹RGB和YCbCr色彩空間。RGB色彩空間是一種常用的色彩空間。它可以實現不同平臺的映射而不嚴重損失顏色信息。任何一種顏色都可以由三基色紅、綠、藍混合疊加而成。RGB三個分量彼此相互獨立,三個分量的值越小所代表的亮度越低。RGB色彩空間它所占用的帶寬和存儲量是很大的,如果使用該色彩空間進行圖像傳輸,非常不利于圖像的處理。所以引入另一種色彩空間YCbCr。該格式的色彩空間是演播室編碼方案中使用的顏色模型。Y,Cb,Cr分別代表亮度、藍度分量和紅度分量。YCbCr色彩空間有以下優勢。首先它的構成原理符合人類的視覺感知過程,再次它可以實現亮度和色度的分離,由于人眼對亮度的變化更敏感,所以我們在傳輸圖像時減小帶寬的同時引起的顏色損失小,人眼幾乎無法察覺。
2 總體設計方案
系統的總體設計框圖如圖1所示。
基于FPGA的色彩空間的轉換過程可以描述為:首先通過CCD攝像頭進行視頻圖像采集,采集來的RGB圖像為NTSC或PAL制式的,接著我們會把視頻數據送到解碼芯片TVP5150,它會將信號變為ITU-R BT.656格式的數據流。我們選取的TVP5150芯片是和FPGA主控芯片集成在一個開發板上,它的功耗非常低,芯片小巧利于便攜。視頻解碼芯片在對視頻信號處理之前總線會對其進行配置。從解碼芯片出來的信號便進入FPGA芯片,進行串并轉換、解交織等操作最終實現色彩空間的轉換。最后信號送到ADV7123芯片進行編碼,并通過D/A轉換芯片在VGA顯示器上顯示出來。
3 仿真與硬件驗證
硬件部分我們采用了Alera公司的FPGA芯片EP2C8Q208C8N作為核心處理芯片,該芯片內部含有豐富的可編程邏輯資源,可以非常方便的完成相關乘法器的例化。在使用乘法器IPCore時,我們需要進行優化設置。硬件部分包括CCD攝像頭、FPGA主控芯片、視頻解碼芯片TVP5150、視頻編碼芯片ADV7123等。最終將VGA線和顯示器的VGA口相連接,便可以通過顯示屏觀察結果。
硬件實物圖如圖2所示。
軟件部分采用Quartusii 9.1進行Verilog語言的編寫,并進行時序仿真。進行時序仿真的結果圖3所示。
4 結語
生活中存在多種色彩空間,它們各自具有不同的特點。但是在很多情況下我們又得在它們之間進行轉換,這無論對于科研研究還是消費市場都是很有必要的。本篇論文是通過硬件實現的RGB色彩空間到YCbCr色彩空間的轉換,采用的Alera公司的FPGA芯片EP2C8Q208C8N作為核心處理芯片,利用其內部豐富的可編程邏輯資源實現空間的轉換,并采用Quartusii 9.1進行軟件編程與仿真,驗證了模塊的功能。
參考文獻
[1] 唐曉燕,賈鋒,韓磊.基于FPGA的視頻顏色空間轉換電路設計[J].電子與電腦,2006(8):47-49.
[2] 吳康,劉耀元,胡民山.用FPGA實現色彩空間RGB到YCbCr的轉換[J].南昌高專學報,2007,22(6):140-142.
統計機器翻譯在短時期能夠得以迅速發展,除了技術進步外,很大一方面要歸功于很多開放源碼的統計機器翻譯工具,有些時候,正是因為這些開放源碼的工具才使得某項技術被廣泛接受和使用。例如,20世紀90年代初IBM公司的Brown等人提出了5個模型來刻畫統計機器翻譯,取得了不錯的效果,但是在此之后很長一段時間內都沒有被大家認可和接受,原因是他們的模型非常復雜,難以理解和實現。直到1999年,開源軟件包Egypt的出現,才使得IBM的模型被廣泛研究和使用。可以說Brown等人的工作為現代統計機器翻譯奠定了深厚的基礎,但其影響卻是通過開源軟件才得以實現,由此可見開源軟件對于統計機器翻譯這樣一個復雜的研究課題的重要性。
1. 首個開源統計機器翻譯工具包Egypt
Egypt是在1999年約翰霍普金斯大學統計機器翻譯夏季討論班上,由一些研究人員共同合作開發的統計機器翻譯工具包。它包括4個模塊;
Whittle: 語料庫預處理模塊;
GIZA: 用于從句子對齊的雙語語料庫中訓練詞語對齊;
Cairo: 詞語對齊的可視化工具;
Decoder: 解碼器,用來執行具體的翻譯過程模塊,這一模塊沒有開放源碼。
其中,用于訓練詞語對齊的模塊GIZA現在仍然被廣泛使用,利用它能夠非常方便地從大規模的雙語文本中獲得統計知識。GIZA++是GIZA的改進版,GIZA++實現了IBM公司提出的5個模型,其主要思想是利用EM算法對雙語語料庫進行迭代訓練,由句子對齊得到詞語對齊。GIZA是獨立于語言的,能夠對任何兩種語言進行訓練,這也是統計機器翻譯的優點之一。現在幾乎所有的統計機器翻譯系統都利用這一工具進行詞語對齊的訓練。
2.語言模型訓練工具SRILM
SRILM是一個建立和使用統計語言模型的開源工具包,從1995年開始由SRI 口語技術與研究實驗室(SRI Speech Technology and Research Laboratory)開發,現在仍然不斷推出新版本,被廣泛應用于語音識別、機器翻譯等領域。這個工具包包含一組C++類庫、一組進行語言模型訓練和應用的可執行程序等。利用它可以非常方便地訓練和應用語言模型。給定一組連續的詞,調用SRILM提供的接口,可以得到這組詞出現的概率。
3. 機器翻譯的自動評測工具Mteval
在一些著名的統計機器翻譯國際評測中普遍使用自動評測與人工評測相結合的方法,例如美國國家技術和標準研究所(NIST)舉行的評測。Mteval便是他們開發的自動評測工具,最新版本是mteval-11b.pl,是用Perl語言寫成的。
4. 首個基于短語的統計機器翻譯系統“法老”(Pharaoh)
“法老”是較早公開的統計機器翻譯系統,由美國南加州大學信息科學實驗室(Information Science Institute)的菲利普•科恩(Philipp Koehn)在2004年做博士論文期間編寫的。“法老”包括兩大部分: 訓練和解碼。訓練過程用來從語料庫中獲得統計知識。它利用了已有的開源軟件GIZA++和SRILM,GIZA++用來訓練詞語對齊,SRILM訓練語言模型,但解碼沒有公開源代碼。“法老”原理簡單,易于使用,它的出現對于推動機器翻譯研究起到了非常大的作用。
5. 中國首個開源的統計機器翻譯系統絲路(SilkRoad)
“法老”的出現揭開了統計機器翻譯的神秘面紗,然而其核心部分――解碼器的源碼仍然沒有公開。為此,中國的研究人員聯合開發了一個完全開放源代碼的統計機器翻譯系統――“絲路”。該系統由中國的五家研究機構和高校(中科院計算所、中科院自動化所、中科院軟件所、廈門大學、哈爾濱工業大學)聯合開發,并在2006年中國第二屆統計機器翻譯研討會上。“絲路”包括以下模塊: 語料預處理及后處理模塊“仙人掌”、詞語對齊模塊“樓蘭”、短語抽取模塊“胡楊”、以及三個解碼器(“駱駝”、“綠洲”和“商隊”)。這是第一次將一個完整的統計機器翻譯系統公開,極大地促進了國內統計機器翻譯的快速發展。
6.摩西(Moses)
“摩西”是“法老”的升級版本,它增加了許多功能,是由英國愛丁堡大學、德國亞琛工業大學等八家單位聯合開發的一個基于短語的統計機器翻譯系統。來自這些單位的研究人員于2006年在約翰霍普金斯大學召開了一次研討會,利用6個星期的時間共同開發了這一系統。整個系統用C++語言寫成,從訓練到解碼完全開放源代碼,可以運行在Windows平臺和Linux平臺。
7. 基于句法的統計機器翻譯系統GenPar
GenPar工具包實現了一個基于句法的統計機器翻譯系統。基于句法的方法將句法結構信息引入到統計機器翻譯中來,目前已成為統計機器翻譯領域的研究熱點。但是構建基于句法的統計機器翻譯系統遠比構建基于短語的要困難得多,為了讓研究者們很快進入這一領域,在JHU2005夏季研討會上,由紐約大學艾•丹•米拉姆德(I. Dan Melamed)等人組成的統計機器翻譯組開發了GenPar。
GenPar的基本原理是利用多文本語法(Multi-Text Grammar)實現多語言的句法分析、結構對齊和翻譯。多文本語法是一種多種語言的同步語法,理論上比較完善,功能強大。GenPar有很多特點:首先,該系統是一個純粹基于句法的模型,在翻譯過程中充分利用了句法結構信息; 其次,它具有很好的定制能力,可以實現各種不同類型的基于同步語法的統計機器翻譯,很適合于作為實驗各種理論的研究平臺。總的來看,該系統功能比較強大,但由于其比較復雜,掌握起來比較困難,性能比現有的基于短語的模型稍差。(本文作者米海濤為中科院計算所博士研究生)
鏈接
統計機器翻譯第一人與Google
在統計機器翻譯中有一位頗具傳奇色彩的人物,就是畢業于德國亞琛工業大學的博士生弗朗茨•約瑟夫•歐赫(Franz Joseph Och)。在1999年他開發出了著名的IBM模型訓練工具Giza。在2002年NIST評測中,取得第一名的亞琛工業大學的機器翻譯系統也是由他開發的。2002年,歐赫從亞琛工業大學畢業后進入美國南加州大學信息科學研究所(ISI/USC)工作,同時作為Language Weaver公司的顧問,后來于2004年加盟了谷歌(Google)公司。
他所工作的每一個單位都穩拿當年NIST機器翻譯評測的第一名。尤其是2005年的NIST評測中,他所在的谷歌公司開發的漢英機器翻譯系統取得了0.35的BLEU值,比第二名的南加州大學(即他原來所在的單位)系統的性能提高了近5個百分點。在2006年評測中,除了漢英機器翻譯的受限語料項目,其他所有項目的第一名都是谷歌公司。
IPTV(Internet Protocol Television)即交互式網絡電視,是一種利用寬帶有線網絡,集互聯網、多媒體、通信等多種技術于一體,向家庭用戶提供包括數字電視在內的多種交互式服務的新技術。其傳輸過程首先是把電視信號編碼轉化成適合INTERNET傳輸的數據形式,然后通過互聯網傳送,最后解碼通過電腦或是電視播放。IPTV的關鍵技術包括音視頻編解碼技術、流媒體傳送技術、數字版權管理(DRM)技術、IP機頂盒技術等。
編解碼技術。多媒體通信的一個顯著特點就是要傳輸的信息量非常大,尤其是視頻數據,其編解碼技術在較大程度上影響著業務的質量。IPTV采用了先進高效的視頻壓縮編碼技術,使得視頻流在800Kb/s的有限帶寬上接近DVD(MPEG2)的視覺效果(DVD的視頻傳輸帶寬通常為3Mb/s)。目前主要編解碼技術是MPEG4、H.264與AVS三種。MPEG系列是重要的視頻編碼標準,所有的視頻編碼技術都參照了MPEG技術。H.264是新一代視頻編碼標準,H.264的壓縮率是MPEG-2的2倍以上,是MPEG-4的1.5至2倍,這樣超高的壓縮率是以犧牲編碼運算量為代價的,但其解碼的運算量漲幅較小,比較容易實現用戶接收播放。AVS是中國擁有自主知識產權的第二代信源編碼標準音視頻編碼技術標準,是高清晰度數字電視、寬帶網絡流媒體、移動多媒體通信、激光視盤等數字音視頻產業群的基礎性標準。
流媒體傳送技術。對于傳送IPTV音視頻數據流而言,流媒體傳送技術極其重要,先進的技術可以節約系統帶寬、減輕系統負擔、優化系統。流媒體傳送系統主要設備是中心/邊緣流媒體服務器與存儲分發網絡。流媒體服務器具有較高的穩定性,支持多個并發流和直播流的需求,而存儲分發網絡由多個服務器組成,通過負載均衡(如CDN)來大規模組網。CDN網絡除了提高用戶響應速度之外,還有一個更為重要的作用,就是減輕巨大的數據流量對骨干網的壓力。
數字版權管理(Digital Rights Management,DRM)。它是保護多媒體內容免受未經授權的播放和復制的一種方法,為內容提供者提供視頻、音樂、彩鈴、論文、圖片等數字數據免受非法復制和使用保護的一種手段。數字多媒體內容是IPTV中最為關鍵的節目來源。有了DRM技術,可使各個平臺(無論是因特網、流媒體還是交互數字電視)的內容提供商們放心地提供更多的內容,采取更靈活的節目銷售方式,同時有效地保護知識產權。
IP機頂盒技術。IPTV系統的接收端包括計算機、電視機與手機。由于電視機本身并沒有存儲功能,不支持軟件安裝,也無法像手機那樣加裝流媒體支持功能,因而無法實現IP的支持功能,必須加裝一個IP數據流轉換成電視機可以接收的信號的機頂盒才能收看IPTV節目。機頂盒應具備數據轉換、接入支持、協議支持、業務支持、解碼支持等功能。
在廣電系統數字電視平移模式中,杭州模式對IPTV技術的應用最為成功。杭州數字電視模式實質上就是用以太網接入,只是最后一段線路即樓道交換機到戶內終端使用的是同軸電纜,它成功地將IPTV技術和廣電的數字電視進行了結合。現在,其他省市的廣電系統已經在以杭州模式為示范建設自己的廣電網絡。江西省的情況和杭州的實際情況有差別,不具有發展IPTV業務的優勢平臺,所以我們不能停留于模仿層面,而應該在總結先行者的經驗中,尋找更好的在廣電網絡中運用IPTV技術的方法。
一、數字電視平移是廣電網絡追求效益的增長點。IPTV能夠提供多種形式的內容服務,傳輸電視節目只是其功能應用的一部分,它還可以提供其他的電視類業務、通信類業務和各種增值業務,滿足我們的各種需求。
二、增加多種形式的內容服務要求更寬的帶寬來進行傳輸,IPTV采用的編碼和壓縮技術是最新的高效視頻壓縮技術,它壓縮了數據,節約了帶寬。同時IPTV可以在傳輸的過程中把視頻內容按IP協議封裝成數據包,能根據用戶不同的需要,靈活解決網絡傳輸的問題。如果用戶的頻帶寬,就可以壓縮率低一些,傳的包多一些,質量好一點;如果用戶對節目的清晰度沒有太高的要求,可以采用壓縮率高一些,傳的包少一些。這也解決了江西省現有SDH網絡帶寬不足、無法繼續添加業務的問題。
三、真正實現互動是IPTV最重要的一個優勢。IPTV不僅能滿足受眾觀看節目的個性化需求,而且能讓受眾參與到電視節目中來,與電視臺一起完成節目。
“三網合一”是大勢所趨,IPTV的出現,加速了三網融合的步伐。無論是電信還是廣電,都在期望自己成為未來三網融合后的主導者。在這種形勢下,廣電網絡要想繼續發展就必須廣泛、科學地運用IPTV技術。(作者單位:江西省廣播電視網絡傳輸有限公司)
欄目責編:肖月
[關鍵詞]圖像壓縮;圖像編碼;壓縮標準
中圖分類號:Tp311 文獻標識碼:A 文章編號:1009-914X(2014)45-0358-01
0 引言
當今社會正處于高速發展的信息時代,而信息本身就需要進行存儲、圖像信息是人類認識世界和感知世界的重要源泉。圖像具有確切性、直觀性、高效性、時空性等特征,圖像信息的這些特性導致它的數據量特別龐大。圖像壓縮就是對數值矩陣進行處理,用相對少的數據來表示這個數值矩陣。這個過程要在圖像數據存儲、處理和傳輸之前進行,在這之后要對壓縮過的圖像進行解壓縮來重建圖像,這就是圖像壓縮和解壓縮,也稱圖像編碼和圖像解碼。
1 圖像壓縮的原理
從信息論的觀點來看,圖像作為一個信源,描述信源的數據是信息量和信息冗余量之和。所以在圖像數據的表示中存在著大量的冗余,如時間冗余、空間冗余、知識冗余、視覺冗余等,可以利用圖像本身的一些特點和人眼的視覺特性,去除這些冗余數據就可以使原始圖像數據量極大的減少,從而解決圖像數據量龐大的問題,實現圖像數據壓縮。
2 經典圖像編碼
2.1 變換編碼
很多圖像編碼的原理是通過消除圖像的冗余度來達到壓縮的目的,而變換編碼則是改變了冗余度的表達方法,將原始數據用另一種更加緊湊的方法表示,有時可以實現更高的數據壓縮。離散余弦變換(DCT)即是一種分形變換編碼。DTC的出色之處是能將大部分圖像分成像塊,使像塊的能量集中到少數低頻DTC系數上,這樣一來DCT可以將圖像的能量很大程度的集中在一起,為壓縮打下了基礎。
2.2 嫡編碼
嫡編碼的原理是根據消息或消息序列出現概率的分布特性來尋找概率和碼字長度間的最優匹配。游程編碼、霍夫曼編碼和算術編碼等都是目前使用較多的嫡編碼。
3 現代圖像編碼
現代圖像編碼和經典圖像編碼的區別之處在于它不是像經典圖像編碼那樣盡量去除圖像的相關性,而是利用圖像的相關性進行編碼。
3.1 分形編碼
分形編碼是一種直接在空間域尋找并最大限度地利用圖像的自相似性的編碼方法。
3.2 模型基圖像編碼
模型基圖像編碼主要是利用圖像的區域、輪廓等二維特征以及形狀、運動軌跡等三維特征進行建模,然后對圖像和模型進行分析得出模型的各種參數,再對參數進行編碼傳輸,解碼端則由圖像綜合恢復出圖像。這種編碼方式可以實現較高的壓縮比,圖像的恢復質量也有了大大的提高。
3.3 小波變換技術
小波變換理論是新的數學分支,其基本思想是將原始圖像通過一族小波函數轉換為小波域的系數,再通過略去某一閾值下的系數,保留部分原始能量保留較多的系數來壓縮圖像。在小波變換中,圖像被分解為不同空間、不同頻率的子圖像,一幅圖像每經過一次小波變換,圖像就被分解為四幅大小為原來的四分之一的小塊頻帶區域,再將這四幅子圖針對人的視覺特點分別進行不同的編碼處理,可以得到比較高的壓縮比和好的壓縮質量。
4 圖像壓縮的分類
圖像壓縮一般根據圖像數據是否有丟失分為有損壓縮和無損壓縮兩類,無損壓縮是理想的壓縮方法(無信息丟失),也稱可逆壓縮。有損壓縮也稱不可逆壓縮,經過有損壓縮后,重建圖像中像素的值和原始圖像中對應的像素的值不完全相等,圖像會發生畸變。
圖像無損壓縮編碼方法可分為兩大類:基于統計概率的算法和基于字典技術的算法。基于統計概率的算法是根據信息論中的變長編碼定理和信息嫡的相關知識,用較短的代碼代表出現概率大的符號,用較長代碼代表出現概率小的符號,從而實現數據壓縮。而基于字典技術生成的文件包含的是定長編碼,每個碼代表原文件中的一個特定序列。
和無損壓縮不同的是,有損壓縮編碼在圖像進行解碼還原之后的準確度上要求沒有那個高,因此會產生一定程度上的失真,但這種編碼方式可以提高圖像的壓縮能力。一般情況下,這種失真人眼看起來可能會比較明顯,也可能不明顯,不管是哪種,只要在人眼的容忍范圍之內,就說明這種壓縮時可行的。
5 圖像壓縮標準
隨著圖像處理技術的發展,研究人員提出了多種圖像壓縮標準。常用的圖像壓縮標準分為靜止圖像壓縮標準和視頻圖像壓縮標準。
目前最常用的靜止圖像壓縮標準是JPEG圖像壓縮標準。JPEG標準定義基于DCT得有損基本編碼系統、面向大規模壓縮得擴展的編碼系統和面向可逆壓縮的無損獨立編碼系統。JPEG具有有失真和無失真兩種編碼解碼的處理方式,其中無失真得到的解碼后圖像和原圖像數據基本相同,但壓縮率較低,而有失真可以實現高的壓縮比,但同時可能會導致圖像的失真較明顯。壓縮比的高低可以在算法中改變壓縮參數來調整。JPEG標準的計算量不算很大,算法也易于實現,所以具有較好的實用性能。
隨著多媒體技術的快速發展和廣泛應用,為滿足用戶對更高壓縮效率和對壓縮圖像的互動性和可伸縮性的要求,JPEG2000應運而生的。
JPEG2000標準可以實現很高的壓縮性能,它還具有只對感興趣區域編碼、可進行有損壓縮和無損壓縮、對錯誤的魯棒性、對碼流做隨機訪問等特性。靈活使用這些特征,不僅可以達到很高的壓縮比,還可以滿足在移動和網絡環境下交互操作和可伸縮性的要求。JPEG2000的需求針對性以及技術先進性保證了它光明的應用前景。
6 圖像壓縮性能的評價
一個圖像壓縮方法性能的評價主要從兩個方面來衡量:壓縮比和圖像質量評價。壓縮比就是原始圖像文件大小與壓縮后生成文件大小的比值,比值越大,說明壓縮率越高。圖像質量評價一般是通過保真度準則來判斷。保真度準則有兩種:客觀保真度準則和主觀保真度準則。
6.1 客觀保真度準則
客觀保真度準則是對解碼圖像和原始圖像的誤差進行定量計算的一種衡量標準,一般是對整個圖像或者圖像中的某個指定區域進行某種平均計算得到均方誤差。
6.2 主觀保真度準則
圖像經壓縮編碼和解碼還原之后,圖像質量的好壞還有一個直接的評價者就是人眼,因此人的主觀印象也是衡量一個圖像壓縮編碼的重要因素。主觀保真度準則的實施過程是選定若干評價者對待評圖像打分,對這些分數求個平均值可以得到主觀評價分。但因為個體評價會受到個人喜好、光線、距離等因素的影響,很難對其制定一個統一的標準,所以圖像的主觀質量評價方法受到了一定的限制。
參考文獻
[1] 張偉.基于小波變換的圖像壓縮系統研究[D].廈門大學碩士論文.2005.2.
[2] 向輝.基于小波理論的圖像壓縮算法研究[D].華東師范大學碩士論文.2006.7.
[3] 張躍飛.基于稀疏分解的圖像壓縮[D].西南交通大學碩士論文.2006.9.
[4] 雷萌.數據壓縮算法的比較研究[J].2014.11.
注:基金項目:2012年民族學院校內項目“基于哈希表的數據壓縮算法研究”,項目編號:12myZ05
作者簡介
關鍵詞: VoIP; QoS; 編解碼; 顫音緩存; 語音通信質量
中圖分類號:TP39 文獻標志碼:A 文章編號:1006-8228(2013)07-17-02
0 引言
隨著網絡技術的迅猛發展和WiFi入網限制的解除,VoIP技術得到廣泛的應用。通過無線移動通訊網絡的VoIP業務,用戶手機可利用WiFi接入互聯網,然后利用互聯網發送和接收語音數據。近兩年,隨著智能手機的迅速崛起,這種方式漸漸得到了人們的青睞,越來越多的人選擇以這種方式代替原有的通話模式。但是,由于網絡無法提供嚴格的QoS保障,以及時延和時延抖動等原因,使得無線通訊網絡中VoIP的傳輸質量不夠理想。因此,研究如何提高VoIP語音的通信質量有重要意義。
1 VoIP的關鍵技術
VoIP即Voice Over IP的縮寫,它是將模擬音頻信號進行采樣、壓縮、打包等一系列處理后,以IP數據報的形式在IP分組交換網絡上進行傳輸。簡單地說,它是將模擬話音轉換成可以在網絡中傳輸的數字信號。
在建立VoIP通話之前,先要進行呼叫,完成這一任務的信令系統。建立呼叫之后要對數據流進行實時傳輸,這就需要一種實時傳輸技術。要使音頻信號在分組交換網絡傳輸,還需要把模擬音頻信號轉成數字信號,并進行適當的壓縮、編碼以適應這種傳輸環境,這就需要在傳輸之前對音頻進行編碼。在傳輸過程中,還需要對通話服務質量進行實時監控,因此還需要一種 QoS質量保障技術來完成這個工作。VoIP中的關鍵技術總結起來就是:信令技術、語音編碼技術、實時傳輸技術、QoS質量保障技術[1]。
1.1 信令技術
所謂信令技術,可以理解為是一種控制機制。在VoIP系統中常用的信令技術有兩個:一個是由國際電信標準(ITU一T)制定的H.323;另一個是由因特網工作組(IETF)制定的會話初始協議SIP。這兩種技術相比,H.323是一個完整的體系,提供了完成VoIP通信的所有子協議,但是由于H.323更龐大與復雜,不易于管理與維護,并且它不是一個開放性的協議。與此相比,SIP則顯得更靈活,擴展性強。SIP協議只提供會話建立、呼叫控制的功能,因而建立呼叫的時間相對較短,SIP還需要與其他協議協同合作完成VoIP的具體通話任務。SIP協議目前已被廣泛應用到IMS網絡中,負責VoIP業務的實現。
1.2 語音編碼技術
由于傳輸用到的帶寬有限,因此需要將數據壓縮得盡可能小,來降低傳輸比特率。目前主流的編碼技術有波形編碼、參量編碼和混合編碼。VoIP應用中主流的波形編碼有 G.711、G.721、G.723、G.726和G.727,而G.728、G.729、Speex等則是主流的參數和混合編碼。這些編碼各有自己獨特的算法,速率、復雜度也不盡相同。
1.3 實時傳輸技術
實時傳輸技術用來保障壓縮數據可以有序,同步地到達接收方,便于接收方對數據進行解碼。目前VoIP系統中的實時傳輸技術主要是通過RTP協議實現的[2]。
1.4 QoS質量保障技術
為了保障服務質量,VoIP采用了資源預留協議RSVP以及實時傳輸控制協議RTCP。
RSVP信令協議,可以為網絡上的任何終端、主機之間建立的路徑保留帶寬,為數據傳輸預定、保證 QoS。RTCP在進程之間交換控制信息,對傳輸質量進行管理。在 RTP會話期間,參加會話的成員會間隔的傳送包含了已發送數據包數量、丟包數量等統計數據的RTCP包。利用這些信息,服務器就可以動態調整傳輸速率乃至改變載荷類型。RTCP和RTP一般捆綁使用,可以有效地反饋,優化傳輸效率[1]。
2 影響VoIP語音質量的因素
由于VoIP業務是通過因特網來傳輸封包,因此會產生封包延遲、掉包等。影響VoIP語音質量的因素主要有:時延、時延抖動、丟包率。
2.1 時延
數據從發話端傳輸到接收端所需要的時間即形成了時延。語音通信系統中,時延的增加會讓通話雙方感覺話音傳輸的停頓感,同時也會造成回音。對于公用電話網,延時一般只有50~70ms,而IP電話的延時較大、通常為150~250ms,因此,VoIP系統的時延一般控制在100ms~150ms內,否則語音質量難以保證。VoIP系統中,時延由存儲轉發時延,傳播時延及處理時延組成。
2.2 時延抖動
在一個VoIP呼叫過程中,所有發送的數據包經不同路徑到達目的地的時間差異即形成了時延抖動。VoIP不同于傳統PSTN網絡,以固定速率進行傳輸,由于它在IP網絡上存在不同路由,而導致同一數據包之間也會有不同的時延,存在傳輸時間差,因此產生抖動 [3]。
2.3 丟包率
IP數據包傳輸的過程中,丟失的數據包數量占所發送數據包總量的比率即形成了丟包率指。不僅數據包在網絡中間傳輸過程中可能產生丟包,當話音網絡中超出抖動緩沖區所能承受的最大時延時也會產生丟包。丟包會造成話音信息的缺失,嚴重時會導致話音的不連貫,甚至無法準確收聽到對方的話音。丟包率主要與網絡的流量有關,它是影響話音質量的重要因素。通常情況下,語音業務的丟包率須要控制在1%以內。
3 改善VoIP語音通信質量的方法
為了保證VoIP通話的要求,可以從以下幾個方面進行改善。
3.1 優化網絡環境
通過增加DSL或其他設備的頻寬,使得語音質量得到改善。需要注意編解碼所占頻寬的大小,還應該考慮封包成本。例如,G.711雖然只占64kbps,但是把封包成本計算在內,所需的實際頻寬超過100kbps。改善網絡環境就會增加投資成本,包括更換設備和增加頻寬。而且,由于網絡跨越范圍很廣,眾多設備當中可能有部分會發生故障,這時就會使得丟包率瞬間提高,這對于需要即時傳輸的語音封包來說有致命的影響。
3.2 選擇合適的編解碼
選擇合適的編解碼可以對抗瞬間爆發的丟包率。在窄頻環境中可使用iLBC,寬帶環境中可使用ISAC或G.711,這些編解碼可以在丟包率超過20%的情況下,MOS值仍然超過3.0的優異效果。在選擇合適的編解碼的同時,還要保證當前頻寬能夠滿足編解碼的需求。如:iLBC至少在30kbps以上,G.711至少在80kbps以上。
3.3 服務質量保障(QoS)
QoS是將不同的封包(協議)進行標簽化處理,使得帶有特定標簽的封包(協議)能夠被優先處理并傳送。QoS的算法多達數十種,有的機制可以通過結合其他的規則使得效果加以優化。有的機制將不同的封包(協議)通過優先等級隊列的方式,來保證優先級別高的封包(協議)可以“插隊”處理與傳送。有的機制是將可用的帶寬進行分割、編制等級,讓不同的封包(協議)以不同的帶寬傳輸。更復雜的算法設計,還能使用“借用頻寬”的方式來加速封包的傳送。設備端能判斷鄰近的頻寬是否使用中,如果發現“隔壁”頻寬并未使用,就可以允許特定封包(協議)借用隔離的頻寬。有些算法甚至于針對優先等級來決定頻寬借用問題,高優先等級的封包(協議)可以借用低優先等級的頻寬。反之,低優先等級的封包或協議無法借用高優先等級的頻寬[4]。
在VoIP系統中,通過QoS的技術雖然能確保語音封包優先處理與傳送,但是如果此時網絡環境不良,優先傳送的封包發生丟包情形,語音質量依舊會發生不穩定或不良的情形。
3.4 使用顫音緩存
顫音是由于封包遲延產生的,可以在設備接受端使用部分內存作為緩沖區,將沒有到達的封包緩存,并對其進行排序,再按序播放,這樣可以改善顫音的現象。從理論上來講,緩存區越大效果越好,但是這樣會占用寶貴的內存資源。而且,由于聲音是實時的,顫音的處理要在有限時間內完成,因此,太大的緩存空間不但浪費內存,而且還可能使封包延遲更嚴重。
4 結束語
經過上述分析可知,要想提高VoIP語音的通信質量,需要綜合多方面的因素考慮、權衡。要想徹底改變語音質量應該通過改善網絡環境,增加頻寬來實現。但是當網絡環境無法在短期內得到改善時,選擇合適的編解碼將優于傳統的QoS的效果。本文提出的方法,將對VoIP系統語音通信質量的提高,推動VoIP業務的普及具有實際意義。
參考文獻:
[1] 林輝.基于SIP的嵌入式AndroidVoIP語音終端的研究與實現[D].華南理工大學碩士學位論文,2012.
[2] 徐韜.基于Android終端的小型VoIP系統設計與實現[D].大連理工大學碩士學位論文,2011.
摘
要
隨著Internet的迅猛發展,人們已經不滿足于在網絡上傳輸簡單的文本圖像信息,更加豐富的多媒體信息,特別是連續的媒體內容(視頻和音頻)已經開始在互聯網上普及。通過網絡傳輸連續媒體數據為人們呈現出一個極具吸引力的信息交流場景。為了適應這種新的需求,視頻編碼的目標逐漸由傳統的面向存儲變為現在的面向傳輸。
本文首先分析了Internet環境下多媒體數據傳輸的各種解決方法,討論適合網絡傳輸的視頻編解碼方案。在目前的Internet環境下,由于網絡的異構性和傳輸速率的不穩定性,媒體流數據在傳輸的過程中會出現延時、丟失等意外狀況,影響了傳輸的質量。針對這個問題,國內外的學者提出了各種解決方案,主要從網絡體系結構和視頻編解碼框架兩個方面進行考慮。然而網絡體系結構的改變不是一朝一夕的事情,因此,設計新的適合網絡傳輸的視頻編碼算法成為本文研究的重點。
在目前實際應用的網絡多媒體技術中,流媒體技術是主要的應用成果。本文以最新的流媒體解決方案為基礎設計了一個網絡多媒體教學系統,通過該系統的設計與實現,本文分析了現有網絡多媒體技術在Internet環境下所存在的不足。針對這些缺陷,本文提出了一個改進型FGS編碼框架。該框架以基本的FGS編碼方案為基礎,引入了改進的預測算法和碼率的自適應策略等新技術。通過實驗結果證明,該框架在一定的條件下提高了FGS算法的性能。
最后,本文對分析結果進行了總結,提出了相應的觀點和對未來網絡多媒體數據傳輸發展方向的展望。
關鍵詞:面向傳輸,流媒體,精細可擴展性
:34000多字的工學碩士學位論文
有中英文摘要、目錄、參考文獻、大量圖片
400元
參考文獻
[1]呂昕.基于UWB的危化品倉儲堆垛貨物定位技術的研究[D].北京:北京化工大學,2015.
[2]王宇.危險化學品物流[M].北京:化學工業出版社,2010:226-231.
[3]師立晨,王如君,多英全.我國危險化學品重大危險源安全監管存在問題及建議[J].中國安全生產科學技術,2014,12(12):161-166.
[4]楊飛龍,張嘉琪,王敏.基于RFID的危險化學品智能倉儲管理系統[J].安全與環境工程,2015,22(3):111-116.
[5]蔣白樺,索寒生.基于物聯網技術的危化品物流應用平臺研究[J].計算機與應用化學,2014,31(10):1271-1274.
[6]饒運濤,鄒繼軍.電子標簽技術[M].北京:北京航空航天大學出版社,2011:23-27.
[7]陳炯.QRcode碼編解碼技術的研究與實現[D].西安:西安電子科技大學,2012.
[8]徐丹,謝小杰,吳俊.基于二維碼技術的自動化倉庫管理系統的設計[J].計算機與數字工程,2013,41(12):2020-2023.
[9]GB/T18284-2000.中華人民共和國國家標準——快速響應矩陣碼(QRcode)[S].北京:中國標準出版社,2001.
[10]楊坤.地圖溯源管理機制與關鍵技術研究[D].鄭州:中國信息工程大學,2013.
[11]劉悅,劉明業.QRCode二維條碼數據編碼的研究[J].北京理工大學學報,2005,25(4):352-355.
參考文獻:
[1]郝金強.基于樹型設備編碼的可視化倉儲管理系統的設計與開發[D].上海交通大學,2011.
[2]施菁菁.基于ERP的電力物資倉儲管理系統研究[D].華北電力大學,2015.
[3]王德廣,石華,周志剛,王超.基于PDA與WebService的鋼板信息管理系統的實現[J].微型電腦應用,2010,27-31.
[4]國家電網公司編.國家電網公司物資集約化管理[M].中國電力出版社,2012,238-265.
參考文獻
[1]周曉明.SAPEWM高級倉儲管理解決方案[J].無線互聯科技,2014(8).
[2]賈英杰,王慧東.淺議物資倉儲自動化管理[J].科技致富向導,2014(20).
[3]汪淳.基于現代物流管理的自動化倉儲管理解決方案[J].現代商貿工業,2014(3).
[4]鄭庚.我國中小企業商品倉儲管理探討[J].現代交際,2013(1).
參考文獻:
[1]張國衛,孫樹旺.物流倉儲管理實訓課程的研究和應用[J].商場現代化,2014(23).119.
[2]李明華.MOOCs革命:獨立課程市場形成和高等教育世界市場新格局[J].開放教育研究,2013.(3).
[3]楊美濃.基于MOOC的《計算機應用基礎》課程教學設計[J].信息化建設,2016.(07).179-180
論文關鍵詞:元語言意識 兒童閱讀 語音意識 句法意識
論文摘要:兒童元語言意識和閱讀的發展關系一直是心理學家所共同關注的一個重要問題。從元語言及元語言意識的概念含義入手,著重介紹并討論了語音意識和句法意識對兒童閱讀理解能力的影響,從而對研究兒童的元語言的重要性有進一步的認識和了解。
近幾十年來,元語言意識在兒童詞閱讀發展中的重要作用是心理語言學研究中最重要的發現之一,對其研究具有重要的理論意義和實踐意義。下文將以元語言和元語言意識的概念含義為基礎,著重分析探討元語言意識中的語音意識和句法意識對兒童閱讀的影響,在現有研究的基礎上得出一些有益于兒童早期英語教育的結論。
一、元語言及元語言意識
所謂的元語言(metalanguage)是指有關語言的語言,是人類語言的一個普遍現象。它既是語言學家必不可少的描寫工具,以其專業性和技術性而被稱為是語言學家的“行話”(jargon);同時,它又是普通人指稱和談論語言的一種必須手段,因而元語言有雙重性。在兒童的語言教學中,需要培養的基本語言能力有以下兩種:一是理解語言并使用語言表達思想,進行交流;二是描述并理解自己所學和所用的語言。第二種層次的能力就是我們所說的元語言能力。
近年來,認知科學領域的心理學家和語言學家都開始更多關注語言使用者的“元語言意識”(metalinguistic awareness)。元語言意識是指個體思考和反思語言的特征和運作的能力。具有元語言意識的人,能夠有效地認識和思考語言的本質和功能。從事雙語教育研究的學者發現對使用雙語的兒童來說,具有較強的“元語言意識”已經成為他們一個獨特的優勢,因其具有“思考自己的語言、理解詞匯的意義、甚至給這些詞匯下定義”的能力。元語言意識包括四種一般的類型:語音意識、詞素意識、句法意識和語用意識。在兒童讀寫能力發展的不同階段具有不同影響,其中尤以語音意識和句法意識在兒童早期閱讀中的影響最為突出。
二、語音意識的發展對兒童閱讀的影響
語音意識是指操縱和控制語音表征的能力,包括音位意識、音節意識和音節內單元的意識,是對任意一種語音單元的意識。語音意識與個體早期的閱讀有著非常密切的關系,大多數關于兒童語音意識發展的研究都是從語音意識對閱讀能力的影響這一視角進行的。
閱讀是一種高水平信息加工的過程。其中,詞匯通達是基礎性環節。在詞匯通達中,語音解碼起著非常重要的作用。所謂語音解碼就是將書面的言語符號轉換為語音表征系統的過程。在閱讀過程中,語音解碼過程存在兩種機制,一種是詞匯機制,它依賴對整個詞或詞素讀音的直接通達自動尋址語音(Addressed phonology);另一種是非詞匯機制或稱為正字法機制,讀者在閱讀過程可以應用從正字法到語音的聯系將書面詞語的拼寫一一轉換并合成相應的語音表征,這樣得到的語音也被稱為合成語音。在拼音文字系統的閱讀中,一定的語音意識水平對于兒童發現形和音之間的對應規則,利用非詞匯機制進行語音解碼是十分必要的。語音意識可以使兒童進行有效的語音分解和合成,建立起書面語和口語的對應關系,確認不熟悉的單詞以提高單詞識別的速度和自動化的程度,從而提高閱讀能力。
同時,Shankweiler等學者通過對閱讀不良兒童進行大量研究,提出了“語音限制假說”。該假說認為,閱讀不良的兒童的主要問題是在語音加工方面存在缺陷,而且語音加工的缺陷會產生“瓶頸”效應,進一步影響其他語言加工過程的進行。因為語言加工的信息是從語音加工單方向上到達句法和語義加工系統,而工作記憶則充當了這個信息加工過程的中轉站。當語音加工能力不足時,語音加工中的缺陷就制約了整個信息的正常加工,從而阻止了信息向更高級的加工水平進行傳遞。“語音加工缺陷理論”試圖將閱讀困難兒童的復雜原因歸結為語音加工缺陷的結果。因此,根據該理論,語音意識對閱讀應該具有基礎性決定的作用。另外,Gottardo等人對112名三年級兒童語音意識、句法意識、工作記憶以及單詞再認、假詞拼讀和閱讀理解能力進行了考察,結果表明在語音意識和工作記憶被控制的條件下,句法意識對單詞再認、假詞拼寫、閱讀理解都不具預測作用,該結論也進一步證實了“語音缺陷假說”。
由此我們不難得出:語音意識是閱讀能力習得的先決條件,語音加工是閱讀速度和閱讀效率的重要預測指標。但語音意識對閱讀理解的促進作用有兩個先決條件:首先,兒童在學習閱讀前已經具備一定的口語能力,大量的口語表征已經形成,而且詞匯的語音表征和相應的語義聯系已經建立。其次,兒童在閱讀中能有意識地利用非詞匯機制對不熟悉的單詞進行語音解碼,并能夠根據解碼的語音確認不熟悉單詞的意義,從而提高閱讀能力。
三、句法意識的發展對兒童閱讀的影響
句法意識是指個體反思句子內在語法結構的能力,也稱為語法敏感性。Layton 等人將句法意識的發展分為四個水平:(1)獲得默許的句法規則的知識水平;(2)獲得自動的修補策略;(3)知道句法規則的存在并能夠識別出來;(4)把句法知識反應在語言中或相關的任務上。前面兩個水平都是句法上升到意識水平之前必經的準備階段,第三個水平開始才進入了句法意識時期。這樣一種劃分可以使我們更清楚句法意識的范疇,同時也為測量句法意識提供了一個指標。
句法意識與閱讀之間有著密切的關系。語言學家進行的研究發現以下兩點:第一,閱讀優秀兒童的測試成績明顯高于不良閱讀者;第二,被試兒童在學習閱讀前的句法意識測試成績對以后的閱讀成績有預測作用。流利的閱讀不僅需要理解單個詞匯的意思,同時還需要在句子和篇章水平上將這些詞匯進行整合,這就離不開句法分析。句法分析是辨別句子結構,理解句子意義的有效手段,而句法分析能力的高低在很大程度上取決于句法意識的發展水平。一定的句法意識發展水平不僅可以減少句法分析的步驟,提高心理表征的速度,還能澄清模糊的知識來提高閱讀理解能力。
在此基礎上,Tunmer等學者的研究進一步證明,句法意識在控制了語音意識之后仍能解釋詞的解碼能力中的變異。他們認為,句法意識對閱讀成績的影響可能通過下列兩種方式進行:第一種是句法意識使得讀者能更有效地監控他們正在進行的理解過程。兒童的句法意識越高,這種理解監控過程就越有效。第二種方式可能是,句法意識幫助兒童獲得語音編碼的技巧。首先,兒童要獲得形素—音素的對應關系(grapheme-phoneme correspondence)的知識需要經歷較長的時間,初級的讀者不會記住他們遇到的所有不熟悉的詞語。在獲得所有形素—音素對應的知識前,句法意識較好的兒童,能夠反映句子的結構特征,然后利用有關句子語境限制的知識,再結合不完整的正字法和語音信息來認識那些不熟悉的詞匯,也就完成了他們在閱讀中對單詞的解碼。其次,使用語境信息的能力可以幫助初學者發現一些拼寫模式有多于一個以上的發音。例如,字母系列ough 在 cough,rough,dough 里面分別有不同的讀音;當遇到這樣一個包含同形異義拼寫模式的不熟悉單詞時,那些具有語法意識知識的被試能夠產生不同的發音,直到有一個讀音與聽到過的單詞的發音匹配。由此可以看出,句法意識與閱讀的成績可能存在著直接的因果聯系。兒童的句法意識和語音意識可能處于相互促進且相互制約的平衡中,而提高兒童的句法意識能夠在對語音意識起到促進作用的同時提高整體閱讀能力。
綜上所述,元語言意識的發展對提高兒童閱讀能力有著積極的影響,它們之間的關系可歸納為以下幾個方面:第一,元語言意識中的語音意識和句法意識以及其他認知因素一起作用影響閱讀能力的發展。第二,語音意識和句法意識通過不同的途徑影響兒童閱讀能力的發展,即語音意識影響字詞解碼進而影響閱讀理解,而句法意識更多地通過有意識的句法分析而直接影響上下文語境信息的加工。第三,兒童的元語言能力和閱讀能力都有一個發展的過程,它們之間的關系也很有可能處于一種動態的發展中。因此,進行兒童元語言意識與閱讀能力發展影響的研究,既可以豐富已有的研究理論框架,又可以考察已有的研究結果是否具有普遍性,同時為閱讀教學、閱讀障礙糾正等提供理論上的指導和幫助。
參考文獻
[1]Bowey J A.Phonological awareness and learning in novice readers and nonreaders[J].Journal of Experimental Child Psychology,1994.
Cummins J.Bilingualism and the development of metalinguistic awareness[J].Journal of Cross-Cultural Psychology,1991.
Gombert J E.Metalinguistic development[M].Chicago: University of Chicago Press,1993.
丁朝蓬,彭聃齡.漢語兒童英語語音意識與拼寫[J].心理學報,1998,(3).
董燕萍.心理語言學與外語教學[M].北京:外語教學與研究出版社,2005.
封宗信.元語言與外語教學[J].外語與外語教學,2005,(6).
姜濤,彭聃齡.漢語兒童的語音意識特點及閱讀能力高低讀者的差異[J].心理學報,1999,(1).
關鍵詞:信息隱匿,壓縮編碼,數據變換,數據選擇
1 引言
信息隱藏是一門新興的信息安全技術。論文參考。涉及感知學,信息論,密碼學等多個學科領域,涵蓋信號處理,擴頻通信等多專業技術。 近年來得到了迅猛發展。現階段人們一般選擇圖像、文本、音頻和視頻等數字媒體作為載體。另外, 還出現了基于TCP/IP 的信息隱藏技術和基于信道編碼的信息隱藏技術。本文研究的基于壓縮編碼的信息隱藏技術是信息隱藏技術的新領域, 它以多媒體系統中的壓縮數據作為嵌入載體,數據解壓后不影響原始數據數據的結構和統計特性, 具有較強的魯棒性和不可檢測性。
2 壓縮編碼信息隱藏的原理
壓縮編碼是一種提高數據傳輸有效性的技術,它是通過對數據施加某種操作或變換使之長度變短或者容量變小的同時, 還必須保證原始數據能夠從壓縮產生的壓縮碼中得以精確的還原。從信息論的角度來看,壓縮就是去掉信息中的冗余,即保留不確定的信息,去掉確定的信息(可推知的),也就是用一種更接近信息本質的描述來代替原有冗余的描述。這個本質的東西就是信息量(即不確定因素)。信息隱匿和數據壓縮在本質上是相互聯系的:對于數據壓縮來講,一塊數據中隱匿了和數據本身無關的地的其它數據,那這塊隱藏了信息的數據是有一定冗余的,由冗余的數據可以進一步被壓縮,進一步壓縮的就有可能去掉隱匿的數據;對于信息隱匿來說,一塊已被壓縮過的數據冗余量已經很小了,由于隱匿是嵌入的數據和原始數據毫無關系,在這塊數據中進一步隱匿數據,勢必造成原始掩護數據的有效數據的減少,相當于隊已經壓縮的數據進行進一步壓縮。只要保證在接收端解壓中可以恢復原始數據的差錯率,就可以在壓縮編碼后進行信息隱匿,不會引起截獲者懷疑碼字載體中含有秘密信息。
3 壓縮編碼信息隱匿模型實現方案
基于信息隱匿和數據壓縮的關系,提出結構如下的數據壓縮思想的通用隱匿模型。模型主要由三個部分組成:圖像壓縮、信息加密和信息隱匿。圖像壓縮部分的量化器輸出至信息隱匿部分,然后從信息隱匿部分得到隱藏有其他信息的量化數據,并送到熵編碼器,其他內容和標準壓縮過程一致。信息加密部分為傳統的加密方案,其主要目的是增加秘密信息的安全性,使得系統隱匿的信息部分即使被檢測出來,也不會泄露其內容。論文參考。
信息隱匿部分是模擬最核心的內容,這部分主要有三個部分組成:數據變換,數據選擇和嵌入過程。數據變化的主要目的是改變加密后的信息統計特性,使得這些數據嵌入掩護圖像量化后的數據之中,不改變或很少改變掩護圖像的數據統計特性,從而使信息隱匿后的抗檢測性大大增強。數據選擇是從掩護圖像量化后的數據中選擇合適的比特位,用它來隱藏已加密的信息。合理的數據選擇算法應該兼顧信息隱匿的容量,信息隱匿的抗檢測性與魯棒性。嵌入過程式將加密后的信息和選擇出來的數據進行某種運算(通稱為替換或異或),用運算結果替換選擇出來的數據,并將此數據連同未選擇出來的量化數據一并交給圖像壓縮部分的熵編碼進行編碼。
圖1 基于數據壓縮思想的通用信息隱匿模型
通用模型的秘密信息提取過程基本上是隱匿的逆過程,其流程圖如下
圖2通用信息隱匿模型的信息提取過程
壓縮后的數據首先經過熵解碼器解碼,然后進行數據分離,將未嵌入的數據部分送入正常的圖像解碼流程(反量化,反映射變換),而將嵌入數據的部分進行數據提取,如果此過程的算法不是盲的(即需要原始掩護圖像),則需要分離出來的數據和原始掩護圖像經映射變化,量化后的數據進行運算,將結果進行數據恢復、解密、最后得到嵌入的原始秘密信息。
4 隱匿模型的兩種關鍵技術
在這種通用的信息隱匿模型中,數據變換和數據選擇是關鍵技術
數據變換的主要目的是改變加密后的信息統計特性,增強系統信息隱匿的抗檢測性能。改變數據的統計特性的常用方法是進行線性濾波,從本質上來講,線性濾波和線性變換是一致的,從頻域上來看,濾波就是對信號頻譜的不同部分進行不同的縮放。在技術上常就是這樣一個過程:DFT→相乘→IDFT,將這一過程合并為一體時,就成為一個單純的線性變換。在復數域中進行整數的可逆處理時,數據量就會增加一倍,為此可以經DFT換成DCT,這樣這一處理過程就成為一實數域的線性變換問題。
下面介紹整型變換算法的基本過程。
(1)對于給定的線性變換A,如是常見的線性變換,則進行(2),否則對其進行改造,使det| A ‘ |=1。
(2)將A ‘ 分解為3類基本矩陣(置換矩陣,元素的絕對值均不小于1的對角陣,單位三角矩陣)。
(3)對于每一基本矩陣,構造其整型變換,獲得整數輸出。
(4)對于每一步都應有相應的逆變換,所以整個變換的逆變換可以相應的獲得。
(5)對于多維可分離的線性變換,正變換可以逐維的計算;為了保證逆變換對于多維數據的完全重建,應嚴格按照和正變換相反的次序進行逆變換。
實現數據變換時的另一個問題是數據的范圍問題。在實際處理過程中,輸入的數據都是有一定的范圍的(比如原始圖像數據通常用8位無符號數據表示),如果輸出的數據不加以限制,則輸出的數據的范圍一般要增大,這樣就必須用更多的數據表示處理結果。
數據選擇過程是從掩護圖像的量化數據中選擇合適的比特位,用它來隱匿已加密的信息。最基本的做法是選擇掩護數據中的不重要的部分,這樣做得優點是對掩護圖像的質量影響最小,使修改引起別人注意的可能性最小。但是在實際系統中,數據選擇算法應該兼顧信息隱匿的容量,信息隱匿的抗檢測性與魯棒性等多個方面的性能,可以選擇下面三種。
1.LSP(LeastSignificant Portion)最不重要部分
LSP技術和LSB(最不重要比特位)技術基本類似,區別在于LSB平等的對待掩護圖像中的每一字節,不同的字節之間沒有區別,在隱藏時都在數據的最低位取相等比特;而LSP針對變換量化后的數據而言,不同位置的重要程度不同,從中所取的最低有效比特數就不同,其中低頻數據是取得少一些,而在高頻數據中取得多一些。另外,不同位置的數據取值范圍也不一樣,最多的可取比特數也不一樣。論文參考。
2.隨機間隔法
隨機間隔技術是以LSP為基礎的一種方法,在數據選擇時用一個掩密密鑰k作隨機數發生的種子,那么可以生成一個隨機序列k 1 ,…,k l ,并且把它們一起按下列方式生成隱匿信息位置來對經LSP選擇的數據進行進一步選擇:j 1 =k 1
j i =k i +j i-1
從而可以偽隨機決定兩個嵌入位置的距離。這種方法由于隱匿的位置更少,所以更不容易被檢測出來。
3.隨機位置法
隨機位置技術是另外一種偽隨機的方法,它也以LSP技術為基礎。和隨機間隔法不同的是,它對不同的位置變換數據及量化數據的不同比特位賦予不同的選擇概率p 1 ,…,p l ,在數據選擇時也用一個偽裝密鑰k作為隨機發送的種子,那么可以生成一個一個隨機序列k 1 ,…,k l ,當k i ≥p i 時選擇比特,否則不進行選擇。在此方法中選擇合適概率取值方案可以兼顧信息隱匿的容量、懸念吸引你的抗檢測性與魯棒性等多方面的性能,是一種更靈活的方法。當然可以將隨機間隔法和隨機位置發結合起來使用,那是一種更靈活、更復雜的方案。
5 實驗結果
運用本文提出的通用模型,以lena(512像素×512像素),作為掩護圖像,在其中隱匿隨機數據,映射變換采用8×8的DCT,經數據變換過程,結果如下圖所示。圖中從左到右,從上到下依次為:原始圖像,未嵌入數據的JPEG圖像,嵌入不等數據量的JPEG圖像。隨著嵌入數據量的增加,掩護圖像的直觀質量會下降,這種質量的下降類似于不同壓縮比條件下JPEG圖像質量的不同下降,從信息隱匿的角度來看,這種相似性是有利的。
圖3 圖用模型的數據隱匿效果
6 小結
研究了一種基于壓縮編碼的信息隱匿技術,介紹了信息隱匿通用模型的兩種關鍵技術:數據變換和數據選擇技術,通過實驗得到嵌入量與圖像質量的關系。隨著通信技術的不斷發展,信息安全將成為一門很重要的學科,對于通信信息隱匿還要尋找更先進,更合理的算法來達到通信的安全性能。
參考文獻:
[1] KATZENBEISSERS, PETITCOLASFAP.信息隱藏技術—隱寫術與數字水印[M].吳秋新,鈕心忻,楊義先等譯.北京:人民郵電出版社,2001.
[2] 汪小帆,戴躍偉. 信息隱藏技術方法與應用[M].北京:機械工業出版社,2001.
[3]柏森,胡中豫,吳樂華等.通信信息隱匿技術[M].北京:國防工業出版社,2005.
[4]王偉祥, 劉玉君.基于信道編碼的信息隱藏技術研究.[J] 電視技術.2003(3).
關鍵詞:視頻編碼,幀內預測,SATD,快速幀內預測模式選擇
0、引言
H.264/AVC是由聯合視頻專家組JVT(Joint Video Team)于2003年5月正式批準的新一代視頻編碼標準[1、2]。論文指南。與以往的標準相比較,H.264具有壓縮效率高、網絡適應性好和適用于交互和非交互的應用環境的顯著特點,現在得到了廣泛應用,并處于不斷的改進中。
H.264/AVC采用一項重要新技術:基于空間域的幀內預測,它充分利用了圖像的空間相關性,根據已解碼的相鄰塊的信息來預測當前塊的信息,來提高編碼性能。H.264/AVC在RDO(RateDistortion Optimization)模式下進行幀內預測模式選擇,用最少的比特率獲得了最好的編碼效果,但由于H.264/AVC支持的幀內預測模式很多,為了確定一個宏塊(Macroblock,MB)的幀內預測模式,需要計算592種組合模式的率失真代價(RD_Cost),其運算量占整個模式選擇的60%左右,從而使編碼器的復雜度很高。在實際編碼結果中Intra_4×4模式會占據編碼模式中的大部分,因此對RDO模式下4×4子塊的研究非常有必要,對研究快速幀內預測算法具有重要的應用價值。
1、H.264/AVC幀內預測模式
H.264/AVC支持三類幀內預測:一、Intra_4×4是針對4×4亮度塊的預測,有9種預測模式,其中包括DC預測模式(即均值預測模式)和8種具有一定方向性的預測模式;二、Intra_16×16是針對16×16亮度塊的預測,有4種預測模式;三、Intra_8×8是針對8×8色度塊的預測,有4種預測模式,預測模式和Intra_16×16一樣,只是模式編號不一樣。其中Intra_4×4模式由于塊尺寸較小,適用于編碼細節豐富的圖像,且能獲得較小的差值,但同時因其模式數目較多成為幀內編碼的一個瓶頸。論文指南。Intra_16×16模式則比較適用于圖像平坦區域的預測。
(a)(b)
圖1 幀內預測模式方向
2、幀內4×4塊預測的分析
2.1相鄰塊之間的相關性
在編碼時,只需對預測值與實際值的差值進行編碼即可,則充分利用幀內相鄰宏塊間的信息相關性來得到預測值,即是通過當前塊編解碼后的重建過程為緊鄰的下一宏塊提供預測值。具體到本文的4×4塊,相鄰的4×4塊的預測模式之間具有很強的相關性,根據當前4×4塊的左邊塊和上邊塊的預測模式可以預測當前塊的最可能模式(MPM,Most Probable Mode)。利用該相關性可以減少預測模式的選擇數目,從而可以減少編碼的比特數。
2.2RDO下全搜索(FS)的幀內預測模式選擇過程
具體的幀內模式選擇過程[3]如下:
(1)分別計算9種Intra_4×4模式的率失真代價(RD_Cost) ,選擇具有最小代價的模式。代價函數RD_Cost = SSD +λmode×Rate,其中SSD(Sum of SquaredDifference)表示當前塊與重建塊之間的差值平方和;λmode = 0.85×2(QP - 12) /3 (QP為塊的量化參數);Rate表示熵編碼后的碼率。論文指南。
(2)把16個4×4塊最小的RD_Cost相加得到當前宏塊Intra_4×4的RD_Cost。
(3)按類似方法分別計算4種Intra_16×16模式的SAD(Sum of Absolute Difference),選擇具有最小SAD的模式。計算該模式下的RD_Cost,得到當前宏塊Intra_16×16方式下的RD_Cost。
(4)比較前兩步獲得的RD_Cost,選擇具有最小RD_Cost的模式作為該宏塊的幀內預測模式。
(5)Intra_8×8色度宏塊的預測方法與亮度類似。
2.3 減小幀內預測復雜度的常用方法
為了減小幀內預測的復雜度,一般有兩種方法:(1)簡化代價函數;(2)縮小預測模式選擇的范圍。此方法可以利用當前塊及其周圍像素的某些特征,預先排除某些可能性很小的預測模式,或提前終止某些可能性小的模式的代價計算,從而降低幀內預測的復雜度。PAN Feng等利用子塊邊緣的變化方向從預選模式中選取最有可能的預測方向,算法中采用邊緣梯度直方圖的方法在幾種最有可能的預測方向中選取最佳預測方向[4];Meng Bojun等提出EIPMS算法,利用代價函數和多閾值的方法提高了4×4的子塊的編碼速度[5];文獻[6]利用下采樣方法,用RD模型替代率失真方法選擇預測模式;這些算法雖然大幅度降低了復雜度,但是因實現起來較麻煩、編碼性能有一定的損失或是圖像質量下降等問題,需要進一步的改進。
3、Intra_4×4模式選擇的快速算法
本文提出的模式選擇快速算法是基于上述所提到的兩種方法。在SAD(Sum of Absolution Difference)代價函數模型下,可以通過圖像亞采樣等方法,以代價函數的局部計算為手段達到目的。并利用當前塊及其相鄰像素的某些特征,預先排除某些可能性很小的預測模式,達到降低算法復雜度的目的。
3.1 SAD/SATD代價函數
通過計算公式(3-1),選擇值最小的所對應的模式為最佳模式。
Cost=SA(T)D+4R×λ(QP) (3-1)
其中,λ(QP)是關于QP的指數函數,4R是對使用某種預測模式后形成比特數的估計,R根據當前模式是否為最有可能的模式取值為0或1。SAD為原始圖象象素和編碼重建圖象象素的絕對值差的和。為了更加準確的計算Cost值,通常將原始圖象象素和重建圖象象素的差值進行Hadamard變換,將其轉換到變換域。
由于SATD與率失真(RD)性能有很強的相關性,所以利用SATD作為判斷準則,預先排除掉一些可能性小的預測模式降低復雜度。相鄰的4×4塊的預測模式之間具有很強的相關性,相鄰塊的關系如圖2所示,其中D是當前的4×4亮度塊,A、B和C分別為左上、上邊和左邊的4×4亮度塊。可以根據它們的預測模式確定當前4×4塊的最可能預測模式,故可以選擇相鄰4×4塊預測模式的SATD值作為閾值,預先排除掉SATD大于該閾值的模式,這樣可以預先排除大約50%的Intra4×4模式,避免了很多不必要的代價(Cost)計算,通過實現自適應閾值降低預測的計算復雜度。
引入閾值T,計算4×4塊在最可能的預測模式下的Cost4×4值,如果Cost4×4的結果小于閾值T,那么就把它作為當前4×4亮度塊的最佳預測模式;否則,繼續計算其他的預測模式。在這里閾值T的選取就是至關重要的地方,如果T較小,則不能有效的減少需要計算的預測模式數;否則如果T較大,較容易選擇“最可能的預測模式”,作為最終的結果,不能有效的找到當前塊的最佳預測模式。一般的,在圖像內容比較復雜的區域,可以適當的增大T的值;否則,應該減小T的值。另外,T的選擇與QP值的大小也有關系;當QP較大時,預測誤差較大,則應該適當的增大T的值;否則,應該減小T的值。據經驗分析,如果最可能的預測模式就是最佳預測模式,絕大多數情況下D塊的預測殘差與A或B或C塊的預測殘差十分接近。而SATD值反應的是預測模式對當前紋理結構的近似效果,所以取A、B和C塊Cost4×4值較小的一個作為D塊的Cost4×4預測期望值。再將λ(QP)的作用考慮內,我們將閾值T設定為:
T=min(CostA,CostB,CostC)+kλ(QP)(3-2)
關鍵詞:數字電影 電影技術 系統設計
中圖分類號:TP391 文獻標識碼:A 文章編號:1672-3791(2013)03(a)0021-01
電影是一門藝術化的技術,也是一門技術化的藝術,能夠采用特有的技術處理手段,藝術的表達導演的一些想法,因此,電影的表達也離不開技術的支撐。隨著數字技術的發展,數字電影技術也得到了迅猛發展,并且已經基本取代了傳統的膠片電影技術市場。
本論文主要結合數字電影技術,詳細分析現有的數字電影技術,并在此基礎上構建基于數字電影技術的數字電影系統,以期能夠為數字電影技術的發展提供可供借鑒的技術應用模式,并以此和廣大同行分享。
1 數字電影技術分析
1.1 數字電影技術概述
數字電影,顧名思義,是和計算機相結合起來的一種電影技術,目前,數字電影技術,主要是指以數字設備實現的攝像、存儲,并通過數字設備實現電影內容的傳輸傳送,最后經過專業設備將數字信號還原成影像信號并進行播放。
傳統的電影攝制是將影像信號攝錄在膠片上,這種電影技術具有分辨率大、信息量大的優勢,但是由于膠片不易保存和傳輸,因此對于電影的傳輸普及帶來不便;而數字電影的出現很好的解決了這一問題,目前數字電影基本上都是采用高清攝像機直接獲取高清質量的數字影像,也可以采用膠片拍攝電影,在后期將膠片掃描為數字信號。
數字電影技術的發展,大大推動了電影技術的普及和大眾化應用,這得益于計算機技術的飛速發展,數字電影技術最主要還是指的電影攝制的數字化,以及所需配套的數字化制作、數字化放映等設備的應用。
1.2 數字電影技術發展應用現狀
早在上個世紀90年代,好萊塢一大批震驚世界的電影,無不采用了數字電影合成技術,例如《星球大戰》、《泰坦尼克號》、《黑客帝國》等等,讓觀眾感受到了傳統膠片電影所無法實現的視覺感官感受。目前全球數字電影的制作已經超過了幾千部,主要以歐美國家為主。我國的數字電影技術發展也很快,已經建立的全亞洲最大的數字電影技術中心,以及數字電影拍攝、發行、放映等一系列技術應用也有很大的提升,這些都表明我國數字化電影技術的快速發展和進步,但主要應用設備還是大量的依賴進口或合資生產。
另一方面,數字電影的發展,必然也推動了數字放映設備的建設。目前,全球數字電影銀幕數達到7萬多塊,我國城市影院建設保持高速發展的態勢,截止到2012年底,全國銀幕數從2002年的1845塊增加到了現有的13118塊,其中2K數字銀幕超過1.2萬塊,主流院線影院基本全面實現數字化放映。
近兩年來,數字中間片(DI)技術成為世界電影行業最引人關注的話題之一。所謂數字中間片技術,一般是指整個后期制作都在數字平臺上進行。數字中間片技術的目的主要有兩個:一是為了開發傳統工藝難以實現甚至無法實現的功能,從而取得更靈活、更豐富的創作手段;二是為了提高影片質量,降低制作成本。數字中間片工藝主要有膠片掃描(膠轉數)、套底、調色、特效和修飾、制作字幕、數字母版制作和膠片記錄(數轉膠)等。出于技術和成本的原因,目前的數字中間片技術大多還是基于2K分辨率的,屬于一種折中的解決方案,僅能滿足DCI中的低檔要求。目前,數字中間片的實施與研究還主要集中在美、歐的一些發達國家,并已具備了相當的規模。
2 數字電影系統設計探討
2.1 數字電影系統結構設計
相較于傳統的膠片電影技術,數字電影系統由于采用了數字技術,因而能夠很方便的實現數字化的攝制、存儲和傳輸,但是其前提是必須要能夠很好的解決圖像的實時傳輸存儲問題。為此,數字電影系統的基本結構可以設計由如下幾個部分構成。
(1)數字式圖像傳感器。
數字電影的攝制,首要解決的就是數字化拍攝的問題,為此可以采用數字式圖像傳感器,通過配合光學取景器,將鏡頭前的內容直接攝制并轉化為數字信號,傳輸給圖像處理單元。
(2)高速圖像處理單元。
高速圖像處理單元是實現數字電影的關鍵結構單元,在整個系統中處于類似CPU的角色,主要負責對數字圖像的編解碼、灰度處理、二值化處理,以及對數字信號的還原等處理,從而確保數字圖像的實時攝錄和編解碼。
(3)數字存儲器。
目前常用的數字存儲器通常都是硬盤,既能夠大幅降低數字電影系統的成本,同時又提高了數字電影存儲、傳輸的兼容性,有利于數字電影的普及推廣和傳輸應用。
(4)交互數字單元。
交互數字單元主要是負責實現數字電影的互動及特效等場景的二次編輯加工,其內含基于DSP單片機的編輯器能夠很方便的實現對音頻信號的加工,以及對色彩、亮度等視頻信號的編輯和調整,極大的豐富了數字電影的加工手段和方式。
2.2 數字電影配套系統分析
數字電影要實現大規模的推廣和應用,不僅僅需要數字電影攝錄設備,不是只依靠高清數字攝像機就能夠實現數字電影技術的普及應用的,對于數字電影相配套的系統,也必須要大力發展,才能夠最終推動整個數字電影系統的不斷發展和應用。
數字電影系統處理需要數字化攝錄設備,還必須配套數字化編輯設備,數字化放映設備。數字化編輯設備目前主要集中的數字化平臺的應用,包括對膠片影像的掃描,數字影像的再加工等內容;數字化放映設備則主要包括數字電影的立體式放映及多感交互式互動系統,目前國外已經發展到4D立體式放映系統,能夠很好的實現數字電影的多感交互放映。
3 結語
數字電影技術是電影技術發展的里程碑,它實現了過去傳統無法實現的一些創作,更為重要的是,數字電影技術的出現,使得個人創作電影成為了可能,只要擁有一臺數字電影設備,以及具備編輯修改的多媒體系統,就能夠實現數字電影的創作,這對于電影藝術的大眾化普及是具有深遠影響的。目前數字影院發展態勢蓬勃,使得數字電影技術有了很大的應用空間。本論文簡要探討了數字電影技術及其系統的設計,對于數字電影技術的普及發展和提高,無論是在理論研究還是在實踐應用方面,都具有較好的指導借鑒意義。
參考文獻
[1] 陳犀禾.虛擬現實主義和后電影理論—— 數字時代的電影制作和電影觀念[J].當代電影,2001(2):23-24.
[2] 劉兆君.數字技術與電影[J].劇作家,2006(5):78-79.
2001中南地區廣播電視技術討論會技術論文二等獎 多媒體信息是未來人類獲取信息最主要的載體,因此它已成為目前世界上技術開發和研究的熱點。視頻信息作為多媒體信息中最被關注、數據量最大的一員,現在也正面臨著一場其意義不亞于從模擬到數字的技術進步革新:從傳統的矩形DCT變換編碼到根據視頻內容、劃分對象、分別變換編碼的新的編碼方法。
一、傳統的編碼方式
傳統的視頻編碼是以視頻信號的數字量為編碼對象的,與視頻信息的內容無關,無論是M-JPEG、MPEG-1還是MPEG-2,都是以DCT矩形變換塊為變換編碼單元,對DCT塊內圖像的亮度和色度進行特征取樣,提取像素;采用幀間編碼、運動估測技術,在參考幀幀內DCT編碼的基礎上,對DCT塊內圖像的像素特征進行差值預測編碼。基于矩形DCT編碼的視頻編碼在設計思想上只考慮到對信號數據進行處理的需要(比如小的比特率以利于傳輸、高的比特率以保證質量),但未考慮視頻信息--圖像內容本身的含義和重要性,以及視頻信息應用者的主觀需求(比如部分內容的提取功能)。另外,這種基?quot;塊"的壓縮算法在低碼率時容易產生"方塊效應"和"抽幀",大大縮小了視頻信息的應用領域。
小波變換是一種新的變換編碼方法,它與DCT變換相比,考慮到了視頻信號對不同應用環境的自適應性(不同的清晰度與比特率),可以將基礎圖像層與增強圖像層分離編碼傳輸,用戶可根據實際情況選擇是否打開增強圖像層。但無論用戶選擇是或否,被傳送的視頻信息卻都是一樣的。
二、 基于內容對象的編碼
1、 VO與VOP概念的引入
傳統的視頻編碼方式是將整個視頻信號作為一個內容單體來處理,其本身不可再分割,而這與人類對視覺信息的判別法則,也就是大腦對視神經導入的視覺信號的處理方法是完全不同的。這就決定了我們不可能將一個視頻信息完整的從視頻信號中提取出來,比如:將加有臺標和字幕的視頻恢復成無臺標、字幕的視頻。解決問題的惟一途徑就是在編碼時就將不同的視頻信息載體--視頻對象VO(Video Objects)區分開,獨立編碼傳送,將圖像序列中的每一幀,看成是由不同的VO加上活動的背景所組成。VO可以是人或物,也可以是計算機生成的2D或3D圖形。VO具有音頻屬性,其屬性賦值可能?quot;有"或者是"無"。但音頻的具體內容數據是獨立于視頻編碼、傳輸的。VO概念的引入,更加符合人腦對視覺信息的處理方式,并使視頻信號的處理方式從數字化進展到智能化。提高了視頻信號的交互性和靈活性,使得更廣泛的視頻應用和更多的內容交互功能成為可能。
現代圖像編碼理論指出,人眼捕獲圖像信息的本質是"輪廓-紋理",即人眼感興趣的是VO的一些表面特性,如形狀、運動、紋理等。VO的表面往往是不規則的、千變萬化的,但可將其視為一定視角下,n個形狀規則的、具有一定紋理的剖面的組合的連續運動,這些剖面的組合稱為視頻對象面VOP(Video Object Profile)。VOP描述了VO在一定視角條件下的表面特性。VOP的編碼主要由兩部分組成:一個是形狀編碼,另一個是紋理和運動信息編碼。VOP紋理編碼和運動的預測、補償在原理上同MPEG-2基本一致,而形狀編碼技術則是首次應用在圖像編碼領域。
2、新的編碼技術
合成VO的獨立編碼 在以前,2D或3D動畫被看作是視頻的一部分,并一概以視頻的方法來處理。實際上,根據合成VO的合成機理和特性,大部分合成VO都可以用通用的有關圖形文本的多種表達方式來描述。非復雜性合成VO將被視為一種獨立于視頻的數據類型來編碼,并定義了其描述框架、通用的數據流結構和靈活的接口。而復雜性合成VO和自然VO的編碼方法,將采用以下的編碼方法。
基于矩形窗口的VOP分割 考慮到與現有標準的兼容,目前已得到應用的VO編碼技術,比如MPEG4,仍采用了基于矩形窗口的內容分割法。編碼時,首先利用像素特征統計,將每一個VOP都限定在一個矩形窗口內,稱之為VOP窗口(VOP Window),取窗的原則為:長、寬均為16像素的整數倍(便于對現有標準的兼容和將來的擴展),同時保證VOP窗口中非VOP的宏塊數目最少。目前標準中的視頻幀可認為是一個無VOP的特例,在編碼過程中將形狀編碼模塊屏蔽掉就可以了。在一個VOP窗口內,VOP剖面的形狀也是采用8×8像素的矩形形狀。針對不同的VOP,可以根據不同的應用場合和運動、變化的特點,采用固定的或可變的VOP幀頻(即VOP刷新頻率)。
矩形窗口分割法并不能體現VOP的具體形狀信息。為了確認采用矩形窗口分割法的VOP的形狀信息,就引入了形狀編碼技術。形狀編碼其實并不是什么新技術,它在計算機圖形學、計算機視覺領域早有應用。而目前的視頻編碼標準中的位圖技術其實就是形狀編碼的簡單特例。位圖采用矩陣的形式來表示二值(0或1)的形狀信息,具有較高的編碼效率和較低的運算復雜度。VOP的形狀信息有兩類:邊緣信息和灰度信息。邊緣信息用0、1來表示VOP的形狀,0表示非VOP區域,1表示VOP區域。對于包含一定透明度的VOP區域,可以用灰度信息(取值0~255之間)來表示透明程度,其中0表示完全透明,255表示完全不透明。對于模糊邊緣部分,可將其視為灰度信息從周圍已知VOP區域的灰度值向0值的過渡區域,采用內插法確定其形狀信息。
基于小波變換的VOP分割 基于矩形窗口的VOP分割依舊存在"塊效應"問題,而基于小波變換的VOP分割則可以很好的解決這個問題,而且由于這種分割方法的本身就包含了VOP的形狀信息,所以無需另對形狀信息進行判別與編碼。基于小波變換的VOP分割方法是目前最為活躍的視頻編碼課題研究領域,各種算法不斷的被發表,但基本上可以劃分為兩類方法:
1、利用圖像灰度特征分割:不同的圖像具有不同的灰度分布,利用小波變換,將圖像變換到小波域,產生各層、各子帶圖像。小波變換后,大部分的能量是集中在低頻子帶圖像上,即大面積的平均灰度區域信息主要在低頻子帶圖像中體現。根據信息論的原理,確定多個灰度閾值,可以將具有不同灰度的VOP從低頻子帶圖像中分離。同時再利用高頻子帶圖像以及模糊數學模型,確定每一個VOP的邊緣信息。利用圖像灰度特征分割的小波變換,是沿掃描方向的單方向變換。
2、利用圖像紋理特征分割:紋理是一種局部特征反復出現的結果,它體現了圖像的局部頻域信息。對于一幅數字圖像,進行多方向的小波變換是可行的,比如對一幀畫面進行垂直方向或對角線方向的小波變換。經過多種小波變換后可得到不同方向的各子帶圖像,它們各自蘊涵著不同紋理的局部頻譜信息和紋理走向等信息。對具有相同頻譜特征的圖像局部進行聚類分析,并根據紋理頻譜和紋理走向確定該聚類的紋理邊緣。根據信息論原理和運動估測,將運動矢量具有相關性的聚類二次歸類于不同的對象(即VOP),并影射成不同灰度顯示。多級小波變換的結果最多可線性的影射成0~255灰度級顯示。進行小波變換的方向越多,各方向的夾角越小,圖像分割也就越準確,但計算量也隨之迅速膨脹。根據局域紋理中心頻率的變化自適應地選擇小波變換的級數(幾個方向的變換)和方向,有助于在圖像分割的準確性和計算量之間達到平衡。正如本文前面所述,人眼捕獲圖像信息的本質?quot;輪廓-紋理",故基于多方向小波變換的提取圖像特征、分割紋理圖像的方法符合人眼視覺生理的特點,是紋理圖像分析的重要發展方向。
無論是哪一種方法,當得到不同VOP的不同灰度表示之后,通過類似于鍵技術的多通道處理,即可得到多個原始的彩色VOP。目前實驗表明,基于小波變換的圖像分割在邊界上仍有些模糊,但總體效果還是相當滿意的,達到了分割紋理圖像的目的。
VOP運動信息編碼和運動補償 人眼在觀看圖像時,會自動跟蹤人所感興趣的VOP。即人看的不是時間軸上的信息,而是VOP的運動軌跡---光流軸上的信息。光流軸是VOP上的一點在活動圖像上的運動軌跡,它在不同的幀中位于不同的空間位置,其意義在于:VOP自身的各種變化都將映射于光流軸上的一點。光流軸信息的獨立編碼將帶來諸多好處:(1)在編碼時,對于剛性VOP,由于它在運動中不會發生形狀和紋理上的變化,故該VOP只需要完成一次采樣、編碼,而后就只需發出幾個運動矢量指明它的光流軸即可;對于非剛性VOP,只需在發生變化時才需要重新采樣、編碼,這就使得不同的VOP采用不同的VOP幀頻成為可能,將編碼的數據率最低限度的降低。(2)VOP在運動中的各種變化都將"留跡"于光流軸,當在進行運動補償時,比如不同制式之間的轉換或者慢動作的制作,就可以根據光流軸映射信息,采用內插法得出時間軸上某一確定點的VOP狀態,達到無損轉換的目的。(3)在時間軸上,簡單的將一個圖像序列的兩路信號疊加,隨即噪波和圖像的活動部分都得不到增強;若在光流軸上進行信號疊加,活動圖像的降噪問題就得到了簡單解決。
VOP的運動估測是指:分析兩個或更多幀上的VOP,確定光流軸,以判斷下一幀中VOP可能出現的位置。VOP的運動補償是指:根據VOP光流軸的取向和光流軸上VOP自身變化得映射信息,矯正VOP在時間軸上的運動矢量。運動預測和運動補償技術可以去除圖像信息中的時間冗余成分,VOP的運動信息編碼可視為從像素向任意形狀的VOP的延伸。
紋理編碼 在已得到實際應用的MPEG-4中,VOP的紋理編碼基本上仍采用基于8×8像素塊的DCT方法,有3種模式:幀內編碼模式(I-VOP)、幀間預測編碼模式(P-VOP)和幀間雙向預測編碼模式(B-VOP)。編碼時,對于完全位于VOP內的像素塊,則采用經典的DCT方法;對于完全位于VOP之外的像素塊則不進行編碼;對于部分在VOP內,部分在VOP外的像素塊則首先采用圖像填充技術來獲取VOP之外的像素值,之后再進行DCT編碼。
依據視覺特性的紋理編碼目前仍處于理論研究階段,其目標是:建立常見紋理局部特征符號集,定義描述紋理分布、走向的多媒體語言。以人臉為例:人臉定義參數(FDP)描述了特定人臉紋理形狀模型與通用人臉模型之間的差別,通過接收到的各種FDP,能把通用的人臉模型變換成由其形狀和紋理確定的特定人臉。人臉動畫參數(FAP)描述了特定的人臉表情與中性表情的變化關系,通過接收到的各種FAP能生成人臉的各種表情以及與聲音同步的嘴唇活動等。這樣的合成編碼不僅可極大地提高編碼效率(可獲得1kbps的超低碼率),而且為制作新的人臉等對象提供了方便。
分級編碼 多媒體的應用場合具有不同的信道帶寬、處理能力、顯示能力及用戶需求,要求在解碼端支持時域、空間及質量的上伸縮性,即分級編碼。分級編碼可以通過視頻對象層VOL(Video Object Layer)的數據結構來實現。每一種分級編碼都至少有2層VOL,低層稱為基本層,高層稱為增強層。空間伸縮性可通過增強層強化基本層的空間分辨率來實現,因此在對增強層中的VOP進行解碼之前,必須先對基本層中相應的VOP進行解碼。同樣對于時域伸縮性,可通過增強層來增加視頻序列中某個VO(特別是運動的VO)的幀率,使其與其余區域相比更為平滑。
三、 新的技術標準--MPEG 4
首次采用VO編碼技術的視頻編碼標準是由MPEG 4。MPEG 4于1999年年初正式成為國際標準(標準號為ISO/IEC 14496),在1999年12月的后繼版本中增加了可變形、半透明視頻對象及其工具的先進功能,它進一步提高了編碼效率,并與第一版反向兼容。
1、MPEG 4標準的構成
1) DMIF(The Dellivery Multimedia Integration Framework):多媒體傳送整體框架協議。MPEG-4標準將眾多的多媒體應用集成于一個完整的框架內,旨在為多媒體通信及應用環境提供靈活的算法及工具,用于實現音視頻數據的有效編碼及更為靈活的存取。它解決了多領域中多媒體應用個性化交互操作的問題。
2) 解碼器:定義了MPEG-4系統特殊的解碼模式(SDM),要求特殊的緩沖區和實時模式。
3) 音頻編碼:支持自然聲音和合成聲音,支持音頻的對象特征。
4) 視頻編碼:支持自然和合成的視覺對象,合成的視覺對象包括2D、3D動畫和人面部表情動畫等。
5) 場景描述BIFS(Binary Format for Scene description):關于一組VO的時空結構關系的參數信息,主要描述了各VO在一具體背景下的相互關系與同步等問題,以及VO及其背景的知識產權保護等問題。BIFS與VO對象特征信息的編碼、傳輸是相對獨立的。場景描述信息編碼及其的獨立傳輸是實現用戶端編輯操作的關鍵:在解碼之后和場景合成之前,用戶可以通過對BIFS參數的重新設置來對VO 進行多種編輯操作,如增減、縮放、平移,甚至一些特技效果。
下面的表格反映了MPEG體系的部分技術指標。MPEG-4是高比率有損壓縮(比如將一個9 GB的DVD視頻壓縮拷貝到只有700MB空間的CD-ROM上),其圖像質量始終無法與MPEG-2相比。當MPEG-4與MPEG-2的碼率輸出相同時,其質量仍稍遜于MPEG-2。同時,MPEG 4對硬件的要求也較高。事實上,我們注意到MPEG-4在保證令人滿意的圖像質量的情況下,更注重較低的數據率和靈活的交互功能。
2、MPEG 4編碼器
MPEG 4編碼簡化原理圖如圖一。
對于輸入視頻序列,通過分析確認n個視覺目的對象為編碼對象,將其認定為n個VO(n=1,2,3…),對每一個VO編碼后形成這個VO的VOP數據流。VOP的編碼包括對運動(采用運動預測方法)及形狀、紋理(采用變換編碼方法)的編碼。由于VOP具有任意形狀,因此要求編碼方案可以處理形狀(Shape)和透明(Transparency)信息,這就是與只能處理矩形幀序列的現有視頻編碼標準的根本區別。在MPEG-4中,矩形幀被認為是VOP的一個特例,這時編碼系統不用處理形狀信息,退化為類似于MPEG-1、MPEG-2的傳統編碼系統,同時也實現了與現有標準的兼容。除去VO的其余圖像部分--背景,仍采用傳統的矩形DCT變換編碼;VO場景描述信息(VO自身信息,如VO對象的知識產權、和VO間的位置、邏輯關系等)也要進行編碼,最后和VOP流、背景一起送入MPEG 4幀復合器,生成MPEG 4流輸出。
需指出的是:在VO分割后,每一個VO都需要一個VOP編碼通道,在圖一中只畫出了一個。多個VOP幀發生器的輸出在MPEG 4幀復合器中可實現靈活地多路復用編碼或同步并行傳輸編碼,以適應各種傳輸環境和要求。MPEG 4解碼是以上編碼過程的逆過程。可以看出,獨立于背景的VO編碼可以實現接收端的用戶對VO對象進行選擇性地操作。
3、MPEG 4視頻編碼功能與特點
MPEG 4標準的制定有兩個目標:低比特率的多媒體通信和多工業的多媒體通信的綜合。即MPEG-4遵循靈活的編碼工具框架體系,設計了一個開放的編碼系統,對于不同的應用采用不同的編碼算法,以達到低比特率通信的目標。MPEG-4解碼器是可編程的,相應的解碼信息可與內容本身一起傳輸下載。與現有的MPEG-1和MPEG-2視頻壓縮相比,MPEG-4視頻有一些重要的改進:
1)基于內容的交互功能: MPEG-4提供了全新的交互方式,根據制作者的具體自由度設計,在有限的時間內可實現對多媒體VO的時域隨機存取(從不同的源獲取內容或向不同的源發送內容)、快速搜索、改變場景的視角、改變場景中物體的位置、大小和形狀,或對該對象進行置換甚至清除。
2)支持自然及合成信息的混合編碼(NHC:Synthetic and Natural Hybrid Coding):MPEG-4支持合成信息的編碼,可對合成的VO及其活動信息進行參數化描述。對于頻繁出現的視覺對象則分別定義了它們的紋理形狀和動畫參數。
3)高效編碼:包括視頻VO數據的高效編碼和多個并發數據的有效同步編碼。
4)基于內容的伸縮性:是指分級編碼后,紋理、圖像和視頻基于內容的伸縮性,視頻序列中時域、空間及質量的伸縮性,表現為時域實時或非實時、數據率大小及重建的圖像質量上。
5)可變的最終輸出:不同的碼率意味著支持不同的功能集。功能集的底層是VLBV核心(VLBV:Very Low Bit Rate Video),它為最低達5-64kbits/s視頻操作與應用提供算法與工具,支持較低的空間分辨率(低于352×288像素)和較低的幀頻(低于15Hz)。VLBV核心功能包括:矩形圖像序列的有效編碼、多媒體數據庫的搜索和隨機存取。MPEG-4的HBV(HBV: High Bit Rate Video,范圍在64kbits/s-4Mbits/s之間)同樣支持上述功能,但它同時還支持較高的空間與時間分辨率。其輸入可以是ITU-R 601的標準信號,因此其典型應用為數字電視廣播與交互式檢索。
與MPEG-1和MPEG-2相比,MPEG-4的特點是其更適于交互式AV服務以及遠程監控。MPEG-4是第一個允許用戶端操作的的視頻編碼標準。MPEG 4的特點非常適合于互聯網上的交互式影視服務:可適應各種應用終端的物理網絡環境,可實現對視音頻內容的交互操作,具有下載解碼能力(在一定的硬件基礎上,可下載解碼工具,對不同編碼方式的內容進行解碼處理)。MPEG-4的設計目標還有更廣的適應性和可擴展性:因特網多媒體應用、交互式視頻游戲、實時可視通信、交互式存儲媒體應用、廣播電視、演播室技術及電視后期制作、多媒體內容存儲和檢索、采用面部動畫技術的虛擬會議、多媒體郵件、移動通信條件下的多媒體應用、可視化合作實驗室場景應用、遠程視頻監控、通過ATM網絡等進行的遠程數據庫業務等等。
從矩形幀到VOP,MPEG-4順應了現代圖像壓縮編碼的發展潮流,即從基于DCT的傳統編碼向基于對象和內容的現代編碼的轉變。從這個意義上講,MPEG-4視頻編碼技術翻開了圖像編碼史上嶄新的一頁。
四、 MPEG 4視頻產品
在2001 NAB會展上,多家公司推出了他們的MPEG 4產品。Amnis公司推出了基于IP平臺的MPEG4視頻流技術,展示了可以重放MPEG1, MPEG2和MPEG4的桌面軟件。Envivo 公司陳列了他們的應用于IP網絡或MPEG2節目數據廣播的MPEG4端到端解決方案。該方案是純軟件的,支持視頻、音頻和合成的2D動畫的MPEG4方式編碼,以及對MPEG 4文件的版權保護。Optibase公司推出的MGW系列是一個插件式的多通道流服務器系列,可插入不同的編碼模塊以適應不同的需求,其中MGW 4000是支持MPEG4(兼容MPEG1和MPEG2)的流服務器。Optibase還推出了支持多媒體和交互MPEG4流的IP實時編碼、分配平臺。最后,Optibase展示了從MPEG 1到MPEG 4的實時轉碼技術。Philips 提供了一個從制作到重放的、端到端的網上MPEG-4解決方案:包括互動內容編輯器(支持網上MPEG-4視頻流的搜索、剪輯和編輯)、實時軟件MPEG-4編碼器(甚至支持簡單視頻和AAC音頻的無線編碼)、通用多點分配IP平臺和解碼軟件(WebCine' player支持Win95,Win2000和NT操作系統;WinCE用于手提電腦;Trimedia是一個網上廣播機頂盒)。SUN 公司也推出了他們的通用MPEG-4流服務器。
微軟在它現在的WIN98和WIN2000操作系統中也已加入了一個MPEG-4的播放器,叫做Divx。它可以回放仍是以.AVI為后綴的MPEG 4文件。Divx可以附加到MPEG-4的數據流中,并可以進行設置以適應不同的使用要求。Divx視頻編碼技術是由 Microsoft MPEG4 V3 修改而來,使用MPEG 4壓縮算法,打破了ASF的種種協定。但MPEG4畢竟是一種高比率有損壓縮,其圖象質量始終無法和 DVD 的 MPEG2 相比,即便是在MPEG4碼率和DVD碼率差不多時,總體效果還是有距離(在雜亂的細節上稍有模糊)。所以目前的MPEG4 只能面向于娛樂和欣賞方面的市場。
市場上的第一張DIVX-MPEG4格式的影碟《活火熔城》,長98分鐘,采用512×288 16:9格式,幀頻24幀/秒,64KB立體聲音頻。影片由720×480 16:9 30幀/秒的MPEG2制式轉刻,刻在單張CD盤片上。
六、結 尾