《西部廣播電視》2001.10發表。
2001中南地區廣播電視技術討論會技術論文二等獎。
多媒體信息是未來人類獲取信息最主要的載體,因此它已成為目前世界上技術開發和研究的熱點。視頻信息作為多媒體信息中最被關注、數據量最大的一員,現在也正面臨著一場其意義不亞於從模擬到數字的技術進步革新:從傳統的矩形dct變換編碼到根據視頻內容、劃分對象、分別變換編碼的新的編碼方法。
一、傳統的編碼方式。
傳統的視頻編碼是以視頻信號的數字量為編碼對象的,與視頻信息的內容無關,無論是m-jpeg、mpeg-1還是mpeg-2,都是以dct矩形變換塊為變換編碼單元,對dct塊內圖像的亮度和色度進行特徵取樣,提取像素;採用幀間編碼、運動估測技術,在參考幀幀內dct編碼的基礎上,對dct塊內圖像的像素特徵進行差值預測編碼。基於矩形dct編碼的視頻編碼在設計思想上只考慮到對信號數據進行處理的需要(比如小的比特率以利於傳輸、高的比特率以保證質量),但未考慮視頻信息--圖像內容本身的含義和重要性,以及視頻信息應用者的主觀需求(比如部分內容的提取功能)。另外,這種基?quot;塊"的壓縮算法在低碼率時容易產生"方塊效應"和"抽幀",大大縮小了視頻信息的應用領域。
小波變換是一種新的變換編碼方法,它與dct變換相比,考慮到了視頻信號對不同應用環境的自適應性(不同的清晰度與比特率),可以將基礎圖像層與增強圖像層分離編碼傳輸,用戶可根據實際情況選擇是否打開增強圖像層。但無論用戶選擇是或否,被傳送的視頻信息卻都是一樣的。
二、 基於內容對象的編碼。
1、 vo與vop概念的引入。
傳統的視頻編碼方式是將整個視頻信號作為一個內容單體來處理,其本身不可再分割,而這與人類對視覺信息的判別法則,也就是大腦對視神經導入的視覺信號的處理方法是完全不同的。這就決定了我們不可能將一個視頻信息完整的從視頻信號中提取出來,比如:將加有台標和字幕的視頻恢復成無台標、字幕的視頻。解決問題的惟一途徑就是在編碼時就將不同的視頻信息載體--視頻對象vo(video objects)區分開,獨立編碼傳送,將圖像序列中的每一幀,看成是由不同的vo加上活動的背景所組成。vo可以是人或物,也可以是計算機生成的2d或3d圖形。vo具有音頻屬性,其屬性賦值可能?quot;有"或者是"無"。但音頻的具體內容數據是獨立於視頻編碼、傳輸的。vo概念的引入,更加符合人腦對視覺信息的處理方式,並使視頻信號的處理方式從數字化進展到智能化。提高了視頻信號的交互性和靈活性,使得更廣泛的視頻應用和更多的內容交互功能成為可能。
現代圖像編碼理論指出,人眼捕獲圖像信息的本質是"輪廓-紋理",即人眼感興趣的是vo的一些表面特性,如形狀、運動、紋理等。vo的表面往往是不規則的、千變萬化的,但可將其視為一定視角下,n個形狀規則的、具有一定紋理的剖面的組合的連續運動,這些剖面的組合稱為視頻對象面vop(video object profile)。vop描述了vo在一定視角條件下的表面特性。vop的編碼主要由兩部分組成:一個是形狀編碼,另一個是紋理和運動信息編碼。vop紋理編碼和運動的預測、補償在原理上同mpeg-2基本一致,而形狀編碼技術則是首次應用在圖像編碼領域。
2、新的編碼技術。
合成vo的獨立編碼 在以前,2d或3d動畫被看作是視頻的一部分,並一概以視頻的方法來處理。實際上,根據合成vo的合成機理和特性,大部分合成vo都可以用通用的有關圖形文本的多種表達方式來描述。非複雜性合成vo將被視為一種獨立於視頻的數據類型來編碼,並定義了其描述框架、通用的數據流結構和靈活的接口。而複雜性合成vo和自然vo的編碼方法,將採用以下的編碼方法。
基於矩形窗口的vop分割 考慮到與現有標準的兼容,目前已得到應用的vo編碼技術,比如mpeg4,仍採用了基於矩形窗口的內容分割法。編碼時,首先利用像素特徵,將每一個vop都限定在一個矩形窗口內,稱之為vop窗口(vop window),取窗的原則為:長、寬均為16像素的整數倍(便於對現有標準的兼容和將來的擴展),同時保證vop窗口中非vop的宏塊數目最少。目前標準中的視頻幀可認為是一個無vop的特例,在編碼過程中將形狀編碼模塊屏蔽掉就可以了。在一個vop窗口內,vop剖面的形狀也是採用8×8像素的矩形形狀。針對不同的vop,可以根據不同的應用場合和運動、變化的特點,採用固定的或可變的vop幀頻(即vop刷新頻率)。
2001中南地區廣播電視技術討論會技術論文二等獎。
多媒體信息是未來人類獲取信息最主要的載體,因此它已成為目前世界上技術開發和研究的熱點。視頻信息作為多媒體信息中最被關注、數據量最大的一員,現在也正面臨著一場其意義不亞於從模擬到數字的技術進步革新:從傳統的矩形dct變換編碼到根據視頻內容、劃分對象、分別變換編碼的新的編碼方法。
一、傳統的編碼方式。
傳統的視頻編碼是以視頻信號的數字量為編碼對象的,與視頻信息的內容無關,無論是m-jpeg、mpeg-1還是mpeg-2,都是以dct矩形變換塊為變換編碼單元,對dct塊內圖像的亮度和色度進行特徵取樣,提取像素;採用幀間編碼、運動估測技術,在參考幀幀內dct編碼的基礎上,對dct塊內圖像的像素特徵進行差值預測編碼。基於矩形dct編碼的視頻編碼在設計思想上只考慮到對信號數據進行處理的需要(比如小的比特率以利於傳輸、高的比特率以保證質量),但未考慮視頻信息--圖像內容本身的含義和重要性,以及視頻信息應用者的主觀需求(比如部分內容的提取功能)。另外,這種基?quot;塊"的壓縮算法在低碼率時容易產生"方塊效應"和"抽幀",大大縮小了視頻信息的應用領域。
小波變換是一種新的變換編碼方法,它與dct變換相比,考慮到了視頻信號對不同應用環境的自適應性(不同的清晰度與比特率),可以將基礎圖像層與增強圖像層分離編碼傳輸,用戶可根據實際情況選擇是否打開增強圖像層。但無論用戶選擇是或否,被傳送的視頻信息卻都是一樣的。
二、 基於內容對象的編碼。
1、 vo與vop概念的引入。
傳統的視頻編碼方式是將整個視頻信號作為一個內容單體來處理,其本身不可再分割,而這與人類對視覺信息的判別法則,也就是大腦對視神經導入的視覺信號的處理方法是完全不同的。這就決定了我們不可能將一個視頻信息完整的從視頻信號中提取出來,比如:將加有台標和字幕的視頻恢復成無台標、字幕的視頻。解決問題的惟一途徑就是在編碼時就將不同的視頻信息載體--視頻對象vo(video objects)區分開,獨立編碼傳送,將圖像序列中的每一幀,看成是由不同的vo加上活動的背景所組成。vo可以是人或物,也可以是計算機生成的2d或3d圖形。vo具有音頻屬性,其屬性賦值可能?quot;有"或者是"無"。但音頻的具體內容數據是獨立於視頻編碼、傳輸的。vo概念的引入,更加符合人腦對視覺信息的處理方式,並使視頻信號的處理方式從數字化進展到智能化。提高了視頻信號的交互性和靈活性,使得更廣泛的視頻應用和更多的內容交互功能成為可能。
現代圖像編碼理論指出,人眼捕獲圖像信息的本質是"輪廓-紋理",即人眼感興趣的是vo的一些表面特性,如形狀、運動、紋理等。vo的表面往往是不規則的、千變萬化的,但可將其視為一定視角下,n個形狀規則的、具有一定紋理的剖面的組合的連續運動,這些剖面的組合稱為視頻對象面vop(video object profile)。vop描述了vo在一定視角條件下的表面特性。vop的編碼主要由兩部分組成:一個是形狀編碼,另一個是紋理和運動信息編碼。vop紋理編碼和運動的預測、補償在原理上同mpeg-2基本一致,而形狀編碼技術則是首次應用在圖像編碼領域。
2、新的編碼技術。
合成vo的獨立編碼 在以前,2d或3d動畫被看作是視頻的一部分,並一概以視頻的方法來處理。實際上,根據合成vo的合成機理和特性,大部分合成vo都可以用通用的有關圖形文本的多種表達方式來描述。非複雜性合成vo將被視為一種獨立於視頻的數據類型來編碼,並定義了其描述框架、通用的數據流結構和靈活的接口。而複雜性合成vo和自然vo的編碼方法,將採用以下的編碼方法。
基於矩形窗口的vop分割 考慮到與現有標準的兼容,目前已得到應用的vo編碼技術,比如mpeg4,仍採用了基於矩形窗口的內容分割法。編碼時,首先利用像素特徵,將每一個vop都限定在一個矩形窗口內,稱之為vop窗口(vop window),取窗的原則為:長、寬均為16像素的整數倍(便於對現有標準的兼容和將來的擴展),同時保證vop窗口中非vop的宏塊數目最少。目前標準中的視頻幀可認為是一個無vop的特例,在編碼過程中將形狀編碼模塊屏蔽掉就可以了。在一個vop窗口內,vop剖面的形狀也是採用8×8像素的矩形形狀。針對不同的vop,可以根據不同的應用場合和運動、變化的特點,採用固定的或可變的vop幀頻(即vop刷新頻率)。