專利名稱:動態(tài)圖像編碼裝置和動態(tài)圖像編碼方法
技術(shù)領(lǐng)域:
本發(fā)明涉及動態(tài)圖像編碼裝置和動態(tài)圖像編碼方法,特別涉及在利用于電視電話 或電視會議等實時影像聲音通信系統(tǒng)時,降低延遲、或防止數(shù)據(jù)的下溢的動態(tài)圖像編碼裝 置和動態(tài)圖像編碼方法。
背景技術(shù):
近年來,伴隨著影像壓縮技術(shù)的發(fā)展和通信線路的發(fā)展,電視電話或電視會議等 影像聲音通信裝置得到普及。另外,在便攜式電話等移動產(chǎn)品中也開始搭載能夠進行實時 影像聲音通信的功能。而另一方面,由于攝像技術(shù)、壓縮技術(shù)的進展,能夠拍攝HDOlighDefinition 高 清晰度)影像的照相機產(chǎn)品也在市場上登場,HD畫質(zhì)的實時影像聲音通信也倍受期待。但 是HD影像的實時影像聲音通信由于數(shù)據(jù)量的增大,兩地點間的延遲增大,存在雙方的交流 不能夠順利進行的問題。作為降低上述影像聲音通信延遲的動態(tài)圖像編碼裝置,可列舉專利文獻1或?qū)@?文獻2。在專利文獻1中,發(fā)送側(cè)接受到當在接收側(cè)檢測出解碼錯誤的情況下發(fā)出的畫面 更新請求,清空發(fā)送緩存器的數(shù)據(jù),降低延遲。另外,緊接著的輸入動態(tài)圖像,通過幀內(nèi)處理 而幀內(nèi)編碼,從而防止再次在接收側(cè)發(fā)生解碼錯誤。在專利文獻2中,利用更簡單的邏輯,僅在發(fā)送側(cè)降低延遲。即,監(jiān)視發(fā)送緩存器, 當存在一定量以上的存儲數(shù)據(jù)的情況下,在進行動態(tài)圖像的幀內(nèi)編碼后,清空發(fā)送緩存器 內(nèi)的數(shù)據(jù)。由此降低在接收側(cè)的延遲,防止解碼錯誤的產(chǎn)生。專利文獻1 日本特開平7-193821號公報專利文獻2 日本特開2006-80788號公報
發(fā)明內(nèi)容
利用專利文獻1、專利文獻2,能夠降低延遲,并消除接收側(cè)的解碼錯誤。但是,在專利文獻1中,必須在對從編碼數(shù)據(jù)的清空處理至下一動畫的編碼數(shù)據(jù) 完成為止所需的時間進行預測的基礎(chǔ)上,將最低限度發(fā)送所必要的編碼數(shù)據(jù)殘留在發(fā)送緩 存器中。這種情況下,因為準確的緩存器內(nèi)編碼數(shù)據(jù)的發(fā)送定時的預測較為困難,所以由于 緩存器內(nèi)部編碼數(shù)據(jù)殘余量的最佳的值與實際值的差異,可能會產(chǎn)生發(fā)送緩存器內(nèi)部的下 溢(underflow)。而在專利文獻2中,因為在等待幀內(nèi)編碼結(jié)束后進行發(fā)送數(shù)據(jù)的清空,所以延遲 降低的定時可能會推遲。另外,一般在進行影像聲音通信的情況下,影像和聲音被多路復用為例如 TS (Transport Stream 傳輸流)或PS (Program Stream 程序流)等格式而發(fā)送。在專利 文獻1和專利文獻2中,均考慮了圖像單位(I圖像;Intra Picture 幀內(nèi)圖像、P圖像;CN 101860751 A
說明書
2/9頁
Predictive Picture 預測圖像、B 圖像;Bi-directionally Predictive Picture 雙向預 測圖像)的邊界,但因為在沒有意識到TS、PS這樣的MPEG (Moving PictureExperts Group 運動圖像專家組)系統(tǒng)層的包邊界的情況下清空發(fā)送緩存器內(nèi)的數(shù)據(jù),所以接收流的包邊 界可能會因接收側(cè)的解碼裝置而產(chǎn)生偏離,產(chǎn)生解碼錯誤。本發(fā)明的目的鑒于以上各點,在于提供降低延遲并防止數(shù)據(jù)的下溢的動態(tài)圖像編 碼裝置和動態(tài)圖像編碼方法。另外,提供遵從接收側(cè)的動態(tài)圖像編碼裝置中的可編碼輸入 格式的限制的、解碼錯誤較少的動態(tài)圖像編碼裝置和動態(tài)圖像編碼方法。為完成上述目的的本發(fā)明,是編碼動態(tài)圖像的動態(tài)圖像編碼裝置,其特征在于, 包括拍攝被拍攝體而生成上述動態(tài)圖像的攝像部;壓縮上述動態(tài)圖像的數(shù)據(jù)量的壓縮電 路;存儲從該壓縮電路供給的上述動態(tài)圖像的壓縮數(shù)據(jù)的流緩存器;將存儲在該流緩存器 的上述動態(tài)圖像的壓縮數(shù)據(jù)向網(wǎng)絡(luò)發(fā)送的通信電路;和對上述動態(tài)圖像編碼裝置進行動 作控制的系統(tǒng)控制部,當存儲在上述流緩存器的壓縮數(shù)據(jù)的存儲量為規(guī)定閾值以上的情況 下,該系統(tǒng)控制部按照使從上述流緩存器讀出上述壓縮數(shù)據(jù)的位置在時間軸上向前前進的 方式進行控制。另外,本發(fā)明是編碼動態(tài)圖像的動態(tài)圖像編碼方法,包括拍攝被拍攝體而生成上 述動態(tài)圖像的攝像步驟;壓縮上述動態(tài)圖像的數(shù)據(jù)量的壓縮步驟;存儲在該壓縮步驟生成 的上述動態(tài)圖像的壓縮數(shù)據(jù)的存儲步驟;將在該存儲步驟存儲的上述動態(tài)圖像的壓縮數(shù)據(jù) 向網(wǎng)絡(luò)發(fā)送的通信步驟;和控制上述壓縮步驟和存儲步驟及通信步驟的控制步驟,該系統(tǒng) 控制步驟,具有判定在上述存儲步驟存儲的上述動態(tài)圖像的壓縮數(shù)據(jù)的存儲量是否為規(guī)定 閾值以上的存儲量判定步驟,當在該存儲量判定步驟的判定的結(jié)果,判定在上述存儲步驟 存儲的上述動態(tài)圖像的壓縮數(shù)據(jù)的存儲量為規(guī)定閾值以上的情況下,按照使從上述存儲步 驟讀出上述壓縮數(shù)據(jù)的位置在時間軸上向前前進的方式進行控制。根據(jù)本發(fā)明,能夠提供降低延遲的動態(tài)圖像編碼裝置和動態(tài)圖像編碼方法。在某 實施方式中,能夠提供防止數(shù)據(jù)的下溢的動態(tài)圖像編碼裝置和動態(tài)圖像編碼方法。在其它 實施方式中,能夠提供接收側(cè)的動態(tài)圖像解碼裝置中的解碼錯誤較少的動態(tài)圖像編碼裝置 和動態(tài)圖像編碼方法。在任一情況下,均具有能夠提高電視電話或電視會議的系統(tǒng)的易用 性的效果。
圖1是表示本發(fā)明的一實施例的編碼裝置的硬件結(jié)構(gòu)圖。圖2是實施例1的編碼裝置整體的流程圖。圖3是實施例1的編碼裝置的壓縮工序的流程圖。圖4是實施例1的編碼裝置的網(wǎng)絡(luò)發(fā)送工序的流程圖。圖5是實施例2的編碼裝置的網(wǎng)絡(luò)發(fā)送工序的流程圖。圖6是實施例2的編碼裝置的修正大小計算方法。圖7 是 Open GOP (開放 G0P)和 Closed GOP (封閉 G0P)的概念圖。圖8是實施例3的編碼裝置的網(wǎng)絡(luò)發(fā)送工序的流程圖。圖9是實施例4的編碼裝置的壓縮工序的流程圖。圖10是實施例4的編碼裝置的網(wǎng)絡(luò)發(fā)送工序的流程圖。
符號說明100…編碼裝置、101…透鏡、102…攝像元件、103…照相機DSP、104…麥克風、 105…影像壓縮電路、106…聲音壓縮電路、107…影像聲音多路電路、108…流緩存器、109... 通信電路、110…通信輸入端子、111…系統(tǒng)控制部、600…傳輸流、700…Open GOP的比特流、 701…Open GOP的解碼順序、702…Closed G0P的比特流、703…Closed G0P的解碼順序
具體實施例方式以下使用圖1 圖10,對本發(fā)明的實施例進行詳細說明。圖1是表示本發(fā)明的一個實施例編碼裝置100的硬件結(jié)構(gòu)圖,能夠應(yīng)用于以下所 述的實施例1至實施例4。如圖1所示,包括透鏡101、攝像元件102、照相機DSP (Digital Signal Processor 數(shù)字信號處理器)103、麥克風104、影像壓縮電路105、聲音壓縮電路 106、影像聲音多路電路107、流緩存器108、通信電路109、通信輸入輸出端子110、系統(tǒng)控制 部 111。在實時影像聲音通信中,從存在于遠程的解碼裝置發(fā)出開始請求,編碼裝置接收 該請求并開始處理。發(fā)送影像的編碼裝置100首先將從透鏡101輸入的光信號利用攝像 元件102變換為電信號,并將模擬電信號變換為數(shù)字信號。照相機DSP103將從攝像元件 102輸入的影像信號變換為能夠輸入影像壓縮電路105的形式。來自麥克風104的聲音輸 入信號被輸入聲音壓縮電路106。由影像壓縮電路105壓縮后的影像基本流(Elementary Stream)和由聲音壓縮電路106壓縮后的聲音基本流,被影像聲音多路電路107分包為TS 或PS等格式,存儲到流緩存器108。通信電路109是進行與外部設(shè)備的通信的電路,將存儲 在流緩存器108的內(nèi)容向網(wǎng)絡(luò)發(fā)送。與外部的通信能夠經(jīng)由輸入輸出端子110和因特網(wǎng)等 網(wǎng)絡(luò)進行。系統(tǒng)控制部111控制編碼裝置100的系統(tǒng)整體。具體而言,控制照相機DSP103、 影像壓縮電路105、聲音壓縮電路106、影像聲音多路電路107、流緩存器108和通信電路 109,執(zhí)行實時影像聲音通信系統(tǒng)的發(fā)送側(cè)處理。流緩存器108使用RAM (Random Access Memory 隨機訪問存儲器),存儲分包后的 流。通信電路109既可以是無線用線路也可以是有線用線路,但若是無線則能夠省略通信 輸入輸出端子110。發(fā)送接收的數(shù)據(jù)是壓縮的影像聲音流,但另外也能夠發(fā)送接收文件傳 送協(xié)議等各種指令。系統(tǒng)控制部111主要由CPU (Central Processing Unit:中央處理器) 和快閃存儲器構(gòu)成,CPU將預先存儲在快閃存儲器中的程序加載而執(zhí)行。使用圖2 4說明本發(fā)明的一實施例。圖2是本實施例中的從編碼至網(wǎng)絡(luò)發(fā)送的 編碼裝置整體的流程圖。在步驟S200中,編碼裝置100的通信電路109接受來自存在于遠 程的解碼裝置的發(fā)送開始請求。當接受到發(fā)送開始請求時,系統(tǒng)控制部111據(jù)此對上述各 結(jié)構(gòu)要素進行控制,執(zhí)行步驟S201的攝像工序。編碼裝置100對作為編碼對象的動畫進行 攝像,并輸入到影像壓縮電路105。具體而言,在攝像工序S201中,由透鏡101取得的光信 號在攝像元件102中被變換為電信號,并利用照相機DSP103變換為能夠輸入到影像壓縮電 路105的形式,向影像壓縮電路105供給。另外,麥克風104拾取的聲音信息也被供給至聲 音壓縮電路106。接著在步驟S202的壓縮工序中,對由攝像工序S201生成的輸入動畫和輸入 聲音進行編碼。在影像的編碼的種類中,可利用MPEG2(IS0/IEC 13818)或MPEG4AVC/H. 264(IS0/IEC 14496-10)等。另外,在聲音的編碼中,利用 AAC(Advanced Audio Coding 高級音頻編碼)或AC3(Dobly-Digital Audio Code number 3 杜比數(shù)字音頻編碼3)等。 但是,即使是上述以外的編碼方式,只要是請求方的解碼裝置支持的編碼方式就能夠使用。 具體而言,由影像壓縮電路105編碼后的影像數(shù)據(jù)和由聲音壓縮電路106編碼后的聲音數(shù) 據(jù),在被影像聲音多路復用電路107多路復用后,存儲在流緩存器108。當壓縮工序S202結(jié)束時,執(zhí)行步驟S203的網(wǎng)絡(luò)發(fā)送工序。在網(wǎng)絡(luò)發(fā)送工序S203 中,使用通信電路109將存儲在流緩存器108中的壓縮流向解碼裝置(未圖示)發(fā)送。當網(wǎng)絡(luò)發(fā)送工序S203的執(zhí)行結(jié)束時,在步驟S204中,判定是否從解碼裝置接收到 發(fā)送停止請求,若沒有接收到(圖中的“否”),則從步驟S201的攝像工序開始重復處理。而 當接收到發(fā)送停止請求時(圖中的“是”),則結(jié)束處理。圖3是詳細說明實施例1中的步驟S202的壓縮工序的流程圖。此處,在防止上述 發(fā)送緩存器內(nèi)部的下溢中存在特征。在步驟S300中,利用影像壓縮電路105和聲音壓縮電路106,對由攝像工序S201 生成的輸入影像信號和聲音信號進行編碼。編碼以圖像單位進行。在步驟S301中,系統(tǒng)控 制部111判定剛已編碼的圖像類別是否為I圖像。是否為I圖像的判定,可以根據(jù)表示壓 縮流中的圖像類別的信息進行判定,而因為I圖像是G0P(GroUp Of Picture:圖像組)開 頭,所以也可以通過數(shù)圖像張數(shù)進行判定。當判定是I圖像編碼的情況下(圖中的“是”), 在步驟S302中,系統(tǒng)控制部111存儲I圖像的開頭位置,轉(zhuǎn)移至步驟S303。在步驟S301中,當判定剛已編碼的圖像類別不是I圖像的情況下(圖中的“否”), 轉(zhuǎn)移至步驟S303的處理。在步驟S303中,系統(tǒng)控制部111判定已結(jié)束編碼的流數(shù)據(jù)大小 是否超過由解碼裝置請求的發(fā)送大小。在超過請求的發(fā)送大小的情況下(圖中的“是”), 結(jié)束步驟S202的壓縮工序,轉(zhuǎn)移至步驟S203的網(wǎng)絡(luò)發(fā)送工序。在不超過請求的發(fā)送大小 的情況下(圖中的“否”),轉(zhuǎn)移至步驟S300,重復下一圖像的編碼處理。另外,在不超過請 求的發(fā)送大小的情況下,也執(zhí)行步驟S203的網(wǎng)絡(luò)發(fā)送工序。像這樣,將數(shù)據(jù)大小與由解碼裝置請求的發(fā)送大小進行比較,將比后者量多的數(shù) 據(jù)存儲在流緩存器108中,由此,能夠可靠地防止流緩存器108的下溢。另外,由解碼裝置 請求的發(fā)送大小多為十至數(shù)十k字節(jié)左右。圖4是詳細說明實施例1中的步驟S203的網(wǎng)絡(luò)發(fā)送工序的流程圖。此處,在上述 降低延遲中存在特征。在步驟S400中,系統(tǒng)控制部111判定存儲在流緩存器108的流數(shù)據(jù)大小是否超過 規(guī)定閾值。閾值可以由系統(tǒng)設(shè)計者設(shè)定最佳的值,也可以由用戶設(shè)定。一般來說,HD畫質(zhì) 的TS流的比特率為lOMpbs 25Mpbs的范圍,每1G0P產(chǎn)生640k字節(jié) 1. 6M字節(jié)左右的 編碼信息量。因為1G0P為0. 5秒,所以若需要將編碼裝置的延遲控制在0. 5秒以內(nèi),則應(yīng) 當設(shè)定為500k字節(jié)左右。當在步驟S400中判定為不超過閾值的情況下(圖中的“否”),因為通信順利進 行,產(chǎn)生延遲的可能性較小,所以轉(zhuǎn)移至步驟S403,通信電路109將存儲數(shù)據(jù)依次向網(wǎng)絡(luò)發(fā) 送。在判定超過閾值的情況下(圖中的“是”),因為產(chǎn)生延遲的可能性較大,所以轉(zhuǎn)移至步 驟S401,系統(tǒng)控制部111判定在圖3的步驟S302中存儲的I圖像開頭位置是否存在于未 發(fā)送數(shù)據(jù)區(qū)域。未發(fā)送數(shù)據(jù)區(qū)域是指,在通信電路109讀出存儲于流緩存器108的流數(shù)據(jù)的位置和影像聲音多路復用電路107向流緩存器108寫入的位置之間的數(shù)據(jù)區(qū)域。在步驟 S401中,當判定I圖像開頭位置存在于未發(fā)送數(shù)據(jù)區(qū)域的情況下(圖中的“是”),在步驟 S402中系統(tǒng)控制部111將I圖像開頭位置設(shè)定為下一讀出位置的基礎(chǔ)上,在步驟S403中, 通信電路109將流緩存器108的存儲數(shù)據(jù)向網(wǎng)絡(luò)發(fā)送。當判定I圖像開頭位置不存在于未 發(fā)送數(shù)據(jù)區(qū)域的情況下(圖中的“否”),向步驟S403轉(zhuǎn)移,通信電路109將流緩存器108的 存儲數(shù)據(jù)依次向網(wǎng)絡(luò)發(fā)送。另外,當在流緩存器108的存儲數(shù)據(jù)中存在多個I圖像的情況下,可以將最新存儲 的I圖像,即時間軸上最后的I圖像設(shè)定為下一讀出位置。由此能夠使降低延遲的效果變 大。像這樣,在流緩存器108中的存儲數(shù)據(jù)超過閾值、延遲成為問題的情況下,直到I 幀為止發(fā)送電路109跳轉(zhuǎn)讀出位置并進行發(fā)送,從而降低延遲。在將圖3所示的壓縮工序S202和圖4所示的網(wǎng)絡(luò)發(fā)送工序S203進行組合的情況 下,本實施例實現(xiàn)下述作用若流緩存器108的存儲數(shù)據(jù)為例如10k字節(jié)以下則防止數(shù)據(jù)的 下溢,若例如為500k字節(jié)以上則降低延遲。以上使用圖2 圖4,表示作為本發(fā)明的實施例之一的在實時影像聲音通信中降 低延遲的例子。由此,能夠在編碼裝置側(cè)不產(chǎn)生等待時間而降低由網(wǎng)絡(luò)環(huán)境等外在因素產(chǎn) 生的延遲。另外,存在下述優(yōu)點通過使流緩存器108的讀出位置跳轉(zhuǎn)至I圖像邊界,能夠 使由數(shù)據(jù)接收的延遲造成的解碼裝置側(cè)的影像的紊亂控制在最小限度。另外,還存在下述 優(yōu)點因為在S202的壓縮工序中,確認由解碼裝置請求的大小是否為流緩存器之上,所以 不產(chǎn)生下溢。實施例2接著,使用圖5和圖6,說明S203的網(wǎng)絡(luò)發(fā)送工序中的與實施例1不同的延遲降低方法。一般而言,在TV電話裝置或TV會議系統(tǒng)中,影像和聲音各自的元素流由像影像聲 音多路復用電路107等的多路復用部多路復用為TS或PS等,向網(wǎng)絡(luò)發(fā)送。TS和PS分別是 一定的包大小(TS為192字節(jié),PS為2048字節(jié))的連續(xù),另外,包大小與影像或聲音的幀 大小沒有關(guān)系。另外,解碼裝置側(cè)一般將分包為TS形式或PS形式的流分離為影像和聲音的元素 流后進行解碼。于是,若因解碼裝置導致正常的流不能輸入到影像聲音分離電路中,則不能 夠進行正常的分離處理,可能會失敗。即,因解碼裝置,在被輸入包邊界的周期為不一定的 流時,存在不能正常地進行影像聲音的分離的可能性。為了不因解碼裝置而使基于實施例1的延遲降低方法有效,需要與包邊界的周期 一致地使讀出位置跳轉(zhuǎn)。圖5是對圖4的網(wǎng)絡(luò)發(fā)送工序S203的處理加上包邊界條件的例子。在步驟S500 中,根據(jù)上次網(wǎng)絡(luò)發(fā)送工序之前發(fā)送的流數(shù)據(jù)大小和包大小,計算到包邊界位置為止的修 正大小。對于該修正大小的意義和計算方法,后面使用圖6進行說明。接著,在步驟S501 中,系統(tǒng)控制部111判定存儲在流緩存器108中的流數(shù)據(jù)大小是否超過規(guī)定閾值。閾值可 以與圖4的步驟S400相同地由系統(tǒng)設(shè)計者設(shè)定最佳的值,也可以由用戶設(shè)定。在不超過閾 值的情況下(圖中的“否”),因為產(chǎn)生延遲的可能性較小,所以轉(zhuǎn)移至步驟S504,通信電路109將流緩存器108的存儲數(shù)據(jù)依次向網(wǎng)絡(luò)發(fā)送。在超過閾值的情況下(圖中的“是”),因 為產(chǎn)生延遲的可能性較大,所以轉(zhuǎn)移至步驟S502,系統(tǒng)控制部111判定下述位置是否存在 于未發(fā)送數(shù)據(jù)區(qū)域,該位置為從在圖3的步驟S302中存儲的I圖像開頭位置,減去在步驟 S500計算的修正大小而求得的位置(以下,稱為I圖像開頭修正位置)。在步驟S502中, 當判定I圖像開頭修正位置存在于未發(fā)送數(shù)據(jù)區(qū)域的情況下(圖中的“是”),在步驟S503 中,系統(tǒng)控制部111將I圖像開頭修正位置設(shè)定為下一讀出位置,在步驟S504中,通信電路 109將流緩存器108的存儲數(shù)據(jù)向網(wǎng)絡(luò)發(fā)送。當在步驟S502中I圖像開頭修正位置不存在 于未發(fā)送數(shù)據(jù)區(qū)域的情況下(圖中的“否”),向步驟S504轉(zhuǎn)移,將流緩存器108的存儲數(shù) 據(jù)依次向網(wǎng)絡(luò)發(fā)送。圖6是表示將修正大小的計算方法應(yīng)用于附有時間標記的TS的例子的圖。此處 令圖中標記為發(fā)送完成的部分的包為上次發(fā)送的。附有時間標記的TS的包大小為192字 節(jié),由解碼裝置請求的發(fā)送大小與TS包大小無關(guān)。于是如圖所示,發(fā)送可能會在最后的包 的途中結(jié)束。在流緩存器108的數(shù)據(jù)大小比規(guī)定閾值小、延遲不成為問題的情況下,在下一 發(fā)送中,從結(jié)束上次發(fā)送的包的途中依次發(fā)送,所以在解碼裝置不會產(chǎn)生解碼錯誤的問題。但是,在流緩存器108的數(shù)據(jù)大小比規(guī)定閾值大,延遲成為問題的情況下,當以下 一 I圖像開頭位置作為開始位置開始發(fā)送時,存在下述問題。在圖6中令標記為I圖像開 頭位置之處存在下一 I圖像。I圖像位于包的開頭。因此,包邊界的周期偏離規(guī)定值,在解 碼裝置中可能會產(chǎn)生解碼錯誤。根據(jù)由解碼裝置請求的發(fā)送大小和包大小,能夠知道結(jié)束上次發(fā)送的位置。求該 位置與下一包邊界的差,從而求得圖示的修正大小(斜條紋部分)。令I(lǐng)圖像開頭位置之前 修正大小的位置為I圖像開頭修正位置,以此為下一發(fā)送的開始位置,則包邊界的周期不 會變化。因此上述解碼錯誤的問題能夠解除。另外,在此時,從流緩存器108讀出壓縮數(shù)據(jù) 的位置,移動包大小的整數(shù)倍。若由解碼裝置請求的發(fā)送大小總是為包大小的倍數(shù)大小,則該修正大小總是為0。 但是,在由解碼裝置請求的發(fā)送大小不是包大小的倍數(shù)的情況下,包邊界發(fā)生偏離。于是, 在圖5的步驟S500,系統(tǒng)控制部111在發(fā)送時每次計算修正大小。另外,圖6的例子以TS 為例進行了說明,但對于PS,或其它的分包方式,通過同樣地計算修正大小,能夠避免解碼錯誤。以上,使用圖5、6表示在用于降低延遲的讀出位置跳轉(zhuǎn)時,考慮包邊界進行跳轉(zhuǎn) 的例子。如以上所述,在以若輸入不考慮包邊界的不正確的流則會失敗的解碼裝置來接收 的情況下,也能夠正常地執(zhí)行延遲縮減處理。接著,使用圖7和圖8,對能夠防止解碼裝置中的解碼錯誤的另外的其它實施例進 行說明。MPEG2或MPEG4AVC/H. 264這樣的影像壓縮規(guī)格,存在OpenGOP (開放G0P)和 Closed GOP(封閉GOP)兩種G0P結(jié)構(gòu)。在圖7中,(a)表示Open G0P的例子,(b)表示 Closed G0P的例子。OpenGOP的比特流的結(jié)構(gòu)像圖7(a)的700那樣排列,在接收它的解碼 裝置中以701所示的順序進行解碼。在解碼時各圖像各自向后移動2圖像,但G0P邊界不 變。因此,在701的G0P邊界,后面的G0P開頭的B圖像參照其前相鄰的G0P的末尾P圖像 解碼。即,Open G0P是指具有以其前相鄰的G0P的圖像為參照圖像的B圖像的G0P。
8
一般來說,流的分割編輯等常以GOP單位進行,但在開放G0P(0pen GOP)的情 況下,由于上述B圖像的影響,若將G0P邊界之后的流從開頭進行解碼,則由于解碼裝 置可能會引起解碼錯誤,因此,設(shè)定斷鏈標記。斷鏈標記是在OPEN GOP中按照無視參 照上一 G0P的B圖像的方式進行指示的標志。于是,設(shè)定斷鏈標記的流,能夠?qū)⒖梢圆?用解碼對象的圖像這一情況,對解碼裝置進行通知。另外,在MPEG2的情況下,斷鏈標 記能夠設(shè)定為MPEG視頻層的GOP包開頭內(nèi)。另外,在MPEG4AVC/H. 264的情況下,能 夠設(shè)定為 NAL(NetworkAbstraction Layer 網(wǎng)絡(luò)抽象層)單元的 SEI (Supplemental Enhancement Information 補充增強信息)。另一方面,Closed G0P取像圖7(b)的702那樣的比特流結(jié)構(gòu),在接收它的解碼裝 置,按703所示的順序進行解碼。解碼時各圖像向后各自移動1圖像,但因為G0P邊界也同 樣地移動,所以相對關(guān)系不變。此處為避免圖的復雜化,以沒有B圖像的情況進行表示,但 也有存在B圖像的Closed G0P。這種情況下,在后半的G0P中沒有參照其前相鄰的G0P的 圖像。另外,在只有I圖像和P圖像的G0P結(jié)構(gòu)的情況下,必然成為Closed G0P的流。如以上所述,實施例1和實施例2表示的讀出位置跳轉(zhuǎn)單元和包邊界跳轉(zhuǎn)單元,在 緊接跳轉(zhuǎn)后進行讀出的G0P是Open G0P的情況下,在解碼裝置側(cè)可能會引起解碼錯誤。使 用圖8的流程圖說明該問題的回避對策。圖8是詳細說明實施例3的步驟S203網(wǎng)絡(luò)發(fā)送工序的流程圖。在步驟S800,系統(tǒng) 控制部111判定存儲在流緩存器108的流數(shù)據(jù)大小是否超過規(guī)定閾值。閾值與圖4的相同 地可以由系統(tǒng)設(shè)計者設(shè)定最佳的值,也可以由用戶設(shè)定。在不超過閾值的情況下(圖中的 “否”),因為產(chǎn)生延遲的可能性較小,所以轉(zhuǎn)移至步驟S804,通信電路109將流緩存器108 的存儲數(shù)據(jù)依次向網(wǎng)絡(luò)發(fā)送。在超過閾值的情況下,因為產(chǎn)生延遲的可能性較大,所以轉(zhuǎn)移 至步驟S801,系統(tǒng)控制部111判定在圖3的步驟S302中存儲的I圖像開頭位置(或I圖 像開頭修正位置)是否存在于未發(fā)送數(shù)據(jù)區(qū)域。在步驟S801,當判定I圖像開頭位置(或 I圖像開頭修正位置)存在于未發(fā)送數(shù)據(jù)區(qū)域的情況下(圖中的“是”),在步驟S802,系統(tǒng) 控制部111將I圖像開頭位置(或I圖像開頭修正位置)設(shè)定為下一讀出位置。接著,在 步驟S803中,系統(tǒng)控制部111設(shè)定上述斷鏈標記,轉(zhuǎn)移至步驟S804。在步驟S804中,從讀 出位置讀出存儲數(shù)據(jù),向網(wǎng)絡(luò)發(fā)送。在步驟S801中,當I圖像開頭位置(或I圖像開頭修 正位置)不存在于未發(fā)送數(shù)據(jù)區(qū)域的情況下,向步驟S804轉(zhuǎn)移,通信電路109將存儲數(shù)據(jù) 依次向網(wǎng)絡(luò)發(fā)送。以上,使用圖7和圖8表示實施例3中的斷鏈標記設(shè)定方法。由此,即使在為了降 低延遲而使讀出位置跳轉(zhuǎn)的位置是Open G0P的情況下,也能夠在解碼裝置側(cè)防止解碼錯誤 的產(chǎn)生。接著,使用圖9和圖10,說明能夠防止解碼裝置中的解碼錯誤的另外的其它實施 例。在實施例3中,通過設(shè)定斷鏈標記,避免讀出位置跳轉(zhuǎn)后的解碼錯誤,但因為需要 對在發(fā)送前剛已編碼的流進行編輯,所以編碼裝置的負荷變得較大。因此,在實施例4中, 在讀出位置向I圖像開頭位置(或I圖像開頭修正位置)跳轉(zhuǎn)后存在不需要解碼的圖像的 情況下,進一步跳轉(zhuǎn)讀出位置。圖9是詳細說明實施例4中的步驟S202的壓縮工序的流程圖。在步驟S900,影像壓縮電路105編碼由攝像工序S201生成的輸入動態(tài)圖像。編碼以圖像單位進行。在步驟 S901,系統(tǒng)控制部111判定剛已編碼的圖像類別是否為I圖像。當判定是I圖像編碼的情 況下(圖中的“是”),在步驟S902中,系統(tǒng)控制部111存儲I圖像的開頭位置,轉(zhuǎn)移至步驟 S905。在步驟S901,當判定剛已編碼的圖像類別不是I圖像的情況下(圖中的“否”),轉(zhuǎn)移 至步驟S903的處理。在步驟S903,系統(tǒng)控制部111判定剛已編碼的圖像類別是否為G0P內(nèi) 的開頭的P圖像。在判定是G0P內(nèi)的開頭P圖像的情況下(圖中的“是”),在步驟S904,系 統(tǒng)控制部111存儲G0P內(nèi)的開頭P圖像的開頭位置,轉(zhuǎn)移至步驟S905。當步驟S903判定剛 已編碼的圖像類別不是G0P內(nèi)的開頭P圖像的情況下(圖中的“否”),轉(zhuǎn)移至步驟S905的 處理。在步驟S905,系統(tǒng)控制部111判斷結(jié)束編碼的流數(shù)據(jù)大小是否超過由解碼裝置請求 的發(fā)送大小。在超過請求的發(fā)送大小的情況下(圖中的“是”),結(jié)束S202的壓縮工序,轉(zhuǎn) 移至步驟S203的網(wǎng)絡(luò)發(fā)送工序。在不超過請求的發(fā)送大小的情況下(圖中的“否”),轉(zhuǎn)移 至步驟S900,重復圖像的編碼處理。圖10是詳細說明實施例4中的步驟S203的網(wǎng)絡(luò)發(fā)送工序的流程圖。在步驟 S1000,系統(tǒng)控制部111判定存儲在流緩存器108的流數(shù)據(jù)大小是否超過規(guī)定閾值。閾值與 圖4同樣地可以由系統(tǒng)設(shè)計者設(shè)定最佳的值,也可以由用戶設(shè)定。在沒有超過閾值的情況 下(圖中的“否”),因為產(chǎn)生延遲的可能性較小,所以轉(zhuǎn)移至步驟S1006,將存儲數(shù)據(jù)依次向 網(wǎng)絡(luò)發(fā)送。在超過閾值的情況下(圖中的“是”),因為產(chǎn)生延遲的可能性較大,所以轉(zhuǎn)移至 步驟S1001,系統(tǒng)控制部111判定在圖9的步驟S902中存儲的I圖像開頭位置(或I圖像 開頭修正位置)是否存在于未發(fā)送數(shù)據(jù)區(qū)域。在步驟S1001,當判定I圖像開頭位置(或I 圖像開頭修正位置)存在于未發(fā)送數(shù)據(jù)區(qū)域的情況下(圖中的“是”),在步驟S1002中,系 統(tǒng)控制部111將I圖像開頭位置(或I圖像開頭修正位置)設(shè)定為下一讀出位置,向步驟 S1003轉(zhuǎn)移。在步驟S1003中,通信電路109從流緩存器108讀出存儲的數(shù)據(jù),只進行I圖 像的網(wǎng)絡(luò)發(fā)送。接著,在步驟S1004中,系統(tǒng)控制部111判定在圖9的步驟S904中存儲的 G0P中的開頭P圖像開頭位置(或G0P中的開頭P圖像開頭修正位置)是否存在于未發(fā)送 數(shù)據(jù)區(qū)域。當G0P中的開頭P圖像(或G0P中的開頭P圖像開頭修正位置)存在于未發(fā)送 數(shù)據(jù)區(qū)域的情況下(圖中的“是”),在步驟S1005中,系統(tǒng)控制部111將G0P中的開頭P圖 像開頭位置(或G0P中的開頭P圖像開頭修正位置)設(shè)定為下一讀出位置,在步驟S1006, 通信電路109將流緩存器108的存儲流進行網(wǎng)絡(luò)發(fā)送。因此,在G0P的開頭存在B圖像的 情況下,能夠?qū)⑵錈o視地進行解碼,能夠解除上述OPEN GOP中的解碼的錯誤。在步驟S1001中,當I圖像開頭位置(或I圖像開頭修正位置)不存在于未發(fā)送 數(shù)據(jù)區(qū)域的情況下(圖中的“否”),向步驟S1006轉(zhuǎn)移,通信電路109將流緩存器108的存 儲數(shù)據(jù)依次向網(wǎng)絡(luò)發(fā)送。另外,在步驟S1004中,當G0P中的開頭P圖像開頭位置(或G0P 中的開頭P圖像開頭修正位置)不存在于未發(fā)送數(shù)據(jù)區(qū)域的情況下(圖中的“否”),轉(zhuǎn)移 至步驟S1006,通信電路109將流緩存器108的存儲數(shù)據(jù)依次向網(wǎng)絡(luò)發(fā)送。以上,使用圖9和圖10表示實施例4中的向I圖像跳轉(zhuǎn)后的解碼錯誤的回避方法。 由此,即使在為了降低延遲而使讀出位置跳轉(zhuǎn)的位置是Open GOP的情況下,也能夠在解碼 裝置側(cè)防止解碼錯誤的產(chǎn)生。另外,因為與實施例3不同,不需要修正壓縮流,所以編碼裝 置的負荷不會變大。以上,實施例1 4所示的系統(tǒng)結(jié)構(gòu)、處理順序但是是一例,只要不脫離本發(fā)明的
10內(nèi)容的范圍,可以具有不同的結(jié)構(gòu)、處理順序。另外,也能夠?qū)⒏鲗嵤├M合使用,它們均在 本發(fā)明的范疇內(nèi)。
權(quán)利要求
一種對動態(tài)圖像進行編碼的動態(tài)圖像編碼裝置,其特征在于,包括拍攝被拍攝體而生成所述動態(tài)圖像的攝像部;壓縮所述動態(tài)圖像的數(shù)據(jù)量的壓縮電路;存儲從該壓縮電路供給的所述動態(tài)圖像的壓縮數(shù)據(jù)的流緩存器;將存儲在該流緩存器的所述動態(tài)圖像的壓縮數(shù)據(jù)向網(wǎng)絡(luò)發(fā)送的通信電路;和對所述動態(tài)圖像編碼裝置進行動作控制的系統(tǒng)控制部,該系統(tǒng)控制部進行控制,使得在存儲在所述流緩存器的壓縮數(shù)據(jù)的存儲量為規(guī)定閾值以上的情況下,使所述壓縮數(shù)據(jù)從所述流緩存器的讀出位置在時間軸上向前前進。
2.如權(quán)利要求1所述的動態(tài)圖像編碼裝置,其特征在于所述系統(tǒng)控制部進行控制,使得在存儲于所述流緩存器的壓縮數(shù)據(jù)的存儲量為規(guī)定閾 值以上,存儲于所述流緩存器的壓縮數(shù)據(jù)中存在I圖像的壓縮數(shù)據(jù)的情況下,使所述壓縮 數(shù)據(jù)從所述流緩存器的讀出位置在時間軸上前進至最后的I圖像開頭位置。
3.一種對動態(tài)圖像進行編碼的動態(tài)圖像編碼方法,其特征在于,包括 拍攝被拍攝體而生成所述動態(tài)圖像的攝像步驟;壓縮所述動態(tài)圖像的數(shù)據(jù)量的壓縮步驟; 存儲在該壓縮步驟生成的所述動態(tài)圖像的壓縮數(shù)據(jù)的存儲步驟; 將在該存儲步驟存儲的所述動態(tài)圖像的壓縮數(shù)據(jù)向網(wǎng)絡(luò)發(fā)送的通信步驟;和 控制所述壓縮步驟、存儲步驟與通信步驟的系統(tǒng)控制步驟,該系統(tǒng)控制步驟,具有判定在所述存儲步驟存儲的所述動態(tài)圖像的壓縮數(shù)據(jù)的存儲量 是否為規(guī)定閾值以上的存儲量判定步驟,進行控制使得當該存儲量判定步驟的判定結(jié)果是 判定為在所述存儲步驟存儲的所述動態(tài)圖像的壓縮數(shù)據(jù)的存儲量為規(guī)定閾值以上的情況 下,使所述存儲步驟中的所述壓縮數(shù)據(jù)的讀出位置在時間軸上向前前進。
4.如權(quán)利要求3所述的動態(tài)圖像編碼方法,其特征在于所述系統(tǒng)控制步驟進行控制,使得在所述存儲步驟存儲的壓縮數(shù)據(jù)的存儲量為規(guī)定閾 值以上,存儲于所述流緩存器的壓縮數(shù)據(jù)中存在I圖像的壓縮數(shù)據(jù)的情況下,使所述存儲 步驟中的所述壓縮數(shù)據(jù)的讀出位置在時間軸上前進至最后的I圖像開頭位置。
5.如權(quán)利要求1所述的動態(tài)圖像編碼裝置,其特征在于所述系統(tǒng)控制部進行控制,使得在存儲于所述流緩存器的壓縮數(shù)據(jù)的存儲量為規(guī)定閾 值以上的情況下,使所述壓縮數(shù)據(jù)從所述流緩存器的讀出位置前進流數(shù)據(jù)包大小的整數(shù)倍的量。
6.如權(quán)利要求2所述的動態(tài)圖像編碼裝置,其特征在于所述系統(tǒng)控制部進行控制,以在存儲于所述流緩存器的壓縮數(shù)據(jù)的存儲量為規(guī)定閾值 以上的情況下,設(shè)定所述壓縮數(shù)據(jù)的流中的斷鏈標記。
7.如權(quán)利要求2所述的動態(tài)圖像編碼裝置,其特征在于所述系統(tǒng)控制部進行控制,使得當存儲于所述流緩存器的壓縮數(shù)據(jù)的存儲量為閾值以 上的情況下,在所述I圖像的讀出結(jié)束后,所述讀出位置前進至下一 P圖像的開頭位置。
全文摘要
本發(fā)明提供動態(tài)圖像編碼裝置和動態(tài)圖像編碼方法,其目的為,在實時影像聲音通信中,防止積存在緩存器內(nèi)的流數(shù)據(jù)的下溢,并且在發(fā)送數(shù)據(jù)存儲量較大的情況下,無需等待時間地立即進行延遲降低。另外的目的為,遵守接收側(cè)的解碼裝置中的解碼可能輸入格式的限制,不造成解碼錯誤。為解決上述課題,本發(fā)明的編碼裝置是編碼動態(tài)圖像信息的編碼裝置,包括拍攝被拍攝體的攝像部;壓縮輸入動態(tài)圖像的壓縮電路;存儲壓縮數(shù)據(jù)的流緩存器;和將流緩存器上的壓縮數(shù)據(jù)向網(wǎng)絡(luò)發(fā)送的通信電路,該編碼裝置具備讀出位置跳轉(zhuǎn)單元,其當儲在流緩存器的壓縮數(shù)據(jù)的存儲量為閾值以上的情況下,將壓縮數(shù)據(jù)的讀出位置前進至例如最新的I圖像開頭位置之后向網(wǎng)絡(luò)發(fā)送。
文檔編號H04N7/15GK101860751SQ201010159410
公開日2010年10月13日 申請日期2010年4月6日 優(yōu)先權(quán)日2009年4月6日
發(fā)明者B·賽蒂亞萬, 松下貴記, 溝添博樹 申請人:日立民用電子株式會社