專利名稱:視聽媒體編碼系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種視聽媒體編碼系統(tǒng)。優(yōu)選地,本發(fā)明可以適于實時地或延時地對在計算機網(wǎng)絡(luò)上進行的視頻會議、研討會或者演示進行編碼,用于由觀察者進行閱覽。而且,貫穿于本申請文件的參考是針對用于該情況的本發(fā)明而作出的,但是本領(lǐng)域的技術(shù)人員應認識,其他應用也是可預見的,并且僅貫穿于本申請文件的上述情況不應被視為限制。
背景技術(shù):
視頻會議系統(tǒng)已經(jīng)得到了發(fā)展,其允許處于遠程位置的參與者之間的雙向音頻和視頻通信。參與者可以通過公共數(shù)字傳輸網(wǎng)絡(luò),在攝像機、麥克風和連接到所使用的計算機網(wǎng)絡(luò)的適當硬件和軟件的幫助下,實時地參與視頻會議。視頻會議通??捎糜诔霈F(xiàn)研討會或者其它類型的演示,其中還可以向另外的輸入系統(tǒng)或者文檔攝像機提供另外的媒體,諸如幻燈片或者文檔,用于集成到所發(fā)送的視頻或者數(shù)據(jù)流中。
當視頻會議的參與者實時地相互交互時,這帶來了對傳輸視聽內(nèi)容信號的網(wǎng)絡(luò)帶寬的高的要求。而且,如果所使用的網(wǎng)絡(luò)不具有所需用于正確進行會議的足夠的帶寬,則可能存在一些關(guān)于會議視聽內(nèi)容的質(zhì)量問題。在該情況中,構(gòu)成了參與者之間的信號流的互聯(lián)網(wǎng)協(xié)議分組可能丟失或者晚到達接收機,并且因此不能實時地有效地集成到所播出的視頻和音頻中。
在某些情況中,同樣優(yōu)選的是,向另外的觀察者提供或流傳送這些視頻會議信號,這些觀察者不必參與該會議。例如,這些觀察者可能關(guān)注于所進行的研討會或者演示,但是不必需要或者不必能夠?qū)崟r地出席或者參與該會議。另外的觀察者可以在會議進行時實時地觀看視聽信號流,或者可替換地,由于他們不需要參參與議,因此可以稍后觀看此信息。該視聽信號流對于會議的參與者而言,也可以在晚些時候獲得。
為了向另外的觀察者流傳送視頻會議內(nèi)容,生成的信號通常提供給另外的編碼計算機系統(tǒng)。使用現(xiàn)有技術(shù),向該計算機提供源自視頻會議單元的攝像機和麥克風的視頻和音頻信號的模擬饋送,其隨后將該信息轉(zhuǎn)換、編碼或者格式化成為數(shù)字計算機文件,其可以由特定的軟件播放器應用程序播放。所應用的實際編碼或者格式化將取決于播放器應用程序,其隨后播放或者顯示編碼的視頻會議。如本領(lǐng)域的技術(shù)人員所將理解的,此編碼信息可被實時地流傳送或者發(fā)送到觀察者,或者可替換地,可被存儲用于稍后發(fā)送給觀察者。
然而,此用于編碼用于另外觀察者的視頻會議內(nèi)容的方法受到諸多問題的困擾。
在第一情況中,由于數(shù)字音頻和視頻信息轉(zhuǎn)換為模擬格式,用于隨后提供給編碼計算機系統(tǒng),因此在結(jié)果格式化輸出中存在準確性或者質(zhì)量的損失。接下來,所使用的計算機系統(tǒng)將這些信號轉(zhuǎn)換回數(shù)字格式,導致與所進行的每次轉(zhuǎn)換相關(guān)的質(zhì)量和準確性的損失。
而且,所使用的編碼計算機必須配備有至視頻會議設(shè)備的模擬電纜連接,并且由此在多數(shù)情況下還必須位于其中出現(xiàn)了視頻會議的一個端點的房間中。這要求額外部分的裝置安置在視頻會議房間或者場所,除了視頻會議設(shè)備本身以外,在會議之前還必須對該裝置進行設(shè)置和配置。
通過使用視頻會議傳輸協(xié)議,即ITU H.323,題為“Packet-BasedMulti-Media Communication System(基于分組的多媒體通信系統(tǒng))”,已經(jīng)進行了致力于這些問題的一種嘗試。該協(xié)議允許視聽信號和相關(guān)的協(xié)議信息自所使用的視頻會議設(shè)備傳輸?shù)揭粋€網(wǎng)絡(luò)地址,而該網(wǎng)絡(luò)地址不用作正在進行的視頻會議呼叫的完全參與者。額外的連接可被描述為關(guān)于視頻會議信號的流端點,該視頻會議信號可以提供所需的數(shù)字音頻和視覺信息,不需要使用現(xiàn)有技術(shù)所必需的數(shù)字-模擬-數(shù)字轉(zhuǎn)換。
然而,關(guān)于使用該基本協(xié)議的主要復雜性來自于,用于視頻會議呼叫的高帶寬需求,以及隨后的高比特率的至端點的信號流傳送。當重新發(fā)送到軟件播放器應用程序時,所提供輸入的較高比特率將出現(xiàn)在所產(chǎn)生的輸出中,由此導致了大的視頻文件或者高的帶寬要求,其不易于通過所使用的計算機網(wǎng)絡(luò)的低速連接而進行訪問。
致力于任何一個或者全部上述問題的改進的視聽媒體編碼系統(tǒng)將是有利的。能夠用作用于會議呼叫端點并且能夠以多種比特率編碼或者格式化音頻和視頻會議內(nèi)容,用于隨后流傳送到或者提供給觀察者的系統(tǒng)將是有利的。能夠展現(xiàn)和提供有關(guān)如何對這些視頻和音頻信號進行編碼并將其提供給觀察者的靈活性和功能的系統(tǒng)將是有利的。
所有參考文獻,包括本申請文件中所引用的任何專利或者專利申請,在此處并入列為參考。沒有允許任何參考文獻構(gòu)成現(xiàn)有技術(shù)。關(guān)于參考文獻的討論陳述了它們的作者所聲明的內(nèi)容,并且本申請人保留質(zhì)詢所引用文獻的準確性和相關(guān)性的權(quán)利。應清楚地認識到,盡管此處參考了大量的現(xiàn)有技術(shù)出版物,但是這些參考文獻不構(gòu)成允許任何這些文獻形成本領(lǐng)域共有的一般性知識的一部分,不論是在新西蘭還是在任何其他國家。
應當承認,術(shù)語“包括”在變化的管轄權(quán)下可被認為具有排他性的或者包含性的意義。為了簡化起見,并且除非另有說明,否則術(shù)語“包括”將具有包含性的意義,即,其將意味著,不僅包括直接注明的所列成分,還包括其他未說明的成分或者要素。在所使用的術(shù)語“被包括的”或“包括的”涉及方法或者處理中的一個或者多個步驟時,也使用相同的解釋。
本發(fā)明的目的在于解決上述問題,或者至少為公眾提供有用的選擇。
通過后面僅借助于示例給出的描述,本發(fā)明的另外的方面和特征將變得顯而易見。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個方面,提供了一種編碼視聽媒體信號的方法,其特征在于以下步驟(i)接收來自計算機網(wǎng)絡(luò)的視頻會議傳輸,所述視頻會議傳輸包括至少一個視聽信號和至少一個協(xié)議信號,和(ii)讀取一個或者多個協(xié)議信號,和(iii)對接收視聽信號應用選定的編碼處理,所述編碼處理是取決于所讀取的所述至少一個協(xié)議信號的內(nèi)容而選擇的。
根據(jù)本發(fā)明的另一方面,提供了一種編碼視聽媒體信號的方法,其進一步的特征在于以下額外的后繼步驟(i)產(chǎn)生用于軟件播放器應用程序的編碼輸出。
根據(jù)本發(fā)明的另一方面,提供了一種基本上如上文所述的編碼視聽媒體信號的方法,其中所述至少一個讀取的協(xié)議信號的內(nèi)容是用于檢測出現(xiàn)在視頻會議傳輸?shù)囊暵犘盘栔械闹辽僖粋€關(guān)鍵幀的時間位置。
根據(jù)本發(fā)明的另一方面,提供了一種基本上如上文所述的編碼視聽媒體信號的方法,其中所述至少一個讀取的協(xié)議信號的內(nèi)容指出出現(xiàn)在視頻會議傳輸?shù)囊暵犘盘栔械膬?nèi)容切換。
根據(jù)本發(fā)明的另一方面,提供了一種基本上如上文所述的編碼視聽媒體信號的方法,其中使用所述至少一個讀取的協(xié)議信號檢測到內(nèi)容切換時,選定的編碼處理使得至少一個索引標記與編碼輸出相關(guān)聯(lián)。
根據(jù)本發(fā)明的另一方面,提供了一種基本上如上文所述的編碼方法,其中索引標記同與視頻會議傳輸?shù)囊暵犘盘栔袡z測到內(nèi)容切換的時間位置相同的時間位置處的編碼輸出相關(guān)聯(lián)。
根據(jù)本發(fā)明的另一方面,提供了一種基本上如上文所述的編碼視聽媒體信號的方法,其中所讀取的協(xié)議信號提供了關(guān)于與視頻會議傳輸?shù)囊暵犘盘栂嚓P(guān)聯(lián)的下列參數(shù)的任何組合的信息(i)所使用的音頻編解碼器和/或(ii)所使用的視頻編解碼器和/或(iii)所提供的音頻信息的比特率和/或(iv)所提供的視頻信息的比特率和/或(v)視頻信息幀速率和/或(vi)視頻信息分辨率。
本發(fā)明優(yōu)選地適于提供一種用于編碼視聽媒體信號的系統(tǒng)和方法。優(yōu)選地,這些信號可以源自或提供自視頻會議傳輸,本發(fā)明適于將這些信號的至少一部分編碼為可以向未直接參與視頻會議的其他用戶或者觀察者播放的格式。而且,貫穿于本申請文件進行參考的是使用計算機網(wǎng)絡(luò)傳輸視頻會議,但是本領(lǐng)域的技術(shù)人員將認識到,顯然還可以使用任何形式的數(shù)字傳輸網(wǎng)絡(luò)基礎(chǔ)設(shè)施或系統(tǒng)。
優(yōu)選地,本發(fā)明可以用于實現(xiàn)在計算機系統(tǒng)中運行的編碼處理,其可以執(zhí)行如此處描述的編碼方法或多種方法。而且,本發(fā)明還可以包括用于執(zhí)行該編碼方法的裝置,其優(yōu)選地由裝載有適于執(zhí)行和實現(xiàn)本發(fā)明的計算機軟件的計算機系統(tǒng)形成。本發(fā)明可以適于生成編碼輸出,其可以被播放、顯示或者另外轉(zhuǎn)播給另外的用戶,這些新的用戶不需要參與所牽涉的視頻會議,也不需要在視頻會議發(fā)生的相同時間觀看編碼輸出。
優(yōu)選地,結(jié)合本發(fā)明使用的用于提供所需的編碼處理的裝置可用于直接參加到所牽涉的視頻會議中,并且在某些情況中,可被認為是視頻會議端點。用于提供該端點的裝置或設(shè)備接下來可以對結(jié)合視頻會議接收的至少一個視聽信號執(zhí)行譯碼(transcode)或者重新編碼(re-encode),用以提供結(jié)合本發(fā)明的譯碼視聽輸出。所生成的編碼輸出可以存儲到計算機文件,或者可替換地,如果需要,其可以在編碼后傳輸或者流傳送到其他用戶。
優(yōu)選地,本發(fā)明可以適于提供編碼輸出文件、信號或傳輸,其可以由基于計算機的軟件播放器應用程序接收或播放,以顯示視聽媒體或內(nèi)容。在某些情況中,使用本發(fā)明提供的編碼輸出可以在視頻會議進行時實時地流傳送到或者傳輸?shù)揭曨l會議的未參與的觀察者??商鎿Q地,在其他情況中,所提供的編碼輸出可以保存到一個或者多個計算機文件,其接下來可以下載到或者傳輸?shù)轿磪⑴c的觀察者,用于在稍后的時間播放。
例如,在某些情況中,本發(fā)明可以適于提供可通過Microsoft的Windows Media PlayerTM、Apple的Quicktime PlayerTM或者Real Network的RealplayerTM播放的編碼視聽內(nèi)容輸出。而且,所牽涉的播放器還可以支持在所牽涉的視頻會議進行時接收至觀察者的編碼輸出的實時流傳送。
而且,貫穿于本申請文件進行參考的是,使用基于計算機的軟件播放器應用程序在計算機上或由計算機播放本發(fā)明提供的編碼輸出。然而,本領(lǐng)域的技術(shù)人員應認識到,貫穿于本申請文件進行參考的計算機應具有最廣泛的可能解釋,包括任何形式的已編程的或者可編程的邏輯設(shè)備。獨立的個人計算機、個人數(shù)字助理、蜂窩電話、游戲控制臺等等也可以全部涵蓋于計算的該定義中,并且接下來可以全部配備有適于播放根據(jù)本發(fā)明提供的編碼輸出的軟件。本領(lǐng)域的技術(shù)人員應認識到,所參考的計算機和計算機軟件應用程序不應被孤立地認為僅與個人計算機相關(guān)。
在本發(fā)明的另一優(yōu)選實施例中,所提供的編碼輸出可以適于在數(shù)字傳輸網(wǎng)絡(luò)上傳輸?shù)交蛘叻植?。如果需要,所提供的編碼輸出的格式化允許使該編碼輸出容易地和快速地分布到廣大的范圍和眾多的地理分撒的用戶。而且,貫穿于本申請文件進行參考的是編碼輸出的傳輸是在計算機網(wǎng)絡(luò)上進行的。但是,本領(lǐng)域的技術(shù)人員應認識到,如果需要,可以結(jié)合本發(fā)明使用允許數(shù)字信號或數(shù)字內(nèi)容傳輸?shù)娜魏晤愋蛡鬏斁W(wǎng)絡(luò)、系統(tǒng)或者基礎(chǔ)設(shè)施。
而且,貫穿于本申請文件進行參考的是,所提供的編碼輸出適于提供用于計算機系統(tǒng)的基于軟件的播放器應用程序的輸入。但是,本領(lǐng)域的技術(shù)人員應認識到,結(jié)合本發(fā)明也可以生成其他格式或形式的編碼輸出,并且貫穿于本申請文件進行上述參考情況不應被視為限制。例如,在其他實施例中,本發(fā)明可以提供能夠使用蜂窩電話、PDA、游戲控制臺或者其他相似類型設(shè)備播放的編碼輸出。
優(yōu)選地,所進行的視頻會議傳輸可以使用計算機網(wǎng)絡(luò)傳輸。計算機網(wǎng)絡(luò)在本領(lǐng)域中是公知的,并且可以利用現(xiàn)有的傳輸協(xié)議,諸如TCP/IP,用于向視頻會議中的參與者傳遞信息分組。
在優(yōu)選實施例中,可以通過如上所述的計算機系統(tǒng)提供結(jié)合本發(fā)明接收的視頻會議傳輸。結(jié)合本發(fā)明使用的接收和編碼硬件可以連接到該計算機網(wǎng)絡(luò),并且可以被分配特定的網(wǎng)絡(luò)或者IP地址,這些視頻會議傳輸可傳遞到該地址。
本領(lǐng)域的技術(shù)人員應認識到,貫穿于本申請文件進行參考的計算機網(wǎng)絡(luò)可以涵蓋通過專用的以太網(wǎng)電線、無線無線電網(wǎng)絡(luò)提供的網(wǎng)絡(luò)以及使用電信系統(tǒng)的分布式網(wǎng)絡(luò)。
在另一優(yōu)選實施例中,本發(fā)明使用的硬件和裝置可被描述為關(guān)于所牽涉的視頻會議呼叫的流傳送端點或者流式端點。流傳送端點可以用作視頻會議的參與者,而沒有必要向視頻會議呼叫提供任何有用內(nèi)容。因此,在計算機網(wǎng)絡(luò)中具有特定地址的該端點可以接收所有與特定的視頻會議相關(guān)的傳輸,且沒有必要向會議貢獻有用內(nèi)容。本領(lǐng)域的技術(shù)人員應認識到,貫穿于本申請文件進行參考的端點可以涵蓋用于實現(xiàn)相同目的任何裝置或部件,其先前還被稱為,例如,“終端”、“網(wǎng)關(guān)”或者“多點控制單元”。
本發(fā)明優(yōu)選地提供了一種用于編碼視聽媒體的方法以及裝置或系統(tǒng)。所使用的系統(tǒng)或裝置可以由裝載有(并且適于執(zhí)行)適當?shù)木幋a軟件的計算機系統(tǒng)形成或構(gòu)成。該軟件(通過經(jīng)由至計算機網(wǎng)絡(luò)的計算機系統(tǒng)的連接而在計算機系統(tǒng)上執(zhí)行)可以實現(xiàn)關(guān)于本發(fā)明所討論的編碼方法。而且,該計算機系統(tǒng)還可以適于存儲作為所述方法的編碼輸出而生成的計算機文件,或者將所提供的編碼輸出實時地重新發(fā)送給另外的觀察者。
而且,貫穿于本申請文件進行參考的是,本發(fā)明使用或者涵蓋連接到計算機網(wǎng)絡(luò)的編碼計算機系統(tǒng),其適于使用適當?shù)能浖邮找曨l會議傳輸并對其編碼。
例如,在一種情況中,本發(fā)明可以利用H323協(xié)議用于在計算機網(wǎng)絡(luò)上進行視頻會議傳輸。該協(xié)議可用于直接向編碼計算機系統(tǒng)提供數(shù)字信號,而不需要信號的任何數(shù)字-模擬-數(shù)字轉(zhuǎn)換。
貫穿于本申請文件進行參考的是,本發(fā)明用于編碼源自在計算機網(wǎng)絡(luò)上進行的視頻會議傳輸?shù)囊暵犆襟w。然而,本領(lǐng)域的技術(shù)人員應認識到,關(guān)于本發(fā)明的其他應用也是可預見的,貫穿于本申請文件進行參考的上文的情況不應被視為限制。例如,本發(fā)明可用于編碼其他形式的流式或者實時視聽傳輸,其不必基于視頻會議,也不需要直接涉及在計算機網(wǎng)絡(luò)上的傳輸。
優(yōu)選地,由編碼計算機接收的視頻會議傳輸可以包含或包括至少一個或多個視聽信號以及至少一個或多個協(xié)議信號。
優(yōu)選地,視聽信號在視頻會議進行時可以實時地承載關(guān)于該視頻會議的音頻和/或視頻內(nèi)容的信息。在某些情況中,在隨時間播出視頻會議時,可以提供承載了視頻會議的音頻和視覺內(nèi)容的單一的信號。然而,在可替換的情況中,提供了獨立的信號用于該所需視頻會議的音頻和視頻分量。
優(yōu)選地,所接收的視頻會議傳輸還并入或者包括至少一個或者多個協(xié)議信號。協(xié)議信號可以承載關(guān)于視聽信號的格式化或構(gòu)成的信息,包括,與如何生成該信號相關(guān)聯(lián)的參數(shù),以及有關(guān)用于生成該信號的物理硬件的配置、狀態(tài)或者狀況的信息。而且,協(xié)議信號還可以提供有關(guān)何時使用來自用于生成視聽信號的特定硬件的反饋或者信息改變和切換內(nèi)容的指示。此外,協(xié)議信號還可以提供有關(guān)如何創(chuàng)建所傳輸?shù)囊暵犘盘柕男畔?,諸如例如,在生成信號時是否使用了數(shù)據(jù)壓縮方案,并且還可以提供關(guān)于該壓縮方案如何操作的某些基本信息。
優(yōu)選地,本發(fā)明可適于在初始時讀取結(jié)合構(gòu)成視頻會議傳輸?shù)囊暵犘盘柦邮盏闹辽僖粋€協(xié)議信號。然后,可以使用編碼到該一個或多個協(xié)議信號中的特定信息,做出關(guān)于進入的視聽信號接下來應如何進行編碼和格式化以提供給另外的觀察者的特定決定或判定。獲取自協(xié)議信號的信息可用于選擇特定的編碼處理或算法,并且隨后應用該編碼處理或算法,以生成本發(fā)明的所需的編碼輸出。獲得自協(xié)議信號的信息的確切形式和可用的編碼處理以及本發(fā)明的操作員的興趣將確定選擇并應用哪個編碼處理。
根據(jù)本發(fā)明的另一方面,提供了一種編碼視聽媒體信號的方法,其特征在于以下步驟(i)接收來自計算機網(wǎng)絡(luò)的視頻會議傳輸,所述視頻會議傳輸包括至少一個視聽信號和至少一個協(xié)議信號,和(ii)讀取一個或者多個協(xié)議信號,和(iii)確定出現(xiàn)在所接收視聽信號中的關(guān)鍵幀的時間位置,和(iv)將關(guān)鍵幀編碼到編碼輸出中與檢測到關(guān)鍵幀的時間位置相同的時間位置處,并且對原始接收的視聽信號進行編碼。
在優(yōu)選實施例中,獲得自協(xié)議信號的信息可以包括或者指出出現(xiàn)在所接收的一個或者多個視聽信號中的關(guān)鍵幀的時間位置或方位。
關(guān)鍵幀生成并用于數(shù)字視頻壓縮處理中,并且提供了完整的傳統(tǒng)視頻信息幀的等效物。除了關(guān)鍵幀以外,還傳輸作為所牽涉的視頻信息的第二部分的像素修改指令。關(guān)鍵幀(其并入了大量的數(shù)據(jù))可被獲取,并且然后,可以隨時間發(fā)送關(guān)于原始關(guān)鍵幀中目標位置的變化的進一步信息,由此減少了需作為視聽信號一部分而被傳輸?shù)臄?shù)據(jù)量。
然而,由于僅是不定期地傳輸或并入完整的原始幀(關(guān)鍵幀),因此對視頻壓縮的近似仍近似于組成原始視頻信號的實際幀。如果先前壓縮的視頻信號隨后被重新編碼或者“譯碼”,則這些關(guān)鍵幀可能丟失,或者選擇了新的關(guān)鍵幀,其不是初始壓縮視頻中的原始關(guān)鍵幀。這可能使結(jié)果的重新編碼或重新格式化的視頻信號的質(zhì)量或者準確性劣化。
然而,如果結(jié)合本發(fā)明,則可自協(xié)議信息提取或檢測所使用的每個關(guān)鍵幀的時間位置。這樣,這允許隨后在視聽信號視頻內(nèi)容的重新編碼或重新格式化中重新使用相同的關(guān)鍵幀,同時使任何后繼的質(zhì)量損失或者另外失準的引入減到最小。在該情況中,將關(guān)鍵幀編碼到編碼輸出中的同所牽涉的視頻會議傳輸?shù)囊暵犘盘栔袡z測到關(guān)鍵幀的時間相同的時間。
根據(jù)本發(fā)明的另一方面,提供了一種編碼視聽媒體信號的方法,其特征在于以下步驟(i)接收來自計算機網(wǎng)絡(luò)的視頻會議傳輸,所述視頻會議傳輸包括至少一個視聽信號和至少一個協(xié)議信號,和(ii)讀取一個或者多個協(xié)議信號,以確定接收視頻會議傳輸?shù)木幋a特征,和(iii)接收來自至少一個用戶的編碼優(yōu)選,和(iv)自編碼處理的集合中選擇可以使用用戶編碼優(yōu)選和編碼特征實現(xiàn)的編碼處理的子集,和(v)向用戶顯示該編碼處理的子集。
在優(yōu)選實施例中,本發(fā)明還可以向用戶提供接口工具,其允許用戶或者操作員設(shè)置他們?nèi)绾蝺?yōu)選對進入的視聽信號的編碼或格式化。操作員可以通過該用戶接口提供編碼優(yōu)選或者輸入信息,該用戶接口接下來可用于定制所生成的編碼輸出的特征。
在另一優(yōu)選實施例中,可以自一個或者多個協(xié)議信號中提取關(guān)于進入的視聽信號的特征的信息或者參數(shù)。接收視頻會議傳輸?shù)倪@些編碼特征可以結(jié)合用戶提供的信息使用,用以確定特定情況中有待選擇的潛在的一個或多個編碼方案。
在優(yōu)選實施例中,接收的編碼特征和編碼優(yōu)選可用于自若干潛在的編碼處理中選擇編碼處理的子集,該編碼處理的子集可基于接收視頻會議傳輸?shù)木幋a特征實際地實現(xiàn),以滿足用戶的優(yōu)選。優(yōu)選地,該可能或者可用處理的子集可以顯示給用戶,用于隨后的一個或者多個用于使用的處理選擇。
在另一優(yōu)選實施例中,本發(fā)明可以包括用于預先計算或者預先評估多種編碼方案的工具,其將基于用戶的編碼優(yōu)選和獲得自一個或者多個協(xié)議信號的編碼特征潛在地生成最優(yōu)的結(jié)果編碼輸出。在該情況中,可用的或者可能的編碼處理的子集仍可以演示或者顯示給用戶,但是所提供的系統(tǒng)或軟件可以為提供關(guān)于最優(yōu)潛在處理的推薦,用于使用戶進行選擇。
該工具可以類似于用戶接口“向?qū)?wizard)”而進行操作,由此將會向用戶呈現(xiàn)一種用以僅選擇和使用編碼方案的工具,其能夠滿足用戶的要求,或者能夠滿足基于自關(guān)于進入視頻會議傳輸?shù)囊粋€或者多個協(xié)議信號提取的信息而提供的參數(shù)。
例如,在一個優(yōu)選實施例中,除了所需用于結(jié)果輸出的軟件播放器的格式以外,用戶還可以輸入關(guān)于結(jié)果編碼輸出的所需比特率。用戶還可以提供關(guān)于來自視頻會議呼叫的他們希望模擬的監(jiān)視器數(shù)目的進一步的信息。
這樣,由一個或者多個協(xié)議信號可以獲得關(guān)于進入的視聽信號的構(gòu)成或特征的信息。例如,在一種情況中,獲得自協(xié)議信號的信息該可以包括下列項的任何組合(i)所使用的音頻編解碼器(ii)所使用的視頻編解碼器(iii)音頻比特率(iv)視頻比特率(v)視頻幀速率(vi)視頻分辨率這樣,此可用的關(guān)于本發(fā)明相關(guān)的或者本發(fā)明使用的軟件的信息可以做出選擇,或者向用戶呈現(xiàn)選項的范圍,該范圍指出所將使用的音頻和/或視頻編解碼器,以及可用于使用的特定的視頻分辨率和視頻幀速率,其將滿足原始由用戶提供的輸入標準。
在優(yōu)選實施例中,指出視聽信號或者接收信號中存在的內(nèi)容切換的信息可以獲得自至少一個協(xié)議信號。該內(nèi)容切換可以指出,視聽信號由新的或者不同的硬件部分生成,或者當前使用的攝像機或者麥克風的配置已被修改。
例如,在某些情況中,協(xié)議信號可以指出,已經(jīng)接收到作為視頻會議傳輸一部分的視頻凍結(jié)畫面請求信號。該凍結(jié)信號將保持構(gòu)成所有參與者屏幕上的會議視頻內(nèi)容的當前的幀或畫面,并因此將指出發(fā)生了內(nèi)容切換。這樣,可以檢測到從動態(tài)到靜態(tài)內(nèi)容的變化。在結(jié)合本發(fā)明進行內(nèi)容切換時,還可以檢測到協(xié)議信號中的凍結(jié)畫面釋放控制命令的傳輸或者凍結(jié)畫面請求信號的移除。
而且,通過指出文檔攝像機當前是否正用于為會議提供視頻饋送的協(xié)議信號,也可以檢測內(nèi)容切換。對于會議的參與者,該文檔攝像機可以示出印刷材料的良好質(zhì)量的近距離瀏覽。這樣,文檔攝像機的激活或使用、以及文檔攝像機信號的集成、或者文檔攝像機信號自協(xié)議信號中移除接下來可以指出所傳輸?shù)囊曨l信號內(nèi)容已被切換或改變。
在另一情況中,協(xié)議信號可以承載狀態(tài)信息,其指出當前將使用數(shù)字圖像或者數(shù)字幻燈片形成會議的視頻內(nèi)容。協(xié)議信號中的該圖像并入或者靜止圖像指示信號可再次用于檢測內(nèi)容切換。靜止圖像或者“抽點”可呈現(xiàn)為會議的視頻內(nèi)容,該圖像源自數(shù)字文件、數(shù)字攝像機、視頻記錄器、或者任何其他的兼容或者適當類型的數(shù)據(jù)或信息輸入系統(tǒng)。而且,如果需要,由協(xié)議信號標記為或者指示為抽點或者靜止圖像的該內(nèi)容也可以直接源于具有視頻會議設(shè)備的文檔攝像機。此外,該靜止圖像信息的移除也可用于指出內(nèi)容切換。
而且,通過視頻攝像機鏡頭自多個預選觀看位置或角度自動地搖動或移動,也可以檢測內(nèi)容切換??梢灶A先設(shè)置這些觀看位置,使攝像機的焦點對準選出的座位位置和它們相關(guān)聯(lián)的揚聲器,由此,當攝像機預設(shè)觀看角度變化時,可由存在于協(xié)議信號中的信息指出所牽涉的內(nèi)容切換。因此,將攝像機移動信號集成到協(xié)議信號中可用于檢測內(nèi)容切換。
在本發(fā)明的另一實施例中,站點名稱可以同視頻會議的每個端點相關(guān)聯(lián),其中由每個站點傳輸?shù)囊暵犘盘栆簿哂姓军c名稱,其嵌入在與這些視聽傳輸相關(guān)聯(lián)的一個或者多個協(xié)議信號中。通過與一個或者多個視聽信號相關(guān)聯(lián)的名稱的變化,可以檢測內(nèi)容切換,其中與每個信號相關(guān)聯(lián)的名稱可以進一步用于取決于其中生成了內(nèi)容的每個部分的站點,檢索、搜索或者分類所牽涉的內(nèi)容。
根據(jù)本發(fā)明的另一方面,提供了一種編碼視聽媒體信號的方法,其特征在于以下步驟(i)接收來自計算機網(wǎng)絡(luò)的視頻會議傳輸,所述視頻會議傳輸包括至少一個視聽信號和至少一個協(xié)議信號,和(ii)讀取一個或者多個協(xié)議信號,和(iii)檢測所接收視聽信號的視聽內(nèi)容中的內(nèi)容切換,和(iv)在檢測到內(nèi)容切換的時間位置處編碼索引標記。
根據(jù)本發(fā)明的另一方面,提供了一種基本上如上文所述的編碼視聽媒體信號的方法,其特征在于以下步驟(i)接收來自計算機網(wǎng)絡(luò)的視頻會議傳輸,所述視頻會議傳輸包括至少一個視聽信號和至少一個協(xié)議信號,和
(ii)讀取一個或者多個協(xié)議信號,和(iii)檢測所接收視聽信號的視聽內(nèi)容中的內(nèi)容切換,和(iv)編碼關(guān)鍵幀,和(v)在與編碼關(guān)鍵幀的位置相同或相鄰的時間位置處編碼索引標記。
根據(jù)本發(fā)明的另一方面,提供了一種基本上如上文所述的編碼方法,其中索引標記被編碼在自關(guān)鍵幀的時間位置起的時間閾值內(nèi)。
在優(yōu)選實施例中,視聽信號中的內(nèi)容切換的檢測或者指示可以觸發(fā)至少一個索引標記同所提供的編碼輸出的關(guān)聯(lián),其中該索引標記基本上同與進入的一個或者多個視聽信號中檢測到內(nèi)容切換的時間位置相同的編碼輸出中的時間位置相關(guān)聯(lián)。
在另一優(yōu)選實施例中,索引標記可以同與所牽涉的原始進入的一個或者多個視聽信號中檢測到內(nèi)容切換的時間位置相同的時間位置相關(guān)聯(lián)。然而,本領(lǐng)域的技術(shù)人員應認識到,由于結(jié)合本發(fā)明使用的軟件和設(shè)備的物理限制,將出現(xiàn)所牽涉的索引標記的精確安置或定位的一定程度的變化。然而,在可替換的實施例中,所牽涉的索引標記可以同設(shè)定的時間閾值周期中的編碼輸出相關(guān)聯(lián)。在該情況中,關(guān)于索引標記何時被編碼可以允許一定程度的限度,而所提供的周期的閾值距離或周期限定了該所允許的限度的程度。
而且,已編碼索引標記還可以包括關(guān)于如何檢測特定的內(nèi)容切換的參考信息,并且因此可以給出關(guān)于該索引標記所位于的特定時間位置處的視聽信號內(nèi)容的指示。
在優(yōu)選實施例中,索引標記可以通過參考、指針、URL或者實際存在于所提供的編碼輸出中的其他相似標記的實際編碼,與所提供的編碼輸出相關(guān)聯(lián)。這樣,在與視頻內(nèi)容的內(nèi)容切換位置近似相同的位置,由播放器應用程序檢測該標記或者參考。然而,在其他的實施例中,索引標記可以不必直接編碼到待提供的輸出中。例如,在一個實施例中,除了與所牽涉的視頻信號相關(guān)聯(lián)的時間位置或方位信息以外,還可以記錄索引標記的日志文件或者單獨記錄。該文件可以指出索引標記與所牽涉的視頻內(nèi)容相關(guān)聯(lián)的特定時間位置。
在另一優(yōu)選實施例中,通過將通用資源定位符(URL)插入在由本發(fā)明生成的編碼輸出中,可以實現(xiàn)索引標記。本領(lǐng)域的技術(shù)人員應認識到,在本領(lǐng)域中URL通常用于索引視聽媒體,這樣,本發(fā)明可以使用現(xiàn)有的技術(shù)實現(xiàn)上文討論的索引標記。
優(yōu)選地,這些編碼到所提供的輸出中的索引標記可由播放器應用程序的用戶使用,用以取決于這些索引標記所涉及的特定內(nèi)容,主動搜尋或者搜索本發(fā)明的視聽輸出。索引標記可以標記出編碼輸出中的選定類型的內(nèi)容出現(xiàn)的時間位置或方位,并且隨后允許用戶在所生成的完整輸出中搜索選定部分或者選定類型的內(nèi)容。
在另一優(yōu)選實施例中,結(jié)合本發(fā)明,還可以檢測在接近對索引標記進行編碼的時間位置處、在進入的一個或者多個視聽信號中的原始關(guān)鍵幀的存在。
如果有過多的關(guān)鍵幀位置相互接近,則這將使本發(fā)明的結(jié)果編碼輸出的質(zhì)量劣化,并且還將潛在地影響幀速率和質(zhì)量。然而,優(yōu)選的是,使關(guān)鍵幀同編碼輸出中的索引標記接近,這將允許軟件播放器應用程序使用附近的關(guān)鍵幀,搜尋該索引標記的時間位置,以快速地生成所需的視頻內(nèi)容。
優(yōu)選地,通過檢測原始關(guān)鍵幀是否接近于對索引標記進行編碼的時間位置,本發(fā)明可以優(yōu)化關(guān)鍵幀在結(jié)果編碼輸出中的安置。如果在指定的閾值時間位移容限內(nèi)不存在關(guān)鍵幀,則在與對索引標記進行編碼的時間位置相同的時間位置、或者剛好在其之前、之后接近的時間位置,可以編碼新的關(guān)鍵幀。相反地,如果關(guān)鍵幀在閾值時間周期中是可用的,則在結(jié)果編碼輸出中不會生成或者并入新的關(guān)鍵幀。這樣,關(guān)鍵幀可以編碼到編碼輸出中與所牽涉的索引標記的時間位置相同或者相鄰的時間位置處。
根據(jù)本發(fā)明的另一方面,提供了一種編碼視聽媒體信號的方法,其特征在于以下步驟(i)接收來自計算機網(wǎng)絡(luò)的視頻會議傳輸,所述視頻會議傳輸包括至少一個視聽信號和至少一個協(xié)議信號,和(ii)讀取一個或者多個協(xié)議信號,和(iii)檢測所接收視聽信號中出現(xiàn)的低內(nèi)容狀態(tài)的存在,和(iv)在其中在所接收視頻會議傳輸中檢測到所述低內(nèi)容狀態(tài)的時間周期期間,對編碼輸出內(nèi)容進行時間壓縮。
根據(jù)本發(fā)明的另一方面,提供了一種基本上如上文所述的編碼視聽媒體信號的方法,其中使用緩沖器接收視頻會議傳輸信號,由此緩沖器內(nèi)容播出到編碼處理中的速率確定了在編碼時應用于原始視頻會議視聽內(nèi)容的時間壓縮程度。
在優(yōu)選實施例中,本發(fā)明還可以用于,在與所提供的一個或者多個原始視聽信號進行比較時,修改編碼輸出中出現(xiàn)的視聽內(nèi)容的特定部分的時序或者時間位置。如果通過讀取一個或者多個協(xié)議信號檢測到特定的內(nèi)容切換,則可以完成此時序修改。
在另一優(yōu)選實施例中,當使用至少一個讀取的協(xié)議信號在接收視聽信號中檢測到低內(nèi)容狀態(tài)時,可以對編碼輸出進行時間壓縮。該低內(nèi)容狀態(tài)可能持續(xù)隨機的時間周期,并且如果其直接編碼到編碼輸出中,則其可能導致僵硬或者緩慢的內(nèi)容演示。如果需要,(優(yōu)選地通過在至少一個協(xié)議信號中的數(shù)據(jù)或標志進行的)低內(nèi)容狀態(tài)的檢測可以允許出現(xiàn)在待加速的編碼輸出的視聽內(nèi)容中。
在另一優(yōu)選實施例中,如果在協(xié)議信號中檢測到快速畫面更新或者凍結(jié)或保持畫面控制指令,則對所接收的視頻和音頻內(nèi)容可以進行時間壓縮。通常這些指令或者信號與視頻會議中的參與者之間的大量的圖像信息的傳輸相關(guān)聯(lián),其可能需要一定時間以到達特定的端點并且在該特定的端點處進行匯編。接下來,由于在所有該信息已被接收并隨后被顯示之前,參與者不再關(guān)注于當前凍結(jié)的圖像或畫面,因此這可能提供相對僵硬的內(nèi)容程序。
通過使用本發(fā)明,該信息系統(tǒng)可被預高速緩存,并且隨后僅顯示持續(xù)短的時間周期。如果在顯示靜止圖像或者凍結(jié)幀的時間中還生成了有限的視頻內(nèi)容,則會議的音頻內(nèi)容也可以隨時間進行壓縮,以使音頻和視覺內(nèi)容部分同步。
在另一優(yōu)選實施例中,緩沖器可用于對編碼輸出的視聽內(nèi)容進行時間壓縮。在該實施例中,緩沖器或者類似于緩沖器的部件或者數(shù)據(jù)結(jié)構(gòu)在初始時可用于接收視聽信號,由此,緩沖器的內(nèi)容播出到編碼處理中的速率將接下來確定在編碼時應用于視頻會議內(nèi)容的時間壓縮程度。當時間壓縮在其中檢測到低內(nèi)容狀態(tài)的選定時間周期中進行時,緩沖器的內(nèi)容可以以快于正常使用速率的速率播出到進行處理的編碼器。
而且,優(yōu)選地,當在協(xié)議信號中接收到凍結(jié)畫面釋放命令或信號時,緩沖器的內(nèi)容可以以慢于正常速率的速率播出,直至緩沖器彌補了其先前以較快速率播出的內(nèi)容量。
相比于現(xiàn)有技術(shù),本發(fā)明可以提供許多潛在的優(yōu)點。
本發(fā)明可以讀取并隨后使用來自一個或者多個協(xié)議信號的信息,以做出關(guān)于如何對視聽信號或流進行編碼或重新格式化的明智的決定。
自該協(xié)議信號可以獲得關(guān)于進入的視聽信號中的原始關(guān)鍵幀安置的信息,接下來使用該信息,用于在所提供的輸出視聽信息中重新使用相同的關(guān)鍵幀。而且,對于在所提供的編碼輸出中被檢測到或索引的接收視聽信號中的特定的內(nèi)容切換的情況,該技術(shù)也是有幫助的。所提供的這些索引標記可以允許用戶主動地快速地在結(jié)果編碼輸出搜尋或者搜索特定類型的內(nèi)容。而且,獲得自協(xié)議信號的關(guān)鍵幀安置信息還可以用于確保關(guān)鍵幀安置在接近于該索引標記的附近時間位置,由此允許快速地生成并向用戶顯示所需的視頻信息。
獲得自一個或者多個協(xié)議信號的信息還可用于協(xié)助選擇用于進入的一個或者多個視聽信號的特定的編碼方案或型式?;谟脩魞?yōu)選或選擇并且結(jié)合獲得自協(xié)議信號的關(guān)于進入的視聽信號的特征,可向用戶呈現(xiàn)有限數(shù)目的編碼方案,其將生成關(guān)于所提供的輸入信息的最優(yōu)結(jié)果。
本發(fā)明還可以提供了一種工具,其用于相對于演示時間,壓縮進入的一個或多個視聽信號中出現(xiàn)的選定類型的內(nèi)容。如果在進入的視頻會議中檢測到相對僵硬的或者緩慢的內(nèi)容部分(諸如凍結(jié)畫面分段),則在所提供的編碼輸出中,出現(xiàn)該內(nèi)容的時間可被壓縮。
附圖簡述通過下文僅借助于示例給出的描述,并參考附圖,本發(fā)明的另外的方面將變得顯而易見,在附圖中
圖1示出了結(jié)合優(yōu)選實施例的編碼視聽媒體的方法中執(zhí)行的步驟的框式示意性流程圖,和圖2以示意圖的形式說明了參考圖1討論的編碼處理所牽涉的信號,和圖3a、3b、3c以示意圖的形式示出了關(guān)于如圖2討論的編碼關(guān)鍵幀的信號。
圖4示出了根據(jù)本發(fā)明的另一實施例提供的用戶接口和編碼方案選擇工具。
圖5a、5b、5c示出了根據(jù)本發(fā)明的另一實施例使用和產(chǎn)生的信號的一系列示意圖,和圖6a、6b和6c再次示意性地示出了根據(jù)本發(fā)明的另一實施例接收并隨后生成的一組信號,和圖7和表1示出了結(jié)合本發(fā)明的優(yōu)選實施例的關(guān)鍵幀插入或編碼中采用的處理流程圖和相關(guān)的偽代碼細化步驟,和圖8和9以及表2和3說明了根據(jù)本發(fā)明的另一實施例的關(guān)鍵幀和索引標記的編碼,和圖10和表4說明了自適應內(nèi)容播出機制的提供方案,其在檢測到低內(nèi)容狀態(tài)時使用緩沖器加速內(nèi)容編碼。
用于實現(xiàn)本發(fā)明的最佳模式圖1示出了結(jié)合優(yōu)選實施例的編碼視聽媒體的方法中執(zhí)行的步驟的框式示意性流程圖。
在該方法的第一步驟中,連接到計算機網(wǎng)絡(luò)的編碼計算機系統(tǒng)接收來自該計算機網(wǎng)絡(luò)的視頻會議傳輸。該視頻會議傳輸包括視聽信號和協(xié)議信號集。該協(xié)議信號除了提供用于生成信號的特定硬件設(shè)備的狀態(tài)以外,還提供關(guān)于如何生成視聽信號的信息。
在該方法的階段2中,從在階段1中接收的協(xié)議信號中提取信息。在參考圖1和2討論的實施例中,提取自這些協(xié)議信號的信息包括,關(guān)鍵幀被編碼到所接收的原始視聽信號中時間位置的指示,并且還包括,關(guān)于特定的內(nèi)容切換在所使用的視聽信息出現(xiàn)時間的信息。在所考慮的實施例中,通過使用文檔攝像機(其相對于示出會議的參與者的攝像機)檢測內(nèi)容切換。
在該方法的階段3中,基于所讀取的協(xié)議信號中出現(xiàn)的信息,選擇特定的編碼處理,用于應用于所接收的視聽信號。在所討論的情況中,選定的編碼處理將特定的索引標記參考并入到所提供的輸出中,用于指出在使用文檔攝像機時出現(xiàn)在視聽信息中的內(nèi)容切換。該選定的編碼處理還考慮編碼到原始視聽信號中的每個關(guān)鍵幀的位置,并且基于所使用的原始關(guān)鍵幀的時間位置,調(diào)節(jié)所生成的編碼輸出中的關(guān)鍵幀的生成和應用。
在該方法的步驟4中,生成并產(chǎn)生用于特定的軟件播放器應用程序的該方法的編碼輸出。在參考圖1和2討論的情況中,所提供的編碼輸出可以在Real Media Real Player上播放。
圖2以示意圖的形式說明了參考圖1討論的編碼處理的要素,示出了原始視聽信號(5)以及后繼的編碼輸出的視聽信號(6)。
原始信號(5)包括多個沿信號(5)的播放時間的特定時間位置分布的關(guān)鍵幀(7)。原始信號(5)還并入了向參與者顯示內(nèi)容的視頻(8)和獲取自針對會議參與者訓練的視頻攝像機的靜止圖像或者抽點(9)之間的特定的內(nèi)容切換。
重新編碼信號(6)利用獲得自協(xié)議信號的信息,檢測關(guān)鍵幀(7)和內(nèi)容切換的出現(xiàn),其中該協(xié)議信號接收自進入的視頻會議傳輸。索引標記(10)(在優(yōu)選實施例中由URL形成)插入到編碼輸出信號(6)中,用以表示信號的視聽內(nèi)容中的內(nèi)容切換的出現(xiàn)。
如果有可能,還循環(huán)或者重新使用進入的視聽信號(5)的原始的關(guān)鍵幀(7),如第二信號(6)中的第一關(guān)鍵幀(11a)的位置所示出的。然而,在所示出的情況中,生成新的關(guān)鍵幀(11b),并且將其編碼到第二信號(6)中,用以提供與指出待顯示的視聽信息中出現(xiàn)內(nèi)容切換的索引標記接近的關(guān)鍵幀。在該情況中,在第二信號(6)中不重新編碼或者重新使用原始信號的第二關(guān)鍵幀(7b)。
圖3a~3c示出了進入的視頻流(3a)、未使用本發(fā)明進行重新編碼的視頻流(3b)、以及使用本發(fā)明進行重新編碼的視頻流(3c),其中使用了關(guān)于原始視頻流(3a)的原始關(guān)鍵幀安置的信息。
如可由圖3b中可以看到的,在不使用本發(fā)明的情況下,譯碼或者重新編碼的視頻信號沒有必要將關(guān)鍵幀安置于與參考圖3a所示的信號中提供的位置相同的位置或者方位。相反地,在圖3c中,所使用的關(guān)鍵幀基本上位于與原始的流式視頻信號中的原始關(guān)鍵幀相同的時間位置。
圖4示出了根據(jù)本發(fā)明的另一實施例提供的用戶接口和編碼方案選擇裝置。
在所示出的情況中,編碼計算機系統(tǒng)(12)配備有至計算機網(wǎng)絡(luò)(14)的連接(13)。該計算機網(wǎng)絡(luò)(14)可以承載有待提供給編碼計算機(12)的視頻會議傳輸,該編碼計算機(12)用作關(guān)于視頻會議的編碼端點。編碼計算機(12)作為視頻會議的參與者,傳輸所維持的無聲音頻且空白視頻的信號,并且適于提供另外的編碼視聽輸出,其源自視頻會議傳輸中使用的視聽信號。
用戶接口模塊(15)可以提供用于與用于單獨用戶計算機的編碼計算機(12)通信,或者通過在相同的編碼計算機(12)上運行的軟件進行通信。該用戶接口(UI)模塊可以在初始時向編碼計算機系統(tǒng)發(fā)送用戶參數(shù)信息(16)。編碼計算機系統(tǒng)(12)還可以從作為視頻會議傳輸一部分而接收的協(xié)議信號中提取視聽信號參數(shù)信息,其中這些參數(shù)給出了關(guān)于構(gòu)成視頻傳輸一部分的視聽信號的信息。這些參數(shù)可以提供有關(guān)進入的視聽信號的構(gòu)成的信息,諸如
(i)所使用的音頻編解碼器,和(ii)所使用的視頻編解碼器,和(iii)所提供的音頻信息的比特率,和(iv)所提供的視頻信息的比特率,和(v)視頻信息幀速率,和(vi)視頻信息分辨率編碼計算機系統(tǒng)可以通過使用所獲得的所有用戶和協(xié)議信息,計算“最相配的”編碼方案的數(shù)目,該編碼方案可用于滿足用戶關(guān)于進入的視頻流的需要。然后,關(guān)于有效編碼方案的信息可以傳輸(17)到UI模塊,其接下來允許用戶將方案選擇指令(18)傳輸回到編碼計算機(12),用以指出應使用哪個編碼方案。
基于這些指令,編碼計算機系統(tǒng)可以編碼并生成輸出(19),其可以在適當?shù)幕谟嬎銠C的媒體播放器應用程序上播放。
而且,通過下文給出的偽代碼,更加詳細地示出了用于選擇或指定可使用的編碼方案的集合的處理。
<pre listing-type="program-listing"><![CDATA[H.323 call parameters H.263video @ 112kbps H.263video resolution @ CIF H.263video frame rate @ 12.5fps G.728audio @ 16kbpsUser input Bitrate56kbps Modem Player formatRealMedia Native-Single Stream Display modeSingle MonitorProfiler decisions //find the media type for the stream //either standard(video and audio only)or presentation(audio,videoand //snapshots) If Display_Mode=Single_Monitor then Profiler_Media_Type=(standard) Else Profiler_Media_Type=(presentation) Endlf//find the maximum audio bitrate for the stream based on the mediatype//where media type is standard,allow more bitrate to the audio codecthan if//media type of presentation selected(when presentation need toleave//bandwidth for the snapshot).User_Bitrate=(56kbps)and Profiler_Media_Type=(standard)thereforeMax_Audio_Bitrate=(8.5kbps).//select the audio codec for use in the stream based on the maximum//available bandwidth.If Incoming_Audio_Bitrate>Max_Audio_Bitrate then Profiler_Audio_Codec=Select Audio_Codec from Table_3 where Bitrate_Supported<=Max_Audio_Bitrate therefore Profiler_Audio_Codec=(RealAudio_8.5kbps_Voice)Else Profiler_Audio_Codec=Incoming_Audio_CodecEndlf//set the video bandwidth based on total available bandwidth andbandwidth//used by audio codec.Profiler_Optimum_Bitrate=Select Optimum_Bitrate from Table_4whereBandwidth_Option=(56kbps_Modem)If(Profiler_Audio_Codec<>Incoming_Audio_Codec)then Profiler_Audio_Bitrate=Select Bitrate_Supported from Table_3where Audio_Codec=(Profiler_Audio_Codec)Else Profiler_Audio_Bitrate=Incoming_Audio_BitrateEndlfProfiler_Video_Bitrate=Profiler_Optimum_Bitrate-Profiler_Audio_BitratethereforeProfiler_Video_Bitrate=(29.5kbps)//set video resolutionProfiler_Video_Res=Select Optimum_Resolution from Table_4where Bandwidth_Option=(56kbps_Modem)thereforeProfiler_Video_Res=(176×144)//set video codecIf User_Player_Format=RealMedia_Native thenProfiler_Video_Codec=(RealVideog).//set video frame rateMax_Profiler_Frame_Rate=Incoming_Frame_RateProfiler_Frame_Rate=Select Optimum_Frame_Rate fromTable_4where Bandwidth_Option=(56kbpsModem)If Profiler_Frame_Rate>Max_Profiler_Frame_Rate then Profiler_Frame_Rate=Max_Profiler_Frame_RateEndIf]]></pre>
圖5a~5c示出了與本發(fā)明相關(guān)聯(lián)的信號的一系列示意圖,并且說明了取決于其接收信號的本發(fā)明的進一步的動作。
圖5a示出了進入的協(xié)議信號,其指出了在參考圖5b示出的視頻信號的幀150處出現(xiàn)了抽點事件。圖5b還示出了,關(guān)鍵幀在幀125處被編碼到原始的進入的視頻中。
圖5c示出了結(jié)合在所示實施例中的本發(fā)明提供的編碼視頻輸出。該圖說明了,本發(fā)明如何取決于輸入的接收視頻會議傳輸,將關(guān)鍵幀安置在其編碼輸出信號中。
本發(fā)明使用的軟件在所示情況中做出一組決定。通過考慮關(guān)于應處于編碼輸出信號中的關(guān)鍵幀之間的最大時間位移的設(shè)定值,完成了這些決定中的第一個。在所示情況中,每150個幀中編碼一個關(guān)鍵幀,并且由于關(guān)鍵幀在幀124處提供,因此隨后在編碼輸出(5c)中使用該原始的幀。
其次,所使用的軟件指出,索引標記被編碼到或者寫入到在幀150處提供的輸出中,以標出抽點事件在進入的視頻信號中的位置。通過考慮關(guān)于自該索引標記的時間位移的容限值,所使用的軟件可以了解,出現(xiàn)在幀124處的關(guān)鍵幀處于該容限內(nèi),并且在幀150處的抽點事件之前不需要對另外的關(guān)鍵幀進行編碼。
圖6a、6b和6c示出了說明另一實施例中的本發(fā)明的進一步的動作的一組信號。在所示實施例中,參考圖6a示出了進入的協(xié)議信號,參考圖6b示出了進入的視頻信號,而如圖6c,示出了結(jié)合本發(fā)明提供的編碼輸出視頻。
在該抽點中,進入的視頻包括幀275和402處的關(guān)鍵幀,以及幀398處的視頻快速更新畫面協(xié)議信號。相反地,所提供的編碼輸出包括分別位于幀250和幀402處的關(guān)鍵幀。在示出的該情況中,做出對有待提供的輸出進行編碼的決定,由此關(guān)鍵幀被安置在隔開150個幀的最大值。然而,關(guān)鍵幀之間的該最大時間可以取決于進入的信號的細節(jié)而變化,如下文所討論的。
當進入信號中的位于幀275處的原始關(guān)鍵幀被檢測到時,由所使用的軟件做出不對輸出中的關(guān)鍵幀進行編碼的決定,這是因為其與在幀250處提供的先前的編碼關(guān)鍵幀鄰近。自幀250起每150個關(guān)鍵幀,應基于關(guān)鍵幀之間的最大時間值對關(guān)鍵幀進行編碼。然而,在該情況中,由于幀398處的協(xié)議信號示出了預見到關(guān)鍵幀處于隨后的幀中,因此未對其進行編碼。在該情況中,關(guān)鍵幀之間的最大時間略微擴展,以允許傳遞與視頻快速畫面更新相關(guān)聯(lián)的關(guān)鍵幀。該關(guān)鍵幀在幀402處到達進入的視頻,并且該關(guān)鍵幀然后在幀402處被編碼到輸出視頻中。
圖7和表1示出了結(jié)合本發(fā)明的優(yōu)選實施例的關(guān)鍵幀插入或編碼中采用的處理流程圖和相關(guān)的偽代碼細化步驟。
所描述的處理在初始時接收來自形成至視頻會議呼叫端點的視頻會議設(shè)備的解碼元件或部件的幀。
在初始時審查所接收的幀,以確定其是否是幀內(nèi)編碼的,或者其在結(jié)合所牽涉的視頻會議而接收的視聽信號中形成關(guān)鍵幀。通過檢查幀中的實際幀內(nèi)編碼宏塊的數(shù)目,實現(xiàn)該關(guān)鍵幀測試,其中最大的可能幀內(nèi)編碼宏塊計數(shù)將指出關(guān)鍵幀的出現(xiàn)。
如果該幀未被確認為關(guān)鍵幀,則該處理進行檢查以確定所牽涉的視頻會議系統(tǒng)是否已向視頻會議傳輸源傳輸了快速畫面更新,其中該快速畫面更新請求關(guān)鍵幀的傳輸。
如果未預見到關(guān)鍵幀,則測試所接收的幀,以確定其質(zhì)量或者其包含的宏塊要素相比于最大宏塊水平的比例或者百分比。在所討論的實施例中,該閾值測試被設(shè)定在85%。如果該幀通過該85%的閾值,則其有效地被當作關(guān)鍵幀進行處理,并且運行涉及關(guān)鍵幀處理的處理部分。
如果接收幀未能通過宏塊或者幀內(nèi)編碼測試,則其轉(zhuǎn)發(fā)到標準的編碼系統(tǒng),其生成所需的大量編碼輸出。該編碼系統(tǒng)將取決于其內(nèi)部參數(shù),以幀間編碼的形式或者幀內(nèi)編碼的形式,對所需的幀進行編碼。
如果接收幀未被確認為關(guān)鍵幀,然而卻預見到關(guān)鍵幀,則完成測試,以確定自上一關(guān)鍵幀起的時間是否大于或者等于關(guān)鍵幀之間的可允許的最大時間。如果該測試導致了真值,則所允許的關(guān)鍵幀之間的最大時間增加,并且隨后將該幀發(fā)送到標準的編碼系統(tǒng)。相反地,如果關(guān)鍵幀之間的時間低于所牽涉的最大時間,則簡單地將該幀發(fā)送到標準的編碼系統(tǒng)。
然后,使用關(guān)鍵幀之間的最大時間值測試其是否應將所接收的當前幀編碼為關(guān)鍵幀或者編碼為幀間編碼幀。
如果系統(tǒng)確認接收到了關(guān)鍵幀,或者測試了接收幀的質(zhì)量并且確定了其具有足夠高的質(zhì)量可被視作關(guān)鍵幀,則檢索自接收上一關(guān)鍵幀起的時間。下一步,完成測試以確定當前的關(guān)鍵幀是否是在最大時間閾值之后接收的。如果已經(jīng)超過了該最大時間閾值,則所提供的該系統(tǒng)或處理將強制將當前幀作為關(guān)鍵幀編碼到編碼輸出中。如果沒有超過該最大時間閾值,則將當前幀提供給標準的編碼系統(tǒng)。
圖8、9以及表2和3說明了根據(jù)本發(fā)明的另一實施例的關(guān)鍵幀和索引標記的編碼。
在參考圖8示出的處理的初始階段,如參考圖7所討論的,采用相同的步驟,用于關(guān)鍵幀的編碼。然而,該處理通常在應對關(guān)鍵幀或者幀編碼的點處偏離。
在所描述的處理中,將關(guān)鍵幀編碼到編碼輸出被推遲,直至從視頻會議接收到所需的關(guān)鍵幀。該處理還測試低的時間閾值,以確定所接收的索引標記是否將被編碼到自關(guān)鍵幀起的特定時間周期或者時間位移中。如果在所需的時間周期中沒有現(xiàn)存的關(guān)鍵幀是可用的,則將強制將現(xiàn)存的幀作為關(guān)鍵幀而進行編碼。相反地,如果關(guān)鍵幀是可用的,則可以使用標準的編碼處理。
參考圖9和表3討論的另外的索引狀態(tài)程序允許監(jiān)視或跟蹤兩個并發(fā)的或者連續(xù)的索引標記事件,并且還允許對所需的任何索引標記進行編碼。如果顯見的是所牽涉的視頻會議中的操作員或者參與者錯誤地觸發(fā)了索引標記事件,則允許丟棄這些索引標記中的一個,并且隨后或者立即使視頻會議設(shè)備返回到其先前狀態(tài)或者現(xiàn)有配置。
圖10和表4說明了自適應內(nèi)容播出機制的提供方案,其在檢測到低內(nèi)容狀態(tài)時使用緩沖器加速對內(nèi)容進行的編碼。
在所討論的實現(xiàn)方案中,凍結(jié)畫面信號和協(xié)議信號被用于確定存在低內(nèi)容狀態(tài)。由所示處理維持和修改緩沖器數(shù)據(jù)結(jié)構(gòu),以取決于所牽涉的視頻凍結(jié)畫面信號是否已被維持或者是否已被釋放,加速時基編碼速率或者減慢該時基編碼速率。
僅借助于示例已描述了本發(fā)明的方面,應當理解,在不偏離附屬權(quán)利要求中限定的本發(fā)明的范圍的前提下,可以對其進行修改和補充。
權(quán)利要求
1.一種編碼視聽媒體信號的方法,其特征在于以下步驟(i)接收來自計算機網(wǎng)絡(luò)的視頻會議傳輸,所述視頻會議傳輸包括至少一個視聽信號和至少一個協(xié)議信號,和(ii)讀取一個或者多個協(xié)議信號,和(iii)將所選編碼處理應用于所接收的視聽信號,所述編碼處理是取決于讀取的所述至少一個協(xié)議信號的內(nèi)容而選擇的。
2.權(quán)利要求1的編碼方法,其進一步的特征在于以下額外的后繼步驟(iv)產(chǎn)生用于軟件播放器應用程序的編碼輸出。
3.權(quán)利要求2的編碼方法,其中所提供的編碼輸出適于播放給未直接參與視頻會議的用戶。
4.權(quán)利要求2或3的任何一個的編碼方法,其適于提供一個或者多個編碼輸出文件。
5.權(quán)利要求2或3的編碼方法,其適于提供編碼輸出傳輸。
6.權(quán)利要求2~5的任何一個的編碼方法,其中所提供的編碼輸出適于使用計算機系統(tǒng)播放。
7.權(quán)利要求2~6的任何一個的編碼方法,其中編碼輸出在計算機網(wǎng)絡(luò)上分布到用戶。
8.權(quán)利要求2~7的任何一個的編碼方法,其中用于提供編碼輸出的裝置形成了視頻會議端點。
9.前面任何一個權(quán)利要求的編碼方法,其中所讀取的協(xié)議信號提供了關(guān)于與視頻會議傳輸?shù)囊暵犘盘栂嚓P(guān)聯(lián)的下列參數(shù)的任何組合的信息(i)所使用的音頻編解碼器和/或(ii)所使用的視頻編解碼器和/或(iii)所提供的音頻信息的比特率和/或(iv)所提供的視頻信息的比特率和/或(v)視頻信息幀速率和/或(vi)視頻信息分辨率。
10.前面任何一個權(quán)利要求的編碼方法,其中所讀取的協(xié)議信號的內(nèi)容用于檢測視頻會議傳輸?shù)囊暵犘盘栔谐霈F(xiàn)的至少一個關(guān)鍵幀的時間位置。
11.權(quán)利要求10的編碼方法,其中關(guān)鍵幀被編碼在編碼輸出中的、與視頻會議傳輸?shù)囊暵犘盘栔袡z測到關(guān)鍵幀的時間位置相同的時間位置處。
12.前面任何一個權(quán)利要求的編碼方法,其中所述至少一個所讀取的協(xié)議信號的內(nèi)容指出了在視頻會議傳輸?shù)囊暵犘盘栔谐霈F(xiàn)的內(nèi)容切換。
13.權(quán)利要求12的編碼方法,其中通過提取自協(xié)議信號的凍結(jié)畫面信號來檢測內(nèi)容切換。
14.權(quán)利要求12的編碼方法,其中通過移除提取自協(xié)議信號的凍結(jié)畫面請求信號來檢測內(nèi)容切換。
15.權(quán)利要求12的編碼方法,其中通過提取自協(xié)議信號的文檔攝像機信號來檢測內(nèi)容切換。
16.權(quán)利要求12的編碼方法,其中通過移除提取自協(xié)議信號的文檔攝像機信號來檢測內(nèi)容切換。
17.權(quán)利要求12的編碼方法,其中通過提取自協(xié)議信號的圖象并入信號來檢測內(nèi)容切換。
18.權(quán)利要求12的編碼方法,其中通過移除提取自協(xié)議信號的圖象并入信號來檢測內(nèi)容切換。
19.權(quán)利要求12的編碼方法,其中通過提取自協(xié)議信號的攝像機移動信號來檢測內(nèi)容切換。
20.權(quán)利要求12~19的任何一個的編碼方法,其中內(nèi)容切換的檢測觸發(fā)了至少一個索引標記同檢測到內(nèi)容切換的編碼輸出中對應時間位置處的編碼輸出之間的關(guān)聯(lián)。
21.權(quán)利要求20的編碼方法,其中索引標記包括參考信息,其指示所檢測到的內(nèi)容切換。
22.權(quán)利要求20或21的任何一個的編碼方法,其中協(xié)議信號指出了視頻會議傳輸?shù)囊暵犘盘栔谐霈F(xiàn)的至少一個關(guān)鍵幀的時間位置,并且其中將編碼到編碼輸出中的關(guān)鍵幀安置在與編碼到所述輸出的索引標記的位置相鄰或者相同的位置。
23.權(quán)利要求22的編碼方法,其中將編碼到編碼輸出中的關(guān)鍵幀安置在自索引標記起的閾值時間內(nèi)。
24.權(quán)利要求22的編碼方法,其中關(guān)鍵幀被編碼在與索引標記相同的時間位置處。
25.權(quán)利要求2~24的任何一個的編碼方法,其中當自接收協(xié)議信號檢測到低內(nèi)容狀態(tài)時,對編碼輸出視聽內(nèi)容進行時間壓縮。
26.權(quán)利要求25的編碼方法,其中緩沖器用于對編碼輸出的視聽內(nèi)容進行時間壓縮。
27.一種編碼視聽媒體信號的方法,其特征在于以下步驟(i)接收來自計算機網(wǎng)絡(luò)的視頻會議傳輸,所述視頻會議傳輸包括至少一個視聽信號和至少一個協(xié)議信號,和(ii)讀取一個或者多個協(xié)議信號,和(iii)確定出現(xiàn)在所接收視聽信號中的關(guān)鍵幀的時間位置,和(iv)將關(guān)鍵幀編碼到編碼輸出中的、與原始接收視聽信號中檢測到關(guān)鍵幀的時間位置相同的時間位置處。
28.一種編碼視聽媒體信號的方法,其特征在于以下步驟(i)接收來自計算機網(wǎng)絡(luò)的視頻會議傳輸,所述視頻會議傳輸包括至少一個視聽信號和至少一個協(xié)議信號,和(ii)讀取一個或者多個協(xié)議信號,和(iii)檢測在所接收的一個或者多個視聽信號的視聽內(nèi)容中的內(nèi)容切換,和(iv)將索引標記編碼在檢測到內(nèi)容切換的時間位置處。
29.權(quán)利要求28的編碼方法,其中索引標記被編碼在在自關(guān)鍵幀的時間位置起的時間閾值內(nèi)。
30.根據(jù)本發(fā)明的另一方面,提供了一種基本上如上文所述的編碼視聽媒體信號的方法,其特征在于以下步驟(i)接收來自計算機網(wǎng)絡(luò)的視頻會議傳輸,所述視頻會議傳輸包括至少一個視聽信號和至少一個協(xié)議信號,和(ii)讀取一個或者多個協(xié)議信號,和(iii)檢測所接收視聽信號的視聽內(nèi)容中的內(nèi)容切換,和(iv)編碼關(guān)鍵幀,和(v)將索引標記編碼在與編碼關(guān)鍵幀的時間位置相同或相鄰的時間位置處。
31.一種編碼視聽媒體信號的方法,其特征在于以下步驟(i)接收來自計算機網(wǎng)絡(luò)的視頻會議傳輸,所述視頻會議傳輸包括至少一個視聽信號和至少一個協(xié)議信號,和(ii)讀取一個或者多個協(xié)議信號,和(iii)檢測所接收的一個或者多個視聽信號中出現(xiàn)的低內(nèi)容狀態(tài)的存在,和(iv)在其中在所接收視頻會議傳輸中檢測到所述低內(nèi)容狀態(tài)的時間周期期間,對編碼輸出內(nèi)容進行時間壓縮。
32.權(quán)利要求31的編碼方法,其中使用緩沖器接收視頻會議傳輸信號,由此緩沖器內(nèi)容播出到編碼處理中的速率確定了在編碼時應用于原始視頻會議內(nèi)容的時間壓縮程度。
33.一種編碼視聽媒體信號的方法,其特征在于以下步驟(i)接收來自計算機網(wǎng)絡(luò)的視頻會議傳輸,所述視頻會議傳輸包括至少一個視聽信號和至少一個協(xié)議信號,和(ii)讀取一個或者多個協(xié)議信號,以確定所接收視頻會議傳輸?shù)木幋a特征,和(iii)接收來自至少一個用戶的編碼優(yōu)選,和(iv)自編碼處理的集合中選擇可以使用該用戶優(yōu)選和該編碼特征實現(xiàn)的編碼處理的子集,和(v)向用戶顯示編碼處理的子集。
34.一種基本如此處通過參考附圖和/或示例描述的并且由該附圖和/或示例說明的編碼視聽信號的方法。
35.一種基本如此處通過參考附圖和/或示例描述的并且由該附圖和/或示例說明的編碼視聽信號的方法。
36.適于實現(xiàn)如此處通過參考附圖和/或示例描述的并且由該附圖和/或示例說明的編碼視聽信號的方法的計算機軟件。
全文摘要
本發(fā)明涉及一種用于編碼視聽媒體信號的方法、系統(tǒng)和裝置,該信號優(yōu)選地源自視頻會議傳輸。所提供的技術(shù)適于接收來自計算機網(wǎng)絡(luò)的視頻會議傳輸,其中該視頻會議傳輸包括至少一個視聽信號和至少一個協(xié)議信號。然后自接收的傳輸讀取一個或者多個協(xié)議信號,所提供的技術(shù)將所選的編碼處理應用于接收的視聽信號,其中所選的該編碼處理取決于讀取的協(xié)議信號的內(nèi)容。
文檔編號H04N7/15GK1714554SQ03824526
公開日2005年12月28日 申請日期2003年8月21日 優(yōu)先權(quán)日2002年8月23日
發(fā)明者克雷格·喬治·科克頓 申請人:艾克特斯有限公司