專利名稱:根據(jù)參會人員之間的交互作用調(diào)整cp布局的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信領(lǐng)域,特別是涉及用于視頻會議的方法和系統(tǒng)。
背景技術(shù):
視頻會議使得相互遠離的個人能夠通過使用音頻和視頻電信在簡短通知(short notice)上進行面對面會議。視頻會議可包含至少兩個地點(點到點)或幾個地點(多點)。 單個的參與者可位于會議地點,或者可在諸如會議室內(nèi)的某個地點上存在幾個參與者。視頻會議也可被用于共享文件和信息等。視頻會議中的參與者通過視頻會議端點與其它地點的參與者交互作用。端點是能夠提供與其它終端或與多點控制單元(MCU,后面詳細討論)的實時、雙向音頻/視頻/數(shù)據(jù)通信的網(wǎng)絡(luò)上的終端。端點可僅提供語音、提供語音和視頻或提供語音、數(shù)據(jù)和視頻通信等。視頻會議端點一般包含可顯示來自一個或多個遠程地點的視頻圖像的顯示單元。示例性的端點包含可分別從Polycom,Inc. (POLYCOM, VSX和HDX是Polycom,Inc.的注冊商標) 得到的POLYCOM VSX 和HDX 系列。視頻會議端點從本地地點向一個或多個遠程地點發(fā)送音頻、視頻和/或數(shù)據(jù),并且在屏幕上顯示從一個或多個遠程地點接收的視頻和/或數(shù)據(jù)??梢栽诓季种胁贾迷谝曨l會議端點上的屏幕上顯示的視頻圖像。布局可包含用于顯示視頻圖像的一個或多個分段(segment)。分段是被分配給從參與對話的地點中的一個接收的視頻圖像的接收端點的屏幕的一部分。例如,在兩個參與者之間的視頻會議中,分段可覆蓋本地端點的屏幕的整個顯示區(qū)域。另一例子是在切換模式中進行視頻會議的本地地點和多個其它的遠程地點之間的視頻會議,使得根據(jù)會議的動態(tài)變化,可以在單一時間在本地地點上僅顯示來自一個其它的遠程地點的視頻,并且可以切換所顯示的遠程地點。相反,在連續(xù)呈現(xiàn)(Continuous Presence, CP)會議中,終端上的參會人員可同時觀看會議中的幾個其它參與者的地點??梢栽诓季值牟煌侄沃酗@示各地點,其中各分段可以具有相同的尺寸或不同的尺寸。被顯示并與布局的分段相關(guān)的地點的選擇可在參與同一對話的不同的參會人員之間改變。在連續(xù)呈現(xiàn)(CP)布局中,為了配合分段尺寸,從地點接收的視頻圖像可縮小或被修剪??梢允褂肕CU管理視頻會議。MCU是可位于網(wǎng)絡(luò)的節(jié)點、終端或任何其它位置中的會議控制實體。MCU可根據(jù)一定的準則從訪問端口接收和處理幾個媒體通道,并且通過其它的端口向所連接的通道分配它們。MCU的例子包括可從Polycom,Inc.得到的MGC-100和RMX 2000 (RMX 2000是Polycom,he.的注冊商標)。一些MCU由兩個邏輯單元構(gòu)成 媒體控制器(MC)和媒體處理器(MP)。在諸如但不限于H. 320、H. 324和H. 323標準的國際電信聯(lián)盟(“ITU”)標準中,可以找到端點和MCU的更詳盡的定義。在ITU網(wǎng)站www. itu. int可以找到關(guān)于ITU標準的附加信息。為了在接收端點(地點)的屏幕布局的分段內(nèi)呈現(xiàn)視頻圖像,可以操作、縮小和顯示整個接收的視頻圖像,或者可通過MCU修剪并顯示視頻圖像的一部分。MCU可從接收的參會人員視頻圖像的一個或多個邊緣修剪行或列,以使其與視頻會議圖像的布局中的分段的區(qū)域配合。如在美國專利申請11/751,558公開的那樣,另一修剪技術(shù)可根據(jù)圖像的關(guān)注區(qū)域修剪接收到的圖像的邊緣,在此加入其全部內(nèi)容作為參考。在視頻會議對話中,可根據(jù)對于對話選擇的布局限定布局中的分段的尺寸。例如, 如圖1所示,在2X2布局中,各分段可基本上為顯示的四分之一。布局100包含分段112、 114、116和118。在2X2布局中,如果五個地點參與對話,那么各地點的參會人員一般可看到其它的四個地點。在CP視頻會議對話中,可根據(jù)參與會議的活躍性動態(tài)改變地點和分段之間的相關(guān)性。在一些布局中,分段中的一個可被分配給當前的發(fā)言者,并且其它的分段可被分配給其它的地點、作為出席的參會人員選擇的地點。一般根據(jù)一定的準則、諸如一定百分比的監(jiān)視周期中的最響亮的發(fā)言者,來選擇當前的發(fā)言者。其它的地點(在其它的分段中)可包含先前的發(fā)言者、具有高于其它的音頻能量的地點、管理決定要求可見的某些參會人員等。在圖1所示的例子中,只使用顯示區(qū)域的四分之三-分段112、114和116-并且, 第四個四分之一 118被背景顏色占據(jù)。當只有四個地點是活動的并且各地點觀看其它的三個時,會出現(xiàn)這種情況。并且,分段116顯示空的房間,而在分段112和114中呈現(xiàn)的地點分別包含單個參會人員(參會人員120和130)。因此,在該對話周期中,只有屏幕區(qū)域的一半被有效使用,并且另一半沒有被有效使用。分段116和分段118的區(qū)域?qū)τ趨藛T的體驗沒有貢獻,因此沒有以智能和有效的方式被開發(fā)。此外,在兩個分段112和114中可以看到,圖像的主要區(qū)域是冗余的。視頻圖像捕獲房間的大的部分,而參會人員的圖像120和130較小并且位于小的區(qū)域中。因此,顯示區(qū)域的重要部分被浪費在不受關(guān)注的區(qū)域中。因此,被參會人員的圖像捕獲的區(qū)域受到影響, 并且觀看視頻會議的布局的參會人員的體驗不是最佳的。并且,在一些會議對話中,一個或多個地點具有單個參與者,而在其它的地點存在兩個或更多個參與者。在當前可用的布局中,各地點接收類似的分段尺寸,并且作為結(jié)果,與具有較少參與者的地點的參會人員相比,具有多個參會人員的地點的各參與者在較小的區(qū)域上被顯示,從而使觀看者的體驗劣化。在一些視頻會議對話中,可存在具有多個參會人員的地點,其中他們之中只有一個是活動的并且與其它地點進行通話。通常,該房間中的視頻照相機捕獲具有多個參會人員的整個房間,從而對于包含活動參會人員的參會人員中的每一個分配小的屏幕區(qū)域。在其它的對話中,可作為布局的一部分、一般與在其它的分段中呈現(xiàn)的視頻圖像無關(guān)地在分段中的一個中呈現(xiàn)內(nèi)容(數(shù)據(jù))。如果在電話會議中參會人員中的一個遠離照相機,那么該參會人員的圖像將看起來較小,并且觀看視頻會議的布局的參會人員的體驗也劣化。類似地,如果在所顯示的地點的參會人員離開房間一定時間并然后返回,那么在參會人員缺席的期間,在布局上顯示空的房間。在一些已知的技術(shù)中,在其它地點上的觀察參會人員可手動改變在它們的端點上觀看到的布局以適應(yīng)會議的動態(tài)變化,但是這要求參會人員停止當前的活動并且處理布局菜單以進行這種調(diào)整。
發(fā)明內(nèi)容
用于在CP視頻會議的布局中布置分段的當前方法忽略位于不同地點的參會人員和觀察布局的參會人員之間的交互作用。觀看圖1的示例性現(xiàn)有技術(shù)CP布局100的參會人員看到會議的不自然的示圖,其中兩個參會人員120和130背靠背坐著。當兩個參會人員是對話中的主導(dǎo)參會人員并且大多數(shù)的談話在他們之間完成時,效果會更差。這種布局不反映對等的會議。根據(jù)在不同地點呈現(xiàn)的參會人員之間的交互作用調(diào)整和布置布局可提高基于布局的CP視頻圖像的觀察者的體驗。根據(jù)不同地點的不同參會人員之間的交互作用調(diào)整和布置布局可提供與參會人員相互觀看的真實會議類似的體驗。此外,使布局適于同一地點的參會人員之間的交互作用可基于這種布局改善其它地點的觀看CP視頻圖像的參會人員的體驗。例如,可以在兩個分段中呈現(xiàn)具有多個參會人員但只有一個參會人員活動的地點,一個分段呈現(xiàn)整個組的參會人員,而另一個以較大的尺寸呈現(xiàn)活動的參會人員。圖2示出與圖1相同的視頻會議對話的示例性布局200,其中來自地點B和A的視頻圖像的位置在布局200中已經(jīng)被交換,以給出會議的更真實的感覺。作為在分段114中呈現(xiàn)的替代,在分段112中呈現(xiàn)具有參會人員130的地點B,并且作為在分段112中呈現(xiàn)的替代,在分段114中呈現(xiàn)來自地點A的圖像120。新位置更好地反映坐在房間中的兩個參會人員120和130之間的交互作用。與背靠背坐著的參會人員相比,新的布置傳輸舒服的感覺。此外,由于在布局中的新位置中呈現(xiàn)的參會人員使得他們面向布局的中心如同面向觀察者一樣,因此布局的布置將樹立觀察者的也作為參會人員中的一員的體驗。在一些實施例中,具有來自地點C的視頻圖像的分段116可也移動到中心。呈現(xiàn)的地點之間的交互作用可包含在會議中主導(dǎo)的兩個或更多個地點;地點中的一個或多個人的位置/相對位置;一個或多個人面對的方向;等等。不同的技術(shù)可幫助發(fā)現(xiàn)參會人員相對于房間的中心的位置。技術(shù)的一個實施例可使用關(guān)于參會人員的眼睛的方向的信息。從觀察多個視頻會議對話,我們發(fā)現(xiàn),位于圖像的左面部分中的參會人員一般向右看,而位于右面部分中的參會人員向左看,使得兩者向房間的中心看。(左和右方向來自觀察圖像的人的視線。)為了確定坐在不同地點的參會人員之間的交互作用,實施例可處理從參與對話的不同地點接收的解碼視頻圖像。周期性地(在各決定周期上),可以找到各視頻圖像中的關(guān)注區(qū)域(ROI),并且關(guān)于各接收的視頻圖像中的ROI的相對位置做出決定?;诮Y(jié)果,一個實施例中的MCU可向參會人員坐在房間的左部中的地點分配布局中的左分段,并且向參會人員坐在房間的右部中的地點分配布局中的右分段。如圖2所示,分段112被分配給具有參會人員130的地點 B,而分段114被分配給地點A。在不同地點的參會人員坐在相同的相對位置(房間中心的左或右)的一些實施例中,可形成圖像中的一個或多個的鏡像。例如,通過從各行的右邊緣向左邊緣讀取視頻數(shù)據(jù)并且在CP布局中的相關(guān)分段中從適當?shù)男械淖筮吘墢淖笙蛴覍懭胍曨l數(shù)據(jù),可在一些實施例中在構(gòu)建CP布局的同時形成圖像的鏡像。諸如當另一地點替代先前的主導(dǎo)地點中的一個變?yōu)橹鲗?dǎo)時,布局中的位置可動態(tài)改變。例如,主導(dǎo)地點可以是在會議的一定周期內(nèi)作為對話進行談話的任意兩個地點,而其余的呈現(xiàn)的參會人員是安靜的??蓪τ诖_定各地點的視頻圖像中的ROI使用不同的算法。不時地,實施例可根據(jù)從不同的地點接收的視頻圖像中的每一個存儲單個幀。為了限定R0I,可以分析各存儲的幀。算法的實施例可分析視頻圖像的區(qū)域的色調(diào)、尋找限定顯示參會人員的區(qū)域的皮膚色調(diào)顏色。這種實施例可包含用于檢測參會人員的皮膚色調(diào)顏色的空白。其它的實施例可使用用于確定ROI位置的運動檢測。在一個實施例中,運動檢測器可基于與壓縮的視頻文件相關(guān)的運動矢量。運動檢測器的其它實施例可搜索連續(xù)解碼幀之間的改變區(qū)域的區(qū)域。其它的實施例可使用用于確定參會人員的面部的位置的面部檢測軟件。面部檢測軟件的一個例子是來自Fraunhofer IIS的SHORE軟件。SHORE是用于面部和對象檢測以及精細分析的高度優(yōu)化的軟件庫。(SHORE是Fraimhofer IIS的注冊商標)。另一這種軟件是來自Neurotechnology的VeiLook SDK。又一面部檢測軟件是最初由hter Corp開發(fā)的 OpenCV0讀者可在 www. consortium, ri. emu. edu/projOmega, php 禾口 www. consortium, ri. emu. edu/projFace. php中找到關(guān)于面部檢測軟件的其它信息?;跈z測到的面部的尺寸和位置,實施例可估計ROI相對于視頻圖像的中心的位置。另一實施例使用兩個或更多個麥克風以允許通過處理從多個麥克風接收的音頻能量來確定房間中的發(fā)言者的位置和這些圖像的R0I,以確定發(fā)言者在房間中的相對位置。在地點具有多個麥克風的一些實施例中,可使用從各麥克風接收到的音頻信號的能量差異,確定參會人員中的一個是否是活動的參會人員而房間中的其它參會人員是否是被動或安靜的?;顒拥膮藛T可被限定為在某時間周期(例如幾秒到幾分鐘)內(nèi)做出多于房間內(nèi)的談話的一定百分比(例如,70% 90%)的參會人員。如果活動參會人員被限定,那么可以分配呈現(xiàn)在活動參會人員周圍修剪的來自該地點的視頻圖像的一部分的附加的視頻分段。除了呈現(xiàn)整個地點的分段以外,該分段可被添加到布局。在一些實施例中,可通過與分析從多個麥克風接收的音頻能量相關(guān)地使用面部檢測器,執(zhí)行關(guān)于活動參會人員周圍的修剪區(qū)域的邊界的決定。在其它的實施例中,作為向這種地點分配兩個分段的替代,一個用于整個組的參會人員的視頻圖像,一個用于在活動參會人員周圍修剪的區(qū)域,可以向活動參會人員分配單個分段。此外,其單獨的分段中的活動參會人員可被處理并被設(shè)置在面向布局的中心的布局中。在一些實施例中,ROI檢測器可駐留于端點中,并且可以在專用的消息或標題中與視頻圖像一起傳送ROI的相對位置。在又一例子中,為了限定訂戶在房間中的位置,可以使用RF跟蹤器??赏ㄟ^位于與端點相關(guān)的房間中的兩個或更多個天線接收信號??赏ㄟ^端點處理接收的RF信號,并且可以在專用的消息或標題中用視頻圖像傳送位置。
在一些實施例中,可對于限定不同地點之間的交互作用使用其它的技術(shù)。例如,可以處理從各地點接收的音頻能量指示。處理可在一定的時間周期內(nèi)跟隨發(fā)言者之間的交互作用。如果交互作用處于兩個地點之間,那么可以如布局200圖像112和114那樣在相互面對的上面的行上設(shè)置來自兩個地點的圖像。這些地點可被稱為主導(dǎo)地點或主導(dǎo)參會人員。 在一些實施例中,可以在較大的分段中呈現(xiàn)主導(dǎo)地點。在一些實施例中,例如,在除了向來自不同地點的視頻圖像分配的分段以外,在分段中的一個中呈現(xiàn)內(nèi)容的視頻會議對話中,可為了限定不同地點之間的交互作用使用其它的技術(shù)??梢栽诓季值闹行闹械姆侄沃谐尸F(xiàn)內(nèi)容,同時可以在內(nèi)容的分段周圍呈現(xiàn)來自不同地點的視頻圖像。其分配的分段中的各視頻圖像可被操作,使得其參會人員朝向內(nèi)容觀看。此外,可以在內(nèi)容的一側(cè)呈現(xiàn)產(chǎn)生內(nèi)容的端點,而在內(nèi)容的另一側(cè)可呈現(xiàn)其它地點。在其它的實施例中,可以手動限定ROI的相對位置。在這種實施例中,為了指向各地點的視頻圖像中的R0I,可以使用點擊并觀看功能。請希望了解更多有關(guān)點擊并觀看功能的讀者閱讀美國專利No. 7,542, 068,在此出于所有的目的加入其全部內(nèi)容作為參考。作為替代方案,在一些實施例中,可通過使用點擊并觀看功能通過參會人員中的一個手動限定地點之間的交互作用。鑒于附圖和詳細的描述,本發(fā)明的這些和其它的方面將十分明顯。以上的發(fā)明內(nèi)容不是要概括本發(fā)明的各可能的實施例或每個方面,并且在參照附圖閱讀實施例的以下詳細描述并閱讀所附權(quán)利要求時,本發(fā)明的其它的特征和優(yōu)點將變得十分明顯。此外,上述的常規(guī)視頻會議中的不足不是要以任何方式限制本發(fā)明的原理的范圍,而僅出于解釋的目的被給出。此外,雖然詳細描述了特定的實施例以向本領(lǐng)域技術(shù)人員解釋本發(fā)明的原理,但是,可對于這些實施例提出各種變更方式和替代性形式。因此,附圖和書面描述不是要以任何的方式限制本發(fā)明原理的范圍。
被包含于本說明書中并構(gòu)成其一部分的附圖示出與本發(fā)明相關(guān)的裝置和方法的實現(xiàn),并與詳細的說明一起用于解釋與本發(fā)明相關(guān)的優(yōu)點和原則。在附圖中,圖1示出顯示的示例性現(xiàn)有技術(shù)2X 2布局;圖2示出根據(jù)一個實施例的根據(jù)不同地點的參與者的交互作用調(diào)整后的布局;圖3示出根據(jù)一個實施例的多媒體多點會議系統(tǒng)的框圖及相關(guān)元件;圖4示出根據(jù)一個實施例的能夠根據(jù)不同地點的參與者的交互作用動態(tài)和自動調(diào)整CP布局的MCU的相關(guān)元件;圖5示出根據(jù)一個實施例的交互作用檢測器部件(Interaction Detector Component, IDC)的框圖和相關(guān)元件;圖6示出根據(jù)一個實施例的限定視頻會議系統(tǒng)中的不同地點中的地點之間的交互作用的技術(shù)的流程圖;圖7A和圖7B示出根據(jù)一個實施例的自動和動態(tài)調(diào)整一個或多個CP布局的技術(shù)的流程圖。
具體實施例方式在以下的描述中,出于解釋的目的,為了能夠提供對本發(fā)明的徹底理解,闡述大量的特定細節(jié)。但是,應(yīng)該理解,對于本領(lǐng)域技術(shù)人員,可以在沒有這些特定細節(jié)的情況下實施本發(fā)明。在其它的情況下,為了避免混淆本發(fā)明,以框圖形式表示結(jié)構(gòu)和器件。沒有下標的附圖標記被理解為參照與附圖標記對應(yīng)的下標的所有實例。并且,在本公開中使用的語言的選擇主要是出于可讀性和指導(dǎo)性的目的,并且不能被選擇為界定或限定本發(fā)明的主題、訴諸于確定這些發(fā)明的主題所必需的權(quán)利要求。在說明書中提到“一個實施例”或“實施例”意味著在本發(fā)明的至少一個實施例中包括與實施例相關(guān)聯(lián)地描述的特定特征、結(jié)構(gòu)或特性,并且多次提到“一個實施例”或“實施例”不應(yīng)被理解為必須均指對同一實施例的引用。雖然以與軟件或固件相關(guān)的形式書寫以下描述中的一些,但是實施例可如希望的那樣以軟件、固件和硬件實現(xiàn)這里描述的特征和功能。提到端口監(jiān)控程序(daemons)、驅(qū)動器、引擎、模塊或例程不應(yīng)被視為建議將實施例限于任何類型的實現(xiàn)。現(xiàn)在轉(zhuǎn)到附圖描述公開的系統(tǒng)和方法的方面和特征,在這些附圖中,類似的附圖標記始終表示類似的元件。為了方便,只有同一組的一些元件可標有附圖標記。附圖的目的是描述實施例而不是進行限制。圖1和圖2在上面被描述并且不被進一步描述。圖3示出根據(jù)一個實施例的多媒體多點會議系統(tǒng)300的一部分的框圖及相關(guān)元件。系統(tǒng)300可包含連接一個或多個MCU 320的網(wǎng)絡(luò)310以及多個端點(地點)330A-N。在網(wǎng)絡(luò)310包含多個MCU 320的一些實施例中,虛擬MCU可被用于控制多個MCU。在美國專利No. 7,174, 365中可以找到關(guān)于虛擬MCU 的更多的信息,在此出于所有目的加入該專利的全部內(nèi)容作為參考。端點330(可被稱為終端)是能夠提供與其它端點330或與MCU 320的實時、雙向音頻和/或視頻通信的網(wǎng)絡(luò)上的實體。端點330可被實現(xiàn)為計算機、PDA(個人數(shù)字助理);蜂窩式電話、具有麥克風的電視機和照相機等。MCU可被用于管理視頻會議。MCU是可位于網(wǎng)絡(luò)的節(jié)點、終端或任何其它位置中的會議控制實體。MCU可根據(jù)一定的準則接收和處理來自接入端口的若干媒體通道,并且通過其它端口將他們分布給所連接的通道。MCU的例子包括可從Polycom,Inc.得到的MGC-100 和RMX 2000(RMX 2000是Polycom,he.的注冊商標)。一些MCU由兩個邏輯單元構(gòu)成媒體控制器(MC)和媒體處理器(MP)。在諸如但不限于H. 320、H. 324和H. 323標準的國際電信聯(lián)盟(“ITU”)標準中,可以找到端點和MCU的更全面的定義。在ITU網(wǎng)站www. itu. int可以找到關(guān)于ITU標準的附加信息。網(wǎng)絡(luò)310可代表單個網(wǎng)絡(luò)或兩個或更個網(wǎng)絡(luò)的組合。網(wǎng)絡(luò)310可以是任意類型的網(wǎng)絡(luò),包括分組交換網(wǎng)絡(luò)、電路交換網(wǎng)絡(luò)和綜合業(yè)務(wù)數(shù)字網(wǎng)(ISDN)網(wǎng)絡(luò)、公共開關(guān)電話網(wǎng)(PSTN)、異步傳輸模式(ATM)網(wǎng)絡(luò)、因特網(wǎng)或內(nèi)聯(lián)網(wǎng)。網(wǎng)絡(luò)上的多媒體通信可基于包含 H. 320、H. 324、H. 323、SIP等的任何通信協(xié)議。在端點(EP) 330A-N和MCU 320之間通信的信息可包含信令和控制、音頻信息、視頻信息和/或數(shù)據(jù)。端點330A-N的不同組合可參與會議。端點330A-N可提供語音、數(shù)據(jù)、 視頻、信令、控制或它們的組合。端點330A-N可包含可用作EP 330中的用戶和MCU 320之間的接口的遠程控件(圖中未示出)。遠程控件可包含可使用DTMF(雙音多頻傳)信號的撥號鍵盤(例如,電話的鍵盤)、遠端照相機控件、控制分組等。端點330A-N還可包含允許端點上的用戶在會議內(nèi)談話或?qū)τ诒黄渌脩袈牭降穆曇艉驮肼曈胸暙I的一個或多個麥克風(圖中未示出);允許端點330A-N向會議輸入現(xiàn)場視頻數(shù)據(jù)的照相機;一個或多個揚聲器和顯示器(屏幕)。系統(tǒng)300的所描述的一部分僅包含和描述大多數(shù)的相關(guān)元件。系統(tǒng)300的其它部分沒有被描述。本領(lǐng)域技術(shù)人員可以理解,根據(jù)其布置和系統(tǒng)的需要,每個系統(tǒng)300可具有其它數(shù)量的端點330、網(wǎng)絡(luò)310和MCU 320。但是,出于清楚起見,示出具有多個MCU 320的一個網(wǎng)絡(luò)310。MCU 320和端點330A-N可被調(diào)整為根據(jù)本公開的各種實施例操作,以改善觀看多點視頻會議的CP視頻圖像的參會人員的體驗。在實現(xiàn)集中式架構(gòu)的實施例中,MCU 320可被調(diào)整以執(zhí)行這里描述的自動顯示調(diào)整技術(shù)。作為替代方案,在分布式架構(gòu)中,端點330A-N 以及MCU 320可被調(diào)整以執(zhí)行自動顯示調(diào)整技術(shù)。以下公開關(guān)于根據(jù)不同實施例的MCU 320和端點330A-N的操作的更多信息。圖4示出根據(jù)一個實施例的MCU 400。MCU 400可包含網(wǎng)絡(luò)接口模塊(Ni) 420、音頻模塊430、控制模塊440和視頻模塊450。MCU400的替代性實施例可具有其它的部件, 并且/或者可以不包含圖4所示的所有部件。網(wǎng)絡(luò)接口模塊420可通過網(wǎng)絡(luò)310接收來自多個端點330A-N的通信。NI 420可根據(jù)包含H. 320、H. 321、H. 323、H. 324、會話初始協(xié)議(SIP)等的一個或多個通信標準處理通信。網(wǎng)絡(luò)接口 420也可根據(jù)包含H. 261, H. 263, H. 264, G. 711、G. 722、MPEG等的一個或多個壓縮標準處理通信。網(wǎng)絡(luò)接口 420可從其它的 MCU和端點接收控制和數(shù)據(jù)信息和向其它的MCU和端點傳送控制和數(shù)據(jù)信息??梢栽趪H電信聯(lián)盟(“ITU”)標準 H. 320、H. 321、H. 323、H. 261、H. 263、H. 264、G. 711、G. 722 和 MPEG 等或者從IETF互聯(lián)網(wǎng)工作組網(wǎng)站(關(guān)于SIP的信息)找到關(guān)于端點和網(wǎng)絡(luò)310上的MCU 之間的通信的更多信息和描述信令、控制、壓縮和設(shè)定視頻呼叫的信息。MCU 400根據(jù)所呈現(xiàn)的地點之間的檢測到的交互作用動態(tài)和自動調(diào)整CP布局。所呈現(xiàn)的地點之間的交互作用可包含在會議中主導(dǎo)的兩個或更多個地點;一個或多個人在地點中的位置;一個或多個人面對的方向等。網(wǎng)絡(luò)接口模塊420可多路復(fù)用或解多路復(fù)用在端點330A-N和MCU 320之間傳送的不同信號、媒體和/或“信令和控制”??上蚝蛷囊纛l模塊430傳送壓縮的音頻信號。可以向和從視頻模塊450傳送壓縮的視頻信號??梢韵蚝蛷目刂颇K440傳送“控制和信令” 信號。此外,如果使用分布式架構(gòu),那么網(wǎng)絡(luò)接口模塊420能夠處理在控制模塊440和端點 330A-N之間傳送的自動和動態(tài)CP布局調(diào)整相關(guān)信息。在發(fā)送作為RTP (實時傳輸協(xié)議)分組的預(yù)定標題的一部分的動態(tài)CP布局調(diào)整信息的實施例中,NI 420可被調(diào)整為處理預(yù)定的標題以向RTP分組添加自動和動態(tài)CP布局調(diào)整信息并向端點330A-N發(fā)送RTP分組。在實施例中,動態(tài)CP布局調(diào)整信息中的一些可包含來自端點的關(guān)于在端點顯示器上顯示的布局的請求。在替代性實施例中,可通過遠端照相機控制(Far End Camera Control, FECC)通道(圖4中未示出)發(fā)送動態(tài)CP布局調(diào)整信息,或者可作為符合專有協(xié)議的專用分組的有效載荷發(fā)送該動態(tài)CP布局調(diào)整信息。在又一實施例中,可通過MCU內(nèi)部模塊檢測和發(fā)送動態(tài)CP布局調(diào)整信息。動態(tài)CP布局調(diào)整信息可包含ROI (關(guān)注區(qū)域)、ROI面對的方向、ROI相比于視頻圖像的中心的相對位置、和 /或地點之間的交互作用等。音頻模塊430可經(jīng)由NI 420并通過音頻線422從多個端點330A-N接收壓縮的音頻流。音頻模塊430可處理接收的壓縮的音頻流。音頻模塊430可解壓縮、解碼和混合來自接收的音頻流的相關(guān)音頻流。音頻模塊430可編碼、壓縮并通過音頻線422和NI 420向一個或多個端點330A-N傳送壓縮的編碼混合信號。音頻模塊430可通過網(wǎng)絡(luò)接口 420從多個端點330A-N接收壓縮的音頻流。音頻模塊430可解碼壓縮的音頻流、分析解碼的流、選擇某些流并且混合選擇的流?;旌系牧骺杀粔嚎s并且壓縮的音頻流可被發(fā)送到網(wǎng)絡(luò)接口 420,該網(wǎng)絡(luò)接口 420將壓縮的音頻流發(fā)送到不同的端點330A-N。被發(fā)送到不同端點的音頻流可以是不同的。例如,音頻流可根據(jù)不同的通信標準并且根據(jù)單個端點的需要被格式化。音頻流可能不包含與發(fā)送音頻流的端點相關(guān)的參會人員的聲音。但是,可在所有其它的音頻流中包含該參會人員的聲音。在實施例中,音頻模塊430可包含至少一個DTMF模塊435。DTMF模塊435可檢測和/或掌握來自接收的音頻流的DTMF (雙音多頻)信號。DTMF模塊435可將DTMF信號轉(zhuǎn)換成DTMF控制數(shù)據(jù)。DTMF模塊435可通過控制線444向控制模塊440傳送DTMF控制數(shù)據(jù)。DTMF控制數(shù)據(jù)可被用于通過使用諸如但不限于交互式語音應(yīng)答(Interactive Voice Response, IVR)的交互式界面控制會議。在其它的實施例中,可通過點擊并觀看功能使用 DTMF控制數(shù)據(jù)。除了 DTMF模塊435以外或者作為其替代,本發(fā)明的其它實施例可使用語音識別模塊(未示出)。在這些實施例中,語音識別模塊可使用參會人員的用于控制視頻會議的參數(shù)的聲音命令。音頻模塊430可進一步被調(diào)整以分析從端點接收的音頻信號,并確定各音頻信號的能量。關(guān)于信號能量的信息可通過控制線444被傳送到控制模塊440。在一些實施例中, 可以在某個地點中使用兩個或更多個麥克風。在這種實施例中,音頻模塊430可包含音頻交互作用檢測器部件(Audio Interaction Detector Component,AIDC)437。來自各麥克風的能量可被傳送到AIDC 437并且被用于確定關(guān)注區(qū)域(ROI)位置和/或ROI在某個地點中的相對位置。在一些實施例中,可以使用能量水平作為用于選擇一個或多個適當端點作為要在視頻會議中混合的音頻源的選擇參數(shù)。端點可被稱為選擇的端點或呈現(xiàn)的端點。 在分布式架構(gòu)的其它的實施例中,端點330A-N可具有音頻模塊430的功能中的一些。除了典型的MCU的共同操作以外,作為具有控制模塊(CM)440的結(jié)果,MCU 400能夠?qū)崿F(xiàn)附加的操作。控制模塊440可控制MCU400的操作及其內(nèi)部模塊的操作。諸如但不限于音頻模塊、視頻模塊450等的模塊??刂颇K440可包含可處理從MCU 400的不同內(nèi)部模塊接收的指令的邏輯模塊??刂颇K440的實施例可處理通過控制線444從DTMF模塊435接收的指令??赏ㄟ^控制線444、446和/或448發(fā)送和接收控制信號??刂菩盘栔T如但不限于通過點擊并觀看功能從參與者接收的命令、來自視頻模塊450的檢測到的狀態(tài) fn息等。控制模塊440可以是控制MCU 400的操作的邏輯單元。除了典型的MCU的共同操作以外,作為具有控制模塊440的結(jié)果,MCU 400能夠?qū)崿F(xiàn)附加的功能??刂颇K440可包含調(diào)整將在各地點中顯示的布局的交互作用布局控制器(Interaction Layout Controller, ILC)442。ILC 442可從NI 420接收并更新包含將參與電話會議的地點的數(shù)量、哪些地點已離開、哪些地點已離開會議、哪些地點已加入會議等的信息。其它類型的信息可包含關(guān)于一個或多個參與者請求的布局等的命令等。在一個實施例中,ILC 442可確定和/或控制要在端點330A-N中的一個或多個中顯示的布局。ILC 442可通過NI 420和/或DTMF模塊435接收來自端點330A-N的信息。 ILC 442還可接收來自包括音頻模塊430、視頻模塊450的MCU 400內(nèi)部單元的檢測到的信息、ROI在不同視頻圖像中的相對位置。根據(jù)不同的信息和控制信息,ILC 442可確定如何布置各布局并且通過控制線448向視頻模塊450的內(nèi)部單元發(fā)送控制命令。示例性命令可包含要顯示哪些視頻圖像、布局中的各視頻圖像的位置、形成圖像的鏡像、縮放來自某些地點的圖像、構(gòu)建或更新具有某些數(shù)量的分段的布局的要求等。結(jié)合圖7公開關(guān)于ILC 442 的更多信息。視頻模塊450可接收通過網(wǎng)絡(luò)310向MCU 400發(fā)送并通過NI 420處理的來自多個端點330A-N的壓縮的視頻流。視頻模塊450可根據(jù)與當前通過MCU 400進行的一個或多個會議相關(guān)的一個或多個布局產(chǎn)生一個或多個壓縮的CP視頻圖像。視頻模塊450的實施例可包含一個或多個輸入模塊451A-X、一個或多個輸出模塊 455A-X和視頻共用接口 454。輸入模塊451A-X可處理來自一個或多個參與端點330A-N的壓縮的輸入視頻流。輸出模塊455A-X可對于端點330A-N中的一個或多個產(chǎn)生CP視頻圖像的視頻流的所構(gòu)成的壓縮輸出。壓縮的輸出視頻流可由幾個輸入流構(gòu)成以形成用于呈現(xiàn)指定端點的會議的視頻流。輸入流可被修改。未壓縮的視頻數(shù)據(jù)可在共用接口妨4上被輸入模塊451A-X和輸出模塊455A-X共享,該共用接口妨4可包括任意適當類型的接口,包含時分多路復(fù)用(TDM) 接口、異步傳輸模式(ATM)接口、基于分組的接口和/或共享存儲器。共用接口妨4上的數(shù)據(jù)可被完全解壓縮或部分解壓縮。在美國專利No. 6,300, 973中描述了示例性的視頻模塊 450的操作。各輸入模塊451A-X可包含用于解碼壓縮的輸入視頻流的解碼器452。在一個實施例中,各輸入模塊451A-X還可包含交互作用檢測器部件(IDC)453。在替代性實施例中,對于所有的輸入模塊451可存在一個IDC 453。IDC 453的實施例可檢測ROI和/或ROI在視頻圖像中的相對位置。IDC 453可檢測不同的地點330A-N之間的交互作用。IDC 453可通知ILC 442有關(guān)來自不同的輸入視頻流的檢測信息。信息可通過控制線448被發(fā)送。不時地、周期性地和/或在從ILC 442接收命令時,IDC 453的實施例可捕獲、采樣和分析由解碼器452輸出的數(shù)據(jù)。IDC 453的實施例可被調(diào)整為分析從相關(guān)的端點330接收的解碼的視頻圖像并限定一個或多個ROI的坐標和/或它們在視頻圖像中的相對位置。 可進一步使用IDC 453的分析,用于確定不同端點之間的交互作用??筛鶕?jù)一種或多種不同的檢測技術(shù)、運動檢測、皮膚色調(diào)檢測器、從位于同一房間內(nèi)的多個麥克風接收的音頻信號的音頻能量指示、面部檢測器或不同檢測器的不同組合完成檢測??蓮囊纛l模塊430接收音頻信號的指示。IDC 453可通過控制線448向ILC 442 輸出檢測到的信息。結(jié)合圖5公開了關(guān)于IDC 453操作的更多信息。在一個實施例中,對于端點330A-N中的每一個存在一個視頻輸入模塊451。類似地,視頻模塊450可包含用于端點330A-N中的每一個的一個視頻輸出模塊。各輸出模塊 455可包含編輯器模塊456。編碼器模塊456可從ILC 442接收信息和/或控制命令。各視頻輸出模塊455可產(chǎn)生對于多個端點330A-N的特定端點個別化的屏幕布局。各視頻輸出模塊455還可包含可對輸出視頻流編碼的編碼器458。在另一實施例中,一個輸出視頻 455模塊可服務(wù)于多個端點330A-N或者甚至服務(wù)于參與會議的所有端點330A-N??筛鶕?jù)從ILC 442接收的命令,從共用接口妨4通過適當?shù)妮敵瞿K455A-X接收來自輸入模塊45IA-X的視頻數(shù)據(jù)。根據(jù)與CP圖像的構(gòu)成視頻相關(guān)的布局中的圖像的位置和大小,編輯器456可修改、縮放、修剪各選擇的參會人員的視頻數(shù)據(jù)并將其放置于編輯器幀存儲器中??筛鶕?jù)從 ILC 442接收的指令完成修改。指令可考慮端點和圖像中識別的ROI位置之間的識別的交互作用。屏幕布局上的各矩形(分段、窗口)可包含來自不同端點330的修改的圖像。當編輯器幀存儲器準備好所有選擇的并經(jīng)過修改的參會人員的圖像時,幀存儲器中的數(shù)據(jù)準備好通過編碼器458被編碼。編碼數(shù)據(jù)視頻流可向其相關(guān)的端點330被發(fā)送。 構(gòu)成的編碼和壓縮的CP輸出視頻流可通過視頻線似4被發(fā)送到NI 420。NI 420可向相關(guān)的一個或多個端點330A-N傳送一個或多個CP壓縮視頻流。在替代性實施例中,實現(xiàn)中繼MCU 320,并且端點330能夠構(gòu)建要在其上顯示的CP 視頻圖像。在這種實施例中,ILC 442能夠向端點330A-N自身提供命令。在美國專利申請 No. 12/542, 450中公開了中繼MCU的一個實施例,在此出于所有目的加入該專利申請的全部內(nèi)容作為參考。在這種實施例中,各圖像的例如ROI的像素中的尺寸和布局中分段之間的交互作用,通過對于端點330的呈現(xiàn)布局的請求被發(fā)送到端點330,使得顯示具有一定分段尺寸的一定數(shù)量的分段、各分段的位置、對于圖像的任何修改等。例如,這種與端點的通信可以處于帶外、因特網(wǎng)協(xié)議(IP)連接上。在其它的實施例中,例如作為RTP分組或FECC 的有效負載的預(yù)定標題的一部分,通信可處于帶內(nèi)。在中繼MCU 400的又一實施例中,IDC 453和/或AIDC 437可在端點330的編碼器前面被嵌入端點330內(nèi)。相對位置信息可作為檢測到的分組的有效載荷通過網(wǎng)絡(luò)310和 NI 420被發(fā)送到MCU 400上的ILC 442。在這種實施例中,ILC 442可向端點330中的編輯器發(fā)送布局指令。端點330中的編輯器可構(gòu)成CP布局并在端點顯示單元上呈現(xiàn)該CP布局。在中繼MCU 400的另一實施例中,各端點330A-N可具有其解碼器之后的IDC 453 和端點控制單元中的ILC 442。端點的IDC 453可向端點中的ILC模塊442發(fā)送關(guān)于ROI 在各解碼圖像中的相對位置的信息。ILC 442可確定布局并因此指示端點編輯器構(gòu)成該布局。在這種中繼MCU 400中,各端點330A-N可作為獨立單元控制其布局。IDC 453、AIDC 437和ILC 442的位置可從一個實施例到另一個不同。這里不詳細描述在現(xiàn)有技術(shù)中已知的視頻模塊450的各元件的普通功能。在美國專利申請 No. 10/144,561、No. 11/684,271、No. 11/751,558 和 No. 12/683,806、美國專利 No. 6,300, 973和國際專利申請序列號No. PCT/IL01/00757中描述了不同的視頻模塊,在此出于所有的目的加入這些專利的全部內(nèi)容作為參考??刂瓶偩€444、448、446、壓縮視頻總線 4M和壓縮音頻總線422可以是任何希望類型的接口,包括時分多路復(fù)用(TDM)接口、異步傳輸模式(ATM)接口、基于分組的接口和/或共享存儲器。圖5示出根據(jù)一個實施例的交互作用檢測器部件(IDC)453的框圖和一些元件。 IDC 453可被用于檢測所呈現(xiàn)的地點之間的交互作用,包含在會議中占主導(dǎo)的兩個或更多個地點之間的交互作用、視頻圖像中的一個或多個人的位置/相對位置、一個或多個人面對的方向等。IDC 453可包含標度器和一個或多個幀存儲器(SCFM)模塊510、面部檢測器處理器(FDP)520和ROI相對位置限定器(RRLD)530??梢栽谶m于執(zhí)行諸如由SHORE、VeriLook SDK或OpenCV提供的已知的面部檢測器技術(shù)的DSP上實現(xiàn)面部檢測器處理器(FDP) 520。 在替代性實施例中,可在包含來自Texas Instruments的DM365的具有面部檢測能力的硬件中實現(xiàn)FDP 520。在利用集中式架構(gòu)的一個實施例中,IDC 453可被嵌入MCU 400中。在這種實施例中,如上所述,IDC 453可以是視頻單元450的一部分,并且可從相關(guān)輸入模塊 451A-X得到解碼的視頻數(shù)據(jù)。在替代性的實施例中,IDC 453可以是輸入模塊451A-X中的每一個的一部分,并且從其相關(guān)的解碼器452收集解碼的視頻。在又一實施例中,IDC 453可被嵌入端點330A-N中。在這種端點中,IDC 453可被用于確定ROI和ROI在由端點330產(chǎn)生的視頻圖像中的相對位置。IDC 453可與端點330 的編碼器(圖中未示出)的輸入相關(guān)聯(lián)。IDC 453可對于來自在端點的編碼器的輸入上使用的幀存儲器的視頻圖像的幀采樣。關(guān)于ROI的指示和/或關(guān)于ROI的相對位置的指示可通過NI 420被傳送到ILC 442??稍诜蠈S脜f(xié)議的專用分組中或者通過向標準標題添加信息發(fā)送該指示。在替代性實施例中,可通過使用預(yù)定的密鑰串等作為DTMF信號發(fā)送信息。ILC 442可使用關(guān)于ROI (關(guān)注區(qū)域)的信息以確定如何適應(yīng)于下一 CP布局。在圖5的實施例中,ROI相對位置限定器(RRLD) 530可從ILC442接收命令。示例性命令可檢測并限定R0I,檢測并限定ROI在地點中的相對位置等。ILC 442可根據(jù)包含音頻信號強度、改變布局的手動命令、關(guān)于加入的新地點的信息等的不同參數(shù)決定在哪些地點搜索ROI和/或ROI的相對位置。RRLD 530可向面部檢測器處理器(FDP) 520發(fā)送命令以基于ROI的位置找到和確定ROI。RRLD 530可計算ROI在從某個地點接收的視頻圖像幀中的相以位置(圖像的左、右或中心)。FDP 520可命令SCFM 510對來自相關(guān)地點的解碼的視頻圖像的幀采樣??捎蒘CFM 510從共用接口妨4或從與地點相關(guān)的輸入模塊451A-X的解碼器452取回解碼的視頻圖像。SCFM 510然后可根據(jù)FDP 520的要求縮小視頻圖像,并在幀存儲器中保存結(jié)果。在一個實施例中,可出現(xiàn)FDP 520和SCFM 510之間的環(huán)路。FDP520可請求SCFM 510:重新縮小圖像、放大圖像和/或取回另一采樣等。該環(huán)路可限于預(yù)定數(shù)量的循環(huán)。在循環(huán)結(jié)束時,F(xiàn)DP 520可向RRLD 530傳送關(guān)于ROI的信息。在沒有發(fā)現(xiàn)ROI的情況下,可以向RRLD 530發(fā)送消息(例如,諸如沒有R0I)。RRLD 530可通過控制線448向ILC 442輸出有關(guān)相對位置的檢測信息。在又一實施例中,IDC 453可例如向ILC 442傳送來自像素中左上方的ROI坐標的位置,并且ILC 442可計算相對位置(左、右或中心)。IDC 453的另一實施例可包含用于通過使用包含運動檢測器、皮膚色調(diào)檢測器和 /或不同檢測器的不同組合的技術(shù),確定ROI在視頻圖像中的位置的其它模塊。基于運動檢測器的一些實施例(圖中未示出)可包含諸如帶通濾波器、低通濾波器或陷波濾波器的一個或多個濾波器以去除諸如時鐘、風扇、監(jiān)視器等的干擾運動。其它的實施例可處理從多個麥克風接收的音頻能量指示。希望了解更多關(guān)于不同ROI檢測器的人可閱讀美國專利申請 No. 11/751,558、美國專利申請 No. 12/683,806 或訪問 www. consortium, ri. emu. edu/ projOmega, php 或 www. consortium, ri. emu. edu/projFace. phpD在一些實施例中,運動檢測器可被用于確定ROI。在一個實施例中,為了限定具有變化的區(qū)域,運動檢測器可減去兩個連續(xù)的幀。在視頻會議中,變化一般是由于頭、手等的移動。ROI可被限定為包圍兩個連續(xù)幀之間不同的區(qū)域的較大的矩形。連續(xù)幀可被存儲于一個或多個SCFM 510中。在IDC 453的一些實施例中,對于限定不同地點之間的交互作用,可以使用其它的技術(shù)。例如,可通過音頻模塊430和發(fā)送到IDC 453的信息處理從各地點接收的音頻能量指示。該過程可長時間跟隨發(fā)言者之間的交互作用。如果交互作用是主導(dǎo)地點之間的聲音交互作用,那么這兩個地點可被視為是主導(dǎo)地點。來自兩個主導(dǎo)地點的圖像可以如布局 200圖像120和130那樣被放置于相互面對的上面的行上。在本實施例中,IDC 453可從音頻模塊430和/或從控制模塊440接收關(guān)于音頻能量的信息。在地點具有多個麥克風的一個實施例中,可通過處理從多個麥克風接收的音頻能量確定房間中的發(fā)言者的位置和這些圖像的R0I,以確定發(fā)言者在房間中的相對位置。在一些實施例中,ROI和/或ROI相對位置檢測器可駐留于端點330中,并且可以和私有消息或標題中的視頻圖像一起傳送ROI的相對位置。RRLD 530和控制模塊440之間的通信可依賴于所使用的架構(gòu)。例如,如果IDC 453 被嵌入MCU 400的視頻單元450中,那么可以在連接控制模塊440與視頻模塊450的控制線448上實現(xiàn)RRLD 530和控制模塊440之間的通信。作為替代方案,在IDC 453位于端點330A-N上而控制模塊440位于MCU 400上的實施例中,可以在帶外或帶內(nèi)實現(xiàn)通信??稍谝蛱鼐W(wǎng)協(xié)議(IP)網(wǎng)絡(luò)上通過端點330A-N和 MCU 400之間的連接處理帶外通信。如果與端點330的多媒體通信在分組交換網(wǎng)絡(luò)上,那么可通過使用實時傳輸協(xié)議(RTP)視頻分組的有效載荷的預(yù)定標題實現(xiàn)IDC 453(在端點 330上)和控制模塊440之間的通信。在這種實施例中,ROI的坐標和/或ROI的相對位置以及采樣命令可被嵌入RTP視頻分組的有效載荷的預(yù)定標題中。其它的實施例可使用DTMF 和/或FECC通道。如果端點330黑體字(boldface)上的IDC 453和控制模塊440之間的通信如上面描述的那樣通過多媒體通信,那么網(wǎng)絡(luò)接口(Ni) 310可適于解析接收的信息并檢索從IDC 453接收的ROI的坐標和/或ROI的相對位置。NI 310可在連接控制模塊440和NI 420 的控制總線446上向控制模塊440傳輸信息。NI 420可適于接收采樣命令,根據(jù)所使用的通信技術(shù)處理它們,并且通過網(wǎng)絡(luò)310將它們發(fā)送到IDC 453?;诮Y(jié)果,根據(jù)一個實施例的ILC 442可考慮檢測到的ROI和/或它的相對交互作用和相對位置設(shè)計更新的布局。如何構(gòu)建更新的布局的指令可被傳送到相關(guān)的編輯器 456。根據(jù)更新的布局,如圖2所示,編輯器456可在左面的分段中放置參會人員坐在房間的左部的地點,反之亦然,其中,分段112被分配給具有參會人員130的地點B。而分段114 被分配給參會人員120坐在圖像的右部的地點C。在不同地點的參會人員坐在相同的相對位置(房間中間的左面或右面)的一些情況下,ILC 442可向相關(guān)編輯器456發(fā)送命令以形成圖像中的一個或多個的鏡像。在一個實施例中,可通過從各行的右邊向左邊讀取視頻數(shù)據(jù)并在CP布局的相關(guān)分段中從適當?shù)男械淖筮厪淖蟮接覍懭胍曨l數(shù)據(jù),在構(gòu)建CP布局的同時執(zhí)行對圖像的鏡像。當另一地點代替先前的主導(dǎo)地點中的一個變?yōu)橹鲗?dǎo)時,可以動態(tài)地改變布局中的位置。在又一實施例中,一個RF跟蹤器可被RRLD 530用來限定訂戶在房間中的相對位置??赏ㄟ^位于與端點330相關(guān)的房間中的兩個或更多個天線接收信號??赏ㄟ^端點330 處理接收的RF信號,并且可與私有消息或標題中的視頻圖像一起傳送信息。圖6示出可通過IDC 453執(zhí)行的根據(jù)一個實施例的技術(shù)600的流程圖。技術(shù)600 可被用于限定關(guān)注區(qū)域(ROI)及其在視頻圖像中的相對位置。在開始會議時,技術(shù)600可在塊602中被啟動。在開始之后,技術(shù)600可在塊604中復(fù)位幀計數(shù)器(Fcnt)和改變布局標記(CLF)。在一個實施例中,幀計數(shù)器(Fcnt)可對輸入模塊451A-X的輸出上的幀計數(shù)。 改變布局標記(CLF)值可以為0或1。如果從ILC 442接收布局指示變化,那么CLF值等于 1。變化指示可包含關(guān)于新布局的信息、關(guān)于出席的參會人員的信息和它們的相關(guān)輸入和輸出模塊(分別為451A-X和455A-X)。ILC 442可請求RRLD 530搜索ROI及其在地點的圖像中的相對位置。作為音頻信號強度、管理請求、新的參會人員等的變化的結(jié)果,會出現(xiàn)布局的變化。如果沒有指示布局變化,那么CFL值等于0。在一些實施例中,可通過使用點擊并觀看功能從CM 440或從參會人員中的一個任意地設(shè)定CLF。然后,技術(shù)600可在塊610中等待接收新的幀。如果在塊610中在等待周期中沒有接收到新的幀,那么技術(shù)600返回塊610。如果在塊610中接收到新的幀,那么技術(shù)600 可前進到塊612并將Fcnt加1。然后,塊620確定Fcnt值是否大于預(yù)定值m或者CLF值是否等于1。在一個實施例中,附可以是范圍1 1000中的配置數(shù)。如果在塊620中Fcnt 值不大于附并且CLF值等于0,那么技術(shù)600返回塊610。如果在塊620中Fcnt值大于附并且/或者CLF值等于1,那么技術(shù)600可前進到塊622。在一個實施例中,作為Fcnt的替代或者除了 Fcnt以外,可以使用定時器。定時器可被設(shè)定為任何希望的時間周期,例如,被設(shè)為幾秒或幾分鐘。在塊622中,技術(shù)600可指示FDP 520搜索并限定ROI。技術(shù)600在塊624中等待,直到FDP 520限定ROI或通知IDC 453沒有發(fā)現(xiàn)R0I。一旦FDP輸出ROI消息,技術(shù)600 就前進到塊626以收集并處理來自FDP 520的分析數(shù)據(jù)。塊擬6可確定ROI的存在、其尺寸、位置(例如,在像素左上方)及其在圖像中的相對位置(例如,右、左或中心)。在替代性實施例中,如果沒有發(fā)現(xiàn)R0I,那么為了加速隨后的ROI搜索,可以減小m的值。技術(shù)600可用作FDP 520和ILC 442之間的應(yīng)用程序接口(API)。結(jié)果可在塊 6 中被傳送到ILC 442,并且技術(shù)600可返回塊604。在一些實施例中,技術(shù)600可重復(fù)塊 622 626,從而檢查結(jié)果是類似的,并且如果它們是類似的,那么將平均的ROI和ROI相對位置傳送到ILC 442。圖7A示出用于自動和動態(tài)調(diào)整在視頻會議中使用的布局中的一個的技術(shù)700 的一個實施例的流程圖。在一個實施例中,如果包含多于一個的布局,那么可對于CP圖像的每個布局一個地開始并行的任務(wù)。在另一實施例中,對于可對于在對話中使用的每個布局一個周期地重復(fù)運行技術(shù)700可??赏ㄟ^ILC 442和/或通過RRLD 530在塊 702中啟動技術(shù)700(圖5)。在啟動中,技術(shù)700可在塊704中將先前的相對位置存儲器 (Previous-Relative-Location memory) (PRLM)復(fù)位。PRLM可被用于存儲關(guān)于先前發(fā)現(xiàn)的 ROI的相對位置的信息以確定與ROI的當前相對位置的不同。然后,技術(shù)700可在塊706中復(fù)位定時器(T)并在塊710中等待定時器T值等于Tl。在一個實施例中,Tl可以處于幾百毫秒到幾秒的范圍。在另一實施例中,作為時間的替代,可以計數(shù)和使用所構(gòu)成的CP圖像的幀。一旦定時器T值等于1和/或出現(xiàn)布局的變化,技術(shù)700就可前進到塊712。當另外的參會人員已加入會議時,會出現(xiàn)布局的變化,并且由于不同的參會人員的音頻能量的變化等,所呈現(xiàn)的地點需要被替換。在塊712上,技術(shù)700可收集關(guān)于相關(guān)參會人員的視頻圖像中的ROI相對位置 (ROIRL)信息的信息。相關(guān)參會人員的視頻圖像是對于布局中的呈現(xiàn)選擇的視頻圖像。然后,可對于每個呈現(xiàn)的地點在塊714中獲得音頻能量信息。通過使用音頻信息,可以檢測兩個主導(dǎo)的地點,并且/或者可以檢測關(guān)于不同端點之間的交互作用的更多信息,等等??梢栽趬K715中獲得管理和控制信息。管理和控制信息可包含接收參會人員(觀看所構(gòu)成的CP 圖像的參會人員)的偏好和諸如強制的參會人員(不管其音頻能量如何,都必須在CP圖像中呈現(xiàn)的參會人員)的信息。對于每個呈現(xiàn)的參會人員圖像,技術(shù)700可在塊716中計算當前接收的ROIRL和先前ROIRL (保存于PRLM存儲器中)之間的差異。技術(shù)700也可在塊 716中確定是否在主導(dǎo)地點中存在差異。在塊720中決定在當前ROIRL對先前ROIRL中是否存在明顯變化以及/或者在主導(dǎo)地點中是否存在明顯變化。明顯變化可以是像素、百分比、音頻強度等的預(yù)定的變量。在一個實施例中,明顯變化可以處于5 10%的范圍中。如果在塊720中存在明顯變化,那么技術(shù)700可在塊722中存儲當前ROIRL和PRLM中的主導(dǎo)地點。技術(shù)700然后可前進到圖 7B中的塊750。如果在塊720中不存在明顯變化,那么技術(shù)700可返回塊706?,F(xiàn)在參照圖7B,在塊750中,對于執(zhí)行由技術(shù)700設(shè)計的相同布局的各輸出模塊 455A-X,環(huán)路可在塊760 790中開始。在塊760中開始,對于各輸出模塊455A-X,技術(shù)700 可在塊760中取回關(guān)于與關(guān)聯(lián)于當前輸出模塊的CP布局有關(guān)的參數(shù)的信息。在一個實施例中,參數(shù)可包含像素寬度和高度(WXH)的數(shù)字形式的布局尺寸、布局格式QX2、3X3, 等)、哪些地點基于管理決定和/或音頻能量被選擇為要被呈現(xiàn)等。技術(shù)700還可在塊762 中將對試驗的數(shù)量計算的計數(shù)器(Cnt)復(fù)位。接下來,技術(shù)700可在塊764中得到ROIRL (R0I相對位置)信息和被選擇為要在相關(guān)輸出模塊455Α-Χ的適應(yīng)的布局中呈現(xiàn)的地點中的每一個的參數(shù)。在一個實施例中,從 PRLM取回信息。在一個實施例中,參數(shù)可包含ROI的像素的數(shù)量(R0I的高度和寬度)、R0I 的相對位置、主導(dǎo)地點、地點之間的交互作用等。通過使用取回的信息,技術(shù)700可在塊770 中確定是否存在一對主導(dǎo)地點。如果不存在一對主導(dǎo)地點,那么技術(shù)700可前進到塊774。 如果存在一對主導(dǎo)地點,那么技術(shù)700可前進到塊772。在塊772中,主導(dǎo)地點可位于將在一個實施例中呈現(xiàn)的布局中的分段的上面的行中。在替代性實施例中,它們可位于下面的行中,或者如希望的那樣位于別處。在左側(cè)具有 ROIRL的主導(dǎo)視頻圖像可在塊772中被放置于布局的左面的分段中。在視頻圖像的右側(cè)具有ROIRL的主導(dǎo)視頻圖像可在塊772中被放置于布局的右面的分段中。如果兩個主導(dǎo)地點具有相同的ROIRL(均在左側(cè)或者均在右側(cè)),那么可以在塊772中形成主導(dǎo)地點中的一個的鏡像。如果兩個主導(dǎo)地點在中心具有圖像,那么它們可被并排放置。已被選擇為要被呈現(xiàn)的其它地點可在塊774中被定位,使得在右側(cè)具有ROIRL的視頻圖像可位于右側(cè),在左側(cè)具有ROIRL的視頻圖像可位于左側(cè),并且在中心具有ROIRL的視頻圖像可位于中心或處于剩余的位置上,等等。如果存在不能放在剩余的分段中的一個或多個選擇的地點,那么技術(shù)700可在塊774中形成它們的鏡像并因此放置它們。然后, 計數(shù)器(Cnt)可在塊776中加1。
在塊780中,決定Cnt值是否等于2,或者是否成功完成了塊774的過程,使得可以在布局的適當相對位置中呈現(xiàn)所有選擇的參會人員。如果不滿足這些條件,那么技術(shù)700 可在塊782中忽略在塊772中確定的主導(dǎo)地點放置要求,并且可重新嘗試在塊774中放置所有選擇的地點。如果在塊780中Cnt值等于2或者如果已經(jīng)成功完成了塊774的過程, 那么技術(shù)700可前進到塊784。在塊784中,決定是否已經(jīng)成功完成了塊774的過程。在一個實施例中,“成功”可意味著對于觀看選擇的所有地點被放置,使得它們均面向布局的中心。如果不滿足塊784 的條件,那么技術(shù)700可在塊786中忽略識別的交互作用,選擇適合要顯示的地點的數(shù)量的共同布局,并且布置忽略ROIRL的布局。如果塊784確定已經(jīng)成功完成了塊774的過程,那么技術(shù)700可在塊788中產(chǎn)生關(guān)于布局布置的指令,使得所呈現(xiàn)的地點觀看布局的中心。布局指令可在塊788中被發(fā)送到適當?shù)妮敵瞿K455A-X中的編輯器456。在另一實施例中, 在塊786中,技術(shù)700可選擇可呈現(xiàn)參會人員之間的一些交互作用的已計算的布局中的一個。然后,技術(shù)700可在塊790中檢查是否存在需要在它們的布局布置上指示的附加的視頻輸出模塊455A-X。如果存在,那么技術(shù)700可返回塊760。如果不存在,那么技術(shù) 700可返回圖7A中的塊706。在本公開中,措詞“單元”、“器件”、“部件”、“模塊”和“邏輯模塊”可被互換使用。 指示為單元或模塊的任何東西可以是獨立的模塊或?qū)S玫幕蚣傻哪K。模塊可以是模塊化的或具有允許其很容易地被去除并被另一類似的單元或模塊更換的模塊化方面。各模塊可以是軟件、硬件和/或固件中的任一個或任意組合。可以在諸如讀/寫硬盤、CDR0M、閃速存儲器、ROM等的計算機可讀介質(zhì)上體現(xiàn)邏輯模塊的軟件。為了執(zhí)行一定的任務(wù),可以根據(jù)需要將軟件程序加載到適當?shù)奶幚砥魃?。在本公開的描述和權(quán)利要求中,使用“包括”、“包含”、“具有”以及它們的變形形式以表示動詞的賓語未必全部列出動詞的主題的構(gòu)件、部件、元件或部分??梢岳斫?,可以以許多的方式,包括改變步驟的次序和使用的確切的實現(xiàn),改變上述的裝置、系統(tǒng)和方法。描述的實施例包含不同的特征,不是在本公開的所有的實施例中需要所有的這些特征。并且,本公開的一些實施例僅使用特征中的一些或特征的可能組合。本領(lǐng)域技術(shù)人員很容易想到在所描述的實施例中指出的特征的不同的組合。此外,可通過連同公開與不同的實施例相關(guān)聯(lián)地描述的特征和元件的組合實現(xiàn)本公開的一些實施例。本發(fā)明的范圍僅由以下的權(quán)利要求及其等同物限定。雖然已在附圖中詳細描述和示出了某些實施例,但應(yīng)理解,這些實施例僅是解釋性的,并且不是在背離由以下的權(quán)利要求確定的其基本范圍的條件下被設(shè)計的。
權(quán)利要求
1.一種方法,包括響應(yīng)第一參會人員和第二參會人員之間的交互作用,自動設(shè)計用于連續(xù)呈現(xiàn)視頻會議的第一端點的連續(xù)呈現(xiàn)視頻圖像;和顯示連續(xù)呈現(xiàn)視頻會議的第一端點上的所述連續(xù)呈現(xiàn)視頻圖像。
2.根據(jù)權(quán)利要求1所述的方法,其中,設(shè)計連續(xù)呈現(xiàn)視頻圖像的步驟包括 自動確定第一參會人員和第二參會人員之間的交互作用;在連續(xù)呈現(xiàn)視頻圖像中定位與第一參會人員對應(yīng)的第一視頻圖像;和響應(yīng)第一參會人員和第二參會人員之間的交互作用,在連續(xù)呈現(xiàn)視頻圖像中相對于第一視頻圖像定位與第二參會人員對應(yīng)的第二視頻圖像。
3.根據(jù)權(quán)利要求2所述的方法,其中,設(shè)計連續(xù)呈現(xiàn)視頻圖像的步驟還包含 從與第一參會人員對應(yīng)的端點接收內(nèi)容;和在連續(xù)呈現(xiàn)視頻圖像中呈現(xiàn)所述內(nèi)容; 其中,定位第一視頻圖像的步驟包含 在所述內(nèi)容的第一側(cè)定位第一視頻圖像,以及其中,定位第二視頻圖像的步驟包含 在所述內(nèi)容的第二側(cè)定位第二視頻圖像。
4.根據(jù)權(quán)利要求3所述的方法,還包括處理第一視頻圖像和第二視頻圖像,使得第一參會人員和第二參會人員被呈現(xiàn)為朝所述內(nèi)容方向看。
5.根據(jù)權(quán)利要求1所述的方法,其中,設(shè)計連續(xù)呈現(xiàn)視頻圖像的步驟包含 自動確定第一參會人員和第二參會人員之間的交互作用;響應(yīng)第一參會人員和第二參會人員之間的交互作用,對于連續(xù)呈現(xiàn)視頻會議的第一端點,產(chǎn)生用于創(chuàng)建第一端點上的連續(xù)呈現(xiàn)視頻圖像的指令; 向連續(xù)呈現(xiàn)視頻會議的第一端點發(fā)送所述指令;和響應(yīng)所述指令創(chuàng)建第一端點上的連續(xù)呈現(xiàn)視頻圖像。
6.根據(jù)權(quán)利要求1所述的方法,其中,設(shè)計連續(xù)呈現(xiàn)視頻圖像的步驟包含 自動確定第一參會人員和第二參會人員之間的交互作用;響應(yīng)第一參會人員和第二參會人員之間的交互作用,創(chuàng)建用于第一端點的連續(xù)呈現(xiàn)視頻圖像;和向第一端點發(fā)送連續(xù)呈現(xiàn)視頻圖像。
7.根據(jù)權(quán)利要求1所述的方法,還包括響應(yīng)多個參會人員之間的交互作用,自動設(shè)計用于連續(xù)呈現(xiàn)視頻會議的第二端點的連續(xù)呈現(xiàn)視頻圖像,用于第二端點的連續(xù)呈現(xiàn)視頻圖像與用于第一端點的連續(xù)呈現(xiàn)視頻圖像不同;和顯示連續(xù)呈現(xiàn)視頻會議的第二端點上的連續(xù)呈現(xiàn)視頻圖像。
8.根據(jù)權(quán)利要求1所述的方法,其中,設(shè)計連續(xù)呈現(xiàn)視頻圖像的步驟包含 分析與第一參會人員對應(yīng)的第一視頻圖像;分析與第二參會人員對應(yīng)的第二視頻圖像;響應(yīng)分析第一視頻圖像的步驟和分析第二視頻圖像的步驟,自動確定第一參會人員和第二參會人員之間的交互作用;和響應(yīng)第一參會人員和第二參會人員之間的交互作用,在用于第一端點的連續(xù)呈現(xiàn)視頻圖像中定位第一視頻圖像和相對于第一視頻圖像的第二視頻圖像。
9.根據(jù)權(quán)利要求8所述的方法,還包括向第一端點發(fā)送用于第一端點的連續(xù)呈現(xiàn)視頻圖像。
10.根據(jù)權(quán)利要求8所述的方法,還包括生成用于創(chuàng)建第一端點的連續(xù)呈現(xiàn)視頻圖像的指令;和向第一端點發(fā)送用于創(chuàng)建第一端點的連續(xù)呈現(xiàn)視頻圖像的指令。
11.根據(jù)權(quán)利要求8所述的方法,其中,設(shè)計連續(xù)呈現(xiàn)視頻圖像的步驟還包含 響應(yīng)第一參會人員和第二參會人員之間的交互作用修改第一視頻圖像。
12.根據(jù)權(quán)利要求11所述的方法,其中,修改第一視頻圖像的步驟包含 形成第一視頻圖像的鏡像。
13.根據(jù)權(quán)利要求1所述的方法,其中,設(shè)計連續(xù)呈現(xiàn)視頻圖像的步驟包含 確定多個參會人員中的主導(dǎo)參會人員;確定所述多個參會人員中的非主導(dǎo)參會人員;和在連續(xù)呈現(xiàn)視頻圖像中自動定位與主導(dǎo)參會人員對應(yīng)的第一視頻圖像并在連續(xù)呈現(xiàn)視頻圖像中相對于第一視頻圖像自動定位與非主導(dǎo)參會人員對應(yīng)的第二視頻圖像。
14.根據(jù)權(quán)利要求1所述的方法,其中,設(shè)計連續(xù)呈現(xiàn)視頻圖像的步驟包含響應(yīng)第一參會人員和第二參會人員之間的第一交互作用,自動設(shè)計第一連續(xù)呈現(xiàn)視頻圖像;和響應(yīng)第一交互作用之后的第三參會人員和第四參會人員之間的第二交互作用,自動設(shè)計第二連續(xù)呈現(xiàn)視頻圖像,以及其中,顯示連續(xù)呈現(xiàn)視頻圖像的步驟包含 顯示第一連續(xù)呈現(xiàn)視頻圖像;和在第一連續(xù)呈現(xiàn)視頻圖像之后顯示第二連續(xù)呈現(xiàn)視頻圖像。
15.根據(jù)權(quán)利要求1所述的方法,其中,設(shè)計連續(xù)呈現(xiàn)視頻圖像的步驟包含 分析與第一參會人員對應(yīng)的第一音頻能量;分析與第二參會人員對應(yīng)的第二音頻能量;響應(yīng)分析第一音頻能量的步驟和分析第二音頻能量的步驟,自動確定第一參會人員和第二參會人員之間的交互作用;和響應(yīng)第一參會人員和第二參會人員之間的交互作用,在用于第一端點的連續(xù)呈現(xiàn)視頻圖像中定位與第一參會人員對應(yīng)的第一視頻圖像和相對于第一視頻圖像的與第二參會人員對應(yīng)的第二視頻圖像。
16.根據(jù)權(quán)利要求1所述的方法,其中,設(shè)計連續(xù)呈現(xiàn)視頻圖像的步驟包含 識別與第一參會人員對應(yīng)的第一視頻圖像內(nèi)的第一關(guān)注區(qū)域的第一相對位置; 識別與第二參會人員對應(yīng)的第二視頻圖像內(nèi)的第二關(guān)注區(qū)域的第二相對位置; 響應(yīng)第一視頻圖像內(nèi)的第一關(guān)注區(qū)域的第一相對位置和第二視頻圖像內(nèi)的第二關(guān)注區(qū)域的第二相對位置,確定第一參會人員和第二參會人員之間的交互作用;和響應(yīng)第一參會人員和第二參會人員之間的交互作用,在連續(xù)呈現(xiàn)視頻圖像中定位第一視頻圖像并在連續(xù)呈現(xiàn)視頻圖像中相對于第一視頻圖像定位第二視頻圖像。
17.根據(jù)權(quán)利要求1所述的方法,其中,設(shè)計連續(xù)呈現(xiàn)視頻圖像的步驟包含 相對于與第二參會人員對應(yīng)的第二視頻圖像定位與第一參會人員對應(yīng)的第一視頻圖像,使得第一參會人員和第二參會人員表現(xiàn)為相互面對。
18.根據(jù)權(quán)利要求17所述的方法,其中,設(shè)計連續(xù)呈現(xiàn)視頻圖像的步驟還包含 形成第一視頻圖像的鏡像。
19.根據(jù)權(quán)利要求17所述的方法,還包括將第一地點上的多個參會人員中的一個參會人員指定為活動參會人員; 根據(jù)從第一地點接收的視頻圖像復(fù)制所述活動參會人員的圖像;和在連續(xù)呈現(xiàn)視頻圖像中呈現(xiàn)活動參會人員的圖像和從第一地點接收的視頻圖像。
20.根據(jù)權(quán)利要求17所述的方法,還包括將第一地點上的多個參會人員中的一個參會人員指定為活動參會人員; 根據(jù)從第一地點接收的視頻圖像復(fù)制所述活動參會人員的圖像;和在連續(xù)呈現(xiàn)視頻圖像中呈現(xiàn)所述活動參會人員的圖像,而不是呈現(xiàn)從第一地點接收的視頻圖像。
21.一種視頻會議系統(tǒng),包括 多個端點,所述多個端點包含 與第一參會人員對應(yīng)的第一端點;和與第二參會人員對應(yīng)的第二端點;和適于響應(yīng)第一參會人員和第二參會人員之間的交互作用設(shè)計連續(xù)呈現(xiàn)視頻圖像的布局控制器。
22.根據(jù)權(quán)利要求21所述的視頻會議系統(tǒng),其中,布局控制器是多點控制單元(MCU)的模塊。
23.根據(jù)權(quán)利要求21所述的視頻會議系統(tǒng),還包括適于響應(yīng)布局控制器操作第二視頻圖像和從第一端點接收的第一視頻圖像的編輯器模塊。
24.根據(jù)權(quán)利要求21所述的視頻會議系統(tǒng),其中,布局控制器進一步適于向多個端點發(fā)送用于顯示由布局控制器設(shè)計的連續(xù)呈現(xiàn)視頻圖像的指令。
25.根據(jù)權(quán)利要求21所述的視頻會議系統(tǒng),還包括適于響應(yīng)布局控制器將連續(xù)呈現(xiàn)視頻圖像編碼的視頻模塊。
26.根據(jù)權(quán)利要求21所述的視頻會議系統(tǒng),還包括適于響應(yīng)布局控制器在連續(xù)呈現(xiàn)視頻圖像中定位與第一參會人員對應(yīng)的第一視頻圖像和相對于第一視頻圖像的與第二參會人員對應(yīng)的第二視頻圖像的視頻布局編輯器模塊。
27.根據(jù)權(quán)利要求沈所述的視頻會議系統(tǒng),其中,視頻布局編輯器模塊進一步適于操作第一視頻圖像。
28.根據(jù)權(quán)利要求沈所述的視頻會議系統(tǒng),其中,視頻布局編輯器模塊進一步適于形成第一視頻圖像的鏡像。
29.根據(jù)權(quán)利要求21所述的視頻會議系統(tǒng),還包括適于檢測第一參會人員和第二參會人員之間的交互作用并將交互作用通知給布局控制器的交互作用解碼器。
30.根據(jù)權(quán)利要求四所述的視頻會議系統(tǒng),其中,交互作用解碼器包含適于識別與第一參會人員對應(yīng)的第一視頻圖像中的關(guān)注區(qū)域的相對位置的視頻交互作用解碼器。
31.根據(jù)權(quán)利要求四所述的視頻會議系統(tǒng),其中,交互作用解碼器適于檢測第一參會人員是主導(dǎo)參會人員。
32.根據(jù)權(quán)利要求四所述的視頻會議系統(tǒng),其中,交互作用解碼器包含適于分析音頻能量并響應(yīng)音頻能量將交互作用通知給布局控制器的音頻交互作用解碼器。
33.根據(jù)權(quán)利要求21所述的視頻會議系統(tǒng),其中,布局控制器適于設(shè)計連續(xù)呈現(xiàn)視頻圖像,使得第一參會人員和第二參會人員表現(xiàn)為相互面對。
34.一種用于處理來自與連續(xù)呈現(xiàn)視頻會議中的第一參會人員對應(yīng)的第一端點的第一視頻圖像和來自與連續(xù)呈現(xiàn)視頻會議中的第二參會人員對應(yīng)的第二端點的第二視頻圖像的裝置,包括適于響應(yīng)第一參會人員和第二參會人員之間的交互作用設(shè)計連續(xù)呈現(xiàn)視頻會議視頻圖像的控制模塊;和適于創(chuàng)建由控制模塊設(shè)計的連續(xù)呈現(xiàn)視頻會議視頻圖像的第一視頻模塊。
35.根據(jù)權(quán)利要求34所述的裝置,還包括適于檢測第一參會人員和第二參會人員之間的交互作用并將交互作用通知給控制模塊的交互作用解碼器。
36.根據(jù)權(quán)利要求34所述的裝置,其中,交互作用解碼器是適于識別第一視頻圖像中的關(guān)注區(qū)域的相對位置的視頻交互作用解碼器。
37.根據(jù)權(quán)利要求34所述的裝置,其中,交互作用解碼器是適于分析與第一參會人員對應(yīng)的第一音頻能量和與第二參會人員對應(yīng)的第二音頻能量的音頻交互作用解碼器。
38.根據(jù)權(quán)利要求34所述的裝置,其中,交互作用解碼器適于檢測第一參會人員是主導(dǎo)參會人員。
39.根據(jù)權(quán)利要求34所述的裝置,其中,所述裝置是多點控制單元。
40.根據(jù)權(quán)利要求34所述的裝置,其中,第一視頻模塊與第一端點相關(guān)聯(lián)。
41.根據(jù)權(quán)利要求34所述的裝置,還包括適于響應(yīng)控制模塊操作第一視頻圖像的編輯器模塊。
42.根據(jù)權(quán)利要求41所述的裝置,其中,編輯器模塊適于響應(yīng)控制模塊形成第一視頻圖像的鏡像。
全文摘要
本發(fā)明涉及用于根據(jù)參會人員之間的交互作用調(diào)整連續(xù)呈現(xiàn)視頻會議布局的系統(tǒng)和方法。通過使用在視頻圖像中發(fā)現(xiàn)的關(guān)注區(qū)域,參會人員的圖像的布置可被動態(tài)布置為由端點顯示。布置可響應(yīng)各種度量,包括參會人員在房間中的位置和視頻會議中的主導(dǎo)參會人員??梢宰鳛椴贾玫囊徊糠植僮饕曨l圖像,包括修剪視頻圖像和形成視頻圖像的鏡像。隨著參會人員之間的交互作用的改變,可以響應(yīng)改變的交互作用自動布置布局。
文檔編號H04N7/15GK102209228SQ201110077748
公開日2011年10月5日 申請日期2011年3月30日 優(yōu)先權(quán)日2010年3月31日
發(fā)明者E·列維埃弗, E·比里, N·沃格納 申請人:寶利通公司