電話會議中的在感知上連續(xù)的混合的制作方法
【專利摘要】一種在音頻電話會議混合系統(tǒng)中將多個當前音頻上行傳輸流混合在一起以產生至少一個音頻輸出流的方法,所述音頻電話會議混合系統(tǒng)是混合多個第一音頻上行傳輸輸入流以產生用于下行傳輸?shù)街辽僖粋€會議參與者的至少一個音頻下行傳輸輸出流的類型,其中所述多個第一音頻上行傳輸輸入流包含包括被感測到的音頻的音頻信息以及相關聯(lián)的控制信息,其中所述音頻上行傳輸輸入流可以潛在地包括連續(xù)傳輸(CTX)流和非連續(xù)傳輸(DTX)流,所述方法包括以下步驟:(a)確定指示每個當前音頻上行傳輸流的可能重要性的冗長量度;以及(b)當至少一個當前音頻上行傳輸流可以包括CTX流時,在混合中利用至少一個CTX流以產生所述至少一個音頻輸出流。
【專利說明】
電話會議中的在感知上連續(xù)的混合
[0001] 對相關申請的交叉引用
[0002] 本申請要求于2014年2月28日提交的、標題為"Perc邱tually Continuous Mixing in a Teleconference"的美國臨時申請No.61/946042的優(yōu)先權,該申請通過引用被并入于 此。
技術領域
[0003] 本發(fā)明設及音頻電話會議領域,并且特別公開了用于混合音頻電話會議中的多個 音頻流的方法。
【背景技術】
[0004] 在整個說明書中對【背景技術】的討論絕對不應該被認為是承認運種技術在本領域 中是眾所周知的或者形成公知常識的一部分。
[0005] 其中多個參與方遠程地交互W舉行會議的視頻和音頻電話會議系統(tǒng)是重要的資 源。已知許多運種系統(tǒng)。大多數(shù)系統(tǒng)依賴于集中式或分布式的服務器資源來確保每個參與 者通過使用例如專用的電話會議設備、具有音頻/輸入輸出設備的標準計算機資源或智能 電話類型的設備而能夠聽到和/或看到其他參與者。集中式或分布式的服務器資源負責將 來自每個會議參與者的上行傳輸音頻信號適當?shù)鼗旌显谝黄穑⑶蚁滦袀鬏斢糜谟擅總€音 頻輸出設備回放的音頻信號。
[0006] 作為背景,在典型的(已知的)電話會議系統(tǒng)中,混合器從每個電話端點接收攜帶 有該電話端點捕獲的音頻信號的相應的"上行傳輸流(uplink stream)",并且向每個電話 端點發(fā)送相應的"下行傳輸流(downlink S化earn)",因此每個電話端點接收到能夠攜帶其 它電話端點捕獲的相應音頻信號的混合的下行傳輸流。因此,當電話會議中的兩個或更多 個參與者同時講話時,其它的參與者可W聽到全部參與者講話。
[0007] 已知(并且通常期望)混合器采用自適應方法,由此它響應于感知到一個或多個音 頻信號中的某些變化而改變混合。例如,響應于確定音頻信號不包含語音(即,只包含背景 噪聲),可W從混合中省略該音頻信號。
[000引考慮其中電話端點各自將上行傳輸音頻流發(fā)送到電話會議混合器的電話會議系 統(tǒng)。在運種系統(tǒng)中,上行傳輸和下行傳輸可W被數(shù)字地編碼并且經由諸如互聯(lián)網協(xié)議電話 (Voice over Internet Protocol,VoIP)網絡之類的合適的包交換網絡傳送,或者它們可 W在諸如公共交換電話網(PSTN)之類的電路交換網絡上傳輸。無論哪種方式,混合器的責 任都是產生下行傳輸音頻流W發(fā)送回到每個端點,使得通常每個參與者聽到除自己W外的 每個其他參與者。
[0009]運種系統(tǒng)中的一類端點在上行傳輸上采用非連續(xù)傳輸(DTX)。運種端點試圖通過 W下中的一項或多項來在最小化網絡資源使用的同時最大化可懂度(intelligibility): 采用靠近講話者嘴己的麥克風布置;去除背景噪聲的噪聲抑制信號處理;僅發(fā)送存在人類 語音時的上行傳輸流。
[0010] 運種策略可能使得收聽者聽到較少的異常噪聲,但是也可能導致較少的自然發(fā)聲 體驗,首先是因為當背景噪聲是非平穩(wěn)的時,噪聲抑制信號處理典型地導致引入煩擾的動 態(tài)偽像(adefact),其次是因為噪聲抑制影響了語音的均衡,第Ξ是因為基于來自話音活 動檢測器(VAD)的不完善信息的二元的發(fā)射/不發(fā)射判定將有時候導致語音被截斷W及在 其它時候導致殘余噪聲被傳輸為語音。因此,從DTX設備接收的音頻流是被期望包含不多于 可忽略量的人類可感知的背景噪聲的音頻輸入流的示例。
[0011] 第二類端點在上行傳輸上采用連續(xù)傳輸(CTX)。即,不管VAD(如果有的話)確定語 音存在與否,CTX端點都發(fā)送音頻流。在運里,意圖往往是最大化收聽體驗的自然度 (naturalness) W及允許遠程收聽者執(zhí)行眾所周知的雙聲道處理的雞尾酒會問題 (coclaail party problem),就好像他或她親自在現(xiàn)場一樣。因此,CTX端點可W采用多個 麥克風來保持空間多樣性,W允許雙聲道免于掩蔽。CTX設備的設計者也可W力圖限制設備 所執(zhí)行的噪聲抑制處理的量,W便最小化煩擾的動態(tài)偽影和頻譜染色(spectral colouration)的可能性。因此,從CTX設備接收的音頻流是被期望包含多于可忽略量的能被 人類感知的背景噪聲的音頻輸入流的示例。
【發(fā)明內容】
[0012] 一般地,DTX設備力圖去除、抑制或W其它方式避免傳輸它認為不構成人類語音的 任何東西,而CTX設備力圖是透明的、W盡可能在感知上最連續(xù)且相關的方式傳輸一切東 西。任何混合器必須將此考慮在內。由于在未檢測到語音時DTX端點的上行傳輸基本上是靜 默的,因此當未檢測到語音時,混合器可W能夠隨意地丟棄它的上行傳輸流,而不會為收聽 者帶來感知影響。但是,當形成包含CTX流的下行傳輸混合時,混合器必須在它如何對流應 用混合轉換方面小屯、。例如,在未檢測到講話時丟棄CTX流可能容易被收聽者注意到,因為 與該流相關聯(lián)的背景噪聲可能聽起來被關掉了,尤其是當沒有其它CTX流存在來掩蓋轉換 時。收聽者可能疑惑系統(tǒng)是否已出現(xiàn)故障,或CTX端點是否已從會議斷開連接。在運種情況 下將無法滿足提供自然的收聽體驗的目標。
[0013] 通常,電話會議混合器的目標是允許每個參與者聽到來自除自己W外的每個其他 參與者的語音。但是,對運個目標,存在一些細微區(qū)別。例如,如果各自包含背景噪聲的許多 CTX流同時被收聽者聽到,則所聽到的總背景噪聲功率會增大到令人分散注意力或有損可 懂度的程度??紤]其中多個上行傳輸流全都同時講話的進一步示例。其結果可能是太雜亂 而無助于有用的交流。
[0014] 本文所公開的各種創(chuàng)造性的方法、設備、裝置和系統(tǒng)提供了音頻會議混合的改善 形式。
[0015] 根據本公開內容的第一方面,提供了一種在音頻電話會議混合系統(tǒng)中將多個當前 音頻上行傳輸流混合在一起W產生至少一個音頻輸出流的方法,所述音頻電話會議混合系 統(tǒng)是混合第一多個音頻上行傳輸輸入流W產生用于下行傳輸?shù)街辽僖粋€會議參與者的至 少一個音頻下行傳輸輸出流的類型,其中所述音頻上行傳輸輸入流包含包括被感測到的音 頻的音頻信息W及相關聯(lián)的控制信息,其中所述音頻上行傳輸輸入流可W潛在地包括連續(xù) 傳輸(CTX)流和非連續(xù)傳輸(DTX)流,所述方法包括W下步驟:(a)確定指示每個當前音頻上 行傳輸流的可能重要性(Ukely importance)的冗長(verbosity)量度;W及(b)當至少一 個當前音頻上行傳輸流可W包括CTX流時,在混合中利用至少一個CTX流來產生至少一個當 前下行傳輸輸出流。
[0016] 在一些實施例中,所述方法包括在混合中利用具有最高冗長量度的CTX流來產生 至少一個當前下行傳輸輸出流的步驟。優(yōu)選地,步驟(b)還可W包括如下步驟:(i)當優(yōu)選地 存在其上未檢測到語音的輔助CTX流時,衰減該輔助CTX流。優(yōu)選地,步驟(b)還可W包括如 下步驟:(ii)當具有最高冗長量度的當前CTX流未被提供話音長達延長的時間段時,衰減該 當前CTX流。
[0017] 在一些實施例中,所述方法還包括如下步驟:(c)當音頻輸入流的數(shù)量超過預定的 限制時,丟棄具有最低冗長量度的CTX流。
[0018] 本公開內容的第二方面提供了一種在音頻電話會議混合系統(tǒng)中基于多個音頻輸 入流產生至少一個音頻輸出流的方法,所述音頻電話會議混合系統(tǒng)是被配置為混合所述多 個音頻輸入流W由此產生用于發(fā)送到至少一個電話端點的所述至少一個音頻輸出流的類 型,所述方法包括:確定所述多個音頻輸入流包括至少一個被期望包含多于可忽略量的人 類可感知的背景噪聲的音頻輸入流(在下文中稱為"攜帶噪聲的音頻輸入流"),并且所述攜 帶噪聲的音頻輸入流或所述攜帶噪聲的音頻輸入流中的每一個是其中當前未檢測到語音 的音頻流;W及將所述攜帶噪聲的音頻輸入流或所述攜帶噪聲的音頻輸入流中的至少一個 包括在所述至少一個音頻輸出流中。
[0019] 盡管即使當包含可聽到的背景噪聲的至少一個音頻輸入流不包括語音時將所述 音頻輸入流包括在音頻輸出流中也可能被認為是違反直覺的,本發(fā)明人認識到,可聽到的 背景噪聲的存在會導致提供更自然的收聽體驗的"氛圍"(例如,紙張翻頁、打呵欠、玩鋼筆 等)。
[0020] 在一些實施例中,所述方法包括:確定所述多個音頻輸入流包括多個其中當前未 檢測到語音的攜帶噪聲的音頻輸入流并且所述攜帶噪聲的音頻輸入流中的每一個是的音 頻流;針對所述攜帶噪聲的音頻輸入流中的每個攜帶噪聲的音頻輸入流,確定各自的感知 重要性量度;基于所述攜帶噪聲的音頻輸入流的各自的感知重要性量度,選擇所述攜帶噪 聲的音頻輸入流的子集;W及將所述攜帶噪聲的音頻輸入流的所述子集包括在所述至少一 個音頻輸出流中。
[0021] 在一些實施例中,所述方法包括:選擇感知重要性量度最高的一個或多個攜帶噪 聲的音頻輸入流;W及將所選擇的攜帶噪聲的音頻輸入流包括在所述至少一個音頻輸出流 中。
[0022] 本公開內容的第Ξ方面提供了一種在音頻電話會議混合系統(tǒng)中基于多個音頻輸 入流產生至少一個音頻輸出流的方法,所述音頻電話會議混合系統(tǒng)是被配置為混合所述多 個音頻輸入流W由此產生用于發(fā)送到至少一個電話端點的所述至少一個音頻輸出流的類 型,所述方法包括:確定所述多個音頻輸入流包括至少一個被期望包括不多于可忽略量的 人類可感知的背景噪聲的音頻輸入流(在下文中稱為"噪聲可忽略的音頻輸入流")并且所 述噪聲可忽略的音頻輸入流或所述攜帶噪聲的音頻輸入流中的每一個是其中當前未檢測 到語音的音頻流;W及將所述噪聲可忽略的音頻輸入流或所述噪聲可忽略的音頻輸入流中 的至少一個包括在所述至少一個音頻輸出流中。
[0023] 在一些實施例中,所述方法包括:將所有噪聲可忽略的音頻輸入流都包括在所述 至少一個音頻輸出流中。盡管將所有的噪聲可忽略的音頻輸入流都包括在所述至少一個音 頻輸出流中會被認為是違反直覺的,但是本發(fā)明人認識到,運不會顯著地損害呼叫的"自然 度",并且不省略運些音頻信號會導致音頻信號的較少交換。
[0024] 本公開內容的第四方面提供了一種在音頻電話會議混合系統(tǒng)中基于多個音頻輸 入流產生至少一個音頻輸出流的方法,所述音頻電話會議混合系統(tǒng)是被配置為混合所述多 個音頻輸入流W由此產生用于發(fā)送到至少一個電話端點的所述至少一個音頻輸出流的類 型,所述方法包括:確定所述多個音頻輸入流包括多于闊值數(shù)量的其中當前檢測到語音的 攜帶噪聲的音頻輸入流;針對所述攜帶噪聲的音頻輸入流中的每個攜帶噪聲的音頻輸入 流,確定各自的感知重要性量度;基于所述攜帶噪聲的音頻輸入流的各自的感知重要性量 度,選擇所述攜帶噪聲的音頻輸入流的子集;W及將所述攜帶噪聲的音頻輸入流的所述子 集包括在所述至少一個音頻輸出流中。
[0025] 本發(fā)明人意識到,在音頻輸出流中存在過多(例如,多于五個)攜帶噪聲的音頻輸 入流在某些情況下將顯著地損害呼叫的"自然度"。
[0026] 在一些實施例中,所述方法包括:確定所述多個音頻輸入流還包括其中當前檢測 到語音的噪聲可忽略的音頻輸入流;W及將所述噪聲可忽略的音頻輸入流與所述攜帶噪聲 的音頻輸入流的所述子集一起包括在所述至少一個音頻輸出流中。
[0027] 在一些實施例中,所述方法包括:確定所述多個音頻輸入流還包括多個其中當前 檢測到語音的噪聲可忽略的音頻輸入流;W及將所述噪聲可忽略的音頻輸入流與所述攜帶 噪聲的音頻輸入流的所述子集包括在所述至少一個音頻輸出流中。
[0028] 在一些實施例中,針對音頻輸入流確定感知重要性量度包括指示該音頻輸入流在 當前呼叫期間已包括多少語音的量度。運可能有助于參與者聽到的"氛圍"的感知連續(xù)性。
[0029] 在一些實施例中,所述攜帶噪聲的音頻輸入流或所述攜帶噪聲的音頻輸入流中的 每個是連續(xù)傳輸(CTX)音頻輸入流。
[0030] 在一些實施例中,所述噪聲可忽略的音頻輸入流或所述噪聲可忽略的音頻輸入流 中的每個是非連續(xù)傳輸(DTX)音頻輸入流。
[0031] 本公開內容的第五方面提供了用于在電話會議混合系統(tǒng)中使用的裝置,該裝置被 配置為接收多個音頻輸入流并基于音頻輸入流產生至少一個音頻輸出流,該裝置包括被配 置為執(zhí)行上述方法中的至少一個方法的處理器。
[0032] 本公開內容的第六方面提供了攜帶有計算機可解釋指令的計算機可讀介質,當所 述計算機可解釋指令被用于在電話會議混合系統(tǒng)中使用的裝置的處理器執(zhí)行時,其中該裝 置被配置為接收多個音頻輸入流并基于音頻輸入流產生至少一個音頻輸出流,使得該裝置 執(zhí)行上述方法中的至少一個方法。
[0033] 在各種實施例中,如果攜帶噪聲的音頻輸入流在超過預定的最大時間內不包含語 音,則它將淡出(fade out),而不是突然從音頻輸出流中省略。
[0034] 本公開內容的運些方面和其它方面可W從示例性實施例的W下描述中得W理解。
【附圖說明】
[0035] 現(xiàn)在將參照附圖,W舉例的方式描述各種實施例,其中:
[0036] 圖1示意性地例示了優(yōu)選實施例的自適應混合布置的一種形式;
[0037] 圖2示意性地例示了優(yōu)選實施例的電話會議混合器;W及
[0038] 圖3是示出了電話會議混合器元件的示例的框圖。
【具體實施方式】
[0039] 優(yōu)選實施例在用于音頻電話會議(具有或不具有相關聯(lián)的視頻流)的環(huán)境中操作, 并且提供了用于混合多個上行傳輸流的方法,W確保在CTX和DTX環(huán)境中對輸出信號進行高 效的混合。
[0040] 在圖1中示出了示例性的音頻電話會議系統(tǒng)。在運種布置中,一系列會議參與者共 同提供音頻輸入與輸出。例如,在布置1中,第一參與者2使用互連到計算機6的一對耳機5和 輸入麥克風3來參與會議。計算機6通過網絡9提供與混合器11的上行傳輸8和下行傳輸7連 接。
[0041] 第二組參與者(例如,20)使用音頻設備21,音頻設備21提供包括空間化信息的音 頻輸出。音頻設備21也提供內部計算和通信能力,并且包括經由網絡25與混合器11互連的 上行傳輸23和下行傳輸24通道。
[0042] 其它參與者也可W通過其它手段互連到混合器11。
[0043] 圖1的布置包括使用DTX端點具有懸掛式麥克風(boom microphone)3的雙耳耳 機5為例)的多個會議參與者2。所述多個DTX端點中的每個DTX端點典型地經由網絡9來向電 話會議混合器11斷言DTX上行傳輸流8?;旌掀鳟a生用于每個DTX端點的下行傳輸流7,下行 傳輸流7通過網絡9被傳輸回到端點2W被參與者2聽到。
[0044] 多個CTX端點揚聲電話設備21為例)中的每個CTX端點捕獲另外的多個參與者 20的語音27。不平凡的背景噪聲也可W被運種設備捕獲。所述多個CTX端點中的每個CTX端 點典型地經由網絡25向混合器11斷言CTX上行傳輸流24。不失一般性,網絡25可W是由DTX 端點使用的網絡相同的網絡?;旌掀?1為每個CTX端點產生下行傳輸流23,下行傳輸流23通 過網絡25被傳輸回到端點21W便回放給多個參與者20。
[0045] 在電話會議系統(tǒng)中,每個參與者端點發(fā)送上行傳輸音頻流到電話會議混合器并且 從其接收下行傳輸流。在運種系統(tǒng)中,上行傳輸和下行傳輸可W被數(shù)字地編碼并且經由諸 如互聯(lián)網協(xié)議電話(VoIP)網絡之類的合適的包交換網絡傳輸,或者它們可W通過諸如公共 交換電話網(PSTN)之類的電路交換網絡傳送。無論哪種方式,混合器11的責任都是產生下 行傳輸音頻流W發(fā)送回給每個端點5、21,使得通常每個參與者聽到除自己W外的每個其他 參與者。
[0046] 但是,對于運個目標,存在一些細微區(qū)別。例如,如果各自包含背景噪聲的許多CTX 流同時被收聽者聽到,則所聽到的總背景噪音功率會增加到令人分散注意力或有損可懂度 的程度。作為進一步的示例,考慮多個上行傳輸流全部同時講話。其結果可能是太雜亂而不 便于進行有用的交流。在運種情況下,只讓兩個或Ξ個在感知上最相關的流通過可能更好。 包括本作者在內的許多作者已提議了用于實現(xiàn)運個的方法。例如,Enbom等人的歐洲專利申 請EP 1855455B1公開了一種運樣的方法。
[0047] 雖然混合器按照需要管理電話會議呼叫,但是圖2示意性地例示了電話會議混合 器11的說明性形式。
[004引如圖2中所示,多個上行傳輸流(一些DTX(31,32),一些CTX(33))被斷言到混合器 11。每個上行傳輸流經過相應的解包單元35、36、37。取決于上行傳輸編碼信息,每個解包單 元對相應的上行傳輸流進行解包,并且從上行傳輸流中提取VAD 38、掩蔽事件信息和音頻 信息40,并且如下所述地識別掩蔽事件39。
[0049] 混合器11產生多個下行傳輸流42、43、44。在圖2中示出了與下行傳輸流43之一相 關聯(lián)的子混合裝置46。為每個其它下行傳輸流42、44存在的各個類似的子混合裝置未被示 出。用于該下行傳輸?shù)幕旌峡刂茊卧?7對由與其它下行傳輸相關聯(lián)的解包單元35、37產生 的VAD和掩蔽事件信號進行操作,并且為除上行傳輸36之外的每個上行傳輸產生增益,因為 下行傳輸43將會被生成上行傳輸32的同一端點Y聽到。運些增益被用于縮放48、49和混合50 來自上行傳輸?shù)囊纛l,W產生適合通過下行傳輸43重新打包和編碼51回去的最終音頻流。
[0050] 優(yōu)選實施例提供了用于在電話會議系統(tǒng)中將DTX和CTX上行傳輸混合在一起W形 成具有整體唯一混合策略的一系列在感知上連續(xù)的下行傳輸?shù)姆椒ā?br>[0051] 考慮服務多個DTX端點(即,僅當估計存在語音時才在上行傳輸上傳輸音頻的端 點)和多個CTX端點(即,連續(xù)地在上行傳輸上傳輸音頻的端點)的VoIP(互聯(lián)網協(xié)議電話)電 話會議服務器。周期性地(例如每20ms),服務器需要分析自從上次之后已通過網絡接收到 的編碼音頻的上行傳輸包,并且產生包含編碼音頻的新的下行傳輸包W發(fā)送給每個端點。 由于發(fā)送端點上的時鐘和服務器上的時鐘之間的偏差W及由于網絡中引入的抖動和包丟 失,所W上行傳輸包可能不是W服務器需要它們的正好相同的速率(例如每20ms巧Ij達。因 此,服務器將需要采用如本領域技術人員已知的抖動緩沖方案。在抖動緩沖之后,應該在任 何端點處的收聽者聽到來自除他自己W外的每個其它端點的語音的總體目標下、基于輸入 包來形成下行傳輸包。
[0052] 優(yōu)選實施例提供了通過根據W下原則W在感知上連續(xù)的方式處理DTX和CTX流運 兩者來延伸先前技術的方法。
[0053] 關于哪些流被聽到和哪些流不被聽到的判定基于冗長度量,冗長度量是描述對話 中特定上行傳輸?shù)闹匾缘亩攘?。可W使用不同表征形式的冗長度量或類似物,包括諸如 每個通道的功率譜分析之類的簡單的量度。冗長的一種較復雜的量度在于2012年9月27日 提交的、標題為('Method for Improving Perceptual Continuity in 曰 Spatial Teleconferencing System"的美國專利申請61/706315中獲得,該申請的內容通過交叉引 用被并入于此。
[0054] 當人們講話時,除非存在極端條件,否則他們期望被聽到。因此,每當與CTX流相關 聯(lián)的VAD估計流中存在語音時,該CTX流將被聽到,除非超過了包含活動語音的CTX流的某個 最大計數(shù)N_MAX(例如,5)。在多于N_MAX個CTX流同時包含語音的情況下,具有最高冗長的N_ MAX個流將被聽到,而其它的流可W被剔除。如果許多CTX流被聽到,則結果立即很可能變得 雜亂或增雜,并且還會消耗顯著的服務器資源來進行混合。
[0055] 期望的是:當CTX流都未包含活動語音時,在大部分時間,單個CTX上行傳輸在每個 下行傳輸中可聽到。如果CTX流在講話一停止就突然被關閉,則運將立即被注意到并且將聽 起來不自然。另一方面,如果許多CTX流被聽到,則結果立即可能是令人分屯、地雜亂或增雜, 并且也將消耗顯著的服務器資源來混合。
[0056] 在優(yōu)選實施例中,期望具有在任何時間在每個下行傳輸中活動的至少單個CTX流。 運個流被表示為發(fā)言者。選擇最冗長(即,最高冗長)的流成為發(fā)言者是合乎邏輯的,因為考 慮到那是在最近的歷史中在會議中已包含最多語音的數(shù)據流,所w它最有可能是收聽者的 關注焦點。
[0057] 期望的是CTX流被文雅地中斷。運意味著,當沒有語音存在時,不是直接將其關閉, 而是服務器應該在等待某個最小保持時間W查看是否即將到來更多語音之后將它淡出。但 是,更重要的是,人們被聽到。因此,當多于N_MX個CTX流活動時,不應該應用此原則。
[0058] 如果CTX流全都在長時間段(例如,1分鐘)內不包含語音,則可逐漸降低"所聽 到的最后一個CTX流。運可W通過每次聲明掩蔽事件時應用量值G_STEP(例如,-2地)的離散 衰減步驟來完成。當端點在長度1'_1451((例如,3秒)的靜默時間段之后開始講話時,掩蔽事 件被檢測到。一旦流被衰減超過一定量,例如G_THRES冊LD(例如,-18地),它就可W被淡出 和中止。確定流已長時間段處于非活動狀態(tài)的簡單方法是檢查其冗長是否處于某個小的闊 值¥_1'皿65冊LD (例如,0.05) W下。
[0059] 具體實施例
[0060] 現(xiàn)在將描述圖2的子混合單元46的實現(xiàn)的具體實施例的一種形式。
[0061] 對于每個連接的端點或下行傳輸,維護場景對象作為從帖到帖的狀態(tài)。場景對象 可W包括:1.對輸入流的一組引用(即,來自其它被連接的端點的上行傳輸流);2. -組輸出 流定義,其中每個輸出流定義又包括:a)對所分配的輸入流的一組引用;b)關于對所分配輸 入流的每個引用,相關聯(lián)的混合增益。
[0062] 周期性地(例如,每20ms):
[0063] 1)將集合D(該帖將需要被執(zhí)行解碼的輸入流的集合)初始化為空集合。
[0064] 2)將集合S(該帖將需要被混合和重新編碼的場景的集合)初始化為空集合。
[0065] 3)執(zhí)行準備遍歷;對于每個被連接的端點:
[0066] a)從抖動緩沖區(qū)獲取下一個上行傳輸音頻包。
[0067] b)確定音頻包中是否存在語音(講話標志)。
[0068] 運可W通過對包進行解碼并且應用合適的VAD或者通過提取已由發(fā)送端點在音頻 包中提供的講話標志元數(shù)據來完成。
[0069] 4)執(zhí)行冗長更新遍歷;對于每個被連接的端點:
[0070] 基于講話標志為運個端點更新冗長度量。
[0071] 由于冗長是長期聚合體,因此使用來自先前帖的講話標志也是能接受的,使得冗 長可W被計算為第一遍歷的一部分。
[0072] 5)執(zhí)行計劃遍歷;對于每個被連接的端點,更新場景對象:
[0073] a)在第一子遍歷中,有必要確定哪些輸入流要啟用:
[0074] i .記錄已斷言其講話標志的CTX輸入流的數(shù)量n_ctx。
[0075] ii.創(chuàng)建不超過N_MAX個具有當前被斷言的講話標志的最冗長(即,最高冗長)輸入 流的集合L。
[0076] iii.記錄其講話標志被設置、但不是集合L的成員的輸入流的數(shù)量11_(31111。
[0077] iv.如果有的話,則找到哪個CTX輸入流當前具有最高冗長(至少為¥_1'皿65冊LD)。 指定運個流為發(fā)言者。
[0078] V.如果在不活動至少T_MASK的時間段之后,任何輸入流的講話標志經歷從被清除 到被斷言該帖,則聲明與此場景相關聯(lián)的掩蔽事件。
[0079] b)在第二子遍歷中,有必要在場景中啟用輸入流。對于集合L中的每個輸入流:
[0080] i.將混合增益設置為0地(一致)。
[0081] ii.確保輸入流被分配給輸出流。如果多個輸入流被分配給相同的輸出流,則它們 可W在服務器處被解碼和混合。僅被分配單個輸入流的任何輸出流可W在不解碼的情況下 被轉發(fā)。輸出包可W包含多個輸出流,在運種情況下,它們被混合在一起并且在接收端點處 被呈現(xiàn)。
[0082] C)在第Ξ子遍歷中,從場景中剔除之前聽到的輸入流。對于當前被分配給輸出流 但不是集合L的成員的每個輸入流:
[0083] i.如果輸入流是DTX,則立即將它從其輸出流解除分配。
[0084] ii.如果輸入流是CTX并且n_cull非零,則將該流在運個輸出流中標記為淡出。否 則:
[0085] iii.如果輸入流沒有被指定為發(fā)言者、n_ctx大于1并且該流已經不活動長達至少 T_H0LD,則將該輸入流在其輸出流中標記為淡出。
[0086] iv.如果輸入流沒有被指定為發(fā)言者并且11_(3*《是1(運是當前聽到的唯一CTX流, 但它不是發(fā)言者),則在掩蔽事件已被聲明時將其混合增益減少6_5了6?。如果混合增益現(xiàn)在 小于G_THRES冊LD,則將運個輸入流在其輸出流中標記為淡出。
[0087] d)在第四子遍歷中,對正在淡出的流的增益進行更新。對于當前被分配給輸出流 的每個輸入流:
[008引i .如果輸入流被標記為淡出,則將其混合增益減少6_曰406。
[0089] ii.如果輸入流的混合增益小于G_CUT,則將它從輸出流解除分配。
[0090] iii.在第五子遍歷中,我們把為了對場景進行混合而需要執(zhí)行解碼的任何輸入流 添加到集合D,如果它們還不是成員的話。
[0091] iv.如果所得到的場景不是空的,則將它添加到集合S。
[0092] 6)可選地,通過定位和合并集合S中的相同場景來執(zhí)行場景共享遍歷。如果每個輸 出流由具有相同混合增益的一組相同的輸入流形成,則兩個場景應該被視為相同的。相同 的場景應該被合并成單個場景對象,該單個場景對象記錄了它應該被發(fā)送到哪些端點。
[0093] 7)執(zhí)行集合D中的每個輸入流解碼,使得解碼的音頻數(shù)據可用于混合。
[0094] 8)執(zhí)行混合遍歷;對于S中的每個場景:
[00M] (a)對于場景中的每個輸出流:
[0096] i.如果輸出流具有分配給它的多個輸入流,則將在解碼遍歷(7)中從輸入流導出 的解碼音頻混合在一起,并且重新編碼混合后的音頻,W準備用于在下行傳輸包中傳輸。
[0097] ii.否則,如果輸出流具有分配給它的單個輸入流:則復制或引用該輸入流,W準 備用于在下行傳輸包中發(fā)送,而無需重新編碼。
[0098] 9)執(zhí)行發(fā)送遍歷;對于S中的每個場景,并且對于要接收運個場景的每個端點:
[0099] (a)通過利用任何所需要的特定于端點的頭部信息(例如,序列號)預先考慮在混 合遍歷(8)中產生的輸出流數(shù)據來形成完整的下行傳輸包。
[0100] (b)將下行傳輸包發(fā)送到端點。
[0101] 10)當接收到下行傳輸包時,端點應該解碼在其中發(fā)現(xiàn)的每個流、將它們混合在一 起、并且通過揚聲器或耳機呈現(xiàn)它們。
[0102] 假設20毫秒的帖時段,在W上討論中W斜體大寫字母示出的每個常數(shù)的建議值在 下表中給出。
[0103]
圖3是示出了電話會議混合器元件的示例的框圖。圖3中示出的部件的類型和數(shù)量I 僅僅W示例的方式示出??商娲膶崿F(xiàn)可W包括更多、更少和/或不同的部件。電話會議混 合器300例如可W是電話會議服務器的實例。在一些示例中,電話會議混合器300可W是另 一個設備的部件。例如,在一些實現(xiàn)中,電話會議混合器300可W是遠程會議服務器的部件, 例如,線卡(line card)。電話會議混合器300可W至少部分地由如下控制系統(tǒng)來實現(xiàn):該控 制系統(tǒng)可W包括通用的單忍片或多忍片處理器、數(shù)字信號處理器(DSP)、專用集成電路 (ASIC)、現(xiàn)場可編程口陣列(FPGA)或其它可編程邏輯器件、分立口或晶體管邏輯和/或分立 硬件部件。在一些實現(xiàn)中,電話會議混合器300可W根據存儲在一個或多個非臨時性介質上 的指令(例如,軟件)來實現(xiàn)。運種非臨時性介質可W包括存儲器設備,諸如本文所描述的那 些,包括但不限于:隨機存取存儲器(RAM)設備、只讀存儲器(ROM)設備,等等。
[0105] 在圖3示出的示例中,電話會議混合器300包括解包單元303A-303C,解包單元 303A-303C被示出為接收DTX上行傳輸流301A-301C。運里,電話會議混合器300還包括解包 單元304A-304C,解包單元304A-304C被示出接收CTX上行傳輸流302A-302C。在一些實現(xiàn)中, 解包單元303A-303C可W是圖2和W上所述的解包單元35和36的實例,并且解包單元304A- 304C可W是圖2和W上所述的解包單元37的實例。
[0106] 雖然解包單元303A-303C和解包單元304A-304C都沒有示出輸出事件信息(諸如在 圖2中示出的X事件、Y事件和Z事件信息),但是,在一些實現(xiàn)中,解包單元303A-303C和/或解 包單元304A-304C可W能夠確定所接收的上行傳輸流中的事件W及能夠輸出事件信息。根 據一些運種實現(xiàn),解包單元303A-303C和/或解包單元304A-304C可W能夠根據所接收的上 行傳輸流中的事件標志(或類似指示)確定事件??商娲鼗蚋郊拥兀谝恍崿F(xiàn)中,解包單 元303A-303C和/或解包單元304A-304C可W能夠通過其它手段確定事件,諸如通過對所接 收的上行傳輸流進行分析。
[0107] -些此類示例可W包括特征提取器和事件檢測器。在一些實現(xiàn)中,特征提取器和 事件檢測器運兩者都可W在解包單元或在電話會議混合器的一個或多個其它部件中實現(xiàn)。 在可替代的實現(xiàn)中,特征提取器和事件檢測器運兩者都可W在電話端點中實現(xiàn)。在其它實 現(xiàn)中,特征提取器可W在電話端點中實現(xiàn),而事件檢測器可W在解包單元中或在電話會議 混合器的一個或多個其它部件中實現(xiàn)。
[0108] 特征提取器可W能夠分析輸入波形W及產生對應于一種或多種特征的輸出,諸如 等級的變化和/或譜通量的變化(例如,節(jié)距的變化)。在一些示例中,特征提取器可w能夠 有VAD功能。根據一些運種示例,特征提取器可W能夠分析輸入波形W及能夠輸出VAD結果。
[0109] 事件檢測器402可W能夠分析由特征提取器提取的特征W及能夠產生對應于一種 或多種事件的輸出。在一些實現(xiàn)中,事件可W與語音的開始、語音的停止、特別音節(jié)的出現(xiàn)、 語音的詞或類別、音量的變化、譜通量的變化或其它類似變化、和/或根據聽覺場景分析而 確定的標準對應。在一些實現(xiàn)中,事件檢測器的輸出可W是"二元的",僅指示事件是否存在 或不存在。但是,在一些示例中,事件檢測器的輸出也可W指示事件量值。
[0110] 根據一些示例,解包單元303A-303C可W能夠只處理DTX上行傳輸流并且解包單元 304A-304C可W能夠只處理CTX上行傳輸流。但是,在一些實現(xiàn)中,解包單元303A-303C和/或 解包單元304A-304C可W能夠處理CTX上行傳輸流和DTX上行傳輸流運兩者。根據一些運種 實現(xiàn),解包單元303A-303C和/或解包單元304A-304C可W能夠根據標志、上行傳輸流中的頭 部或其它信息來確定把上行傳輸流作為CTX上行傳輸流還是DTX上行傳輸流來處理。在一些 實現(xiàn)中,關于把上行傳輸流作為CTX上行傳輸流還是DTX上行傳輸流來處理的信息可W在上 行傳輸流的外部。在一些運種實現(xiàn)中,關于把上行傳輸流作為CTX上行傳輸流還是DTX上行 傳輸流來處理的信息可W在會話發(fā)起過程期間交換,例如,在端點和電話會議服務器(或其 一部分,諸如解包單元)之間根據會話發(fā)起協(xié)議(SIP)的協(xié)商期間??商娲?,關于把上行傳 輸流作為CTX上行傳輸流還是DTX上行傳輸流來處理的信息可能在上行傳輸流中或在會話 發(fā)起過程期間沒有被顯式地指示,但是可W根據對于上行傳輸流的包中的諸如VAD標志之 類的信息的分析來確定。在一個運種示例中,CTX上行傳輸流可W通過兩個連續(xù)包的兩個 VAD標志被設置為零的實例來識別。
[0111] 根據一些實現(xiàn),解包單元的數(shù)量將取決于上行傳輸流的數(shù)量并且解包單元的功能 將取決于上行傳輸流是CTX上行傳輸流還是DTX上行傳輸流。例如,在一些運種實現(xiàn)中,控制 系統(tǒng)可W調用對應于上行傳輸流的數(shù)量的多個軟件模塊。每個軟件模塊可W具有取決于對 應的上行傳輸流是CTX上行傳輸流還是DTX上行傳輸流的解包單元功能。
[0112] 在圖3中所示的示例中,解包單元303A-303C和解包單元304A-304C能夠輸出音頻 信息306A-306F,每個音頻信息306A-306F來自對應的上行傳輸流。取決于特定的實現(xiàn),音頻 信息306A-306F可W是在時域或頻域中。在一些示例中,音頻信息306A-306F可W被修改為 離散余弦變換(MDCT)音頻數(shù)據。取決于特定的實現(xiàn),音頻信息306A-306F可W被編碼或解 碼。在本示例中,至少音頻信息30抓-306F可W被解碼。
[0113] 在本示例中,解包單元303A-303C和解包單元304A-304C能夠輸出語音活動信息 305A-305F,指示對應的上行傳輸流中的語音。在一些實現(xiàn)中,當DTX端點已檢測到語音時, DTX端點將只發(fā)送上行傳輸流。根據一些此類示例,解包單元303A-303C可W能夠輸出與在 其間接收到DTX上行傳輸流的時間間隔對應的語音活動信息。
[0114] 在一些實現(xiàn)中,CTX端點可W能夠進行語音活動檢測,并且可W將諸如VAD標志之 類的信息包括在CTX上行傳輸流中,W指示CTX上行傳輸流中音頻數(shù)據的哪些部分對應于語 音。根據一些運種示例,解包單元304A-304C可W能夠輸出與CTX上行傳輸流302A-302C中檢 測到的VAD標志或其它運種信息對應的語音活動信息。但是,在可替代的示例中,解包單元 304A-304C可W能夠進行語音活動檢測,并且可W能夠輸出與CTX上行傳輸流302A-302C中 檢測到的語音對應的語音活動信息。
[0115] 在本示例中,解包單元303A-303C和解包單元304A-304C能夠將語音活動信息 305A-305F輸出到冗長估計器模塊308。因此,在運個實現(xiàn)中,來自電話會議中設及的所有上 行傳輸流的語音活動信息被輸入到冗長估計器模塊308。在本示例中,冗長估計器模塊308 能夠為CTX端點計算冗長度量,諸如對應于CTX上行傳輸流302A-302C的Ξ個CTX端點。如本 文其它地方所指出的,冗長度量可W指示上行傳輸流的可能重要性。
[0116] 計算冗長度量的過程和/或冗長度量本身可W根據實現(xiàn)而變化。在一些實現(xiàn)中,冗 長估計器模塊308可W能夠至少部分地基于每個上行傳輸流的功率譜分析來計算冗長度 量。在一些實現(xiàn)中,冗長估計器模塊308可W能夠根據在于2013年9月25日提交的國際專利 申請NO.PCT/US2013/061648中例如第24-29頁描述的一種或多種方法來計算冗長量度,該 申請的內容通過引用被并入于此。
[0117] -些運種實現(xiàn)可能設及隨著時間積累(例如,每個會話參與者或每個上行傳輸流 的)每個輸入聲場信號的冗長度量。運種實現(xiàn)可能設及為每個端點i的輸入聲場信號確定冗 長值Vi。冗長值Vi可W取決于會議中的活動而被修改。Vi的相對高的值可W指示端點i已更 加活躍,并且因此更可能或更適于被維持為多路復用輸出聲場信號中的最近活動的聲場。 冗長度量Vi可W在每帖或根據一組規(guī)則和參數(shù)的時刻被修改。規(guī)則和參數(shù)的示例在下面表 1中列出。特別地,表1例示了機制和對冗長度量的建議修改。
[011 引
[0119] 表 1
[0120] -般而言,根據上面的一組參數(shù),當端點i活動時,用于端點i的冗長Vi可W增加, 并且如果端點i是唯一的活動端點,則增加得更快。當端點i不活動時,并且至少一個其它端 點活動時,冗長Vi可W減少。如果只有一個活動端點,則冗長Vi可W減少得更快。在會議中沒 有活動的情況下,在一些示例中當前冗長等級可W被維持。在一些實施例中,可W優(yōu)選地應 用冗長Vi的適當衰減并且將衰減鏈接到端點i的相關聯(lián)的聲場信號的淡出。
[0121] 根據一些示例,如果第一會議參與者在第一時間間隔期間已比其他會議參與者講 得更多,并且然后在第二時間間隔期間停止講話,但是在第二時間間隔期間,沒有其他會議 參與者在講話,則第一會議參與者的冗長可W在該時間間隔期間保持恒定。但是,如果另一 個會議參與者在第二時間間隔期間開始講話,則第一會議參與者的冗長可W在該時間間隔 期間減少。根據一些實現(xiàn),如果多于一個其它會議參與者在第二時間間隔期間開始講話,貝U 第一會議參與者的冗長可W在第二時間間隔期間減少得更快。
[0122] 在圖3所示的示例中,冗長估計器模塊308被示為輸出冗長度量V1-V3,冗長度量 V1-V3分別對應于CTX上行傳輸流302A-302C之一。在一些實現(xiàn)中,冗長估計器模塊308可W 能夠輸出〇(意味著交談參與者在至少預定長度的時間內根本沒有講話)和1(意味著交談參 與者在至少預定長度的時間內已是最主要的講話者)之間的數(shù)字。
[0123] 根據本示例,冗長度量V1-V3被輸入到增益控制單元309。在運個實現(xiàn)中,增益控制 單元309能夠確定混合策略,混合策略包括用于CTX上行傳輸流302A-302C中的每一個CTX上 行傳輸流的至少部分基于冗長度量V1-V3的增益。運里,增益控制單元309能夠將對應于冗 長度量V1-V3的增益信息314A-314C提供給對應的增益單元310A-310C。因此,在本示例中, 增益控制單元309可W為具有相對較高的冗長度量的CTX上行傳輸流確定相對較高的增益, 并且可W為具有相對較低的冗長度量的CTX上行傳輸流確定相對較低的增益。
[0124] 混合策略也可W基于其它因素。例如,在圖3所示的示例中,為簡單起見,只有單個 下行傳輸流320被示為正在從多路復用器313中輸出。下行傳輸流320對應于電話會議中設 及的單個端點。電話會議混合器300將一般地輸出多個下行傳輸流,電話會議中設及的每個 端點一個下行傳輸流。在一些實現(xiàn)中,電話會議混合器300可W能夠允許每個會議參與者聽 到來自除她或他自己W外的每個其他會議參與者的講話(具有一些可能的約束)。因此,在 一些運種實現(xiàn)中,混合策略還可W包括為來自對應于下行傳輸流320的端點的CTX上行傳輸 流確定低(或零)增益。
[0125] 在一些示例中,增益控制單元309可W能夠提供與W上參照圖2描述的混合控制單 元47的功能類似的功能。根據一些運種示例,增益控制單元309可W能夠至少部分地實現(xiàn)W 上描述的本公開內容的各個方面。例如,在一些實現(xiàn)中,增益控制單元309可W能夠根據各 種標準(諸如本文所公開的那些標準)來衰減一個或多個CTX上行傳輸流、丟棄一個或多個 CTX流、即使在輸入流中當前未檢測到講話也將攜帶噪聲的CTX上行傳輸流包括在輸出流 中、將當前檢測到其中有講話的攜帶噪聲的CTX上行傳輸流的子集包括在輸出流中、即使在 CTX上行傳輸流中當前未檢測到講話也將噪聲可忽略的CTX上行傳輸流包括在輸出流中,等 等。盡管在圖3所示的示例中,增益控制單元309沒有被示出從解包單元接收事件信息,但是 在可替代的示例中,增益控制單元309可W至少部分地基于由解包單元產生的事件信號來 確定混合策略。
[01%] 在本示例中,對應的增益單元310A-310C能夠基于由增益控制單元309提供的增益 信息來將增益應用到CTX上行傳輸流中對應的一個。在運個實現(xiàn)中,CTX混合器311能夠混合 從增益單元310A-310C輸出的CTX上行傳輸流。在一些示例中,CTX混合器311可W能夠提供 與W上參照圖2描述的混合單元50的功能類似的功能。
[0127]在運個實現(xiàn)中,CTX混合器311能夠將混合后的CTX流315提供給重新編碼/重新打 包單元312。重新編碼/重新打包單元312可W能夠對混合后的CTX流315進行編碼并且能夠 將混合后的編碼CTX流317提供給多路復用器313。
[0128] 在圖3所示的示例中,DTX混合器307從解包單元303A-303C接收對應于DTX上行傳 輸流301A-301C的音頻信息306A-306C。在一些實現(xiàn)中,音頻信息306A-306C可W被編碼,而 在其它實現(xiàn)中,音頻信息306A-306C可W被解碼。
[0129] 根據一些實現(xiàn),DTX混合器307可W允許多達最大數(shù)量的編碼DTX流被包括在下行 傳輸流320中。在一些運種實現(xiàn)中,DTX混合器307可W在虛擬空間中向每個編碼DTX流分配 相關聯(lián)的位置。根據一些實現(xiàn),DTX混合器307可W能夠根據一組規(guī)則,諸如在標題為 "Placement of Talkers in 2D or 3D Conference Scene"的國際申請?zhí)朠CT/US2013/ 033270中例如第1-10和22-36頁描述的那些規(guī)則,將會議參與者語音分配到虛擬空間中的 位置。在圖3所示的實現(xiàn)中,多路復用器313能夠向多路復用器313提供混合后的DTX流319。 在本示例中,多路復用器313能夠將混合后的編碼CTX流317與混合后的DTX流319多路復用, W產生下行傳輸流320。
[0130] 解釋
[0131] 貫穿本說明書,對"一種實施例"、"一些實施例"或"實施例"的引用意味著聯(lián)系該 實施例描述的特定特征、結構或特性被包括在本發(fā)明的至少一個實施例中。因此,在貫穿本 說明書的不同位置中,短語"在一種實施例中"、"在一些實施例中"或"在實施例中"的出現(xiàn) 不一定都指代相同的實施例,但是可W指代相同的實施例。此外,在一個或多個實施例中, 如本領域普通技術人員根據本公開內容而顯而易見的,特定特征、結構或特性可任何 合適的方式進行組合,。
[0132] 在下面的權利要求和本文的描述中,術語"包括"、"包含"中的任何一個是意味著 至少包括后面的要素/特征但不排除其它要素/特征的開放性術語。因此,當在權利要求中 使用時,術語"包括"不應該被解釋為受限于之后列出的手段或要素或步驟。例如,表述設備 包括A和B的范圍不應該被限制為設備只由元素 A和B組成。如本文中所使用的術語"包括"或 "包含"中的任何一個也是開放性術語,其也意味著至少包括該術語之后的要素/特征,但不 排除其它的要素/特征。因此,包含與包括是同義詞并且意味著包括。
[0133] 如本文中所使用的,術語"示例性"是在提供示例的意義上被使用,而不是指示質 量。即,"示例性實施例"是作為示例提供的實施例,而不一定是示例性質量的實施例。
[0134] 應當理解,在本發(fā)明的示例性實施例的W上描述中,出于組織本公開內容和幫助 對各種創(chuàng)造性方面中的一個或多個方面的理解的目的,本發(fā)明的各種特征有時在單個實施 例、附圖或其描述中被組合在一起。但是,運種公開方法不應該被解釋為反映所要求保護的 發(fā)明需要的特征要多于在每個權利要求中明確描述的特征的意圖。相反,如W下權利要求 反映的,創(chuàng)造性方面在于少于單個上述公開實施例的所有特征。因此,【具體實施方式】后面的 權利要求由此被明確地結合到【具體實施方式】中,其中每項權利要求獨立地作為本發(fā)明的單 獨實施例。
[0135] 此外,雖然本文中所描述的一些實施例包括其它實施例中所包括的某些特征,而 不包括其它特征,但是如本領域技術人員將理解的,不同實施例的特征的組合意味著要在 本發(fā)明的范圍之內,并且形成不同的實施例。例如,在下面的權利要求中,要求保護的任何 實施例可W W任何組合被使用。
[0136] 此外,一些實施例在本文中被描述為可由計算機系統(tǒng)的處理器或由執(zhí)行功能的其 他手段實現(xiàn)的方法或方法要素的組合。因此,具有用于執(zhí)行運種方法或方法要素的必要指 令的處理器形成用于執(zhí)行方法或方法要素的裝置。此外,裝置實施例的在本文中所描述的 元件是用于執(zhí)行由該元件執(zhí)行的功能W便執(zhí)行本發(fā)明的裝置的示例。
[0137] 可W采用一個或多個計算機可讀介質的任意組合。計算機可讀介質可W是計算機 可讀信號介質或者計算機可讀存儲介質。計算機可讀存儲介質例如可W是但不限于電、磁、 光、電磁、紅外、或半導體的系統(tǒng)、裝置或設備,或者W上各項的任何合適的組合。計算機可 讀存儲介質的更具體的示例(非窮舉的列表)包括W下:具有一個或多個導線的電連接、便 攜式計算機盤、硬盤、隨機存取存儲器(ram)、只讀存儲器(ROM)、可擦可編程只讀存儲器 化PROM或閃存)、光纖、便攜式緊湊盤只讀存儲器(CD-ROM)、光存儲設備、磁存儲設備、或者 W上各項的任何合適的組合。在本文件中,計算機可讀存儲介質可W是包含或存儲程序的 任何有形介質,該程序可W被指令執(zhí)行系統(tǒng)、裝置或設備使用或者與其結合使用。
[0138] 計算機可讀信號介質可W包括基帶中的或者作為載波一部分的、其中包含了計算 機可讀程序代碼的傳播數(shù)據信號。運種傳播數(shù)據信號可W采用各種形式中的任何形式,包 括但不限于:電磁信號、光信號或其任何合適的組合。
[0139] 計算機可讀信號介質還可W是計算機可讀存儲介質W外的、可W傳送、傳播或者 傳輸用于由指令執(zhí)行系統(tǒng)、裝置或設備使用或者與其結合使用的程序的任何計算機可讀介 質。
[0140] 計算機可讀介質上包含的程序代碼可W用任何適當?shù)慕橘|傳送,包括但不限于: 無線、有線、光纜、RF等等,或者W上各項的任何合適的組合。
[0141] 用于執(zhí)行本申請的各方面的操作的計算機程序代碼可-種或多種編程語言 的任何組合來編寫,編程語言包括:面向對象的編程語言,諸如化va、Smallta化、C++等;W 及常規(guī)的過程式編程語言,諸如"C"編程語言或類似的編程語言。程序代碼可W作為獨立的 軟件包完全地在用戶計算機上執(zhí)行、或者部分地在用戶計算機上和部分地在遠程計算機上 執(zhí)行或完全地在遠程計算機或服務器上執(zhí)行。在后者的情形中,遠程計算機可W通過任何 類型的網絡(包括局域網(LAN)或廣域網(WAN))連接到用戶計算機,或者可W連接到外部計 算機(例如,利用互聯(lián)網服務提供商通過互聯(lián)網)。
[0142] 在本文提供的描述中,闡述了許多具體細節(jié)。但是,應該理解,本發(fā)明的實施例可 W在沒有運些具體細節(jié)的情況下實踐。在其它實例中,眾所周知的方法、結構和技術沒有被 詳細示出,W免混淆對本描述的理解。
[0143] 雖然已描述了被認為是本發(fā)明的優(yōu)選實施例的內容,但是本領域技術人員將認識 到,在不脫離本發(fā)明的精神的情況下,可W對其做出其它和進一步的修改,并且意在要求所 有運種變化和修改落入本發(fā)明的范圍之內。例如,W上給出的任何公式僅僅代表可W使用 的過程??蒞從框圖中添加或刪除功能,并且操作可W在功能塊之間互換。在本發(fā)明的范圍 之內可W對所描述的方法添加或刪除步驟。
【主權項】
1. 一種在音頻電話會議混合系統(tǒng)中將多個當前音頻上行傳輸流混合在一起以產生至 少一個音頻輸出流的方法,所述音頻電話會議混合系統(tǒng)是混合第一多個音頻上行傳輸輸入 流以產生用于下行傳輸?shù)街辽僖粋€會議參與者的至少一個音頻下行傳輸輸出流的類型,其 中所述音頻上行傳輸輸入流包含包括被感測到的音頻的音頻信息以及相關聯(lián)的控制信息, 其中所述音頻上行傳輸輸入流潛在地包括連續(xù)傳輸(CTX)流和非連續(xù)傳輸(DTX)流,所述方 法包括以下步驟: (a) 確定指示每個當前音頻上行傳輸流的可能重要性的冗長量度;以及 (b) 當所述當前音頻上行傳輸流中的至少一個包括CTX流時,在混合中利用至少一個 CTX流來產生所述至少一個音頻輸出流。2. 如權利要求1所述的方法,還包括在步驟(b)中利用混合中的具有最高冗長量度的 CTX流來產生至少一個當前下行傳輸輸出流的步驟。3. 如權利要求1所述的方法,其中步驟(b)還包括如下步驟: (i)當存在其上未檢測到語音的輔助CTX流時,在時間上衰減該輔助CTX流。4. 如權利要求3所述的方法,其中步驟(b)還包括如下步驟: (i i)當具有最高冗長量度的當前CTX流未被提供話音長達延長的時間段時,在時間上 衰減該當前CTX流。5. 如任何在前的權利要求所述的方法,還包括如下步驟: (c) 當音頻輸入流的數(shù)量超過預定的限制時,丟棄具有最低冗長量度的CTX流。6. -種在音頻電話會議混合系統(tǒng)中基于多個音頻輸入流產生至少一個音頻輸出流的 方法,所述音頻電話會議混合系統(tǒng)是被配置為混合所述多個音頻輸入流以由此產生用于發(fā) 送到至少一個電話端點的所述至少一個音頻輸出流的類型,所述方法包括: 確定所述多個音頻輸入流包括至少一個被期望包含多于可忽略量的人類可感知的背 景噪聲的、被稱為"攜帶噪聲的音頻輸入流"的音頻輸入流并且所述攜帶噪聲的音頻輸入流 或所述攜帶噪聲的音頻輸入流中的每一個是當前未檢測到語音的音頻流;以及 將所述攜帶噪聲的音頻輸入流或所述攜帶噪聲的音頻輸入流中的至少一個包括在所 述至少一個音頻輸出流中。7. 如權利要求6所述的方法,包括: 確定所述多個音頻輸入流包括多個攜帶噪聲的音頻輸入流并且所述攜帶噪聲的音頻 輸入流中的每一個是其中當前未檢測到語音的音頻流; 針對所述攜帶噪聲的音頻輸入流中的每個攜帶噪聲的音頻輸入流,確定各自的感知重 要性量度; 基于所述攜帶噪聲的音頻輸入流的各自的感知重要性量度,選擇所述攜帶噪聲的音頻 輸入流的子集;以及 將所述攜帶噪聲的音頻輸入流的所述子集包括在所述至少一個音頻輸出流中。8. 如權利要求7所述的方法,包括: 選擇感知重要性量度最高的一個或多個攜帶噪聲的音頻輸入流;以及 將所選擇的攜帶噪聲的音頻輸入流包括在所述至少一個音頻輸出流中。9. 一種在音頻電話會議混合系統(tǒng)中基于多個音頻輸入流產生至少一個音頻輸出流的 方法,所述音頻電話會議混合系統(tǒng)是被配置為混合所述多個音頻輸入流以由此產生用于發(fā) 送到至少一個電話端點的所述至少一個音頻輸出流的類型,所述方法包括: 確定所述多個音頻輸入流包括至少一個被期望包括不多于可忽略量的人類可感知的 背景噪聲的、被稱為"噪聲可忽略的音頻輸入流"的音頻輸入流并且所述噪聲可忽略的音頻 輸入流或所述攜帶噪聲的音頻輸入流中的每一個是其中當前未檢測到語音的音頻流;以及 將所述噪聲可忽略的音頻輸入流或所述噪聲可忽略的音頻輸入流中的至少一個包括 在所述至少一個音頻輸出流中。10. 如權利要求9所述的方法,包括:將所有噪聲可忽略的音頻輸入流都包括在所述至 少一個音頻輸出流中。11. 一種在音頻電話會議混合系統(tǒng)中基于多個音頻輸入流產生至少一個音頻輸出流的 方法,所述音頻電話會議混合系統(tǒng)是被配置為混合所述多個音頻輸入流以由此產生用于發(fā) 送到至少一個電話端點的所述至少一個音頻輸出流的類型,所述方法包括: 確定所述多個音頻輸入流包括多于閾值數(shù)量的其中當前檢測到語音的攜帶噪聲的音 頻輸入流; 針對所述攜帶噪聲的音頻輸入流中的每個攜帶噪聲的音頻輸入流,確定各自的感知重 要性量度; 基于所述攜帶噪聲的音頻輸入流的各自的感知重要性量度,選擇所述攜帶噪聲的音頻 輸入流的子集;以及 將所述攜帶噪聲的音頻輸入流的所述子集包括在所述至少一個音頻輸出流中。12. 如權利要求11所述的方法,包括: 確定所述多個音頻輸入流還包括其中當前檢測到語音的噪聲可忽略的音頻輸入流;以 及 將所述噪聲可忽略的音頻輸入流與所述攜帶噪聲的音頻輸入流的所述子集一起包括 在所述至少一個音頻輸出流中。13. 如權利要求12所述的方法,包括: 確定所述多個音頻輸入流還包括多個其中當前檢測到語音的噪聲可忽略的音頻輸入 流;以及 將所述噪聲可忽略的音頻輸入流與所述攜帶噪聲的音頻輸入流的所述子集一起包括 在所述至少一個音頻輸出流中。14. 如權利要求7或11或者從屬于權利要求7或11的任何在前的權利要求所述的方法, 其中針對音頻輸入流確定感知重要性量度包括指示該音頻輸入流在當前呼叫期間已包括 多少語音的量度。15. 如權利要求6或11或者從屬于權利要求6或11的任何在前的權利要求所述的方法, 其中所述攜帶噪聲的音頻輸入流或所述攜帶噪聲的音頻輸入流中的每一個是連續(xù)傳輸 (CTX)音頻輸入流。16. 如權利要求9或12或者從屬于權利要求9或12的任何在前的權利要求所述的方法, 其中所述噪聲可忽略的音頻輸入流或所述噪聲可忽略的音頻輸入流中的每一個是非連續(xù) 傳輸(DTX)音頻輸入流。17. -種用于在電話會議混合系統(tǒng)中使用的裝置,該裝置被配置為接收多個音頻輸入 流并基于音頻輸入流產生至少一個音頻輸出流,該裝置包括被配置為執(zhí)行以下方法中的至 少一個方法的處理器: 權利要求1至5中任一項所述的方法; 權利要求6至8中任一項或者從屬于權利要求6至8的任何在前的權利要求所述的方法; 權利要求9或10中任一項或者從屬于權利要求9或10的任何在前的權利要求所述的方 法;以及 權利要求11至13中任一項或者從屬于權利要求11至13的任何在前的權利要求所述的 方法。18.-種攜帶計算機可解釋指令的計算機可讀介質,所述計算機可解釋指令當被用于 在電話會議混合系統(tǒng)中使用的裝置的處理器執(zhí)行時,使得該裝置執(zhí)行以下方法中的至少一 個方法,其中該裝置被配置為接收多個音頻輸入流并基于音頻輸入流產生至少一個音頻輸 出流: 權利要求1至5中任一項所述的方法; 權利要求6至8中任一項或者從屬于權利要求6至8的任何在前的權利要求所述的方法; 權利要求9或10中任一項或者從屬于權利要求9或10的任何在前的權利要求所述的方 法;以及 權利要求11至13中任一項或者從屬于權利要求11至13的任何在前的權利要求所述的 方法。
【文檔編號】H04M3/56GK106063238SQ201580010640
【公開日】2016年10月26日
【申請日】2015年2月17日
【發(fā)明人】R·J·卡特萊特
【申請人】杜比實驗室特許公司