專利名稱:用于修改消息的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于修改消息的方法和系統(tǒng),其包括音頻、并且可選地包括視頻內(nèi)容,并且涉及一種消息發(fā)送系統(tǒng)。
背景技術(shù):
由于最近幾十年來在線用戶組和聊天室的發(fā)展,特別是隨著萬維網(wǎng)和互聯(lián)網(wǎng)的快速發(fā)展,消息發(fā)送系統(tǒng)在用戶接受度方面已經(jīng)取得了連續(xù)的增長,其使得用戶能夠通過交換消息而進(jìn)行通信。其它消息發(fā)送系統(tǒng)能夠讓用戶例如通過移動(dòng)電話來發(fā)送消息。
早期的發(fā)消息情況包括用戶通過鍵盤敲入他的消息;和該消息隨后以文字形式出現(xiàn)在目標(biāo)用戶的PC上,隨著消息發(fā)送系統(tǒng)使用增加的有效帶寬來發(fā)送視頻以及音頻消息內(nèi)容,這種情況很快就變得過時(shí)了。敲入消息的一個(gè)優(yōu)點(diǎn)在于使用適當(dāng)?shù)木庉嬈?,可以在?shù)秒內(nèi)容易地編輯或修改這種敲入的文本,直到用戶對該消息滿意為止,而用戶沒有辦法簡單地修改通常以某種數(shù)字形式編碼的音頻和視頻。然而,在記錄了音頻或視頻消息之后,該音頻可能包含具有不理想聲調(diào)或不是所想要意思的詞語,或者該視頻可能包含該用戶最終并不希望發(fā)送的元素。由于編輯該音頻和視頻需要付出驚人高的努力,所以即使包含少量不希望元素的音頻或視頻消息或者只能就這樣發(fā)送,或者將其整個(gè)都丟棄,迫使該用戶重新記錄該消息。音頻和視頻處理都比較復(fù)雜,并且對于部分普通用戶即使要理解基本知識(shí)都需要專業(yè)的努力,而對于最大多數(shù)的用戶而言,是不能獲得專業(yè)的編輯和混合質(zhì)量的。
發(fā)明內(nèi)容
因此,本發(fā)明的目的是提供一種在將包含音頻內(nèi)容的消息最終發(fā)送到接收方之前,對其進(jìn)行簡單并且直觀修改的方法。
為此,本發(fā)明提供一種方法,包括下列步驟將該消息的音頻內(nèi)容轉(zhuǎn)換為文本表示的元素;將該消息的音頻內(nèi)容分割成與該文本表示相關(guān)聯(lián)的成分語音元素;將該文本表示處理成適合編輯的形式;根據(jù)編輯輸入修改該文本表示;和根據(jù)所編輯的該文本表示來改變該音頻內(nèi)容的關(guān)聯(lián)語音元素,從而給出輸出消息的修改音頻內(nèi)容。
一種用于修改輸入消息的適當(dāng)系統(tǒng),包括音頻輸入,用于記錄該輸入消息的音頻內(nèi)容;音頻文本轉(zhuǎn)換器,用于將該輸入消息的音頻內(nèi)容轉(zhuǎn)換為文本表示的元素;音頻分割單元,用于將該輸入消息的音頻內(nèi)容分割成與該文本表示相關(guān)聯(lián)的成分語音元素;再現(xiàn)單元,用于將該文本表示處理成適合編輯的形式;編輯器,用于對該文本表示進(jìn)行編輯;和音頻改變單元,用于根據(jù)所編輯的該文本表示來改變該關(guān)聯(lián)語音元素,從而給出輸出消息的修改音頻內(nèi)容。
于是,本發(fā)明為用戶提供一種產(chǎn)生音頻消息,并且在將該音頻消息發(fā)送到接收方之前對其進(jìn)行任何所需改變的簡易方法,而不需要該用戶必須精通音頻處理技術(shù)。該用戶可以對該原始消息進(jìn)行任何數(shù)目的改變,直到該消息是正確的并且適合于展現(xiàn)而令他滿意為止。
從屬權(quán)利要求以及隨后的描述公開了本發(fā)明特別有利的實(shí)施例和特征。
可以通過使用適當(dāng)?shù)挠涗浹b置將音頻輸入消息記錄或捕捉到例如該用戶所使用的與轉(zhuǎn)換器連接的麥克風(fēng)中,該轉(zhuǎn)換器中的自動(dòng)語音識(shí)別單元標(biāo)識(shí)該輸入消息的音頻內(nèi)容并將其轉(zhuǎn)換為數(shù)字文本表示。可以給出該文本表示的元素的值,其例如通過使用計(jì)數(shù)器或一種時(shí)鐘按照時(shí)間順序標(biāo)記耗用時(shí)間,從而唯一地標(biāo)識(shí)出該文本表示在該音頻內(nèi)容中的相對位置。
該音頻內(nèi)容的成分語音元素可以是完整的詞語、詞語組、和句子片斷、音節(jié)、或者甚至是音素。音頻分割單元例如通過應(yīng)用適當(dāng)?shù)乃惴ê?或?yàn)V波器將該音頻內(nèi)容縮減到其成分語音元素。
在該分割處理期間,通過也為各個(gè)語音元素分配值來按照時(shí)間順序標(biāo)記耗用時(shí)間,可以容易地在文本表示元素與該音頻內(nèi)容的語音元素之間建立關(guān)聯(lián)或等效性。通過這種方式,語音元素及其對應(yīng)的文本表示元素根據(jù)它們的匹配或?qū)?yīng)的時(shí)間值可以被定位或標(biāo)識(shí)。該時(shí)間值可以是直接插入到該文本表示中或插入到該音頻內(nèi)容中的某些類型的標(biāo)記或標(biāo)識(shí),或者可以參照該文本表示或音頻內(nèi)容中適當(dāng)?shù)狞c(diǎn)將該時(shí)間值收集在列表中。
為了使用戶能夠檢查對該音頻內(nèi)容是否滿意,將其以一種適合編輯的形式提供給該用戶。為此,可以通過語音合成器將該音頻內(nèi)容的文本表示再處理成為聲音,并通過揚(yáng)聲器、耳機(jī)等播放給該用戶。優(yōu)選地,在將該音頻內(nèi)容處理成為文本形式之后,該用戶可以在顯示單元上查看該音頻內(nèi)容,從而可以在顯示單元,諸如在個(gè)人計(jì)算機(jī)屏幕、移動(dòng)電話顯示器、TV屏幕等上顯示該文本表示。該用戶可以用語言對該文本表示進(jìn)行改變,諸如通過將編輯命令語音輸入到麥克風(fēng)中。隨后可以通過適當(dāng)?shù)恼Z音解釋單元將該口述編輯命令轉(zhuǎn)換為對應(yīng)的編輯命令。相應(yīng)地,可以通過例如鍵盤或小鍵盤來敲入它們而對該文本表示進(jìn)行改變。該語音解釋單元和/或顯示單元優(yōu)選地通過某種方式與該編輯器連接,從而該用戶在編輯的時(shí)候可以觀察該文本表示的文本。隨后根據(jù)該文本表示中的變化,在該音頻改變單元中修改該音頻內(nèi)容的語音元素。
優(yōu)選地在發(fā)出該消息之前,通過適當(dāng)?shù)囊纛l輸出,例如通過揚(yáng)聲器或耳機(jī)將所修改的該音頻內(nèi)容播放給該用戶。該用戶可以聽到所修改的音頻內(nèi)容,并決定對其是否滿意,如果不滿意,則在最終發(fā)送該消息之前需要對該文本表示進(jìn)行進(jìn)一步的改變。
可以使用該裝置的顯示單元,在該個(gè)人計(jì)算機(jī)、移動(dòng)電話、家庭娛樂裝置等中包括用于編輯該文本表示的該編輯器。該用戶可以通過重新設(shè)置、刪除或拷貝該文本表示的元素來對該文本表示的文本進(jìn)行改變。然后通過對應(yīng)的方式在該音頻內(nèi)容的語音元素中做出這些改變。例如,如果已經(jīng)從該文本表示中刪除了文本元素,那么通過其時(shí)間標(biāo)記來標(biāo)識(shí)的該對應(yīng)的語音元素也將被刪除。如果已經(jīng)將文本元素移動(dòng)到該文本表示中的不同位置,那么也將該對應(yīng)的語音元素從其初始位置移開并插入到對應(yīng)于該文本表示中的變化的不同位置中。
該用戶甚至可以在該文本表示中插入原來不存在的新詞語或多個(gè)詞語。在這種情況下,通過該編輯器以適當(dāng)?shù)姆绞綐?biāo)記該新詞語。該音頻改變單元可以檢查在詞語庫或數(shù)據(jù)庫中是否已經(jīng)有該詞語,或者檢查該詞語的成分音素是否已經(jīng)在該音頻內(nèi)容中,該音頻改變單元可以通過按照正確的順序?qū)⒃摮煞忠羲胤旁谝黄饋斫M織詞語。
除了在該文本表示中僅僅刪除或重新設(shè)置文本元素之外,該用戶可以將標(biāo)記插入到該文本中,以標(biāo)識(shí)在該對應(yīng)的語音元素中所要做出的某種類型的改變。例如,可以在詞語之前和之后插入特殊字符,諸如插入感嘆號(hào),指示該詞語在該音頻內(nèi)容中需要更大聲??商鎿Q地,該用戶可以改變詞語的字體,從而例如該文本表示中改變?yōu)樾斌w的詞語或多個(gè)詞語在該音頻內(nèi)容中更小聲。其它類型的改變可以包括改變說話者的聲音質(zhì)量,例如將說話者的聲音從男聲改變?yōu)榕暎蛘呦喾?,或者對該聲音?yīng)用不同的說話者特征。然后在該文本表示中以適合于通過該音頻改變單元來解釋的形式將這些標(biāo)記編碼為命令或注釋。
該音頻改變單元解釋該文本表示中的這些改變,并在該相關(guān)語音元素中做出所需要的改變。可以改變該語音元素,例如使得詞語更大聲或更小聲,或者改變該詞語的重音。這可以通過對該語音元素應(yīng)用適當(dāng)?shù)臑V波器或功能,通過改變該語音元素的適當(dāng)特征來完成,諸如音調(diào)。
所有這些改變都可以通過應(yīng)用熟知的音頻處理技術(shù)來完成,其可以包括在計(jì)算機(jī)程序中或存儲(chǔ)在音頻處理功能或算法的匯集或數(shù)據(jù)庫中。所修改的該文本表示中的該標(biāo)記可以用來自動(dòng)地檢索或激活適當(dāng)?shù)乃惴ɑ蚬δ堋?br>
在本發(fā)明的優(yōu)選實(shí)施例中,該用戶可以指定該分割的粒度,例如通過向該系統(tǒng)輸入適當(dāng)?shù)拿?。對于聊天組中需要交換的消息,該音頻質(zhì)量并不需要非常高級(jí),粗粒度就足夠了。在其它應(yīng)用中,諸如準(zhǔn)備報(bào)告、演講或需要以高質(zhì)量音頻發(fā)送的通告,可以指定精細(xì)粒度,以能夠在該音頻內(nèi)容中做出詳細(xì)的改正。更高的粒度值可以得到更好的音頻處理質(zhì)量,并需要相關(guān)的更多的努力。
在本發(fā)明的特定優(yōu)選實(shí)施例中,對所改變的音頻內(nèi)容應(yīng)用音頻平滑技術(shù),以確保相鄰語音元素之間的平滑過渡,因?yàn)橥ㄟ^重新設(shè)置該音頻內(nèi)容的語音元素或改變它們的特征對它們做出的改變可能導(dǎo)致聽起來不平坦的或者尖刺的音頻內(nèi)容。
本發(fā)明也允許對包括視頻內(nèi)容的消息進(jìn)行處理,在這種情況下,該修改輸入消息的方法包括將該消息的視頻內(nèi)容分割成與該文本表示關(guān)聯(lián)的對應(yīng)幀段、或幀序列,以及適當(dāng)?shù)馗鶕?jù)該音頻內(nèi)容的所編輯的該文本表示或者所改變的語音元素改變該視頻內(nèi)容的相關(guān)幀段,從而給出輸出消息的修改的視頻內(nèi)容。
幀段應(yīng)該理解為與對應(yīng)的文本元素相關(guān)的多個(gè)接續(xù)幀。通過與所述類似的方式,在該視頻分割處理期間,也將按照時(shí)間順序標(biāo)記耗用時(shí)間的值分配給該幀序列,通過這種方式使得可以根據(jù)其時(shí)間值來定位或標(biāo)識(shí)幀序列??梢詫蛄信c其對應(yīng)的文本表示元素匹配,或者等同地與對應(yīng)的該音頻段匹配。通過這種方式,可以容易地在該視頻內(nèi)容的幀序列與該文本表示元素和/或該音頻段之間建立關(guān)聯(lián)或等效性。也可以通過該分割處理的粒度來確定幀序列的長度。
通過執(zhí)行適當(dāng)?shù)母淖冊谠撘曨l內(nèi)容中反映該文本表示中所進(jìn)行的編輯。如果該用戶已經(jīng)刪除或重新設(shè)置了該文本表示的某些元素,那么借助于該時(shí)間值定位對應(yīng)的該視頻幀序列并按照要求刪除或重新設(shè)置其。插入到該文本表示中的某些標(biāo)記可能對該視頻內(nèi)容沒有影響,例如該說話者聲音的聲音特征做出的改變并不必要求該視頻內(nèi)容的任何修改。然而,某些類型的標(biāo)記可以解釋用來改變該視頻內(nèi)容,從而引入特殊效應(yīng),諸如頻閃(strobe)、閃動(dòng)或反色。例如,如果已經(jīng)通過某種方式標(biāo)記了該文本表示中的詞語或多個(gè)詞語,諸如通過下劃線或?qū)⑵浒ㄔ诟袊@號(hào)之間,對應(yīng)的該語音元素可以更大聲,并且可以修改對應(yīng)的該視頻幀序列,以包括頻閃或閃燈效應(yīng)。
一種用于修改包含視頻內(nèi)容的消息的適當(dāng)系統(tǒng)包括視頻輸入,諸如網(wǎng)絡(luò)攝影機(jī)、集成有相機(jī)的移動(dòng)電話、攝像機(jī)等,用于記錄該輸入消息的視頻內(nèi)容。在視頻分割單元中將該消息的視頻內(nèi)容分解或分割成與該文本表示的元素關(guān)聯(lián)的幀段,并且在視頻改變單元中根據(jù)該文本表示的修改來改變該視頻內(nèi)容,以給出輸出消息的修改的視頻內(nèi)容。然后在音頻/視頻重組單元中重組該消息的音頻和視頻內(nèi)容,以給出輸出消息。
優(yōu)選地可以使用諸如顯示器或TV屏幕的視頻輸出來播放該輸出消息的修改的該視頻內(nèi)容。
在本發(fā)明特別優(yōu)選的實(shí)施例中,對所修改的該視頻內(nèi)容應(yīng)用視頻平滑技術(shù),諸如濾波或漸變,以給出所修改的該視頻內(nèi)容中接續(xù)幀段之間的平滑過渡。
可以應(yīng)用該方法來產(chǎn)生和編輯任何類型的消息,其中通常需要對該原版進(jìn)行改進(jìn),諸如應(yīng)答機(jī)上的消息、公共地址系統(tǒng)上用于播放的消息、音頻視頻通告等。所描述的該方法在用于發(fā)送消息的消息發(fā)送系統(tǒng)中特別有用,諸如用于如此前所提到的通過互聯(lián)網(wǎng)或在通信網(wǎng)絡(luò)上的可視音頻聊天組。
一種用于組織和發(fā)送消息的適當(dāng)方法,包括捕獲輸入消息的音頻以及可選的視頻內(nèi)容,通過使用上面所描述的方法改變該輸入消息的音頻和/或視頻內(nèi)容,以給出輸出消息,將該輸出消息播放給該用戶,以對改正進(jìn)行確認(rèn),以及在該用戶已經(jīng)確認(rèn)其正確性之后發(fā)送該輸出消息。
一種根據(jù)本方法的用于組織和發(fā)送消息的消息發(fā)送系統(tǒng)因此包括音頻輸入,用于記錄該輸入消息的音頻內(nèi)容,并且可選地有視頻輸入,用于記錄該輸入消息的視頻內(nèi)容;改變單元,用于通過使用上面所描述的方法改變該輸入消息的音頻和可選的視頻內(nèi)容,以給出修改的輸出消息;音頻輸出和可選的視頻輸出,用于將該輸出消息的修改內(nèi)容播放給該用戶,以對改正進(jìn)行確認(rèn);和發(fā)送單元,用于在該用戶已經(jīng)確認(rèn)其正確性之后發(fā)送該輸出消息。
本發(fā)明的優(yōu)選特征包括計(jì)算機(jī)程序產(chǎn)品,用于執(zhí)行改變輸入消息中所包含的所有步驟,即用于修改消息的該系統(tǒng)(消息修改系統(tǒng))的大多數(shù)或全部組件,諸如語音文本轉(zhuǎn)換器,通過軟件和/或硬件模塊的形式實(shí)施音頻分割、視頻分割、音頻改變、視頻改變、重組等。任何所需要的軟件可以都可以在該消息修改系統(tǒng)的處理器上被編碼,或者在單獨(dú)的處理器上被編碼,使得現(xiàn)存的消息修改系統(tǒng)可以適合于從本發(fā)明的特征受益。該消息修改系統(tǒng)可以與用于組織或處理消息的任何系統(tǒng)或裝置連接,或者是其一部分,例如消息發(fā)送系統(tǒng)、應(yīng)答機(jī)等。
結(jié)合附圖,從下面的詳細(xì)描述可以清楚看到本發(fā)明的其它目的和特征。然而要理解的是,附圖僅僅是為了說明而設(shè)計(jì)的,其并不作為本發(fā)明范圍的限定。
圖1為根據(jù)本發(fā)明實(shí)施例的用于修改輸入消息的系統(tǒng)的方框圖。
圖2a至2d為根據(jù)本發(fā)明實(shí)施例的消息的幀段以及所記錄的聲音波形的圖形表示。
具體實(shí)施例方式
在下面附圖的描述中,其并不排除本發(fā)明的其它可能實(shí)施方式,用于修改輸入消息的該系統(tǒng)示出為消息發(fā)送系統(tǒng)的一部分,其可以包括在任何適當(dāng)?shù)目梢曇纛l裝置中,例如家庭娛樂系統(tǒng)、PC、TV、移動(dòng)電話、多媒體裝置等,其包括與任何合適的通信網(wǎng)絡(luò)的適當(dāng)接口。該系統(tǒng)包括用于解釋由用戶所發(fā)出的命令的用戶接口14,包括鍵盤22或小鍵盤、鼠標(biāo)23、屏幕8和揚(yáng)聲器20。該聲音波形和幀段的圖形表示并不是準(zhǔn)確再現(xiàn),而僅僅是用于說明。
在圖1中示出的消息發(fā)送系統(tǒng)1中,用戶(在該圖中未示出)在將消息,例如“Hi,ehm,I am John”說送到麥克風(fēng)2中的時(shí)候被攝像機(jī)3攝像。該攝像機(jī)3和麥克風(fēng)2分別將該視頻內(nèi)容V和音頻內(nèi)容A傳送到捕獲單元4,其中執(zhí)行任何所需要的處理,以記錄該音頻內(nèi)容A和視頻內(nèi)容V,并將其以數(shù)字形式包括到輸入消息IM中,諸如MPEG2和MPEG4。圖2a中以簡化形式圖示了對應(yīng)于該音頻內(nèi)容A的聲音波形以及一系列對應(yīng)于該視頻內(nèi)容V的幀序列。
將該數(shù)字化的輸入消息IM傳送到轉(zhuǎn)換器單元5、音頻分割單元6以及視頻分割單元7,它們分別提取該相關(guān)的輸入流A或V。所有這些方框5、6、7都包含以普通方式連接的同步塊15、16、17,在圖中未示出。每一同步塊15、16、17能夠通過例如數(shù)字時(shí)鐘或計(jì)數(shù)器測量時(shí)間。在該實(shí)施例中,該捕獲單元4通過適當(dāng)?shù)牧銟?biāo)記或起始時(shí)間標(biāo)記該消息IM的起點(diǎn),該同步塊15、16、17參照其來測量時(shí)間流失。而且,該轉(zhuǎn)換器5的同步塊15能夠向其它同步塊16、17發(fā)送適當(dāng)?shù)男盘?hào)。
在該轉(zhuǎn)換器5中,對該輸入消息IM的音頻內(nèi)容應(yīng)用語音識(shí)別算法以得到該文本表示TR。該塊因此此后稱作為語音處理單元。通過諸如ASCII的形式編碼該文本表示TR,并將其分割成其成分文本元素。由該用戶通過適當(dāng)?shù)妮斎胪ㄟ^該用戶接口指定該元素的大小或復(fù)雜度,即詞語組、單個(gè)詞語、音節(jié)或音素。使用對照該起始時(shí)間所測量的時(shí)間值來標(biāo)記每一文本元素,使得每一文本元素于是通過該文本表示TR中其時(shí)間順序位置被唯一定義。標(biāo)記文本元素的操作是一個(gè)事件,由該語音處理單元5的同步塊15將該事件分別報(bào)告給該音頻分割單元6和該視頻分割單元7的同步塊16、17。
該音頻分割單元6通過在該音頻內(nèi)容A的適當(dāng)位置放置標(biāo)記M來響應(yīng)所報(bào)告的該事件,從而給出由語音元素As組成的分割的音頻內(nèi)容,如圖2b中所圖示。通過這種方式,在該語音處理單元5中所標(biāo)識(shí)的該輸入消息IM的每一文本元素可以與該輸入消息IM的分割的音頻內(nèi)容中的音素As和聲音元素As匹配。類似地,該視頻分割單元7響應(yīng)于該語音處理單元5的同步塊15所報(bào)告給其同步塊17的事件,在該視頻內(nèi)容V中放置標(biāo)記,從而給出由幀段Vs組成的分割的視頻內(nèi)容,也如圖2b中所圖示,能夠?qū)⒃撘纛l內(nèi)容As的段或該文本表示的文本元素與該分割的視頻內(nèi)容中對應(yīng)的幀序列Vs匹配。
該消息發(fā)送系統(tǒng)1使得該用戶在發(fā)送消息之前對其進(jìn)行改變。為此,以適合于通過該編輯器9進(jìn)行編輯的形式顯示該文本表示TR。在該范例中,該用戶可以在顯示單元8,諸如在個(gè)人計(jì)算機(jī)的屏幕上查看該消息IM的文本“Hi ehm I am John”,并且其可以編輯該文本表示TR,從而得到所想要的改變。在該范例中,該用戶刪除“ehm”,重新設(shè)置詞語,并通過將詞語“John”包括在感嘆號(hào)之間來改變其重音,于是就產(chǎn)生了“Hi!John!I am”。該編輯輸入通過編輯器9在該文本表示中進(jìn)行編碼,可能是命令或注釋的形式,使得在該文本表示TR的適當(dāng)位置中插入諸如感嘆號(hào)標(biāo)記的特殊字符,并且根據(jù)該用戶所做出的改變重新設(shè)置或改變該文本表示TR的元素。
將所修改的該文本表示TR’傳送到音頻改變塊10,其中解釋該改變并計(jì)算對該分割的音頻內(nèi)容的語音元素As需要做出的任何重新設(shè)置,如圖2c中所圖示。例如在已經(jīng)從該文本表示中刪除元素的情況下,例如該范例中的“ehm”,借助于在所修改的該文本表示TR’中所編碼的時(shí)間值和任何命令或注釋來定位對應(yīng)的語音元素,并將其從該分割的音頻內(nèi)容As中刪除。對應(yīng)于已經(jīng)從其初始位置移動(dòng)到新位置的元素的該語音元素,諸如本范例中的“John”,可以從該分割的音頻內(nèi)容As中其初始位置移動(dòng)并將其插入到該適當(dāng)?shù)奈恢弥?。環(huán)繞元素“John”的特殊字符在本例子中是感嘆號(hào),其被解釋表示對應(yīng)的語音元素的音量需要增加。例如可以通過對該音頻段應(yīng)用適當(dāng)?shù)臑V波器或放大器來實(shí)現(xiàn)這一點(diǎn)。
圖2d中所示為修改的音頻內(nèi)容的信號(hào)。該音頻段當(dāng)被重新設(shè)置以對應(yīng)于所修改的文本表示TR’時(shí),現(xiàn)在可能遇到由于該修改過程而出現(xiàn)的尖刺過渡或失真。為了確保所修改的音頻內(nèi)容A’聽起來舒服,需要在音頻平滑單元18中對重新設(shè)置的音頻段應(yīng)用音頻平滑技術(shù)。
在視頻改變塊11中,將修改的該文本表示TR’中的改變通過類似于音頻改變的方式傳送到該分割的視頻內(nèi)容,其中已經(jīng)從該文本表示中刪除了元素,諸如該范例中的“ehm”,借助于在所修改的該文本表示TR’中所編碼的時(shí)間值和任何命令或注釋來定位對應(yīng)的該視頻幀序列Vs,并將其從該分割的視頻內(nèi)容Vs中刪除。對應(yīng)于已經(jīng)從其初始位置移動(dòng)到新位置的元素的該視頻幀序列,諸如本范例中的“John”,可以從該分割的視頻內(nèi)容Vs中其初始位置移動(dòng),并再次將其插入到適當(dāng)?shù)奈恢弥?。重新設(shè)置該視頻幀序列的結(jié)果也如圖2d中所圖示??梢酝ㄟ^具體視頻效應(yīng),諸如閃燈效應(yīng)或頻閃來實(shí)現(xiàn)對該元素“John”的音量的改變。如果這是所想要的,該視頻改變就在該分割的視頻內(nèi)容Vs中對應(yīng)的幀序列期間引入特殊的效應(yīng)。該視頻幀序列當(dāng)被重新設(shè)置或改變以對應(yīng)于所修改的文本表示TR’時(shí),現(xiàn)在可能遇到突然的和不自然的過渡。為了處理這種效應(yīng),可以按照要求在視頻平滑塊19中對該視頻幀序列應(yīng)用視頻平滑技術(shù),從而給出修改的視頻內(nèi)容V’。
該視頻改變單元優(yōu)選地也可以配備有適當(dāng)?shù)乃惴ê吞幚砑夹g(shù),以根據(jù)該文本表示中的變化來改變該視頻內(nèi)容中的人的面部表情。通過這種方式,指示面部表情的標(biāo)記,諸如“微笑”或“皺眉”可以使得將該說話者的面部改變到微笑或看起來煩惱的樣子,這取決于該標(biāo)記。
在重組塊12中,將所修改的音頻和視頻內(nèi)容A’、V’重組,以給出輸出消息OM。為了使該用戶能夠查看所修改的消息,通過在該屏幕8上顯示該視頻內(nèi)容對其進(jìn)行可視化地顯示,并且通過在該用戶接口14的揚(yáng)聲器12上播放該音頻內(nèi)容對其進(jìn)行可聽地展示。同時(shí),通過該編輯器9顯示該對應(yīng)的文本,從而使得如果需要,該用戶可以進(jìn)一步對該輸出消息OM的文本進(jìn)行任何改變。
例如,他可能希望在該文本中插入新詞語,從而使得該消息為“HiJohn I am done”。在這種修改的情況下,其中向該文本表示中引入了沒有被匹配語音元素伴隨的新元素,該音頻改變單元10可以從數(shù)據(jù)庫21中檢索適當(dāng)?shù)恼Z音元素??梢允褂脧南惹跋⒅锌截惖恼Z音元素的采樣按時(shí)間組織這種數(shù)據(jù)庫21??商鎿Q地,該語音處理單元的特征可以是具有語音合成器,用于從文本產(chǎn)生語音信號(hào)。在該視頻內(nèi)容的情況下,該視頻改變單元11可以簡單地復(fù)制該視頻內(nèi)容的適當(dāng)幀,并且將它們變形成為該現(xiàn)存的視頻幀序列Vs。在該重組單元12中將該音頻改變單元10和該視頻改變單元11的輸出進(jìn)行重組,并再次將其提供給該用戶用于確認(rèn)。
一旦該用戶確認(rèn)對該輸出消息OM滿意,那么就通過發(fā)送單元13將該消息0M發(fā)送到其目的地。該單元例如可以是視頻聊天應(yīng)用或電子郵件應(yīng)用。
雖然通過優(yōu)選實(shí)施例以及其變體的形式對本發(fā)明進(jìn)行了描述,但是要理解的是,不脫離本發(fā)明的范圍可以做出許多另外的修改和變化。例如可以按照需要,通過從互聯(lián)網(wǎng)上下載新的信息或算法,來更新或替換音頻/視頻改變單元所使用的數(shù)據(jù)庫或算法。通過這種方式,消息發(fā)送系統(tǒng)可以利用當(dāng)前的大多數(shù)音頻和視頻處理技術(shù)。
該消息發(fā)送系統(tǒng)可以利用化身模擬技術(shù)中的發(fā)展來提供伴隨有音頻消息的視頻,而不必實(shí)際地拍攝他講話。該化身可以類似于該用戶,或具有不同的外貌,并且可以出現(xiàn)在特定背景的前面,或者該用戶可以通過相機(jī)所拍攝的圖片或從外部資源下載的圖像來提供特定的背景圖片。為了清楚簡明,需要理解的是,通篇該申請中所使用的不定冠詞“一個(gè)”并不排除有多個(gè)步驟或元素,并且所使用的動(dòng)詞“包括”及其詞性變化并不排除其它步驟或元素。所使用的詞語“單元”或“模塊”并不限制實(shí)現(xiàn)為單個(gè)單元或模塊。
權(quán)利要求
1.一種修改包含音頻內(nèi)容的輸入消息(IM)的方法,該方法包括步驟將該輸入消息(IM)的音頻內(nèi)容(A)轉(zhuǎn)換為文本表示(TR)的元素;將該輸入消息(IM)的音頻內(nèi)容(A)分割成與該文本表示(TR)相關(guān)聯(lián)的成分語音元素(As);將該文本表示(TR)處理成適合編輯的形式;根據(jù)編輯輸入修改該文本表示(TR);和根據(jù)所編輯的文本表示(TR’)來改變該音頻內(nèi)容(A)的關(guān)聯(lián)語音元素(As),從而給出輸出消息(OM)的修改的音頻內(nèi)容(A’)。
2.根據(jù)權(quán)利要求1的方法,其中對文本表示(TR)進(jìn)行編輯包括插入、復(fù)制、刪除或重新設(shè)置該文本表示(TR)中的元素,從而給出修改的文本表示(TR’)。
3.根據(jù)權(quán)利要求2的方法,其中改變音頻內(nèi)容(A)的語音元素(As)包括復(fù)制、刪除或重新設(shè)置該音頻內(nèi)容(A)的段和/或?qū)⒄Z音元素插入到該音頻內(nèi)容中。
4.根據(jù)權(quán)利要求1或2的方法,其中編輯文本表示(TR)包括在該文本表示(TR)中的特定位置處插入標(biāo)記,從而給出所修改的文本表示(TR’)。
5.根據(jù)前述任何一個(gè)權(quán)利要求的方法,其中改變音頻內(nèi)容(A)的語音元素(As)包括改變該語音元素(As)的特征。
6.根據(jù)前述任何一個(gè)權(quán)利要求的方法,其中對所修改的音頻內(nèi)容(A’)應(yīng)用音頻平滑技術(shù),從而給出相鄰語音元素之間的平滑過渡。
7.根據(jù)權(quán)利要求1至6的任何一個(gè)的方法,其中輸入消息(IM)包含對應(yīng)的視頻內(nèi)容(V),并且該方法包括步驟將該輸入消息(IM)的視頻內(nèi)容(V)分割成與文本表示(TR)關(guān)聯(lián)的對應(yīng)幀段(Vs);和根據(jù)音頻內(nèi)容(A)的所編輯的文本表示(TR’)或所改變的語音元素(A’)來改變該視頻內(nèi)容(V)的關(guān)聯(lián)幀段(Vs),從而給出輸出消息(OM)的修改的視頻內(nèi)容(V’)。
8.根據(jù)權(quán)利要求7的方法,其中對所修改的視頻內(nèi)容(V’)應(yīng)用視頻平滑技術(shù),從而給出所修改的視頻內(nèi)容(V’)中的接續(xù)幀段之間的平滑過渡。
9.一種組織和發(fā)送消息的方法,該方法包括步驟捕獲輸入消息(IM)的音頻和可選的視頻內(nèi)容(A,V),通過使用權(quán)利要求1至8的任何一個(gè)中的方法來改變該輸入消息(IM)的音頻和可選的視頻內(nèi)容(A,V),以給出輸出消息(OM),將該輸出消息(OM)播放給該用戶,以對改正進(jìn)行確認(rèn);和在該用戶已經(jīng)確認(rèn)其正確性之后發(fā)送輸出消息(OM)。
10.一種用于修改輸入消息(IM)的系統(tǒng)(1),包括音頻輸入(2),用于記錄輸入消息(IM)的音頻內(nèi)容(A);轉(zhuǎn)換器(5),用于將輸入消息(IM)的音頻內(nèi)容(A)轉(zhuǎn)換為文本表示(TR)的元素;音頻分割單元(6),用于將輸入消息(IM)的音頻內(nèi)容(A)分割成與文本表示(TR)關(guān)聯(lián)的成分語音元素(As);再現(xiàn)單元(8),用于將該文本表示(TR)處理成適合編輯的形式;編輯器(9),用于對文本表示(TR)進(jìn)行編輯;和音頻改變單元(10),用于根據(jù)所編輯的文本表示(TR’)來改變關(guān)聯(lián)語音元素(As),從而給出輸出消息(OM)的修改的音頻內(nèi)容(A’)。
11.根據(jù)權(quán)利要求10的系統(tǒng),包括視頻輸入(3),用于記錄輸入消息(IM)的視頻內(nèi)容(V);視頻分割單元(7),用于將輸入消息(IM)的視頻內(nèi)容(V)分割成與文本表示(TR)關(guān)聯(lián)的對應(yīng)幀段(Vs);視頻改變單元(11),用于根據(jù)音頻內(nèi)容(A)的所修改的文本表示(TR’)或所改變的語音元素(A’)來改變視頻內(nèi)容(V)的關(guān)聯(lián)幀段(Vs),從而給出輸出消息(OM)的修改的視頻內(nèi)容(V’);和音頻/視頻重組單元(12),用于重組音頻和視頻內(nèi)容(A’,V’),以給出輸出消息(OM)。
12.一種用于組織和發(fā)送消息的消息發(fā)送系統(tǒng)(1),包括音頻輸入(2),用于記錄輸入消息(IM)的音頻內(nèi)容(A),和可選的視頻輸入(3),用于記錄輸入消息(IM)的視頻內(nèi)容(V);改變單元(10,11),用于通過使用權(quán)利要求1至8中的任何一個(gè)中的方法來改變輸入消息(IM)的音頻和可選的視頻內(nèi)容(A,V),以給出修改的輸出消息(OM’);音頻輸出(20)和可選的視頻輸出(8),用于將輸出消息(OM)的修改的內(nèi)容(A’,V’)播放給用戶,以對改正進(jìn)行確認(rèn);和發(fā)送單元(13),用于在該用戶已經(jīng)確認(rèn)其正確性之后發(fā)送輸出消息(OM)。
13.一種可以直接裝載到可編程的消息修改系統(tǒng)(1)的存儲(chǔ)器中的計(jì)算機(jī)程序產(chǎn)品,包括軟件代碼部分,當(dāng)在該消息修改系統(tǒng)(1)上運(yùn)行所述產(chǎn)品時(shí),其用于執(zhí)行權(quán)利要求1至9中任何一個(gè)所要求的方法的步驟。
全文摘要
本發(fā)明描述了一種用于修改包含音頻內(nèi)容的輸入消息(IM)的方法和系統(tǒng),該方法包括步驟將輸入消息(IM)的音頻內(nèi)容(A)轉(zhuǎn)換為文本表示(TR)的元素;將輸入消息(IM)的音頻內(nèi)容(A)分割成與文本表示(TR)關(guān)聯(lián)的成分語音元素(As);根據(jù)編輯輸入將文本表示(TR)處理成適合編輯文本表示(TR)的形式;和根據(jù)所編輯的文本表示(TR’)改變音頻內(nèi)容(A)的關(guān)聯(lián)語音元素(As),從而給出輸出消息(OM)的修改的音頻內(nèi)容(A’)。
文檔編號(hào)G10L13/08GK1961350SQ200580017204
公開日2007年5月9日 申請日期2005年5月17日 優(yōu)先權(quán)日2004年5月27日
發(fā)明者P·賓格利, M·博德拉恩德, N·謝林杰豪特 申請人:皇家飛利浦電子股份有限公司