專利名稱:實現(xiàn)視頻會議中提詞的方法以及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信技術(shù)領(lǐng)域,具體涉及實現(xiàn)視頻會議中提詞的方法以及裝置。
技術(shù)背景
隨著用戶需求的演變和視頻會議技術(shù)的發(fā)展,視頻會議技術(shù)已經(jīng)越來越廣泛的應(yīng) 用在學術(shù)交流,遠程教育、商務(wù)磋商、峰會論壇等多種場景。
在很多場景下,參與會議的發(fā)言者可能都需要基于一定的發(fā)言稿來進行相應(yīng)發(fā) 言。為使得發(fā)言者無須低頭看發(fā)言稿,而直接面對攝像頭發(fā)言,以增強與遠端與會人員的會 議交流,現(xiàn)有的很多會議系統(tǒng)都考慮到為發(fā)言人提供提詞的功能。
現(xiàn)有技術(shù)中較常用的提詞功能的實現(xiàn)方式是,部署專用提詞設(shè)備(包含一臺專門 顯示提詞信息的顯示器)為與會者提詞,會議終端通過軟件控制提詞設(shè)備實時提詞。
實踐發(fā)現(xiàn),現(xiàn)有利用專用提詞設(shè)備進行提詞的技術(shù)中,需增加額外的硬件和配套 軟件來實現(xiàn)提詞,其實現(xiàn)成本相對較高,管理相對較復雜,功能擴展也相對較差;且提詞的 顯示器的安裝位置直接影響提詞效果,使會場部署受到諸多的限制。發(fā)明內(nèi)容
本發(fā)明實施例提供實現(xiàn)視頻會議中提詞的方法以及裝置,以降低視頻會議中提詞 功能的實現(xiàn)成本和復雜度,提高會場部署靈活性。
為解決上述技術(shù)問題,本發(fā)明實施例提供以下技術(shù)方案
一種實現(xiàn)視頻會議中提詞的方法,包括
視頻會議終端獲取至少一個提詞字幕圖片;
對所述至少一個提詞字幕圖片進行編輯處理,并按照指定的圖片顯示順序?qū)⒔?jīng)過 編輯處理的所述提詞字幕圖片緩存到所述視頻會議終端的顯存中;
接收提詞指令;
根據(jù)所述提詞指令,在所述視頻會議終端顯示的遠端會議視頻的指定區(qū)域,按照 顯存中指定的圖片顯示順序,滾動顯示經(jīng)過編輯處理的所述提詞字幕圖片。
一種實現(xiàn)視頻會議中提詞的方法,包括
視頻會議終端獲取提詞字幕文件;
接收提詞指令;
采樣發(fā)言者音頻;
對所述采樣的發(fā)言者音頻進行語音識別,獲得與采樣的所述發(fā)言者音頻對應(yīng)的文 字信息;
將獲得的與采樣的所述發(fā)言者音頻對應(yīng)的文字信息,與提詞字幕文件包含的提詞 字幕信息進行匹配;
根據(jù)匹配結(jié)果,在所述視頻會議終端顯示的遠端會議視頻的指定區(qū)域,顯示所述 提詞字幕文件包含的提詞字幕信息中,與當前采樣的所述發(fā)言者音頻對應(yīng)的文字信息相匹配部分的下一部分提詞字幕信息。
一種視頻會議終端,包括
獲取模塊,用于獲取至少一個提詞字幕圖片;
處理緩存模塊,用于對所述獲取模塊獲取的至少一個提詞字幕圖片進行編輯處 理,并按照指定的圖片顯示順序?qū)⒔?jīng)過編輯處理的所述提詞字幕圖片緩存到所述視頻會議 終端顯存中;
接收模塊,用于接收提詞指令;
滾動顯示模塊,用于根據(jù)所述接收模塊接收的提詞指令,在所述視頻會議終端顯 示的遠端會議視頻的指定區(qū)域,按照顯存中指定的圖片顯示順序,滾動顯示經(jīng)過編輯處理 的所述提詞字幕圖片。
一種視頻會議終端,包括
第二獲取模塊,用于獲取提詞字幕文件;
接收模塊,用于接收提詞指令;
采樣模塊,用于采樣發(fā)言者音頻;
語音識別模塊,用于對所述采樣模塊采樣的發(fā)言者音頻進行語音識別,獲得與采 樣的所述發(fā)言者音頻對應(yīng)的文字信息;
匹配模塊,用于將所述語音識別模塊獲得的與采樣的所述發(fā)言者音頻對應(yīng)的文字 信息,與提詞字幕文件包含的提詞字幕信息進行匹配;
顯示控制模塊,用于根據(jù)所述匹配模塊的匹配結(jié)果,在所述視頻會議終端顯示的 遠端會議視頻的指定區(qū)域,顯示所述提詞字幕文件包含的提詞字幕信息中,與當前采樣的 所述發(fā)言者音頻對應(yīng)的文字信息相匹配部分的下一部分提詞字幕信息。
由上可見,在本發(fā)明實施例提供的一種方案中,由視頻會議終端直接獲取包含發(fā) 言所需的提詞信息的提詞字幕圖片,并按指定的順序?qū)⒔?jīng)過編輯處理的提詞字幕圖片緩存 到視頻會議終端顯存中,在接收提詞指令后,在遠端會議視頻的指定區(qū)域,按照顯存中指定 的圖片顯示順序滾動顯示經(jīng)過編輯處理的提詞字幕圖片,由于是直接以包含發(fā)言所需的提 詞信息的提詞字幕圖片為基礎(chǔ)進行處理,處理復雜度可適當降低;由于引入了滾動顯示機 制,在遠端會議視頻的指定區(qū)域滾動顯示提詞字幕圖片,有利于在清晰顯示提詞字幕的同 時,不影響到遠端會議視頻的正常觀看,進而提升會議體驗;并且,由于可利用會議終端固 有硬件資源實現(xiàn)提詞功能,可降低視頻會議中提詞功能的硬件實現(xiàn)成本和系統(tǒng)復雜度,提 高會場部署靈活性。
在本發(fā)明實施例提供的另一種方案中,由視頻會議終端直接獲取包含發(fā)言所需的 提詞信息的提詞字幕文件,在接收提詞指令后,采樣發(fā)言者音頻;對采樣的發(fā)言者音頻進行 語音識別,獲得與采樣的發(fā)言者音頻對應(yīng)的文字信息;將獲得的與采樣的該發(fā)言者音頻對 應(yīng)的文字信息,與提詞字幕文件包含的提詞字幕信息進行匹配;根據(jù)匹配結(jié)果,在視頻會議 終端顯示的遠端會議視頻的指定區(qū)域,顯示該提詞字幕文件包含的提詞字幕信息中,與當 前采樣的發(fā)言者音頻對應(yīng)的文字信息相匹配部分的下一部分提詞字幕信息。由于引入音頻 識別技術(shù)和根據(jù)發(fā)言者語音的實時滾動顯示機制,在遠端會議視頻的指定區(qū)域滾動顯示提 詞字幕,可實現(xiàn)自動實時的提詞,并且有利于在清晰顯示提詞字幕的同時,不影響到遠端會 議視頻的正常觀看,較大的提升會議體驗;并且,由于可利用會議終端固有硬件資源實現(xiàn)提詞功能,可降低視頻會議中提詞功能的硬件實現(xiàn)成本和系統(tǒng)復雜度,提高會場部署靈活性。
為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于 本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其 他的附圖。
圖1是本發(fā)明實施例一提供的一種實現(xiàn)視頻會議中提詞的方法流程示意圖2是本發(fā)明實施例二提供的一種實現(xiàn)視頻會議中提詞的方法流程示意圖3_a是本發(fā)明實施例二提供的一種按頁保存提詞字幕圖片示意圖3_b是本發(fā)明實施例二提供的一種基于發(fā)言者語速滾動提詞的示意圖3-c是本發(fā)明實施例二提供疊加圖片的地址跳轉(zhuǎn)示意圖3-d是本發(fā)明實施例二提供的一種提詞字幕圖片切分并疊加到本地視頻的示 意 圖4是本發(fā)明實施例三提供一種視頻會議終端示意圖5是本發(fā)明實施例四提供的一種實現(xiàn)視頻會議中提詞的方法流程示意圖6是本發(fā)明實施例五提供一種視頻會議終端示意圖。
具體實施方式
本發(fā)明實施例提供一種實現(xiàn)視頻會議中提詞的方法以及裝置,可降低視頻會議中 提詞功能的實現(xiàn)成本和復雜度,提高會場部署靈活性。
為使得本發(fā)明的發(fā)明目的、特征、優(yōu)點能夠更加的明顯和易懂,下面將結(jié)合本發(fā)明 實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,下面所描述 的實施例僅僅是本發(fā)明一部分實施例,而非全部實施例。基于本發(fā)明中的實施例,本領(lǐng)域普 通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的 范圍。
實施例一
本發(fā)明實現(xiàn)視頻會議中提詞的方法的一個實施例,可包括視頻會議終端獲取至 少一個提詞字幕圖片;對上述至少一個提詞字幕圖片進行編輯處理,并按照指定的圖片顯 示順序?qū)⒔?jīng)過編輯處理的該提詞字幕圖片緩存到視頻會議終端的顯存中;接收提詞指令; 根據(jù)上述提詞指令,在視頻會議終端顯示的遠端會議視頻的指定區(qū)域,按照顯存中指定的 圖片顯示順序,滾動顯示經(jīng)過編輯處理的上述提詞字幕圖片。
參見圖1,具體步驟可包括
110、視頻會議終端獲取至少一個提詞字幕圖片;
在實際應(yīng)用中,視頻會議終端獲取提詞字幕圖片(其中包含發(fā)言者發(fā)言所需的提 詞信息)的方式可以是多種多樣的,例如會議終端既可從外部獲取提詞字幕圖片,亦可自 己生成獲取提詞字幕圖片,舉例來說,視頻會議終端可通過視頻輸入接口接收其它設(shè)備輸 入的包含發(fā)言者發(fā)言所需的提詞信息的提詞字幕圖片,如視頻會議終端可與一文本攝像機 連接,該文本攝像機將發(fā)言者發(fā)言所需的提詞信息拍攝成提詞字幕圖片,并將該拍攝的提詞字幕圖片傳遞給視頻會議終端;或者,視頻會議終端亦可接收個人電腦或互聯(lián)網(wǎng)輸入的 包含發(fā)言者發(fā)言所需的提詞信息的提詞字幕圖片,又或者,視頻會議終端可在獲得發(fā)言者 發(fā)言所需的提詞信息后,生成包含發(fā)言者發(fā)言所需的提詞信息的提詞字幕圖片。視頻會議 終端可將獲取的提詞字幕圖片保存在其存儲介質(zhì)(如內(nèi)存)中。
可以理解,由于發(fā)言者發(fā)言所需的所有提詞信息間(例如各提詞行、各提詞段、各 提詞頁之間)是具有一定邏輯關(guān)聯(lián)和先后順序的,因此若獲取到包含發(fā)言者發(fā)言所需的提 詞信息的多個提詞字幕圖片,則該多個提詞字幕圖片之間也可指定一個先后順序,視頻會 議終端可按先后順序?qū)ζ溥M行編號,并按頁存放,以便顯示時依次顯示。
120、視頻會議終端對上述至少一個提詞字幕圖片進行編輯處理,并按照指定的圖 片顯示順序?qū)⒔?jīng)過編輯處理的所述提詞字幕圖片緩存到視頻會議終端的顯存中;
在一種應(yīng)用場景下,對提詞字幕圖片進行編輯處理可包括將提詞字幕圖片進行 編輯處理為帶α信息(α信息可指示出圖片的透明度,其中,α =0表示全透明,α = 1 表示全覆蓋)的提詞字幕圖片,以便根據(jù)發(fā)言者指示,修改輸出提詞字幕的顏色、背景、底 色等信息,具體可在需要在送疊加顯示前,對提詞字幕圖片進行透明、底色等變換處理。其 中,對提詞字幕圖片進行編輯處理可還可包括對提詞字幕圖片格式大小與配置顯示的格 式進行匹配,例如若提詞字幕圖片和配置顯示的格式不匹配,則可對提詞字幕圖片進行縮 放,例如,縮放時可控制水平和顯示格式一致,垂直縮放可與水平縮放比相同,以免字幕圖 像變形。
視頻會議終端對提詞字幕圖片進行編輯處理,并可按照指定的圖片顯示順序?qū)⒔?jīng) 過編輯處理的提詞字幕圖片緩存到視頻會議終端的顯存中,以便后續(xù)可直接從視頻會議終 端的顯存中讀取提詞字幕圖片進行圖片顯示,實現(xiàn)自動換行換頁功能。其中,此處的圖片顯 示順序即是指提詞信息之間的先后順序,若提詞信息以行為單位,則此處的圖片顯示順序 可指各提詞行之間的先后順序,若提詞信息以段為單位,則該圖片顯示順序可指各提詞段 之間的先后順序,若提詞信息以頁為單位,則該圖片顯示順序可指各提詞頁之間的先后順 序,以此類推。
130、視頻會議終端接收提詞指令;
在視頻會議過程中,若發(fā)言者需要給予提詞來發(fā)言,發(fā)言者可向視頻會議終端發(fā) 送提詞指令,視頻會議終端在接收到提詞指令后,啟動提詞功能。
可以理解,上述舉例是以步驟110和120在步驟130之前執(zhí)行為例的,當然其亦可 在步驟130之后執(zhí)行,即視頻會議終端在接收到提詞指令后,再獲取提詞字幕圖片,將其進 行編輯處理,并按照指定的圖片顯示順序?qū)⒔?jīng)過編輯處理的提詞字幕圖片緩存到顯存中。
140、視頻會議終端根據(jù)上述提詞指令,在該視頻會議終端顯示的遠端會議視頻的 指定區(qū)域,按照顯存中指定的圖片顯示順序,滾動顯示經(jīng)過編輯處理的上述提詞字幕圖片。
在實際應(yīng)用中,視頻會議終端可在本地顯示的遠端會議視頻上的指定區(qū)域設(shè)置一 提詞疊加窗口,并可根據(jù)設(shè)置的提詞疊加窗口生成疊加使能時序,具體指定對應(yīng)到每幀遠 端會議視頻的哪些行,哪些列允許疊加提詞字幕圖片;在提詞疊加窗口可直接顯示一行或 多行提詞字幕,而通過滾動顯示的方式,則可持續(xù)的顯示出所有提詞字幕,由于可將提詞疊 加窗口設(shè)定得足夠小,也就不會影響到遠端會議視頻的正常觀看。其中,由于視頻會議終端 是按指定順序,將經(jīng)過編輯處理的提詞字幕圖片存放在視頻會議終端顯存中,視頻會議終端可通過對疊加顯存的起始地址進行操作實現(xiàn)指定區(qū)域的詞字幕圖片的顯示,通過疊加顯 存地址累加或累減,就可實現(xiàn)提詞字幕圖片的滾動顯示。
在一種應(yīng)用場景下,視頻會議終端可基于手動模式或自動模式,對滾動顯示提詞 字幕圖片進行滾動速率控制,例如,視頻會議終端可基于預定的滾動速率,滾動顯示經(jīng)過編 輯處理的提詞字幕圖片;或者,可基于與發(fā)言者語速相匹配的滾動速率,滾動顯示經(jīng)過編輯 處理的提詞字幕圖片;或者,可根據(jù)發(fā)言者滾動顯示控制指令,滾動顯示經(jīng)過編輯處理的提 詞字幕圖片,當然,視頻會議終端可基于其它機制,滾動顯示提詞字幕圖片。
進一步的,視頻會議終端還可以將當前滾動顯示的提詞字幕圖片切分成多塊(可 按照特定大小進行切割,或者,可根據(jù)發(fā)言者當前的發(fā)言文字,將發(fā)言者當前發(fā)言文字所對 應(yīng)位置的提詞字幕圖片的那部分切分下來),并將其疊加到本地會議視頻的指定區(qū)域,得到 本地疊加視頻;將該本地疊加視頻進行編碼并向遠端視頻會議終端(遠端視頻會議終端指 的是當前會議中除視頻會議終端外的其它一個或多個視頻會議終端)發(fā)送,該本地疊加視 頻可直接發(fā)送到遠端視頻會議終端,或者可通過中間設(shè)備進行相應(yīng)處理后轉(zhuǎn)發(fā)給遠端視頻 會議終端,而遠端視頻會議遠端則在顯示發(fā)言視頻時即可顯示出發(fā)言者的發(fā)言內(nèi)容。這樣, 可實現(xiàn)向其它與會者實時呈現(xiàn)發(fā)言內(nèi)容的功能,亦可省去后臺編輯字幕的工作。
進一步的,視頻會議終端還可顯示提詞字幕圖片當前滾動顯示進度的提示標記 (該提示標記可以是圖標、文字或其它形式),以便發(fā)言者實時了解當前發(fā)言的進度,還剩 余多少發(fā)言內(nèi)容等。
由上可見,本實施例中由視頻會議終端直接獲取包含發(fā)言所需的提詞信息的提詞 字幕圖片,并按指定的順序?qū)⒕庉嬏幚淼玫教嵩~字幕圖片緩存到視頻會議終端的顯存中, 在接收提詞指令后,在遠端會議視頻的指定區(qū)域,按照顯存中指定的圖片顯示順序滾動顯 示提詞字幕圖片,由于是直接以包含發(fā)言所需的提詞信息的提詞字幕圖片為基礎(chǔ)進行處 理,處理復雜度可適當降低;由于引入了滾動顯示機制,在遠端會議視頻的指定區(qū)域滾動顯 示提詞字幕圖片,有利于在清晰顯示提詞字幕的同時,不影響到遠端會議視頻的正常觀看, 進而提升會議體驗;并且,由于可利用會議終端固有硬件資源實現(xiàn)提詞功能,可降低視頻會 議中提詞功能的硬件實現(xiàn)成本和系統(tǒng)復雜度,提高會場部署靈活性。
實施例二
為便于更好的理解本發(fā)明實施例的技術(shù)方案,下面以更為具體的舉例實例對本發(fā) 明實施例的技術(shù)方案進行更為詳盡的描述。
參見圖2,具體步驟可包括
201、視頻會議終端獲取至少一個包含提詞信息的提詞字幕圖片。
在實際應(yīng)用中,視頻會議終端獲取提詞字幕圖片(其中包含發(fā)言者發(fā)言所需的提 詞信息)的方式可以是多種多樣的,例如會議終端既可從外部獲取提詞字幕圖片,亦可自 己生成獲取提詞字幕圖片,舉例來說,會議終端可通過視頻輸入接口接收其它設(shè)備輸入的 包含發(fā)言者發(fā)言所需的提詞信息的提詞字幕圖片,如會議終端可與一文本攝像機連接,該 文本攝像機將發(fā)言者發(fā)言所需的提詞信息拍攝成提詞字幕圖片,并將該拍攝的提詞字幕圖 片傳遞給會議終端;或者,會議終端亦可接收個人電腦或互聯(lián)網(wǎng)輸入的包含發(fā)言者發(fā)言所 需的提詞信息的提詞字幕圖片,又或者,會議終端可以在獲得發(fā)言者發(fā)言所需的提詞信息 后,生成包含發(fā)言者發(fā)言所需的提詞信息的提詞字幕圖片。會議終端可將獲取的提詞字幕圖片保存在其存儲介質(zhì)(如內(nèi)存)中。
可以理解,由于發(fā)言者發(fā)言所需的所有提詞信息間(例如各提詞行、各提詞段、各 提詞頁之間)是具有一定邏輯關(guān)聯(lián)和先后順序的,因此若獲取到包含發(fā)言者發(fā)言所需的提 詞信息的多個提詞字幕圖片,則該多個提詞字幕圖片之間也可指定一個先后順序,視頻會 議終端可按先后順序?qū)ζ溥M行編號,并按頁存放,以便顯示時依次顯示。
202、視頻會議終端對獲取的至少一個提詞字幕圖片進行編輯處理;
在一種應(yīng)用場景下,會議終端對提詞字幕圖片進行編輯處理可包括對提詞字幕圖 片進行格式調(diào)整,數(shù)據(jù)變換等多種處理,以得到待送顯的提詞字幕圖片數(shù)據(jù)。
例如,會議終端將提詞字幕圖片進行編輯處理為帶α信息(其中,α = 0表示全 透明,α = 1表示全覆蓋)的提詞字幕圖片,以便根據(jù)發(fā)言者設(shè)置,修改輸出提詞字幕的顏 色、背景及底色等信息,具體可在需要在送疊加顯示前,對提詞字幕圖片進行透明、底色等 變換處理。若進行半透明變化處理,則提詞字幕的顯示亦不影響到遠端會議視頻的顯示。
進一步的,對提詞字幕圖片進行編輯處理可還可包括對提詞字幕圖片格式大小 與配置顯示的格式進行匹配,例如若提詞字幕圖片和配置顯示的格式不匹配,則視頻會議 終端可對提詞字幕圖片進行縮放,例如,縮放時可控制水平和顯示格式一致,垂直縮放可與 水平縮放比相同,或者,垂直水平和顯示格式一致,水平縮放可與垂直縮放比相同,以免字 幕圖像變形。
203、視頻會議終端按照指定的圖片顯示順序,將經(jīng)過編輯處理的提詞字幕圖片緩 存到該視頻會議終端的顯存中。
在一種應(yīng)用場景下,視頻會議終端對提詞字幕圖片進行編輯處理,并可并按照指 定的圖片顯示順序?qū)⒔?jīng)過編輯處理的提詞字幕圖片緩存到該視頻會議終端顯存中,以便后 續(xù)可直接從視頻會議終端的顯存中讀取提詞字幕圖片數(shù)據(jù)進行圖片顯示,實現(xiàn)自動換行換 頁功能。其中,此處的圖片顯示順序即是指提詞信息之間的先后順序,若提詞信息以行為單 位,則此處的圖片顯示順序可指各提詞行之間的先后順序,若提詞信息以段為單位,則此處 的圖片顯示順序可指各提詞段之間的先后順序,若提詞信息以頁為單位,則此處的圖片顯 示順序可指各提詞頁之間的先后順序(按頁存儲方式例如圖3_a所示的方式),以此類推。
204、視頻會議終端接收提詞指令;
在視頻會議過程中,若發(fā)言者需要給予提詞來發(fā)言,發(fā)言者可向會議終端發(fā)送提 詞指令,會議終端在接收到提詞指令后,啟動提詞功能。
可以理解,上述舉例是以步驟201 203在步驟204之前執(zhí)行為例的,當然其亦可 在步驟204之后執(zhí)行,即視頻會議終端在接收到提詞指令后,再獲取提詞字幕圖片,將其進 行編輯處理,并按照指定的圖片顯示順序?qū)⒔?jīng)過編輯處理的提詞字幕圖片緩存到顯存中。
205、視頻會議終端在顯示的遠端會議視頻的指定區(qū)域設(shè)置疊加窗口 ;
在實際應(yīng)用中,視頻會議終端可在接收到提詞指令后,在本地顯示的遠端會議視 頻上的指定區(qū)域(例如左上方、右上方、左下方、右下方等)設(shè)置一提詞疊加窗口,而提詞字 幕內(nèi)容只在設(shè)置的提詞疊加窗口中顯示。
視頻會議終端可根據(jù)設(shè)置的提詞疊加窗口生成疊加使能時序,具體指定對應(yīng)到每 幀遠端會議視頻的哪些行,哪些列允許疊加提詞字幕圖片;在提詞疊加窗口可直接顯示一 行或多行提詞字幕,而通過滾動顯示的方式,則可持續(xù)的顯示出所有提詞字幕,由于可將提詞疊加窗口設(shè)定得足夠小,也就不會影響到遠端會議視頻的正常觀看。其中,由于視頻會議 終端是按指定順序,將編輯處理得到的提詞字幕圖片數(shù)據(jù)存放在顯存中,會議終端可通過 對疊加顯存的起始地址進行操作實現(xiàn)指定區(qū)域的詞字幕圖片的顯示,通過疊加顯存地址累 加或累減,就可實現(xiàn)提詞字幕圖片的滾動顯示。
206、視頻會議終端在顯示遠端會議視頻的指定區(qū)域,按照顯存中指定的圖片顯示 順序,滾動顯示經(jīng)過編輯處理的上述提詞字幕圖片。
在一種應(yīng)用場景下,視頻會議終端可基于手動模式或自動模式,對滾動顯示提詞 字幕圖片進行滾動速率控制,例如,視頻會議終端可基于預定的滾動速率,滾動顯示經(jīng)過編 輯處理的提詞字幕圖片;或者,可基于與發(fā)言者語速相匹配的滾動速率,滾動顯示經(jīng)過編輯 處理的提詞字幕圖片;或者,可根據(jù)發(fā)言者滾動顯示控制指令,滾動顯示經(jīng)過編輯處理的提 詞字幕圖片,當然,視頻會議終端可基于其它機制,滾動顯示提詞字幕圖片。
在實際應(yīng)用中,手動模式下,視頻會議終端還可以支持外部設(shè)備控制滾動操作,如 根據(jù)來自遙控器或互聯(lián)網(wǎng)的滾動控制指令,滾動(如前進后退,左右移動)顯示提詞字幕圖 片。在自動模式下,視頻會議終端可根據(jù)設(shè)置的滾動速度,滾動顯示提詞字幕圖片;或者,部 署一個語速傳感器,感應(yīng)出發(fā)言者講話的速度和進度(例如可對每段提詞字幕中的關(guān)鍵字 對應(yīng)的音頻進行感應(yīng),根據(jù)感應(yīng)到的音頻確定發(fā)言者講話的速度和進度),視頻會議終端基 于與發(fā)言者語速相匹配的滾動速率,滾動顯示提詞字幕圖片。當然,會議終端可根據(jù)發(fā)言者 指令,在手動模式和自動模式之間進行切換,例如視頻會議終端可在發(fā)言者通過外置的滾 動控制器的控制下,進行滾動速度,滾動方向、滾動暫停等滾動控制操作。
其中,在視頻會議終端基于與發(fā)言者語速相匹配的滾動速率,滾動顯示提詞字幕 圖片的機制中,視頻會議終端可采樣發(fā)言者音頻(在實際應(yīng)用中,視頻會議終端例如可通 過拾音裝置,采樣發(fā)言者音頻,其采樣頻率可根據(jù)具體情況具體設(shè)置,例如采樣頻率可設(shè)定 為4000赫茲),對該采樣的發(fā)言者音頻進行語音識別,獲得與采樣的發(fā)言者音頻對應(yīng)的文 字信息(例如,可在數(shù)據(jù)庫中存儲標準文字音頻(例如普通話),還可存儲各種方言的文字 音頻,將該采樣的發(fā)言者音頻與數(shù)據(jù)庫中存儲的文字音頻進行匹配,獲得采樣的發(fā)言者音 頻對應(yīng)的文字信息,當然亦可采用其它語音識別技術(shù),獲得與采樣的發(fā)言者音頻對應(yīng)的文 字信息);將獲得的與采樣的所述發(fā)言者音頻對應(yīng)的文字信息,與經(jīng)過編輯處理的提詞字 幕圖片所能呈現(xiàn)的提詞字幕信息(可通過光學識別技術(shù)識別提詞字幕圖片所能呈現(xiàn)的提 詞字幕信息)進行匹配(例如,視頻會議終端可根據(jù)情況設(shè)定一個匹配度閾值(例如85%、 90%或其它值),當匹配度大于該設(shè)定的匹配度閾值時,則確認兩者相匹配,視頻會議終端 將獲得的與采樣的發(fā)言者音頻對應(yīng)的文字信息,與提詞字幕圖片所能呈現(xiàn)的提詞字幕信息 進行匹配,當獲得的與采樣的發(fā)言者音頻對應(yīng)的文字信息,與提詞字幕圖片所能呈現(xiàn)的提 詞字幕信息的某一部分的匹配度大于設(shè)定匹配度閾值時,則確定當前獲得的與采樣的發(fā)言 者音頻對應(yīng)的文字信息,與提詞字幕圖片所能呈現(xiàn)的該部分提詞字幕信息相匹配);根據(jù) 匹配結(jié)果,顯示經(jīng)過編輯處理的提詞字幕圖片所能呈現(xiàn)的提詞字幕信息中,與當前采樣的 發(fā)言者音頻對應(yīng)的文字信息相匹配部分的下一部分提詞字幕信息(可以是下一句,下幾句 或下一段等)的對應(yīng)圖片位置(當然同時也還可顯示經(jīng)過編輯處理的提詞字幕圖片所能呈 現(xiàn)的提詞字幕信息中,與當前采樣的發(fā)言者音頻對應(yīng)的文字信息相匹配部分)。具體顯示場 景可如圖3-b所示,可實現(xiàn)發(fā)言者發(fā)言文字的同步提詞。
當完成一頁提詞字幕圖片的顯示后,由于提詞字幕圖片數(shù)據(jù)都保存到了視頻會議 終端的顯存中,可以自動按照編號進入下一頁,啟到自動換頁目的。例如圖示3-c所示,當 第1頁完成顯示后,疊加圖片的首地址由A跳轉(zhuǎn)到B,起到換頁目的。為了提高可靠性,若顯 存切換到了 B,這時A地址對應(yīng)加載第3頁的內(nèi)容。當?shù)?頁完成后,又切換到A地址,以此 類推,就可以把要顯示的提詞字幕自動翻頁全面顯示了。
進一步的,視頻會議終端在疊加顯示前,還可進行提詞字幕圖片的顯示排練預演, 由于每頁圖片中可能前有空白,視頻會議終端可通過設(shè)置顯存地址的跳轉(zhuǎn),去掉空白部分 不用顯示,如此,提詞字幕顯示在頁和頁間銜接時可更順暢,提詞效率得到提高。
207、視頻會議終端將當前滾動顯示的提詞字幕圖片切分成多塊,并將其疊加到本 地會議視頻的指定區(qū)域,得到本地疊加視頻;將該本地疊加視頻進行編碼并向視頻會議的 遠端視頻會議終端發(fā)送。
在實際應(yīng)用中,視頻會議終端可將當前滾動顯示的提詞字幕圖片切分成多塊,例 如切分為大小為N*M的小快,并將其疊加到本地會議視頻的指定區(qū)域(例如,左上左下、右 上右下等),得到本地疊加視頻;將該本地疊加視頻進行編碼并向視頻會議的遠端視頻會 議終端發(fā)送。或者,可根據(jù)發(fā)言者當前的發(fā)言文字,將發(fā)言者當前發(fā)言文字所對應(yīng)位置的提 詞字幕圖片的那部分切分下來,并將其疊加到本地會議視頻的指定區(qū)域(例如,左上左下、 右上右下等),得到本地疊加視頻;將該本地疊加視頻進行編碼并向視頻會議的遠端視頻 會議終端發(fā)送,具體顯示場景可如圖3-d所示,可實現(xiàn)發(fā)言者發(fā)言文字的同步呈現(xiàn)。
以按固定大小切分舉例來說,如提詞字幕圖片格式為1280*720格式,N取值要小 于1280,M取值要小于720 ;為了存取方便可將圖片分成等大,如N = 640,M= 360,提詞字 幕圖片切分為四個圖像塊,視頻會議終端可將包含提詞信息的圖像塊取出,并將其疊加到 本地會議視頻的指定區(qū)域,得到本地疊加視頻;并將其進行編碼后向會議遠端的視頻會議 終端發(fā)送。而視頻會議遠端則在顯示此發(fā)言視頻時即可顯示出發(fā)言者的發(fā)言內(nèi)容。這樣, 可實現(xiàn)向其它與會者實時呈現(xiàn)發(fā)言內(nèi)容的功能,亦可省去后臺編輯字幕的工作。
進一步的,視頻會議終端還可實時的或根據(jù)發(fā)言者指令,顯示提詞字幕圖片當前 滾動顯示進度的提示標記(該提示標記可以是圖標、文字或其它形式),以便發(fā)言者實時了 解當前發(fā)言的進度,還剩余多少發(fā)言內(nèi)容等。視頻會議終端還可顯示發(fā)言時間信息,以便發(fā) 言者實時了解其已發(fā)言多久。
由上可見,本實施例中可由視頻會議終端直接獲取包含發(fā)言所需的提詞信息的提 詞字幕圖片,并按指定的順序?qū)⒕庉嬏幚淼玫教嵩~字幕圖片數(shù)據(jù)緩存到視頻會議終端顯存 中,在接收提詞指令后,在遠端會議視頻的指定區(qū)域,按照顯存中指定的圖片顯示順序滾動 顯示提詞字幕圖片,由于是直接以包含發(fā)言所需的提詞信息的提詞字幕圖片為基礎(chǔ)進行處 理,處理復雜度可適當降低;由于引入了滾動顯示機制,在遠端會議視頻的指定區(qū)域滾動顯 示提詞字幕圖片,有利于在清晰顯示提詞字幕的同時,不影響到遠端會議視頻的正常觀看, 進而提升會議體驗;并且,由于可利用視頻會議終端固有硬件資源實現(xiàn)提詞功能,可降低視 頻會議中提詞功能的硬件實現(xiàn)成本和系統(tǒng)復雜度,提高會場部署靈活性。
進一步的,視頻會議終端支持基于手動或自動模式下的滾動速率控制機制,滾動 顯示提詞字幕圖片,實現(xiàn)靈活性較高。
為便于更好的實時本發(fā)明上述實施例的技術(shù)方案,本發(fā)明實施例下面還提供可實的相關(guān)裝置。
實施例三
參見圖4、本發(fā)明實施例提供的一種視頻會議終端400,可以包括獲取模塊410、 處理緩存模塊420、接收模塊430和滾動顯示模塊440。
其中,獲取模塊410,用于獲取至少一個提詞字幕圖片;
在實際應(yīng)用中,視頻會議終端的獲取模塊410獲取提詞字幕圖片(其中包含發(fā)言 者發(fā)言所需的提詞信息)的方式可以是多種多樣的,例如獲取模塊410既可從外部獲取提 詞字幕圖片,亦可自己通過生成圖片獲取提詞字幕圖片,舉例來說,獲取模塊410可以通過 視頻輸入接口接收其它設(shè)備輸入的包含發(fā)言者發(fā)言所需的提詞信息的提詞字幕圖片,如獲 取模塊410可以與一文本攝像機連接,該文本攝像機將發(fā)言者發(fā)言所需的提詞信息拍攝成 提詞字幕圖片,并將該拍攝的提詞字幕圖片傳遞給視頻會議終端400 ;或者,獲取模塊410 亦可以接收個人電腦或互聯(lián)網(wǎng)輸入的包含發(fā)言者發(fā)言所需的提詞信息的提詞字幕圖片,又 或者,獲取模塊410可在獲得發(fā)言者發(fā)言所需的提詞信息后,生成包含發(fā)言者發(fā)言所需的 提詞信息的提詞字幕圖片。獲取模塊410可將獲取的提詞字幕圖片保存在其存儲介質(zhì)(如 內(nèi)存)中。
可以理解,由于發(fā)言者發(fā)言所需的所有提詞信息間(例如各提詞行、各提詞段、各 提詞頁之間)是具有一定邏輯關(guān)聯(lián)和先后順序的,因此若獲取模塊410獲取到包含發(fā)言者 發(fā)言所需的提詞信息的多個提詞字幕圖片,則該多個提詞字幕圖片之間也可指定一個先后 順序,視頻會議終端400可按先后順序?qū)ζ溥M行編號,并按頁存放,以便顯示時依次顯示。
處理緩存模塊420,用于對獲取模塊410獲取的至少一個提詞字幕圖片進行編輯 處理,并按照指定的圖片顯示順序?qū)⒔?jīng)過編輯處理的該提詞字幕圖片緩存到視頻會議終端 400顯存中;
在一種應(yīng)用場景下,處理緩存模塊420對提詞字幕圖片進行編輯處理可包括將 提詞字幕圖片進行編輯處理為帶α信息(α信息可指示圖片的透明度,其中,α =0表示 全透明,α = 1表示全覆蓋)的提詞字幕圖片,以便根據(jù)發(fā)言者指示,修改輸出提詞字幕的 顏色、背景、底色等信息,具體可在需要在送疊加顯示前,對提詞字幕圖片進行透明、底色等 變換處理。其中,處理緩存模塊420對提詞字幕圖片進行編輯處理可還可包括對提詞字 幕圖片格式大小與配置顯示的格式進行匹配,例如若提詞字幕圖片和配置顯示的格式不匹 配,則可對提詞字幕圖片進行縮放,例如,縮放時可控制水平和顯示格式一致,垂直縮放可 與水平縮放比相同,以免字幕圖像變形。
處理緩存模塊420對提詞字幕圖片進行編輯處理,并可以按照指定的圖片顯示順 序?qū)⒔?jīng)過編輯處理的提詞字幕圖片緩存到視頻會議終端的顯存中,以便后續(xù)可以直接從視 頻會議終端的顯存中讀取提詞字幕圖片進行圖片顯示,實現(xiàn)自動換行換頁功能。其中,此處 的圖片顯示順序即是指提詞信息之間的先后順序,若提詞信息以行為單位,則此處的圖片 顯示順序可指各提詞行之間的先后順序,若提詞信息以段為單位,則該圖片顯示順序可指 各提詞段之間的先后順序,若提詞信息以頁為單位,則該圖片顯示順序可以指各提詞頁之 間的先后順序,以此類推。
接收模塊430,用于接收提詞指令;
滾動顯示模塊440,用于根據(jù)接收模塊430接收的提詞指令,在視頻會議終端400顯示的遠端會議視頻的指定區(qū)域,按照顯存中指定的圖片顯示順序,滾動顯示經(jīng)過編輯處 理的提詞字幕圖片。
在實際應(yīng)用中,滾動顯示模塊440可在本地顯示的遠端會議視頻上的指定區(qū)域設(shè) 置一提詞疊加窗口,并可以根據(jù)設(shè)置的提詞疊加窗口生成疊加使能時序,具體指定對應(yīng)到 每幀遠端會議視頻的哪些行,哪些列允許疊加提詞字幕圖片;在提詞疊加窗口可直接顯示 一行或多行提詞字幕,而通過滾動顯示的方式,則可持續(xù)的顯示出所有提詞字幕,由于可將 提詞疊加窗口設(shè)定得足夠小,也就不會影響到遠端會議視頻的正常觀看。其中,由于處理緩 存模塊420是按指定順序,將經(jīng)過編輯處理的提詞字幕圖片存放在視頻會議終端顯存中, 滾動顯示模塊440可通過對疊加顯存的起始地址進行操作實現(xiàn)指定區(qū)域的詞字幕圖片的 顯示,通過疊加顯存地址累加或累減,就可實現(xiàn)提詞字幕圖片的滾動顯示。
在一種應(yīng)用場景下,滾動顯示模塊440可基于手動模式或自動模式,對滾動顯示 提詞字幕圖片進行滾動速率控制,例如,滾動顯示模塊440可基于預定的滾動速率,滾動顯 示經(jīng)過編輯處理的提詞字幕圖片;或者,滾動顯示模塊440可基于與發(fā)言者語速相匹配的 滾動速率,滾動顯示經(jīng)過編輯處理的提詞字幕圖片;或者,滾動顯示模塊440可根據(jù)發(fā)言者 滾動顯示控制指令,滾動顯示經(jīng)過編輯處理的提詞字幕圖片,當然,滾動顯示模塊440可基 于其它機制,滾動顯示提詞字幕圖片。
在一種應(yīng)用場景下,處理緩存模塊420可包括編輯處理子模塊和緩存子模塊(圖 4中未示出)。
編輯處理子模塊,用于對獲取模塊410獲取的至少一個提詞字幕圖片進行編輯處 理,得到帶α信息的提詞字幕圖片;
緩存子模塊,用于按照指定的圖片顯示順序,將上述編輯處理子模塊得到的帶α 信息的提詞字幕圖片緩存到顯存中。
在一種應(yīng)用場景下,滾動顯示模塊440可包括第一滾動顯示子模塊、第二滾動顯 示子模塊和第三滾動顯示子模塊中的一個或多個(圖4中未示出)。
其中,第一滾動顯示子模塊,用于根據(jù)接收模塊430接收的提詞指令,在視頻會議 終端400顯示的遠端會議視頻的指定區(qū)域,按照顯存中指定的圖片顯示順序,基于預定的 滾動速率滾動顯示經(jīng)過編輯處理的上述提詞字幕圖片;
第二滾動顯示子模塊,用于根據(jù)接收模塊430接收的提詞指令,在視頻會議終端 400顯示的遠端會議視頻的指定區(qū)域,按照顯存中指定的圖片顯示順序,基于與發(fā)言者語速 相匹配的滾動速率,滾動顯示經(jīng)過編輯處理的上述提詞字幕圖片;
第三滾動顯示子模塊,用于根據(jù)接收模塊430接收的提詞指令,在視頻會議終端 400顯示的遠端會議視頻的指定區(qū)域,按照顯存中指定的圖片顯示順序,根據(jù)發(fā)言者滾動顯 示控制指令,滾動顯示經(jīng)過編輯處理的上述提詞字幕圖片。
在一種應(yīng)用場景下,第二滾動顯示子模塊可以包括采樣子模塊、語音識別子模 塊、匹配子模塊和顯示控制子模塊(圖4中未示出)。
其中,采樣子模塊,用于采樣發(fā)言者音頻;
在實際應(yīng)用中,采樣子模塊例如可通過拾音裝置,采樣發(fā)言者音頻,其采樣頻率可 根據(jù)具體情況具體設(shè)置,例如采樣頻率可設(shè)定為4000赫茲
語音識別子模塊,用于將采樣子模塊采樣的發(fā)言者音頻進行語音識別,獲得與采樣的所述發(fā)言者音頻對應(yīng)的文字信息;
匹配子模塊,用于對語音識別子模塊獲得的與采樣的發(fā)言者音頻對應(yīng)的文字信 息,與經(jīng)過編輯處理的上述提詞字幕圖片所能呈現(xiàn)的提詞字幕信息進行匹配;
例如,匹配子模塊可根據(jù)情況設(shè)定一個匹配度閾值(例如85%、90%或其它值), 當匹配度大于該設(shè)定的匹配度閾值時,則確認兩者相匹配,匹配子模塊將獲得的與采樣的 發(fā)言者音頻對應(yīng)的文字信息,與提詞字幕圖片所能呈現(xiàn)的提詞字幕信息進行匹配,當獲得 的與采樣的發(fā)言者音頻對應(yīng)的文字信息,與提詞字幕圖片所能呈現(xiàn)的提詞字幕信息的某一 部分的匹配度大于設(shè)定匹配度閾值時,則確定當前獲得的與采樣的發(fā)言者音頻對應(yīng)的文字 信息,與提詞字幕圖片所能呈現(xiàn)的該部分提詞字幕信息相匹配。
顯示控制子模塊,用于根據(jù)匹配子模塊的匹配結(jié)果,顯示經(jīng)過編輯處理的上述提 詞字幕圖片所能呈現(xiàn)的提詞字幕信息中,與當前采樣的發(fā)言者音頻對應(yīng)的文字信息相匹配 部分的下一部分提詞字幕信息(可以是下一句,下幾句或下一段等)的對應(yīng)圖片位置。
當然,顯示控制子模塊還可用于,同時顯示經(jīng)過編輯處理的提詞字幕圖片所能呈 現(xiàn)的提詞字幕信息中,與當前采樣的發(fā)言者音頻對應(yīng)的文字信息相匹配部分。
在一種應(yīng)用場景下,視頻會議終端400還可包括本地視頻疊加模塊和發(fā)送模塊 (圖4中未示出)。
其中,本地視頻疊加模塊,用于將滾動顯示模塊當前滾動顯示的上述提詞字幕圖 片切分成多塊,并將其疊加到本地會議視頻的指定區(qū)域,得到本地疊加視頻;
發(fā)送模塊,用于將上述本地視頻疊加模塊得到的本地疊加視頻進行編碼并向會議 遠端發(fā)送。
在一種應(yīng)用場景下,視頻會議終端400的本地視頻疊加模塊可以將當前滾動顯示 的提詞字幕圖片切分成多塊(可按照特定大小進行切割,或者,可根據(jù)發(fā)言者當前的發(fā)言 文字,將發(fā)言者當前發(fā)言文字所對應(yīng)位置的提詞字幕圖片的那部分切分下來),并將其疊加 到本地會議視頻的指定區(qū)域,得到本地疊加視頻;將該本地疊加視頻進行編碼并向遠端視 頻會議終端(遠端視頻會議終端指的是當前會議中除視頻會議終端外的其它一個或多個 視頻會議終端)發(fā)送,該本地疊加視頻可直接發(fā)送到遠端視頻會議終端,或者可通過中間 設(shè)備進行相應(yīng)處理后轉(zhuǎn)發(fā)給遠端視頻會議終端,而遠端視頻會議遠端則在顯示發(fā)言視頻時 即可顯示出發(fā)言者的發(fā)言內(nèi)容。這樣,可實現(xiàn)向其它與會者實時呈現(xiàn)發(fā)言內(nèi)容的功能,亦可 省去后臺編輯字幕的工作。
在一種應(yīng)用場景下,視頻會議終端400還可包括進度提示模塊(圖4中未示出)。
其中,進度提示模塊,用于顯示上述提詞字幕圖片當前滾動顯示進度的提示標記。
需要說明的是,本實施例的視頻會議終端400可如上述方法實施例中的視頻會議 終端,可以用于實現(xiàn)上述方法實施例中的全部技術(shù)方案,其各個功能模塊的功能可以根據(jù) 上述方法實施例中的方法具體實現(xiàn),其具體實現(xiàn)過程可參照上述實施例中的相關(guān)描述,此 處不再贅述。
由上可見,本實施例中可由視頻會議終端400直接獲取包含發(fā)言所需的提詞信息 的提詞字幕圖片,并按指定的順序?qū)⒕庉嬏幚淼玫教嵩~字幕圖片數(shù)據(jù)緩存到視頻會議終端 400顯存中,在接收提詞指令后,在遠端會議視頻的指定區(qū)域,按照顯存中指定的圖片顯示 順序滾動顯示提詞字幕圖片,由于是直接以包含發(fā)言所需的提詞信息的提詞字幕圖片為基礎(chǔ)進行處理,處理復雜度可適當降低;由于引入了滾動顯示機制,在遠端會議視頻的指定區(qū) 域滾動顯示提詞字幕圖片,有利于在清晰顯示提詞字幕的同時,不影響到遠端會議視頻的 正常觀看,進而提升會議體驗;并且,由于可利用視頻會議終端400固有硬件資源實現(xiàn)提詞 功能,可降低視頻會議中提詞功能的硬件實現(xiàn)成本和系統(tǒng)復雜度,提高會場部署靈活性。
實施例四
本發(fā)明實現(xiàn)視頻會議中提詞的方法的另一個實施例,可包括視頻會議終端獲取 提詞字幕文件;接收提詞指令;采樣發(fā)言者音頻;對該采樣的發(fā)言者音頻進行語音識別,獲 得與采樣的該發(fā)言者音頻對應(yīng)的文字信息;將獲得的與采樣的該發(fā)言者音頻對應(yīng)的文字信 息,與提詞字幕文件包含的提詞字幕信息進行匹配;根據(jù)匹配結(jié)果,在視頻會議終端顯示的 遠端會議視頻的指定區(qū)域,顯示上述提詞字幕文件包含的提詞字幕信息中,與當前采樣的 該發(fā)言者音頻對應(yīng)的文字信息相匹配部分的下一部分提詞字幕信息。
參見圖5,具體步驟可包括
510、視頻會議終端獲取提詞字幕文件;
在實際應(yīng)用中,視頻會議終端獲取提詞字幕文件(提詞字幕文件中包含發(fā)言者發(fā) 言所需的提詞信息,其格式可以是圖片,文檔或其它格式)的方式可以是多種多樣的,例如 會議終端既可從外部獲取提詞字幕文件,亦可自己生成獲取提詞字幕文件,舉例來說,視頻 會議終端可通過視頻輸入接口接收其它設(shè)備輸入的包含發(fā)言者發(fā)言所需的提詞信息的提 詞字幕文件,例如會議終端可與一文本攝像機連接,該文本攝像機將發(fā)言者發(fā)言所需的提 詞信息拍攝成提詞字幕圖片,并將該拍攝的提詞字幕圖片傳遞給視頻會議終端;或者,視頻 會議終端亦可接收個人電腦或互聯(lián)網(wǎng)輸入的包含發(fā)言者發(fā)言所需的提詞信息的提詞字幕 圖片,又或者,會議終端可在獲得發(fā)言者發(fā)言所需的提詞信息后,生成包含發(fā)言者發(fā)言所需 的提詞信息的提詞字幕圖片。會議終端可將獲取的提詞字幕圖片保存在其存儲介質(zhì)(如內(nèi) 存)中。
可以理解,由于發(fā)言者發(fā)言所需的所有提詞信息間(例如各提詞行、各提詞段、各 提詞頁之間)是具有一定邏輯關(guān)聯(lián)和先后順序的,因此,若獲取到了包含發(fā)言者發(fā)言所需 的提詞信息的多個提詞字幕圖片,則該多個提詞字幕圖片之間也可指定一個先后順序,視 頻會議終端可按先后順序?qū)ζ溥M行編號,并按頁存放,以便顯示時依次顯示。
進一步的,若獲取到的提詞字幕文件為提詞字幕文檔,視頻會議終端可不對其進 行編輯處理;獲取到的提詞字幕文件為提詞字幕圖片,視頻會議終端還可對其進行編輯處 理,對提詞字幕圖片進行編輯處理的方式可參考上述實施例一至三中的描述,此處不再贅 述。
520、視頻會議終端接收提詞指令;
在視頻會議過程中,若發(fā)言者需要給予提詞來發(fā)言,發(fā)言者可向視頻會議終端發(fā) 送提詞指令,視頻會議終端在接收到提詞指令后,啟動提詞功能。
可以理解,上述舉例是以步驟410在步驟420之前執(zhí)行為例的,當然其亦可在步驟 420之后執(zhí)行,即視頻會議終端在接收到提詞指令后,再獲取提詞字幕文件。
530、視頻會議終端采樣發(fā)言者音頻;
在實際應(yīng)用中,視頻會議終端可通過拾音裝置,采樣發(fā)言者音頻,采樣頻率可根據(jù) 具體情況具體設(shè)置,例如采樣頻率可設(shè)定為4000赫茲。
M0、視頻會議終端對采樣的發(fā)言者音頻進行語音識別,獲得與采樣的發(fā)言者音頻 對應(yīng)的文字信息;
在實際應(yīng)用中,可在數(shù)據(jù)庫中存儲標準文字音頻(例如普通話),還可存儲各種方 言的文字音頻,視頻會議終端可將該采樣的發(fā)言者音頻與數(shù)據(jù)庫中存儲的文字音頻進行匹 配,獲得采樣的發(fā)言者音頻對應(yīng)的文字信息,當然亦可采用其它語音識別技術(shù),獲得與采樣 的發(fā)言者音頻對應(yīng)的文字信息。
550、視頻會議終端將獲得的與采樣的發(fā)言者音頻對應(yīng)的文字信息,與提詞字幕文 件包含的提詞字幕信息進行匹配;
在實際應(yīng)用中,可根據(jù)情況設(shè)定一個匹配度閾值(例如85%、90%或其它值),當 匹配度大于該設(shè)定的匹配度閾值時,則確認兩者相匹配,視頻會議終端將獲得的與采樣的 發(fā)言者音頻對應(yīng)的文字信息,與提詞字幕文件包含的提詞字幕信息進行匹配,當獲得的與 采樣的發(fā)言者音頻對應(yīng)的文字信息,與提詞字幕文件包含的提詞字幕信息的某一部分的匹 配度大于設(shè)定匹配度閾值時,確定獲得的與采樣的發(fā)言者音頻對應(yīng)的文字信息,與提詞字 幕文件包含的提詞字幕信息的該部分相匹配。
560、視頻會議終端根據(jù)匹配結(jié)果,在視頻會議終端顯示的遠端會議視頻的指定區(qū) 域,顯示提詞字幕文件包含的提詞字幕信息中,與當前采樣的發(fā)言者音頻對應(yīng)的文字信息 相匹配部分的下一部分提詞字幕信息(可以是下一句,下幾句或下一段等)。
當然,視頻會議終端同時也還可顯示提詞字幕文件包含的提詞字幕信息中,與當 前采樣的發(fā)言者音頻對應(yīng)的文字信息相匹配部分。具體顯示場景可如圖3-b所示,可實現(xiàn) 發(fā)言者發(fā)言文字的同步提詞。
在一種應(yīng)用場景下,視頻會議終端還可將提詞字幕文件包含的提詞字幕信息中, 與當前采樣的發(fā)言者音頻對應(yīng)的文字信息相匹配部分對應(yīng)的提詞字幕信息,疊加到本地會 議視頻的指定區(qū)域,得到本地疊加視頻;將該本地疊加視頻進行編碼并向視頻會議的遠端 視頻會議終端發(fā)送。
在實際應(yīng)用中,若提詞字幕文件為提詞字幕圖片,視頻會議終端可將當前滾動顯 示的提詞字幕圖片切分成多塊(可按照特定大小進行切割,或,可根據(jù)發(fā)言者當前的發(fā)言 文字,將發(fā)言者當前發(fā)言文字所對應(yīng)位置的提詞字幕圖片的那部分切分下來),并將其疊加 到本地會議視頻的指定區(qū)域,得到本地疊加視頻;將該本地疊加視頻進行編碼并向遠端視 頻會議終端(遠端視頻會議終端指的是當前會議中除視頻會議終端外的其它一個或多個 視頻會議終端)發(fā)送,該本地疊加視頻可直接發(fā)送到遠端視頻會議終端,或者可通過中間 設(shè)備進行相應(yīng)處理后轉(zhuǎn)發(fā)給遠端視頻會議終端,而遠端視頻會議遠端則在顯示發(fā)言視頻時 即可顯示出發(fā)言者的發(fā)言內(nèi)容。這樣,可實現(xiàn)向其它與會者實時呈現(xiàn)發(fā)言內(nèi)容的功能,亦可 省去后臺編輯字幕的工作。
進一步的,視頻會議終端還可實時的或根據(jù)發(fā)言者指令,顯示提詞字幕文件當前 滾動顯示進度的提示標記(該提示標記例如可以是圖標、文字或其它形式),以便發(fā)言者實 時了解當前發(fā)言的進度,還剩余多少發(fā)言內(nèi)容等。視頻會議終端還可顯示發(fā)言時間信息,以 便發(fā)言者實時了解其已發(fā)言多久。
由上可見,本實施例中由視頻會議終端直接獲取包含發(fā)言所需的提詞信息的提詞 字幕文件,在接收提詞指令后,采樣發(fā)言者音頻;對采樣的發(fā)言者音頻進行語音識別,獲得與采樣的發(fā)言者音頻對應(yīng)的文字信息;將獲得的與采樣的該發(fā)言者音頻對應(yīng)的文字信息, 與提詞字幕文件包含的提詞字幕信息進行匹配;根據(jù)匹配結(jié)果,在視頻會議終端顯示的遠 端會議視頻的指定區(qū)域,顯示該提詞字幕文件包含的提詞字幕信息中,與當前采樣的發(fā)言 者音頻對應(yīng)的文字信息相匹配部分的下一部分提詞字幕信息。由于引入音頻識別技術(shù)和根 據(jù)發(fā)言者語音的實時滾動顯示機制,在遠端會議視頻的指定區(qū)域滾動顯示提詞字幕,可實 現(xiàn)自動實時的提詞,并且有利于在清晰顯示提詞字幕的同時,不影響到遠端會議視頻的正 常觀看,較大的提升會議體驗;并且,由于可利用會議終端固有硬件資源實現(xiàn)提詞功能,可 降低視頻會議中提詞功能的硬件實現(xiàn)成本和系統(tǒng)復雜度,提高會場部署靈活性。
為便于更好的實時本發(fā)明上述實施例的技術(shù)方案,本發(fā)明實施例下面還提供可實 施上述技術(shù)方案的相關(guān)裝置。
實施例五
參見圖6、本發(fā)明實施例五提供的一種視頻會議終端600,可以包括第二獲取模 塊610、接收模塊620、采樣模塊630、語音識別模塊640、匹配模塊650和顯示控制模塊660。
其中,第二獲取模塊610,用于獲取提詞字幕文件;
在實際應(yīng)用中,第二獲取模塊610獲取的包含發(fā)言者發(fā)言所需的提詞信息的提詞 字幕文件的格式可以是圖片,文檔或其它格式。
在一種應(yīng)用場景下,若第二獲取模塊610獲取到的提詞字幕文件為提詞字幕文 檔,視頻會議終端600可不對其進行編輯處理;若第二獲取模塊610獲取到的提詞字幕文件 為提詞字幕圖片,則視頻會議終端600還可包括編輯處理模塊,用于對提詞字幕圖片進行 編輯處理,對提詞字幕圖片進行編輯處理的方式可參考上述實施例一至三中的描述,此處 不再贅述。
接收模塊620,用于接收提詞指令;
采樣模塊630,用于采樣發(fā)言者音頻;
在實際應(yīng)用中,采樣模塊630可通過拾音裝置,采樣發(fā)言者音頻,采樣頻率可根據(jù) 具體情況具體設(shè)置,例如采樣頻率可設(shè)定為4000赫茲。當然,采樣模塊630亦可通過其它 現(xiàn)有的音頻采樣機制,采樣發(fā)言者音頻。
語音識別模塊640,用于對采樣模塊630采樣的發(fā)言者音頻進行語音識別,獲得與 采樣的發(fā)言者音頻對應(yīng)的文字信息;
在實際應(yīng)用中,例如可在數(shù)據(jù)庫中存儲標準文字音頻(例如普通話),還可存儲各 種方言的文字音頻,語音識別模塊640可將該采樣的發(fā)言者音頻與數(shù)據(jù)庫中存儲的文字音 頻進行匹配,獲得采樣的發(fā)言者音頻對應(yīng)的文字信息,當然語音識別模塊640亦可采用其 它語音識別技術(shù),獲得與采樣的發(fā)言者音頻對應(yīng)的文字信息。當然,語音識別模塊640亦可 通過其它現(xiàn)有的一種或多種語音識別模塊,對采樣模塊630采樣的發(fā)言者音頻進行語音識 別,獲得與采樣的發(fā)言者音頻對應(yīng)的文字信息。
匹配模塊650,用于將語音識別模塊640獲得的與采樣的該發(fā)言者音頻對應(yīng)的文 字信息,與提詞字幕文件包含的提詞字幕信息進行匹配;
在實際應(yīng)用中,可根據(jù)情況設(shè)定一個匹配度閾值(例如85%、90%或其它值),當 匹配度大于該設(shè)定的匹配度閾值時,則確認兩者相匹配,匹配模塊650將語音識別模塊640 獲得的與采樣的發(fā)言者音頻對應(yīng)的文字信息,與提詞字幕文件包含的提詞字幕信息進行匹配,當語音識別模塊640獲得的與采樣的發(fā)言者音頻對應(yīng)的文字信息,與提詞字幕文件包 含的提詞字幕信息的某一部分的匹配度大于設(shè)定匹配度閾值時,確定語音識別模塊640獲 得的與采樣的發(fā)言者音頻對應(yīng)的文字信息,與提詞字幕文件包含的提詞字幕信息的該部分 相匹配。
顯示控制模塊660,用于根據(jù)匹配模塊的匹配結(jié)果,在視頻會議終端600顯示的遠 端會議視頻的指定區(qū)域,顯示上述提詞字幕文件包含的提詞字幕信息中,與當前采樣的發(fā) 言者音頻對應(yīng)的文字信息相匹配部分的下一部分提詞字幕信息(可以是下一句,下幾句或 下一段等)。
當然,顯示控制模塊660同時也還可顯示提詞字幕文件包含的提詞字幕信息中, 與當前采樣的發(fā)言者音頻對應(yīng)的文字信息相匹配部分。具體顯示場景可如圖3-b所示,可 實現(xiàn)發(fā)言者發(fā)言文字的同步提詞。
在一種應(yīng)用場景下,視頻會議終端600還可包括視頻疊加模塊(圖6中未示出)。
視頻疊加模塊,用于將提詞字幕文件包含的提詞字幕信息中,與當前采樣的發(fā)言 者音頻對應(yīng)的文字信息相匹配部分對應(yīng)的提詞字幕信息,疊加到本地會議視頻的指定區(qū) 域,得到本地疊加視頻;將該本地疊加視頻進行編碼并向視頻會議的遠端視頻會議終端發(fā) 送。
進一步的,視頻會議終端600還可包括進度提示模塊(圖6中未示出)。
其中,進度提示模塊,用于實時的或根據(jù)發(fā)言者指令,顯示提詞字幕文件當前滾動 顯示進度的提示標記(該提示標記例如可以是圖標、文字或其它形式),以便發(fā)言者實時了 解當前發(fā)言的進度,還剩余多少發(fā)言內(nèi)容等。
進一步的,進度提示模塊還可顯示發(fā)言時間信息,以便發(fā)言者實時了解其已發(fā)言 多久。
需要說明的是,本實施例的視頻會議終端600可如上述方法實施例四中的視頻會 議終端,可以用于實現(xiàn)上述方法實施例中的全部技術(shù)方案,其各個功能模塊的功能可以根 據(jù)上述方法實施例中的方法具體實現(xiàn),其具體實現(xiàn)過程可參照上述實施例中的相關(guān)描述, 此處不再贅述。
由上可見,本實施例中由視頻會議終端600直接獲取包含發(fā)言所需的提詞信息的 提詞字幕文件,在接收提詞指令后,采樣發(fā)言者音頻;對采樣的發(fā)言者音頻進行語音識別, 獲得與采樣的發(fā)言者音頻對應(yīng)的文字信息;將獲得的與采樣的該發(fā)言者音頻對應(yīng)的文字信 息,與提詞字幕文件包含的提詞字幕信息進行匹配;根據(jù)匹配結(jié)果,在視頻會議終端600顯 示的遠端會議視頻的指定區(qū)域,顯示該提詞字幕文件包含的提詞字幕信息中,與當前采樣 的該發(fā)言者音頻對應(yīng)的文字信息相匹配部分的下一部分提詞字幕信息。由于引入音頻識別 技術(shù)和根據(jù)發(fā)言者語音的實時滾動顯示機制,在遠端會議視頻的指定區(qū)域滾動顯示提詞字 幕,可實現(xiàn)自動實時的提詞,并且有利于在清晰顯示提詞字幕的同時,不影響到遠端會議視 頻的正常觀看,較大的提升會議體驗;并且,由于可利用會議終端固有硬件資源實現(xiàn)提詞功 能,可降低視頻會議中提詞功能的硬件實現(xiàn)成本和系統(tǒng)復雜度,提高會場部署靈活性。
需要說明的是,對于前述的各方法實施例,為了簡單描述,故將其都表述為一系列 的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動作順序的限制,因為 依據(jù)本發(fā)明,某些步驟可以采用其他順序或者同時進行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本發(fā)明 所必須的。
在上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳述的部 分,可以參見其他實施例的相關(guān)描述。
綜上,本發(fā)明實施例提供的一種技術(shù)方案中,由視頻會議終端直接獲取包含發(fā)言 所需的提詞信息的提詞字幕圖片,并按指定的順序?qū)⒕庉嬏幚淼玫教嵩~字幕圖片數(shù)據(jù)緩存 到視頻會議終端顯存中,在接收提詞指令后,在遠端會議視頻的指定區(qū)域,按照顯存中指定 的圖片顯示順序滾動顯示提詞字幕圖片,由于是直接以包含發(fā)言所需的提詞信息的提詞字 幕圖片為基礎(chǔ)進行處理,處理復雜度可適當降低;由于引入了滾動顯示機制,在遠端會議視 頻的指定區(qū)域滾動顯示提詞字幕圖片,有利于在清晰顯示提詞字幕的同時,不影響到遠端 會議視頻的正常觀看,進而提升會議體驗;并且,由于可利用視頻會議終端固有硬件資源實 現(xiàn)提詞功能,可降低視頻會議中提詞功能的硬件實現(xiàn)成本和系統(tǒng)復雜度,提高會場部署靈 活性。
本發(fā)明實施例提供的另一種技術(shù)方案中,由視頻會議終端直接獲取包含發(fā)言所需 的提詞信息的提詞字幕文件,在接收提詞指令后,采樣發(fā)言者音頻;對采樣的發(fā)言者音頻進 行語音識別,獲得與采樣的發(fā)言者音頻對應(yīng)的文字信息;將獲得的與采樣的該發(fā)言者音頻 對應(yīng)的文字信息,與提詞字幕文件包含的提詞字幕信息進行匹配;根據(jù)匹配結(jié)果,在視頻會 議終端顯示的遠端會議視頻的指定區(qū)域,顯示該提詞字幕文件包含的提詞字幕信息中,與 當前采樣的發(fā)言者音頻對應(yīng)的文字信息相匹配部分的下一部分提詞字幕信息。由于引入音 頻識別技術(shù)和根據(jù)發(fā)言者語音的實時滾動顯示機制,在遠端會議視頻的指定區(qū)域滾動顯示 提詞字幕,可實現(xiàn)自動實時的提詞,并且有利于在清晰顯示提詞字幕的同時,不影響到遠端 會議視頻的正常觀看,較大的提升會議體驗;并且,由于可利用會議終端固有硬件資源實現(xiàn) 提詞功能,可降低視頻會議中提詞功能的硬件實現(xiàn)成本和系統(tǒng)復雜度,提高會場部署靈活 性。
進一步的,會議終端支持基于手動或自動模式下的滾動速率控制機制,滾動顯示 提詞字幕圖片,實現(xiàn)靈活性較高。
本領(lǐng)域普通技術(shù)人員可以理解上述實施例的各種方法中的全部或部分步驟是可 以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于一計算機可讀存儲介質(zhì)中,存儲 介質(zhì)可以包括只讀存儲器、隨機存儲器、磁盤或光盤等。
以上對本發(fā)明實施例所提供的實現(xiàn)視頻會議中提詞的方法以及裝置進行了詳細 介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明 只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本 發(fā)明的思想,在具體實施方式
及應(yīng)用范圍上均會有改變之處,綜上,本說明書內(nèi)容不應(yīng)理解 為對本發(fā)明的限制。
權(quán)利要求
1.一種實現(xiàn)視頻會議中提詞的方法,其特征在于,包括 視頻會議終端獲取至少一個提詞字幕圖片;對所述至少一個提詞字幕圖片進行編輯處理,并按照指定的圖片顯示順序?qū)⒔?jīng)過編輯 處理的所述提詞字幕圖片緩存到所述視頻會議終端的顯存中; 接收提詞指令;根據(jù)所述提詞指令,在所述視頻會議終端顯示的遠端會議視頻的指定區(qū)域,按照顯存 中指定的圖片顯示順序,滾動顯示經(jīng)過編輯處理的所述提詞字幕圖片。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述滾動顯示經(jīng)過編輯處理的所述提詞 字幕圖片,包括基于預定的滾動速率,滾動顯示經(jīng)過編輯處理的所述提詞字幕圖片; 或者,基于與發(fā)言者語速相匹配的滾動速率,滾動顯示經(jīng)過編輯處理的所述提詞字幕 圖片;或者,根據(jù)發(fā)言者滾動顯示控制指令,滾動顯示經(jīng)過編輯處理的所述提詞字幕圖片。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于與發(fā)言者語速相匹配的滾動速率,滾動顯示經(jīng)過編輯處理的所述提詞字幕圖 片,包括采樣發(fā)言者音頻;對所述采樣的發(fā)言者音頻進行語音識別,獲得與采樣的所述發(fā)言者音頻對應(yīng)的文字信息;將獲得的與采樣的所述發(fā)言者音頻對應(yīng)的文字信息,與經(jīng)過編輯處理的所述提詞字幕 圖片所能呈現(xiàn)的提詞字幕信息進行匹配;根據(jù)匹配結(jié)果,顯示經(jīng)過編輯處理的所述提詞字幕圖片所能呈現(xiàn)的提詞字幕信息中, 與當前采樣的所述發(fā)言者音頻對應(yīng)的文字信息相匹配部分的下一部分提詞字幕信息的對 應(yīng)圖片位置。
4.根據(jù)權(quán)利要求1至3任一項所述的方法,其特征在于,所述方法還包括將當前滾動顯示的經(jīng)過編輯處理的所述提詞字幕圖片切分成多塊,并將其疊加到本地 會議視頻的指定區(qū)域,得到本地疊加視頻;將所述本地疊加視頻進行編碼并向遠端視頻會議終端發(fā)送。
5.根據(jù)權(quán)利要求1至3任一項所述的方法,其特征在于,所述對所述至少一個提詞字幕 圖片進行編輯處理,包括將所述至少一個提詞字幕圖片編輯處理成帶α信息的提詞字幕圖片。
6.一種實現(xiàn)視頻會議中提詞的方法,其特征在于,包括 視頻會議終端獲取提詞字幕文件;接收提詞指令; 采樣發(fā)言者音頻;對所述采樣的發(fā)言者音頻進行語音識別,獲得與采樣的所述發(fā)言者音頻對應(yīng)的文字信息;將獲得的與采樣的所述發(fā)言者音頻對應(yīng)的文字信息,與提詞字幕文件包含的提詞字幕 信息進行匹配;根據(jù)匹配結(jié)果,在所述視頻會議終端顯示的遠端會議視頻的指定區(qū)域,顯示所述提詞 字幕文件包含的提詞字幕信息中,與當前采樣的所述發(fā)言者音頻對應(yīng)的文字信息相匹配部 分的下一部分提詞字幕信息。
7.一種視頻會議終端,其特征在于,包括 獲取模塊,用于獲取至少一個提詞字幕圖片;處理緩存模塊,用于對所述獲取模塊獲取的至少一個提詞字幕圖片進行編輯處理,并 按照指定的圖片顯示順序?qū)⒔?jīng)過編輯處理的所述提詞字幕圖片緩存到所述視頻會議終端 顯存中;接收模塊,用于接收提詞指令;滾動顯示模塊,用于根據(jù)所述接收模塊接收的提詞指令,在所述視頻會議終端顯示的 遠端會議視頻的指定區(qū)域,按照顯存中指定的圖片顯示順序,滾動顯示經(jīng)過編輯處理的所 述提詞字幕圖片。
8.根據(jù)權(quán)利要求7所述的視頻會議終端,其特征在于, 所述滾動顯示模塊包括第一滾動顯示子模塊,用于根據(jù)所述接收模塊接收的提詞指令,在所述視頻會議終端 顯示的遠端會議視頻的指定區(qū)域,按照顯存中指定的圖片顯示順序,基于預定的滾動速率 滾動顯示經(jīng)過編輯處理的所述提詞字幕圖片; 或者,第二滾動顯示子模塊,用于根據(jù)所述接收模塊接收的提詞指令,在所述視頻會議終端 顯示的遠端會議視頻的指定區(qū)域,按照顯存中指定的圖片顯示順序,基于與發(fā)言者語速相 匹配的滾動速率,滾動顯示經(jīng)過編輯處理的所述提詞字幕圖片; 或者,第三滾動顯示子模塊,用于根據(jù)所述接收模塊接收的提詞指令,在所述視頻會議終端 顯示的遠端會議視頻的指定區(qū)域,按照顯存中指定的圖片顯示順序,根據(jù)發(fā)言者滾動顯示 控制指令,滾動顯示經(jīng)過編輯處理的所述提詞字幕圖片。
9.根據(jù)權(quán)利要求8所述的視頻會議終端,其特征在于, 第二滾動顯示子模塊,包括采樣子模塊,用于采樣發(fā)言者音頻;語音識別子模塊,用于將所述采樣子模塊采樣的發(fā)言者音頻進行語音識別,獲得與采 樣的所述發(fā)言者音頻對應(yīng)的文字信息;匹配子模塊,用于對所述語音識別子模塊獲得的與采樣的所述發(fā)言者音頻對應(yīng)的文字 信息,與經(jīng)過編輯處理的所述提詞字幕圖片所能呈現(xiàn)的提詞字幕信息進行匹配;顯示控制子模塊,用于根據(jù)所述匹配子模塊的匹配結(jié)果,顯示經(jīng)過編輯處理的所述提 詞字幕圖片所能呈現(xiàn)的提詞字幕信息中,與當前采樣的所述發(fā)言者音頻對應(yīng)的文字信息相 匹配部分的下一部分提詞字幕信息的對應(yīng)圖片位置。
10.根據(jù)權(quán)利要求7至9任一項所述的視頻會議終端,其特征在于, 所述視頻會議終端還包括本地視頻疊加模塊,用于將滾動顯示模塊當前滾動顯示的經(jīng)過編輯處理的所述提詞字 幕圖片切分成多塊,并將其疊加到本地會議視頻的指定區(qū)域,得到本地疊加視頻;發(fā)送模塊,用于將所述本地視頻疊加模塊得到的本地疊加視頻進行編碼并向遠端視頻 會議終端發(fā)送。
11. 一種視頻會議終端,其特征在于,包括 第二獲取模塊,用于獲取提詞字幕文件; 接收模塊,用于接收提詞指令; 采樣模塊,用于采樣發(fā)言者音頻;語音識別模塊,用于對所述采樣模塊采樣的發(fā)言者音頻進行語音識別,獲得與采樣的 所述發(fā)言者音頻對應(yīng)的文字信息;匹配模塊,用于將所述語音識別模塊獲得的與采樣的所述發(fā)言者音頻對應(yīng)的文字信 息,與提詞字幕文件包含的提詞字幕信息進行匹配;顯示控制模塊,用于根據(jù)所述匹配模塊的匹配結(jié)果,在所述視頻會議終端顯示的遠端 會議視頻的指定區(qū)域,顯示所述提詞字幕文件包含的提詞字幕信息中,與當前采樣的所述 發(fā)言者音頻對應(yīng)的文字信息相匹配部分的下一部分提詞字幕信息。
全文摘要
本發(fā)明實施例公開了實現(xiàn)視頻會議中提詞的方法以及會場終端。其中,一種實現(xiàn)視頻會議中提詞的方法,包括視頻會議終端獲取至少一個提詞字幕圖片;對該至少一個提詞字幕圖片進行編輯處理,并按照指定的圖片顯示順序?qū)⒔?jīng)過編輯處理的提詞字幕圖片緩存到所述本地會場終端的顯存中;接收提詞指令;根據(jù)該提詞指令,在本地會場終端顯示的遠端會議視頻的指定區(qū)域,按照顯存中指定的圖片顯示順序,滾動顯示經(jīng)過編輯處理的該提詞字幕圖片。本發(fā)明實施例提供的技術(shù)方案有利于降低視頻會議中提詞功能的實現(xiàn)成本和復雜度,提高會場部署靈活性。
文檔編號H04N7/15GK102036051SQ201010596209
公開日2011年4月27日 申請日期2010年12月20日 優(yōu)先權(quán)日2010年12月20日
發(fā)明者戴華波, 王海濤 申請人:華為終端有限公司