專利名稱:語音留言與傳達(dá)的系統(tǒng)與方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語音留 目與傳達(dá)(leaving and transmitting speech messages) 的系統(tǒng)與方法。
背景技術(shù):
留言與傳達(dá)是日常生活中常見的活動,常見的運用方式包含了寫便條紙、電子郵 件、電話留言與錄音機(jī)等方式,在這類的運用中,留言者與被傳達(dá)者通常非同一人。另一類 的運用方式如行事歷(Calendar)或電子行事歷(Electronic Calendar),則以自我提醒為 主要的應(yīng)用,例如留言給自己并傳達(dá)給自己。不論上述哪一類的應(yīng)用,留言內(nèi)容通常都不是 馬上要處理的,也因此接收留言的人(被傳達(dá)者)常會因為某些原因遺忘留言所交待的訊 息,或者因所處地點的關(guān)系,接收留言的人無法適時接收到留言。因此,要提高留言與傳達(dá) 的功效,在適當(dāng)?shù)臅r間通過適當(dāng)?shù)膫鬟f管道傳達(dá)至接收留言的人會是較佳的解決方案。這種留言與傳達(dá)也可應(yīng)用在主動關(guān)懷或居家照護(hù)上,譬如,家中年長者需給予吃 藥提醒或囑咐學(xué)童需按時完成家庭作業(yè)等。將這種留言與傳達(dá)運用在具備行動能力的家用 機(jī)器人上,更是目前社會所能夠運用的,若結(jié)合機(jī)器人的行動能力,可將留言訊息以更適切 的方式傳達(dá)給家中成員,并且達(dá)到主動關(guān)懷與照護(hù)的目的之一。有許多關(guān)于語音留言與傳達(dá)的現(xiàn)有技術(shù),例如,美國專利號US6324261的文獻(xiàn)中, 揭示了一種留言錄音與播放的硬件架構(gòu),是搭配傳感器來運作,沒有進(jìn)行留言解析或重組 等,其操作以硬件按鍵來實施,而非主動播放。美國專利號7327834揭示的一種具有相互通 信功能的訊息傳達(dá)系統(tǒng)中,其使用的操作方式需要使用者明確定義收件者、日期時間、以及 事件訊息與傳遞訊息等項目。美國專利號7394405的文獻(xiàn)中,揭示了一種與地域相關(guān)的訊息通知系統(tǒng)“System For Providing Location-Based Notifications”。如圖 1 的范例所示,在裝設(shè)有此訊息 通知系統(tǒng)的車輛102中,其操作需要使用者輸入標(biāo)頭信息(header information) 104,來 定義通知型態(tài)、有效日期(expiration date)、重要性(importance)與語音記錄(speech recording) 106,并搭配一地域檢測裝置(location detection device)如GPS,來決定通知 訊息的輸入裝置目前所在的地理位置。當(dāng)輸入裝置目前所在的地理位置與傳達(dá)通知訊息的 位置110接近至一閾值(threshold)范圍108內(nèi)時,則傳達(dá)通知訊息。中國專利申請?zhí)?006101對四6. 3的文獻(xiàn)中,揭示了一種基于語音識別技術(shù)的智 能化家居語音記錄及提醒系統(tǒng)。如圖2的范例所示,此系統(tǒng)包含一語音接收模塊210、一系 統(tǒng)控制模塊220,以及一語音輸出模塊230三個部份。此系統(tǒng)根據(jù)預(yù)定義規(guī)則,對用戶發(fā)出 的語音信號進(jìn)行辨識,分辨是否為控制語音或信息語音,并對語音數(shù)據(jù)進(jìn)行個性化處理與 傳達(dá)用戶,從而實現(xiàn)直接通過語音進(jìn)行控制,完成自動留言、日記及預(yù)約提醒等功能。在操 作上給定兩控制語音,即開始留言與結(jié)束留言,于兩控制語音所夾的為信息語音。臺灣專利號1242977的文獻(xiàn)中,揭示了一種語音行事歷系統(tǒng)。如圖3的范例所示, 語音行事歷系統(tǒng)300包含一因特網(wǎng)服務(wù)器311、一計算機(jī)電話整合服務(wù)器312、以及一語音合成服務(wù)器313,服務(wù)器311、312、313皆連接至一通信網(wǎng)路31,是一種處理因特網(wǎng)與電信網(wǎng) 絡(luò)之間訊息傳遞的語音行事歷系統(tǒng)。因特網(wǎng)服務(wù)器311連接至因特網(wǎng)32,以處理因特網(wǎng)用 戶34與系統(tǒng)300的通信作業(yè),如電子郵件的收發(fā),此電子郵件包含一行事歷事件,此行事歷 事件包含通知訊息與設(shè)定時間,其中通知訊息可為文字訊息或預(yù)錄的語音文件,而文字訊 息是以語音合成技術(shù)合成語音文件,并將語音文件播放于電信網(wǎng)絡(luò)33的通訊中。計算機(jī)電 話整合服務(wù)器312連接至電信網(wǎng)絡(luò)33,以處理電信網(wǎng)絡(luò)用戶35與系統(tǒng)300的電話響應(yīng)。綜合上述及其它多個現(xiàn)有技術(shù)文獻(xiàn)的說明,最常見的留言與傳達(dá)是使用者按照事 先定義的規(guī)則輸入留言與傳達(dá)信息,包括收件者、日期時間、事件訊息與傳遞訊息的方式 等;其次是利用語音辨識,依預(yù)定義的規(guī)則輸入語音信息。
發(fā)明內(nèi)容
本發(fā)明的實施范例可提供一種語音留言與傳達(dá)的系統(tǒng)與方法。在一實施范例中,所揭示的是關(guān)于一種語音留言與傳達(dá)的系統(tǒng),此系統(tǒng)包含 一命令或訊息咅Ij 析器(command or message parser)、一傳送控制器(transmitting controller) > 一訊息合成器(message composer)、以及至少一訊息傳送裝置(message transmitting device),命令或訊息剖析器分別連接至傳送控制器與訊息合成器。命 令或訊息剖析器從至少一留言者(reminder)的輸入語音,剖析出多項信息(tag information),至少包括至少一留言者身份(reminder ID)、至少一留言傳達(dá)命令 (transmitted command)、以及至少一留 g '訊息語音(speech message);訊息合成器將此多 項信息合成出一傳達(dá)訊息語音(transmitted message speech);傳送控制器根據(jù)至少一留 言者身份與至少一留言傳達(dá)命令,控制一裝置切換組件(device switch),使傳達(dá)訊息語音 經(jīng)由至少一個訊息傳送裝置中的一訊息傳送裝置,而被傳送到至少一接收留言者。在另一實施范例中,所揭示的是關(guān)于一種語音留言與傳達(dá)的方法,此方法包含從 至少一留言者的輸入語音,剖析出多項信息,此多項信息至少包括至少一留言者身份、至少 一留言傳達(dá)命令、以及至少一留言訊息語音;將此多項信息合成一傳達(dá)訊息語音;以及根 據(jù)此至少一留言語者身份與此至少一留言傳達(dá)命令,控制一裝置切換組件,使此傳達(dá)訊息 語音經(jīng)由此至少一訊息傳送裝置中的一訊息傳送裝置,而被傳送到至少一接收留言者?,F(xiàn)結(jié)合下列附圖、實施范例的詳細(xì)說明及權(quán)利要求,將本發(fā)明的上述及其它優(yōu)點 詳述于后。
圖1是一種與地域相關(guān)的訊息通知系統(tǒng)的一個范例示意圖。圖2是一種基于語音識別技術(shù)的智能化家居語音記錄及提醒系統(tǒng)的一個范例示 意圖。圖3是一種語音行事歷系統(tǒng)的一個范例示意圖。圖4是語音留言與傳達(dá)的系統(tǒng)的一個范例示意圖,與所揭示的某些實施范例一 致。圖5以一個工作范例來說明于留言與傳達(dá)兩階段的運作,與所揭示的某些實施范
例一致。
圖6A至圖6D是幾種傳達(dá)與回饋的運作范例,與所揭示的某些實施范例一致。圖7是一個范例示意圖,說明命令或訊息剖析器的結(jié)構(gòu),與所揭示的某些實施范
例一致。圖8A至圖8C是三種實現(xiàn)語音內(nèi)容擷取器的范例架構(gòu)示意圖,與所揭示的某些實 施范例一致。圖9是混態(tài)文字的數(shù)據(jù)結(jié)構(gòu)的一個范例示意圖,與所揭示的某些實施范例一致。圖10是文字內(nèi)容分析器的一個范例架構(gòu)示意圖,與所揭示的某些實施范例一致。圖11是一個范例示意圖,以一混態(tài)文字的范例來說明概念序列重組模塊如何重 新編輯與分析混態(tài)文字的內(nèi)容,與所揭示的某些實施范例一致。圖12是一個范例示意圖,說明概念序列選擇模塊如何將概念序列進(jìn)行概念分?jǐn)?shù) 的計算,與所揭示的某些實施范例一致。圖13A至圖13C是確認(rèn)接口的幾種輸出與輸入的范例示意圖,與所揭示的某些實 施范例一致。圖14以一個工作范例來說明于傳送控制器的運作,與所揭示的某些實施范例一致。圖15是承圖14的范例,來說明當(dāng)傳達(dá)條件不被滿足時,傳送控制器的運作,與所 揭示的某些實施范例一致。圖16是訊息合成器的一個范例示意圖,與所揭示的某些實施范例一致。圖17是一個范例示意圖,說明當(dāng)傳達(dá)條件不被滿足而無法以『留言指定』的方式 來完成傳達(dá)時,訊息合成器的運作,與所揭示的某些實施范例一致。圖18是多個留言者輸入語音留言后,傳達(dá)給單一留言對象時,訊息合成器進(jìn)行文 句合成的一個范例示意圖,與所揭示的某些實施范例一致。圖19是一范例流程圖,說明語音留言與傳達(dá)方法,與所揭示的某些實施范例一 致。附圖符號說明102 車輛106語音記錄110傳達(dá)通知訊息的位置210語音接收模塊230語音輸出模塊300語音行事歷系統(tǒng)312計算機(jī)電話整合服務(wù)器31通信網(wǎng)路;34因特網(wǎng)用戶35電信網(wǎng)絡(luò)用戶400留言與傳達(dá)系統(tǒng)404輸入語音412留言者身份416留言訊息語音
104標(biāo)頭信息 108閾值范圍
220系統(tǒng)控制模塊
311因特網(wǎng)服務(wù)器 313語音合成服務(wù)器 32因特網(wǎng) 33電信網(wǎng)絡(luò)
402留言者
410命令或訊息剖析器 414留言傳達(dá)命令 420傳送控制器
430訊息合成器432傳達(dá)訊息語音432a留言訊息432b饋回訊息440訊息傳送裝置450裝置切換組件512媽媽514留言語音516多項信息522定時器532麥克風(fēng)534影像擷取裝置536指紋檢測裝置538射頻識別標(biāo)簽540爸爸542手機(jī)552設(shè)備開關(guān)710語音內(nèi)容擷取器712混態(tài)文字720文字內(nèi)容分析器730確認(rèn)界面812語者識別模塊814語音辨識模塊816信心值量測模塊818語者語音數(shù)據(jù)庫822進(jìn)行聲學(xué)模型挑選擬4挑選出聲學(xué)模型826語者相對應(yīng)的聲學(xué)模型828聲學(xué)模型加調(diào)整參數(shù)830語者相關(guān)的語音辨識模塊842搜尋空間834語音辨識詞匯836文法838最大相似度分?jǐn)?shù)846語者相對應(yīng)的聲學(xué)模型848語者相對應(yīng)的聲學(xué)模型加調(diào)整參數(shù)1010概念序列重組模塊1012概念整合文法1014范例概念序列語料庫1016概念序列1018信心值1020概念序列選擇模塊1022n-gram概念分?jǐn)?shù)1024訊息或垃圾分辨文法1026由語意框組成的最佳概念序列1110混態(tài)文字實例1112概念整合文法范例1114范例概念序列語料庫范例1116概念序列與信心值1118概念序列與信心值范例1210概念序列和對應(yīng)的總分?jǐn)?shù)范例1218最佳概念序列和對應(yīng)的總分?jǐn)?shù)范例1220概念表格1310語意框1410訊息數(shù)據(jù)庫1420語音訊息紀(jì)錄1430感測裝置1432影像攝影機(jī)1434射頻辨別裝置1436定時器裝置1520饋回訊息1540其它傳達(dá)裝置1610語言生成器1620語言生成合成模板數(shù)據(jù)庫1622合成模板數(shù)據(jù)庫范例1630語音合成器1632語音傳達(dá)訊息
1722,1724饋回訊息合成模板1742、1744饋回訊息1720語言生成合成模板數(shù)據(jù)庫1812、1814、1816三筆留言訊息記錄1842傳達(dá)訊息語音范例1910從至少一留言者的輸入語音,剖析出及輸出多項信息,此多項信息至少包括 至少一留言者身份、至少一留言傳達(dá)命令、以及至少一留言訊息語音1920將此多項信息合成一傳達(dá)訊息語音1930根據(jù)此至少一留言語者身份與此至少一留言傳達(dá)命令,控制一裝置切換組 件,使此傳達(dá)訊息語音經(jīng)由此至少一訊息傳送裝置中的一訊息傳送裝置,而被傳送到至少
一接收留言者
具體實施例方式本發(fā)明的實施范例中可提供一種語音留言與傳達(dá)的系統(tǒng)與方法。在本發(fā)明的實施 范例中,留言者以連續(xù)自然語言對話的方式輸入留言語音至本發(fā)明的系統(tǒng)中,本系統(tǒng)自動 解析留言語音后,取出多項信息,包括如留言對象、時間、事件訊息等信息,然后依留言者希 望傳達(dá)的條件,例如指定的時間范圍內(nèi)與傳達(dá)方式等,傳達(dá)留言訊息給接收留言的人。圖4是語音留言與傳達(dá)的系統(tǒng)的一個范例示意圖,與所揭示的某些實施范例一 致。圖4的范例中,留言與傳達(dá)系統(tǒng)400包含一命令或訊息剖析器410、一傳送控制器420、 一訊息合成器430、以及至少一個訊息傳送裝置440,命令或訊息剖析器430分別連接至傳 送控制器420與訊息合成器430。命令或訊息剖析器410從至少一留言者402的輸入語音404,剖析出多項信息,至 少包括至少一留言者身份412、至少一留言傳達(dá)命令414、以及至少一留言訊息語音416。此 多項信息被輸出至訊息合成器430,以合成出一傳達(dá)訊息語音432。傳送控制器420根據(jù)留言者身份412與留言傳達(dá)命令414,控制一裝置切換組件 450,使傳達(dá)訊息語音432經(jīng)由至少一訊息傳送裝置440,例如訊息傳送裝置1_3等中的一訊 息傳送裝置,而被傳送至一接收留言者,例如,傳達(dá)訊息語音432如果是要被傳達(dá)的留言訊 息(transmitted message) 432a,則將留言訊息43 傳送給留言對象442 ;如果是一饋回訊 息432b,則將饋回訊息(feedback message) 432b饋回給留言者402。命令或訊息剖析器410對至少一留言者402的輸入語音404進(jìn)行辨識時,可識別 出至少一留言者身份412。而對整個語音輸入片段(segment),命令或訊息剖析器410可根 據(jù)給定文法與語音可信度量測,而辨識出指令詞匯(command word)片段與具有音標(biāo)的補白 (phonetic filler)片段;再將補白片段區(qū)分出訊息補白(message filler)片段與垃圾補 白(gartage filler)片段。從指令詞匯片段中,命令或訊息剖析器410可辨識出各種留言 傳達(dá)命令414。根據(jù)訊息補白片段,命令或訊息剖析器410可從輸入語音404中擷取出至少 一留言訊息語音416。留言與傳達(dá)系統(tǒng)400的操作可分為兩個階段,即留言與傳達(dá)。圖5以一個工作范 例來說明此兩階段,與所本發(fā)明的某些實施范例一致。在留言階段時,留言者輸入留言語音至系統(tǒng)400中,圖5的范例中,一位媽媽512 輸入留言語音514,留言語音514為『該倒垃圾了,記得在下午六點以前跟爸爸說』,則留言語音514由命令或訊息剖析器410來接收,并從留言語音514剖析出多項信息516,其中,此 多項信息516包括有(a)留言者身份(記為Who),此例為『媽媽』;(b)留言對象身份(記 為Whom),此例為『爸爸』;(c)留言者要留言給留言對象的語音訊息(記為What,以下簡稱 語音訊息),此例為『該倒垃圾了』;(d)何時(記為When)將語音訊息傳達(dá)給留言對象,此例 為『下午六點以前』;(e)通過何種訊息傳達(dá)方式(記為How)將語音訊息傳達(dá)給留言對象, 此例為『廣播裝置』,是一系統(tǒng)默認(rèn)值。其中,項目(d)與(e)是可選項(optional),可選項 的信息可由系統(tǒng)自動給予預(yù)定值(predefined value) 0對整個語音輸入片段,Who、Whom、 When、以及How是辨識出的指令詞匯片段;而What,即語音訊息,是辨識出的訊息補白片段。當(dāng)命令或訊息剖析器410將留言信息剖析為多項信息516后,將多項信息516先 傳遞給傳送控制器420,此時便完成留言階段的作業(yè)。多項信息516被傳遞給傳送控制器 420之前,命令或訊息剖析器410也可以先執(zhí)行一確認(rèn)(confirmation)動作,來確保此多項 信息的精確性,例如回傳此多項信息并要求一確認(rèn)響應(yīng)(acknowledgement)。在傳達(dá)階段時,傳送控制器420接收命令或訊息剖析器410傳遞的多項信息516 后,先判斷是否有滿足上述項目(b)、(d)的條件。上述范例中,也就是判斷是否有可以滿足 “下午六點以前”將留言內(nèi)容傳達(dá)給“爸爸”的“廣播裝置”。其中,Whom(爸爸)與When(下 午六點以前)是傳送控制器420必須先滿足的兩個條件,這兩條件滿足后,再通過How (廣 播裝置)來進(jìn)行留言訊息的傳達(dá)。是否已滿足此兩條件的判斷可藉由內(nèi)部的感測(sensor) 裝置或與外部的感測裝置相連結(jié)的控制線路來實現(xiàn)。上述范例中,感測裝置例如是定時器522,可用來判斷是否滿足留言傳達(dá)的時間條 件“下午六點以前”。而可用來感測是否為留言對象“爸爸”的感測裝置例如是麥克風(fēng)532、 影像擷取裝置534、指紋檢測裝置536、射頻識別標(biāo)簽538等。麥克風(fēng)532可感測周遭所接 收語音、影像擷取裝置534可擷取周遭影像、使用者可主動按壓指紋檢測裝置536以使系統(tǒng) 擷取使用者指紋、使用者主動攜帶可讓系統(tǒng)識別身分的射頻識別標(biāo)簽538,這些感測數(shù)據(jù)可 用來判斷是否為“爸爸”。因此,傳送控制器420可藉由內(nèi)部的感測裝置或與外部的感測裝 置相連結(jié)的控制線路,以得知是否已滿足Whom與When的傳達(dá)條件。當(dāng)傳送控制器420得知已滿足傳達(dá)條件時,亦即已檢測到留言對象是“爸爸”,并 且留言傳達(dá)的時間是在“下午六點以前”,將前述的Who (媽媽)、Whom(爸爸)、What (媽媽 的留言語音『該倒垃圾了』)等信息傳送給訊息合成器430,并且根據(jù)How(廣播裝置)的 條件去控制一裝置切換組件(device switch) 450,例如,開啟一對應(yīng)的設(shè)備開關(guān)552,使得 訊息合成器430所合成的傳達(dá)訊息語音432可經(jīng)由至少一個訊息傳送裝置440中一對應(yīng)的 訊息傳送裝置,例如手機(jī)M2,被傳送給留言對象,即“爸爸” 5400上述范例中,訊息合成器430接收到Who (媽媽)、Whom (爸爸)、What (『該倒垃圾 了』)等信息后,可從多種合成模板(template)中選出一種合成模板來進(jìn)行留言語音的合 成。以下是訊息合成器430所合成的傳達(dá)訊息語音432的其中一種可能合成的傳達(dá)訊息語 音『爸爸,以下是媽媽給你的留言該倒垃圾了』。此合成語音通過傳送控制器420開啟的 設(shè)備開關(guān)552,經(jīng)由一對應(yīng)的訊息傳送裝置,例如手機(jī)M2,進(jìn)行播送。由于傳送控制器420 已檢測到留言對象(爸爸),所以該留言對象(爸爸)就可以接收到留言者(媽媽)的留言 訊息,此時便完成傳達(dá)階段的作業(yè)。本發(fā)明的留言與傳達(dá)除了上述的單一留言者與單一留言對象的運作外,也可以應(yīng)用在單一或多方傳達(dá)與回饋的運作范例上。單一留言者與多留言對象的運作范例如,媽媽 輸入以下語音留言給家中所有成員「明天早上六點叫大家起床」,其中的留言對象(Whom) 就是家中所有成員。圖6A至圖6D是幾種傳達(dá)與回饋的運作范例,與所揭示的某些實施范 例一致。圖6A是一對一的傳達(dá)范例,其中,單一留言者輸入語音留言后,傳達(dá)給單一留言對 象。圖6B是多對一的傳達(dá)范例,其中,多個留言者輸入語音留言后,傳達(dá)給單一留言對象。 圖6C是多對一的傳達(dá)范例,其中,單一留言者輸入語音留言后,傳達(dá)給多個留言對象。圖6D 是一對一的傳達(dá)與回饋范例,其中,單一留言者輸入語音留言后,傳達(dá)訊息語音是一饋回訊 息,所以直接回饋給該留言者。留言與傳達(dá)系統(tǒng)400的各個模塊的結(jié)構(gòu)與運作,詳細(xì)說明如下。圖7是一個范例示意圖,說明命令或訊息剖析器的結(jié)構(gòu),與所揭示的某些實施范 例一致。參考圖7的范例,命令或訊息剖析器410包含一語音內(nèi)容擷取器(speech content extractor) 710、以及一文字內(nèi)容分析器(text content analyzer) 720。語音內(nèi)容擷取器 710接收留言者402的輸入語音404,并自此輸入語音404中擷取出留言者身分412、輸入 語音對應(yīng)的詞匯(word)與音標(biāo)(phonetic transcription)混合的文字信息(mix-type text,以下簡稱”混態(tài)文字”)712、以及訊息語音416的信息?;鞈B(tài)文字712被傳遞給文字內(nèi)容分析器720后,文字內(nèi)容分析器720從混態(tài)文字 712中分析出前述的Whom、When、How等留言傳達(dá)命令414 (其中的When、How可以是選項)。 留言者身分412、訊息語音416、以及分析出的留言傳達(dá)命令414可直接傳遞給傳送控制器 420、或是經(jīng)確認(rèn)后再傳遞給傳送控制器420,以進(jìn)行傳達(dá)控制處理。此確認(rèn)動作是隨意的, 可確認(rèn)這些被傳遞信息的精確性,可通過如確認(rèn)接口(confirmation interface) 730來要 求一確認(rèn)響應(yīng)。本發(fā)明揭示的語音內(nèi)容擷取器710可以有很多種實現(xiàn)架構(gòu),例如圖8A的范例所 示,可以一語者識別模塊(Speaker Identification) 812、一語音辨識模塊(Automatic Speech Recognition,ASR) 814、以及一信心值量測模塊(Confidence Measure,CM) 816來實 現(xiàn)。其中,語者識別模塊812與語音辨識模塊814分別接收留言者的輸入語音404。語者識 別模塊812將輸入語音404與一預(yù)先訓(xùn)練的語者語音數(shù)據(jù)庫818里的數(shù)據(jù)作比對,來找出 與輸入語音404最為相近者,以識別出留言者身份412。語音辨識模塊814則對輸入語音 404進(jìn)行辨識,以產(chǎn)生混態(tài)文字712。之后,信心值量測模塊816將此輸入語音與混態(tài)文字 712進(jìn)行驗證,以產(chǎn)生各混態(tài)文字相對應(yīng)的信心值,進(jìn)而擷取出訊息語音416。圖8B的范例與圖8A的范例不同之處是,語者識別模塊812先對留言者的輸入語 音404進(jìn)行語者識別,識別出的語者除了直接輸出之外,也可用來挑選該語者所對應(yīng)的聲 學(xué)模型或是聲學(xué)模型加調(diào)整參數(shù),例如進(jìn)行聲學(xué)模型挑選822中,從語者相對應(yīng)的聲學(xué)模 型(acoustic model)擬6或是聲學(xué)模型加調(diào)整參數(shù)(adaptation parameters) 828,挑選出 聲學(xué)模型824,以提供給后續(xù)的語音辨識模塊814使用,讓語音辨識率提高。圖8C的范例是使用一語者相關(guān)的語音辨識模塊(Speaker-d印endent ASR) 830與 信心值量測模塊816進(jìn)行處理。其中,語者相關(guān)的語音辨識模塊830在進(jìn)行語音辨識所使用 的搜尋空間(karch Space) 842是通過語音辨識詞匯834、文法836、以及預(yù)先訓(xùn)練的語者 對應(yīng)的聲學(xué)模型846或是聲學(xué)模型加調(diào)整參數(shù)848等數(shù)據(jù)庫所建構(gòu)而成。然后,在搜尋空 間842中尋找出具有最大相似度分?jǐn)?shù)(maximum likelihood score)838的路徑,可循路徑838去得到對應(yīng)的混態(tài)文字712和所對應(yīng)的留言者,例如媽媽,再通過信心值量測模塊816, 將留言語音與混態(tài)文字712進(jìn)行驗證,以產(chǎn)生混態(tài)文字712所對應(yīng)的信心值,進(jìn)而擷取出訊 息語音416。圖9是混態(tài)文字的數(shù)據(jù)結(jié)構(gòu)的一個范例示意圖,與所揭示的某些實施范例一 致。圖9的范例中,此混態(tài)文字的數(shù)據(jù)結(jié)構(gòu)可包含8種卷標(biāo)信息。此8種卷標(biāo)信息中,_ Date_代表日期,例如周一、一月、一日等。_Time_代表時間,例如一點、十分、十秒等。_ cmd_代表指令(command),例如講、說、提醒、通知等。_Whom_代表留言對象,例如爸爸、 媽媽、哥哥等。_How_代表訊息傳達(dá)方式,例如打電話、郵寄、廣播等。_F/S_中,F(xiàn)代表 虛詞或功能詞(Function word),意指不具備意義的詞匯,例如記得、幫我等;而S代表 停用詞(Stop word),分兩類,第一類是網(wǎng)頁搜尋時的常見詞,搜尋引擎會忽略這些詞匯, 以提升速度,第二類包涵語氣詞、副詞、介詞、連接詞等不具意義的詞,本發(fā)明揭示的范例 中指的是第二類的詞匯,例如等會兒、不過、等一下、大概等。_Filler_代表補白,例如基 本音節(jié)(Basic-syllable)、音標(biāo)(Phone)、補白語(Filler-word)等。_Y/N 代表確認(rèn)語 (confirmation word),例如是、對的、不是、錯等。確認(rèn)語是命令或訊息剖析器410執(zhí)行確 認(rèn)動作后的響應(yīng)。文字內(nèi)容分析器720是分析來自語音內(nèi)容擷取器710的混態(tài)文字712,其分析過 程可以從在線(online)訓(xùn)練或是離線(offline)訓(xùn)練,包括根據(jù)收集的語料與文法去刪除 混態(tài)文字中留言與傳達(dá)應(yīng)用非必要的文字訊息,并重新編輯成以語意框(Semantic Frame) 組合而成的概念序列(Concept Sequence) 0如圖10的范例所示,文字內(nèi)容分析器720可 包含一概念序列重組模塊(Concept Sequence Restructure) 1010與一概念序列選擇模塊 (Concept Sequence Selection)1020。概念序列重組模塊1010藉由概念整合文法(Concept Composer Grammar) 1012 與范例概念序列(Example Concept kquence)語料庫1014與訊息或垃圾分辨文法 ("Message或Gartage"Grammar) 1024重新編輯語音內(nèi)容擷取器710擷取出的混態(tài)文字后, 產(chǎn)生出所有符合范例概念序列的概念序列1016,并計算出重組后概念序列中所有概念的信 心值1018。將該些概念序列1016與所得的信心值1018傳送至概念序列選擇模塊1020。概 念序列選擇模塊1020藉由n-gram概念分?jǐn)?shù)1022,挑選出一組由語意框組成的最佳概念序 列1(^6。由語意框組成的最佳概念序列10 與其相對應(yīng)的信心值可傳送給確認(rèn)接口 730。圖11是一個范例示意圖,以一混態(tài)文字的范例來說明概念序列重組模塊1010如 何重新編輯與分析混態(tài)文字的內(nèi)容,與所揭示的某些實施范例一致。圖11的范例中,來自 語音內(nèi)容擷取器710的混態(tài)文字實例1110的內(nèi)容*『_Filler_Filler_Sl S2 S3 S4 S5_F/ S_ 記得 _F/S 在 _When_ 下午六點以前 _F/S_ 跟 _Whom_ 爸爸 _Cmd_ 說 _Fi 1 ler_S8 S9 SlO Sll (去倒垃圾)』,概念序列重組模塊1010藉由概念整合文法1012中范例如1112,與范例 概念序列語料庫1014中范例如1114,重新編輯并產(chǎn)生多個符合范例概念序列的概念序列 與計算出的信心值,例如標(biāo)號1116所示,其中,符號<Del*n>代表對范例概念序列語料庫中 的范例進(jìn)行η次刪除的動作。例如,混態(tài)文字1110藉由概念整合文法范例1112,與范例概 念序列語料庫范例1114中的(1. 5)_Filler_When_Whom,重新編輯并進(jìn)行4次刪除的操作, 產(chǎn)生出概念序列,參考箭頭1118所指,亦即『(1. 5Del*5)_Filler_Sl S2 S3 S4 S5_ffhen_ 下午六點以前_1110111_爸爸』。重新編輯范例概念序列語料庫的另一操作為<InS*n>,符號<InS*n>代表進(jìn)行η次加入的動作。因此,當(dāng)語音內(nèi)容擷取器710發(fā)生辨識錯誤時,后續(xù)仍 可藉由概念整合文法1012與范例概念序列語料庫1014的輔助,來取得與沒有辨識錯誤相 同的概念序列,而不受部分錯誤辨識詞匯或音標(biāo)所影響。概念序列重組模塊1010產(chǎn)生出所有符合范例概念序列的概念序列后,計算出這 些概念序列相對應(yīng)的信心值。計算此信心值的范例如下列公式。Scorel (編輯)=Σ log(P(編輯 |(01^印{非屬于_ 土1161~_))+乙 log(P(編輯 |_Filler_ 屬于 訊息))+ Σ log(P(編輯于垃圾)),以標(biāo)號1118所指的概念序列為例,其信心值的計算如下信心值= Σ log(P(刪除 |_F/S_))+ Σ log(P(刪除 |_F/S_))+ Σ log(P(刪除 |_F/ SJ)+Σ log(P(刪除|_指令_))+Σ log(P(刪除于垃圾))= (-0. 756) + (-0. 756) + (-0. 756) + (-0. 309) + (-0. 790) = -3. 367所有概念序列與所得的信心值傳送至概念序列選擇模塊1020后,如上述范例,圖 12說明概念序列選擇模塊如何將這些概念序列進(jìn)行概念分?jǐn)?shù)的計算,與所揭示的某些實施 范例一致。圖12中,概念序列選擇模塊1020例如可藉由n-gram概念分?jǐn)?shù)1022與訊息分辨 文法信息輔助,來將這些概念序列進(jìn)行概念分?jǐn)?shù)的計算,以前述概念序列『_Filler_Sl S2 S3 S4 S5_When_下午六點以前_Whom_爸爸』為例,其n-gram概念分?jǐn)?shù)的計算如下Score2 (n-gram 概念)= log(P(_Filler」null))+log(P(_When」_Filler,null))+log(P(_ffhom_|_ ffhen_, _Filler_, null))= log(0. 78)+log (0. 89)+log (0. 98) = _2. 015,如概念表格1220所示,概念序列『_Filler_Sl S2 S3 S4 S5_When_下午六點以 前_1110111_爸爸』中,概念(What)為『Si S2 S3 S4 S5』,其分?jǐn)?shù)為0. 78 ;概念(Whom)為『爸 爸』,其分?jǐn)?shù)為0.89 ;概念(When)為『下午六點以前』,其分?jǐn)?shù)為0.98。有了這些概念序列和對應(yīng)的概念分?jǐn)?shù),然后每一概念序列的總分?jǐn)?shù)可從信心值與 概念分?jǐn)?shù)來算出,此總分?jǐn)?shù)的計算范例如下總分?jǐn)?shù)=¥1\&0儀1(編輯)+界2\&0儀2(11-8『&111概念),其中wl+w2 = l,wl > =0,w2 >= 0。以概念序歹Ij 1118為例,其總分?jǐn)?shù)例如是0. 5X (-3. 367)+0. 5X (-2. 015) =-2. 736。有了這些概念序列和對應(yīng)的總分?jǐn)?shù),如范例1210,概念序列選擇模塊1020可從 中挑選出至少一組由語意框組成的最佳概念序列,來傳送給確認(rèn)接口 730。最佳概念序列例 如箭頭1218所指,具有最高總分?jǐn)?shù)為-2. 736。確認(rèn)接口 730是要確認(rèn)文字內(nèi)容分析器720分析所得語意是否有不夠清楚 (semantic not clear),或是語意是否有沖突(conflict)的處,或是語意是否滿足留言與 傳達(dá)的需求等。當(dāng)上述情形為否定時,圖13A至圖13C是確認(rèn)接口的幾種輸出與輸入的范 例示意圖,與所揭示的某些實施范例一致。如圖13A的范例所示,若確認(rèn)接口 730接收的語 意框1310的語意有不夠清楚或是沖突的處,例如信心值介于高標(biāo)準(zhǔn)閾值與低標(biāo)準(zhǔn)閾值之 間時,則確認(rèn)接口 730可要求一響應(yīng)訊息1310,根據(jù)收到的響應(yīng)訊息1310再補充語意。不 夠清楚的語意例如是缺少必要概念的語意,譬如『下午六點以前(When)通知爸爸(Whom)』,此語意缺少必要概念What,也就是語音訊息。沖突的語意例如是出現(xiàn)重復(fù)概念的語意,譬 如,前一次對話紀(jì)錄中,概念When為『下午六點以前』,但目前對話紀(jì)錄中,概念When為『下 午六點半以前』,此重復(fù)概念When出現(xiàn)了不同的內(nèi)容。補充語意后,例如語意已獲得滿足留言與傳達(dá)條件(semantic clear)時,如圖 13B的范例所示,確認(rèn)接口 730可再執(zhí)行確認(rèn)1320,以確認(rèn)留言內(nèi)容是否完整且正確。若得 到確認(rèn)肯定的響應(yīng),則確認(rèn)接口 730可記錄留言者身份412、留言傳達(dá)命令414、以及留言訊 息語音416等留言訊息,并傳送至傳送控制器420。若得到確認(rèn)否定的響應(yīng),則確認(rèn)接口 730 例如可要求重新輸入留言語音。回顧圖5的范例中,在傳達(dá)階段時,傳送控制器420接收命令或訊息剖析器410傳 遞的留言與傳達(dá)相關(guān)信息后,先判斷是否有滿足傳達(dá)條件。再通過訊息傳送裝置440來進(jìn) 行留言訊息的傳達(dá)。圖14以一個工作范例來說明于傳送控制器420的運作,與所揭示的某 些實施范例一致。圖14的范例中,傳送控制器420可將命令或訊息剖析器410傳送的留言與傳達(dá)相 關(guān)信息,記錄到一訊息數(shù)據(jù)庫1410中。例如,傳送控制器420將收到的留言者身份『媽媽 (Who) J以及留言傳達(dá)命令,包括『爸爸(Whom)』、『六點以前(When)』、『廣播(How)』、與『訊 號08010530 (What)』,對應(yīng)的語音訊息紀(jì)錄1420存入訊息數(shù)據(jù)庫1410中。并且藉由感測 裝置1430中,例如影像攝影機(jī)1432或是射頻辨別裝置1434等,來確認(rèn)爸爸是否回到家中。 當(dāng)定時器裝置1436確認(rèn)傳達(dá)條件符合When (六點以前)時,將留言者身份『媽媽(Who)』、 留言對象『爸爸(Whom)』、與語音訊息『訊號08010530 (SpeechMessage)』,等信息傳送到訊 息合成器430,并且根據(jù)傳達(dá)方式『廣播(How)』的條件,來開啟對應(yīng)的設(shè)備開關(guān)。在現(xiàn)實環(huán)境中,留言者的輸入語音中的傳達(dá)條件不一定可被滿足,例如,爸爸六點 以前不在家,此情況下,留言訊息可能無法實時被告知留言對象。因此,如圖15的范例所 示,傳送控制器420例如可以利用系統(tǒng)預(yù)設(shè)(preset)的傳達(dá)順序去設(shè)定訊息傳送裝置,以 避免發(fā)生留言訊息沒有被傳達(dá)給留言對象的情形。例如,系統(tǒng)預(yù)設(shè)被使用的訊息傳送裝置 的順序為,當(dāng)定時器裝置1436確認(rèn)傳達(dá)條件符合When (六點以前)時,從影像攝影機(jī)1432 或是射頻辨別裝置1434發(fā)現(xiàn)爸爸不在家,傳送控制器420饋回語音訊息記錄1420,并將傳 達(dá)方式『廣播(How)』改為系統(tǒng)預(yù)設(shè)的『語音簡訊』,且開啟對應(yīng)的設(shè)備開關(guān),使訊息合成器 430所合成的傳達(dá)訊息語音,即饋回訊息(feedback message) 1520,通過非廣播的其它傳達(dá) 裝置(other transmitting device)巧40,并以系統(tǒng)預(yù)設(shè)的『語音簡訊』方式來傳送,饋回訊 息1530例如可回饋給留言者或是傳送給留言對象『爸爸』,以確保不會遺漏傳達(dá)訊息語音。也就是說,當(dāng)傳達(dá)條件不被滿足而無法以『留言指定』的方式來完成傳達(dá)時,例如 無法在設(shè)定的時間以『廣播』傳達(dá)語音訊息給留言對象『爸爸』時,傳送控制器420可將訊 息傳送裝置設(shè)定為『系統(tǒng)預(yù)設(shè)』的傳達(dá)方式,并通過其它傳達(dá)裝置1540來傳送,以確保不會 遺漏傳達(dá)訊息語音。訊息合成器接收傳送控制器420傳遞的留言者身份(Who)、留言對象(Whom)、語 音訊息(What)的信息1450后,藉由例如語言生成技術(shù)將這些相關(guān)信息重新整合,產(chǎn)生符 合『信、達(dá)、雅』的句子,并將產(chǎn)生的句子轉(zhuǎn)換成傳達(dá)訊息語音432,然后交由訊息傳送裝置 440,將傳達(dá)訊息語音432傳送給一接收留言者。圖16是訊息合成器的一個范例示意圖,與所揭示的某些實施范例一致。如上述圖4的范例,訊息合成器430的架構(gòu)與運作說明如下。訊息合成器430至少包括一語言生成 器(Language Generator) 1610、以及一語音合成器(Speech Synthesis) 1630。語言生成器 (Language Generator) 1610接收傳送控制器420傳遞的留言者身份『媽媽(Who)』、留言對 象『爸爸(Whom)』、與語音訊息『訊號08010530 (Speech Message) J的信息1450,并自一語 言生成合成模板(Language Generation Template, LG Template)數(shù)據(jù)庫 1620,例如合成 模板數(shù)據(jù)庫范例1622,中選出一合成模板進(jìn)行文句的合成。例如,當(dāng)傳達(dá)條件皆被滿足時,語言生成器1610選擇一合成模板「Whom,Who留 了以下的訊息給你,F(xiàn)WhatJJ,以信息1450的例子而言,將生成「爸爸,媽媽留了以下的訊 息給你,『What』」的語音信號,再通過語音合成器1630合成為一語音信號。之后,語音合 成器1630將此語音信號與語音訊息(What)『訊號08010530』作接續(xù)(concatenation), 產(chǎn)生「爸爸,媽媽留了以下的訊息給你,『該去到垃圾了』」的語音傳達(dá)訊息(Transmitted Message) 1632,其中,『該去到垃圾了』是訊號08010530的內(nèi)容范例。語音傳達(dá)訊息1632將 再通過訊息傳送裝置傳達(dá)給留言接收者,例如留言對象『爸爸(Whom)』。當(dāng)傳達(dá)條件不被滿足時,例如無法在設(shè)定的時間以『留言指定』的方式來完成傳達(dá) 時,則如圖17的范例所示,訊息合成器430接收傳送控制器420饋回的語音訊息記錄1420, 并自一語言生成合成模板數(shù)據(jù)庫1720,選出一饋回訊息合成模板1722來進(jìn)行文句的合成, 以合成一饋回訊息1742。若傳送控制器420已將訊息傳送裝置設(shè)定為『系統(tǒng)預(yù)設(shè)』的傳達(dá) 方式,例如『語音簡訊』,則可自語言生成合成模板數(shù)據(jù)庫1720,選出另一饋回訊息合成模 板1724,以合成一饋回訊息1744。圖18的范例是多個留言者輸入語音留言后,傳達(dá)給單一留言對象時,訊息合成器 430進(jìn)行文句合成的一個范例示意圖,與所揭示的某些實施范例一致。參考圖18,訊息合成 器430接收經(jīng)剖析后的三筆留言訊息記錄1812、1814與1816,其中兩個留言者身份分別是 『媽媽』與『弟弟』,留言對象皆為『爸爸』,而『媽媽』有兩筆留言訊息,『弟弟』有一筆留言訊 息。訊息合成器430可自一語言生成合成模板數(shù)據(jù)庫選出一傳達(dá)訊息合成模板,并將三筆 留言訊息記錄1812、1814與1816,合成一傳達(dá)訊息語音,例如標(biāo)號1842所示,亦即「爸爸, 媽媽吩咐你『訊息1-1』,還有『訊息1-2』,另外弟弟說『訊息2』」。如上所述,圖19的范例流程說明了本發(fā)明揭示的語音留言與傳達(dá)方法,與所揭示 的某些實施范例一致。參考圖19,步驟1910中,從至少一留言者的輸入語音,剖析出及輸出 多項信息,此多項信息至少包括至少一留言者身份、至少一留言傳達(dá)命令、以及至少一留言 訊息語音。步驟1920中,將此多項信息合成一傳達(dá)訊息語音。步驟1930中,根據(jù)此至少一 留言語者身份與此至少一留言傳達(dá)命令,控制一裝置切換組件,使此傳達(dá)訊息語音經(jīng)由此 至少一訊息傳送裝置中的一訊息傳送裝置,而被傳送到至少一接收留言者。在傳送傳達(dá)訊 息語音之前,可通過一確認(rèn)接口來執(zhí)行至少一確認(rèn)動作,以確認(rèn)此多項信息或此傳達(dá)訊息 語音的精確性。步驟1910中,可對整個此輸入語音片段根據(jù)給定文法與語音可信度量測,來得到 具有高可信度的至少一文字指令片段、以及具有音標(biāo)的至少一補白片段,也可將此補白片 段區(qū)分出訊息補白片段與垃圾補白片段。從至少一文字指令片段中可得到此至少一留言傳 達(dá)指令,根據(jù)此訊息補白片段,可從輸入語音中擷取出至少一留言訊息語音。步驟1920中,根據(jù)此多項信息,可自一語言生成合成模板數(shù)據(jù)庫,選出一合成模板來進(jìn)行文句的合成,以合成傳達(dá)訊息語音。語言生成合成模板數(shù)據(jù)庫可包括如多種傳達(dá) 訊息合成模板或多種饋回訊息合成模板。步驟1930中,根據(jù)留言語者身份與留言傳達(dá)指令來控制適當(dāng)?shù)挠嵪魉脱b置以 傳送此傳達(dá)訊息語音。例如,當(dāng)傳達(dá)條件皆被滿足時,可采用『留言指定』的方式來完成傳 達(dá)此傳達(dá)訊息語音;而當(dāng)傳達(dá)條件不被滿足而無法以『留言指定』的方式來完成傳達(dá)時,也 可將訊息傳送裝置設(shè)定為『系統(tǒng)預(yù)設(shè)』的傳達(dá)方式,并通過其它傳達(dá)裝置來傳送,以確保不 會遺漏傳達(dá)訊息語音。綜上所述,本發(fā)明揭示的實施范例可提供一種語音留言與傳達(dá)的系統(tǒng)與方法。此 實施范例中,經(jīng)由一命令或訊息剖析器,針對留言者的輸入語音進(jìn)行辨識,取得留言語者身 份,而對整個語音輸入片段根據(jù)給定文法與語音可信度量測,來得到文字指令片段、以及補 白片段,并將此補白片段區(qū)分出訊息補白片段與垃圾補白片段;從文字指令片段中得到各 種留言傳達(dá)指令,根據(jù)此訊息補白片段,從輸入語音中擷取出留言訊息語音后,經(jīng)由一訊息 合成器,合成出傳達(dá)訊息語音,再根據(jù)留言語者身份與留言傳達(dá)指令來控制適當(dāng)?shù)挠嵪?送裝置,以傳送此傳達(dá)訊息語音。以上所述者僅為本發(fā)明揭示的實施范例,而不能依此限定本發(fā)明實施的范圍。凡 依據(jù)本發(fā)明的權(quán)利要求所作的均等變化與修飾,皆應(yīng)仍屬本發(fā)明專利涵蓋的范圍。
權(quán)利要求
1.一種語音留言與傳達(dá)的系統(tǒng),該系統(tǒng)包含一命令或訊息剖析器,從至少一留言者的輸入語音,剖析出及輸出多項信息,該多項信 息至少包括至少一留言者身份、至少一留言傳達(dá)命令、以及至少一留言訊息語音;一訊息合成器,連接至該命令或訊息剖析器,并將該多項信息合成一傳達(dá)訊息語音;至少一訊息傳送裝置;以及一傳送控制器,連接至該命令或訊息剖析器,并根據(jù)該至少一留言語者身份與該至少 一留言傳達(dá)命令,控制一裝置切換組件,使該傳達(dá)訊息語音經(jīng)由該至少一訊息傳送裝置中 的一訊息傳送裝置,而被傳送到至少一接收留言者。
2.如權(quán)利要求1所述的系統(tǒng),其中該命令或訊息剖析器從該至少一留言者的輸入語音 中識別出該至少一留言者身份,并根據(jù)一給定文法與一語音可信度量測,辨識出至少一指 令詞匯片段與具有音標(biāo)的至少一補白片段。
3.如權(quán)利要求2所述的系統(tǒng),其中該至少一補白片段被區(qū)分出訊息補白片段與垃圾補 白片段。
4.如權(quán)利要求3所述的系統(tǒng),其中該命令或訊息剖析器從該至少一指令詞匯片段中, 辨識出該至少一留言傳達(dá)命令,根據(jù)該訊息補白片段,從該留言者的輸入語音中擷取出該 至少一留言訊息語音。
5.如權(quán)利要求1所述的系統(tǒng),其中該至少一留言傳達(dá)命令包括留言對象、何時將該至 少一留言語音訊息傳達(dá)給留言對象、以及通過何種訊息傳送方式將該至少一留言語音訊息 傳達(dá)給留言對象。
6.如權(quán)利要求1所述的系統(tǒng),該系統(tǒng)是一種單一或多方傳達(dá)與回饋兼具的系統(tǒng)。
7.如權(quán)利要求1所述的系統(tǒng),其中該命令或訊息剖析器還包括一語音內(nèi)容擷取器,接收該至少一留言者的輸入語音,并從該輸入語音中擷取出該留 言者身分、混態(tài)文字、及該訊息語音的信息,該混態(tài)文字為該輸入語音對應(yīng)的詞匯與音標(biāo)混 合的文字信息;以及一文字內(nèi)容分析器,從該混態(tài)文字中分析出該至少一留言傳達(dá)命令。
8.如權(quán)利要求1所述的系統(tǒng),其中該命令或訊息剖析器還包括一確認(rèn)接口,該確認(rèn)接 口執(zhí)行一確認(rèn)動作來確認(rèn)剖析出的該多項信息的精確性。
9.如權(quán)利要求1所述的系統(tǒng),該訊息合成器自一語言生成合成模板數(shù)據(jù)庫選用一合成 模板來進(jìn)行文句的合成,以合成該傳達(dá)訊息語音。
10.如權(quán)利要求1所述的系統(tǒng),其中,當(dāng)該至少一留言傳達(dá)命令中的一傳達(dá)條件不被滿 足而無法完成傳達(dá)時,該傳送控制器將該至少一訊息傳送裝置設(shè)定為一系統(tǒng)預(yù)設(shè)的傳達(dá)方 式,并通過至少一訊息傳送裝置中的另一訊息傳送裝置來傳送該傳達(dá)訊息語音。
11.如權(quán)利要求7所述的系統(tǒng),其中該文字內(nèi)容分析器還包括一概念序列重組模塊,重新編輯該混態(tài)文字后,產(chǎn)生出多個概念序列;以及一概念序列選擇模塊,算出該多個概念序列中每一概念序列一相對應(yīng)的總分?jǐn)?shù),并從 中選出至少一組由語意框組成的最佳概念序列;其中,每一概念序列的該相對應(yīng)的總分?jǐn)?shù)是根據(jù)該概念序列相對應(yīng)的一信心值與一概 念分?jǐn)?shù)來算出。
12.如權(quán)利要求1所述的系統(tǒng),其中該訊息合成器還包括一語言生成器,接收該至少一留言者身份、該至少一留言傳達(dá)命令、以及該至少一留言 訊息語音,并選用一合成模板,來生成一語音信號;以及一語音合成器,將該語音信號與該至少一留言訊息語音合成該傳達(dá)訊息語音。
13.如權(quán)利要求12所述的系統(tǒng),其中該合成模板是自一語言生成合成模板數(shù)據(jù)庫中選 出,該語言生成合成模板數(shù)據(jù)庫包括多種傳達(dá)訊息合成模板、或多種饋回訊息合成模板、或 前述多種傳達(dá)訊息合成模板與多種饋回訊息合成模板。
14.一種語音留言與傳達(dá)的方法,該方法包含從至少一留言者的輸入語音,剖析出多項信息,該多項信息至少包括至少一留言者身 份、至少一留言傳達(dá)命令、以及至少一留言訊息語音;將該多項信息合成一傳達(dá)訊息語音;以及根據(jù)該至少一留言語者身份與該至少一留言傳達(dá)命令,來控制一裝置切換組件,使該 傳達(dá)訊息語音經(jīng)由此至少一訊息傳送裝置中的一訊息傳送裝置,而被傳送到至少一接收留曰者。
15.如權(quán)利要求14所述的方法,該方法還包括從該至少一留言者的輸入語音識別出該至少一留言者身份;根據(jù)一給定文法與一語音可信度量測,辨識出至少一文字指令片段、以及至少一補白 片段;以及從該至少一文字指令片段中得到該至少一留言傳達(dá)命令,并根據(jù)該至少一補白片段, 得到該至少一留言訊息語音。
16.如權(quán)利要求14所述的方法,其中該傳達(dá)訊息語的合成還包括根據(jù)該至少一留言者身份、該至少一留言傳達(dá)命令、以及該至少一留言訊息語音,并自 一語言生成合成模板數(shù)據(jù)庫中選出一合成模板,來生成一語音信號;以及將該語音信號與該至少一留言訊息語音合成該傳達(dá)訊息語音。
17.如權(quán)利要求14所述的方法,其中該至少一留言傳達(dá)命令中包括至少一傳達(dá)條件, 當(dāng)該至少一傳達(dá)條件皆被滿足時,采用一種留言指定的方式來完成傳達(dá)該傳達(dá)訊息語音。
18.如權(quán)利要求17所述的方法,其中當(dāng)該至少一傳達(dá)條件中的一傳達(dá)條件不被滿足而 傳達(dá)失敗時,采用一種系統(tǒng)預(yù)設(shè)的傳達(dá)方式,來傳送該傳達(dá)訊息語音。
19.如權(quán)利要求14所述的方法,其中該多項信息的剖析還包括從該輸入語音中擷取出該留言者身分、混態(tài)文字、及該訊息語音的信息,該混態(tài)文字為 該輸入語音對應(yīng)的詞匯與音標(biāo)混合的文字信息;以及分析該混態(tài)文字,以取得該至少一留言傳達(dá)命令。
20.如權(quán)利要求19所述的方法,其中分析該混態(tài)文字還包括藉由一概念整合文法、一范例概念序列語料庫、一訊息或垃圾分辨文法,重新編輯該混 態(tài)文字后,產(chǎn)生出多個概念序列,并算出每一概念序列一相對應(yīng)的信心值;以及計算出每一概念序列的一概念分?jǐn)?shù),并根據(jù)每一概念序列該相對應(yīng)的信心值與概念分 數(shù),來算出每一概念序列一相對應(yīng)的總分?jǐn)?shù),并從中選出至少一組由語意框組成的最佳概 念序列。
21.如權(quán)利要求14所述的方法,該方法還包括在傳送該傳達(dá)訊息語音之前,通過一確認(rèn)接口來執(zhí)行至少一確認(rèn)動作,以確認(rèn)該多項信息或該傳達(dá)訊息語音的精確性。
22.如權(quán)利要求20所述的方法,其中每一概念序列的相對應(yīng)的總分?jǐn)?shù)是該概念分?jǐn)?shù)與 該信心值兩者分別加權(quán)后的總和。
23.如權(quán)利要求17所述的方法,該方法還包括通過至少一感測裝置來判斷該至少一留言傳達(dá)命令中的該至少一傳達(dá)條件是否被滿足。
24.如權(quán)利要求18所述的方法,其中該傳達(dá)訊息語音為一饋回訊息。
全文摘要
一種語音留言與傳達(dá)的系統(tǒng)與方法。該語音留言與傳達(dá)的系統(tǒng),自動解析至少一留言者的輸入語音后,取出多項信息,然后依留言者希望傳達(dá)的條件,傳達(dá)留言訊息給至少一接收留言的人。命令或訊息剖析器從留言語音,剖析出此多項信息,至少包括至少一留言者身份、至少一留言傳達(dá)命令、以及至少一留言訊息語音。此多項信息被輸出至訊息合成器,以合成出傳達(dá)訊息語音。傳送控制器根據(jù)此至少一留言者身份與此至少一留言傳達(dá)命令,控制一裝置切換組件,使傳達(dá)訊息語音經(jīng)由至少一訊息傳送裝置中的一訊息傳送裝置,而被傳送到至少一接收留言者。
文檔編號H04M1/64GK102088505SQ20091024719
公開日2011年6月8日 申請日期2009年12月2日 優(yōu)先權(quán)日2009年12月2日
發(fā)明者張信常, 簡世杰, 邱中人, 郭志忠 申請人:財團(tuán)法人工業(yè)技術(shù)研究院