本發(fā)明涉及通過朗讀文本從而向用戶提供信息的信息提供系統(tǒng)。
背景技術:
以往,在從web(網(wǎng)頁)等信息源獲取文本并呈現(xiàn)給用戶的信息提供裝置中,通過用戶說出包含在所呈現(xiàn)的文本中的關鍵詞,從而對該關鍵詞進行聲音識別,進而獲取與該關鍵詞對應的信息并進行呈現(xiàn)。
在利用了上述的聲音識別的信息提供裝置中,需要向用戶明示文本中的哪個詞語是聲音識別對象。
因此,作為向用戶明示聲音識別對象語的方法,在專利文獻1中記載了如下的方法:對從web獲取的超文本信息中的鏈接文件的描述性文本的至少一部分(作為聲音識別對象的詞語)進行強調(diào)并顯示于畫面。同樣地,在專利文件2中記載了如下方法:對從外部獲取到的內(nèi)容信息中的作為聲音識別對象的詞語的顯示方式進行變更并顯示于畫面。
現(xiàn)有技術文獻
專利文獻
專利文獻1:日本專利特開平11-25098號公報
專利文獻2:日本專利特開2007-4280號公報
技術實現(xiàn)要素:
發(fā)明所要解決的技術問題
在車載設備那樣的畫面較小的裝置中,有時會通過朗讀文本來呈現(xiàn)給用戶,而非將文本顯示于畫面。在該情況下,上述專利文獻1、2那樣的方法無法適用。
此外,由于畫面較小時能顯示的字符數(shù)量也受到限制,因此即使將文本顯示于畫面,有時也不能將文本全部顯示。在該情況下,在上述專利文獻1、2那樣的方法中,可能由于字符數(shù)限制導致聲音識別對象語無法顯示于畫面,從而無法向用戶明示聲音識別對象語。
本發(fā)明是為了解決上述問題而完成的,因此其目的是即使在朗讀用的文本不顯示于畫面上、或者能顯示于畫面上的字符數(shù)量受到限制的情況下,也能將包含在該文本中的聲音識別對象語明示給用戶。
解決技術問題的技術方案
本發(fā)明所涉及的信息提供系統(tǒng)包括:提取部,其將包含在文本中的單詞或者詞組中的能從信息源獲取與該單詞或者詞組相關的信息的單詞或者詞組作為聲音識別對象語進行提??;合成控制部,其輸出朗讀文本的音頻進行合成所用的信息以及提取部提取出的聲音識別對象語;音頻合成部,其使用從合成控制部接收到的信息來朗讀文本;以及顯示指示部,其指示顯示部與音頻合成部朗讀聲音識別對象語的時刻相應地顯示從合成控制部接收到的聲音識別對象語。
發(fā)明效果
根據(jù)本發(fā)明,在朗讀文本時,在朗讀聲音識別對象語的時刻進行顯示,因此即使在朗讀用的文本不顯示于畫面上、或者能顯示于畫面上的字符數(shù)量受到限制的情況下,也能將包含在該文本中的聲音識別對象語明示給用戶。
附圖說明
圖1是說明本發(fā)明的實施方式1所涉及的信息提供系統(tǒng)及其周邊設備的概要的圖。
圖2是表示實施方式1的顯示器的顯示例的圖。
圖3是表示實施方式1所涉及的信息提供系統(tǒng)及其周邊設備的主要硬件結構的概要圖。
圖4是示出實施方式1所涉及的信息提供系統(tǒng)的結構例的框圖。
圖5是示出實施方式1所涉及的信息提供系統(tǒng)的信息處理控制部的動作的流程圖。
圖6是示出在實施方式1中用戶說出了聲音識別對象語時的信息提供系統(tǒng)的動作的一個示例的流程圖。
圖7是示出本發(fā)明的實施方式2所涉及的信息提供系統(tǒng)的結構例的框圖。
圖8是示出實施方式2所涉及的信息提供系統(tǒng)的信息處理控制部的動作的流程圖。
圖9是示出本發(fā)明的實施方式3所涉及的信息提供系統(tǒng)的結構例的框圖。
圖10是示出實施方式3所涉及的信息提供系統(tǒng)的信息處理控制部的動作的流程圖。
具體實施方式
以下,為了更詳細地說明本發(fā)明,對于用于實施本發(fā)明的實施方式,參照附圖進行說明。
另外,在以下的實施方式中,雖然對于將本發(fā)明的信息提供系統(tǒng)適用于車輛等移動體用的導航裝置的情況舉例進行說明,但除導航裝置以外,還可以適用于pc(個人計算機)、平板pc、以及智能手機等移動信息終端。
實施方式1.
圖1是說明本發(fā)明的實施方式1所涉及的信息提供系統(tǒng)1及其周邊設備的概要的圖。
信息提供系統(tǒng)1經(jīng)由網(wǎng)絡2從web服務器3等外部信息源獲取朗讀文本,并指示揚聲器5對獲取到的朗讀文本進行音頻輸出。除此以外,信息提供系統(tǒng)1也可以指示顯示器(顯示部)4對朗讀文本進行顯示。
信息提供系統(tǒng)1指示顯示器4在朗讀包含在朗讀文本中的作為聲音識別對象的單詞或者詞組的定時顯示該單詞或者詞組。以下,將單詞或者詞組稱為“詞組等”,將作為聲音識別對象的詞組等稱為“聲音識別對象語”。
若由用戶說出聲音識別對象語,則信息提供系統(tǒng)1經(jīng)由麥克風6獲取說出的聲音并進行識別,并指示揚聲器5對與識別出的詞組等相關聯(lián)的信息進行音頻輸出。以下,將與詞組等相關聯(lián)的信息稱為“附加信息”。
圖2是顯示器4的顯示例。此處,將朗讀文本設為“首相、消費稅增稅判斷、啟動專家討論的政策‘若通貨緊縮難以擺脫則考慮’”,將聲音識別對象語作為“首相”“消費稅”“通貨緊縮”來進行說明。
在顯示器4的顯示區(qū)域a顯示示出本車位置及地圖等的導航畫面,因此用于顯示朗讀文本的顯示區(qū)域b較窄。因此,不能一次性將朗讀文本的全文顯示于顯示區(qū)域b。因此,信息提供系統(tǒng)1僅對朗讀文本的一部分進行顯示,對全文進行音頻輸出。
或者,在不能確保顯示區(qū)域b的情況下,信息提供系統(tǒng)1也可以不顯示朗讀文本,僅進行音頻輸出。
信息提供系統(tǒng)1將作為聲音識別對象語的“首相”、“消費稅”、“通貨緊縮”在各自的朗讀的定時顯示于顯示器4的顯示區(qū)域c1、c2、c3。而且,若由用戶例如說出“消費稅”,則信息提供系統(tǒng)1將與“消費稅”相關的附加信息(例如“消費稅”的含義或者詳細說明等)從揚聲器5進行音頻輸出等來呈現(xiàn)給用戶。另外,在本示例中,雖然準備了3個顯示區(qū)域,但是顯示區(qū)域也可以不限定于3個。
圖3是表示實施方式1的信息提供系統(tǒng)1及其周邊設備的主要硬件結構的概要圖??偩€上連接有cpu(centralprocessingunit-中央處理器)101、rom(readonlymemory-只讀存儲器)102、ram(randamaccessmemory-隨機存儲器)103、輸入裝置104、通信裝置105、hdd(harddiskdrive-硬盤驅(qū)動器)106、以及輸出裝置107。
cpu101通過讀取并執(zhí)行存儲在rom102或者hdd106中的各種程序,從而與各硬件協(xié)作來實現(xiàn)信息提供系統(tǒng)1的各種功能。對于cpu101所實現(xiàn)的信息提供系統(tǒng)1的各種功能,用后述的圖4進行說明。
ram103是在執(zhí)行程序時所使用的存儲器。
輸入裝置104是用于接收用戶輸入的麥克風、遙控器等操作設備、或者觸摸傳感器等。圖1中,示出了麥克風6來作為輸入裝置104的例子。
通信裝置105經(jīng)由網(wǎng)絡2來進行通信。
hdd106是外部存儲裝置的一個示例。作為外部存儲裝置,除hdd以外,還包括cd、dvd、或者采用了usb存儲器以及sd卡等閃存的存儲器等。
輸出裝置107是用于將信息呈現(xiàn)給用戶的揚聲器、液晶顯示器、或者有機el(electroluminescence-電致發(fā)光)等。圖1中,圖示了顯示器4及揚聲器5來作為輸出裝置107的例子。
圖4是示出實施方式1所涉及的信息提供系統(tǒng)1的結構例的框圖。
該信息提供系統(tǒng)1包括獲取部10、提取部12、合成控制部13、音頻合成部14、顯示指示部15、詞典生成部16、識別詞典17以及音頻識別部18。上述的功能通過cpu101執(zhí)行程序來實現(xiàn)。
提取部12、合成控制部13、音頻合成部14以及顯示指示部15構成信息處理控制部11。
構成信息提供系統(tǒng)1的獲取部10、提取部12、合成控制部13、音頻合成部14、顯示指示部15、詞典生成部16、識別詞典17以及音頻識別部18可以如圖4所示集成在1個裝置內(nèi),或者也可以分散至網(wǎng)絡上的服務器、智能手機等移動信息終端以及車載器上。
獲取部10經(jīng)由網(wǎng)絡2從web服務器3獲取以html(hypertextmarkuplanguage-超文本標記語言)或者xml(extensiblemarkuplanguage-可擴展標記語言)形式記載的內(nèi)容。而且,獲取部10對獲取到的內(nèi)容進行分析,獲取要呈現(xiàn)給用戶的朗讀文本。
另外,作為網(wǎng)絡2例如能夠使用互聯(lián)網(wǎng)及移動電話等的公眾線路。
提取部12對由獲取部10獲取到的朗讀文本進行分析并分割成詞組等。分割方法例如使用詞素分析那樣的公知的技術即可,因此省略說明。另外,分割的單位并非限定于詞素。
此外,提取部12從分割得到的詞組等中提取聲音識別對象語。聲音識別對象語是包含于朗讀文本中的詞組等,其能從信息源獲取與該詞組等相關的附加信息(例如,詞組等的含義或者詳細說明)。
附加信息的信息源可以是網(wǎng)絡2上的web服務器3那樣的外部信息源,也可以是信息提供系統(tǒng)1所具備的數(shù)據(jù)庫(未圖示)等。提取部12可以經(jīng)由獲取部10連接至網(wǎng)絡2上的外部信息源,也可以不經(jīng)由獲取部10而直接連接。
而且,提取部12決定從朗讀文本的開頭起到該朗讀文本中的各個聲音識別對象語為止的音拍數(shù)。
在上述的“首相、消費稅增稅判斷、啟動專家討論的政策‘若通貨緊縮難以擺脫則考慮’”這樣的朗讀文本的情況下,從朗讀文本的開頭起的音拍數(shù)分別是:“首相”為1、“消費稅”為“4”、“通貨緊縮”為“33”。
合成控制部13對于朗讀文本的全文決定音頻合成時所需要的語調(diào)等信息(以下記載為“語調(diào)信息”)。然后,合成控制部13將所決定的語調(diào)信息輸出至音頻合成部14。
另外,對于語調(diào)信息的決定方法使用公知的技術即可,因此省略說明。
合成控制部13對于每個由提取部12決定的聲音識別對象語,基于從朗讀文本的開頭起到聲音識別對象語為止的音拍數(shù)來計算朗讀開始時間。例如,在合成控制部13對于每1個音拍的朗讀速度都是既定的,將到聲音識別對象語為止的音拍數(shù)除以該速度,從而計算該聲音識別對象語的朗讀開始時間。然后,合成控制部13從朗讀文本的語調(diào)信息開始向音頻合成部14輸出的時刻起計時,若達到推測出的朗讀開始時間,則對顯示指示部15輸出聲音識別對象語。能夠在朗讀聲音識別對象語的定時相應地顯示該聲音識別對象語。
另外,雖然設為從開始向音頻合成部14輸出的時刻起計時,但也可以從指示揚聲器5使音頻合成部14輸出合成音頻的時刻起計時。
音頻合成部14基于從合成控制部13輸出的語調(diào)信息生成合成音頻,并指示揚聲器5輸出合成音頻。
另外,對于音頻合成的方法使用公知的技術即可,因此省略說明。
顯示指示部15指示顯示器4顯示從合成控制部13輸出的聲音識別對象語。
詞典生成部16使用由提取部12提取出的聲音識別對象語來生成識別詞典17。
音頻識別部18參照識別詞典17來識別由麥克風6采集到的音頻,并輸出識別結果字符串。
另外,對于音頻識別的方法使用公知的技術即可,因此省略說明。
接著,使用圖5及圖6所示的流程圖與具體例,對實施方式1的信息提供系統(tǒng)1的動作進行說明。
首先,使用圖5的流程圖說明信息處理控制部11的動作。
此處,將朗讀文本設為“首相、消費稅增稅判斷、啟動專家討論的政策‘若通貨緊縮難以擺脫則考慮’”,將聲音識別對象語作為“首相”、“消費稅”、“通貨緊縮”來進行說明。
首先,提取部12對上述的朗讀文本以詞組等為單位進行分割(步驟st001)。此處,提取部12進行詞素分析,將上述的朗讀文本分割成“/首相/、/消費稅/增稅/判斷/、/啟動/專家/討論/的政策/‘/若/通貨緊縮/難以/擺脫/則/考慮/’/”。
接著,提取部12從分割得到的詞組等中提取聲音識別對象語“首相”、“消費稅”、“通貨緊縮”(步驟st002)。
此處,詞典生成部16基于由提取部12提取出的3個聲音識別對象語“首相”、“消費稅”、“通貨緊縮”,來生成識別詞典17(步驟st003)。
接著,合成控制部13使用從朗讀文本的開頭起到聲音識別對象語“首相”為止的音拍數(shù)與朗讀速度,計算說出朗讀文本時的“首相”的朗讀開始時間(步驟st004)。合成控制部13同樣基于到聲音識別對象語“消費稅”、“通貨緊縮”為止的音拍數(shù)來分別計算朗讀開始時間。
合成控制部13生成朗讀文本的音頻合成所需要的語調(diào)信息(步驟st005)。
以下說明的步驟st006的流程與步驟st007~st009的流程并行地執(zhí)行。
合成控制部13向音頻合成部14輸出朗讀文本的語調(diào)信息,音頻合成部14生成朗讀文本的合成音頻并將其輸出至揚聲器5,從而開始朗讀(步驟st006)。
與步驟st006并行地,合成控制部13從朗讀文本的開頭起的音拍數(shù)較小的聲音識別對象語起,依次判定是否經(jīng)過了朗讀開始時間(步驟st007)。若達到從朗讀文本的開頭起的音拍數(shù)為最小的聲音識別對象語“首相”的朗讀開始時間(步驟st007“是”),則合成控制部13將該聲音識別對象語“首相”輸出至顯示指示部15(步驟st008)。顯示指示部15對顯示器4進行指示使其顯示聲音識別對象語“首相”。
接著,合成控制部13對是否將3個聲音識別對象語全部顯示進行判定(步驟st009)?,F(xiàn)階段剩余聲音識別對象語“消費稅”“通貨緊縮”(步驟st009“否”),因此,合成控制部13再重復2次步驟st007~st009。若聲音識別對象語全部顯示完成(步驟st009“是”),則合成控制部13結束一系列的處理。
由此,在圖2中,在朗讀文本“首相、消費稅增稅判斷、啟動專家討論的政策‘若通貨緊縮難以擺脫則考慮’”的“首相”被朗讀的時刻,在顯示區(qū)域c1顯示“首相”;在“消費稅”被朗讀的時刻,在顯示區(qū)域c2顯示“消費稅”;在“通貨緊縮”被朗讀的時刻,在顯示區(qū)域c3顯示“通貨緊縮”。
用戶通過說出顯示于顯示區(qū)域c1~c3的聲音識別對象語,能接受與該詞語關聯(lián)的附加信息的提供。對于附加信息的提供在圖6中詳細描述。
另外,顯示指示部15也可以進行指示,以使得在將聲音識別對象語顯示于顯示器4時,對聲音識別對象語進行強調(diào)顯示。聲音識別對象語的強調(diào)顯示存在如下的方法:設為醒目的字體、使文字變大、設為醒目的文字顏色、使顯示區(qū)域c1~c3閃爍、對文字附加符號(例如,“”)。此外,也可以是如下的方法:在聲音識別對象語的顯示前后變更顯示區(qū)域c1~c3的顏色(即,背景色)、變更亮度。也可以將上述的強調(diào)顯示組合。
并且,顯示指示部15也可以進行指示,以使得在將聲音識別對象語顯示于顯示器4時,將顯示區(qū)域c1~c3設為用于選擇聲音識別對象語的軟按鍵。軟按鍵只要是用戶能使用輸入裝置104進行選擇操作即可,例如能通過觸摸傳感器進行選擇的觸摸按鈕、或者能通過操作設備進行選擇的按鈕等。
接著,使用圖6的流程圖,對用戶說出了聲音識別對象語時的信息提供系統(tǒng)1的動作進行說明。
音頻識別部18經(jīng)由麥克風6獲取用戶說出的聲音,參照識別詞典17來進行識別,并輸出識別結果字符串(步驟st101)。接著,獲取部10經(jīng)由網(wǎng)絡2從web服務器3等獲取與音頻識別部18輸出的識別結果字符串相關聯(lián)的附加信息(步驟st102)。合成控制部13決定由獲取部10獲取到的信息的音頻合成所需要的語調(diào)信息,并輸出至音頻合成部14(步驟st103)。最后,音頻合成部14基于合成控制部13輸出的語調(diào)信息生成合成音頻,指示揚聲器5來輸出合成音頻(步驟st104)。
另外,在圖6中,雖然構成為在由用戶說出聲音識別對象語的情況下信息提供系統(tǒng)1獲取與該詞語相關聯(lián)的附加信息并進行音頻輸出,但不限于此,例如也可以構成為若識別出的詞組等是設施的品牌名,則執(zhí)行其品牌名的周邊檢索并進行顯示檢索結果等的規(guī)定的動作。附加信息可以從web服務器3等外部信息源來獲取,也可以從信息提供系統(tǒng)1內(nèi)置的數(shù)據(jù)庫等來獲取。
此外,雖然構成為在用戶說話后獲取部10獲取附加信息,但不限于此,例如也可以構成為提取部12從朗讀文本提取聲音識別對象語時,不僅對有無附加信息進行判斷,還預先獲取附加信息并進行存儲。
如上所述,根據(jù)實施方式1,信息提供系統(tǒng)1包括:提取部12,其將包含在朗讀文本中的詞組等中的能從信息源獲取與該詞組等相關的附加信息的詞組等作為聲音識別對象語進行提??;合成控制部13,其輸出對朗讀文本進行朗讀的音頻進行合成所用的語調(diào)信息以及提取部12所提取出的聲音識別對象語;音頻合成部14,其使用從合成控制部13接收到的語調(diào)信息來對朗讀文本進行朗讀;以及顯示指示部15,其指示顯示器4與音頻合成部14朗讀聲音識別對象語的時刻相應地顯示從合成控制部13接收到的聲音識別對象語。顯示指示部15與音頻合成部14朗讀聲音識別對象語的時刻相應地從合成控制部13接收該聲音識別對象語,因此將接收到的該聲音識別對象語顯示于顯示器4。由此,在朗讀文本時,在朗讀聲音識別對象語的時刻進行顯示,因此即使在朗讀文本不顯示于畫面上、或者能顯示于畫面上的文字數(shù)量受到限制的情況下,也能將包含在該文本中的聲音識別對象語明示給用戶。
另外,根據(jù)實施方式1,顯示指示部15指示顯示器4來對聲音識別對象語進行強調(diào)顯示。因此,用戶容易注意到聲音識別對象語的顯示。
另外,根據(jù)實施方式1,顯示指示部15指示顯示器4將其顯示聲音識別對象語的區(qū)域作為選擇該聲音識別對象語的軟按鍵。因此,用戶根據(jù)情況能夠分開使用音頻操作和軟按鍵操作,從而提高便利性。
實施方式2.
圖7是示出本發(fā)明的實施方式2所涉及的信息提供系統(tǒng)1的結構例的框圖。在圖7中,對于與圖4相同或者相當?shù)牟糠謽俗⑾嗤瑯颂柌⑹÷哉f明。
實施方式2的信息提供系統(tǒng)1具備存儲聲音識別對象語的存儲部20。實施方式2的信息處理控制部21與上述實施方式1的信息處理控制部11有一部分動作不同,因此以下進行說明。
提取部22與上述實施方式1相同,對由獲取部10獲取到的朗讀文本進行分析并分割成詞組等。
實施方式2的提取部22從分割得到的詞組等中提取聲音識別對象語,并使提取出的聲音識別對象語存儲于存儲部20。
合成控制部23與上述實施方式1相同,對由獲取部10獲取到的朗讀文本進行分析并分割成詞組等。合成控制部23對于每個分割得到的詞組等決定音頻合成時所需要的語調(diào)信息。而且,合成控制部23從朗讀文本的開頭起以詞組等為單位,向音頻合成部24輸出所決定的語調(diào)信息。
實施方式2的合成控制部23在將語調(diào)信息輸出至音頻合成部24的同時,將對應于該語調(diào)信息的詞組等輸出至顯示指示部25。
音頻合成部24與上述實施方式1相同,基于從合成控制部23輸出的語調(diào)信息生成合成音頻,并指示揚聲器5輸出合成音頻。
實施方式2的顯示指示部25對于從合成控制部23輸出的詞組等是否存在于存儲部20進行判定。即,對從合成控制部23輸出的詞組等是否為聲音識別對象語進行判定。在從合成控制部23輸出的詞組等存在于存儲部20的情況下,顯示指示部25指示顯示器4顯示該詞組等即聲音識別對象語。
在圖7中,合成控制部23雖然從獲取部10獲取朗讀文本并分割成詞組等,但是也可以從提取部22獲取已完成分割的詞組等。
顯示指示部25參照存儲部20對詞組等是否為聲音識別對象語進行判斷,但也可以是合成控制部23進行該判定。在該情況下,合成控制部23在將語調(diào)信息輸出至音頻合成部24時,對于對應于該語調(diào)信息的詞組等是否存在于存儲部20進行判定,并對顯示指示部25輸出存在于存儲部20的詞組等,不存在于存儲部20的詞組等則不輸出。顯示指示部25僅指示顯示器4顯示從合成控制部23輸出的詞組等。
另外,與上述實施方式1相同,顯示指示部25也可以進行指示以使得在將聲音識別對象語顯示于顯示器4時進行強調(diào)顯示。并且,顯示指示部25也可以進行指示,以使得將顯示聲音識別對象語的顯示區(qū)域c1~c3(在圖2中示出)設為用于選擇聲音識別對象語的軟按鍵。
接著,使用圖8的流程圖,說明信息處理控制部21的動作。
此處,將朗讀文本設為“首相、消費稅增稅判斷、啟動專家討論的政策‘若通貨緊縮難以擺脫則考慮’”,將聲音識別對象語作為“首相”、“消費稅”、“通貨緊縮”來進行說明。
首先,提取部22對上述的朗讀文本以詞組等為單位進行分割(步驟st201),從分割得到的詞組等提取聲音識別對象語(步驟st202)。
此處,詞典生成部16基于由提取部12提取出的上述3個聲音識別對象語,來生成識別詞典17(步驟st203)。
提取部22將提取出的3個聲音識別對象語存儲于存儲部20(步驟st204)。
接著,合成控制部23將上述的朗讀文本以詞組等為單位進行分割,決定音頻合成所需要的語調(diào)信息(步驟st205)。而且,合成控制部23從分割得到的詞組等的開頭起(此處是“首相”),依次以詞組等為單位,將語調(diào)信息和詞組等輸出至音頻合成部24和顯示指示部25(步驟st206)。
音頻合成部24基于從合成控制部23輸出的詞組等為單位的語調(diào)信息,生成詞組等的合成音頻,輸出至揚聲器5,從而進行朗讀(步驟st207)。
與步驟st207并行地,顯示指示部25對于從合成控制部23輸出的詞組等是否與存在于存儲部20中的聲音識別對象語一致進行判定(步驟st208)。在從合成控制部23輸出的詞組等與存儲部20的聲音識別對象語一致的情況下(步驟st208“是”),顯示指示部25指示顯示器4顯示該詞組等(步驟st209)。另一方面,在從合成控制部23輸出的詞組等與存儲部20的聲音識別對象語不一致的情況下(步驟st208“否”),音頻合成部24跳過步驟st209。
由于朗讀文本的開頭的詞組等“首相”為聲音識別對象語,因此在該詞語被朗讀的同時,顯示于顯示器4的顯示區(qū)域c1(圖2中示出)。
接著,合成控制部23對是否輸出了朗讀文本的全部詞組等進行判定(步驟st210)。由于現(xiàn)階段只完成輸出開頭的詞組等(步驟st210“否”),合成控制部23返回至步驟st206。若完成輸出從朗讀文本的開頭的詞組等到最后的詞組等(步驟st210“是”),則合成控制部23結束一系列的處理。
由此,如圖2所示,在對朗讀文本“首相、消費稅增稅判斷、啟動專家討論的政策‘若通貨緊縮難以擺脫則考慮’”中的“首相”“消費稅”“通貨緊縮”進行朗讀的時刻,在顯示區(qū)域c1~c3顯示“首相”“消費稅”“通貨緊縮”。
用戶通過說出顯示于顯示區(qū)域c1~c3的聲音識別對象語,能接受與該聲音識別對象語關聯(lián)的附加信息的提供。
如上所述,根據(jù)實施方式2,信息提供系統(tǒng)1包括:提取部22,其將包含在朗讀文本中的詞組等中的能從信息源獲取與該詞組等相關的附加信息的詞組等作為聲音識別對象語進行提取;合成控制部23,其輸出對朗讀文本進行朗讀的音頻進行合成所用的語調(diào)信息以及提取部12所提取出的聲音識別對象語;音頻合成部24,其使用從合成控制部23接收到的語調(diào)信息來對朗讀文本進行朗讀;以及顯示指示部25,其指示顯示器4與音頻合成部24朗讀聲音識別對象語的時刻相應地顯示從合成控制部23接收到的聲音識別對象語。顯示指示部25與音頻合成部24朗讀詞組等的時刻相應地從合成控制部23接收該詞組等,在接收到的該詞組等為聲音識別對象語的情況下,將其顯示于顯示器4。由此,在朗讀文本時,在朗讀聲音識別對象語的時刻進行顯示,因此即使在朗讀文本未顯示于畫面上、或者能顯示于畫面上的文字數(shù)量受到限制的情況下,也能將包含在該文本中的聲音識別對象語明示給用戶。
實施方式3.
圖9是示出本發(fā)明的實施方式3所涉及的信息提供系統(tǒng)1的結構例的框圖。在圖9中,對于與圖4及圖7相同或者相當?shù)牟糠謽俗⑾嗤瑯颂柌⑹÷哉f明。
實施方式3的信息提供系統(tǒng)1具備存儲聲音識別對象語的存儲部30。實施方式3的信息處理控制部31具備朗讀方法變更部36,其用于在對朗讀文本進行朗讀時區(qū)分聲音識別對象語與除此以外的詞組等。
實施方式3的信息處理控制部31通過具備朗讀方法變更部36,從而與上述實施方式2的信息處理控制部21有一部分動作不同,因此以下進行說明。
提取部32與上述實施方式2相同,對由獲取部10獲取到的朗讀文本進行分析并分割成詞組等,從分割得到的詞組等中提取聲音識別對象語并存儲于存儲部30。
合成控制部33與上述實施方式2相同,對由獲取部10獲取到的朗讀文本進行分析并分割成詞組等,以詞組等為單位決定語調(diào)信息。
實施方式3的合成控制部33對于詞組等是否存在于存儲部30進行判定。即,對該詞組等是否為聲音識別對象語進行判定。而且,合成控制部33從朗讀文本的開頭起以詞組等為單位向音頻合成部34輸出所決定的語調(diào)信息。此時,若與輸出的語調(diào)信息對應的詞組等為聲音識別對象語,則合成控制部33指示朗讀方法變更部36變更該詞組等的朗讀方法。而且,若與輸出的語調(diào)信息對應的詞組等為聲音識別對象語,則合成控制部33向顯示指示部35輸出該詞組等。
僅在合成控制部33發(fā)出了變更詞組等的朗讀方法的指示的情況下,朗讀方法變更部36重新決定語調(diào)信息來變更朗讀方法。朗讀方法的變更是利用下述方法中的至少一種來進行的:即,變更朗讀的音高(聲音的高度)、變更朗讀的速度、變更朗讀前后的暫停的有無、變更朗讀的音量、以及變更朗讀中的效果音的有無。
為了使用戶容易辨別聲音識別對象語與除此以外的詞組等,優(yōu)選為使朗讀聲音識別對象語的音高變高、或者在聲音識別對象語的前后插入暫停、或者使朗讀聲音識別對象語的音量變大、或者在聲音識別對象語的朗讀過程中附加效果音。
音頻合成部34基于從朗讀方法變更部36輸出的語調(diào)信息生成合成音頻,并指示揚聲器5輸出合成音頻。
顯示指示部35指示顯示器4顯示從合成控制部33輸出的詞組等。在實施方式3中,從合成控制部33輸出至顯示指示部35的詞組等全部為聲音識別對象語。
另外,在圖9中,合成控制部33雖然從獲取部10獲取朗讀文本并分割成詞組等,但是也可以從提取部32獲取已分割完成的詞組等。
另外,與上述實施方式1相同,顯示指示部35也可以進行指示,使得在將聲音識別對象語顯示于顯示器4時,進行強調(diào)顯示。并且,顯示指示部35也可以進行指示,使得將顯示聲音識別對象語的顯示區(qū)域c1~c3(在圖2中示出)設為用于選擇聲音識別對象語的軟按鍵。
接著,使用圖10的流程圖,說明信息處理控制部31的動作。
此處,將朗讀文本設為“首相、消費稅增稅判斷、啟動專家討論的政策‘若通貨緊縮難以擺脫則考慮’”,將聲音識別對象語作為“首相”“消費稅”“通貨緊縮”來進行說明。
首先,提取部32對上述的朗讀文本以詞組等為單位進行分割(步驟st301),從分割得到的詞組等提取聲音識別對象語(步驟st302)。
此處,詞典生成部16基于由提取部32提取出的上述3個聲音識別對象語,來生成識別詞典17(步驟st303)。
提取部32將提取出的3個聲音識別對象語存儲于存儲部30(步驟st304)。
接著,合成控制部33將上述的朗讀文本以詞組等為單位進行分割,決定音頻合成所需要的語調(diào)信息(步驟st305)。而且,在合成控制部33從分割得到的詞組等的開頭起(此處是“首相”),依次以詞組等為單位,將語調(diào)信息輸出至朗讀方法變更部36時,合成控制部33對于該詞組等是否存儲在存儲部30,即是不是聲音識別對象語進行判定(步驟st306)。
在輸出的詞組等是聲音識別對象語的情況下(步驟st306“是”),合成控制部33對朗讀方法變更部36輸出該詞組等的語調(diào)信息和朗讀變更指示(步驟st307)。
朗讀方法變更部36根據(jù)從合成控制部33輸出的朗讀變更指示,重新決定聲音識別對象語的語調(diào)信息,并對音頻合成部34進行輸出(步驟st308)。
音頻合成部34基于由朗讀方法變更部36重新決定的語調(diào)信息,生成聲音識別對象語的合成音頻,輸出至揚聲器5,并進行朗讀(步驟st309)。
與步驟st307~st309并行地,合成控制部33將與輸出至朗讀方法變更部36的語調(diào)信息對應的聲音識別對象語輸出至顯示指示部35(步驟st310)。顯示指示部35指示顯示器4顯示從合成控制部33輸出的聲音識別對象語。
由于朗讀文本的開頭的詞組等”首相”為聲音識別對象語,因此在改變朗讀方法的同時,顯示于顯示器4的顯示區(qū)域c1(圖2中示出)。
另一方面,在輸出的詞組等不是聲音識別對象語的情況下(步驟st306“否”),合成控制部33對朗讀方法變更部36輸出該詞組等的語調(diào)信息(步驟st311)。沒有從合成控制部33向顯示指示部35的輸出。
朗讀方法變更部36將從合成控制部33輸出的詞組等的語調(diào)信息直接輸出至音頻合成部34,音頻合成部34基于該語調(diào)信息,生成詞組等的合成音頻,輸出至揚聲器5,并進行朗讀(步驟st312)。
接著,合成控制部33對從朗讀文本的開頭的詞組等到最后的詞組等為止,判定是否輸出了全部詞組等(步驟st313)。合成控制部33在未完成輸出朗讀文本的全部詞組等的情況下(步驟st313“否”),返回至步驟st306,在完成輸出的情況下(步驟st313“是”),結束一系列的處理。
由此,如圖2所示,在對朗讀文本“首相、消費稅增稅判斷、啟動專家討論的政策‘若通貨緊縮難以擺脫則考慮’”中的“首相”“消費稅”“通貨緊縮”進行朗讀的時刻,改變朗讀方法并且在顯示區(qū)域c1~c3顯示“首相”“消費稅”“通貨緊縮”。
用戶通過說出朗讀方法已被改變的、或者顯示于顯示區(qū)域c1~c3的聲音識別對象語,從而能接受與該詞語關聯(lián)的附加信息的提供。
如上所述,根據(jù)實施方式3,信息提供系統(tǒng)1包括:提取部32,其將包含在朗讀文本中的詞組等中的能從信息源獲取與該詞組等相關的附加信息的詞組等作為聲音識別對象語進行提?。缓铣煽刂撇?3,其輸出對朗讀文本進行朗讀的音頻進行合成所用的語調(diào)信息以及提取部32所提取出的聲音識別對象語;音頻合成部34,其使用從合成控制部33接收到的語調(diào)信息來對朗讀文本進行朗讀;以及顯示指示部35,其與音頻合成部34朗讀聲音識別對象語的時刻相對應地,指示顯示器4顯示從合成控制部33接收到的聲音識別對象語。顯示指示部35與音頻合成部34朗讀聲音識別對象語的時刻相應地,從合成控制部33接收該聲音識別對象語,因此將接收到的該聲音識別對象語顯示于顯示器4。由此,在朗讀文本時,在朗讀聲音識別對象語的時刻進行顯示,因此即使在朗讀文本未顯示于畫面上、或者能顯示于畫面上的文字數(shù)量受到限制的情況下,也能將包含在該文本中的聲音識別對象語明示給用戶。
根據(jù)實施方式3,信息提供系統(tǒng)1具備朗讀方法變更部36,其用于使朗讀文本中的聲音識別對象語與除此以外的詞組等的音頻合成部34朗讀的方法發(fā)生變更。由此,用戶在駕駛負荷較高的情況下等無暇觀察畫面的狀況下,也能掌握聲音識別對象語,因此提高便利性。
另外,朗讀方法變更部36能追加到上述實施方式1、2的信息提供系統(tǒng)1中。
上述實施方式1~3中,雖然信息提供系統(tǒng)1構成為適用于日語的朗讀文本,但是也可以構成為適用于日語以外的語言。
此外,本申請發(fā)明在其發(fā)明的范圍內(nèi),能進行各實施方式的自由組合或者進行各實施方式的任意的構成要素的變形、或者在各實施方式中能省略任意的構成要素。
工業(yè)上的實用性
本發(fā)明的信息提供系統(tǒng)設為在朗讀文本時,與朗讀聲音識別對象語的時刻相應地顯示聲音識別對象語,因此也能適用于能顯示于畫面上的文字數(shù)量受到限制的車載設備以及移動信息終端等。
標號說明
1信息提供系統(tǒng),
2網(wǎng)絡,
3web服務器(信息源),
4顯示器(顯示部),
5揚聲器,
6麥克風,
10獲取部,
11、21、31信息處理控制部,
12、22、32提取部,
13、23、33合成控制部,
14、24、34音頻合成部,
15、25、35顯示指示部,
16詞典生成部,
17識別詞典,
18音頻識別部,
20、30存儲部,
36朗讀方法變更部,
101cpu,
102rom,
103ram,
104輸入裝置,
105通信裝置,
106hdd,
107輸出裝置。