国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      語音處理器及語音處理方法

      文檔序號(hào):2827355閱讀:212來源:國(guó)知局
      語音處理器及語音處理方法
      【專利摘要】一種語音處理器包括呈現(xiàn)單元、語音獲取單元、識(shí)別單元、確定單元、頻率獲取單元、和得分計(jì)算器。該呈現(xiàn)單元被配置成給操作員呈現(xiàn)文本。語音獲取單元被配置為獲取朗讀文本的操作員的語音。識(shí)別單元被配置為識(shí)別包含在操作員的語音中的音素的輸出間隔。確定單元被配置為確定每個(gè)輸出間隔的時(shí)間長(zhǎng)度是否正常。頻率獲取單元被配置為獲取分別表示分別對(duì)應(yīng)于音素的上下文的出現(xiàn)頻率的頻率值。該上下文包括音素以及與音素的至少一側(cè)相鄰的另一個(gè)音素。得分計(jì)算器被配置基于輸出間隔的時(shí)間長(zhǎng)度的確定結(jié)果以及分別對(duì)應(yīng)于音素的所獲取的上下文的頻率值,來計(jì)算代表操作員的語音的正確性的得分。
      【專利說明】語音處理器及語音處理方法
      [0001] 相關(guān)申請(qǐng)的交叉引用
      [0002] 本申請(qǐng)是基于并要求于2013年6月3日提交的日本專利申請(qǐng)N0. 2013-117261的 優(yōu)先權(quán);該日本專利申請(qǐng)的全部?jī)?nèi)容通過引用并入本文。

      【技術(shù)領(lǐng)域】
      [0003] 本文所描述的實(shí)施例大體涉及語音處理器,和語音處理方法。

      【背景技術(shù)】
      [0004] 語音處理,例如語音識(shí)別或語音合成需要獲取大量的用于例如學(xué)習(xí)或評(píng)估的語 音。作為獲取語音的方式之一,可以構(gòu)建一個(gè)通過互聯(lián)網(wǎng)從大量操作員獲取語音并作為他 們的工作的報(bào)酬給操作員獎(jiǎng)勵(lì)的系統(tǒng)。例如,JP-A2003-186489公開了一種語音獲取系統(tǒng), 它使發(fā)聲者能夠通過顯示將被說出的字符串及對(duì)發(fā)聲者的指導(dǎo)信息來自己執(zhí)行記錄。這樣 的系統(tǒng)可以以在時(shí)間和經(jīng)濟(jì)方面的較低成本來獲取大量語音。
      [0005] 在這樣的系統(tǒng)中,操作員酌情朗讀(read aloud)所呈現(xiàn)的文本并同時(shí)進(jìn)行錄制工 作。因此,當(dāng)操作員無法朗讀文本時(shí),操作員可以在不再次朗讀文本的情況下發(fā)送語音,不 與文本一致的低質(zhì)量語音可以被獲取到系統(tǒng)中。由于朗讀中的錯(cuò)誤導(dǎo)致使用包括大量的如 此低質(zhì)量語音的語音引起了語音處理精度惡化。


      【發(fā)明內(nèi)容】

      [0006] 實(shí)施例的目的是提供一種能夠以高精確度計(jì)算出代表操作員朗讀文本的語音的 正確性的得分的語音處理器。
      [0007] 根據(jù)一種語音處理器,包括呈現(xiàn)單元、語音獲取單元、識(shí)別單元、確定單元、頻率獲 取單元,和得分計(jì)算器。呈現(xiàn)單元被配置為將文本呈現(xiàn)給操作員。語音獲取單元用于獲取 朗讀文本的操作員的語音。識(shí)別單元被配置為識(shí)別包含在操作員的語音中的音素的輸出間 隔。確定單元被配置為確定每個(gè)輸出間隔的時(shí)間長(zhǎng)度是否是正常的。頻率獲取單元被配置 為獲取分別表示分別對(duì)應(yīng)于音素的上下文(context)的出現(xiàn)頻率的頻率值。上下文包括音 素以及與該音素的至少一側(cè)相鄰的另一音素。得分計(jì)算器被配置為基于輸出間隔的時(shí)間長(zhǎng) 度的確定結(jié)果和分別對(duì)應(yīng)于音素的所獲取的上下文的頻率值,計(jì)算出代表操作員的語音正 確性的得分。
      [0008] 根據(jù)上文描述的語音處理器,可以以高精度計(jì)算出代表朗讀文本操作員的語音的 正確性的得分。

      【專利附圖】

      【附圖說明】
      [0009] 圖1是語音處理系統(tǒng)的示例性結(jié)構(gòu)圖;
      [0010] 圖2是語音處理器和終端設(shè)備的示例性結(jié)構(gòu)圖;
      [0011] 圖3是由語音處理器執(zhí)行的處理的示例性流程圖;
      [0012] 圖4是示出當(dāng)選擇了日語文本時(shí)的音素串的示例圖;
      [0013] 圖5是示出當(dāng)選擇了日語文本時(shí)的上下文的示例圖;
      [0014] 圖6是示出了文本呈現(xiàn)屏幕的示例性示意圖;
      [0015] 圖7是示出了當(dāng)選擇了日語文本時(shí)音素的輸出間隔的示例圖;
      [0016] 圖8是示出了當(dāng)選擇了日語文本時(shí)各音素的時(shí)間長(zhǎng)度的確定結(jié)果的示例圖;
      [0017] 圖9是示出了當(dāng)選擇了日語文本時(shí)上下文的頻率值的示例圖;
      [0018] 圖10是示出了當(dāng)選擇了日語文本時(shí)各音素的權(quán)重的示例圖;
      [0019] 圖11是示出了其上顯示得分的文本呈現(xiàn)屏幕的示例性示意圖;
      [0020] 圖12是用于計(jì)算相應(yīng)音素的權(quán)重的處理的示例性流程圖;
      [0021] 圖13是用于計(jì)算得分的處理的示例性流程圖;
      [0022] 圖14是用來選擇文本的處理的示例性流程圖;
      [0023] 圖15是示出了上下文的出現(xiàn)位置的示例圖;
      [0024] 圖16是示出了當(dāng)選擇英文文本時(shí)的音素串和上下文的示例圖;
      [0025] 圖17是示出了當(dāng)選擇英語文本時(shí)的音素的輸出間隔的示例圖;
      [0026] 圖18是示出了當(dāng)選擇英語文本時(shí)的各音素的時(shí)間長(zhǎng)度的確定結(jié)果的示例圖;
      [0027] 圖19是示出了當(dāng)選擇英語文本時(shí)的上下文的頻率值的示例圖;
      [0028] 圖20是示出了當(dāng)選擇英語文本時(shí)的各音素的權(quán)重的示例圖;以及
      [0029] 圖21是語音處理器的示例性硬件結(jié)構(gòu)圖。

      【具體實(shí)施方式】
      [0030] 下面參照附圖來描述實(shí)施例。
      [0031] 圖1說明了根據(jù)實(shí)施例的語音處理系統(tǒng)10的結(jié)構(gòu)。語音處理系統(tǒng)10向多個(gè)操作 員呈現(xiàn)文本,并要求操作員朗讀文本。該文本是字符串,如任何語言的詞或句子。語音處理 系統(tǒng)10把由操作員朗讀的語音轉(zhuǎn)換成信號(hào)并獲取該信號(hào)。在下文中,從語音轉(zhuǎn)換的所獲取 的信號(hào)也被稱為所獲取的語音。語音處理系統(tǒng)10使得所獲取的語音能夠以如此方式被用 于語音處理(例如語音識(shí)別或語音合成)中的學(xué)習(xí)或評(píng)估。
      [0032] 語音處理系統(tǒng)10包括語音處理器20和多個(gè)終端設(shè)備30。語音處理器20是連接 到網(wǎng)絡(luò)(如因特網(wǎng))的計(jì)算機(jī)。每個(gè)終端設(shè)備30的是由操作員操作的計(jì)算機(jī)。語音處理器 20和各個(gè)終端設(shè)備30通過網(wǎng)絡(luò)彼此耦合。
      [0033] 語音處理器20通過其相應(yīng)的終端設(shè)備30向操作員呈現(xiàn)文本,并指示相應(yīng)操作員 朗讀所呈現(xiàn)的文本。語音處理器20將由相應(yīng)操作員朗讀的語音獲取為信號(hào)并且存儲(chǔ)所獲 取的語音。
      [0034] 語音處理器20計(jì)算代表所獲取的語音的正確性的得分。例如,語音處理器20通 過終端設(shè)備30向每個(gè)操作員通知得分。語音處理器20互相關(guān)聯(lián)地存儲(chǔ)得分和所獲取的語 音。例如,得分的較大值表明該操作員更正確地朗讀文本,而在朗讀文本時(shí)具有更少錯(cuò)誤。 換句話說,例如,得分的較小值表明由于朗讀中的錯(cuò)誤而導(dǎo)致操作員的語音是不正確的。
      [0035] 因此構(gòu)成的語音處理系統(tǒng)10可以通過通知操作員得分來使操作員意識(shí)到朗讀中 的正確性。因此構(gòu)成的互相關(guān)聯(lián)地存儲(chǔ)獲取的語音和得分的語音處理系統(tǒng)10還能夠通過 使具有高得分的語音被用于例如語音處理中的學(xué)習(xí)或評(píng)估來提高語音處理中的準(zhǔn)確性。
      [0036] 圖2示出根據(jù)本實(shí)施例的語音處理器20和終端設(shè)備30的結(jié)構(gòu)。
      [0037] 終端設(shè)備30包括顯示器41,輸入單元42,麥克風(fēng)43,和信息處理器44。顯示器41 顯示從語音處理器20獲取的文本。顯示器41顯示從語音處理器20獲取的得分。
      [0038] 為鍵盤或鼠標(biāo)的輸入單元42例如接收操作員的操作。麥克風(fēng)43將朗讀文本的操 作員的語音轉(zhuǎn)換為信號(hào)。
      [0039] 信息處理器44包括中央處理單元(CPU),并且完全控制終端設(shè)備30。信息處理器 44通過網(wǎng)絡(luò)接收來自語音處理器20的文本和得分,并使顯示器41顯示接收到的文本和得 分。信息處理器44通過網(wǎng)絡(luò)將由麥克風(fēng)43從語音轉(zhuǎn)換的信號(hào)傳輸?shù)秸Z音處理器20。
      [0040] 語音處理器20包括文本選擇器51,音素串轉(zhuǎn)換器52,上下文生成器53,呈現(xiàn)單元 54,語音獲取單元55,識(shí)別單元56,確定單元57,頻率存儲(chǔ)單元58,頻率獲取單元59,權(quán)重計(jì) 算器60,得分計(jì)算器61,通知器62,點(diǎn)加法器63,更新單元64和記錄器65。
      [0041] 文本選擇器51選擇將要呈現(xiàn)給操作員的文本。文本選擇器51可以讀出由系統(tǒng)管 理員預(yù)先選定的文本,例如,或從多個(gè)候選文本中選擇出將要呈現(xiàn)給操作員的文本。
      [0042] 音素串轉(zhuǎn)換器52把文本選擇器51選擇的文本轉(zhuǎn)換為音素串。音素是聲音的最小 單位以識(shí)別由人說出的話語的含義。音素串轉(zhuǎn)換器52將文本轉(zhuǎn)換為符號(hào)序列,該符號(hào)序列 基于文本和音素串的對(duì)應(yīng)表來表現(xiàn)各音素。音素系統(tǒng)根據(jù)語言和理論的解釋而變化。只要 音素系統(tǒng)對(duì)應(yīng)于所選文本的語言,音素串轉(zhuǎn)換器52可以根據(jù)任何解釋將文本轉(zhuǎn)換成音素 字符串。
      [0043] 上下文生成器53生成與包含于通過利用音素串轉(zhuǎn)換器52的轉(zhuǎn)換而得的音素字符 串中的各音素對(duì)應(yīng)的上下文。上下文代表某一音素和與該某一音素的至少一側(cè)相鄰的相鄰 音素(即緊接在某一音素之前的相鄰音素以及緊接在某一音素之后的相鄰音素)的組合。被 稱為雙音素和三音素的上下文是已知的。雙音素是表示某一音素與緊接在該某一因素之前 的音素的組合的上下文。三音素是表示某一音素與緊接在該某一因素之前及之后的音素的 組合的上下文。上下文生成器53可以生成雙音素或三音素。
      [0044] 呈現(xiàn)單元54向操作員呈現(xiàn)由文本選擇器51選擇的文本。例如,呈現(xiàn)單元54通過 網(wǎng)絡(luò)將該文本發(fā)送到終端設(shè)備30,并使終端設(shè)備30的顯示器41顯示該文本。
      [0045] 語音獲取單元55獲取朗讀所呈現(xiàn)的文本的操作員的語音。例如,語音獲取單元55 接收由終端設(shè)備30的麥克風(fēng)43從語音轉(zhuǎn)換的信號(hào),并將該信號(hào)存儲(chǔ)到存儲(chǔ)器中。
      [0046] 識(shí)別單元56識(shí)別包含在操作員的語音中的各個(gè)音素的輸出間隔。具體來說,識(shí)別 單元56檢測(cè)包括在操作員的語音內(nèi)的音素的分離,并識(shí)別每個(gè)音素的開始時(shí)間和結(jié)束時(shí) 間。
      [0047] 識(shí)別單元56使用強(qiáng)制對(duì)準(zhǔn)技術(shù)(forced alignment technique)基于通過利用音 素串轉(zhuǎn)換器52的轉(zhuǎn)換而獲得的音素字符串,來分析由語音獲取單元55獲取的語音并識(shí)別 每個(gè)音素的輸出間隔。強(qiáng)制對(duì)準(zhǔn)技術(shù)例如使用過去獲取的音素的波形或類似物,來識(shí)別音 素的輸出間隔。在強(qiáng)制對(duì)準(zhǔn)技術(shù)中,極可能的是,與過去獲取更少的音素的輸出間隔相比, 過去獲取更多的音素的輸出間隔能被更正確地識(shí)別。
      [0048] 確定單元57確定每個(gè)音素的由識(shí)別單元56識(shí)別的輸出間隔的時(shí)間長(zhǎng)度是否正 常。確定單元57然后將確定結(jié)果與包含在語音中的相應(yīng)音素關(guān)聯(lián)起來。具體來說,確定單 元57將標(biāo)記與相應(yīng)的音素關(guān)聯(lián)起來,該標(biāo)記表明該時(shí)間長(zhǎng)度是正常還是異常(S卩,該時(shí)間 長(zhǎng)度是不正常的)。
      [0049] 包含在由人發(fā)出的語音中的每個(gè)音素的時(shí)間長(zhǎng)度通常是在一定的范圍內(nèi)的。因 此,當(dāng)音素的輸出間隔的由識(shí)別單元56識(shí)別出的時(shí)間長(zhǎng)度在一定范圍之外時(shí),所識(shí)別的音 素的輸出間隔的時(shí)間長(zhǎng)度被估計(jì)為異常。確定單元57因此針對(duì)每個(gè)音素確定音素的輸出 間隔的時(shí)間長(zhǎng)度是否在預(yù)定范圍內(nèi),并且如果音素的輸出間隔的時(shí)間長(zhǎng)度是在預(yù)定范圍 內(nèi),則確定該音素為正常,并且如果該時(shí)間長(zhǎng)度在預(yù)定范圍之外時(shí),確定該音素為異常。換 句話說,如果音素的輸出間隔的時(shí)間長(zhǎng)度等于或大于預(yù)定下限時(shí)間長(zhǎng)度,且等于或小于預(yù) 定上限時(shí)間長(zhǎng)度時(shí),則確定單元57確定該音素為正常,而如果該時(shí)間長(zhǎng)度是小于該下限時(shí) 間長(zhǎng)度或大于該上限時(shí)間長(zhǎng)度時(shí),則確定單元57確定該音素為異常。
      [0050] 被確定為正常的每個(gè)音素的時(shí)間長(zhǎng)度所在的范圍可以是相同的,而不管音素的種 類如何;或者被確定為正常的每個(gè)音素的時(shí)間長(zhǎng)度所在的范圍也可能根據(jù)音素的類型而變 化。被確定為正常的每個(gè)音素的時(shí)間長(zhǎng)度所在的范圍可能根據(jù)語言而變化。
      [0051] 頻率存儲(chǔ)單元58針對(duì)每個(gè)上下文,在其中儲(chǔ)存了表示包含在過去獲取的語音中 的上下文的出現(xiàn)頻率的值作為頻率值。當(dāng)上下文被包括在過去獲取的語音中的次數(shù)為大 時(shí),頻率值是大的,而當(dāng)上下文被包括在過去獲取的語音中的次數(shù)為小時(shí),則頻率值是小 的。
      [0052] 過去獲取的語音可能是由語音處理系統(tǒng)10獲取的語音或是由另一系統(tǒng)獲取的語 音。過去取得的語音可能既包括由語音處理系統(tǒng)10獲取的語音,也包括由另一系統(tǒng)獲取的 語音。
      [0053] 頻率值并不必須是直接代表出現(xiàn)頻率的值,只要其代表出現(xiàn)頻率。頻率值的實(shí)例 包括將出現(xiàn)頻率分成約10個(gè)級(jí)別而獲得的級(jí)別的代表值,以及出現(xiàn)頻率的歸一化值。
      [0054] 頻率獲取單元59從頻率存儲(chǔ)單元58獲取與通過音素串轉(zhuǎn)換器52的轉(zhuǎn)換而得到 的各音素相對(duì)應(yīng)的上下文的頻率值。具體來說,頻率獲取單元59從頻率存儲(chǔ)單元58中讀 出與由上下文生成器53產(chǎn)生的相應(yīng)文本相對(duì)應(yīng)的頻率值。
      [0055] 權(quán)重計(jì)算器60根據(jù)頻率獲取單元59獲取的文本的頻率值計(jì)算出與通過音素串轉(zhuǎn) 換器52的轉(zhuǎn)換而得的音素相對(duì)應(yīng)的權(quán)重。權(quán)重是由例如數(shù)值表示的系數(shù)。例如,頻率值越 大,權(quán)重計(jì)算器60計(jì)算出的權(quán)重值就越大,而頻率值越小,權(quán)重計(jì)算器60計(jì)算出的權(quán)重值 就越小。
      [0056] 得分計(jì)算器61基于確定單元57關(guān)于音素輸出間隔的時(shí)間長(zhǎng)度的確定結(jié)果和權(quán)重 計(jì)算器60計(jì)算的分別對(duì)應(yīng)于音素的權(quán)重來計(jì)算代表朗讀文本的操作員的語音的正確性的 得分結(jié)果。
      [0057] 具體來說,得分計(jì)算器61利用對(duì)應(yīng)的相應(yīng)權(quán)重來對(duì)音素的確定結(jié)果進(jìn)行加權(quán)。然 后得分計(jì)算器61在加權(quán)之后計(jì)算被確定為正常的音素的確定結(jié)果的數(shù)量與確定結(jié)果的總 數(shù)量的比率,來作為得分。得分計(jì)算器61能在得分上反映出具有大權(quán)重的音素(即具有大 出現(xiàn)頻率的音素)的確定結(jié)果以及具有小加權(quán)音素(即具有小的出現(xiàn)頻率的音素)的確定結(jié) 果。
      [0058] 通知器62根據(jù)由評(píng)分計(jì)算器61計(jì)算的得分通知操作員其內(nèi)容。例如,通知器62 通過網(wǎng)絡(luò)發(fā)送得分到終端設(shè)備30,并使終端設(shè)備30的顯示器41顯示得分。通知器62可以 將得分轉(zhuǎn)換為分類成兩級(jí)或三級(jí)(例如,評(píng)估等級(jí)A,評(píng)估等級(jí)B,和評(píng)估等級(jí)C)的評(píng)估值, 并例如使顯示器41顯示出評(píng)估值。作為結(jié)果,通知器62可以使操作員意識(shí)到朗讀文本的 操作員的語音的正確性。
      [0059] 分?jǐn)?shù)加法器63例如,訪問外部分?jǐn)?shù)管理服務(wù)器,并且向操作員增加了分?jǐn)?shù)以作為 對(duì)朗讀工作的報(bào)酬。例如,該分?jǐn)?shù)可以是現(xiàn)金或電子貨幣??商娲兀?,分?jǐn)?shù)加法器63 可以將對(duì)應(yīng)量的貨幣轉(zhuǎn)移到操作員的銀行賬戶。
      [0060] 分?jǐn)?shù)加法器63可以按照得分來改變分?jǐn)?shù)。例如當(dāng)操作員的語音的計(jì)算得分等于 或大于預(yù)先設(shè)定的閾值時(shí),分?jǐn)?shù)加法器63可以在常規(guī)分?jǐn)?shù)之前將獎(jiǎng)勵(lì)分?jǐn)?shù)加給朗讀文本 的操作員。作為結(jié)果,分?jǐn)?shù)加法器63可以激勵(lì)操作員更正確地朗讀文本。
      [0061] 更新單元64更新存儲(chǔ)在頻率存儲(chǔ)單元58中的與朗讀文本的操作員的語音中包括 的相應(yīng)音素對(duì)應(yīng)的上下文的頻率值。在這種情況下,更新單元64在得分等于或大于某一閾 值時(shí),可更新上下文的頻率值。作為結(jié)果,更新單元64可以在文本被不正確地朗讀時(shí),防止 頻率值被反映在頻率存儲(chǔ)單元58上。
      [0062] 記錄器65在內(nèi)部或外部存儲(chǔ)設(shè)備中存儲(chǔ)由語音獲取單元55獲取的語音和識(shí)別單 元56所識(shí)別的相應(yīng)音素的輸出間隔。作為結(jié)果,記錄器65可以使獲取的語音被用于語音 處理。
      [0063] 在這種情況下,記錄器65還可以進(jìn)一步與語音相關(guān)聯(lián)地存儲(chǔ)得分。作為結(jié)果,記 錄器65可使具有高得分的語音(S卩,正確的語音)被用于語音處理。記錄器65可以通過分 析具有低得分的語音來使其朗讀中的錯(cuò)誤的原因被分析。
      [0064] 圖3示出根據(jù)本實(shí)施例的語音處理器20執(zhí)行的處理流程。下面參照?qǐng)D3描述了 由語音處理器20執(zhí)行的處理過程。
      [0065] 在步驟S11,文本選擇器51選擇將要呈現(xiàn)給操作員的文本。舉個(gè)例子,文本選擇器 51選擇日語詞語的"mottsuarera (英文中的mozzarella)"的文本。
      [0066] 在步驟S12,音素串轉(zhuǎn)換器52將選定的文本轉(zhuǎn)換成音素串。在本例中,音素串轉(zhuǎn)換 器52將文本"mottsuarera"轉(zhuǎn)換成〃m-〇-Q-cw-a-r-e-r-a〃的詞素串,其是由如圖4所示 的9個(gè)音素構(gòu)成。
      [0067] 在步驟S13,上下文生成器53產(chǎn)生與音素串中包含的相應(yīng)音素對(duì)應(yīng)的上下文作為 轉(zhuǎn)換結(jié)果。在該示例中,上下文生成器53產(chǎn)生被稱為雙音素的上下文。
      [0068] 具體而言,如圖5所示,上下文生成器53產(chǎn)生與"m"的音素對(duì)應(yīng)的"sil-m"的上 下文。符號(hào)"sil"表示silence (沉默)。
      [0069] 上下文生成器53產(chǎn)生對(duì)應(yīng)于音素"〇"的上下文"m-o"。上下文生成器53產(chǎn)生對(duì) 應(yīng)于音素"Q"的上下文"〇-Q"。上下文生成器53產(chǎn)生對(duì)應(yīng)于音素"cw"的上下文"Q-cw"。 上下文生成器53產(chǎn)生對(duì)應(yīng)于音素"a"的上下文"cw-a"。上下文生成器53產(chǎn)生對(duì)應(yīng)于音素 "r"的上下文"a-r"。上下文生成器53產(chǎn)生對(duì)應(yīng)于音素"e"的上下文"r-e"。上下文生成 器53產(chǎn)生對(duì)應(yīng)于音素"r"的上下文"e-r"。上下文生成器53產(chǎn)生對(duì)應(yīng)于音素"a"的上下 文 "r-a"。
      [0070] 在步驟S14,呈現(xiàn)單元54使終端設(shè)備30的顯示器41顯示所選擇的文本。在該示 例中,如圖6所示,呈現(xiàn)單元54使顯示器41顯示包括文本"mottsuarera"的呈現(xiàn)屏幕70。
      [0071] 指示對(duì)朗讀文本的獎(jiǎng)勵(lì)的分?jǐn)?shù)(例如,"5分?jǐn)?shù)")可與文本一起顯示在呈現(xiàn)屏幕70 上。例如,在呈現(xiàn)屏幕70上,顯示了啟動(dòng)語音記錄的記錄按鈕71。一旦記錄按鈕71被操作 員按壓,終端設(shè)備30通過麥克風(fēng)43開始記錄操作員的語音。
      [0072] 在步驟S15,語音獲取單元55通過網(wǎng)絡(luò)獲取由終端設(shè)備30記錄的語音。隨后例 如,語音獲取單位55將獲取的語音存儲(chǔ)在存儲(chǔ)器中。
      [0073] 在步驟S16,識(shí)別單元56識(shí)別包括在所獲取的語音內(nèi)的相應(yīng)音素的輸出間隔。在 本例中,識(shí)別單元56使用強(qiáng)制對(duì)準(zhǔn)技術(shù)來識(shí)別相應(yīng)音素的輸出間隔。識(shí)別單元56使用過 去獲取的相應(yīng)音素的波形或類似物來識(shí)別與從呈現(xiàn)的文本轉(zhuǎn)換成的相應(yīng)音素相對(duì)應(yīng)的輸 出間隔。
      [0074] 在本例中,如圖7所示,識(shí)別單元56識(shí)別相應(yīng)音素"m","〇","Q","cw","a","r", "e","r"和"a"的開始時(shí)間和結(jié)束時(shí)間。例如,識(shí)別單元56關(guān)于第一個(gè)音素"m"識(shí)別開始 時(shí)間是1. 20秒并且結(jié)束時(shí)間為1. 29秒。作為另一示例,識(shí)別單元56關(guān)于第四音素"cw" 識(shí)別了開始時(shí)間為1. 43秒并且結(jié)束時(shí)間為1. 47秒。
      [0075] 開始時(shí)間和結(jié)束時(shí)間的參照可被設(shè)定為任何時(shí)間。在該示例中,開始時(shí)間和結(jié)束 時(shí)間的參考是開始記錄的時(shí)間。
      [0076] 在步驟S17,確定單元57確定每個(gè)相應(yīng)的音素的識(shí)別的輸出間隔的時(shí)間長(zhǎng)度是否 正常。如圖8所示,在本例中,當(dāng)音素的從開始時(shí)間到結(jié)束時(shí)間的時(shí)間長(zhǎng)度等于或大于0.05 秒且等于或小于〇. 15秒時(shí),確定單元57確定該音素為正常。換句話說,當(dāng)音素的開始時(shí)間 到結(jié)束時(shí)間的時(shí)間長(zhǎng)度是小于〇. 05秒或者比0. 15秒更大時(shí),則確定單元57確定該音素為 異常。例如,確定單元57確定為第一個(gè)音素"m"是正常的,因?yàn)闀r(shí)間長(zhǎng)度為0.09秒。作為 另一示例,確定單元57確定第四個(gè)音素"cw"為異常,因?yàn)闀r(shí)間長(zhǎng)度為0. 04秒。
      [0077] 如圖8所示,確定單元57將每一個(gè)指示正常或異常的標(biāo)記與相應(yīng)的音素關(guān)聯(lián)起 來。
      [0078] 在步驟S18,頻率獲取單元59從頻率存儲(chǔ)單元58獲取與從呈現(xiàn)的文本轉(zhuǎn)換而成 的相應(yīng)音素相對(duì)應(yīng)的上下文的頻率值。在該示例中,頻率獲取單元59獲取與圖9所示的相 應(yīng)上下文 " si 1 -m"、"m-o "、" o-Q"、" Q-cw"、" cw-a"、" a-r "、"r-e "、" e-r " 和 "r-a" 相對(duì)應(yīng)的 頻率值。例如,頻率獲取單元59獲取" 1000000"作為與第一個(gè)音素"m"所對(duì)應(yīng)的上下文 "sil-m"的頻率值。作為另一示例,頻率獲取單元59獲取"1000"作為與第四個(gè)音素"cw" 相對(duì)應(yīng)的上下文"Q-cw"的頻率值。
      [0079] 在步驟S19,權(quán)重計(jì)算器60根據(jù)所獲取的上下文的頻率值,計(jì)算與從所呈現(xiàn)的文 本轉(zhuǎn)換的相應(yīng)音素相對(duì)應(yīng)的權(quán)重。如圖10所示,權(quán)重計(jì)算器60將與其上下文具有比預(yù)定 參考值小的頻率的音素所對(duì)應(yīng)的權(quán)重計(jì)算為第一值(例如,〇. 1),同時(shí)權(quán)重計(jì)算器60將與 其上下文具有大于或等于預(yù)定參考值的頻率值的音素相對(duì)應(yīng)的權(quán)重,計(jì)算為第二值(例如, 1. 0),在本示例中,第二值大于第一值。例如,權(quán)重計(jì)算器60將對(duì)應(yīng)于第一個(gè)音素"m"的權(quán) 重計(jì)算為第二值(1.0)。作為另一示例,權(quán)重計(jì)算器60將與第四個(gè)音素"cw"相應(yīng)的權(quán)重計(jì) 算為第一值(〇. 1)。
      [0080] 權(quán)重計(jì)算器60在該例中,設(shè)置第一值與第二個(gè)值之間的比率為10倍。這個(gè)比率 可以是大于或小于10倍。在步驟S19的具體處理將在后面參照?qǐng)D12中來描述。
      [0081] 在步驟S20,得分計(jì)算器61基于相應(yīng)音素的輸出間隔的時(shí)間長(zhǎng)度的確定結(jié)果和與 各音素相對(duì)應(yīng)的計(jì)算而得的權(quán)重,來計(jì)算得分。在例子中,得分計(jì)算器61計(jì)算由0到100 的任何數(shù)字值表示的得分。步驟S20的具體處理將在后面參照?qǐng)D13進(jìn)行描述。
      [0082] 在步驟S21,通知器62使終端設(shè)備30的顯示器41顯示得分,從而將得分通知操作 員。如該圖11所示,在該示例中,通知器62使顯示器41顯示得分窗72,將得分顯示在呈現(xiàn) 屏幕70的一部分上。分?jǐn)?shù)加法器63訪問分?jǐn)?shù)管理服務(wù)器,例如,并將該分?jǐn)?shù)加給操作員。 [0083] 當(dāng)?shù)梅值扔诨虼笥陬A(yù)先設(shè)定的閾值時(shí),通知器62除了常規(guī)分?jǐn)?shù)之外將獎(jiǎng)勵(lì)分?jǐn)?shù) 加給操作員。在這種情況下,如圖11所示,通知器62使顯示器41將獎(jiǎng)勵(lì)分?jǐn)?shù)的值顯示在 得分窗72上,從而通知操作員該獎(jiǎng)勵(lì)分?jǐn)?shù)被添加。
      [0084] 在步驟S22,更新單元64在得分等于或大于某一閾值的條件下,將存儲(chǔ)在頻率存 儲(chǔ)單元58的頻率值進(jìn)行更新。記錄器65將所獲取的語音及相應(yīng)音素的輸出間隔存儲(chǔ)在內(nèi) 部或外部存儲(chǔ)設(shè)備中。在這種情況下,記錄器65與語音相關(guān)聯(lián)地存儲(chǔ)得分。
      [0085] 在步驟S22的處理完成后,語音處理器20結(jié)束該流程的處理。
      [0086] 圖12是用來計(jì)算音素的權(quán)重的處理流程。權(quán)重計(jì)算器60在圖3的步驟S19處執(zhí) 行圖12中所示的處理。
      [0087] 在步驟S191中,權(quán)重計(jì)算器60從頻率存儲(chǔ)單元58獲取由頻率獲取單元50獲取 的上下文的頻率值中的最大值。如圖9所示,在該示例中,權(quán)重計(jì)算器60獲得"2000000", 其是與第七音素"e"對(duì)應(yīng)的上下文"r-e"的最大的頻率值。
      [0088] 在步驟S192,權(quán)重計(jì)算器60確定在從所呈現(xiàn)的文本轉(zhuǎn)換成的音素中是否剩余待 選擇的任何音素。如果沒有待選擇的音素剩余(步驟S192的否),則權(quán)重計(jì)算器60結(jié)束該 流程,并且該處理返回到主流程。如果剩余待選擇的任何音素(步驟S192的是),則權(quán)重計(jì) 算器60前進(jìn)到步驟S193。
      [0089] 在步驟S193,權(quán)重計(jì)算器60從剩余待選的音素中選出任何一個(gè)音素作為處理對(duì) 象。
      [0090] 在步驟S194,權(quán)重計(jì)算器60將與待選的音素相對(duì)應(yīng)的上下文的頻率值進(jìn)行歸一 化。具體來說,權(quán)重計(jì)算器60在歸一化處理中,與被選的音素相對(duì)應(yīng)的上下文的頻率值除 以在步驟S191中獲取的最大值。在圖9所示的該示例中,當(dāng)?shù)谝粋€(gè)音素"m"被選擇時(shí),歸一 化的頻率值被如下計(jì)算:1000000/2000000=0. 5。在圖9所示的該示例中,當(dāng)?shù)谒囊羲?cw" 被選擇時(shí),則歸一化的頻率值被如下計(jì)算:1000/2000000=0. 0005。
      [0091] 在步驟S195中,權(quán)重計(jì)算器60將歸一化的頻率值與預(yù)先設(shè)定的參考值進(jìn)行比較, 并計(jì)算與所選擇的音素相對(duì)應(yīng)的權(quán)重。具體地,當(dāng)歸一化的頻率值比參考值小時(shí),權(quán)重計(jì)算 器60將對(duì)應(yīng)于所選擇的音素計(jì)算為第一值(0. 1)。當(dāng)歸一化的頻率值等于或大于參考值 時(shí),權(quán)重計(jì)算器60將與所選音素相對(duì)應(yīng)的權(quán)重計(jì)算為第二值(1.0),該第二值比第一值大。
      [0092] 在該示例中,參考值被設(shè)置為"0. 1"。如圖10所示,當(dāng)?shù)谝粋€(gè)音素"m"被選擇時(shí), 由于歸一化的頻率值是比參考值大的"0. 5",故權(quán)重計(jì)算器60將權(quán)重計(jì)算為第二值(1. 0)。 當(dāng)選擇第四個(gè)音素"cw"時(shí),權(quán)重計(jì)算器60將權(quán)重計(jì)算為第一值(0. 1 ),因?yàn)闅w一化的頻率 值是比參考值小的"〇. 0005"。
      [0093] 權(quán)重計(jì)算器60可使用不僅僅兩個(gè)值,而是三個(gè)或更多的值來計(jì)算權(quán)重。權(quán)重計(jì)算 器60可以計(jì)算歸一化的頻率值的對(duì)數(shù)值作為權(quán)重。
      [0094] 在步驟S196,權(quán)重計(jì)算器60將計(jì)算出的權(quán)重與選擇的音素關(guān)聯(lián)地存儲(chǔ)。然后權(quán)重 計(jì)算器60返回到步驟S192,并繼續(xù)從步驟S192到步驟S196的處理,直到?jīng)]有待選擇的音 素剩余。
      [0095] 圖13示出用于計(jì)算得分的處理流程。得分計(jì)算器61在圖3所示的步驟S20處執(zhí) 行圖13所示的處理。
      [0096] 在步驟S201,得分計(jì)算器61代入"0"用于變量W和T。
      [0097] 在步驟S202,得分計(jì)算器61確定從文本轉(zhuǎn)換而來的音素中是否剩余任何待選擇 的音素。如果沒有剩余音素待選擇(步驟S202的否),則得分計(jì)算器61前進(jìn)到步驟S208。 如果剩余任何音素待選擇(步驟S202的是),則得分計(jì)算器61前進(jìn)到步驟S203。
      [0098] 在步驟S203,得分計(jì)算器61從剩余待選擇的音素中選擇任一個(gè)音素作為處理目 標(biāo)。
      [0099] 在步驟S204,得分計(jì)算器61獲取對(duì)應(yīng)于所選擇的音素的權(quán)重Wi。例如,當(dāng)選擇了 第一個(gè)音素"m"時(shí),得分計(jì)算器61獲得如圖10所示的"權(quán)重Wl=l. 0"。作為另一示例,當(dāng)?shù)?四音素"cw"被選擇時(shí),得分計(jì)算器61獲取如圖10所示的"權(quán)重w4=0. 1"。
      [0100] 在步驟S205,得分計(jì)算器61執(zhí)行W=w+Wi的算術(shù)運(yùn)算。換句話說,該得分計(jì)算器61 將所選音素的權(quán)重wi加到變量W。
      [0101] 在步驟S206,得分計(jì)算器61獲取與所選的音素相對(duì)應(yīng)的標(biāo)記li。例如,當(dāng)選擇第 一個(gè)音素"m"時(shí),得分計(jì)器部61獲得如圖8所示的"標(biāo)記1 1=正常"。再如,當(dāng)選擇第四個(gè) 音素"cw"時(shí),得分計(jì)算器61獲得如圖8所示的"標(biāo)記14=異常"。
      [0102] 在步驟S207,得分計(jì)算器61執(zhí)行算術(shù)運(yùn)算"T=T+I (If正常)XWi"。I (X)是函 數(shù)。當(dāng)X為真時(shí),I (x)=l,而當(dāng)X為假時(shí),I (x)=〇。當(dāng)標(biāo)記li是正常時(shí),得分計(jì)算器61 將&加到T,而當(dāng)標(biāo)記^是異常時(shí),得分計(jì)算61不將值加到T。
      [0103] 在完成步驟S207處的處理之后,得分計(jì)算器61返回到步驟S202,并且重復(fù)從步驟 S202至步驟S207的處理,直到?jīng)]有音素剩余待選擇為止。如果沒有音素剩余待選擇,則得 分計(jì)算器61前進(jìn)到步驟S208。
      [0104] 在步驟S208,得分計(jì)算器61執(zhí)行算術(shù)運(yùn)算"S= (T/W) X 100"來計(jì)算得分S。W表 示與各個(gè)音素相對(duì)應(yīng)的權(quán)重之和。τ代表與被確定為正常的音素對(duì)應(yīng)的權(quán)重之和。
      [0105] 得分計(jì)算器61因此在算術(shù)運(yùn)算"S=(T/W) X 100"中,通過將對(duì)應(yīng)于被確定為正常 的各音素的權(quán)重之和與對(duì)應(yīng)于各個(gè)音素的權(quán)重之和的比率乘以1〇〇,來計(jì)算得分S。
      [0106] 從步驟S201到步驟S208的處理由下面的表達(dá)式(1)表示。
      [0107]

      【權(quán)利要求】
      1. 一種語音處理器,包括: 被配置成將文本呈現(xiàn)給操作員的呈現(xiàn)單元; 被配置成獲取朗讀所述文本的操作員的語音的語音獲取單元; 被配置成識(shí)別包含在所述操作員的所述語音中的音素的輸出間隔的識(shí)別單元; 被配置成確定所述輸出間隔的時(shí)間長(zhǎng)度中的每一個(gè)是否正常的確定單元; 被配置為獲取分別代表分別與所述音素相對(duì)應(yīng)的上下文的出現(xiàn)頻率的頻率值的頻率 獲取單元,所述上下文包括所述音素以及與所述音素的至少一側(cè)相鄰的另一個(gè)音素;以及 得分計(jì)算器,其被配置為基于所述輸出間隔的所述時(shí)間長(zhǎng)度的確定結(jié)果以及分別對(duì)應(yīng) 于所述音素的所獲取的上下文的頻率值,來計(jì)算代表所述操作員的所述語音的正確性的得 分。
      2. 根據(jù)權(quán)利要求1所述的語音處理器,還包括: 被配置為根據(jù)所述上下文的所述頻率值來計(jì)算對(duì)應(yīng)于每個(gè)所述音素的權(quán)重的權(quán)重計(jì) 算器,其中 所述得分計(jì)算器計(jì)算與對(duì)應(yīng)于被確定為正常的正常音素的所述權(quán)重之和與對(duì)應(yīng)于多 個(gè)音素的所述權(quán)重之和的比率相對(duì)應(yīng)的值,作為所述得分。
      3. 根據(jù)權(quán)利要求2所述的語音處理器,其中,所述權(quán)重計(jì)算器計(jì)算所述權(quán)重,使得與上 下文的頻率值等于或大于參考值的音素相對(duì)應(yīng)的權(quán)重,比與上下文的頻率值小于所述參考 值的音素相對(duì)應(yīng)的權(quán)重更大。
      4. 根據(jù)權(quán)利要求1所述的語音處理器,還包括被配置為向所述操作員通知根據(jù)所述得 分的內(nèi)容的通知器。
      5. 根據(jù)權(quán)利要求1所述的語音處理器,還包括: 頻率存儲(chǔ)單元,其被配置為在其中存儲(chǔ)包括在過去獲取的語音中的多個(gè)上下文的出現(xiàn) 頻率作為所述頻率值; 更新單元,其被配置來根據(jù)所述得分來更新與朗讀所述文本的所述操作員的所述語音 中包括的所述音素相對(duì)應(yīng)的所述上下文的存儲(chǔ)在所述頻率存儲(chǔ)單元中的所述頻率值;以及 文本選擇器,其被配置為從多個(gè)候選文本中選擇一個(gè)文本作為所述文本,其中 所述文本選擇器基于當(dāng)所述候選文本被朗讀時(shí)與包括在所述候選文本中的多個(gè)音素 相對(duì)應(yīng)的上下文的頻率值來選擇所述文本。
      6. 根據(jù)權(quán)利要求5所述的語音處理器,其中,所述文本選擇器選擇優(yōu)先于其他候選文 本的候選文本,優(yōu)選的候選文本在文本的開頭和結(jié)尾處包括上下文的頻率值大于閾值的音 素,并且在文本中除了文本的開頭和結(jié)尾之外的部分處包括上下文的頻率值小于所述閾值 的音素。
      7. -種語音處理方法,包括: 將文本呈現(xiàn)給操作員; 獲取朗讀所述文本的所述操作員的語音; 識(shí)別包括在所述操作員的所述語音內(nèi)的音素的輸出間隔; 確定所述輸出間隔的時(shí)間長(zhǎng)度中的每一個(gè)是否正常; 獲取分別代表分別對(duì)應(yīng)于所述音素的上下文的出現(xiàn)頻率的頻率值,所述上下文包括對(duì) 應(yīng)的音素和與所述音素的至少一側(cè)相鄰的另一個(gè)音素;以及 基于所述輸出間隔的所述時(shí)間長(zhǎng)度的確定結(jié)果和分別對(duì)應(yīng)于所述音素獲得的所述上 下文的所述頻率值,來計(jì)算代表所述操作員的所述語音的正確性的得分。
      【文檔編號(hào)】G10L15/32GK104217716SQ201410093682
      【公開日】2014年12月17日 申請(qǐng)日期:2014年3月13日 優(yōu)先權(quán)日:2013年6月3日
      【發(fā)明者】中田康太 申請(qǐng)人:株式會(huì)社東芝
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1