国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      文本生成器和文本生成方法

      文檔序號(hào):2827347閱讀:345來(lái)源:國(guó)知局
      文本生成器和文本生成方法
      【專利摘要】根據(jù)一個(gè)實(shí)施例,文本生成器包括識(shí)別器、選擇器和生成單元。識(shí)別器被配置為識(shí)別所拾取的聲音,并獲取識(shí)別單元中識(shí)別的字符串和所識(shí)別的字符串的可信度。選擇器被配置為基于關(guān)于轉(zhuǎn)錄精確度的參數(shù)和關(guān)于轉(zhuǎn)錄所需工作量的參數(shù)中的至少一個(gè),選擇至少一個(gè)所識(shí)別的字符串用于轉(zhuǎn)錄的句子。生成單元被配置為使用所選的識(shí)別字符串生成轉(zhuǎn)錄的句子。
      【專利說(shuō)明】文本生成器和文本生成方法
      [0001] 相關(guān)申請(qǐng)的交叉引用
      [0002] 本申請(qǐng)基于并要求以下申請(qǐng)的優(yōu)先權(quán):2013年4月3日提交的日本專利申請(qǐng) No. 2013-077576 ;其全部?jī)?nèi)容通過(guò)引用并入本文。

      【技術(shù)領(lǐng)域】
      [0003] 本文描述的實(shí)施例大體上涉及一種文本生成器,以及一種文本生成方法。

      【背景技術(shù)】
      [0004] 在轉(zhuǎn)錄(transcription)工作中,例如在收聽(tīng)記錄的聲音數(shù)據(jù)的同時(shí),將語(yǔ)音的內(nèi) 容轉(zhuǎn)錄為句子(文本)。為了減小轉(zhuǎn)錄工作中的負(fù)擔(dān),用于幫助轉(zhuǎn)錄工作的裝置已經(jīng)采用語(yǔ) 首識(shí)別系統(tǒng)。
      [0005] 然而,該已知的裝置不能獲得操作者期望的適當(dāng)?shù)恼Z(yǔ)音識(shí)別結(jié)果,并且因此不能 減小轉(zhuǎn)錄工作中的負(fù)擔(dān)。


      【發(fā)明內(nèi)容】

      [0006] 實(shí)施例的目的是提供一種能夠減小轉(zhuǎn)錄工作中的負(fù)擔(dān)的文本生成器。
      [0007] 根據(jù)一實(shí)施例,文本生成器包括識(shí)別器、選擇器以及生成單元。該識(shí)別器被配置為 識(shí)別所拾取的聲音,并獲取識(shí)別單元中識(shí)別的字符串和所識(shí)別的字符串的可信度。該選擇 器被配置為基于關(guān)于轉(zhuǎn)錄精確度的參數(shù)和關(guān)于轉(zhuǎn)錄所需工作量的參數(shù)中的至少一個(gè),選擇 至少一個(gè)所識(shí)別的字符串用于轉(zhuǎn)錄的句子。生成單元被配置為使用所選的所識(shí)別的字符串 生成轉(zhuǎn)錄的句子。
      [0008] 根據(jù)上述文本生成器,可減小轉(zhuǎn)錄工作中的負(fù)擔(dān)。

      【專利附圖】

      【附圖說(shuō)明】
      [0009] 圖1是示例性示意圖,示出了根據(jù)第一實(shí)施例的文本生成器的使用;
      [0010] 圖2是示例性示意圖,示出了根據(jù)第一實(shí)施例的文本生成器的功能結(jié)構(gòu);
      [0011] 圖3是示例性流程圖,示出了根據(jù)第一實(shí)施例的用于生成文本的基本處理;
      [0012] 圖4是示例性示意圖,示出了根據(jù)第一實(shí)施例的語(yǔ)音識(shí)別結(jié)果的數(shù)據(jù);
      [0013] 圖5是第一示例性流程圖,示出了根據(jù)第一實(shí)施例的用于選擇識(shí)別的字符串的處 理;
      [0014] 圖6是示例性示意圖,示出了根據(jù)第一實(shí)施例的轉(zhuǎn)錄精確度的容許值的設(shè)定;
      [0015] 圖7是第一示例性示意圖,示出了根據(jù)第一實(shí)施例的所識(shí)別的字符串的選擇結(jié)果 的數(shù)據(jù);
      [0016] 圖8是第二示例性流程圖,示出了根據(jù)第一實(shí)施例的用于選擇所識(shí)別字符串的處 理;
      [0017] 圖9是示例性示意圖,示出了根據(jù)第一實(shí)施例的轉(zhuǎn)錄工作時(shí)間的容許值的設(shè)定;
      [0018] 圖10是第二示例性示意圖,示出了根據(jù)第一實(shí)施例的所識(shí)別的字符串的選擇結(jié) 果的數(shù)據(jù);
      [0019] 圖11是第三示例性流程圖,示出了根據(jù)第一實(shí)施例的用于選擇所識(shí)別字符串的 處理;
      [0020] 圖12是示例性示意圖,示出了根據(jù)第一實(shí)施例的轉(zhuǎn)錄工作成本的容許值的設(shè)定;
      [0021] 圖13是第三示例性示意圖,示出了根據(jù)第一實(shí)施例的所識(shí)別的字符串的選擇結(jié) 果的數(shù)據(jù);
      [0022] 圖14是示例性流程圖,示出了根據(jù)第一實(shí)施例的用于生成轉(zhuǎn)錄句子的處理;
      [0023] 圖15是示例性示意圖,示出了根據(jù)第一實(shí)施例的轉(zhuǎn)錄句子的數(shù)據(jù)格式;
      [0024] 圖16是示例性示意圖,示出了根據(jù)第一實(shí)施例的轉(zhuǎn)錄句子的顯示;
      [0025] 圖17是示例性流程圖,示出了根據(jù)第一實(shí)施例的用于設(shè)定字符插入位置的處理;
      [0026] 圖18是示例性流程圖,示出了根據(jù)第一實(shí)施例的用于搜索聲音位置的處理;
      [0027] 圖19是示例性示意圖,示出了根據(jù)第二實(shí)施例的文本生成器的功能結(jié)構(gòu);
      [0028] 圖20是示例性流程圖,示出了根據(jù)第二實(shí)施例的用于生成文本的基本處理;
      [0029] 圖21是示例性流程圖,示出了根據(jù)第二實(shí)施例的用于結(jié)合識(shí)別結(jié)果的處理;
      [0030] 圖22是示例性示意圖,示出了根據(jù)第三實(shí)施例的文本生成器的功能結(jié)構(gòu);
      [0031] 圖23是示例性流程圖,示出了根據(jù)第三實(shí)施例的用于生成文本的基本處理;
      [0032] 圖24是示例性示意圖,示出了根據(jù)第三實(shí)施例的發(fā)聲周期信息的數(shù)據(jù);
      [0033] 圖25是示例性流程圖,示出了根據(jù)第三實(shí)施例的用于選擇所識(shí)別字符串的處理;
      [0034] 圖26是示例性示意圖,示出了根據(jù)第三實(shí)施例的轉(zhuǎn)錄精確度的容許值的設(shè)定;以 及
      [0035] 圖27是示例性示意圖,示出了根據(jù)第一至第三實(shí)施例的文本生成器的功能結(jié)構(gòu)。

      【具體實(shí)施方式】
      [0036] 下面將參照附圖詳細(xì)描述文本生成器、文本生成方法以及計(jì)算機(jī)程序的實(shí)施例。 [0037] 第一實(shí)施例
      [0038] 概述
      [0039] 下面描述根據(jù)第一實(shí)施例的文本生成器的功能(在下文中稱為"文本生成功能")。 根據(jù)第一實(shí)施例的文本生成器基于計(jì)算的識(shí)別字符串的可信度,選擇所識(shí)別的字符串用于 轉(zhuǎn)錄的句子,識(shí)別字符串的計(jì)算是基于語(yǔ)音識(shí)別結(jié)果和關(guān)于轉(zhuǎn)錄精確度的參數(shù)??商鎿Q地, 根據(jù)本實(shí)施例的文本生成器基于計(jì)算的識(shí)別字符串的可信度,選擇所識(shí)別的字符串用于轉(zhuǎn) 錄的句子,字符串的計(jì)算是基于語(yǔ)音識(shí)別結(jié)果和關(guān)于轉(zhuǎn)錄所需的工作量的參數(shù)。作為結(jié)果, 根據(jù)本實(shí)施例的文本生成器根據(jù)所選擇的識(shí)別字符串生成轉(zhuǎn)錄的句子。因此,根據(jù)本實(shí)施 例的文本生成器使能了使用適當(dāng)?shù)恼Z(yǔ)音識(shí)別結(jié)果的轉(zhuǎn)錄工作。根據(jù)本實(shí)施例的文本生成器 具有如此的文本生成功能。
      [0040] 常規(guī)裝置的例子忽略了基于聲音數(shù)據(jù)的語(yǔ)音識(shí)別結(jié)果。這種裝置基于識(shí)別單詞的 可信度和重要級(jí)別來(lái)獲取語(yǔ)音識(shí)別結(jié)果的優(yōu)先級(jí),并根據(jù)優(yōu)先級(jí)將關(guān)于語(yǔ)音識(shí)別結(jié)果的輸 出信息格式化。然而,這種常規(guī)裝置只允許操作者通過(guò)指定顯示目標(biāo)范圍來(lái)調(diào)節(jié)輸出。常 規(guī)裝置根據(jù)轉(zhuǎn)錄精確度或轉(zhuǎn)錄所需的工作量未充分地輸出操作者期望的適當(dāng)?shù)恼Z(yǔ)音識(shí)別 結(jié)果,從而增加了轉(zhuǎn)錄工作中強(qiáng)加于操作者的負(fù)擔(dān)。如上所述,常規(guī)裝置不會(huì)減小轉(zhuǎn)錄工作 中強(qiáng)加于操作者的負(fù)擔(dān)。
      [0041] 根據(jù)本實(shí)施例的文本生成器根據(jù)由操作者指定的工作條件(轉(zhuǎn)錄精確度或轉(zhuǎn)錄所 需的工作量)來(lái)調(diào)節(jié)語(yǔ)音識(shí)別結(jié)果的輸出。當(dāng)操作者對(duì)調(diào)節(jié)的輸出執(zhí)行增加或校正時(shí),本實(shí) 施例中的文本生成器允許操作者通過(guò)使用語(yǔ)音識(shí)別結(jié)果使輸入字符與聲音同步,來(lái)執(zhí)行轉(zhuǎn) 錄工作。
      [0042] 作為結(jié)果,根據(jù)本實(shí)施例的文本生成器使能了在轉(zhuǎn)錄工作中根據(jù)工作條件(例如 是轉(zhuǎn)錄精確度或轉(zhuǎn)錄所需的工作量)使用適當(dāng)?shù)恼Z(yǔ)音識(shí)別結(jié)果,從而能夠容易地將字符添 加到語(yǔ)音識(shí)別結(jié)果或校正語(yǔ)音識(shí)別結(jié)果的字符。因此,根據(jù)該實(shí)施例的文本生成器可減小 轉(zhuǎn)錄工作中強(qiáng)加于操作者的負(fù)擔(dān)。
      [0043] 例如,根據(jù)本實(shí)施例的文本生成器可以提供以下服務(wù)。圖1是示意圖,示出了根據(jù) 該實(shí)施例的文本生成器的使用示例。圖1示出一個(gè)例子,其中根據(jù)該實(shí)施例的文本生成器 被用于一種服務(wù)。該服務(wù)識(shí)別多個(gè)發(fā)聲者的語(yǔ)音,將他們的發(fā)聲的內(nèi)容轉(zhuǎn)錄到發(fā)聲者的相 應(yīng)發(fā)聲的文本中,并將為各個(gè)發(fā)聲來(lái)源的發(fā)聲者的名字添加到相應(yīng)的文本中。
      [0044] 下面描述了根據(jù)該實(shí)施例的文本生成器的結(jié)構(gòu)和功能的操作。
      [0045] 結(jié)構(gòu)
      [0046] 圖2為示意圖,示出了根據(jù)該實(shí)施例的文本生成器的功能結(jié)構(gòu)的示例。如圖2所 示,根據(jù)該實(shí)施例的文本生成器1〇〇包括拾取單元11、識(shí)別器12、選擇器13、生成單元14、 設(shè)定單元15、搜索器16、播放器17、以及識(shí)別結(jié)果保存單元18。
      [0047] 拾取單元11通過(guò)從某一輸入單元接收聲音輸入以拾取聲音。識(shí)別器12識(shí)別由拾 取單元11拾取的聲音,至少計(jì)算在識(shí)別單元中所識(shí)別的字符串,以及所識(shí)別的字符串的可 信度,并且將計(jì)算結(jié)果存儲(chǔ)在識(shí)別結(jié)果保存單元18中。例如,該識(shí)別單元是詞素。例如,所 述識(shí)別結(jié)果保存單元18是文本生成器100中設(shè)置的存儲(chǔ)設(shè)備中的特定存儲(chǔ)區(qū)域。
      [0048] 選擇器13基于關(guān)于轉(zhuǎn)錄工作的工作條件的各種參數(shù)和存儲(chǔ)在識(shí)別結(jié)果保存單元 18中的所識(shí)別字符串的可信度來(lái)選擇至少一個(gè)所識(shí)別的字符串用于轉(zhuǎn)錄的句子。例如,通 過(guò)經(jīng)由用戶界面(UI)接收操作者U的操作,來(lái)指定關(guān)于工作條件的各種參數(shù)值。生成單元 14使用由選擇器13選擇的所識(shí)別的字符串,生成轉(zhuǎn)錄的句子。設(shè)定單元15設(shè)定在轉(zhuǎn)錄句 子中對(duì)應(yīng)于未被選擇器13選擇的識(shí)別字符串的用于由操作者U執(zhí)行的字符輸入的起始位 置(在下文中稱為"字符插入位置")。例如,未被選擇的識(shí)別字符串是通過(guò)經(jīng)由Π 接收來(lái)自 操作者U的操作來(lái)指定的。
      [0049] 當(dāng)操作者U在由設(shè)定單元15設(shè)定的字符插入位置處開(kāi)始字符輸入時(shí),搜索器16 搜索與輸入字符對(duì)應(yīng)的聲音的位置(在下文中稱為"聲音位置"),其。例如,搜索的開(kāi)始是通 過(guò)經(jīng)由Π 接收來(lái)自的操作者U的操作而被指示的。播放器17從搜索到的聲音位置播放聲 音。
      [0050] 下面描述由根據(jù)本實(shí)施例的文本生成器100執(zhí)行的用于生成文本的基本處理。
      [0051] 處理
      [0052] 圖3是流程圖,示出了根據(jù)本實(shí)施例的用于生成文本的基本處理的示例。如圖3 所示,拾取單元11拾取聲音(步驟S101)。識(shí)別器12識(shí)別由拾取單元11拾取的聲音,并計(jì) 算識(shí)別單元中所識(shí)別的字符串,以及所識(shí)別的字符串的可信度(步驟S102)。作為結(jié)果,所識(shí) 別的字符串和所識(shí)別的字符串的可信度被存儲(chǔ)在所述識(shí)別結(jié)果保存單元18中。
      [0053] 選擇器13基于關(guān)于轉(zhuǎn)錄工作的工作條件的各種參數(shù)(工作條件參數(shù))和存儲(chǔ)在識(shí) 別結(jié)果保存單元18中的所識(shí)別字符串的可信度,來(lái)選擇至少一個(gè)所識(shí)別的字符串用于轉(zhuǎn) 錄的句子(步驟S103)。選擇器13基于關(guān)于轉(zhuǎn)錄精確度的參數(shù)和識(shí)別字符串的可信度的組 合或者是關(guān)于轉(zhuǎn)錄所需的工作量的參數(shù)和識(shí)別字符串的可信度的組合,來(lái)選擇識(shí)別的字符 串用于轉(zhuǎn)錄的句子。生成單元14使用由選擇器13選擇的識(shí)別字符串和不是由選擇器13 選擇的識(shí)別字符串生成轉(zhuǎn)錄句子(步驟S104)。
      [0054] 設(shè)定單元15根據(jù)從操作者U接收的設(shè)定,在轉(zhuǎn)錄句子中對(duì)應(yīng)于不是由選擇器13 選擇的識(shí)別字符串的位置處設(shè)定用于操作者U的字符插入位置(步驟S105)。搜索器16基 于識(shí)別結(jié)果搜索對(duì)應(yīng)于由設(shè)定單元15設(shè)定的字符插入位置的聲音位置(步驟S106)。
      [0055] 播放器17根據(jù)從操作者U接收的指令,從由搜索器16搜索的聲音位置播放聲音 (步驟S107)。此后,文本生成器100從操作者U接收字符輸入(添加或校正)(步驟S108)。
      [0056] 從操作者U接收到結(jié)束轉(zhuǎn)錄的指令時(shí)(S109的是),根據(jù)本實(shí)施例的文本生成器 100結(jié)束該處理。與此相反,文本生成器100重復(fù)從S106到S108的處理(S109的否),直到 操作者U執(zhí)行結(jié)束轉(zhuǎn)錄的指令。
      [0057] 細(xì)節(jié)
      [0058] 在下面描述該功能單元的細(xì)節(jié)。
      [0059] 各個(gè)功能單元的細(xì)節(jié)
      [0060] 拾取單元11
      [0061] 拾取單元11拾取聲音作為目標(biāo),根據(jù)該目標(biāo)轉(zhuǎn)錄字符。
      [0062] 識(shí)別器12
      [0063] 識(shí)別器12識(shí)別由拾取單元11拾取的聲音,并至少獲得識(shí)別單元中所識(shí)別的字符 串以及所識(shí)別的字符串的可信度作為識(shí)別結(jié)果。
      [0064] 圖4是示意圖,示出了根據(jù)實(shí)施例的語(yǔ)音識(shí)別結(jié)果D1的數(shù)據(jù)的示例。圖4示出了 當(dāng)識(shí)別器 12 識(shí)別發(fā)聲"konnichiwa,ABC kaisha no taro desu"(英語(yǔ),"Hello,this is Taro from ABC Company")時(shí)獲得的示例性結(jié)果。識(shí)別器12獲得語(yǔ)音識(shí)別結(jié)果Dl,其包括 例如識(shí)別ID、識(shí)別的字符串,以及識(shí)別字符串的可信度。識(shí)別器12將獲得的語(yǔ)音識(shí)別結(jié)果 D1存儲(chǔ)在識(shí)別結(jié)果保存單元18中。
      [0065] 選擇器13
      [0066] 選擇器13基于關(guān)于轉(zhuǎn)錄精確度的參數(shù)和識(shí)別字符串的可信度的組合或者是關(guān)于 轉(zhuǎn)錄所需的工作量的參數(shù)和識(shí)別字符串的可信度的組合來(lái)選擇至少一個(gè)識(shí)別的字符串用 于轉(zhuǎn)錄的句子。
      [0067] 下面描述轉(zhuǎn)錄精確度和轉(zhuǎn)錄所需的工作量。轉(zhuǎn)錄精確度為表示在轉(zhuǎn)錄的字符串和 當(dāng)語(yǔ)音被正確地轉(zhuǎn)錄為字符時(shí)的字符串(正確答案字符串)之間的一致程度的值。該值越 大,轉(zhuǎn)錄的字符串和正確答案字符串之間的一致程度越高,表示轉(zhuǎn)錄是正確的。轉(zhuǎn)錄所需 的工作量是將語(yǔ)音轉(zhuǎn)錄為字符所需的工作量,并且對(duì)應(yīng)于轉(zhuǎn)錄工作花費(fèi)的時(shí)間或所需的成 本。
      [0068] 下面描述由選擇器13執(zhí)行的用于選擇所識(shí)別字符串的處理。圖5是流程圖,示出 了根據(jù)實(shí)施例的用于選擇所識(shí)別字符串的處理的第一示例。圖5示出了當(dāng)選擇器13使用 轉(zhuǎn)錄精確度的容許值作為關(guān)于轉(zhuǎn)錄精確度的參數(shù)時(shí)的處理的示例。
      [0069] 如圖5所示,選擇器13首先從操作者U接收轉(zhuǎn)錄精確度的容許值P的設(shè)定(步驟 S201)。
      [0070] 圖6是示意圖,示出了根據(jù)本實(shí)施例的轉(zhuǎn)錄精確度的容許值P的設(shè)定的示例。如 圖6所示,操作者U通過(guò)滑塊UI (滑動(dòng)條)設(shè)定轉(zhuǎn)錄精確度容許值P,例如該容許值P允許 從N個(gè)階層(圖6中N=5)中指定出一個(gè)可允許的階層。選擇器13在屏幕上以這種方式顯 示該UI,并且接收來(lái)自操作者U的設(shè)定。
      [0071] 再參考圖5,隨后選擇器13在由識(shí)別器12所獲得的識(shí)別結(jié)果(該識(shí)別結(jié)果存儲(chǔ)在 識(shí)別結(jié)果保存單元18中)中設(shè)定第一識(shí)別字符串作為目標(biāo)字符串w (步驟S202),然后根據(jù) 目標(biāo)字符串w的可信度,計(jì)算目標(biāo)字符串w的轉(zhuǎn)錄精確度wp (步驟S203)。例如,當(dāng)從1到 N的正整數(shù)被用作各自的轉(zhuǎn)錄精確度時(shí),選擇器13使用以下表達(dá)式(1)計(jì)算目標(biāo)字符串w 的轉(zhuǎn)錄精確度wp。
      [0072] wp=NX (w的可信度/可信度最大值)(1)
      [0073] 然后,選擇器13比較計(jì)算的目標(biāo)字符串w的轉(zhuǎn)錄精確度wp和轉(zhuǎn)錄精確度的容許 值P,并確定轉(zhuǎn)錄精確度wp是否等于或大于容許值P (步驟S204)。如果確定wp等于或大 于允許值P (S204的是),則選擇器13選擇目標(biāo)字符串w (步驟S205)。如果確定轉(zhuǎn)錄精確 度wp小于容許值P (S204的否),則選擇器13不選擇目標(biāo)字符串w。
      [0074] 然后,選擇器13確定由識(shí)別器12獲取的識(shí)別結(jié)果中是否存在下一個(gè)識(shí)別的字符 串(步驟S206)。如果確定下一個(gè)識(shí)別的字符串存在(S206的是),選擇器13設(shè)定下一個(gè)識(shí) 別字符串作為目標(biāo)字符串w (步驟S207),并且隨后重復(fù)從S203到S206的處理。如果確定 不存在下一個(gè)識(shí)別的字符串(S206的否),選擇器13結(jié)束該處理。
      [0075] 圖7是示意圖,示出了根據(jù)本實(shí)施例的識(shí)別的字符串選擇結(jié)果D2的數(shù)據(jù)的第一示 例。圖7示出了選擇結(jié)果,其中所識(shí)別的字符串是基于通過(guò)表達(dá)式(1)計(jì)算的轉(zhuǎn)錄精確度 wp來(lái)選擇的,其中N=5,容許值P=4,最大可信度=100。選擇器13獲取識(shí)別的字符串選擇結(jié) 果D2,其例如包括識(shí)別ID、所識(shí)別的字符串、所識(shí)別字符串的可信度、轉(zhuǎn)錄準(zhǔn)確度wp和選擇 結(jié)果。選擇器13可以基于轉(zhuǎn)錄所需的工作量(例如,"工作時(shí)間"和"工作成本")選擇所識(shí) 別的字符串。
      [0076] 圖8是流程圖,示出了根據(jù)本實(shí)施例的用于選擇所識(shí)別字符串的處理的第二示 例。圖8示出了當(dāng)選擇器13使用轉(zhuǎn)錄所需的工作時(shí)間的容許值作為關(guān)于轉(zhuǎn)錄所需工作量 的參數(shù)時(shí)的示例性處理。
      [0077] 如圖8所示,選擇器13首先從操作者U接收轉(zhuǎn)錄所需的工作時(shí)間的容許值T的設(shè) 定(步驟S301)。
      [0078] 圖9是示意圖,示出了根據(jù)本實(shí)施例的轉(zhuǎn)錄所需的工作時(shí)間的容許值T的設(shè)定示 例。如圖9所示,操作者U通過(guò)滑塊Π (滑動(dòng)條)設(shè)定轉(zhuǎn)錄所需的工作時(shí)間的容許值T,該 滑塊Π 例如使得可指定從00:00:00到HH:麗:SS的時(shí)間。選擇器13以這種方式在屏幕上 顯示該Π ,并從操作者U接收設(shè)定。對(duì)于可以指定的最大時(shí)間,例如使用預(yù)定值。以下述方 式計(jì)算的數(shù)值可以用作可指定的最大時(shí)間。例如,預(yù)先確定每個(gè)字符的工作時(shí)間;每個(gè)字符 的工作時(shí)間乘以由識(shí)別器12獲取的識(shí)別字符串中的所有字符的數(shù)量,以計(jì)算乘積;并且可 以使用所計(jì)算的值。當(dāng)識(shí)別器12輸出各個(gè)識(shí)別字符串的起始時(shí)間和結(jié)束時(shí)間作為識(shí)別結(jié) 果時(shí),輸出的起始時(shí)間被從每個(gè)識(shí)別字符串的輸出的結(jié)束時(shí)間中減去,以計(jì)算時(shí)間(發(fā)聲時(shí) 間)??梢允褂盟凶R(shí)別字符串的各自發(fā)聲時(shí)間的總和。
      [0079] 再參考圖8,然后,選擇器13以識(shí)別字符串可信度的遞減次序?qū)ψR(shí)別器12獲取的 識(shí)別結(jié)果進(jìn)行排序(步驟S302)。然后,選擇器13初始化累積工作時(shí)間st,其表示轉(zhuǎn)錄所需 工作時(shí)間的積累量(步驟S303)。
      [0080] 然后,選擇器13將以遞減次序排序的識(shí)別結(jié)果中的第一識(shí)別字符串設(shè)定為目標(biāo) 字符串w (步驟S304),然后計(jì)算目標(biāo)字符串w的轉(zhuǎn)錄所需的工作時(shí)間t (步驟S305)。例 如,選擇器13使用目標(biāo)字符串w的字符數(shù)量,通過(guò)以下表達(dá)式(2)計(jì)算目標(biāo)字符串w的轉(zhuǎn) 錄所需的工作時(shí)間t。
      [0081] t=a X (目標(biāo)字符串w的字符數(shù)量)(2)
      [0082] 例如,使用每個(gè)字符的轉(zhuǎn)錄所需的平均時(shí)間作為a。
      [0083] 例如,當(dāng)識(shí)別器12輸出各個(gè)識(shí)別字符串的起始時(shí)間和結(jié)束時(shí)間作為識(shí)別結(jié)果時(shí), 選擇器13可以通過(guò)以下表達(dá)式(3)計(jì)算目標(biāo)字符串w的轉(zhuǎn)錄所需的工作時(shí)間t。
      [0084] t= β X (目標(biāo)字符串w的結(jié)束時(shí)間-目標(biāo)字符串w的起始時(shí)間)(3 )
      [0085] 例如,(識(shí)別單元中)每個(gè)詞素的轉(zhuǎn)錄所需的平均時(shí)間被用作β。
      [0086] 然后,選擇器13根據(jù)目標(biāo)字符串w的轉(zhuǎn)錄所需的工作時(shí)間t,計(jì)算轉(zhuǎn)錄所需的累積 工作時(shí)間st (步驟S306)。例如,選擇器13將通過(guò)使用表達(dá)式(2)或(3)計(jì)算的目標(biāo)字符 串w的轉(zhuǎn)錄所需的工作時(shí)間t累加到轉(zhuǎn)錄所需的累積工作時(shí)間st。
      [0087] 然后,選擇器13比較計(jì)算的轉(zhuǎn)錄所需的累積工作時(shí)間st和轉(zhuǎn)錄所需的工作時(shí)間 的容許值T,并確定累積工作時(shí)間st是否等于或小于容許值T(步驟S307)。如果確定累積 工作時(shí)間st等于或小于容許值T(S307的是),則選擇器13選擇目標(biāo)字符串w(步驟S308)。 如果確定累積工作時(shí)間st大于容許值T (S307的否),則選擇器13不選擇目標(biāo)字符串w。
      [0088] 然后,選擇器13確定由識(shí)別器12獲取的識(shí)別結(jié)果中是否存在下一個(gè)識(shí)別的字符 串(步驟S309)。如果確定存在下一個(gè)識(shí)別的字符串(S309的是),選擇器13設(shè)定下一識(shí)別 的字符串作為目標(biāo)字符串w (步驟S310),并且重復(fù)從S305到S309的處理。如果確定不存 在下一個(gè)識(shí)別的字符串(S309的否),則選擇器13結(jié)束該處理。
      [0089] 圖10是示意圖,示出了根據(jù)本實(shí)施例的識(shí)別的字符串選擇結(jié)果D2的數(shù)據(jù)的第二 示例。圖10示出了選擇結(jié)果,其中所識(shí)別的字符串是基于通過(guò)使用表達(dá)式(3)計(jì)算的轉(zhuǎn)錄 所需的工作時(shí)間t來(lái)選擇的。選擇器13獲取識(shí)別的字符串選擇結(jié)果D2,其例如包括識(shí)別 ID、所識(shí)別的字符串、所識(shí)別字符串的可信度、轉(zhuǎn)錄所需的工作時(shí)間t、累積工作時(shí)間st和 選擇結(jié)果。
      [0090] 圖11是流程圖,示出了根據(jù)本實(shí)施例的用于選擇所識(shí)別字符串的處理的第三示 例。圖11示出了當(dāng)選擇器13使用轉(zhuǎn)錄所需的工作成本的容許值作為關(guān)于轉(zhuǎn)錄所需工作量 的參數(shù)時(shí)的示例性處理。
      [0091] 如圖11所示,選擇器13首先從操作者U接收轉(zhuǎn)錄所需的工作成本的容許值C的 設(shè)定(步驟S401)。
      [0092] 圖12是示意圖,示出了本實(shí)施例的轉(zhuǎn)錄所需的工作成本的容許值C的設(shè)定的示 例。如圖12所示,操作者U通過(guò)滑塊Π (滑動(dòng)條)設(shè)定轉(zhuǎn)錄所需的工作成本的容許值C,該 滑塊Π 例如使得能夠指定從零到最大值的數(shù)值。選擇器13以這種方式在屏幕上顯示Π , 并從操作者U接收設(shè)定。對(duì)于可以指定的最大數(shù)值,例如使用預(yù)定值。以下述方式計(jì)算的 數(shù)值可以用作可指定的最大數(shù)值。例如,預(yù)先確定每個(gè)字符的工作時(shí)間;每個(gè)字符的工作時(shí) 間乘以由識(shí)別器12獲取的識(shí)別字符串中的所有字符的數(shù)量,以計(jì)算乘積;并且可以使用所 計(jì)算的值。當(dāng)識(shí)別器12輸出各個(gè)識(shí)別字符串的發(fā)聲時(shí)間(從起始時(shí)間減去結(jié)束時(shí)間后的時(shí) 間)作為識(shí)別結(jié)果時(shí),各個(gè)識(shí)別字符串的輸出發(fā)聲時(shí)間的總和乘以每一單元時(shí)間的工作成 本,以計(jì)算乘積,并且可以使用所計(jì)算的值。
      [0093] 再參考圖11,然后,選擇器13以識(shí)別字符串可信度的遞減次序?qū)ψR(shí)別器12獲取 的識(shí)別結(jié)果進(jìn)行排序(步驟S402)。然后,選擇器13初始化累積工作成本sc,累積工作成本 SC表示轉(zhuǎn)錄所需工作成本的積累量(步驟S403)。
      [0094] 然后,選擇器13將以遞減次序排序的識(shí)別結(jié)果中的第一識(shí)別字符串設(shè)定為目標(biāo) 字符串w (步驟S404),然后計(jì)算目標(biāo)字符串w的轉(zhuǎn)錄所需的工作成本c (步驟S405)。例 如,選擇器13使用目標(biāo)字符串w的字符數(shù)量,通過(guò)以下表達(dá)式(4)計(jì)算目標(biāo)字符串w的轉(zhuǎn) 錄所需的工作成本c。
      [0095] c=YX (目標(biāo)字符串w的字符數(shù)量)(4)
      [0096] 例如,每個(gè)字符的轉(zhuǎn)錄所需的平均成本被用作Y。
      [0097] 例如,當(dāng)識(shí)別器12輸出各個(gè)識(shí)別字符串的起始時(shí)間和結(jié)束時(shí)間作為識(shí)別結(jié)果時(shí), 選擇器13可以通過(guò)以下表達(dá)式(5)計(jì)算目標(biāo)字符串w的轉(zhuǎn)錄所需的工作成本c。
      [0098] c= ζ X (目標(biāo)字符串w的結(jié)束時(shí)間-目標(biāo)字符串w的起始時(shí)間)(5 )
      [0099] 例如,(識(shí)別單元中)每個(gè)詞素的轉(zhuǎn)錄所需的平均成本被用作ζ。
      [0100] 然后,選擇器13根據(jù)目標(biāo)字符串w的轉(zhuǎn)錄所需的工作成本c,計(jì)算轉(zhuǎn)錄所需的累積 工作成本sc (步驟S406)。例如,選擇器13將通過(guò)使用表達(dá)式(4)或(5)計(jì)算的目標(biāo)字符 串w的轉(zhuǎn)錄所需的工作成本c累積地加到轉(zhuǎn)錄所需的累積工作成本sc。
      [0101] 然后,選擇器13比較計(jì)算的轉(zhuǎn)錄所需的累積工作成本sc和轉(zhuǎn)錄所需的工作成本 的容許值C,并確定累積工作成本sc是否等于或小于容許值C(步驟S407)。如果確定累積 工作成本sc等于或小于容許值C(S407的是),則選擇器13選擇目標(biāo)字符串w(步驟S408)。 如果確定累積工作成本sc大于容許值C (S407的否),則選擇器13不選擇目標(biāo)字符串w。
      [0102] 然后,選擇器13確定由識(shí)別器12獲取的識(shí)別結(jié)果中是否存在下一個(gè)識(shí)別的字符 串(步驟S409)。如果確定存在下一個(gè)識(shí)別的字符串(S409的是),選擇器13設(shè)定下一識(shí)別 的字符串作為目標(biāo)字符串w (步驟S410),并且重復(fù)從S405到S409的處理。如果確定不存 在下一個(gè)識(shí)別的字符串(S409的否),則選擇器13結(jié)束該處理。
      [0103] 圖13是示意圖,示出了根據(jù)本實(shí)施例的識(shí)別的字符串選擇結(jié)果D2的數(shù)據(jù)的第三 示例。圖13示出了選擇結(jié)果,其中所識(shí)別的字符串是基于通過(guò)使用表達(dá)式(5)計(jì)算的轉(zhuǎn)錄 所需的工作成本c來(lái)選擇的。選擇器13獲取識(shí)別的字符串選擇結(jié)果D2,其例如包括識(shí)別 ID、所識(shí)別的字符串、所識(shí)別字符串的可信度、轉(zhuǎn)錄所需的工作成本c、累積工作成本sc和 選擇結(jié)果。
      [0104] 生成單元14
      [0105] 生成單元14使用選擇器13選擇的識(shí)別字符串和沒(méi)有選擇的識(shí)別字符串,生成轉(zhuǎn) 錄句子。
      [0106] 下面描述了生成單元14執(zhí)行的生成轉(zhuǎn)錄句子的處理。圖14是流程圖,示出了根 據(jù)本實(shí)施例的生成轉(zhuǎn)錄句子的處理的示例。圖15是示意圖,示出了根據(jù)本實(shí)施例的轉(zhuǎn)錄句 子的數(shù)據(jù)格式的示例。
      [0107] 如圖14所示,生成單元14首先初始化轉(zhuǎn)錄句子k (步驟S501)。如圖15所示,例 如當(dāng)數(shù)據(jù)格式是超文本標(biāo)記語(yǔ)言(HTML)時(shí),轉(zhuǎn)錄句子k是被生成用作division (DIV)元 素。
      [0108] 然后,生成單元14將識(shí)別器12獲取的識(shí)別結(jié)果中的第一識(shí)別字符串設(shè)定為目標(biāo) 字符串w (步驟S502),然后判斷目標(biāo)字符串w是否被選擇器13選擇(步驟S503)。如果確 定目標(biāo)字符串w被選擇(S503的是),生成單元14從目標(biāo)字符串w生成選擇的元素 s (步驟 S504),然后再將這些生成的選擇的元素 s添加到轉(zhuǎn)錄句子k(步驟S505)。例如,如圖15所 示,選擇的元素 s被生成作為span元素,該span元素具有目標(biāo)字符串w的識(shí)別ID的ID屬 性和表示選擇的元素 s的字符串的類別屬性(例如"選擇的")。如果確定目標(biāo)字符串w沒(méi)有 被選擇(S503的否),則生成單元14從目標(biāo)字符串w生成未選擇元素 ns (步驟S506),然后 再將生成的未選擇元素 ns添加到轉(zhuǎn)錄句子k (步驟S507)。例如,如圖15所示,未選擇元 素 ns被生成作為span元素,該span元素具有目標(biāo)字符串w的識(shí)別ID的ID屬性和表示未 選擇元素 ns的字符串的類別屬性(例如"未選擇的")。
      [0109] 然后,生成單元14確定識(shí)別器12獲取的識(shí)別結(jié)果中是否存在下一個(gè)識(shí)別的字符 串(步驟S508)。如果確定存在下一個(gè)識(shí)別的字符串(S508的是),生成單元14設(shè)定下一個(gè) 識(shí)別的字符串作為目標(biāo)字符串w (步驟S509),并且重復(fù)從S503到S508的處理。如果確定 不存在下一個(gè)識(shí)別的字符串(S508的否),生成單元14結(jié)束該處理。
      [0110] 圖16是示意圖,示出了根據(jù)本實(shí)施例的轉(zhuǎn)錄句子k的顯示的示例。如圖16所示, 生成單元14可以生成轉(zhuǎn)錄句子k,該轉(zhuǎn)錄句子k可以顯示為不同的形式,該不同的形式明確 地將選擇的元素 s的字符串與未選擇的元素 ns的字符串區(qū)分開(kāi)。圖16的部分(A)示出了 顯示的示例,其中未選擇的元素 ns的字符串是有下劃線的。圖16的部分(B)示出了另一 顯示的示例,其中未選擇的元素 ns的字符串中的字符的尺寸小于選擇的元素 s的字符串中 的字符的尺寸。圖16的部分(C)還示出了另一顯示的示例,其中未選擇的元素 ns的字符 串被加陰影。圖16的部分(D)還示出了另一顯示的示例,其中未選擇的元素 ns的字符串 中的字符被替換為特定字符(圖16的部分(D)中的實(shí)心圓)。除了這些顯示示例之外,其他 顯示示例可通過(guò)改變字符的密度、顏色、或字體或背景顏色來(lái)獲得。當(dāng)識(shí)別器12在識(shí)別單 元中以可信度的遞減次序輸出直到第N個(gè)候選者的識(shí)別字符串時(shí)(N是等于或大于1的整 數(shù)),可以生成轉(zhuǎn)錄句子k,在該轉(zhuǎn)錄句子k中直到第N個(gè)候選者的識(shí)別的字符串被顯示用于 未選擇的字符串,使得它們可被操作者U選擇。
      [0111] 設(shè)定單元15
      [0112] 設(shè)定單元15基于由生成單元14生成的轉(zhuǎn)錄句子k的未選擇元素 ns,設(shè)定字符插 入位置(用于開(kāi)始字符輸入的位置)。設(shè)定單元15基于檢測(cè)的當(dāng)前字符插入位置以及選擇 元素和未選擇元素之間的位置關(guān)系,來(lái)設(shè)定字符插入位置,該選擇元素對(duì)應(yīng)于由選擇器13 選擇的識(shí)別字符串,未選擇元素對(duì)應(yīng)于轉(zhuǎn)錄句子中沒(méi)有被選擇器13選擇的識(shí)別字符串。
      [0113] 下面描述設(shè)定單元15執(zhí)行的設(shè)定字符插入位置的處理。圖17是流程圖,示出了 根據(jù)本實(shí)施例的設(shè)定字符插入位置的處理的示例。
      [0114] 如圖17所示,設(shè)定單元15首先從操作者U接收移動(dòng)到未選擇元素 ns的字符的指 令(步驟S601)。例如,當(dāng)檢測(cè)到顯示的轉(zhuǎn)錄句子中的某一按鍵(例如,"Tab鍵")被壓下時(shí), 設(shè)定單元15確定移動(dòng)被指示,并接收該指示。然后設(shè)定單元15檢測(cè)轉(zhuǎn)錄句子中的當(dāng)前字 符插入位置cp (步驟S602)。當(dāng)前字符插入位置cp是此時(shí)轉(zhuǎn)錄句子中的字符串中的字符 插入位置cp。例如,當(dāng)前字符插入位置cp對(duì)應(yīng)于轉(zhuǎn)錄句子被顯示所在的屏幕上的光標(biāo)位置 (例如,"堅(jiān)線閃爍的位置")。
      [0115] 然后,設(shè)定單元15確定檢測(cè)的當(dāng)前字符插入位置cp是否在選擇的元素中(步驟 S603)。如果確定當(dāng)前字符插入位置cp是在選擇的元素中(S603的是),則設(shè)定單元15在最 接近于當(dāng)前字符插入位置cp并且在當(dāng)前字符插入位置cp后面的位置處檢測(cè)未選擇的元素 ns (步驟S604)。如果確定當(dāng)前字符插入位置cp不在選擇的元素中(S603的否),則設(shè)定單 元15在最接近于當(dāng)前字符插入位置cp并且在當(dāng)前字符插入位置cp后面的位置處檢測(cè)選 擇的元素 s (步驟S605)。然后設(shè)定單元15在最接近于檢測(cè)的選擇的元素 s并且在檢測(cè)的 選擇元素 s后面的位置處檢測(cè)未選擇的元素 ns (步驟S606)。然后,設(shè)定單元15將字符插 入位置cp移動(dòng)到檢測(cè)的未選擇元素 ns的頭位置nsp (步驟S607)。
      [0116] 當(dāng)在未選擇的元素后面存在其他連續(xù)的未選擇的元素時(shí),其中當(dāng)前字符插入位置 cp被移動(dòng)至未選擇的元素的頭位置nsp,設(shè)定單元15可以彼此不同的形式顯示未選擇的元 素 ns的字符串以及其他未選擇的元素的字符串。設(shè)定單元15可使用彼此不同的背景顏色 來(lái)突出未選擇的元素 ns的字符串以及其它未選擇的元素的字符串。
      [0117] 搜索器16
      [0118] 當(dāng)操作者U在字符插入位置cp處開(kāi)始字符輸入時(shí),搜索器16搜索對(duì)應(yīng)于輸入字 符的聲音位置。
      [0119] 下面描述搜索器16執(zhí)行的用于搜索聲音位置的處理。圖18是流程圖,示出了根 據(jù)本實(shí)施例的用于搜索聲音位置的處理的示例。
      [0120] 如圖18所示,設(shè)定單元15首先從操作者U接收搜索對(duì)應(yīng)于當(dāng)前字符插入位置cp 的聲音位置的指令(步驟S701)。例如,當(dāng)檢測(cè)到顯示的轉(zhuǎn)錄句子中的輸入鍵被壓下時(shí),搜索 器16確定搜索被指示,并接收該指示。
      [0121] 然后,搜索器16檢測(cè)轉(zhuǎn)錄句子中的當(dāng)前字符插入位置cp (步驟S702)。然后,搜 索器16確定檢測(cè)的當(dāng)前字符插入位置cp是否在選擇的元素中(步驟S703)。
      [0122] 如果確定當(dāng)前字符插入位置cp在選擇的元素中時(shí)(S703的是),則搜索器16設(shè)定 選擇的元素 s的起始時(shí)間作為聲音位置P (步驟S704)。如果確定當(dāng)前字符插入位置cp不 在選擇的元素中時(shí)(S703的否),搜索器16使用某一語(yǔ)音識(shí)別技術(shù)(例如,"強(qiáng)制對(duì)準(zhǔn)方法 forced alignment method")估計(jì)聲音位置p (步驟S705)。例如,搜索器16使用語(yǔ)音識(shí)別 技術(shù),基于轉(zhuǎn)錄句子k、對(duì)應(yīng)于其中存在字符插入位置cp的未選擇元素 ns的識(shí)別字符串的 起始時(shí)間、以及當(dāng)前聲音播放位置,來(lái)估計(jì)聲音位置P。
      [0123] 播放器17
      [0124] 播放器17從由搜索器16搜索的聲音位置p播放聲音。
      [0125] 如上所述,根據(jù)本實(shí)施例的文本生成器100基于根據(jù)語(yǔ)音識(shí)別結(jié)果和關(guān)于由操作 者U指定的轉(zhuǎn)錄工作的工作條件的各種參數(shù)(關(guān)于轉(zhuǎn)錄精確度和轉(zhuǎn)錄所需的工作量的參數(shù) 中的至少一個(gè))計(jì)算的識(shí)別字符串的可信度,選擇從聲音識(shí)別的識(shí)別字符串,并生成轉(zhuǎn)錄句 子。
      [0126] 因此,本實(shí)施例中構(gòu)造的文本生成器100根據(jù)操作者U指定的工作條件來(lái)調(diào)節(jié)語(yǔ) 音識(shí)別結(jié)果的輸出。當(dāng)操作者U執(zhí)行在調(diào)節(jié)后的輸出上執(zhí)行增加或校正時(shí),實(shí)施例中的文 本生成器100提供了允許操作者U通過(guò)使用語(yǔ)音識(shí)別結(jié)果使輸入的字符與聲音同步來(lái)執(zhí)行 轉(zhuǎn)錄工作的環(huán)境。
      [0127] 作為結(jié)果,該實(shí)施例中的文本生成器100使能了適當(dāng)?shù)恼Z(yǔ)音識(shí)別結(jié)果根據(jù)轉(zhuǎn)錄的 工作條件被用于轉(zhuǎn)錄工作中,從而能夠容易地將字符添加到語(yǔ)音識(shí)別結(jié)果中,或校正語(yǔ)音 識(shí)別結(jié)果的字符。因此,該實(shí)施例中的文本生成器100可減小轉(zhuǎn)錄工作中強(qiáng)加于操作者U 的負(fù)擔(dān)。
      [0128] 第二實(shí)施例
      [0129] 概述
      [0130] 下面描述了根據(jù)第二實(shí)施例的文本生成器的功能(文本生成功能)。根據(jù)第二實(shí)施 例的文本生成器與第一實(shí)施例不同在于,識(shí)別器獲取的識(shí)別結(jié)果是基于句子或者基于時(shí)間 來(lái)連接的,而且將連接的結(jié)果用于轉(zhuǎn)錄的句子。更具體地,根據(jù)第二實(shí)施例的文本生成器將 如下連接的結(jié)果用于轉(zhuǎn)錄的句子,在該連接的結(jié)果中,識(shí)別結(jié)果是基于句子,根據(jù)各個(gè)識(shí)別 的字符串的句子結(jié)尾的表達(dá)來(lái)連接的??商娲兀鶕?jù)第二實(shí)施例的文本生成器將如下的 連接的結(jié)果用于轉(zhuǎn)錄的句子,在該連接的結(jié)果中,識(shí)別結(jié)果是基于特定時(shí)間,根據(jù)各個(gè)識(shí)別 的字符串的起始時(shí)間和結(jié)束時(shí)間來(lái)連接的。
      [0131] 下面描述了根據(jù)該實(shí)施例的文本生成器的結(jié)構(gòu)和功能操作。在下面的描述中,描 述了與第一個(gè)實(shí)施例的那些項(xiàng)不同的項(xiàng),而相同的項(xiàng)被標(biāo)以相同的附圖標(biāo)記,并且省略對(duì) 其重復(fù)的描述。
      [0132] 結(jié)構(gòu)
      [0133] 圖19是示意圖,示出了根據(jù)本實(shí)施例的文本生成器100的功能結(jié)構(gòu)。如圖19所 示,除了第一實(shí)施例的結(jié)構(gòu)之外,根據(jù)該實(shí)施例的文本生成器100還包括:連接單元21和識(shí) 別連接結(jié)果保存單元22。
      [0134] 連接單元21基于句子或基于時(shí)間來(lái)連接由識(shí)別器12獲取的識(shí)別結(jié)果(存儲(chǔ)在識(shí) 別結(jié)果保存單元18中的識(shí)別結(jié)果),并將連接的結(jié)果存儲(chǔ)在識(shí)別連接結(jié)果保存單元22中。 例如,識(shí)別連接結(jié)果保存單元22是文本生成器100中設(shè)置的存儲(chǔ)裝置中的特定存儲(chǔ)區(qū)域。 選擇器13和搜索器16使用存儲(chǔ)在識(shí)別連接結(jié)果保存單元22中的識(shí)別連接結(jié)果。
      [0135] 下面描述了根據(jù)本實(shí)施例的文本生成器100執(zhí)行的用于生成文本的基本處理。
      [0136] 處理
      [0137] 圖20是流程圖,示出了根據(jù)本實(shí)施例的用于生成文本的基本處理的示例。如圖20 所示,拾取單元11拾取聲音(步驟S801)。識(shí)別器12識(shí)別由拾取單元11拾取的聲音,并計(jì) 算識(shí)別單元中識(shí)別的字符串,以及識(shí)別的字符串的可信度(步驟S802)。作為結(jié)果,識(shí)別的字 符串和識(shí)別的字符串的可信度被存儲(chǔ)在識(shí)別結(jié)果保存單元18中。
      [0138] 連接單元21基于特定句子或基于特定時(shí)間,來(lái)連接識(shí)別器12的識(shí)別結(jié)果(步驟 S803)。連接的識(shí)別字符串和連接的識(shí)別字符串的可信度被存儲(chǔ)在識(shí)別連接結(jié)果保存單元 22作為識(shí)別連接結(jié)果。選擇器13基于關(guān)于轉(zhuǎn)錄工作的工作條件的各種參數(shù)(工作條件參 數(shù))和存儲(chǔ)在識(shí)別連接結(jié)果保存單元22中的識(shí)別連接結(jié)果的可信度(連接之后的識(shí)別字符 串的可信度)來(lái)選擇至少一個(gè)識(shí)別的字符串用于轉(zhuǎn)錄的句子(步驟S804)。選擇器13基于 關(guān)于轉(zhuǎn)錄精確度的參數(shù)和識(shí)別的字符串的可信度的組合或者關(guān)于轉(zhuǎn)錄所需的工作量的參 數(shù)和識(shí)別的字符串的可信度的組合,來(lái)選擇識(shí)別的字符串用于轉(zhuǎn)錄的句子。
      [0139] 生成單元14使用由選擇器13選擇的識(shí)別字符串和選擇器13未選擇的識(shí)別字符 串,生成轉(zhuǎn)錄的句子(步驟S805)。設(shè)定單元15根據(jù)從操作者U接收的設(shè)定,設(shè)定轉(zhuǎn)錄句子 中對(duì)應(yīng)于沒(méi)有被選擇器13選擇的識(shí)別字符串的用于操作者U的字符插入位置(步驟S806)。 搜索器16基于識(shí)別結(jié)果來(lái)搜索與設(shè)定單元15設(shè)定的字符插入位置對(duì)應(yīng)的聲音位置(步驟 S807)。
      [0140] 播放器17根據(jù)從操作者U接收的指令,從搜索器16搜索的聲音位置播放聲音(步 驟S808)。此后,文本生成器100從操作者U接收字符輸入(添加或校正)(步驟S809)。
      [0141] 當(dāng)從操作者U接收到結(jié)束轉(zhuǎn)錄的指令時(shí)(S810的是),根據(jù)本實(shí)施例的文本生成器 100結(jié)束該處理。相反,文本生成器100重復(fù)從S807到S809的處理(S810的否),直到操作 者U執(zhí)行結(jié)束轉(zhuǎn)錄的指令。
      [0142] 細(xì)節(jié)
      [0143] 下面主要描述了連接單元21和選擇器13的細(xì)節(jié)。
      [0144] 各個(gè)功能單元的細(xì)節(jié)
      [0145] 連接單元21
      [0146] 連接單元21基于句子,根據(jù)各個(gè)識(shí)別的字符串的句子結(jié)尾表達(dá),來(lái)連接識(shí)別結(jié) 果,并獲取識(shí)別連接結(jié)果?;蛘撸B接單元21基于特定時(shí)間,根據(jù)各個(gè)識(shí)別的字符串的起始 時(shí)間和結(jié)束時(shí)間,來(lái)連接識(shí)別結(jié)果,并獲取識(shí)別連接結(jié)果,該識(shí)別連接結(jié)果包括連接的字符 串(連接之后的識(shí)別字符串)和連接結(jié)果的可信度。
      [0147] 下面描述了連接單元21執(zhí)行的用于連接識(shí)別結(jié)果的處理。圖21是流程圖,示出 了根據(jù)該實(shí)施例的用于連接識(shí)別連接結(jié)果的處理的示例。
      [0148] 如圖21所示,連接單元21首先初始化由識(shí)別器12獲取的識(shí)別結(jié)果的臨時(shí)連接結(jié) 果cr (存儲(chǔ)在識(shí)別結(jié)果保存單元18中的識(shí)別結(jié)果)獲得(步驟S901)。連接單元21設(shè)定由 識(shí)別器12獲取的識(shí)別結(jié)果的第一識(shí)別結(jié)果作為目標(biāo)識(shí)別結(jié)果r (步驟S902)。然后,連接 單元21將目標(biāo)識(shí)別結(jié)果r添加到臨時(shí)連接結(jié)果cr (步驟S903)。
      [0149] 然后,連接單元21確定是否需要結(jié)束連接(步驟S904)。當(dāng)基于句子完成連接和基 于時(shí)間完成連接時(shí),連接單元21不同地執(zhí)行確定處理。
      [0150] A.當(dāng)基于句子完成連接時(shí)的確定處理
      [0151] 連接單元21基于目標(biāo)識(shí)別結(jié)果r的識(shí)別字符串是否是句子結(jié)尾的確定結(jié)果,來(lái)確 定是否需要結(jié)束連接。如果目標(biāo)識(shí)別結(jié)果r的識(shí)別字符串是句子結(jié)尾(S904的是),則連接 單元21確定連接結(jié)束。如果目標(biāo)識(shí)別結(jié)果r的識(shí)別字符串不是句子結(jié)尾(S904的否),則 連接單元21確定不結(jié)束該連接。例如,句子結(jié)尾的確定是基于表示句子結(jié)尾的字符或符 號(hào)(例如日文的標(biāo)點(diǎn)符號(hào)" ° "、句號(hào)"或"問(wèn)號(hào)"?)是否被包括在識(shí)別的字符串中來(lái)做出 的。當(dāng)這樣的字符或符號(hào)未被包括時(shí),則該確定可以基于句子結(jié)尾的特定表達(dá)(如日文的 "desu"或"masu")是否被包括在識(shí)別的字符串中來(lái)做出。
      [0152] B.當(dāng)基于時(shí)間完成連接時(shí)的確定處理
      [0153] 連接單元21基于被獲取作為識(shí)別結(jié)果的識(shí)別字符串的起始時(shí)間和結(jié)束時(shí)間,來(lái) 確定是否需要結(jié)束連接。如果從與目標(biāo)識(shí)別結(jié)果r對(duì)應(yīng)的識(shí)別字符串的起始時(shí)間到與在目 標(biāo)識(shí)別結(jié)果r被添加之前被添加到臨時(shí)連接結(jié)果cr的識(shí)別結(jié)果對(duì)應(yīng)的識(shí)別字符串的結(jié)束 時(shí)間經(jīng)過(guò)的時(shí)間段等于或大于特定時(shí)間,則連接單元21確定連接結(jié)束(S904的是)。如果 經(jīng)過(guò)的時(shí)間段小于特定時(shí)間,連接單元21確定不結(jié)束該連接(S904的否)。當(dāng)從與目標(biāo)識(shí) 別結(jié)果r對(duì)應(yīng)的起始時(shí)間到與被添加到臨時(shí)連接結(jié)果cr的第一識(shí)別結(jié)果對(duì)應(yīng)的識(shí)別字符 串的起始時(shí)間經(jīng)過(guò)的時(shí)間段等于或大于特定時(shí)間時(shí),連接單元21可以確定連接結(jié)束。
      [0154] 如果確定連接結(jié)束(S904的是),連接單元21計(jì)算臨時(shí)連接結(jié)果cr的可信度(步 驟S905)。臨時(shí)連接結(jié)果cr的可信度是基于與添加到臨時(shí)連接結(jié)果cr的識(shí)別結(jié)果對(duì)應(yīng)的 識(shí)別字符串的可信度來(lái)計(jì)算的。例如,計(jì)算與添加到臨時(shí)連接結(jié)果cr的識(shí)別結(jié)果對(duì)應(yīng)的識(shí) 別字符串的可信度的平均值,而且將該計(jì)算的值設(shè)定為臨時(shí)連接結(jié)果cr的可信度。如果確 定該連接沒(méi)有結(jié)束(S904的否),則連接單元21進(jìn)行到S908處的處理(其將在后面描述),同 時(shí)跳過(guò)從S905到S907的處理。
      [0155] 然后,連接單元21將連接識(shí)別的字符串并對(duì)應(yīng)于臨時(shí)連接結(jié)果cr(連接之后的識(shí) 別字符串)的字符串和臨時(shí)連接結(jié)果cr的計(jì)算可信度存儲(chǔ)在識(shí)別連接結(jié)果保存單元22中 (步驟S906),然后初始化臨時(shí)連接結(jié)果cr (步驟S907)。
      [0156] 然后,連接單元21確定由識(shí)別器12獲取的識(shí)別結(jié)果中是否存在下一個(gè)識(shí)別結(jié)果 (步驟S908)。如果確定存在下一識(shí)別結(jié)果(S908的是),連接單元21設(shè)定下一識(shí)別結(jié)果作 為目標(biāo)識(shí)別結(jié)果r (步驟S909),然后重復(fù)從S903到S908的處理。如果確定不存在識(shí)別結(jié) 果(S908的否),則連接單元21確定識(shí)別結(jié)果是否保持在臨時(shí)連接結(jié)果cr中(步驟S910)。 如果確定識(shí)別結(jié)果保持在臨時(shí)連接結(jié)果cr中(S910的是),連接單元21進(jìn)行到S905處的 處理。如果確定識(shí)別結(jié)果沒(méi)有保持在臨時(shí)連接結(jié)果中(S910的否),則連接單元21結(jié)束該 處理。
      [0157] 選擇器13
      [0158] 選擇器13基于關(guān)于轉(zhuǎn)錄精確度的參數(shù)和識(shí)別連接結(jié)果的可信度(連接之后的識(shí) 別字符串的可信度)的組合或者是關(guān)于轉(zhuǎn)錄所需的工作量的參數(shù)和識(shí)別連接結(jié)果的可信度 的組合,來(lái)選擇至少一個(gè)識(shí)別的字符串用于轉(zhuǎn)錄的句子。
      [0159] 如上所述,根據(jù)第二實(shí)施例的文本生成器100基于在句子的基礎(chǔ)上或在特定時(shí)間 的基礎(chǔ)上連接的識(shí)別字符串的可信度和由操作者U指定的關(guān)于轉(zhuǎn)錄工作的工作條件的各 種參數(shù)(關(guān)于轉(zhuǎn)錄精確度和轉(zhuǎn)錄所需的工作量中的至少一個(gè)參數(shù)),來(lái)選擇根據(jù)聲音識(shí)別的 識(shí)別字符串,并生成轉(zhuǎn)錄的句子。
      [0160] 作為結(jié)果,本實(shí)施例中的文本生成器100以與第一實(shí)施例相同方式,使得字符的 添加或校正能夠被容易地做出,并且轉(zhuǎn)錄工作中強(qiáng)加于操作者U的負(fù)擔(dān)能夠被減小。
      [0161] 第三實(shí)施例
      [0162] 下面描述了根據(jù)第三實(shí)施例的文本生成器的功能(文本生成功能)。根據(jù)第三實(shí)施 例的文本生成器與第一和第二實(shí)施例不同在于,文本生成器針對(duì)每個(gè)發(fā)聲者或每個(gè)發(fā)聲周 期,基于識(shí)別字符串的可信度和關(guān)于轉(zhuǎn)錄工作的工作條件(轉(zhuǎn)錄精確度或轉(zhuǎn)錄所需的工作 量)的各種參數(shù),來(lái)選擇從聲音識(shí)別的識(shí)別字符串,并生成轉(zhuǎn)錄句子。
      [0163] 下面描述了根據(jù)該實(shí)施例的文本生成器的結(jié)構(gòu)和功能操作。在下面的描述中,描 述了與第一和第二實(shí)施例的那些項(xiàng)不同的項(xiàng),而相同的項(xiàng)被標(biāo)以相同的附圖標(biāo)記,并且省 略對(duì)其重復(fù)的描述。
      [0164] 結(jié)構(gòu)
      [0165] 圖22是示意圖,示出了根據(jù)本實(shí)施例的文本生成器100的功能結(jié)構(gòu)。如圖22所 示,除了第一實(shí)施例的結(jié)構(gòu)之外,根據(jù)該實(shí)施例的文本生成器100還包括:發(fā)聲周期信息生 成單元31和發(fā)聲周期信息保存單元32。
      [0166] 關(guān)于拾取單兀11拾取的聲音,發(fā)聲周期信息生成單兀31生成發(fā)聲周期信息,發(fā)聲 周期信息包括識(shí)別相應(yīng)發(fā)聲的發(fā)聲ID、發(fā)聲開(kāi)始的時(shí)間(以下稱為"發(fā)聲起始時(shí)間")以及識(shí) 別發(fā)聲的發(fā)聲者的發(fā)聲者ID,并且發(fā)聲周期信息生成單元31將生成的發(fā)聲周期信息存儲(chǔ) 在發(fā)聲周期信息保存單元32中。例如,發(fā)聲周期信息保存單元32是文本生成器100中設(shè) 置的存儲(chǔ)裝置中的特定存儲(chǔ)區(qū)域。選擇器13和搜索器16使用存儲(chǔ)在發(fā)聲周期信息保存單 元32中的發(fā)聲周期信息。
      [0167] 下面描述了根據(jù)本實(shí)施例的文本生成器100執(zhí)行的用于生成文本的基本處理。
      [0168] 處理
      [0169] 圖23是流程圖,示出了根據(jù)本實(shí)施例的用于生成文本的基本處理的示例。如圖23 所示,拾取單元11拾取聲音(步驟S1001)。識(shí)別器12識(shí)別由拾取單元11拾取的聲音,并計(jì) 算識(shí)別單元中識(shí)別的字符串,以及識(shí)別的字符串的可信度(步驟S1002)。作為結(jié)果,識(shí)別的 字符串和識(shí)別的字符串的可信度被存儲(chǔ)在識(shí)別結(jié)果保存單元18中。
      [0170] 關(guān)于拾取單兀11拾取的聲音,發(fā)聲周期信息生成單兀31生成每個(gè)發(fā)聲的發(fā)聲周 期信息(包括發(fā)聲ID、發(fā)聲起始時(shí)間以及發(fā)聲者ID)(步驟S1003)。作為結(jié)果,發(fā)聲周期信 息被存儲(chǔ)在發(fā)聲周期信息保存單元32中。
      [0171] 選擇器13基于存儲(chǔ)在發(fā)聲周期信息保存單元32中的發(fā)聲周期信息、關(guān)于轉(zhuǎn)錄工 作的工作條件的各種參數(shù)(工作條件參數(shù))、以及存儲(chǔ)在識(shí)別結(jié)果保存單元18中的識(shí)別字符 串的可信度,針對(duì)每個(gè)發(fā)聲者或每一個(gè)發(fā)聲周期,來(lái)選擇至少一個(gè)識(shí)別的字符串用于轉(zhuǎn)錄 的句子(步驟S1004)。選擇器13基于關(guān)于轉(zhuǎn)錄精確度的參數(shù)和識(shí)別字符串的可信度的組合 或者關(guān)于轉(zhuǎn)錄所需的工作量的參數(shù)和識(shí)別字符串的可信度的組合,來(lái)選擇識(shí)別的字符串用 于轉(zhuǎn)錄的句子。生成單元14使用由選擇器13選擇的識(shí)別字符串和選擇器13未選擇的識(shí) 別字符串,生成轉(zhuǎn)錄句子(步驟S1005)。
      [0172] 設(shè)定單元15根據(jù)從操作者U接收的設(shè)定,設(shè)定轉(zhuǎn)錄句子中對(duì)應(yīng)于未被選擇器13 選擇的識(shí)別字符串的用于操作者U的字符插入位置(步驟S1006)。搜索器16基于識(shí)別結(jié)果 搜索對(duì)應(yīng)于設(shè)定單元15設(shè)定的字符插入位置的聲音位置(步驟S1007)。
      [0173] 播放器17根據(jù)從操作者U接收的指示,從搜索器16搜索的聲音位置播放聲音(步 驟S1008)。此后,文本生成器100從操作者U接收字符輸入(添加或校正)(步驟S1009)。
      [0174] 當(dāng)從操作者U接收到結(jié)束轉(zhuǎn)錄的指令時(shí),根據(jù)本實(shí)施例的文本生成器100結(jié)束該 處理(S1010的是)。文本生成器100重復(fù)從S1007到S1009的處理(S1010的否),直到操作 者U執(zhí)行結(jié)束轉(zhuǎn)錄的指令。
      [0175] 細(xì)節(jié)
      [0176] 下面主要描述了發(fā)聲周期信息生成單元31和選擇器13的細(xì)節(jié)。
      [0177] 各個(gè)功能單元的細(xì)節(jié)
      [0178] 發(fā)聲周期信息生成單元31
      [0179] 發(fā)聲周期信息生成單元31以下列方式識(shí)別發(fā)聲者和發(fā)聲周期,并生成發(fā)聲周期 信息。例如,發(fā)聲周期信息生成單元31接收當(dāng)操作者U聽(tīng)到聲音時(shí)識(shí)別各個(gè)聲音的發(fā)聲者 和聲音起始時(shí)間的識(shí)別結(jié)果并根據(jù)接收的識(shí)別結(jié)果生成發(fā)聲周期信息。發(fā)聲周期信息生成 單元31可以使用發(fā)聲者識(shí)別技術(shù)基于聲學(xué)特征量來(lái)估計(jì)發(fā)聲者和發(fā)聲周期,并根據(jù)估計(jì) 結(jié)果生成發(fā)聲周期信息。
      [0180] 圖24是示意圖,示出了根據(jù)本實(shí)施例的發(fā)聲周期信息D3的數(shù)據(jù)的示例。圖24示 出了當(dāng)發(fā)聲周期信息生成單元31從由拾取單元11拾取的聲音識(shí)別(估計(jì))多個(gè)發(fā)聲者和相 應(yīng)發(fā)聲周期時(shí)生成的示例性數(shù)據(jù)。例如,發(fā)聲周期信息生成單元31以這種方式生成包括發(fā) 聲ID、發(fā)聲起始時(shí)間以及發(fā)聲者ID的發(fā)聲周期信息D3。發(fā)聲周期信息生成單元31將生成 的發(fā)聲周期信息D3存儲(chǔ)在發(fā)聲周期信息保存單元32中。
      [0181] 選擇器13
      [0182] 選擇器13針對(duì)每個(gè)發(fā)聲者或每一個(gè)發(fā)聲周期,基于發(fā)聲周期信息生成單元31生 成的發(fā)聲周期信息D3、識(shí)別字符串的可信度和關(guān)于轉(zhuǎn)錄工作的工作條件的各種參數(shù),來(lái)選 擇從聲音識(shí)別的識(shí)別字符串。更具體地,選擇器13針對(duì)每個(gè)發(fā)聲者或發(fā)聲周期,基于關(guān) 于轉(zhuǎn)錄精確度的參數(shù)和識(shí)別字符串的可信度,來(lái)選擇至少一個(gè)識(shí)別的字符串用于轉(zhuǎn)錄的句 子。此外,選擇器13針對(duì)每個(gè)發(fā)聲者或發(fā)聲周期,基于關(guān)于轉(zhuǎn)錄所需的工作量的參數(shù)和識(shí) 別字符串的可信度,來(lái)選擇至少一個(gè)識(shí)別的字符串用于轉(zhuǎn)錄的句子。
      [0183] 下面描述了由選擇器13執(zhí)行的用于選擇識(shí)別字符串的處理。圖25為流程圖,其 示出了根據(jù)本實(shí)施例的用于選擇識(shí)別字符串的處理的示例。圖25示出了當(dāng)選擇器13使用 轉(zhuǎn)錄精確度的容許值作為針對(duì)每個(gè)發(fā)聲者的關(guān)于轉(zhuǎn)錄精確度的參數(shù)時(shí)的示例性處理。
      [0184] 如圖25所示,選擇器13首先從操作者U接收針對(duì)發(fā)聲者i (i=l至M,Μ是發(fā)聲者 的數(shù)量)的轉(zhuǎn)錄精確度的容許值P (i)的設(shè)定(步驟S1101)。
      [0185] 圖26是示意圖,示出了根據(jù)本實(shí)施例的轉(zhuǎn)錄精確度的允許值P(i)的設(shè)定的示例。 如圖26所示,操作者U通過(guò)相應(yīng)的滑塊UI(滑動(dòng)條),設(shè)定針對(duì)發(fā)聲者的轉(zhuǎn)錄精確度的容許 值P (i ),例如每個(gè)滑塊Π 允許從N個(gè)階層(圖26中N=5)中指定出一個(gè)可允許的階層。選 擇器13以這種方式在屏幕上顯示UI,并從操作者U接收設(shè)定。
      [0186] 再參考圖25,選擇器13隨后設(shè)定由識(shí)別器12獲取的識(shí)別結(jié)果(存儲(chǔ)在識(shí)別結(jié)果保 存單元18中的該識(shí)別結(jié)果)中的第一識(shí)別字符串作為目標(biāo)字符串w (步驟S1102),然后根 據(jù)目標(biāo)字符串w的可信度,計(jì)算目標(biāo)字符串w的轉(zhuǎn)錄精確度wp (步驟S1103)。例如,選擇 器13通過(guò)第一實(shí)施例中所描述的表達(dá)式(1),計(jì)算目標(biāo)字符串w的轉(zhuǎn)錄精確度wp。
      [0187] 然后,選擇器13基于存儲(chǔ)在發(fā)聲周期信息保存單元32中的發(fā)聲周期信息D3,識(shí)別 目標(biāo)字符串w的發(fā)聲者wi (步驟S1104)。例如,選擇器13提取發(fā)聲周期n,并且根據(jù)發(fā)聲 周期信息D3中的發(fā)聲周期的發(fā)聲者ID識(shí)別發(fā)聲者wi,在該發(fā)聲周期η中識(shí)別字符串的起 始時(shí)間存在于發(fā)聲周期η的起始時(shí)間和下一發(fā)聲周期η+1的起始時(shí)間之間。
      [0188] 然后,選擇器13比較目標(biāo)字符串w的計(jì)算的轉(zhuǎn)錄精確度wp和識(shí)別的發(fā)聲者wi的 轉(zhuǎn)錄精確度的容許值P (wi),并確定轉(zhuǎn)錄精確度wp是否等于或大于容許值P (wi)(步驟 S1105)。如果確定轉(zhuǎn)錄精確度wp等于或大于容許值P (wi) (S1105的是),選擇器13選擇 目標(biāo)字符串w (步驟S1106)。如果確定轉(zhuǎn)錄精確度wp小于容許值P (wi) (S1105的否), 則選擇器13不選擇目標(biāo)字符串w。
      [0189] 然后,選擇器13確定由識(shí)別器12獲取的識(shí)別結(jié)果中是否存在下一個(gè)識(shí)別的字符 串(步驟S1107)。如果確定存在下一個(gè)識(shí)別的字符串(S1107的是),選擇器13設(shè)定下一識(shí) 別的字符串作為目標(biāo)字符串w (步驟S1108),并重復(fù)從S1103到S1107的處理。如果確定 不存在下一個(gè)識(shí)別的字符串(S1107的否),選擇器13結(jié)束該處理。
      [0190] 選擇器13可以與上述方式相同的方式,使用每個(gè)發(fā)聲者的關(guān)于轉(zhuǎn)錄所需工作量 的參數(shù),選擇識(shí)別的字符串??商娲?,選擇器13可使用關(guān)于每個(gè)發(fā)聲周期的轉(zhuǎn)錄精確度 的參數(shù)或者每個(gè)發(fā)聲周期的轉(zhuǎn)錄所需工作量的參數(shù),來(lái)選擇識(shí)別的字符串。
      [0191] 如上所述,根據(jù)本實(shí)施例的文本生成器100基于識(shí)別字符串的可信度和關(guān)于操作 者U指定的轉(zhuǎn)錄工作的工作條件的各種參數(shù)(轉(zhuǎn)錄精確度和轉(zhuǎn)錄所需工作量中的至少一 個(gè)參數(shù)),針對(duì)每個(gè)發(fā)聲者或每個(gè)發(fā)聲周期選擇根據(jù)聲音識(shí)別的識(shí)別字符串,并生成轉(zhuǎn)錄句 子。
      [0192] 作為結(jié)果,本實(shí)施例中的文本生成器100以與第一實(shí)施例相同的方式使得能夠容 易地進(jìn)行字符的添加或校正,并且減小轉(zhuǎn)錄工作中的強(qiáng)加于操作者U的負(fù)擔(dān)。
      [0193] 文本生成器
      [0194] 圖27為示意圖,示出了根據(jù)本實(shí)施例的文本生成器100的結(jié)構(gòu)的示例。如圖27 所示,根據(jù)本實(shí)施例的文本生成器100包括中央處理單元(CPU) 101和主存儲(chǔ)設(shè)備102。文 本生成器100還包括輔助存儲(chǔ)設(shè)備103、通信接口(IF)104、外部IF105、以及驅(qū)動(dòng)設(shè)備107。 在文本生成器100中,各個(gè)設(shè)備通過(guò)總線B相互連接。因此,根據(jù)本實(shí)施例的文本生成器 100對(duì)應(yīng)于典型的信息處理裝置。
      [0195] CPU101是算術(shù)處理單元,其總體控制文本生成器100并實(shí)現(xiàn)文本生成器100的相 應(yīng)功能。主存儲(chǔ)設(shè)備102是在其特定存儲(chǔ)區(qū)域中存儲(chǔ)程序和數(shù)據(jù)的存儲(chǔ)設(shè)備(存儲(chǔ)器)。例 如,主存儲(chǔ)設(shè)備102是只讀存儲(chǔ)器(ROM)或隨機(jī)存取存儲(chǔ)器(RAM)。輔助存儲(chǔ)設(shè)備103是具 有比主存儲(chǔ)設(shè)備102更大容量的存儲(chǔ)區(qū)域的存儲(chǔ)設(shè)備。例如,輔助存儲(chǔ)設(shè)備103是非易失性 存儲(chǔ)裝置,例如硬盤(pán)驅(qū)動(dòng)器(HDD)或者存儲(chǔ)卡。CPU101從輔助存儲(chǔ)設(shè)備103讀出程序和數(shù) 據(jù)至主存儲(chǔ)裝置102中,并執(zhí)行它們,以便總體控制文本生成器100并實(shí)現(xiàn)文本生成器100 的相應(yīng)功能。
      [0196] 通信IF104是一種接口,其連接文本生成器100至數(shù)據(jù)傳輸線N。因此,通信IF104 使文本生成器100能夠執(zhí)行與其他外部裝置(其他通信處理裝置)的數(shù)據(jù)通信,該其他外部 裝置通過(guò)數(shù)據(jù)傳輸線N耦合到文本生成器100。外部IF105是使能文本生成器100和外部 設(shè)備106之間的數(shù)據(jù)交換的接口。例如,外部設(shè)備106是顯示各種類型的信息(例如處理結(jié) 果)的顯示器(例如,"液晶顯示器"),或者是接收處理輸入的輸入裝置(例如,"數(shù)字鍵盤(pán)"、 "鍵盤(pán)"、或"觸摸面板")。驅(qū)動(dòng)設(shè)備107是將數(shù)據(jù)寫(xiě)入和讀出存儲(chǔ)介質(zhì)108的控制器。例如, 該存儲(chǔ)介質(zhì)108是軟盤(pán)(FD)、緊致盤(pán)(⑶)、或數(shù)字多功能盤(pán)(DVD)。
      [0197] 例如,本實(shí)施例中的文本生成功能是由執(zhí)行計(jì)算機(jī)程序的文本生成器100和上述 各功能單元產(chǎn)生的協(xié)同操作來(lái)實(shí)現(xiàn)的。在這種情況下,程序作為可安裝或可執(zhí)行的格式的 文件被記錄在執(zhí)行環(huán)境中可由文本生成器100 (計(jì)算機(jī))讀取的記錄介質(zhì)中,并且被提供。 例如,在文本生成器100中,程序具有包括上述各個(gè)功能單元的單元結(jié)構(gòu),一旦CPU101從存 儲(chǔ)介質(zhì)108讀出程序并執(zhí)行程序,各個(gè)單元就生成于主存儲(chǔ)裝置102的RAM上。提供程序 的方式并不局限于該方式。例如,該程序可以存儲(chǔ)在連接到互聯(lián)網(wǎng)的外部裝置,并可通過(guò)數(shù) 據(jù)傳輸線N下載。該程序可以預(yù)先存儲(chǔ)在主存儲(chǔ)裝置102的ROM上或者輔助存儲(chǔ)裝置103 的HDD上,并被提供。描述了其中文本生成功能通過(guò)軟件實(shí)施來(lái)實(shí)現(xiàn)的例子。然而,文本生 成功能的實(shí)現(xiàn)并不局限于這種方式。文本生成功能的各個(gè)功能單元的一部分或全部可以通 過(guò)硬件實(shí)施來(lái)實(shí)現(xiàn)。
      [0198] 在實(shí)施例中,文本生成器100包括拾取單元11、識(shí)別器12、選擇器13、生成單元 14、設(shè)定單元15、搜索器16、播放器17、識(shí)別結(jié)果保存單元18、連接單元21、識(shí)別連接結(jié)果保 存單元22、發(fā)聲周期信息生成單元31、以及發(fā)聲周期信息保存單元32中的一部分或全部。 然而,文本生成器100的結(jié)構(gòu)不局限于此結(jié)構(gòu)。文本生成器100可以通過(guò)通信IF104耦合 到具有那些功能單元的一部分功能的外部裝置,并通過(guò)與所耦合的外部裝置的數(shù)據(jù)通信和 各個(gè)功能單元產(chǎn)生的協(xié)同操作,提供文本生成功能。例如,這種結(jié)構(gòu)使得該實(shí)施例中的文本 生成器100還能夠應(yīng)用于云環(huán)境。
      [0199] 根據(jù)上述至少一個(gè)實(shí)施例中的文本生成器,文本生成器包括識(shí)別器、選擇器、以及 生成單元。識(shí)別器被配置為識(shí)別拾取的聲音,并獲取識(shí)別單元中識(shí)別的字符串以及識(shí)別字 符串的可信度。選擇器被配置為基于關(guān)于轉(zhuǎn)錄精確度的參數(shù)和關(guān)于轉(zhuǎn)錄所需的工作量的參 數(shù)中的至少一個(gè)來(lái)選擇至少一個(gè)識(shí)別的字符串用于轉(zhuǎn)錄句子。生成單元被配置為使用所選 的識(shí)別字符串生成轉(zhuǎn)錄句子。因此,可以減小轉(zhuǎn)錄工作中的負(fù)擔(dān)。
      [0200] 雖然已經(jīng)介紹了一些實(shí)施例,但是這些實(shí)施例只是作為示例來(lái)呈現(xiàn)的,而不是用 來(lái)限制本發(fā)明的范圍。實(shí)際上,在此描述的新穎實(shí)施例可以以各種其它形式實(shí)施;此外,在 不脫離本發(fā)明的精神的情況下可以做出在此所述的實(shí)施例的形式中的各種省略、替換和改 變。所附的權(quán)利要求及其等同方案旨在覆蓋將落入本發(fā)明的范圍和精神的如此形式或修 改。
      【權(quán)利要求】
      1. 一種文本生成器,包括: 識(shí)別器,其被配置為識(shí)別所拾取的聲音,并獲取識(shí)別單元中所識(shí)別的字符串和所識(shí)別 的字符串的可信度; 選擇器,其被配置為基于關(guān)于轉(zhuǎn)錄精確度的參數(shù)和關(guān)于轉(zhuǎn)錄所需工作量的參數(shù)中的至 少一個(gè),選擇至少一個(gè)所識(shí)別的字符串用于轉(zhuǎn)錄的句子;以及 生成單元,其被配置為使用所選的識(shí)別字符串生成所述轉(zhuǎn)錄的句子。
      2. 根據(jù)權(quán)利要求1所述的文本生成器,其中,所述選擇器基于所述關(guān)于轉(zhuǎn)錄精確度的 參數(shù)與所述所識(shí)別的字符串的可信度的組合和所述關(guān)于轉(zhuǎn)錄所需工作量的參數(shù)與所述所 識(shí)別的字符串的可信度的組合中的至少一個(gè)組合,來(lái)選擇所識(shí)別的字符串。
      3. 根據(jù)權(quán)利要求2所述的文本生成器,其中,所述選擇器基于每個(gè)所識(shí)別的字符串的 可信度來(lái)計(jì)算每個(gè)所識(shí)別的字符串的轉(zhuǎn)錄精確度,比較所計(jì)算的轉(zhuǎn)錄精確度和所述轉(zhuǎn)錄精 確度的容許值,并且當(dāng)所述轉(zhuǎn)錄精確度等于或大于所述容許值時(shí)選擇所述所識(shí)別的字符 串。
      4. 根據(jù)權(quán)利要求2所述的文本生成器,其中,所述選擇器使用轉(zhuǎn)錄工作時(shí)間作為所述 關(guān)于轉(zhuǎn)錄所需工作量的參數(shù),基于所識(shí)別的字符串的字符數(shù)量來(lái)計(jì)算每個(gè)所識(shí)別的字符串 的所述轉(zhuǎn)錄工作時(shí)間,比較累積的工作時(shí)間和所述轉(zhuǎn)錄工作時(shí)間的容許值,并且當(dāng)所述累 積的工作時(shí)間等于或小于所述容許值時(shí)選擇所述所識(shí)別的字符串,所述累積的工作時(shí)間以 所識(shí)別的字符串的可信度的遞減次序累積地示出了所識(shí)別的字符串的所計(jì)算的轉(zhuǎn)錄工作 時(shí)間。
      5. 根據(jù)權(quán)利要求2所述的文本生成器,其中 所述識(shí)別器還獲取每個(gè)所識(shí)別的字符串的起始時(shí)間和結(jié)束時(shí)間,并且 所述選擇器使用轉(zhuǎn)錄工作時(shí)間作為所述關(guān)于轉(zhuǎn)錄所需工作量的參數(shù),基于每個(gè)所識(shí)別 的字符串的起始時(shí)間和結(jié)束時(shí)間計(jì)算每個(gè)所識(shí)別的字符串的轉(zhuǎn)錄工作時(shí)間,比較累積的工 作時(shí)間和轉(zhuǎn)錄工作時(shí)間的容許值,并且當(dāng)所述累積的工作時(shí)間等于或小于所述容許值時(shí)選 擇所述所識(shí)別的字符串,所述累積的工作時(shí)間累積地示出了以所識(shí)別的字符串的可信度的 遞減次序的所識(shí)別的字符串的所計(jì)算的轉(zhuǎn)錄工作時(shí)間。
      6. 根據(jù)權(quán)利要求2所述的文本生成器,其中,所述選擇器使用轉(zhuǎn)錄工作成本作為所述 關(guān)于轉(zhuǎn)錄所需工作量的參數(shù),基于所識(shí)別的字符串的字符數(shù)量計(jì)算每個(gè)所識(shí)別的字符串的 轉(zhuǎn)錄工作時(shí)間,基于所計(jì)算的轉(zhuǎn)錄工作時(shí)間和每一單位時(shí)間的工作成本來(lái)計(jì)算每個(gè)所識(shí)別 的字符串的轉(zhuǎn)錄工作成本,比較累積的工作成本和所述轉(zhuǎn)錄工作成本的容許值,并且當(dāng)所 述累積的工作成本等于或小于所述容許值時(shí)選擇所述所識(shí)別的字符串,所述累積的工作成 本累積地示出了以所識(shí)別的字符串的可信度的遞減次序的所識(shí)別的字符串的所計(jì)算的轉(zhuǎn) 錄工作成本。
      7. 根據(jù)權(quán)利要求2所述的文本生成器,其中 所述識(shí)別器還獲取每個(gè)所識(shí)別的字符串的起始時(shí)間和結(jié)束時(shí)間,并且 所述選擇器使用轉(zhuǎn)錄工作成本作為所述關(guān)于轉(zhuǎn)錄所需工作量的參數(shù),基于所識(shí)別的字 符串的起始時(shí)間和結(jié)束時(shí)間來(lái)計(jì)算每個(gè)所識(shí)別的字符串的轉(zhuǎn)錄工作時(shí)間,基于所計(jì)算的轉(zhuǎn) 錄工作時(shí)間和每一單位時(shí)間的工作成本來(lái)計(jì)算每個(gè)所識(shí)別的字符串的轉(zhuǎn)錄工作成本,比較 累積的工作成本和所述轉(zhuǎn)錄工作成本的容許值,并且當(dāng)所述累積的工作成本等于或小于所 述容許值時(shí)選擇所述所識(shí)別的字符串,所述累積的工作成本累積地示出了以所識(shí)別的字符 串的可信度的遞減次序的所識(shí)別的字符串的所計(jì)算的轉(zhuǎn)錄工作成本。
      8. 根據(jù)權(quán)利要求2所述的文本生成器,其中,所述生成單元生成所述轉(zhuǎn)錄的句子,在所 述轉(zhuǎn)錄的句子中,所述所識(shí)別的字符串中沒(méi)有被所述選擇器選擇的所識(shí)別的字符串的N個(gè) 候選者(N是等于或大于1的整數(shù))以所識(shí)別的字符串的可信度的遞減次序被顯示,使得所 述N個(gè)候選者能夠被操作者選擇。
      9. 根據(jù)權(quán)利要求1所述的文本生成器,還包括設(shè)定單元,所述設(shè)定單元被配置為在所 述轉(zhuǎn)錄的句子中的一位置處設(shè)定字符插入位置,所述位置對(duì)應(yīng)于沒(méi)有被所述選擇器選擇的 所識(shí)別的字符串,所述字符插入位置對(duì)應(yīng)于操作者開(kāi)始字符輸入的位置,其中 所述設(shè)定單元基于所檢測(cè)的當(dāng)前字符插入位置并基于所選擇的元素和未選擇的元素 之間的位置關(guān)系,來(lái)設(shè)定字符插入位置,所述所選擇的元素對(duì)應(yīng)于由所述選擇器選擇的所 識(shí)別的字符串,所述未選擇的元素對(duì)應(yīng)于所述轉(zhuǎn)錄的句子中沒(méi)有被所述選擇器選擇的所識(shí) 別的字符串。
      10. 根據(jù)權(quán)利要求9所述的文本生成器,其中 所述設(shè)定單元確定所檢測(cè)的當(dāng)前字符插入位置是否是在所述所選擇的元素中,并且 當(dāng)所述字符插入位置是在所述所選擇的元素中時(shí),所述設(shè)定單元在最接近于所述字符 插入位置并且在所述字符插入位置后面的位置處檢測(cè)所述未選擇的元素,并且將所述字符 插入位置移動(dòng)到所檢測(cè)的未選擇的元素的開(kāi)頭位置。
      11. 根據(jù)權(quán)利要求9所述的文本生成器,其中 所述設(shè)定單元確定所檢測(cè)的當(dāng)前字符插入位置是否是在所選擇的元素中,并且 當(dāng)所述字符插入位置不在所述所選擇的元素中時(shí),所述設(shè)定單元在最接近于所述字符 插入位置并且在所述字符插入位置后面的位置處檢測(cè)所選擇的元素,在最接近于所檢測(cè)的 所選擇的元素并且在所檢測(cè)的所選擇的元素后面的位置處檢測(cè)未選擇的元素,并且將所述 字符插入位置移動(dòng)到所檢測(cè)的未選擇的元素的開(kāi)頭位置。
      12. 根據(jù)權(quán)利要求9所述的文本生成器,還包括: 搜索器,其被配置為當(dāng)操作者開(kāi)始在由所述設(shè)定單元設(shè)定的所述字符插入位置輸入字 符時(shí),搜索對(duì)應(yīng)于輸入字符的聲音位置;以及 播放器,其被配置為從所述搜索器搜索的所述聲音位置播放聲音,其中 所述搜索器基于由所述設(shè)定單元檢測(cè)的所述當(dāng)前字符插入位置以及所選擇的元素和 未選擇的元素之間的位置關(guān)系,搜索所述聲音位置,所述所選擇的元素對(duì)應(yīng)于被所述選擇 器選擇的所識(shí)別的字符串,所述未選擇的元素對(duì)應(yīng)于所述轉(zhuǎn)錄的句子中沒(méi)有被所述選擇器 選擇的所識(shí)別的字符串。
      13. 根據(jù)權(quán)利要求12所述的文本生成器,其中 所述搜索器確定所檢測(cè)的當(dāng)前字符插入位置是否是在所述所選擇的元素中,并且 當(dāng)所述字符插入位置是在所述所選擇的元素中時(shí),所述搜索器設(shè)定與所選擇的元素對(duì) 應(yīng)的所識(shí)別的字符串的起始時(shí)間作為聲音位置。
      14. 根據(jù)權(quán)利要求1所述的文本生成器,還包括連接單元,所述連接單元被配置為基于 句子或基于特定時(shí)間,來(lái)連接由所述識(shí)別器獲取的所識(shí)別的字符串,并且獲取所連接的所 識(shí)別的字符串和所連接的所識(shí)別的字符串的可信度,其中 所述選擇器選擇基于句子或基于時(shí)間連接的所連接的所識(shí)別的字符串。
      15. 根據(jù)權(quán)利要求14所述的文本生成器,其中,所述選擇器基于關(guān)于所述轉(zhuǎn)錄精確度 的參數(shù)和所連接的所識(shí)別的字符串的可信度,或基于關(guān)于轉(zhuǎn)錄所需的工作量的參數(shù)和所連 接的所識(shí)別的字符串的可信度,來(lái)選擇基于句子或基于時(shí)間連接的所連接的所識(shí)別的字符 串。
      16. 根據(jù)權(quán)利要求1所述的文本生成器,還包括生成單元,所述生成單元被配置為生成 關(guān)于所述聲音的發(fā)聲周期信息,所述發(fā)聲周期信息包括標(biāo)識(shí)每個(gè)發(fā)聲的信息、每個(gè)發(fā)聲的 發(fā)聲起始時(shí)間、和標(biāo)識(shí)每個(gè)發(fā)聲的發(fā)聲者的信息,其中 所述選擇器針對(duì)每個(gè)發(fā)聲者或每個(gè)發(fā)聲來(lái)選擇所識(shí)別的字符串。
      17. 根據(jù)權(quán)利要求16所述的文本生成器,其中,所述選擇器基于關(guān)于轉(zhuǎn)錄精確度的參 數(shù)和所識(shí)別的字符串的可信度,或者基于關(guān)于轉(zhuǎn)錄所需的工作量的參數(shù)和所識(shí)別的字符串 的可信度,針對(duì)每個(gè)發(fā)聲者或每個(gè)發(fā)聲,來(lái)選擇所識(shí)別的字符串。
      18. -種文本生成方法,包括: 識(shí)別所拾取的聲音,并獲取識(shí)別單元中識(shí)別的字符串和所識(shí)別的字符串的可信度; 基于關(guān)于轉(zhuǎn)錄精確度的參數(shù)和關(guān)于轉(zhuǎn)錄所需工作量的參數(shù)中的至少一個(gè),來(lái)選擇至少 一個(gè)所識(shí)別的字符串用于轉(zhuǎn)錄的句子;以及 使用所選擇的所識(shí)別的字符串生成所述轉(zhuǎn)錄的句子。
      【文檔編號(hào)】G10L15/26GK104103273SQ201410090288
      【公開(kāi)日】2014年10月15日 申請(qǐng)日期:2014年3月12日 優(yōu)先權(quán)日:2013年4月3日
      【發(fā)明者】蘆川平, 西山修, 池田朋男, 上野晃嗣, 中田康太 申請(qǐng)人:株式會(huì)社東芝
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1