專利名稱:聲音數(shù)據(jù)檢索系統(tǒng)以及聲音數(shù)據(jù)的檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及從附隨TV節(jié)目或照相機影像的聲音數(shù)據(jù)、呼叫中心 或會議錄等中收錄的聲音數(shù)據(jù)中,用戶根據(jù)檢索關(guān)鍵字檢測發(fā)聲了期 望的聲音的區(qū)間的聲音檢測裝置及其接口 。
背景技術(shù):
伴隨近年來的存儲設(shè)備的大容量化,而可以積蓄大量的聲音數(shù) 據(jù)。在以往的大多數(shù)的聲音數(shù)據(jù)庫中,為了對聲音數(shù)據(jù)進行管理而附 加對聲音進行錄音的時刻的信息,并根據(jù)該信息檢索期望的聲音數(shù) 據(jù)。但是,在基于時刻信息的檢索中,需要預(yù)先知道發(fā)聲了期望的聲 音的時刻,而無法用于檢索進行了特定發(fā)聲的聲音。在檢索進行了特 定發(fā)聲的聲音的情況下,需要從開始到結(jié)束為止聽取聲音。
因此,需要對聲音數(shù)據(jù)庫中的發(fā)聲了特定的關(guān)鍵字的位置進行檢 測的技術(shù)。例如知道如下技術(shù)通過針對表示關(guān)鍵字的聲學(xué)性特征的 聲學(xué)特征向量和聲音數(shù)據(jù)庫的聲學(xué)特征向量釆用考慮了時間伸縮的 對準(zhǔn),而在聲音數(shù)據(jù)庫中對發(fā)聲了關(guān)鍵字的位置進行檢測(專利文獻
l等)。
另外,還知道如下技術(shù)不將利用者所發(fā)聲的聲音直接作為關(guān)鍵 字而用于檢索,而將存儲在關(guān)鍵字候補存儲部中的聲音模式作為關(guān)鍵 字而進行聲音數(shù)據(jù)的檢索(例如專利文獻2)。
作為其它公知的方法,還實現(xiàn)了通過利用聲音識別裝置將聲音數(shù) 據(jù)變換成單詞網(wǎng)格(lattice)表現(xiàn),并在所生成的單詞網(wǎng)格上檢索關(guān) 鍵字,而在聲音數(shù)據(jù)庫上檢索發(fā)聲了關(guān)鍵字的位置的系統(tǒng)。
在如此對發(fā)聲了關(guān)鍵字的位置進行檢測的聲音檢索系統(tǒng)中,用戶 向系統(tǒng)輸入似乎在期望的聲音區(qū)間中發(fā)聲的單詞而作為檢索關(guān)鍵字。例如具有"希望搜索Ichiro接受采訪時的聲音"這樣的請求的用戶通過 作為檢索鍵而進行"Ichiro采訪,,這樣的輸入,并進行聲音檢索,而檢 測聲音區(qū)間。
專利文獻1:日本特開昭55 - 2205號
專利文獻2:日本特開2001 - 290496號
發(fā)明內(nèi)容
但是,在如上述以往例子那樣對發(fā)聲了關(guān)鍵字的位置進行檢測的 聲音檢索系統(tǒng)中,用戶作為關(guān)鍵字而輸入的關(guān)鍵字未必在用戶所期望 的聲音區(qū)間中被發(fā)聲。在上述例子中,考慮在"Ichiro接受釆訪"時的 聲音中"采訪,,這樣的發(fā)聲 一次也沒有進行這樣的情況。在這樣的情況 下,即使用戶輸入了 "Ichiro采訪"這樣的檢索關(guān)鍵字,在對進行了 "Ichiro"、"采訪"這樣的發(fā)聲的區(qū)間進行檢測的系統(tǒng)中,用戶也無法 得到期望的"Ichiro接受采訪"的聲音區(qū)間。
以往在這樣的情況下,用戶只能嘗試性地輸入似乎在期望的聲音 區(qū)間中被發(fā)聲的關(guān)鍵字而進行檢索,存在直到檢索出期望的聲音區(qū)間 為止的勞力較大這樣的問題。在上述例子中,用戶只能嘗試性地輸入 似乎在"Ichiro接受采訪"時發(fā)聲的單詞(例如"廣播席廣播席"、"辛苦 了"等)而進行檢索。
本發(fā)明是鑒于上述問題點而完成的,其目的在于,通過向用戶提 示與所輸入的檢索關(guān)鍵字對應(yīng)的聲學(xué)信息特征量,而降低用戶檢索聲 音數(shù)據(jù)時的鍵輸入的勞力。
本發(fā)明具備聲音數(shù)據(jù)庫,存儲聲音數(shù)據(jù);檢索數(shù)據(jù)生成部,在 進行上述聲音數(shù)據(jù)的檢索之前,從上述聲音數(shù)據(jù)生成檢索用的檢索數(shù) 據(jù);以及檢索部,根據(jù)上述預(yù)先設(shè)定的條件檢索上述檢索數(shù)據(jù),上述 聲音數(shù)據(jù)庫將與上述聲音數(shù)據(jù)對應(yīng)的元數(shù)據(jù)附加到上述聲音數(shù)據(jù)而 進行存儲,上述檢索數(shù)據(jù)生成部具有聲學(xué)信息特征量抽取部,從上 述聲音數(shù)據(jù)抽取每個發(fā)聲的聲學(xué)信息特征量;對應(yīng)關(guān)系生成部,在對 上述抽取的聲學(xué)信息特征量進行成簇之后,生成該成簇后的聲學(xué)信息特征量和包含在上述元數(shù)據(jù)中的單詞的對應(yīng)關(guān)系而作為上述檢索數(shù)
據(jù);以及對應(yīng)關(guān)系存儲部,存儲上述生成的對應(yīng)關(guān)系。
另外,上述檢索部具備檢索鍵輸入部,輸入用于檢索上述聲音 數(shù)據(jù)庫的檢索鍵而作為上述條件;聲音數(shù)據(jù)檢索部,檢測在上述聲音 數(shù)據(jù)中被發(fā)聲了上述檢索鍵的位置;單詞/聲學(xué)信息特征量檢索部,從 上述檢索數(shù)據(jù)檢索與上述檢索鍵對應(yīng)的聲學(xué)信息特征量;以及提示 部,輸出上述聲音數(shù)據(jù)檢索部的檢索結(jié)果和上述單詞/聲學(xué)信息特征量 檢索部的檢索結(jié)果。
因此,本發(fā)明在輸入了檢索鍵時,通過向用戶提示與該檢索鍵對 應(yīng)的聲學(xué)信息特征量,可以降低用戶檢索聲音數(shù)據(jù)時的鍵輸入的勞力。
圖l示出第l實施方式,是應(yīng)用本發(fā)明的計算機系統(tǒng)的框圖。 圖2示出第1實施方式,是示出聲音檢索應(yīng)用程序10的功能要 素的框圖。
圖3是示出EPG信息的一個例子的說明圖。 圖4示出第1實施方式,是詳細(xì)示出聲學(xué)信息特征量抽取部的功 能要素的框圖。
圖5示出第1實施方式,是示出由聲音檢索應(yīng)用程序執(zhí)行的單詞 /聲學(xué)信息特征量對應(yīng)關(guān)系的生成處理的一個例子的結(jié)構(gòu)化流程圖。
圖6示出第1實施方式,是示出由聲音檢索應(yīng)用程序執(zhí)行的檢索 處理的一個例子的結(jié)構(gòu)化流程圖。
圖7示出第1實施方式,是示出聲學(xué)信息特征量的種類和特征量 的一個例子的說明圖。
圖8示出第1實施方式,是示出所生成的單詞/聲學(xué)信息特征量 對應(yīng)關(guān)系的一個例子的說明圖,示出單詞與聲學(xué)信息特征量的對應(yīng)關(guān) 系。
圖9示出第1實施方式,是示出針對關(guān)鍵字的檢索結(jié)果的畫面圖像。
圖10示出第1實施方式,示出無針對關(guān)鍵字的檢索結(jié)果時的推
薦關(guān)鍵字的畫面圖像。
圖11示出第2實施方式,是應(yīng)用本發(fā)明的計算機系統(tǒng)的框圖。 圖12示出第2實施方式,是示出與聲音數(shù)據(jù)相關(guān)的信息的一個 例子的說明圖。
圖13示出第2實施方式,是示出元數(shù)據(jù)單詞串中的單詞與聲學(xué) 信息特征量的對應(yīng)關(guān)系的說明圖。
圖14示出第2實施方式,是示出關(guān)鍵字輸入部所提供的用戶接 口的一個例子的畫面圖^象。
圖15示出第2實施方式,是示出針對檢索鍵的檢索結(jié)果的畫面圖像。
圖16示出第1實施方式,是示出無針對檢索鍵的檢索結(jié)果時的 推薦鍵的畫面圖像。
標(biāo)號說明 1計算機
6聲音數(shù)據(jù)積蓄裝置
10聲音檢索應(yīng)用程序
100聲音數(shù)據(jù)庫
101聲音數(shù)據(jù)
102元數(shù)據(jù)單詞串
103聲學(xué)信息特征量抽取部
106單詞/聲學(xué)信息特征量對應(yīng)保管部
110單詞/聲學(xué)信息特征量檢索部
111聲學(xué)信息特征量提示部
具體實施例方式
以下,根據(jù)附圖對本發(fā)明的一個實施方式進行說明。圖1示出第1實施方式,是示出應(yīng)用本發(fā)明的計算機系統(tǒng)的結(jié)構(gòu) 的框圖。
本實施方式的計算機系統(tǒng)示出構(gòu)成記錄電視(TV)節(jié)目的影像 以及聲音數(shù)據(jù),并從聲音數(shù)據(jù)檢索包括用戶所指定的檢索關(guān)鍵字的聲 音區(qū)間的聲音檢索系統(tǒng)的例子。在圖1中,計算機系統(tǒng)具備計算機l, 該計算機l具備存儲程序、數(shù)據(jù)的存儲器3;和執(zhí)行存儲在存儲器 3中的程序而進行運算處理的處理器(CPU) 2。在計算機1上,連接 有接收TV廣播的TV調(diào)諧器7、記錄所接收到的TV廣播的聲音數(shù)據(jù) 和附屬數(shù)據(jù)的聲音數(shù)據(jù)積蓄裝置6、輸入檢索關(guān)鍵字和指令等的鍵盤 4、和顯示檢索關(guān)鍵字和檢索結(jié)果等的顯示裝置5。在存儲器3中載入 有聲音檢索應(yīng)用程序10,并利用處理器2執(zhí)行,該聲音檢索應(yīng)用程序 10從鍵盤4接收檢索關(guān)鍵字,并從存儲在聲音數(shù)據(jù)積蓄裝置6中的聲 音數(shù)據(jù)檢索出檢索關(guān)鍵字的聲音區(qū)間。另外,聲音檢索應(yīng)用程序10 如后所述包括聲學(xué)信息特征量抽取部103和聲學(xué)信息特征量提示部 111。
聲音數(shù)據(jù)積蓄裝置6具備存儲TV調(diào)諧器7所接收到的TV節(jié)目 的聲音數(shù)據(jù)的聲音數(shù)據(jù)庫100,聲音數(shù)據(jù)庫100如后所述,存儲包含 在TV廣播中的聲音數(shù)據(jù)101,并存儲包含在TV廣播中的附屬數(shù)據(jù) 而作為元數(shù)據(jù)單詞串102。另外,聲音數(shù)據(jù)積蓄裝置6如后所述,具 備單詞/聲學(xué)信息特征量對應(yīng)保管部106,該單詞/聲學(xué)信息特征量對應(yīng) 保管部106存儲表示聲音檢索應(yīng)用程序10所生成的聲音數(shù)據(jù)101的 聲學(xué)特征量與元數(shù)據(jù)單詞串102的對應(yīng)關(guān)系的單詞/聲學(xué)信息特征量 對應(yīng)關(guān)系。
另外,TV調(diào)諧器7所接收到的TV節(jié)目的聲音數(shù)據(jù)101是通過 計算機l的未圖示的應(yīng)用程序從TV廣播抽取聲音數(shù)據(jù)101以及元數(shù) 據(jù)單詞串102并寫入到聲音數(shù)據(jù)積蓄裝置6的聲音數(shù)據(jù)庫100而進行 的。
由計算機1執(zhí)行的聲音檢索應(yīng)用程序10通過用戶利用鍵盤4指 定檢索關(guān)鍵字而使用存儲在聲音數(shù)據(jù)積蓄裝置6中的TV節(jié)目中的聲音數(shù)據(jù)101,對發(fā)聲了檢索關(guān)鍵字的位置(聲音區(qū)間)進行檢測,利 用顯示裝置5向用戶提示檢索結(jié)果。另外,在本實施方式中,例如將 包括表示節(jié)目內(nèi)容的文本數(shù)據(jù)的EPG (Electronic Program Guide, 電子節(jié)目指南)信息用作TV廣播的附屬數(shù)據(jù)。
聲音檢索應(yīng)用程序10從作為元數(shù)據(jù)單詞串102積蓄到聲音數(shù)據(jù) 積蓄裝置6中的EPG信息抽取檢索關(guān)鍵字,從聲音數(shù)據(jù)101抽取與 該檢索關(guān)鍵字對應(yīng)的聲學(xué)信息特征量,生成表示聲音數(shù)據(jù)101的聲學(xué) 特征量與元數(shù)據(jù)單詞串102的對應(yīng)關(guān)系的單詞/聲學(xué)信息特征量對應(yīng) 關(guān)系并存儲到單詞/聲學(xué)信息特征量對應(yīng)保管部106。然后,聲音檢索 應(yīng)用程序10如果從鍵盤4接收到關(guān)鍵字,則從單詞/聲學(xué)信息特征量 對應(yīng)保管部106的檢索關(guān)鍵字提示相應(yīng)的檢索關(guān)鍵字,恰當(dāng)?shù)匾龑?dǎo)用 戶的檢索請求。另外,在以下的例子中作為元數(shù)據(jù)利用了 EPG信息, 但在對節(jié)目附加了更詳細(xì)的元數(shù)據(jù)信息的情況下,還可以利用該詳細(xì) 的元數(shù)據(jù)信息。
在本實施方式中處理的聲音數(shù)據(jù)庫100由從多個TV節(jié)目抽取的 聲音數(shù)據(jù)101構(gòu)成,各個聲音數(shù)據(jù)101中附有附加在抽取出該聲音數(shù) 據(jù)的TV節(jié)目中EPG信息而作為元數(shù)據(jù)單詞串102。
EPG信息201如圖3所示,由多個關(guān)鍵字、字幕信息等文章構(gòu) 成。由聲音檢索應(yīng)用程序10使用詞素分析處理將這些字符串變換成 單詞串。其結(jié)果,抽取出"激烈辯論,,202、"參議院竟選,,203、"采訪,,204 等而作為元數(shù)據(jù)單詞串。由聲音檢索應(yīng)用程序10進行的詞素分析處 理使用公知或周知的方法即可,所以此處省略詳細(xì)說明。
接下來,圖2是示出聲音檢索應(yīng)用程序IO的功能要素的框圖。 聲音檢索應(yīng)用程序10以規(guī)定的定時(例如錄音完成的時刻等),根 據(jù)聲音數(shù)據(jù)101和元數(shù)據(jù)單詞串102生成單詞/聲學(xué)信息特征量對應(yīng)關(guān) 系并存儲到聲音數(shù)據(jù)積蓄裝置6的單詞/聲學(xué)信息特征量對應(yīng)保管部 106。
聲音檢索應(yīng)用程序10被大致分成生成單詞/聲學(xué)信息特征量對應(yīng) 關(guān)系的模塊(103 ~ 106 )和使用單詞/聲學(xué)信息特征量對應(yīng)關(guān)系來進行聲音數(shù)據(jù)101的檢索的模塊(107~111)。
生成單詞/聲學(xué)信息特征量對應(yīng)關(guān)系的模塊包括聲學(xué)信息特征 量抽取部103,將聲音數(shù)據(jù)101分割成發(fā)聲單位,抽取各發(fā)聲的聲學(xué) 特征量;發(fā)聲/聲學(xué)信息特征量保管部104,存儲發(fā)聲單位的聲學(xué)信息 特征量;單詞/聲學(xué)信息特征量對應(yīng)部105,抽取每個發(fā)聲的聲學(xué)信息 特征量與EPG信息的元數(shù)據(jù)單詞串102的關(guān)系;以及單詞/聲學(xué)信息 特征量對應(yīng)保管部106,存儲所抽取的元數(shù)據(jù)單詞串102和聲學(xué)信息 特征量。
進行檢索的模塊包括關(guān)鍵字輸入部107,提供接收用戶從鍵盤 4輸入的檢索關(guān)鍵字(或者聲音檢索請求)的接口;聲音檢索部108, 對在聲音數(shù)據(jù)101上發(fā)聲了用戶所輸入的關(guān)鍵字的位置進行檢測;聲 音檢索結(jié)果提示部109,在檢測到在聲音數(shù)據(jù)101上發(fā)聲了關(guān)鍵字的 位置的情況下向顯示裝置5輸出該位置;單詞/聲學(xué)信息特征量檢索部 110,在未檢測到在聲音數(shù)據(jù)101上發(fā)聲了關(guān)鍵字的位置的情況下, 從單詞/聲學(xué)信息特征量對應(yīng)保管部106檢索與關(guān)鍵字對應(yīng)的元數(shù)據(jù)
單詞串102和聲學(xué)信息特征量;以及聲學(xué)信息特征量提示部111,向 顯示裝置5輸出與關(guān)鍵字相應(yīng)的元數(shù)據(jù)單詞串102和聲學(xué)信息特征
以下,對聲音檢索應(yīng)用程序10的各部進行說明。
首先,將聲音數(shù)據(jù)101分割成發(fā)聲單位,并抽取各發(fā)聲的聲學(xué)信 息特征量的聲學(xué)信息特征量抽取部103如圖4所示構(gòu)成。
在聲學(xué)信息特征量抽取部103中,聲音分割部301從聲音數(shù)據(jù)庫 100讀入所指定的聲音數(shù)據(jù)101并針對每個發(fā)聲進行分割。將聲音數(shù) 據(jù)101分割成發(fā)聲單位的處理可以通過當(dāng)聲音的功率在一定期間中成 為一定值以下時視為發(fā)聲結(jié)束而實現(xiàn)。
接下來,聲學(xué)信息特征量抽取部103針對各發(fā)聲的每一個,抽取 聲音識別結(jié)果信息、聲學(xué)性講話者特征信息、發(fā)聲長度信息、韻律信 息、講話者更換信息、講話音量信息、背景音信息中的任意一個、或 其組合而作為聲學(xué)信息特征量,并保存到發(fā)聲/聲學(xué)信息特征量保管部104。以下敘述用于取得各個信息的單元和特征量的形式。
聲音識別結(jié)果信息是通過利用聲音識別器302將聲音數(shù)據(jù)101
變換成單詞串而得到的。聲音識別回到在將聲音數(shù)據(jù)101的聲音波形
設(shè)為X,并將元數(shù)據(jù)單詞串102的單詞串設(shè)為W時用下式表示的后
驗概率最大化搜索問題。 式(1)
<formula>formula see original document page 14</formula>
上述式根據(jù)從大量的學(xué)習(xí)數(shù)據(jù)學(xué)習(xí)的聲學(xué)模型和語言模型進行 搜索。另外,關(guān)于這些聲音識別的方法,恰當(dāng)使用公知或周知的技術(shù) 即可,所以此處省略i兌明。
將利用聲音識別器302得到的單詞串的各單詞的存在頻度用作 聲學(xué)信息特征量(聲音識別結(jié)果信息)。另外,也可以與使用聲音識 別器302得到的單詞串附隨地抽取并利用發(fā)聲整體的聲音識別評分、 各單詞的每一個的可靠性等。進而還可以將"廣播席廣播席,,這樣的多
個單詞的組合用作聲學(xué)信息特征量。
聲學(xué)性講話者特征信息是利用講話者信息特征量抽取部303得 到的。講話者信息特征量抽取部303預(yù)先收錄多個(N人的)講話者 的聲音,并利用混合高斯分布模型GMM ( Gaussian Mixture Model) 來對這些聲音進行才莫型化。如果輸入了發(fā)聲X,則講話者信息特征量
抽取部303針對各個混合高斯分布模型GMMi (i = l.....N)的每
一個,根據(jù)各混合高斯分布模型GMMi求出生成了發(fā)聲的概率P
(X|GMMi),而得到N維的特征量。講話者信息特征量抽取部303 將其作為該發(fā)聲的聲學(xué)性講話者特征信息而輸出。
發(fā)聲長度信息是通過利用發(fā)聲長度抽取部304針對各發(fā)聲的每 一個測量該發(fā)聲所繼續(xù)的時間而得到的。另外,還可以將比某值短的 發(fā)聲分類成"短"、將比某值長的發(fā)聲分類成"長"、將除此以外的發(fā)聲 分類成"通常",由此設(shè)為3值的特征量。
韻律特征量信息是通過利用韻律信息抽取部306抽取該發(fā)聲的 基本頻率分量之后,分類成基本頻率分量在發(fā)聲的詞尾是上升、還是下降、還是平坦的3值并設(shè)為特征量而得到的?;绢l率分量的抽取 處理應(yīng)用公知或周知的方法即可,所以省略詳細(xì)說明。另外,還可以 使用離散性參數(shù)來表現(xiàn)該發(fā)聲的韻律特征。
講話者更換信息是利用講話者更換信息抽取部307得到的。講話 者更換信息是表現(xiàn)該發(fā)聲前的發(fā)聲是否為同一人物的特征量,詳細(xì)而 言是通過如果表現(xiàn)聲學(xué)性講話者特征信息的N維特征量在該發(fā)聲和 之前的發(fā)聲中相差規(guī)定的閾值以上則判定成不同的人物、否則判定成 同一人物而得到的。另外,還可以利用與上述同樣的方法得到該發(fā)聲 與之后的發(fā)聲是否為同一人物,而可以用作特征量。進而,還可以將 在該發(fā)聲前后一定區(qū)間內(nèi)是否存在什么人的發(fā)聲這樣的信息用作特 征量。
發(fā)聲音量信息是由發(fā)聲音量抽取部305利用該發(fā)聲的最大功率 與該聲音數(shù)據(jù)101中包含的發(fā)聲的最大功率的平均之比來表現(xiàn)的。當(dāng) 然也可以對該發(fā)聲的平均功率與該聲音數(shù)據(jù)中的發(fā)聲的平均功率進 行比較等。
背景音信息是利用背景音抽取部309得到的。作為背景音,利用 表示在該發(fā)聲中是否發(fā)生了鼓掌音、歡呼聲、音樂、無音等這樣的信 息、表示是否在該發(fā)聲的前時刻、后時刻發(fā)生這樣的信息。此處,為 了判定鼓掌音、歡呼聲、音樂、無音等的存在,首先準(zhǔn)備各個音,并 使用混合高斯分布模型GMM等進行模型化。如果輸入了聲音,則根 據(jù)各個混合高斯分布模型GMM求出生成上述聲音的概率P (XIGMMi),在該值超過一定值的情況下,背景音抽取部309判定 為存在該背景音。背景音抽取部309針對鼓掌音、歡呼聲、音樂、無 音分別輸出存在/不存在的信息而作為表示背景音信息的特征量。
在聲學(xué)信息特征量抽取部103中,通過實施上述處理,針對聲音 數(shù)據(jù)庫100內(nèi)的聲音數(shù)據(jù)101,得到發(fā)聲和表示該發(fā)聲的聲學(xué)信息特 征量的組。使用聲學(xué)信息特征量抽取部103得到的特征量如圖7所示。 在圖7中,聲學(xué)信息特征量的種類與所抽取的特征量401成對,而存 儲到發(fā)聲/聲學(xué)信息特征量保管部104。另外,當(dāng)然還可以利用上述中未記述的聲學(xué)信息特征量。
接下來,圖2所示的單詞/聲學(xué)信息特征量對應(yīng)部105抽取使用 上述聲學(xué)信息特征量抽取部103得到的聲學(xué)信息特征量與抽取了 EPG信息的元數(shù)據(jù)單詞串102中的單詞的對應(yīng)。
在以下的說明中作為元數(shù)據(jù)單詞串102的一個例子,在EPG信 息中單詞/聲學(xué)信息特征量對應(yīng)部105注目于任意選擇的單詞(以下稱 為"注目單詞"),抽取注目單詞與聲學(xué)信息特征量的對應(yīng)。另外在本 實施方式中作為注目單詞而選擇了 EPG信息中的一個單詞,但其也 可以是EPG信息中的單詞的組。
在單詞/聲學(xué)信息特征量對應(yīng)部105中,首先以發(fā)聲單位對使用 上述聲學(xué)信息特征量抽取部103得到的每個發(fā)聲的聲學(xué)信息特征量進 行成簇。成簇可以使用層次性成簇方法。以下示出使用單詞/聲學(xué)信息 特征量對應(yīng)部105進行的成簇的處理步驟的一個例子。
(i) 將所有發(fā)聲設(shè)為一個簇,將從該發(fā)聲得到的聲學(xué)信息特征 量設(shè)為代表該發(fā)聲的聲學(xué)信息特征量。
(ii) 求出各簇的聲學(xué)信息特征量的向量間的距離,對這些向量 中距離最短的簇進行合并。此處簇間的距離可以使用代表簇的聲學(xué)信 息特征量集合間的余弦距離等。另外如果全部特征量被數(shù)值化,則還 可以4吏用馬哈拉諾比斯(Mahalanobis )距離等。將合并前的2個簇 中共用的聲學(xué)信息特征量設(shè)為代表合并后的簇的聲學(xué)信息特征量。
(iii) 重復(fù)上述(ii),在所有各簇間的距離成為一定值(規(guī)定 值)以上的時刻結(jié)束合并。
接下來,單詞/聲學(xué)信息特征量對應(yīng)部105抽取通過上述操作得 到的簇中的僅由"在EPG信息中包括注目單詞的聲音發(fā)聲"構(gòu)成的簇。 單詞/聲學(xué)信息特征量對應(yīng)部105生成將注目單詞與代表所抽取的簇 的聲學(xué)信息特征量集合對應(yīng)關(guān)聯(lián)的信息而作為單詞/聲學(xué)信息特征量 對應(yīng)關(guān)系,存儲到單詞/聲學(xué)信息特征量對應(yīng)保管部106。單詞/聲學(xué)信 息特征量對應(yīng)部105針對成為對象的聲音數(shù)據(jù)101的元數(shù)據(jù)單詞串 102 (EPG信息)的所有單詞,將各個作為注目單詞而進行上述處理,而生成單詞/聲學(xué)信息特征量對應(yīng)關(guān)系。此時,在單詞/聲學(xué)信息特征
量對應(yīng)保管部106中如圖8所示保存有單詞/聲學(xué)信息特征量對應(yīng)關(guān)系 的數(shù)據(jù)。在圖8中,單詞/聲學(xué)信息特征量對應(yīng)關(guān)系501存儲了與元數(shù) 據(jù)單詞串102的單詞對應(yīng)的聲學(xué)信息特征量,所以聲學(xué)信息特征量如 上所述,包括聲音識別結(jié)果信息、聲學(xué)性講話者特征信息、發(fā)聲長度 信息、韻律信息、講話者更換信息、發(fā)聲音量信息、背景音信息中的 任意一個。
另外,在上述中,示出了對成為對象的聲音數(shù)據(jù)101的元數(shù)據(jù)單 詞串102的所有單詞進行上述處理的例子,但也可以對元數(shù)據(jù)單詞串 102的單詞的一部分進行上述處理。
通過以上處理,聲音檢索應(yīng)用程序10生成從聲音數(shù)據(jù)庫100的 聲音數(shù)據(jù)101抽取的每個發(fā)聲的聲學(xué)信息特征量與元數(shù)據(jù)單詞串102 的EPG信息中包含的單詞的對應(yīng)關(guān)系而作為單詞/聲學(xué)信息特征量對 應(yīng)關(guān)系501,并存儲到單詞/聲學(xué)信息特征量對應(yīng)保管部106。聲音檢 索應(yīng)用程序IO進行上述處理而作為利用聲音檢索系統(tǒng)的預(yù)處理。
圖5是表示上述聲音檢索應(yīng)用程序10所執(zhí)行的單詞/聲學(xué)信息特 征量對應(yīng)關(guān)系的生成處理的步驟的一個例子的PAD (Problem Analysis Diagram,問題分析圖)。該處理是在成為規(guī)定的定時(聲 音數(shù)據(jù)的錄音完成或用戶的指令)時執(zhí)行的。
首先,在步驟S103中,聲學(xué)信息特征量抽取部103從聲音數(shù)據(jù) 庫100讀入利用圖4所示的聲音分割部301指定的聲音數(shù)據(jù)101并針 對每個發(fā)聲進行分割,針對各發(fā)聲的每一個作為聲學(xué)信息特征量,抽 取聲音識別結(jié)果信息、聲學(xué)性講話者特征信息、發(fā)聲長度信息、韻律 信息、講話者更換信息、發(fā)聲音量信息、背景音信息中的任意一個、 或其組合。接下來,在步驟S104中,聲學(xué)信息特征量抽取部103向 發(fā)聲/聲學(xué)信息特征量保管部104保存所抽取的每個發(fā)聲的聲學(xué)信息
特征量。
接下來,在步驟S105中,上述圖2所示的單詞/聲學(xué)信息特征量 對應(yīng)部105抽取存儲在發(fā)聲/聲學(xué)信息特征量保管部104中的每個發(fā)聲的聲學(xué)信息特征量與抽取出EPG信息的元數(shù)據(jù)單詞串102中的單詞 的對應(yīng)關(guān)系。該步驟S105的處理是在上述單詞/聲學(xué)信息特征量對應(yīng) 部105中敘述的處理,由以發(fā)聲單位層次性地對每個發(fā)聲的聲學(xué)信息 特征量進行成簇的處理(步驟S310 )、和生成將上述的元數(shù)據(jù)單詞串 102中的注目單詞與代表簇的聲學(xué)信息特征量集合對應(yīng)關(guān)聯(lián)的信息而 作為單詞/聲學(xué)信息特征量對應(yīng)關(guān)系的處理(步驟S311)構(gòu)成。然后,
聲音檢索應(yīng)用程序10向單詞/聲學(xué)信息特征量對應(yīng)保管部106存儲所 生成的單詞/聲學(xué)信息特征量對應(yīng)關(guān)系。
通過以上處理,聲音檢索應(yīng)用程序IO針對每個聲音數(shù)據(jù)101將
所檢索的單詞信息與聲學(xué)信息特征量相關(guān)聯(lián)。
在以下的說明中,對用戶輸入了檢索關(guān)鍵字時的聲音檢索應(yīng)用程 序10的處理進行敘述。
關(guān)鍵字輸入部107接收用戶從鍵盤4輸入的關(guān)鍵字和檢索對象的 聲音數(shù)據(jù)101,如下所述進行處理。另外,作為此處的關(guān)鍵字輸入部 107,除了從鍵盤4輸入的文本數(shù)據(jù)以外,還可以利用聲音識別器。
首先,聲音檢索部108取得用戶從關(guān)鍵字輸入部107輸入的關(guān)鍵 字和聲音數(shù)據(jù)101,從聲音數(shù)據(jù)庫100讀入所指定的聲音數(shù)據(jù)101。 然后,聲音檢索部108對在聲音數(shù)據(jù)101上發(fā)聲了用戶的關(guān)鍵字的位 置(發(fā)聲位置)進行檢測。在對關(guān)鍵字輸入部107輸入了多個關(guān)鍵字 的情況下,聲音檢索部108檢測出這些關(guān)鍵字在時間軸上比預(yù)先規(guī)定 的時間范圍更近的時刻發(fā)生的區(qū)間而作為發(fā)聲位置。關(guān)鍵字的發(fā)聲位 置檢測例如可以使用上述專利文獻1等中記載的^^知或周知的方法來 進行。
另外,在發(fā)聲/聲學(xué)信息特征量保管部104中作為聲音識別信息 特征量而針對每個發(fā)聲包含有進行聲音識別的結(jié)果的單詞,聲音檢索 部108也可以將該聲音識別結(jié)果與關(guān)鍵字相一致的發(fā)聲作為檢索結(jié) 果。
在聲音檢索部108中,在從聲音數(shù)據(jù)101檢測出發(fā)聲了用戶所輸 入的關(guān)鍵字的位置的情況下,利用聲音檢索結(jié)果提示部109向顯示裝置5輸出發(fā)聲位置而向用戶提示該位置。聲音檢索結(jié)果提示部109向顯示裝置5輸出的內(nèi)容如圖9所示,顯示用戶所輸入的關(guān)鍵字"Ichiro采訪,,和所檢索到的發(fā)聲位置。在該例子中,示出使用包括發(fā)聲位置的聲音區(qū)間的聲音識別信息特征量即聲音識別來進行顯示的情況。
另一方面,在聲音檢索部108中,在無法從聲音數(shù)據(jù)101上檢測出發(fā)聲了從用戶指定的關(guān)鍵字的位置的情況下,單詞/聲學(xué)信息特征量檢索部110針對各個關(guān)鍵字的每一個,對單詞/聲學(xué)信息特征量對應(yīng)保管部106進行檢索,如果用戶所輸入的關(guān)鍵字已登記在單詞/聲學(xué)信息特征量對應(yīng)關(guān)系,則進行抽取。
此處,在單詞/聲學(xué)信息特征量檢索部110從單詞/聲學(xué)信息特征量對應(yīng)保管部106檢測出與用戶指定的關(guān)鍵字對應(yīng)的聲學(xué)信息特征量(聲音識別結(jié)果信息、聲學(xué)性講話者特征信息、發(fā)聲長度信息、韻律信息、講話者更換信息、發(fā)聲音量信息、背景音信息)的情況下,聲學(xué)信息特征量提示部111向用戶提示所檢測出的聲學(xué)信息特征量而作為所推薦的檢索關(guān)鍵字。例如,在相對"采訪"這樣的單詞,作為聲學(xué)信息特征量而包含有"廣播席廣播席"、"辛苦了,,這樣的單詞對的情況下,聲學(xué)信息特征量提示部111在顯示裝置5上如圖IO所示向用戶提示該單詞對。
另外,在提示與關(guān)鍵字對應(yīng)的聲學(xué)信息特征量時,根據(jù)各個聲學(xué)信息特征量進行聲音數(shù)據(jù)的檢索,優(yōu)先向用戶提示聲音數(shù)據(jù)庫100中存在的概率高的聲學(xué)信息特征量即可。
用戶可以根據(jù)利用聲學(xué)信息特征量提示部111向顯示裝置5提示的信息來追加檢索關(guān)鍵字,可以高效地進行聲音數(shù)據(jù)的檢索。
聲學(xué)信息特征量提示部111優(yōu)選具有用戶可以容易地指定各個聲學(xué)信息特征量的接口,并在用戶指定了某個聲學(xué)信息特征量時,在檢索請求中包含該聲學(xué)信息特征量。
另外聲學(xué)信息特征量提示部in在抽取出與用戶的檢索請求一
致的聲音數(shù)據(jù)101的情況下,也可以提示與用戶的檢索關(guān)鍵字對應(yīng)的聲學(xué)信息特征量。另外,如果在聲音檢索應(yīng)用程序10中具備圖8所示的對單詞與聲學(xué)信息特征量的組進行編輯的單詞/聲學(xué)信息特征量編輯部,則用戶可以登記自己經(jīng)常檢索的單詞與聲學(xué)信息特征量的組,可以提高操作性。
圖6是示出聲音檢索應(yīng)用程序10所執(zhí)行的上述關(guān)鍵字輸入部107 ~聲學(xué)信息特征量提示部111的處理步驟的一個例子的PAD (結(jié)構(gòu)化流程圖)。
首先,在步驟S107中,聲音檢索應(yīng)用程序10接收從鍵盤4輸入的關(guān)鍵字和檢索對象的聲音數(shù)據(jù)101。
接下來,在步驟S108中聲音檢索應(yīng)用程序IO利用上述的聲音檢索部108,針對用戶所輸入的關(guān)鍵字,對在聲音數(shù)據(jù)101上發(fā)聲的位置(發(fā)聲位置)進行檢測。
在從聲音數(shù)據(jù)101檢測出發(fā)聲了用戶所輸入的關(guān)鍵字的位置的情況下,聲音檢索應(yīng)用程序10在步驟S109中,利用聲音檢索結(jié)果提示部109向顯示裝置5輸出發(fā)聲位置而向用戶提示該位置。
另一方面,在步驟SllO中,在聲音檢索應(yīng)用程序IO無法在聲音數(shù)據(jù)101上檢測出發(fā)聲了從用戶指定的關(guān)鍵字的位置的情況下,上述的單詞/聲學(xué)信息特征量檢索部110針對各個關(guān)鍵字的每一個,對單詞/聲學(xué)信息特征量對應(yīng)保管部106進行檢索,而掃描用戶所輸入的關(guān)鍵字是否登記在單詞/聲學(xué)信息特征量對應(yīng)關(guān)系中。
在聲音檢索應(yīng)用程序10在從單詞/聲學(xué)信息特征量對應(yīng)保管部106利用單詞/聲學(xué)信息特征量檢索部110檢測出與由用戶指定的關(guān)鍵字對應(yīng)的聲學(xué)信息特征量(聲音識別結(jié)果)的情況下,進入到步驟Slll,向用戶提示使用上述的聲學(xué)信息特征量提示部lll檢測出的聲學(xué)信息特征量而作為所推薦的檢索關(guān)鍵字。
通過以上處理,可以針對用戶所輸入的檢索關(guān)鍵字,向用戶提示元數(shù)據(jù)單詞串102的EPG信息中包含的單詞而作為推薦關(guān)鍵字。
這樣,在本發(fā)明中,向聲音數(shù)據(jù)庫100存儲附加了元數(shù)據(jù)單詞串102的多個聲音數(shù)據(jù)101,檢索應(yīng)用程序IO抽取聲音識別結(jié)果信息、聲學(xué)性講話者特征信息、發(fā)聲長信息、韻律特征信息、講話者更換信
息、發(fā)聲音量信息、背景音信息等而作為表現(xiàn)聲音數(shù)據(jù)ioi的聲學(xué)信
息特征量。然后,檢索應(yīng)用程序10在所得到的聲學(xué)信息特征量的子
集合中,僅從元數(shù)據(jù)單詞串102中包含的聲音數(shù)據(jù)101抽取特定的單
詞,而抽取不從除此以外的聲音數(shù)據(jù)101抽取那樣的聲學(xué)信息特征量
的集合。將該特定的單詞與上述中抽取的聲學(xué)信息特征量的集合對應(yīng)
關(guān)聯(lián)而作為單詞/聲學(xué)信息特征量對應(yīng)關(guān)系并保管。針對元數(shù)據(jù)中的所
有單詞進行針對上述特定單詞的聲學(xué)信息特征量的集合抽取,求出這些單詞與聲學(xué)信息特征量的集合的組合而作為單詞/聲學(xué)信息特征量
對應(yīng)關(guān)系,并存儲到單詞/聲學(xué)信息特征量對應(yīng)保管部106。在用戶所
輸入的檢索關(guān)鍵字中存在與使用單詞/聲學(xué)信息特征量對應(yīng)關(guān)系求出
的單詞一致的單詞的情況下,向用戶提示與該單詞對應(yīng)的聲學(xué)信息特
征量的集合。
由此,在對發(fā)聲了檢索鍵關(guān)鍵字的位置進行檢測的聲音檢索系統(tǒng)中,用戶作為檢索鍵而輸入的關(guān)鍵字未必在用戶所期望的聲音區(qū)間中被發(fā)聲,但通過使用本發(fā)明,無需嘗試性地輸入檢索關(guān)鍵字,而通過利用與對顯示裝置5提示的單詞對應(yīng)的聲學(xué)信息特征量的集合,可以大幅降低聲音數(shù)據(jù)的檢索所需的勞力。(第2實施方式)
在上述實施方式l中,輸入關(guān)鍵字而作為檢索鍵,在聲學(xué)信息特征量提示部111中,向顯示裝置5進行聲音識別結(jié)果信息特征量的提示。與其相對,在第2實施方式中,示出如下的聲音檢索系統(tǒng)作為檢索鍵,除了關(guān)鍵字以外,還輸入聲學(xué)性講話者特征信息、發(fā)聲長度、韻律特征量、講話者更換信息、發(fā)聲音量信息、背景音信息中的任意一個,使用這些檢索鍵來進行聲學(xué)信息特征量的檢索。
本實施方式的聲音檢索系統(tǒng)示出如圖11所示代替上述實施方式1的圖1所示的TV調(diào)諧器7,而從經(jīng)由網(wǎng)絡(luò)8與計算機1連接的服務(wù)器9取得聲音數(shù)據(jù)101的例子。計算機1根據(jù)用戶的指示從服務(wù)器9取得聲音數(shù)據(jù)101,并存儲到聲音數(shù)據(jù)積蓄裝置6。在本實施方式中,將會議錄聲音用作聲音數(shù)據(jù)101。在會議錄聲音中如圖12所示,分別附加有文件名702、出席者名703和聲音ID701。通過針對該聲音數(shù)據(jù)101進行詞素分析處理,可以抽取"產(chǎn)品A,,702、"山田太郎,,703這樣的單詞。以下,示出將通過詞素分析處理從聲音數(shù)據(jù)IOI抽取的單詞用作元數(shù)據(jù)單詞串102的例子。另外,還可以在會議錄聲音收錄時發(fā)聲文件名或出席者名,通過利用上述第
名702和出席者名703,而通過與上述同樣的處理來抽取元數(shù)據(jù)單詞串102。
聲學(xué)信息特征量抽取部103在用戶輸入檢索鍵信息之前與上述第1實施方式同樣地,從聲音數(shù)據(jù)IOI針對各發(fā)聲的每一個抽取聲音識別結(jié)果信息、聲學(xué)性講話者特征信息、發(fā)聲長度信息、韻律信息、講話者更換信息、發(fā)聲音量信息、背景音信息中的任意一個、或其組合而作為聲學(xué)信息特征量。進而,單詞/聲學(xué)信息特征量對應(yīng)部105抽取使用上述聲學(xué)信息特征量抽取部103得到的聲學(xué)信息特征量與元數(shù)據(jù)單詞串102中的單詞的對應(yīng),保管到單詞/聲學(xué)信息特征量對應(yīng)保管部106。它們的詳細(xì)內(nèi)容與上述第1實施方式中示出的內(nèi)容相同,所以省略重復(fù)的說明。
其結(jié)果,得到圖13所示的元數(shù)據(jù)單詞串102中的單詞與聲學(xué)信息特征量的對應(yīng)關(guān)系,并保管到單詞/聲學(xué)特征量對應(yīng)保管部106。
在本實施方式中,除了單詞/聲學(xué)信息特征量對應(yīng)關(guān)系以外,還將上述發(fā)聲與聲學(xué)信息特征量的組保管到發(fā)聲/聲學(xué)信息特征量保管部104。
到此為止是在用戶輸入檢索鍵以前結(jié)束的處理。以下,對用戶輸入了檢索鍵時的聲音檢索應(yīng)用程序10的處理進行敘述。
除了關(guān)鍵字以外,用戶還可以輸入聲學(xué)性講話者特征信息、發(fā)聲長度、韻律特征量、講話者更換信息、發(fā)聲音量信息、背景音信息中的任意一個而作為檢索鍵。因此,例如關(guān)鍵字輸入部107具備圖14所示的接口。如果用戶從圖14中示出的用戶接口輸入了檢索鍵,則聲音檢索應(yīng)用程序IO使用聲音檢索部108檢測出與該檢索鍵最符合的聲音區(qū)間。為此,在發(fā)聲/聲學(xué)信息特征量保管部104中,搜索保管成檢索鍵的聲學(xué)信息量所符合的發(fā)聲即可。
如果檢測出與檢索鍵符合的發(fā)聲,則聲音檢索應(yīng)用程序10將該發(fā)聲作為檢索結(jié)果而從顯示裝置5向用戶提示如圖15中示出的輸出。
另一方面,聲音檢索應(yīng)用程序IO在未檢測出與檢索鍵符合的發(fā)聲、且該檢索鍵中包含有單詞的情況下,對單詞/聲學(xué)信息特征量對應(yīng)保管部106進行檢索,而檢索出與該檢索鍵中的單詞對應(yīng)的聲學(xué)信息特征量。在檢索出與所輸入的檢索鍵符合的聲學(xué)信息特征量的情況下,通過如圖16中所示向顯示裝置5輸出該聲學(xué)信息特征量而向用戶提示。
這樣,用戶通過指定聲音檢索系統(tǒng)向顯示裝置5提示的如圖16中示出的聲學(xué)信息特征量,可以檢索出期望的聲音區(qū)間,可以省略如上述以往例那樣嘗試性地輸入檢索鍵的麻煩。(產(chǎn)業(yè)上的可利用性)
如上所述,根據(jù)本發(fā)明,可以應(yīng)用于檢索聲音數(shù)據(jù)的聲音檢索系統(tǒng),進而可以應(yīng)用于內(nèi)容的錄像裝置、會議系統(tǒng)等利用聲音數(shù)據(jù)的裝置。
權(quán)利要求
1. 一種聲音數(shù)據(jù)檢索系統(tǒng),其特征在于,具備聲音數(shù)據(jù)庫,存儲聲音數(shù)據(jù);檢索數(shù)據(jù)生成部,在進行上述聲音數(shù)據(jù)的檢索之前,從上述聲音數(shù)據(jù)生成檢索用的檢索數(shù)據(jù);以及檢索部,根據(jù)上述預(yù)先設(shè)定的條件檢索上述檢索數(shù)據(jù),上述聲音數(shù)據(jù)庫將與上述聲音數(shù)據(jù)對應(yīng)的元數(shù)據(jù)附加到上述聲音數(shù)據(jù)而進行存儲,上述檢索數(shù)據(jù)生成部具有聲學(xué)信息特征量抽取部,從上述聲音數(shù)據(jù)抽取每個發(fā)聲的聲學(xué)信息特征量;對應(yīng)關(guān)系生成部,在對上述抽取的聲學(xué)信息特征量進行成簇之后,生成該成簇后的聲學(xué)信息特征量和包含在上述元數(shù)據(jù)中的單詞的對應(yīng)關(guān)系而作為上述檢索數(shù)據(jù);以及對應(yīng)關(guān)系存儲部,存儲上述生成的對應(yīng)關(guān)系。
2. 根據(jù)權(quán)利要求1所述的聲音數(shù)據(jù)檢索系統(tǒng),其特征在于,上 述檢索部具備檢索鍵輸入部,輸入用于檢索上述聲音數(shù)據(jù)庫的檢索鍵而作為上 述條件;聲音數(shù)據(jù)檢索部,檢測在上述聲音數(shù)據(jù)中被發(fā)聲了上述檢索鍵的位置;單詞/聲學(xué)信息特征量檢索部,從上述檢索數(shù)據(jù)檢索與上述檢索 鍵對應(yīng)的聲學(xué)信息特征量;以及提示部,輸出上述聲音數(shù)據(jù)檢索部的檢索結(jié)果和上述單詞/聲學(xué) 信息特征量檢索部的檢索結(jié)果。
3. 根據(jù)權(quán)利要求l所述的聲音數(shù)據(jù)檢索系統(tǒng),其特征在于, 上述聲學(xué)信息特征量抽取部具有聲音分割部,針對每個發(fā)聲分割上述聲音數(shù)據(jù);聲音識別部,針對上述每個發(fā)聲對上述聲音數(shù)據(jù)進行聲音識別,作為聲音識別結(jié)果信息而輸出單詞串;講話者信息特征量抽取部,將預(yù)先設(shè)定的聲音模型與上述聲音數(shù) 據(jù)進行比較,抽取包含在聲音數(shù)據(jù)中的每個發(fā)聲的講話者的特征量而 作為聲學(xué)性講話者特征信息;發(fā)聲長度抽取部,抽取包含在上述聲音數(shù)據(jù)中的發(fā)聲的長度而作 為發(fā)聲長度信息;韻律信息抽取部,抽取包含在上述聲音數(shù)據(jù)中的每個發(fā)聲的韻律 而作為韻律信息;講話者更換信息抽取部,作為表示上述聲音數(shù)據(jù)中的發(fā)聲是否為同 一人物的特征量從上述聲音數(shù)據(jù)抽取講話者更換信息;發(fā)聲音量抽取部,抽取包含在上述聲音數(shù)據(jù)中的每個發(fā)聲的音量而作為發(fā)聲音量信息;以及背景音抽取部,抽取包含在上述聲音數(shù)據(jù)中的背景音而作為背景音信息,輸出上述聲音識別結(jié)果信息、聲學(xué)性講話者特征信息、發(fā)聲長度 信息、韻律信息、講話者更換信息、發(fā)聲音量信息、背景音信息中的 至少一個。
4. 根據(jù)權(quán)利要求2所述的聲音數(shù)據(jù)檢索系統(tǒng),其特征在于,上 述提示部具有聲學(xué)信息特征量提示部,該聲學(xué)信息特征量提示部輸出 由上述單詞/聲學(xué)信息特征量檢索部檢索出的聲學(xué)信息特征量。
5. 根據(jù)權(quán)利要求4所述的聲音數(shù)據(jù)檢索系統(tǒng),其特征在于,上 述聲學(xué)信息特征量提示部包括聲學(xué)信息特征量提示部,優(yōu)先輸出由上 述單詞/聲學(xué)信息特征量檢索部檢索出的聲學(xué)信息特征量中的、上述聲音數(shù)據(jù)中存在的概率高的聲學(xué)信息特征量。
6. 根據(jù)權(quán)利要求5所述的聲音數(shù)據(jù)檢索系統(tǒng),其特征在于,還 具備指定作為檢索對象的聲音數(shù)據(jù)的聲音數(shù)據(jù)指定部,上述聲學(xué)信息特征量提示部優(yōu)先輸出由上述單詞/聲學(xué)信息特征 量檢索部檢索出的聲學(xué)信息特征量中的、被指定成檢索對象的聲音數(shù)據(jù)中存在的概率高的聲學(xué)信息特征量。
7. 根據(jù)權(quán)利要求1所述的聲音數(shù)據(jù)檢索系統(tǒng),其特征在于,上 述單詞/聲學(xué)信息特征量保管部具有對上述聲學(xué)信息特征量的組進行 追加、刪除、編輯的單詞/聲學(xué)信息特征量編輯部。
8. 根據(jù)權(quán)利要求3所述的聲音數(shù)據(jù)檢索系統(tǒng),其特征在于,上 述檢索部具有輸入用于檢索上述聲音數(shù)據(jù)庫的檢索鍵的檢索鍵輸入 部,上述檢索鍵輸入部接收關(guān)鍵字、上述聲學(xué)性講話者特征信息、上 述發(fā)聲長度信息、上述韻律信息、上述講話者更換信息、上述發(fā)聲音 量信息和上述背景音信息中的至少一個。
9. 一種聲音數(shù)據(jù)的檢索方法,其是計算機以預(yù)先設(shè)定的條件針 對存儲在聲音數(shù)據(jù)庫中的聲音數(shù)據(jù)進行上述聲音數(shù)據(jù)的檢索的聲音 數(shù)據(jù)的檢索方法,其特征在于,包括如下的步驟在進行上述聲音數(shù)據(jù)的檢索之前,計算機從上述聲音數(shù)據(jù)生成檢索用的檢索數(shù)據(jù)的步驟;以及上述計算機根據(jù)上述預(yù)先設(shè)定的條件檢索上述檢索數(shù)據(jù)的步驟, 上述聲音數(shù)據(jù)庫將與上述聲音數(shù)據(jù)對應(yīng)的元數(shù)據(jù)附加到上述聲音數(shù)據(jù)而進行存儲,從上述聲音數(shù)據(jù)生成檢索用的檢索數(shù)據(jù)的步驟包括 從上述聲音數(shù)據(jù)抽取每個發(fā)聲的聲學(xué)信息特征量的步驟; 在對上述抽取的聲學(xué)信息特征量進行成簇之后,生成該成簇后的聲學(xué)信息特征量與包含在上述元數(shù)據(jù)中的單詞的對應(yīng)關(guān)系而作為上述檢索數(shù)據(jù)的步驟;以及存儲上述生成的對應(yīng)關(guān)系的步驟。
10. 根據(jù)權(quán)利要求9所述的聲音數(shù)據(jù)的檢索方法,其特征在于, 上述計算機根據(jù)上述預(yù)先設(shè)定的條件檢索上述檢索數(shù)據(jù)的步驟具備輸入用于檢索上述聲音數(shù)據(jù)庫的檢索鍵而作為上述條件的步驟; 在上述聲音數(shù)據(jù)中檢測被發(fā)聲了上述檢索鍵的位置的步驟; 從上述檢索數(shù)據(jù)檢索與上述檢索鍵對應(yīng)的聲學(xué)信息特征量的步驟;以及輸出上述聲音數(shù)據(jù)的檢索結(jié)果和上述聲學(xué)信息特征量的檢索結(jié) 果的步驟。
11. 根據(jù)權(quán)利要求9所述的聲音數(shù)據(jù)的檢索方法,其特征在于, 抽取上述聲學(xué)信息特征量的步驟包括. 針對每個發(fā)聲分割上述聲音數(shù)據(jù)的步驟;針對上述每個發(fā)聲對上述聲音數(shù)據(jù)進行聲音識別,作為聲音識別 結(jié)果信息而輸出單詞串的步驟;對預(yù)先設(shè)定的聲音模型與上述聲音數(shù)據(jù)進行比較,抽取包含在聲 音數(shù)據(jù)中的每個發(fā)聲的講話者的特征量而作為聲學(xué)性講話者特征信 息的步驟; 抽取包含在上述聲音數(shù)據(jù)中的發(fā)聲的長度而作為發(fā)聲長度信息 的步驟;抽取包含在上述聲音數(shù)據(jù)中的每個發(fā)聲的韻律而作為韻律信息 的步驟;作為表示上述聲音數(shù)據(jù)中的發(fā)聲是否為同一人物的特征量從上 述聲音數(shù)據(jù)抽取講話者更換信息的步驟;抽取包含在上述聲音數(shù)據(jù)中的每個發(fā)聲的音量而作為發(fā)聲音量 信息的步驟;以及抽取包含在上述聲音數(shù)據(jù)中的背景音而作為背景音信息的步驟,輸出上述聲音識別結(jié)果信息、聲學(xué)性講話者特征信息、發(fā)聲長度 信息、韻律信息、講話者更換信息、發(fā)聲音量信息、背景音信息中的 至少一個。
12. 根據(jù)權(quán)利要求IO所述的聲音數(shù)據(jù)的檢索方法,其特征在于, 在輸出上述聲音數(shù)據(jù)的檢索結(jié)果和上述聲學(xué)信息特征量的檢索結(jié)果 的步驟中,輸出上述檢索出的聲學(xué)信息特征量。
13. 根據(jù)權(quán)利要求12所述的聲音數(shù)據(jù)的檢索方法,其特征在于, 在輸出上述聲音數(shù)據(jù)的檢索結(jié)果和上述聲學(xué)信息特征量的檢索結(jié)果 的步驟中,優(yōu)先輸出上述據(jù)中存在的概率高的聲學(xué)信息特征量。
14. 根據(jù)權(quán)利要求13所述的聲音數(shù)據(jù)的檢索方法,其特征在于, 還包括指定作為檢索對象的聲音數(shù)據(jù)的步驟,在輸出上述聲音數(shù)據(jù)的檢索結(jié)果和上述聲學(xué)信息特征量的檢索 結(jié)果的步驟中,優(yōu)先輸出上述檢索出的聲學(xué)信息特征量中的、被指定 成檢索對象的聲音數(shù)據(jù)中存在的概率高的聲學(xué)信息特征量。
15. 根據(jù)權(quán)利要求9所述的聲音數(shù)據(jù)的檢索方法,其特征在于, 還包括對上述聲學(xué)信息特征量的組進行追加、刪除、編輯的步驟。
16. 根據(jù)權(quán)利要求11所述的聲音數(shù)據(jù)的檢索方法,其特征在于, 上述計算機根據(jù)上述預(yù)先設(shè)定的條件檢索上述檢索數(shù)據(jù)的步驟包括 輸入用于檢索上述聲音數(shù)據(jù)庫的檢索鍵的步驟,在輸入上述檢索鍵的步驟中,接收關(guān)鍵字、上述聲學(xué)性講話者特 征信息、上述發(fā)聲長度信息、上述韻律信息、上述講話者更換信息、 上述發(fā)聲音量信息和上述背景音信息中的至少一個。
全文摘要
本發(fā)明提供一種聲音數(shù)據(jù)檢索系統(tǒng)以及聲音數(shù)據(jù)的檢索方法,降低用戶檢索聲音數(shù)據(jù)時的鍵輸入的勞力。抽取表現(xiàn)附加了元數(shù)據(jù)的聲音數(shù)據(jù)的聲學(xué)信息特征量。然后,在所得到的聲學(xué)信息特征量的子集合中,僅從元數(shù)據(jù)中包含的聲音數(shù)據(jù)抽取特定的單詞,而抽取不從除此以外的聲音數(shù)據(jù)抽取那樣的聲學(xué)信息特征量集合。將該單詞與上述抽取的聲學(xué)信息特征量的集合對應(yīng)關(guān)聯(lián)地存儲。在所輸入的檢索鍵中存在與上述單詞一致的單詞的情況下,輸出與該單詞對應(yīng)的聲學(xué)信息特征量的集合。
文檔編號G10L15/00GK101533401SQ20081017618
公開日2009年9月16日 申請日期2008年11月14日 優(yōu)先權(quán)日2008年3月11日
發(fā)明者住吉貴志, 大淵康成, 神田直之 申請人:株式會社日立制作所