聲音數(shù)據(jù)檢索系統(tǒng)以及聲音數(shù)據(jù)的檢索方法

文檔序號：2831074閱讀：528來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：聲音數(shù)據(jù)檢索系統(tǒng)以及聲音數(shù)據(jù)的檢索方法
技術(shù)領(lǐng)域：
本發(fā)明涉及從附隨TV節(jié)目或照相機影像的聲音數(shù)據(jù)、呼叫中心或會議錄等中收錄的聲音數(shù)據(jù)中，用戶根據(jù)檢索關(guān)鍵字檢測發(fā)聲了期望的聲音的區(qū)間的聲音檢測裝置及其接口。
背景技術(shù)：
伴隨近年來的存儲設(shè)備的大容量化，而可以積蓄大量的聲音數(shù) 據(jù)。在以往的大多數(shù)的聲音數(shù)據(jù)庫中，為了對聲音數(shù)據(jù)進行管理而附加對聲音進行錄音的時刻的信息，并根據(jù)該信息檢索期望的聲音數(shù) 據(jù)。但是，在基于時刻信息的檢索中，需要預(yù)先知道發(fā)聲了期望的聲音的時刻，而無法用于檢索進行了特定發(fā)聲的聲音。在檢索進行了特定發(fā)聲的聲音的情況下，需要從開始到結(jié)束為止聽取聲音。
因此，需要對聲音數(shù)據(jù)庫中的發(fā)聲了特定的關(guān)鍵字的位置進行檢測的技術(shù)。例如知道如下技術(shù)通過針對表示關(guān)鍵字的聲學(xué)性特征的聲學(xué)特征向量和聲音數(shù)據(jù)庫的聲學(xué)特征向量釆用考慮了時間伸縮的對準(zhǔn)，而在聲音數(shù)據(jù)庫中對發(fā)聲了關(guān)鍵字的位置進行檢測(專利文獻
l等)。
另外，還知道如下技術(shù)不將利用者所發(fā)聲的聲音直接作為關(guān)鍵字而用于檢索，而將存儲在關(guān)鍵字候補存儲部中的聲音模式作為關(guān)鍵字而進行聲音數(shù)據(jù)的檢索(例如專利文獻2)。
作為其它公知的方法，還實現(xiàn)了通過利用聲音識別裝置將聲音數(shù) 據(jù)變換成單詞網(wǎng)格(lattice)表現(xiàn)，并在所生成的單詞網(wǎng)格上檢索關(guān) 鍵字，而在聲音數(shù)據(jù)庫上檢索發(fā)聲了關(guān)鍵字的位置的系統(tǒng)。
在如此對發(fā)聲了關(guān)鍵字的位置進行檢測的聲音檢索系統(tǒng)中，用戶向系統(tǒng)輸入似乎在期望的聲音區(qū)間中發(fā)聲的單詞而作為檢索關(guān)鍵字。例如具有"希望搜索Ichiro接受采訪時的聲音"這樣的請求的用戶通過作為檢索鍵而進行"Ichiro采訪，，這樣的輸入，并進行聲音檢索，而檢測聲音區(qū)間。
專利文獻1:日本特開昭55 - 2205號
專利文獻2:日本特開2001 - 290496號

發(fā)明內(nèi)容
但是，在如上述以往例子那樣對發(fā)聲了關(guān)鍵字的位置進行檢測的聲音檢索系統(tǒng)中，用戶作為關(guān)鍵字而輸入的關(guān)鍵字未必在用戶所期望的聲音區(qū)間中被發(fā)聲。在上述例子中，考慮在"Ichiro接受釆訪"時的聲音中"采訪，，這樣的發(fā)聲一次也沒有進行這樣的情況。在這樣的情況下，即使用戶輸入了 "Ichiro采訪"這樣的檢索關(guān)鍵字，在對進行了 "Ichiro"、"采訪"這樣的發(fā)聲的區(qū)間進行檢測的系統(tǒng)中，用戶也無法得到期望的"Ichiro接受采訪"的聲音區(qū)間。
以往在這樣的情況下，用戶只能嘗試性地輸入似乎在期望的聲音區(qū)間中被發(fā)聲的關(guān)鍵字而進行檢索，存在直到檢索出期望的聲音區(qū)間為止的勞力較大這樣的問題。在上述例子中，用戶只能嘗試性地輸入似乎在"Ichiro接受采訪"時發(fā)聲的單詞(例如"廣播席廣播席"、"辛苦了"等)而進行檢索。
本發(fā)明是鑒于上述問題點而完成的，其目的在于，通過向用戶提示與所輸入的檢索關(guān)鍵字對應(yīng)的聲學(xué)信息特征量，而降低用戶檢索聲音數(shù)據(jù)時的鍵輸入的勞力。
本發(fā)明具備聲音數(shù)據(jù)庫，存儲聲音數(shù)據(jù)；檢索數(shù)據(jù)生成部，在進行上述聲音數(shù)據(jù)的檢索之前，從上述聲音數(shù)據(jù)生成檢索用的檢索數(shù) 據(jù)；以及檢索部，根據(jù)上述預(yù)先設(shè)定的條件檢索上述檢索數(shù)據(jù)，上述聲音數(shù)據(jù)庫將與上述聲音數(shù)據(jù)對應(yīng)的元數(shù)據(jù)附加到上述聲音數(shù)據(jù)而進行存儲，上述檢索數(shù)據(jù)生成部具有聲學(xué)信息特征量抽取部，從上述聲音數(shù)據(jù)抽取每個發(fā)聲的聲學(xué)信息特征量；對應(yīng)關(guān)系生成部，在對上述抽取的聲學(xué)信息特征量進行成簇之后，生成該成簇后的聲學(xué)信息特征量和包含在上述元數(shù)據(jù)中的單詞的對應(yīng)關(guān)系而作為上述檢索數(shù)
據(jù)；以及對應(yīng)關(guān)系存儲部，存儲上述生成的對應(yīng)關(guān)系。
另外，上述檢索部具備檢索鍵輸入部，輸入用于檢索上述聲音數(shù)據(jù)庫的檢索鍵而作為上述條件；聲音數(shù)據(jù)檢索部，檢測在上述聲音數(shù)據(jù)中被發(fā)聲了上述檢索鍵的位置；單詞/聲學(xué)信息特征量檢索部，從上述檢索數(shù)據(jù)檢索與上述檢索鍵對應(yīng)的聲學(xué)信息特征量；以及提示部，輸出上述聲音數(shù)據(jù)檢索部的檢索結(jié)果和上述單詞/聲學(xué)信息特征量檢索部的檢索結(jié)果。
因此，本發(fā)明在輸入了檢索鍵時，通過向用戶提示與該檢索鍵對應(yīng)的聲學(xué)信息特征量，可以降低用戶檢索聲音數(shù)據(jù)時的鍵輸入的勞力。

圖l示出第l實施方式，是應(yīng)用本發(fā)明的計算機系統(tǒng)的框圖。圖2示出第1實施方式，是示出聲音檢索應(yīng)用程序10的功能要素的框圖。
圖3是示出EPG信息的一個例子的說明圖。圖4示出第1實施方式，是詳細(xì)示出聲學(xué)信息特征量抽取部的功能要素的框圖。
圖5示出第1實施方式，是示出由聲音檢索應(yīng)用程序執(zhí)行的單詞 /聲學(xué)信息特征量對應(yīng)關(guān)系的生成處理的一個例子的結(jié)構(gòu)化流程圖。
圖6示出第1實施方式，是示出由聲音檢索應(yīng)用程序執(zhí)行的檢索處理的一個例子的結(jié)構(gòu)化流程圖。
圖7示出第1實施方式，是示出聲學(xué)信息特征量的種類和特征量的一個例子的說明圖。
圖8示出第1實施方式，是示出所生成的單詞/聲學(xué)信息特征量對應(yīng)關(guān)系的一個例子的說明圖，示出單詞與聲學(xué)信息特征量的對應(yīng)關(guān) 系。
圖9示出第1實施方式，是示出針對關(guān)鍵字的檢索結(jié)果的畫面圖像。
圖10示出第1實施方式，示出無針對關(guān)鍵字的檢索結(jié)果時的推
薦關(guān)鍵字的畫面圖像。
圖11示出第2實施方式，是應(yīng)用本發(fā)明的計算機系統(tǒng)的框圖。圖12示出第2實施方式，是示出與聲音數(shù)據(jù)相關(guān)的信息的一個例子的說明圖。
圖13示出第2實施方式，是示出元數(shù)據(jù)單詞串中的單詞與聲學(xué) 信息特征量的對應(yīng)關(guān)系的說明圖。
圖14示出第2實施方式，是示出關(guān)鍵字輸入部所提供的用戶接口的一個例子的畫面圖^象。
圖15示出第2實施方式，是示出針對檢索鍵的檢索結(jié)果的畫面圖像。
圖16示出第1實施方式，是示出無針對檢索鍵的檢索結(jié)果時的推薦鍵的畫面圖像。
標(biāo)號說明 1計算機
6聲音數(shù)據(jù)積蓄裝置
10聲音檢索應(yīng)用程序
100聲音數(shù)據(jù)庫
101聲音數(shù)據(jù)
102元數(shù)據(jù)單詞串
103聲學(xué)信息特征量抽取部
106單詞/聲學(xué)信息特征量對應(yīng)保管部
110單詞/聲學(xué)信息特征量檢索部
111聲學(xué)信息特征量提示部
具體實施例方式
以下，根據(jù)附圖對本發(fā)明的一個實施方式進行說明。圖1示出第1實施方式，是示出應(yīng)用本發(fā)明的計算機系統(tǒng)的結(jié)構(gòu) 的框圖。
本實施方式的計算機系統(tǒng)示出構(gòu)成記錄電視(TV)節(jié)目的影像以及聲音數(shù)據(jù)，并從聲音數(shù)據(jù)檢索包括用戶所指定的檢索關(guān)鍵字的聲音區(qū)間的聲音檢索系統(tǒng)的例子。在圖1中，計算機系統(tǒng)具備計算機l, 該計算機l具備存儲程序、數(shù)據(jù)的存儲器3;和執(zhí)行存儲在存儲器 3中的程序而進行運算處理的處理器(CPU) 2。在計算機1上，連接有接收TV廣播的TV調(diào)諧器7、記錄所接收到的TV廣播的聲音數(shù)據(jù) 和附屬數(shù)據(jù)的聲音數(shù)據(jù)積蓄裝置6、輸入檢索關(guān)鍵字和指令等的鍵盤 4、和顯示檢索關(guān)鍵字和檢索結(jié)果等的顯示裝置5。在存儲器3中載入有聲音檢索應(yīng)用程序10，并利用處理器2執(zhí)行，該聲音檢索應(yīng)用程序 10從鍵盤4接收檢索關(guān)鍵字，并從存儲在聲音數(shù)據(jù)積蓄裝置6中的聲音數(shù)據(jù)檢索出檢索關(guān)鍵字的聲音區(qū)間。另外，聲音檢索應(yīng)用程序10 如后所述包括聲學(xué)信息特征量抽取部103和聲學(xué)信息特征量提示部 111。
聲音數(shù)據(jù)積蓄裝置6具備存儲TV調(diào)諧器7所接收到的TV節(jié)目的聲音數(shù)據(jù)的聲音數(shù)據(jù)庫100，聲音數(shù)據(jù)庫100如后所述，存儲包含在TV廣播中的聲音數(shù)據(jù)101，并存儲包含在TV廣播中的附屬數(shù)據(jù) 而作為元數(shù)據(jù)單詞串102。另外，聲音數(shù)據(jù)積蓄裝置6如后所述，具備單詞/聲學(xué)信息特征量對應(yīng)保管部106,該單詞/聲學(xué)信息特征量對應(yīng) 保管部106存儲表示聲音檢索應(yīng)用程序10所生成的聲音數(shù)據(jù)101的聲學(xué)特征量與元數(shù)據(jù)單詞串102的對應(yīng)關(guān)系的單詞/聲學(xué)信息特征量對應(yīng)關(guān)系。
另外，TV調(diào)諧器7所接收到的TV節(jié)目的聲音數(shù)據(jù)101是通過計算機l的未圖示的應(yīng)用程序從TV廣播抽取聲音數(shù)據(jù)101以及元數(shù) 據(jù)單詞串102并寫入到聲音數(shù)據(jù)積蓄裝置6的聲音數(shù)據(jù)庫100而進行的。
由計算機1執(zhí)行的聲音檢索應(yīng)用程序10通過用戶利用鍵盤4指定檢索關(guān)鍵字而使用存儲在聲音數(shù)據(jù)積蓄裝置6中的TV節(jié)目中的聲音數(shù)據(jù)101，對發(fā)聲了檢索關(guān)鍵字的位置(聲音區(qū)間)進行檢測，利用顯示裝置5向用戶提示檢索結(jié)果。另外，在本實施方式中，例如將包括表示節(jié)目內(nèi)容的文本數(shù)據(jù)的EPG (Electronic Program Guide, 電子節(jié)目指南)信息用作TV廣播的附屬數(shù)據(jù)。
聲音檢索應(yīng)用程序10從作為元數(shù)據(jù)單詞串102積蓄到聲音數(shù)據(jù) 積蓄裝置6中的EPG信息抽取檢索關(guān)鍵字，從聲音數(shù)據(jù)101抽取與該檢索關(guān)鍵字對應(yīng)的聲學(xué)信息特征量，生成表示聲音數(shù)據(jù)101的聲學(xué) 特征量與元數(shù)據(jù)單詞串102的對應(yīng)關(guān)系的單詞/聲學(xué)信息特征量對應(yīng) 關(guān)系并存儲到單詞/聲學(xué)信息特征量對應(yīng)保管部106。然后，聲音檢索應(yīng)用程序10如果從鍵盤4接收到關(guān)鍵字，則從單詞/聲學(xué)信息特征量對應(yīng)保管部106的檢索關(guān)鍵字提示相應(yīng)的檢索關(guān)鍵字，恰當(dāng)?shù)匾龑?dǎo)用戶的檢索請求。另外，在以下的例子中作為元數(shù)據(jù)利用了 EPG信息，但在對節(jié)目附加了更詳細(xì)的元數(shù)據(jù)信息的情況下，還可以利用該詳細(xì) 的元數(shù)據(jù)信息。
在本實施方式中處理的聲音數(shù)據(jù)庫100由從多個TV節(jié)目抽取的聲音數(shù)據(jù)101構(gòu)成，各個聲音數(shù)據(jù)101中附有附加在抽取出該聲音數(shù) 據(jù)的TV節(jié)目中EPG信息而作為元數(shù)據(jù)單詞串102。
EPG信息201如圖3所示，由多個關(guān)鍵字、字幕信息等文章構(gòu) 成。由聲音檢索應(yīng)用程序10使用詞素分析處理將這些字符串變換成單詞串。其結(jié)果，抽取出"激烈辯論，，202、"參議院竟選，，203、"采訪，，204 等而作為元數(shù)據(jù)單詞串。由聲音檢索應(yīng)用程序10進行的詞素分析處理使用公知或周知的方法即可，所以此處省略詳細(xì)說明。
接下來，圖2是示出聲音檢索應(yīng)用程序IO的功能要素的框圖。聲音檢索應(yīng)用程序10以規(guī)定的定時(例如錄音完成的時刻等)，根據(jù)聲音數(shù)據(jù)101和元數(shù)據(jù)單詞串102生成單詞/聲學(xué)信息特征量對應(yīng)關(guān) 系并存儲到聲音數(shù)據(jù)積蓄裝置6的單詞/聲學(xué)信息特征量對應(yīng)保管部 106。
聲音檢索應(yīng)用程序10被大致分成生成單詞/聲學(xué)信息特征量對應(yīng) 關(guān)系的模塊(103 ~ 106 )和使用單詞/聲學(xué)信息特征量對應(yīng)關(guān)系來進行聲音數(shù)據(jù)101的檢索的模塊(107~111)。
生成單詞/聲學(xué)信息特征量對應(yīng)關(guān)系的模塊包括聲學(xué)信息特征量抽取部103，將聲音數(shù)據(jù)101分割成發(fā)聲單位，抽取各發(fā)聲的聲學(xué) 特征量；發(fā)聲/聲學(xué)信息特征量保管部104，存儲發(fā)聲單位的聲學(xué)信息特征量；單詞/聲學(xué)信息特征量對應(yīng)部105，抽取每個發(fā)聲的聲學(xué)信息特征量與EPG信息的元數(shù)據(jù)單詞串102的關(guān)系；以及單詞/聲學(xué)信息特征量對應(yīng)保管部106，存儲所抽取的元數(shù)據(jù)單詞串102和聲學(xué)信息特征量。
進行檢索的模塊包括關(guān)鍵字輸入部107，提供接收用戶從鍵盤 4輸入的檢索關(guān)鍵字(或者聲音檢索請求)的接口；聲音檢索部108, 對在聲音數(shù)據(jù)101上發(fā)聲了用戶所輸入的關(guān)鍵字的位置進行檢測；聲音檢索結(jié)果提示部109，在檢測到在聲音數(shù)據(jù)101上發(fā)聲了關(guān)鍵字的位置的情況下向顯示裝置5輸出該位置；單詞/聲學(xué)信息特征量檢索部 110，在未檢測到在聲音數(shù)據(jù)101上發(fā)聲了關(guān)鍵字的位置的情況下，從單詞/聲學(xué)信息特征量對應(yīng)保管部106檢索與關(guān)鍵字對應(yīng)的元數(shù)據(jù)
單詞串102和聲學(xué)信息特征量；以及聲學(xué)信息特征量提示部111，向顯示裝置5輸出與關(guān)鍵字相應(yīng)的元數(shù)據(jù)單詞串102和聲學(xué)信息特征
以下，對聲音檢索應(yīng)用程序10的各部進行說明。
首先，將聲音數(shù)據(jù)101分割成發(fā)聲單位，并抽取各發(fā)聲的聲學(xué)信息特征量的聲學(xué)信息特征量抽取部103如圖4所示構(gòu)成。
在聲學(xué)信息特征量抽取部103中，聲音分割部301從聲音數(shù)據(jù)庫 100讀入所指定的聲音數(shù)據(jù)101并針對每個發(fā)聲進行分割。將聲音數(shù) 據(jù)101分割成發(fā)聲單位的處理可以通過當(dāng)聲音的功率在一定期間中成為一定值以下時視為發(fā)聲結(jié)束而實現(xiàn)。
接下來，聲學(xué)信息特征量抽取部103針對各發(fā)聲的每一個，抽取聲音識別結(jié)果信息、聲學(xué)性講話者特征信息、發(fā)聲長度信息、韻律信息、講話者更換信息、講話音量信息、背景音信息中的任意一個、或其組合而作為聲學(xué)信息特征量，并保存到發(fā)聲/聲學(xué)信息特征量保管部104。以下敘述用于取得各個信息的單元和特征量的形式。
聲音識別結(jié)果信息是通過利用聲音識別器302將聲音數(shù)據(jù)101
變換成單詞串而得到的。聲音識別回到在將聲音數(shù)據(jù)101的聲音波形
設(shè)為X，并將元數(shù)據(jù)單詞串102的單詞串設(shè)為W時用下式表示的后
驗概率最大化搜索問題。式(1)
<formula>formula see original document page 14</formula>
上述式根據(jù)從大量的學(xué)習(xí)數(shù)據(jù)學(xué)習(xí)的聲學(xué)模型和語言模型進行搜索。另外，關(guān)于這些聲音識別的方法，恰當(dāng)使用公知或周知的技術(shù) 即可，所以此處省略i兌明。
將利用聲音識別器302得到的單詞串的各單詞的存在頻度用作聲學(xué)信息特征量(聲音識別結(jié)果信息)。另外，也可以與使用聲音識別器302得到的單詞串附隨地抽取并利用發(fā)聲整體的聲音識別評分、各單詞的每一個的可靠性等。進而還可以將"廣播席廣播席，，這樣的多
個單詞的組合用作聲學(xué)信息特征量。
聲學(xué)性講話者特征信息是利用講話者信息特征量抽取部303得到的。講話者信息特征量抽取部303預(yù)先收錄多個(N人的)講話者的聲音，并利用混合高斯分布模型GMM ( Gaussian Mixture Model) 來對這些聲音進行才莫型化。如果輸入了發(fā)聲X，則講話者信息特征量
抽取部303針對各個混合高斯分布模型GMMi (i = l.....N)的每
一個，根據(jù)各混合高斯分布模型GMMi求出生成了發(fā)聲的概率P
(X|GMMi)，而得到N維的特征量。講話者信息特征量抽取部303 將其作為該發(fā)聲的聲學(xué)性講話者特征信息而輸出。
發(fā)聲長度信息是通過利用發(fā)聲長度抽取部304針對各發(fā)聲的每一個測量該發(fā)聲所繼續(xù)的時間而得到的。另外，還可以將比某值短的發(fā)聲分類成"短"、將比某值長的發(fā)聲分類成"長"、將除此以外的發(fā)聲分類成"通常"，由此設(shè)為3值的特征量。
韻律特征量信息是通過利用韻律信息抽取部306抽取該發(fā)聲的基本頻率分量之后，分類成基本頻率分量在發(fā)聲的詞尾是上升、還是下降、還是平坦的3值并設(shè)為特征量而得到的?；绢l率分量的抽取處理應(yīng)用公知或周知的方法即可，所以省略詳細(xì)說明。另外，還可以使用離散性參數(shù)來表現(xiàn)該發(fā)聲的韻律特征。
講話者更換信息是利用講話者更換信息抽取部307得到的。講話者更換信息是表現(xiàn)該發(fā)聲前的發(fā)聲是否為同一人物的特征量，詳細(xì)而言是通過如果表現(xiàn)聲學(xué)性講話者特征信息的N維特征量在該發(fā)聲和之前的發(fā)聲中相差規(guī)定的閾值以上則判定成不同的人物、否則判定成同一人物而得到的。另外，還可以利用與上述同樣的方法得到該發(fā)聲與之后的發(fā)聲是否為同一人物，而可以用作特征量。進而，還可以將在該發(fā)聲前后一定區(qū)間內(nèi)是否存在什么人的發(fā)聲這樣的信息用作特征量。
發(fā)聲音量信息是由發(fā)聲音量抽取部305利用該發(fā)聲的最大功率與該聲音數(shù)據(jù)101中包含的發(fā)聲的最大功率的平均之比來表現(xiàn)的。當(dāng) 然也可以對該發(fā)聲的平均功率與該聲音數(shù)據(jù)中的發(fā)聲的平均功率進行比較等。
背景音信息是利用背景音抽取部309得到的。作為背景音，利用表示在該發(fā)聲中是否發(fā)生了鼓掌音、歡呼聲、音樂、無音等這樣的信息、表示是否在該發(fā)聲的前時刻、后時刻發(fā)生這樣的信息。此處，為了判定鼓掌音、歡呼聲、音樂、無音等的存在，首先準(zhǔn)備各個音，并使用混合高斯分布模型GMM等進行模型化。如果輸入了聲音，則根據(jù)各個混合高斯分布模型GMM求出生成上述聲音的概率P (XIGMMi)，在該值超過一定值的情況下，背景音抽取部309判定為存在該背景音。背景音抽取部309針對鼓掌音、歡呼聲、音樂、無音分別輸出存在/不存在的信息而作為表示背景音信息的特征量。
在聲學(xué)信息特征量抽取部103中，通過實施上述處理，針對聲音數(shù)據(jù)庫100內(nèi)的聲音數(shù)據(jù)101，得到發(fā)聲和表示該發(fā)聲的聲學(xué)信息特征量的組。使用聲學(xué)信息特征量抽取部103得到的特征量如圖7所示。在圖7中，聲學(xué)信息特征量的種類與所抽取的特征量401成對，而存儲到發(fā)聲/聲學(xué)信息特征量保管部104。另外，當(dāng)然還可以利用上述中未記述的聲學(xué)信息特征量。
接下來，圖2所示的單詞/聲學(xué)信息特征量對應(yīng)部105抽取使用上述聲學(xué)信息特征量抽取部103得到的聲學(xué)信息特征量與抽取了 EPG信息的元數(shù)據(jù)單詞串102中的單詞的對應(yīng)。
在以下的說明中作為元數(shù)據(jù)單詞串102的一個例子，在EPG信息中單詞/聲學(xué)信息特征量對應(yīng)部105注目于任意選擇的單詞(以下稱為"注目單詞")，抽取注目單詞與聲學(xué)信息特征量的對應(yīng)。另外在本實施方式中作為注目單詞而選擇了 EPG信息中的一個單詞，但其也可以是EPG信息中的單詞的組。
在單詞/聲學(xué)信息特征量對應(yīng)部105中，首先以發(fā)聲單位對使用上述聲學(xué)信息特征量抽取部103得到的每個發(fā)聲的聲學(xué)信息特征量進行成簇。成簇可以使用層次性成簇方法。以下示出使用單詞/聲學(xué)信息特征量對應(yīng)部105進行的成簇的處理步驟的一個例子。
(i) 將所有發(fā)聲設(shè)為一個簇，將從該發(fā)聲得到的聲學(xué)信息特征量設(shè)為代表該發(fā)聲的聲學(xué)信息特征量。
(ii) 求出各簇的聲學(xué)信息特征量的向量間的距離，對這些向量中距離最短的簇進行合并。此處簇間的距離可以使用代表簇的聲學(xué)信息特征量集合間的余弦距離等。另外如果全部特征量被數(shù)值化，則還可以4吏用馬哈拉諾比斯(Mahalanobis )距離等。將合并前的2個簇中共用的聲學(xué)信息特征量設(shè)為代表合并后的簇的聲學(xué)信息特征量。
(iii) 重復(fù)上述(ii),在所有各簇間的距離成為一定值(規(guī)定值)以上的時刻結(jié)束合并。
接下來，單詞/聲學(xué)信息特征量對應(yīng)部105抽取通過上述操作得到的簇中的僅由"在EPG信息中包括注目單詞的聲音發(fā)聲"構(gòu)成的簇。單詞/聲學(xué)信息特征量對應(yīng)部105生成將注目單詞與代表所抽取的簇的聲學(xué)信息特征量集合對應(yīng)關(guān)聯(lián)的信息而作為單詞/聲學(xué)信息特征量對應(yīng)關(guān)系，存儲到單詞/聲學(xué)信息特征量對應(yīng)保管部106。單詞/聲學(xué)信息特征量對應(yīng)部105針對成為對象的聲音數(shù)據(jù)101的元數(shù)據(jù)單詞串 102 (EPG信息)的所有單詞，將各個作為注目單詞而進行上述處理，而生成單詞/聲學(xué)信息特征量對應(yīng)關(guān)系。此時，在單詞/聲學(xué)信息特征
量對應(yīng)保管部106中如圖8所示保存有單詞/聲學(xué)信息特征量對應(yīng)關(guān)系的數(shù)據(jù)。在圖8中，單詞/聲學(xué)信息特征量對應(yīng)關(guān)系501存儲了與元數(shù) 據(jù)單詞串102的單詞對應(yīng)的聲學(xué)信息特征量，所以聲學(xué)信息特征量如上所述，包括聲音識別結(jié)果信息、聲學(xué)性講話者特征信息、發(fā)聲長度信息、韻律信息、講話者更換信息、發(fā)聲音量信息、背景音信息中的任意一個。
另外，在上述中，示出了對成為對象的聲音數(shù)據(jù)101的元數(shù)據(jù)單詞串102的所有單詞進行上述處理的例子，但也可以對元數(shù)據(jù)單詞串 102的單詞的一部分進行上述處理。
通過以上處理，聲音檢索應(yīng)用程序10生成從聲音數(shù)據(jù)庫100的聲音數(shù)據(jù)101抽取的每個發(fā)聲的聲學(xué)信息特征量與元數(shù)據(jù)單詞串102 的EPG信息中包含的單詞的對應(yīng)關(guān)系而作為單詞/聲學(xué)信息特征量對應(yīng)關(guān)系501，并存儲到單詞/聲學(xué)信息特征量對應(yīng)保管部106。聲音檢索應(yīng)用程序IO進行上述處理而作為利用聲音檢索系統(tǒng)的預(yù)處理。
圖5是表示上述聲音檢索應(yīng)用程序10所執(zhí)行的單詞/聲學(xué)信息特征量對應(yīng)關(guān)系的生成處理的步驟的一個例子的PAD (Problem Analysis Diagram,問題分析圖)。該處理是在成為規(guī)定的定時(聲音數(shù)據(jù)的錄音完成或用戶的指令)時執(zhí)行的。
首先，在步驟S103中，聲學(xué)信息特征量抽取部103從聲音數(shù)據(jù) 庫100讀入利用圖4所示的聲音分割部301指定的聲音數(shù)據(jù)101并針對每個發(fā)聲進行分割，針對各發(fā)聲的每一個作為聲學(xué)信息特征量，抽取聲音識別結(jié)果信息、聲學(xué)性講話者特征信息、發(fā)聲長度信息、韻律信息、講話者更換信息、發(fā)聲音量信息、背景音信息中的任意一個、或其組合。接下來，在步驟S104中，聲學(xué)信息特征量抽取部103向發(fā)聲/聲學(xué)信息特征量保管部104保存所抽取的每個發(fā)聲的聲學(xué)信息
特征量。
接下來，在步驟S105中，上述圖2所示的單詞/聲學(xué)信息特征量對應(yīng)部105抽取存儲在發(fā)聲/聲學(xué)信息特征量保管部104中的每個發(fā)聲的聲學(xué)信息特征量與抽取出EPG信息的元數(shù)據(jù)單詞串102中的單詞的對應(yīng)關(guān)系。該步驟S105的處理是在上述單詞/聲學(xué)信息特征量對應(yīng) 部105中敘述的處理，由以發(fā)聲單位層次性地對每個發(fā)聲的聲學(xué)信息特征量進行成簇的處理(步驟S310 )、和生成將上述的元數(shù)據(jù)單詞串 102中的注目單詞與代表簇的聲學(xué)信息特征量集合對應(yīng)關(guān)聯(lián)的信息而作為單詞/聲學(xué)信息特征量對應(yīng)關(guān)系的處理(步驟S311)構(gòu)成。然后，
聲音檢索應(yīng)用程序10向單詞/聲學(xué)信息特征量對應(yīng)保管部106存儲所生成的單詞/聲學(xué)信息特征量對應(yīng)關(guān)系。
通過以上處理，聲音檢索應(yīng)用程序IO針對每個聲音數(shù)據(jù)101將
所檢索的單詞信息與聲學(xué)信息特征量相關(guān)聯(lián)。
在以下的說明中，對用戶輸入了檢索關(guān)鍵字時的聲音檢索應(yīng)用程序10的處理進行敘述。
關(guān)鍵字輸入部107接收用戶從鍵盤4輸入的關(guān)鍵字和檢索對象的聲音數(shù)據(jù)101，如下所述進行處理。另外，作為此處的關(guān)鍵字輸入部 107，除了從鍵盤4輸入的文本數(shù)據(jù)以外，還可以利用聲音識別器。
首先，聲音檢索部108取得用戶從關(guān)鍵字輸入部107輸入的關(guān)鍵字和聲音數(shù)據(jù)101，從聲音數(shù)據(jù)庫100讀入所指定的聲音數(shù)據(jù)101。然后，聲音檢索部108對在聲音數(shù)據(jù)101上發(fā)聲了用戶的關(guān)鍵字的位置(發(fā)聲位置)進行檢測。在對關(guān)鍵字輸入部107輸入了多個關(guān)鍵字的情況下，聲音檢索部108檢測出這些關(guān)鍵字在時間軸上比預(yù)先規(guī)定的時間范圍更近的時刻發(fā)生的區(qū)間而作為發(fā)聲位置。關(guān)鍵字的發(fā)聲位置檢測例如可以使用上述專利文獻1等中記載的^^知或周知的方法來進行。
另外，在發(fā)聲/聲學(xué)信息特征量保管部104中作為聲音識別信息特征量而針對每個發(fā)聲包含有進行聲音識別的結(jié)果的單詞，聲音檢索部108也可以將該聲音識別結(jié)果與關(guān)鍵字相一致的發(fā)聲作為檢索結(jié) 果。
在聲音檢索部108中，在從聲音數(shù)據(jù)101檢測出發(fā)聲了用戶所輸入的關(guān)鍵字的位置的情況下，利用聲音檢索結(jié)果提示部109向顯示裝置5輸出發(fā)聲位置而向用戶提示該位置。聲音檢索結(jié)果提示部109向顯示裝置5輸出的內(nèi)容如圖9所示，顯示用戶所輸入的關(guān)鍵字"Ichiro采訪，，和所檢索到的發(fā)聲位置。在該例子中，示出使用包括發(fā)聲位置的聲音區(qū)間的聲音識別信息特征量即聲音識別來進行顯示的情況。
另一方面，在聲音檢索部108中，在無法從聲音數(shù)據(jù)101上檢測出發(fā)聲了從用戶指定的關(guān)鍵字的位置的情況下，單詞/聲學(xué)信息特征量檢索部110針對各個關(guān)鍵字的每一個，對單詞/聲學(xué)信息特征量對應(yīng)保管部106進行檢索，如果用戶所輸入的關(guān)鍵字已登記在單詞/聲學(xué)信息特征量對應(yīng)關(guān)系，則進行抽取。
此處，在單詞/聲學(xué)信息特征量檢索部110從單詞/聲學(xué)信息特征量對應(yīng)保管部106檢測出與用戶指定的關(guān)鍵字對應(yīng)的聲學(xué)信息特征量(聲音識別結(jié)果信息、聲學(xué)性講話者特征信息、發(fā)聲長度信息、韻律信息、講話者更換信息、發(fā)聲音量信息、背景音信息)的情況下，聲學(xué)信息特征量提示部111向用戶提示所檢測出的聲學(xué)信息特征量而作為所推薦的檢索關(guān)鍵字。例如，在相對"采訪"這樣的單詞，作為聲學(xué)信息特征量而包含有"廣播席廣播席"、"辛苦了，，這樣的單詞對的情況下，聲學(xué)信息特征量提示部111在顯示裝置5上如圖IO所示向用戶提示該單詞對。
另外，在提示與關(guān)鍵字對應(yīng)的聲學(xué)信息特征量時，根據(jù)各個聲學(xué)信息特征量進行聲音數(shù)據(jù)的檢索，優(yōu)先向用戶提示聲音數(shù)據(jù)庫100中存在的概率高的聲學(xué)信息特征量即可。
用戶可以根據(jù)利用聲學(xué)信息特征量提示部111向顯示裝置5提示的信息來追加檢索關(guān)鍵字，可以高效地進行聲音數(shù)據(jù)的檢索。
聲學(xué)信息特征量提示部111優(yōu)選具有用戶可以容易地指定各個聲學(xué)信息特征量的接口，并在用戶指定了某個聲學(xué)信息特征量時，在檢索請求中包含該聲學(xué)信息特征量。
另外聲學(xué)信息特征量提示部in在抽取出與用戶的檢索請求一
致的聲音數(shù)據(jù)101的情況下，也可以提示與用戶的檢索關(guān)鍵字對應(yīng)的聲學(xué)信息特征量。另外，如果在聲音檢索應(yīng)用程序10中具備圖8所示的對單詞與聲學(xué)信息特征量的組進行編輯的單詞/聲學(xué)信息特征量編輯部，則用戶可以登記自己經(jīng)常檢索的單詞與聲學(xué)信息特征量的組，可以提高操作性。
圖6是示出聲音檢索應(yīng)用程序10所執(zhí)行的上述關(guān)鍵字輸入部107 ~聲學(xué)信息特征量提示部111的處理步驟的一個例子的PAD (結(jié)構(gòu)化流程圖)。
首先，在步驟S107中，聲音檢索應(yīng)用程序10接收從鍵盤4輸入的關(guān)鍵字和檢索對象的聲音數(shù)據(jù)101。
接下來，在步驟S108中聲音檢索應(yīng)用程序IO利用上述的聲音檢索部108，針對用戶所輸入的關(guān)鍵字，對在聲音數(shù)據(jù)101上發(fā)聲的位置(發(fā)聲位置)進行檢測。
在從聲音數(shù)據(jù)101檢測出發(fā)聲了用戶所輸入的關(guān)鍵字的位置的情況下，聲音檢索應(yīng)用程序10在步驟S109中，利用聲音檢索結(jié)果提示部109向顯示裝置5輸出發(fā)聲位置而向用戶提示該位置。
另一方面，在步驟SllO中，在聲音檢索應(yīng)用程序IO無法在聲音數(shù)據(jù)101上檢測出發(fā)聲了從用戶指定的關(guān)鍵字的位置的情況下，上述的單詞/聲學(xué)信息特征量檢索部110針對各個關(guān)鍵字的每一個，對單詞/聲學(xué)信息特征量對應(yīng)保管部106進行檢索，而掃描用戶所輸入的關(guān)鍵字是否登記在單詞/聲學(xué)信息特征量對應(yīng)關(guān)系中。
在聲音檢索應(yīng)用程序10在從單詞/聲學(xué)信息特征量對應(yīng)保管部106利用單詞/聲學(xué)信息特征量檢索部110檢測出與由用戶指定的關(guān)鍵字對應(yīng)的聲學(xué)信息特征量(聲音識別結(jié)果)的情況下，進入到步驟Slll，向用戶提示使用上述的聲學(xué)信息特征量提示部lll檢測出的聲學(xué)信息特征量而作為所推薦的檢索關(guān)鍵字。
通過以上處理，可以針對用戶所輸入的檢索關(guān)鍵字，向用戶提示元數(shù)據(jù)單詞串102的EPG信息中包含的單詞而作為推薦關(guān)鍵字。
這樣，在本發(fā)明中，向聲音數(shù)據(jù)庫100存儲附加了元數(shù)據(jù)單詞串102的多個聲音數(shù)據(jù)101，檢索應(yīng)用程序IO抽取聲音識別結(jié)果信息、聲學(xué)性講話者特征信息、發(fā)聲長信息、韻律特征信息、講話者更換信
息、發(fā)聲音量信息、背景音信息等而作為表現(xiàn)聲音數(shù)據(jù)ioi的聲學(xué)信
息特征量。然后，檢索應(yīng)用程序10在所得到的聲學(xué)信息特征量的子
集合中，僅從元數(shù)據(jù)單詞串102中包含的聲音數(shù)據(jù)101抽取特定的單
詞，而抽取不從除此以外的聲音數(shù)據(jù)101抽取那樣的聲學(xué)信息特征量
的集合。將該特定的單詞與上述中抽取的聲學(xué)信息特征量的集合對應(yīng)
關(guān)聯(lián)而作為單詞/聲學(xué)信息特征量對應(yīng)關(guān)系并保管。針對元數(shù)據(jù)中的所
有單詞進行針對上述特定單詞的聲學(xué)信息特征量的集合抽取，求出這些單詞與聲學(xué)信息特征量的集合的組合而作為單詞/聲學(xué)信息特征量
對應(yīng)關(guān)系，并存儲到單詞/聲學(xué)信息特征量對應(yīng)保管部106。在用戶所
輸入的檢索關(guān)鍵字中存在與使用單詞/聲學(xué)信息特征量對應(yīng)關(guān)系求出
的單詞一致的單詞的情況下，向用戶提示與該單詞對應(yīng)的聲學(xué)信息特
征量的集合。
由此，在對發(fā)聲了檢索鍵關(guān)鍵字的位置進行檢測的聲音檢索系統(tǒng)中，用戶作為檢索鍵而輸入的關(guān)鍵字未必在用戶所期望的聲音區(qū)間中被發(fā)聲，但通過使用本發(fā)明，無需嘗試性地輸入檢索關(guān)鍵字，而通過利用與對顯示裝置5提示的單詞對應(yīng)的聲學(xué)信息特征量的集合，可以大幅降低聲音數(shù)據(jù)的檢索所需的勞力。(第2實施方式)
在上述實施方式l中，輸入關(guān)鍵字而作為檢索鍵，在聲學(xué)信息特征量提示部111中，向顯示裝置5進行聲音識別結(jié)果信息特征量的提示。與其相對，在第2實施方式中，示出如下的聲音檢索系統(tǒng)作為檢索鍵，除了關(guān)鍵字以外，還輸入聲學(xué)性講話者特征信息、發(fā)聲長度、韻律特征量、講話者更換信息、發(fā)聲音量信息、背景音信息中的任意一個，使用這些檢索鍵來進行聲學(xué)信息特征量的檢索。
本實施方式的聲音檢索系統(tǒng)示出如圖11所示代替上述實施方式1的圖1所示的TV調(diào)諧器7,而從經(jīng)由網(wǎng)絡(luò)8與計算機1連接的服務(wù)器9取得聲音數(shù)據(jù)101的例子。計算機1根據(jù)用戶的指示從服務(wù)器9取得聲音數(shù)據(jù)101，并存儲到聲音數(shù)據(jù)積蓄裝置6。在本實施方式中，將會議錄聲音用作聲音數(shù)據(jù)101。在會議錄聲音中如圖12所示，分別附加有文件名702、出席者名703和聲音ID701。通過針對該聲音數(shù)據(jù)101進行詞素分析處理，可以抽取"產(chǎn)品A，，702、"山田太郎，，703這樣的單詞。以下，示出將通過詞素分析處理從聲音數(shù)據(jù)IOI抽取的單詞用作元數(shù)據(jù)單詞串102的例子。另外，還可以在會議錄聲音收錄時發(fā)聲文件名或出席者名，通過利用上述第
名702和出席者名703，而通過與上述同樣的處理來抽取元數(shù)據(jù)單詞串102。
聲學(xué)信息特征量抽取部103在用戶輸入檢索鍵信息之前與上述第1實施方式同樣地，從聲音數(shù)據(jù)IOI針對各發(fā)聲的每一個抽取聲音識別結(jié)果信息、聲學(xué)性講話者特征信息、發(fā)聲長度信息、韻律信息、講話者更換信息、發(fā)聲音量信息、背景音信息中的任意一個、或其組合而作為聲學(xué)信息特征量。進而，單詞/聲學(xué)信息特征量對應(yīng)部105抽取使用上述聲學(xué)信息特征量抽取部103得到的聲學(xué)信息特征量與元數(shù)據(jù)單詞串102中的單詞的對應(yīng)，保管到單詞/聲學(xué)信息特征量對應(yīng)保管部106。它們的詳細(xì)內(nèi)容與上述第1實施方式中示出的內(nèi)容相同，所以省略重復(fù)的說明。
其結(jié)果，得到圖13所示的元數(shù)據(jù)單詞串102中的單詞與聲學(xué)信息特征量的對應(yīng)關(guān)系，并保管到單詞/聲學(xué)特征量對應(yīng)保管部106。
在本實施方式中，除了單詞/聲學(xué)信息特征量對應(yīng)關(guān)系以外，還將上述發(fā)聲與聲學(xué)信息特征量的組保管到發(fā)聲/聲學(xué)信息特征量保管部104。
到此為止是在用戶輸入檢索鍵以前結(jié)束的處理。以下，對用戶輸入了檢索鍵時的聲音檢索應(yīng)用程序10的處理進行敘述。
除了關(guān)鍵字以外，用戶還可以輸入聲學(xué)性講話者特征信息、發(fā)聲長度、韻律特征量、講話者更換信息、發(fā)聲音量信息、背景音信息中的任意一個而作為檢索鍵。因此，例如關(guān)鍵字輸入部107具備圖14所示的接口。如果用戶從圖14中示出的用戶接口輸入了檢索鍵，則聲音檢索應(yīng)用程序IO使用聲音檢索部108檢測出與該檢索鍵最符合的聲音區(qū)間。為此，在發(fā)聲/聲學(xué)信息特征量保管部104中，搜索保管成檢索鍵的聲學(xué)信息量所符合的發(fā)聲即可。
如果檢測出與檢索鍵符合的發(fā)聲，則聲音檢索應(yīng)用程序10將該發(fā)聲作為檢索結(jié)果而從顯示裝置5向用戶提示如圖15中示出的輸出。
另一方面，聲音檢索應(yīng)用程序IO在未檢測出與檢索鍵符合的發(fā)聲、且該檢索鍵中包含有單詞的情況下，對單詞/聲學(xué)信息特征量對應(yīng)保管部106進行檢索，而檢索出與該檢索鍵中的單詞對應(yīng)的聲學(xué)信息特征量。在檢索出與所輸入的檢索鍵符合的聲學(xué)信息特征量的情況下，通過如圖16中所示向顯示裝置5輸出該聲學(xué)信息特征量而向用戶提示。
這樣，用戶通過指定聲音檢索系統(tǒng)向顯示裝置5提示的如圖16中示出的聲學(xué)信息特征量，可以檢索出期望的聲音區(qū)間，可以省略如上述以往例那樣嘗試性地輸入檢索鍵的麻煩。(產(chǎn)業(yè)上的可利用性)
如上所述，根據(jù)本發(fā)明，可以應(yīng)用于檢索聲音數(shù)據(jù)的聲音檢索系統(tǒng)，進而可以應(yīng)用于內(nèi)容的錄像裝置、會議系統(tǒng)等利用聲音數(shù)據(jù)的裝置。
權(quán)利要求
1. 一種聲音數(shù)據(jù)檢索系統(tǒng)，其特征在于，具備聲音數(shù)據(jù)庫，存儲聲音數(shù)據(jù)；檢索數(shù)據(jù)生成部，在進行上述聲音數(shù)據(jù)的檢索之前，從上述聲音數(shù)據(jù)生成檢索用的檢索數(shù)據(jù)；以及檢索部，根據(jù)上述預(yù)先設(shè)定的條件檢索上述檢索數(shù)據(jù)，上述聲音數(shù)據(jù)庫將與上述聲音數(shù)據(jù)對應(yīng)的元數(shù)據(jù)附加到上述聲音數(shù)據(jù)而進行存儲，上述檢索數(shù)據(jù)生成部具有聲學(xué)信息特征量抽取部，從上述聲音數(shù)據(jù)抽取每個發(fā)聲的聲學(xué)信息特征量；對應(yīng)關(guān)系生成部，在對上述抽取的聲學(xué)信息特征量進行成簇之后，生成該成簇后的聲學(xué)信息特征量和包含在上述元數(shù)據(jù)中的單詞的對應(yīng)關(guān)系而作為上述檢索數(shù)據(jù)；以及對應(yīng)關(guān)系存儲部，存儲上述生成的對應(yīng)關(guān)系。
2. 根據(jù)權(quán)利要求1所述的聲音數(shù)據(jù)檢索系統(tǒng)，其特征在于，上述檢索部具備檢索鍵輸入部，輸入用于檢索上述聲音數(shù)據(jù)庫的檢索鍵而作為上述條件；聲音數(shù)據(jù)檢索部，檢測在上述聲音數(shù)據(jù)中被發(fā)聲了上述檢索鍵的位置；單詞/聲學(xué)信息特征量檢索部，從上述檢索數(shù)據(jù)檢索與上述檢索鍵對應(yīng)的聲學(xué)信息特征量；以及提示部，輸出上述聲音數(shù)據(jù)檢索部的檢索結(jié)果和上述單詞/聲學(xué) 信息特征量檢索部的檢索結(jié)果。
3. 根據(jù)權(quán)利要求l所述的聲音數(shù)據(jù)檢索系統(tǒng)，其特征在于，上述聲學(xué)信息特征量抽取部具有聲音分割部，針對每個發(fā)聲分割上述聲音數(shù)據(jù)；聲音識別部，針對上述每個發(fā)聲對上述聲音數(shù)據(jù)進行聲音識別，作為聲音識別結(jié)果信息而輸出單詞串；講話者信息特征量抽取部，將預(yù)先設(shè)定的聲音模型與上述聲音數(shù) 據(jù)進行比較，抽取包含在聲音數(shù)據(jù)中的每個發(fā)聲的講話者的特征量而作為聲學(xué)性講話者特征信息；發(fā)聲長度抽取部，抽取包含在上述聲音數(shù)據(jù)中的發(fā)聲的長度而作為發(fā)聲長度信息；韻律信息抽取部，抽取包含在上述聲音數(shù)據(jù)中的每個發(fā)聲的韻律而作為韻律信息；講話者更換信息抽取部，作為表示上述聲音數(shù)據(jù)中的發(fā)聲是否為同一人物的特征量從上述聲音數(shù)據(jù)抽取講話者更換信息；發(fā)聲音量抽取部，抽取包含在上述聲音數(shù)據(jù)中的每個發(fā)聲的音量而作為發(fā)聲音量信息；以及背景音抽取部，抽取包含在上述聲音數(shù)據(jù)中的背景音而作為背景音信息，輸出上述聲音識別結(jié)果信息、聲學(xué)性講話者特征信息、發(fā)聲長度信息、韻律信息、講話者更換信息、發(fā)聲音量信息、背景音信息中的至少一個。
4. 根據(jù)權(quán)利要求2所述的聲音數(shù)據(jù)檢索系統(tǒng)，其特征在于，上述提示部具有聲學(xué)信息特征量提示部，該聲學(xué)信息特征量提示部輸出由上述單詞/聲學(xué)信息特征量檢索部檢索出的聲學(xué)信息特征量。
5. 根據(jù)權(quán)利要求4所述的聲音數(shù)據(jù)檢索系統(tǒng)，其特征在于，上述聲學(xué)信息特征量提示部包括聲學(xué)信息特征量提示部，優(yōu)先輸出由上述單詞/聲學(xué)信息特征量檢索部檢索出的聲學(xué)信息特征量中的、上述聲音數(shù)據(jù)中存在的概率高的聲學(xué)信息特征量。
6. 根據(jù)權(quán)利要求5所述的聲音數(shù)據(jù)檢索系統(tǒng)，其特征在于，還具備指定作為檢索對象的聲音數(shù)據(jù)的聲音數(shù)據(jù)指定部，上述聲學(xué)信息特征量提示部優(yōu)先輸出由上述單詞/聲學(xué)信息特征量檢索部檢索出的聲學(xué)信息特征量中的、被指定成檢索對象的聲音數(shù)據(jù)中存在的概率高的聲學(xué)信息特征量。
7. 根據(jù)權(quán)利要求1所述的聲音數(shù)據(jù)檢索系統(tǒng)，其特征在于，上述單詞/聲學(xué)信息特征量保管部具有對上述聲學(xué)信息特征量的組進行追加、刪除、編輯的單詞/聲學(xué)信息特征量編輯部。
8. 根據(jù)權(quán)利要求3所述的聲音數(shù)據(jù)檢索系統(tǒng)，其特征在于，上述檢索部具有輸入用于檢索上述聲音數(shù)據(jù)庫的檢索鍵的檢索鍵輸入部，上述檢索鍵輸入部接收關(guān)鍵字、上述聲學(xué)性講話者特征信息、上述發(fā)聲長度信息、上述韻律信息、上述講話者更換信息、上述發(fā)聲音量信息和上述背景音信息中的至少一個。
9. 一種聲音數(shù)據(jù)的檢索方法，其是計算機以預(yù)先設(shè)定的條件針對存儲在聲音數(shù)據(jù)庫中的聲音數(shù)據(jù)進行上述聲音數(shù)據(jù)的檢索的聲音數(shù)據(jù)的檢索方法，其特征在于，包括如下的步驟在進行上述聲音數(shù)據(jù)的檢索之前，計算機從上述聲音數(shù)據(jù)生成檢索用的檢索數(shù)據(jù)的步驟；以及上述計算機根據(jù)上述預(yù)先設(shè)定的條件檢索上述檢索數(shù)據(jù)的步驟，上述聲音數(shù)據(jù)庫將與上述聲音數(shù)據(jù)對應(yīng)的元數(shù)據(jù)附加到上述聲音數(shù)據(jù)而進行存儲，從上述聲音數(shù)據(jù)生成檢索用的檢索數(shù)據(jù)的步驟包括從上述聲音數(shù)據(jù)抽取每個發(fā)聲的聲學(xué)信息特征量的步驟；在對上述抽取的聲學(xué)信息特征量進行成簇之后，生成該成簇后的聲學(xué)信息特征量與包含在上述元數(shù)據(jù)中的單詞的對應(yīng)關(guān)系而作為上述檢索數(shù)據(jù)的步驟；以及存儲上述生成的對應(yīng)關(guān)系的步驟。
10. 根據(jù)權(quán)利要求9所述的聲音數(shù)據(jù)的檢索方法，其特征在于，上述計算機根據(jù)上述預(yù)先設(shè)定的條件檢索上述檢索數(shù)據(jù)的步驟具備輸入用于檢索上述聲音數(shù)據(jù)庫的檢索鍵而作為上述條件的步驟；在上述聲音數(shù)據(jù)中檢測被發(fā)聲了上述檢索鍵的位置的步驟；從上述檢索數(shù)據(jù)檢索與上述檢索鍵對應(yīng)的聲學(xué)信息特征量的步驟；以及輸出上述聲音數(shù)據(jù)的檢索結(jié)果和上述聲學(xué)信息特征量的檢索結(jié) 果的步驟。
11. 根據(jù)權(quán)利要求9所述的聲音數(shù)據(jù)的檢索方法，其特征在于，抽取上述聲學(xué)信息特征量的步驟包括. 針對每個發(fā)聲分割上述聲音數(shù)據(jù)的步驟；針對上述每個發(fā)聲對上述聲音數(shù)據(jù)進行聲音識別，作為聲音識別結(jié)果信息而輸出單詞串的步驟；對預(yù)先設(shè)定的聲音模型與上述聲音數(shù)據(jù)進行比較，抽取包含在聲音數(shù)據(jù)中的每個發(fā)聲的講話者的特征量而作為聲學(xué)性講話者特征信息的步驟；抽取包含在上述聲音數(shù)據(jù)中的發(fā)聲的長度而作為發(fā)聲長度信息的步驟；抽取包含在上述聲音數(shù)據(jù)中的每個發(fā)聲的韻律而作為韻律信息的步驟；作為表示上述聲音數(shù)據(jù)中的發(fā)聲是否為同一人物的特征量從上述聲音數(shù)據(jù)抽取講話者更換信息的步驟；抽取包含在上述聲音數(shù)據(jù)中的每個發(fā)聲的音量而作為發(fā)聲音量信息的步驟；以及抽取包含在上述聲音數(shù)據(jù)中的背景音而作為背景音信息的步驟，輸出上述聲音識別結(jié)果信息、聲學(xué)性講話者特征信息、發(fā)聲長度信息、韻律信息、講話者更換信息、發(fā)聲音量信息、背景音信息中的至少一個。
12. 根據(jù)權(quán)利要求IO所述的聲音數(shù)據(jù)的檢索方法，其特征在于，在輸出上述聲音數(shù)據(jù)的檢索結(jié)果和上述聲學(xué)信息特征量的檢索結(jié)果的步驟中，輸出上述檢索出的聲學(xué)信息特征量。
13. 根據(jù)權(quán)利要求12所述的聲音數(shù)據(jù)的檢索方法，其特征在于，在輸出上述聲音數(shù)據(jù)的檢索結(jié)果和上述聲學(xué)信息特征量的檢索結(jié)果的步驟中，優(yōu)先輸出上述據(jù)中存在的概率高的聲學(xué)信息特征量。
14. 根據(jù)權(quán)利要求13所述的聲音數(shù)據(jù)的檢索方法，其特征在于，還包括指定作為檢索對象的聲音數(shù)據(jù)的步驟，在輸出上述聲音數(shù)據(jù)的檢索結(jié)果和上述聲學(xué)信息特征量的檢索結(jié)果的步驟中，優(yōu)先輸出上述檢索出的聲學(xué)信息特征量中的、被指定成檢索對象的聲音數(shù)據(jù)中存在的概率高的聲學(xué)信息特征量。
15. 根據(jù)權(quán)利要求9所述的聲音數(shù)據(jù)的檢索方法，其特征在于，還包括對上述聲學(xué)信息特征量的組進行追加、刪除、編輯的步驟。
16. 根據(jù)權(quán)利要求11所述的聲音數(shù)據(jù)的檢索方法，其特征在于，上述計算機根據(jù)上述預(yù)先設(shè)定的條件檢索上述檢索數(shù)據(jù)的步驟包括輸入用于檢索上述聲音數(shù)據(jù)庫的檢索鍵的步驟，在輸入上述檢索鍵的步驟中，接收關(guān)鍵字、上述聲學(xué)性講話者特征信息、上述發(fā)聲長度信息、上述韻律信息、上述講話者更換信息、上述發(fā)聲音量信息和上述背景音信息中的至少一個。
全文摘要
本發(fā)明提供一種聲音數(shù)據(jù)檢索系統(tǒng)以及聲音數(shù)據(jù)的檢索方法，降低用戶檢索聲音數(shù)據(jù)時的鍵輸入的勞力。抽取表現(xiàn)附加了元數(shù)據(jù)的聲音數(shù)據(jù)的聲學(xué)信息特征量。然后，在所得到的聲學(xué)信息特征量的子集合中，僅從元數(shù)據(jù)中包含的聲音數(shù)據(jù)抽取特定的單詞，而抽取不從除此以外的聲音數(shù)據(jù)抽取那樣的聲學(xué)信息特征量集合。將該單詞與上述抽取的聲學(xué)信息特征量的集合對應(yīng)關(guān)聯(lián)地存儲。在所輸入的檢索鍵中存在與上述單詞一致的單詞的情況下，輸出與該單詞對應(yīng)的聲學(xué)信息特征量的集合。
文檔編號G10L15/00GK101533401SQ20081017618
公開日2009年9月16日申請日期2008年11月14日優(yōu)先權(quán)日2008年3月11日
發(fā)明者住吉貴志, 大淵康成, 神田直之申請人:株式會社日立制作所

完整全部詳細(xì)技術(shù)資料下載