基于概念對語音文檔的跨媒體索引和檢索的制作方法

文檔序號：5830972閱讀：200來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>測量裝置的制造及其應(yīng)用技術(shù)

專利名稱：基于概念對語音文檔的跨媒體索引和檢索的制作方法
技術(shù)領(lǐng)域：
本發(fā)明一般涉及潛在語義索引技術(shù)。本發(fā)明尤其涉及索引、搜索、以及檢索語音文檔的內(nèi)容。
背景技術(shù)：
索引、搜索、以及檢索發(fā)音文檔(包括但不限于錄音書籍、音頻廣播、錄音會話)的內(nèi)容是個難題。當(dāng)前的辦法典型地或者通過將用戶提供的文本查詢與文本元數(shù)據(jù)相匹配或者通過在按音標(biāo)轉(zhuǎn)錄該查詢后進(jìn)行音標(biāo)匹配來使得能夠經(jīng)由關(guān)鍵字匹配的等效技術(shù)方案進(jìn)行搜索和檢索。該辦法產(chǎn)出很低的查全率，即對于查詢而言可能有許多相關(guān)語音文檔沒有被尋找。代替關(guān)鍵字匹配，我們通過尋找和檢索在概念級別與査詢相關(guān)的發(fā)音文檔——即便這些文檔并不包含發(fā)音的(或文本的)査詢項——來解決此問題。
發(fā)明概述
現(xiàn)有技術(shù)提供音標(biāo)索引，其中語音音頻文檔的音標(biāo)內(nèi)容被轉(zhuǎn)錄成中間語言并且文本或聲音查詢也被轉(zhuǎn)錄成該相同的中間語言，如此使得語音片段能與査詢進(jìn)行匹配。相反，本發(fā)明從一種新穎的包括語音文檔的音標(biāo)轉(zhuǎn)錄及其文本轉(zhuǎn)錄的"雙重文檔"計算搜索空間。在此辦法中，雙重文檔是包含兩種語符(token)——詞和音素——的"包"。這些雙重文檔的文集將被用作訓(xùn)練集，其用于如此來計算在其中音素、詞和文檔(語音和文本)將由矢量來代表的矢量空間以使得表達(dá)相關(guān)概念的那些音素、詞和文檔在該空間中將是最近的鄰居?？衫米罱従雨P(guān)系來為或者文本或者語音查詢尋找和檢索語音文檔，或為語音查詢尋找和檢索文本文檔。這將
4被引述為"基于概念的跨媒體信息檢索"。不像其他需要從語音翻譯成自然語言文本以基于概念來索引內(nèi)容的方法，本發(fā)明的有吸引力的特征之一在于內(nèi)容是使用音標(biāo)轉(zhuǎn)錄在更抽象的概念級別來索引的。此特征降低了索引語音的出錯率和成本兩者。
在結(jié)合附圖閱讀以下說明時將能更清楚地理解本發(fā)明。附圖簡要說明

圖1是用于實(shí)踐本發(fā)明的語義索引系統(tǒng)的實(shí)施例的示意圖。詳細(xì)說明
參考圖1，示意性地示出包括本發(fā)明的索引系統(tǒng)100的實(shí)施例。該系統(tǒng)包括攝入/收集文檔102、預(yù)處理器/注冊文檔104、目錄文檔106、擴(kuò)充目錄(SVD) 108 以及査詢引擎/目錄110。處理在機(jī)器或人將一組文檔放入文檔集合區(qū)域102中時開始。圖書管理員注冊這些文檔并準(zhǔn)備它們以供編目。編目在數(shù)據(jù)庫中為文檔創(chuàng)建元數(shù)據(jù)的文本和數(shù)值兩種記錄，并且應(yīng)用計算在其中所有文本連同其項和音素被索引的矢量空間所需要的所有附加處理。該目錄可用新文檔通過遵循相同的攝入/收集-注冊-目錄順序來規(guī)律地擴(kuò)充。然而，在目錄擴(kuò)充時文檔被索引但不用于計算矢量空間。而且，最終用戶可規(guī)律地査詢該目錄、其矢量及其相關(guān)聯(lián)的元數(shù)據(jù)以尋找相關(guān)文檔。文檔注冊、編目和査詢處理作為網(wǎng)絡(luò)服務(wù)而可用。一旦這些服務(wù)由管理員啟動，它們就對其用戶并對彼此可用。例如，注冊服務(wù)在有新文檔要索引時通知目錄服務(wù)。圖書管理員必須通過使用所提供的圖形用戶界面(GUI) 114注冊文檔來"觸發(fā)"該過程流。
根據(jù)本發(fā)明的原始源數(shù)據(jù)包括文本和語音文檔；這些中有一些是由語音文檔及其相對應(yīng)的文本轉(zhuǎn)錄構(gòu)成的雙重文檔，而其他的是"單本"，即或者是文本或者是語音文檔而沒有另一格式的對應(yīng)表達(dá)。提供了用于將這些文檔攝入并收集到內(nèi)容儲存庫中的手段。這可能僅僅需要將文檔轉(zhuǎn)移到已知集合位置，例如文件目錄或文件夾，在此它們可被注冊新文檔的過程檢測到。
文檔注冊在內(nèi)容目錄中為文檔創(chuàng)建記錄，包括諸如文檔類型、創(chuàng)建日期和位置之類的元數(shù)據(jù)的創(chuàng)建，并將該文檔排隊待預(yù)處理。在該預(yù)處理步驟中完成若干事項。首先，必須將所有語音文檔按音標(biāo)轉(zhuǎn)錄(116)成中間表達(dá)語言。一種如此的自動音標(biāo)轉(zhuǎn)錄器是用于自動音標(biāo)轉(zhuǎn)錄的Nexidia公司語音智能②(SpeechIntelligence )。本發(fā)明并不被限定于該特定的音標(biāo)轉(zhuǎn)錄器。其次，使用文檔轉(zhuǎn)換器118 (例如StellentTMO她^/Z產(chǎn)品)將文檔從本機(jī)格式轉(zhuǎn)換到UTF-8，即進(jìn)行基于概念的預(yù)處理所要求的文檔編碼。本發(fā)明并不被限定于該特定的文檔轉(zhuǎn)換器。第三，文檔被分段(120)，即音標(biāo)轉(zhuǎn)錄，并且其相應(yīng)的文本被語符化如此使得能夠獲得對索引項和音素112的計數(shù)。第四，使文檔入隊供編目，在此情形中是編目文檔集合目錄。
進(jìn)一步的處理要求集合在其訓(xùn)練文檔與其他僅索引文檔之間加以區(qū)分。訓(xùn)練文檔用于計算概念矢量空間，而僅索引文檔則不然。在后一種情形下，矢量被計算出(108)并用于擴(kuò)充該目錄。由于本發(fā)明支持跨媒體的信息檢索，因此文檔還應(yīng) 該按媒體類型——在此情形中是文本或語音——被隔離。
一旦集合中的所有文檔都被預(yù)處理了，詞/音素計數(shù)就被存儲在集合目錄106 中作為文檔的元數(shù)據(jù)的一部分。從這些計數(shù)構(gòu)造非常大的稀疏矩陣，其中為訓(xùn)練集中的每一項和每一音素創(chuàng)建一行，并為該訓(xùn)練集中的每一文檔創(chuàng)建一列。該"項-音素/文檔"矩陣中的條目是詞和音素計數(shù)，即特定的可索引詞和可索引音素在文檔中出現(xiàn)的次數(shù)。在可以用該矩陣來計算矢量空間之前，必須將其條目歸一化。該要求的原因是一些文檔可能比其他的長很多，而一些項或音素可能有在文檔或在集合中比其他的項或音素出現(xiàn)得頻繁得多的趨勢。因此，有必要減少文檔長度和高頻度語符在訓(xùn)練集中的作用。這通過對項-音素/文檔矩陣112中的原始語符計數(shù)應(yīng)用恰適的加權(quán)來達(dá)成。
如以上述及的，本發(fā)明使用以奇異值分解(或即SVD)著稱的統(tǒng)計技術(shù)108 來從由訓(xùn)練文檔集構(gòu)造出的項-音素/文檔矩陣112計算矢量空間。所產(chǎn)生的結(jié)果是較低維的數(shù)值空間，其中概念上相關(guān)的項-音素和文檔矢量是最近的鄰居。就是這種特性允許為查詢找到項或文檔——即便這些文檔并不擁有這些査詢項中的任一個；這些文檔不必包含該査詢，它們僅需要是計算出的矢量空間中與査詢矢量最近的鄰居。
一旦己為訓(xùn)練文檔集計算出矢量空間，就必須為新文檔計算矢量，并且隨后將這些矢量添加到該空間中。此操作僅僅要求將這些新文檔放入也為圖書管理員所知的團(tuán)隊集合區(qū)域中。一旦在這里了，圖書管理員就可以如對訓(xùn)練集那樣通過注冊它們來將它們?nèi)腙牴┨幚?。類似于?xùn)練文檔，為每一文檔在內(nèi)容目錄中創(chuàng)建包括詞或音素計數(shù)的記錄；然而不同于訓(xùn)練文檔，這些文檔并不用于計算矢量空間。出于調(diào)入目的，文檔可僅包含詞或僅包含音素，而不必包含這兩者。其矢量表達(dá)將用其詞矢量或音素矢量來計算。通過對每一文檔包含的詞和音素進(jìn)行項或音素矢量求和——其中每一項或音素矢量由其各自的詞或音素計數(shù)來加權(quán)——來為該文檔創(chuàng) 建矢量。一旦這些新文檔的矢量被"調(diào)入"到矢量空間中，這些文檔就與已在那里的文檔一起可以用搜索。
文檔查詢使得必須搜索內(nèi)容目錄以尋找相關(guān)元數(shù)據(jù)，包括搜索計算出的矢量空間以尋找類似于或"接近于"為一組一個或更多個査詢項或音素計算出的矢量的矢量。査詢引擎110窮盡地計算該査詢矢量與空間中的所有其他矢量之間的余弦值，并且以列表來返回具有最高余弦值的那些項-音素和/或文檔。很像文檔矢量的是，查詢矢量僅僅是其包含的詞或音素的矢量之和，其每一個由它們在該査詢中出現(xiàn)的頻度(這對于大多數(shù)自組織查詢而言僅為一次)來加權(quán)。査詢可由詞或由音
素構(gòu)成。其矢量用從計算出的LSI矢量空間推導(dǎo)出的或者這些詞矢量或者音素矢量的加權(quán)和來計算。LSI是潛在語義索引。應(yīng)注意，査詢矢量也可從文檔的全部或部分諸如在"相關(guān)性反饋"中的部分來計算。在將相關(guān)文檔作為査詢提交給査詢引擎以尋找"更多像這樣的文檔"的場合就是這種情形。再次，這些可以是或者語音或者文本文檔。最終用戶可選擇命中列表上的項以用于從內(nèi)容儲存庫中檢索，因為該列表還傳達(dá)與內(nèi)容描述性元數(shù)據(jù)一起存儲在目錄中的訪問描述性元數(shù)據(jù)，例如文檔的URL。
以上所描述的算法和建模能夠在諸如計算設(shè)備之類的指令執(zhí)行系統(tǒng)、裝置、或設(shè)備上執(zhí)行。這些算法自身可包含在計算機(jī)可讀介質(zhì)上，計算機(jī)可讀介質(zhì)可以是能夠包含、存儲、傳遞、傳播、或傳送程序供由諸如計算機(jī)之類的指令執(zhí)行系統(tǒng)、裝置、或設(shè)備使用或聯(lián)合其使用的任何裝置。
雖然已描述和圖解了索引、搜索以及檢索語音文檔的方法和系統(tǒng)，但對于本領(lǐng)域技術(shù)人員顯而易見的是，變形和修改是可能的而不會脫離本發(fā)明的廣泛教示和原理，本發(fā)明應(yīng)單單由所附權(quán)利要求書的范圍來限定。
權(quán)利要求
1. 一種跨媒體索引、注冊和檢索語音文檔的方法，包括以下步驟注冊訓(xùn)練文檔集；預(yù)處理每一訓(xùn)練文檔；從所述訓(xùn)練文檔的元數(shù)據(jù)構(gòu)造項-音素/文檔矩陣，其中為所述訓(xùn)練文檔中的項和每一音素創(chuàng)建行，并為每一訓(xùn)練文檔創(chuàng)建列；歸一化所述項-音素/文檔矩陣中的條目；通過從所述項-音素/文檔矩陣計算來從所述訓(xùn)練文檔計算概念矢量空間；為新文檔計算矢量并將所述矢量添加到所述矢量空間；搜索所述計算出的矢量空間以尋找接近為查詢項或音素計算出的矢量的矢量；以及提供具有最高值的那些語音和/或文本文檔的列表。
2. 如權(quán)利要求1所述的方法，其特征在于，所述預(yù)處理包括為每一訓(xùn)練文檔創(chuàng)建記錄，包括為每一訓(xùn)練文檔創(chuàng)建元數(shù)據(jù)。
3. 如權(quán)利要求1所述的方法，其特征在于，所述預(yù)處理包括將每一語音文檔按音標(biāo)轉(zhuǎn)錄成中間表達(dá)語言；將每一文檔從本機(jī)格式轉(zhuǎn)換成UTF-8格式；將每一文檔分段；以及將每一文檔入隊供編目。
4. 如權(quán)利要求3所述的方法，其特征在于，所述分段包括語符化每一音標(biāo)轉(zhuǎn) 錄和經(jīng)轉(zhuǎn)換的文本如此使得能獲得對索引項和音素的計數(shù)。
5. 如權(quán)利要求1所述的方法，其特征在于，所述計算概念矢量空間包括使用奇異值分解技術(shù)。
6. 如權(quán)利要求1所述的方法，其特征在于，所述為新文檔計算矢量并將其矢量添加到所述矢量空間包括為每一文檔通過對所述文檔包含的詞和音素進(jìn)行項或音素矢量求和——其中每一項或音素矢量由其各自的詞或音素計數(shù)來加權(quán)——來創(chuàng)建。
7. 如權(quán)利要求l所述的方法，其特征在于，所述搜索計算出的矢量空間以尋找接近為査詢項或音素計算出的矢量的矢量包括計算査詢矢量與所述空間中的所有其他矢量之間的余弦值，并且以列表返回具有最高余弦值的文本和/或語音文檔。
8. —種用于跨媒體索引、注冊和檢索語音文檔的系統(tǒng)，包括以下步驟文檔集合裝置，用于注冊訓(xùn)練文檔集、準(zhǔn)備所述訓(xùn)練文檔集供編目、以及索引所述訓(xùn)練文檔集，包括文檔項和音素；預(yù)處理器，用于預(yù)處理每一訓(xùn)練文檔以及通過從所述訓(xùn)練文檔集計算矢量來從所述訓(xùn)練文檔計算形成概念矢量空間的矢量；從所述訓(xùn)練文檔的元數(shù)據(jù)構(gòu)造的項-音素/文檔矩陣，其中為所述訓(xùn)練文檔中的每一項和每一音素創(chuàng)建行，并為每一訓(xùn)練文檔創(chuàng)建列，并且所述項-音素/文檔矩陣中的條目被歸一化；奇異值分解裝置，用于從所述項-音素/文檔矩陣計算矢量空間；所述預(yù)處理器還預(yù)處理每一新文檔并從所述新文檔計算矢量并且將所述矢量添加到所述矢量空間；以及査詢引擎，用于搜索所述計算出的矢量空間以尋找接近為一個或更多個査詢項或音素計算出的矢量的矢量；以及提供具有最高值的那些文本和/或語音文檔的列表。
9. 如權(quán)利要求8所述的系統(tǒng)，其特征在于，所述預(yù)處理器為每一訓(xùn)練文檔創(chuàng) 建記錄，包括為每一訓(xùn)練文檔創(chuàng)建元數(shù)據(jù)。
10. 如權(quán)利要求8所述的系統(tǒng)，其特征在于，所述預(yù)處理器將每一語音文檔按音標(biāo)轉(zhuǎn)錄成中間表達(dá)語言；將每一文檔從本機(jī)格式轉(zhuǎn)換成UTF-8格式；將每一文檔分段；以及將每一文檔隊列供編目。
11. 如權(quán)利要求IO所述的系統(tǒng)，其特征在于，所述預(yù)處理器通過語符化每一音標(biāo)轉(zhuǎn)錄和經(jīng)轉(zhuǎn)換的文本如此使得能獲得對索引項和音素的計數(shù)來將每一文檔分段。
12. 如權(quán)利要求8所述的系統(tǒng)，其特征在于，所述預(yù)處理器進(jìn)一步為每一文檔通過對所述文檔包含的詞或音素進(jìn)行項或音素矢量求和——其中每一項或音素矢量由其各自的詞或音素計數(shù)來加權(quán)——來為新文檔計算矢量并將所述矢量添加到所述矢量空間。
13. 如權(quán)利要求8所述的系統(tǒng)，其特征在于，所述搜索引擎通過計算査詢矢量與計算出的矢量空間中的所有其他矢量之間的余弦值、并且以列表返回具有最高余弦值的文本和/或語音文檔來搜索所述空間以尋找接近為查詢項或音素計算出的矢
全文摘要
通過尋找和檢索在概念級別與查詢項相關(guān)的語音文檔——即便這些語音文檔并不包含發(fā)音的(或文本的)查詢項——來達(dá)成索引、搜索、以及檢索語音文檔(包括但不限于錄音書籍、音頻廣播、錄音會話)的內(nèi)容。使用基于概念的跨媒體信息檢索。從訓(xùn)練文檔集構(gòu)造項-音素/文檔矩陣。文檔隨后被添加到從訓(xùn)練數(shù)據(jù)構(gòu)造成的矩陣中。使用奇異值分解來從該項-音素/文檔矩陣計算矢量空間。結(jié)果是較低維的數(shù)值空間，其中項-音素和文檔矢量在概念上作為最近鄰居來相關(guān)。查詢引擎計算該查詢矢量與該空間中的所有其他矢量之間的余弦值，并且返回具有最高余弦值的那些項-音素和/或文檔的列表。
文檔編號G01L21/00GK101512521SQ200780020395
公開日2009年8月19日申請日期2007年6月1日優(yōu)先權(quán)日2006年6月2日
發(fā)明者C·A·伯赫恩斯, D·伊甘, D·巴蘇申請人:特爾科迪亞技術(shù)股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：C·A·伯赫恩斯;D·伊甘;D·巴蘇
技術(shù)所有人：特爾科迪亞技術(shù)股份有限公司
我是此專利的發(fā)明人

上一篇：用于等電聚焦的分離設(shè)備的制作方法
上一篇：用于增強(qiáng)不連續(xù)傳輸功能的方法和系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、邢老師：1.機(jī)械設(shè)計及理論 2.生物醫(yī)學(xué)材料及器械 3.聲發(fā)射檢測技術(shù)。
2、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
3、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
4、張老師：1.機(jī)械設(shè)計的應(yīng)力分析、強(qiáng)度校核的計算機(jī)仿真 2.生物反應(yīng)器研制 3.生物力學(xué)
5、趙老師：檢測與控制技術(shù)、機(jī)器人技術(shù)、機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

跨媒體檢索相關(guān)技術(shù)

跨媒體信息檢索相關(guān)技術(shù)

lucene檢索索引的步驟相關(guān)技術(shù)

索引型檢索工具相關(guān)技術(shù)

簡述索引型檢索工具相關(guān)技術(shù)

檢索和索引相關(guān)技術(shù)

全文檢索索引相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于概念對語音文檔的跨媒體索引和檢索的制作方法