專利名稱:基于概念對語音文檔的跨媒體索引和檢索的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及潛在語義索引技術(shù)。本發(fā)明尤其涉及索引、搜索、以及檢索 語音文檔的內(nèi)容。
背景技術(shù):
索引、搜索、以及檢索發(fā)音文檔(包括但不限于錄音書籍、音頻廣播、錄音 會話)的內(nèi)容是個難題。當(dāng)前的辦法典型地或者通過將用戶提供的文本查詢與文本 元數(shù)據(jù)相匹配或者通過在按音標(biāo)轉(zhuǎn)錄該查詢后進(jìn)行音標(biāo)匹配來使得能夠經(jīng)由關(guān)鍵 字匹配的等效技術(shù)方案進(jìn)行搜索和檢索。該辦法產(chǎn)出很低的查全率,即對于查詢而 言可能有許多相關(guān)語音文檔沒有被尋找。代替關(guān)鍵字匹配,我們通過尋找和檢索在 概念級別與査詢相關(guān)的發(fā)音文檔——即便這些文檔并不包含發(fā)音的(或文本的)査 詢項——來解決此問題。
發(fā)明概述
現(xiàn)有技術(shù)提供音標(biāo)索引,其中語音音頻文檔的音標(biāo)內(nèi)容被轉(zhuǎn)錄成中間語言并 且文本或聲音查詢也被轉(zhuǎn)錄成該相同的中間語言,如此使得語音片段能與査詢進(jìn)行 匹配。相反,本發(fā)明從一種新穎的包括語音文檔的音標(biāo)轉(zhuǎn)錄及其文本轉(zhuǎn)錄的"雙重 文檔"計算搜索空間。在此辦法中,雙重文檔是包含兩種語符(token)——詞和 音素——的"包"。這些雙重文檔的文集將被用作訓(xùn)練集,其用于如此來計算在其 中音素、詞和文檔(語音和文本)將由矢量來代表的矢量空間以使得表達(dá)相關(guān)概念 的那些音素、詞和文檔在該空間中將是最近的鄰居??衫米罱従雨P(guān)系來為或者 文本或者語音查詢尋找和檢索語音文檔,或為語音查詢尋找和檢索文本文檔。這將
4被引述為"基于概念的跨媒體信息檢索"。不像其他需要從語音翻譯成自然語言文 本以基于概念來索引內(nèi)容的方法,本發(fā)明的有吸引力的特征之一在于內(nèi)容是使用音 標(biāo)轉(zhuǎn)錄在更抽象的概念級別來索引的。此特征降低了索引語音的出錯率和成本兩 者。
在結(jié)合附圖閱讀以下說明時將能更清楚地理解本發(fā)明。 附圖簡要說明
圖1是用于實(shí)踐本發(fā)明的語義索引系統(tǒng)的實(shí)施例的示意圖。 詳細(xì)說明
參考圖1,示意性地示出包括本發(fā)明的索引系統(tǒng)100的實(shí)施例。該系統(tǒng)包括攝 入/收集文檔102、預(yù)處理器/注冊文檔104、目錄文檔106、擴(kuò)充目錄(SVD) 108 以及査詢引擎/目錄110。處理在機(jī)器或人將一組文檔放入文檔集合區(qū)域102中時 開始。圖書管理員注冊這些文檔并準(zhǔn)備它們以供編目。編目在數(shù)據(jù)庫中為文檔創(chuàng)建 元數(shù)據(jù)的文本和數(shù)值兩種記錄,并且應(yīng)用計算在其中所有文本連同其項和音素被索 引的矢量空間所需要的所有附加處理。該目錄可用新文檔通過遵循相同的攝入/收 集-注冊-目錄順序來規(guī)律地擴(kuò)充。然而,在目錄擴(kuò)充時文檔被索引但不用于計算矢 量空間。而且,最終用戶可規(guī)律地査詢該目錄、其矢量及其相關(guān)聯(lián)的元數(shù)據(jù)以尋找 相關(guān)文檔。文檔注冊、編目和査詢處理作為網(wǎng)絡(luò)服務(wù)而可用。 一旦這些服務(wù)由管理 員啟動,它們就對其用戶并對彼此可用。例如,注冊服務(wù)在有新文檔要索引時通知 目錄服務(wù)。圖書管理員必須通過使用所提供的圖形用戶界面(GUI) 114注冊文檔 來"觸發(fā)"該過程流。
根據(jù)本發(fā)明的原始源數(shù)據(jù)包括文本和語音文檔;這些中有一些是由語音文檔 及其相對應(yīng)的文本轉(zhuǎn)錄構(gòu)成的雙重文檔,而其他的是"單本",即或者是文本或者 是語音文檔而沒有另一格式的對應(yīng)表達(dá)。提供了用于將這些文檔攝入并收集到內(nèi)容 儲存庫中的手段。這可能僅僅需要將文檔轉(zhuǎn)移到已知集合位置,例如文件目錄或 文件夾,在此它們可被注冊新文檔的過程檢測到。
文檔注冊在內(nèi)容目錄中為文檔創(chuàng)建記錄,包括諸如文檔類型、創(chuàng)建日期和位 置之類的元數(shù)據(jù)的創(chuàng)建,并將該文檔排隊待預(yù)處理。在該預(yù)處理步驟中完成若干事 項。首先,必須將所有語音文檔按音標(biāo)轉(zhuǎn)錄(116)成中間表達(dá)語言。 一種如此的 自動音標(biāo)轉(zhuǎn)錄器是用于自動音標(biāo)轉(zhuǎn)錄的Nexidia公司語音智能②(SpeechIntelligence )。本發(fā)明并不被限定于該特定的音標(biāo)轉(zhuǎn)錄器。其次,使用文檔轉(zhuǎn)換 器118 (例如StellentTMO她^/Z產(chǎn)品)將文檔從本機(jī)格式轉(zhuǎn)換到UTF-8,即進(jìn)行 基于概念的預(yù)處理所要求的文檔編碼。本發(fā)明并不被限定于該特定的文檔轉(zhuǎn)換器。 第三,文檔被分段(120),即音標(biāo)轉(zhuǎn)錄,并且其相應(yīng)的文本被語符化如此使得能 夠獲得對索引項和音素112的計數(shù)。第四,使文檔入隊供編目,在此情形中是編目 文檔集合目錄。
進(jìn)一步的處理要求集合在其訓(xùn)練文檔與其他僅索引文檔之間加以區(qū)分。訓(xùn)練 文檔用于計算概念矢量空間,而僅索引文檔則不然。在后一種情形下,矢量被計算 出(108)并用于擴(kuò)充該目錄。由于本發(fā)明支持跨媒體的信息檢索,因此文檔還應(yīng) 該按媒體類型——在此情形中是文本或語音——被隔離。
一旦集合中的所有文檔都被預(yù)處理了,詞/音素計數(shù)就被存儲在集合目錄106 中作為文檔的元數(shù)據(jù)的一部分。從這些計數(shù)構(gòu)造非常大的稀疏矩陣,其中為訓(xùn)練集 中的每一項和每一音素創(chuàng)建一行,并為該訓(xùn)練集中的每一文檔創(chuàng)建一列。該"項-音素/文檔"矩陣中的條目是詞和音素計數(shù),即特定的可索引詞和可索引音素在文 檔中出現(xiàn)的次數(shù)。在可以用該矩陣來計算矢量空間之前,必須將其條目歸一化。該 要求的原因是一些文檔可能比其他的長很多,而一些項或音素可能有在文檔或在集 合中比其他的項或音素出現(xiàn)得頻繁得多的趨勢。因此,有必要減少文檔長度和高頻 度語符在訓(xùn)練集中的作用。這通過對項-音素/文檔矩陣112中的原始語符計數(shù)應(yīng)用 恰適的加權(quán)來達(dá)成。
如以上述及的,本發(fā)明使用以奇異值分解(或即SVD)著稱的統(tǒng)計技術(shù)108 來從由訓(xùn)練文檔集構(gòu)造出的項-音素/文檔矩陣112計算矢量空間。所產(chǎn)生的結(jié)果是 較低維的數(shù)值空間,其中概念上相關(guān)的項-音素和文檔矢量是最近的鄰居。就是這 種特性允許為查詢找到項或文檔——即便這些文檔并不擁有這些査詢項中的任一 個;這些文檔不必包含該査詢,它們僅需要是計算出的矢量空間中與査詢矢量最近 的鄰居。
一旦己為訓(xùn)練文檔集計算出矢量空間,就必須為新文檔計算矢量,并且隨后 將這些矢量添加到該空間中。此操作僅僅要求將這些新文檔放入也為圖書管理員所 知的團(tuán)隊集合區(qū)域中。 一旦在這里了,圖書管理員就可以如對訓(xùn)練集那樣通過注冊 它們來將它們?nèi)腙牴┨幚?。類似于?xùn)練文檔,為每一文檔在內(nèi)容目錄中創(chuàng)建包括詞 或音素計數(shù)的記錄;然而不同于訓(xùn)練文檔,這些文檔并不用于計算矢量空間。出于 調(diào)入目的,文檔可僅包含詞或僅包含音素,而不必包含這兩者。其矢量表達(dá)將用其詞矢量或音素矢量來計算。通過對每一文檔包含的詞和音素進(jìn)行項或音素矢量求 和——其中每一項或音素矢量由其各自的詞或音素計數(shù)來加權(quán)——來為該文檔創(chuàng) 建矢量。 一旦這些新文檔的矢量被"調(diào)入"到矢量空間中,這些文檔就與已在那里 的文檔一起可以用搜索。
文檔查詢使得必須搜索內(nèi)容目錄以尋找相關(guān)元數(shù)據(jù),包括搜索計算出的矢量 空間以尋找類似于或"接近于"為一組一個或更多個査詢項或音素計算出的矢量的 矢量。査詢引擎110窮盡地計算該査詢矢量與空間中的所有其他矢量之間的余弦 值,并且以列表來返回具有最高余弦值的那些項-音素和/或文檔。很像文檔矢量的 是,查詢矢量僅僅是其包含的詞或音素的矢量之和,其每一個由它們在該査詢中出 現(xiàn)的頻度(這對于大多數(shù)自組織查詢而言僅為一次)來加權(quán)。査詢可由詞或由音
素構(gòu)成。其矢量用從計算出的LSI矢量空間推導(dǎo)出的或者這些詞矢量或者音素矢量 的加權(quán)和來計算。LSI是潛在語義索引。應(yīng)注意,査詢矢量也可從文檔的全部或部 分諸如在"相關(guān)性反饋"中的部分來計算。在將相關(guān)文檔作為査詢提交給査詢引擎 以尋找"更多像這樣的文檔"的場合就是這種情形。再次,這些可以是或者語音或 者文本文檔。最終用戶可選擇命中列表上的項以用于從內(nèi)容儲存庫中檢索,因為該 列表還傳達(dá)與內(nèi)容描述性元數(shù)據(jù)一起存儲在目錄中的訪問描述性元數(shù)據(jù),例如文檔 的URL。
以上所描述的算法和建模能夠在諸如計算設(shè)備之類的指令執(zhí)行系統(tǒng)、裝置、 或設(shè)備上執(zhí)行。這些算法自身可包含在計算機(jī)可讀介質(zhì)上,計算機(jī)可讀介質(zhì)可以是 能夠包含、存儲、傳遞、傳播、或傳送程序供由諸如計算機(jī)之類的指令執(zhí)行系統(tǒng)、 裝置、或設(shè)備使用或聯(lián)合其使用的任何裝置。
雖然已描述和圖解了索引、搜索以及檢索語音文檔的方法和系統(tǒng),但對于本 領(lǐng)域技術(shù)人員顯而易見的是,變形和修改是可能的而不會脫離本發(fā)明的廣泛教示和 原理,本發(fā)明應(yīng)單單由所附權(quán)利要求書的范圍來限定。
權(quán)利要求
1. 一種跨媒體索引、注冊和檢索語音文檔的方法,包括以下步驟注冊訓(xùn)練文檔集;預(yù)處理每一訓(xùn)練文檔;從所述訓(xùn)練文檔的元數(shù)據(jù)構(gòu)造項-音素/文檔矩陣,其中為所述訓(xùn)練文檔中的項和每一音素創(chuàng)建行,并為每一訓(xùn)練文檔創(chuàng)建列;歸一化所述項-音素/文檔矩陣中的條目;通過從所述項-音素/文檔矩陣計算來從所述訓(xùn)練文檔計算概念矢量空間;為新文檔計算矢量并將所述矢量添加到所述矢量空間;搜索所述計算出的矢量空間以尋找接近為查詢項或音素計算出的矢量的矢量;以及提供具有最高值的那些語音和/或文本文檔的列表。
2. 如權(quán)利要求1所述的方法,其特征在于,所述預(yù)處理包括為每一訓(xùn)練文檔 創(chuàng)建記錄,包括為每一訓(xùn)練文檔創(chuàng)建元數(shù)據(jù)。
3. 如權(quán)利要求1所述的方法,其特征在于,所述預(yù)處理包括將每一語音文檔 按音標(biāo)轉(zhuǎn)錄成中間表達(dá)語言;將每一文檔從本機(jī)格式轉(zhuǎn)換成UTF-8格式;將每一 文檔分段;以及將每一文檔入隊供編目。
4. 如權(quán)利要求3所述的方法,其特征在于,所述分段包括語符化每一音標(biāo)轉(zhuǎn) 錄和經(jīng)轉(zhuǎn)換的文本如此使得能獲得對索引項和音素的計數(shù)。
5. 如權(quán)利要求1所述的方法,其特征在于,所述計算概念矢量空間包括使用 奇異值分解技術(shù)。
6. 如權(quán)利要求1所述的方法,其特征在于,所述為新文檔計算矢量并將其矢 量添加到所述矢量空間包括為每一文檔通過對所述文檔包含的詞和音素進(jìn)行項或 音素矢量求和——其中每一項或音素矢量由其各自的詞或音素計數(shù)來加權(quán)——來 創(chuàng)建。
7. 如權(quán)利要求l所述的方法,其特征在于,所述搜索計算出的矢量空間以尋 找接近為査詢項或音素計算出的矢量的矢量包括計算査詢矢量與所述空間中的所 有其他矢量之間的余弦值,并且以列表返回具有最高余弦值的文本和/或語音文檔。
8. —種用于跨媒體索引、注冊和檢索語音文檔的系統(tǒng),包括以下步驟 文檔集合裝置,用于注冊訓(xùn)練文檔集、準(zhǔn)備所述訓(xùn)練文檔集供編目、以及索引所述訓(xùn)練文檔集,包括文檔項和音素;預(yù)處理器,用于預(yù)處理每一訓(xùn)練文檔以及通過從所述訓(xùn)練文檔集計算矢量來 從所述訓(xùn)練文檔計算形成概念矢量空間的矢量;從所述訓(xùn)練文檔的元數(shù)據(jù)構(gòu)造的項-音素/文檔矩陣,其中為所述訓(xùn)練文檔中的 每一項和每一音素創(chuàng)建行,并為每一訓(xùn)練文檔創(chuàng)建列,并且所述項-音素/文檔矩陣 中的條目被歸一化;奇異值分解裝置,用于從所述項-音素/文檔矩陣計算矢量空間;所述預(yù)處理器還預(yù)處理每一新文檔并從所述新文檔計算矢量并且將所述矢量 添加到所述矢量空間;以及査詢引擎,用于搜索所述計算出的矢量空間以尋找接近為一個或更多個査詢 項或音素計算出的矢量的矢量;以及提供具有最高值的那些文本和/或語音文檔的 列表。
9. 如權(quán)利要求8所述的系統(tǒng),其特征在于,所述預(yù)處理器為每一訓(xùn)練文檔創(chuàng) 建記錄,包括為每一訓(xùn)練文檔創(chuàng)建元數(shù)據(jù)。
10. 如權(quán)利要求8所述的系統(tǒng),其特征在于,所述預(yù)處理器將每一語音文檔按 音標(biāo)轉(zhuǎn)錄成中間表達(dá)語言;將每一文檔從本機(jī)格式轉(zhuǎn)換成UTF-8格式;將每一文 檔分段;以及將每一文檔隊列供編目。
11. 如權(quán)利要求IO所述的系統(tǒng),其特征在于,所述預(yù)處理器通過語符化每一 音標(biāo)轉(zhuǎn)錄和經(jīng)轉(zhuǎn)換的文本如此使得能獲得對索引項和音素的計數(shù)來將每一文檔分 段。
12. 如權(quán)利要求8所述的系統(tǒng),其特征在于,所述預(yù)處理器進(jìn)一步為每一文檔 通過對所述文檔包含的詞或音素進(jìn)行項或音素矢量求和——其中每一項或音素矢 量由其各自的詞或音素計數(shù)來加權(quán)——來為新文檔計算矢量并將所述矢量添加到 所述矢量空間。
13. 如權(quán)利要求8所述的系統(tǒng),其特征在于,所述搜索引擎通過計算査詢矢量 與計算出的矢量空間中的所有其他矢量之間的余弦值、并且以列表返回具有最高余 弦值的文本和/或語音文檔來搜索所述空間以尋找接近為查詢項或音素計算出的矢
全文摘要
通過尋找和檢索在概念級別與查詢項相關(guān)的語音文檔——即便這些語音文檔并不包含發(fā)音的(或文本的)查詢項——來達(dá)成索引、搜索、以及檢索語音文檔(包括但不限于錄音書籍、音頻廣播、錄音會話)的內(nèi)容。使用基于概念的跨媒體信息檢索。從訓(xùn)練文檔集構(gòu)造項-音素/文檔矩陣。文檔隨后被添加到從訓(xùn)練數(shù)據(jù)構(gòu)造成的矩陣中。使用奇異值分解來從該項-音素/文檔矩陣計算矢量空間。結(jié)果是較低維的數(shù)值空間,其中項-音素和文檔矢量在概念上作為最近鄰居來相關(guān)。查詢引擎計算該查詢矢量與該空間中的所有其他矢量之間的余弦值,并且返回具有最高余弦值的那些項-音素和/或文檔的列表。
文檔編號G01L21/00GK101512521SQ200780020395
公開日2009年8月19日 申請日期2007年6月1日 優(yōu)先權(quán)日2006年6月2日
發(fā)明者C·A·伯赫恩斯, D·伊甘, D·巴蘇 申請人:特爾科迪亞技術(shù)股份有限公司