專(zhuān)利名稱(chēng):聲頻復(fù)制檢測(cè)器的制作方法
有關(guān)專(zhuān)利本專(zhuān)利要求對(duì)序號(hào)為60/514,490的美國(guó)臨時(shí)專(zhuān)利申請(qǐng)有優(yōu)先權(quán),該專(zhuān)利名為“DUPLICATED DETECTION AND AUDIO THUMBNAILS WITH AUDIOFINGERPRINTING”,于2003年10月24日歸檔。
技術(shù)的領(lǐng)域本發(fā)明通常涉及計(jì)算機(jī)系統(tǒng),尤其涉及采用聲頻指紋的系統(tǒng)和方法,來(lái)自動(dòng)地管理冗余或損壞的聲頻文件。
發(fā)明的背景由許多現(xiàn)代軟件系統(tǒng)支持的當(dāng)前特征之一是能夠存儲(chǔ)和播放聲頻文件。許多那些系統(tǒng)使用戶(hù)能存儲(chǔ)和管理聲頻文件的不同集合。然而,隨著時(shí)間的推移,許多用戶(hù)被不可避免占據(jù)大量存儲(chǔ)空間的大量文件所搞糊涂了。而且當(dāng)集合變得越大越大時(shí),檢索和播放希望的聲頻信息變得更加困難和耗時(shí)。許多系統(tǒng)提供軟件來(lái)幫助用戶(hù)管理這些日益增多的聲頻信息。例如,這些系統(tǒng)能包括支持普遍的聲頻文件格式的聲頻管理器,格式包括MP3,OggVorbis(OGG),WindowsMedia Audio(WMA),MPC和MP+文件等。這使用戶(hù)能將它們整個(gè)聲頻文件集分類(lèi),并即時(shí)搜索喜歡的歌曲,使用如小圖塊那樣的歌集封面瀏覽歌集,創(chuàng)建報(bào)表和其他特征。
例如除了組織聲頻文件外,這些系統(tǒng)提供一組工具,通過(guò)編輯標(biāo)簽,改名,編輯歌詞,創(chuàng)建CD,和查找歌唱家信息來(lái)管理文件。用戶(hù)能使用存儲(chǔ)在硬盤(pán),CD-ROM,網(wǎng)絡(luò)驅(qū)動(dòng)器,ZIP驅(qū)動(dòng)器或其他類(lèi)型可移動(dòng)媒體的聲頻文件運(yùn)作。這包括允許用戶(hù)播放多個(gè)演播列表和顯示與每個(gè)標(biāo)題相關(guān)的圖像。另外特征包括自動(dòng)產(chǎn)生的數(shù)據(jù)庫(kù)統(tǒng)計(jì)量,個(gè)人的等級(jí),按種類(lèi)排序,基調(diào)(Mood),年份和客戶(hù)數(shù)據(jù)庫(kù)的查詢(xún)。
聲頻指紋(AFP)最近興起,成為用于在流或在文件中標(biāo)識(shí)聲頻的有力方法。某些公司現(xiàn)在根據(jù)聲頻指紋提供音樂(lè)服務(wù)。這些服務(wù)需要從聲頻提取一個(gè)或多個(gè)指紋以被標(biāo)識(shí),且這些指紋比對(duì)以前計(jì)算的指紋的大數(shù)據(jù)庫(kù)進(jìn)行校驗(yàn)。
然而,管理大的聲頻集合是困難的,因?yàn)楫?dāng)前不可能快捷地分析聲頻文件(這與能使用小圖塊的圖象不同)。用戶(hù)通常必須依賴(lài)標(biāo)簽,但即使如此其幫助也有限標(biāo)簽常常是不準(zhǔn)確的,但即使有準(zhǔn)確的標(biāo)簽,標(biāo)識(shí)復(fù)制的聲頻標(biāo)簽在通常PC集合中是特別耗時(shí)。因此,需要有那樣的系統(tǒng)和方法,它們?cè)谟脩?hù)的PC或其他媒體設(shè)備上自動(dòng)地識(shí)別復(fù)制的聲頻文件和/或包含噪聲或具有其他問(wèn)題的聲頻文件,并允許用戶(hù)更有效地管理他們的聲頻文件。
發(fā)明的內(nèi)容下面提出本發(fā)明的簡(jiǎn)化概述,以便提供對(duì)本發(fā)明的某些方面的基本理解。此概述不是本發(fā)明的延伸的綜覽。不試圖識(shí)別本發(fā)明的關(guān)鍵/重要元素或勾劃出本發(fā)明的范圍。其唯一目的是以簡(jiǎn)化方式提出本發(fā)明的某些概念,作為后面給出的更詳細(xì)的描述的序言。
本發(fā)明涉及用于檢測(cè)復(fù)制的或損壞的聲頻文件的系統(tǒng)和方法,以便于管理和移除這種文件。管理大的聲頻集合是困難的,因?yàn)槔缗c圖象和文本比較,快速地分析大的聲頻文件是有問(wèn)題的。以前,用戶(hù)依賴(lài)于不準(zhǔn)確的加標(biāo)簽。本發(fā)明能通過(guò)提供工具來(lái)幫助用戶(hù)搜索聲頻文件,識(shí)別可能被互相復(fù)制的文件,識(shí)別損壞的,有噪聲的,或垃圾文件,和方便從用戶(hù)的數(shù)據(jù)庫(kù)移除那樣的文件,從而解決傳統(tǒng)系統(tǒng)的許多缺點(diǎn)和不足。在一個(gè)方面,用戶(hù)供給系統(tǒng)兩個(gè)參數(shù)(從聲頻開(kāi)始計(jì)的秒數(shù)(t)以便抽取指紋,和指紋(slop)窗的大小(s))。然后本發(fā)明部分地基于(t)和(s)定位用戶(hù)的聲頻文件并計(jì)算指紋。提供用戶(hù)界面以配置這些和其他參數(shù)以及使用戶(hù)能移除自動(dòng)確定的復(fù)制的或損壞的文件。
在本發(fā)明的一個(gè)方面,提供聲頻復(fù)制檢測(cè)器系統(tǒng),它包括用于由復(fù)制檢測(cè)器處理的聲頻文件的數(shù)據(jù)庫(kù)。復(fù)制檢測(cè)器包括用于保存來(lái)自處理聲頻文件的分析器的中間結(jié)果的一個(gè)或多個(gè)內(nèi)部數(shù)據(jù)庫(kù),以便確定諸如復(fù)制聲頻文件是否存在或文件是否已被損壞那些方面。指紋組件和歸一化組件在分析器中操作,以判定聲頻文件的各部分是否為其他文件的復(fù)制,從而匹配檢測(cè)器為那些部分加標(biāo)簽為復(fù)制品(或如損壞文件或垃圾文件等某些其他名稱(chēng))。用戶(hù)界面包括輸入部分,使用戶(hù)能輸入系統(tǒng)參數(shù)(如檢測(cè)分析參數(shù))和選擇文件來(lái)移除等。界面的輸出能包括從用戶(hù)數(shù)據(jù)庫(kù)移除的聲頻文件的列表和系統(tǒng)的配置選項(xiàng)。
通常,用戶(hù)選擇從其在數(shù)據(jù)庫(kù)中搜索的頂層目錄(稱(chēng)“根目錄”),并隨后通過(guò)用戶(hù)界面起動(dòng)檢測(cè)器。通常,用戶(hù)供給系統(tǒng)兩個(gè)(或更多)參數(shù)進(jìn)入聲頻文件多少秒(T)處來(lái)抽取對(duì)應(yīng)的指紋,和使用多大的‘指紋窗口(slop windows)’(s),其中S以秒來(lái)度量。然后檢測(cè)器從根目錄穿過(guò)諸子目錄搜索,并檢索由其擴(kuò)展名標(biāo)識(shí)的聲頻文件。當(dāng)檢測(cè)器找到聲頻文件,加載文件并計(jì)算在進(jìn)到文件T-S秒開(kāi)始到進(jìn)到文件T+S秒結(jié)束的一系列指紋。若沒(méi)有指紋匹配已經(jīng)在數(shù)據(jù)內(nèi)的指紋,在進(jìn)入文件T秒計(jì)算的指紋被加到該數(shù)據(jù)庫(kù)。以此方式,聲頻文件或者使得單個(gè)指紋加到該數(shù)據(jù)庫(kù)(若未找到匹配),或沒(méi)有指紋加到該數(shù)據(jù)庫(kù)(若找到任何匹配)。在一個(gè)例子中計(jì)算的指紋從6秒的聲頻產(chǎn)生,且包括64個(gè)浮點(diǎn)數(shù),以及歸一化因子(也是浮點(diǎn)數(shù))。能夠理解,能利用其他時(shí)間值和浮點(diǎn)變量的數(shù)。
為了達(dá)到上述和有關(guān)目的,這里結(jié)合下面的描述及附圖闡述本發(fā)明的某些示例性方面。這些方面是實(shí)施本發(fā)明的各種方法的表示。從結(jié)合附圖對(duì)本發(fā)明的下面詳述,本發(fā)明的其他優(yōu)點(diǎn)和新穎特征將變得一目了然。
附圖簡(jiǎn)述
圖1是按本發(fā)明的一個(gè)方面的聲頻復(fù)制檢測(cè)系統(tǒng)的原理方框圖。
圖2是按本發(fā)明的復(fù)制處理方面的概圖。
圖3是示出按本發(fā)明的用戶(hù)界面方面的概圖。
圖4是流程圖,示出按本發(fā)明的一個(gè)方面的聲頻復(fù)制過(guò)程。
圖5是示出按本發(fā)明的一個(gè)方面的聲頻指紋系統(tǒng)的概圖。
圖6是示出按本發(fā)明的一個(gè)方面的失真鑒定分析的概圖。
圖7是示出按本發(fā)明的一個(gè)方面的廣義特征值的概圖。
圖8是示出按本發(fā)明的一個(gè)方面的合適的操作環(huán)境的原理方框圖。
圖9是本發(fā)明能與其交互的示例計(jì)算環(huán)境的原理方框圖。
發(fā)明的詳述本發(fā)明涉及便于自動(dòng)檢測(cè)數(shù)據(jù)庫(kù)中復(fù)制的和/或損壞的聲頻文件的系統(tǒng)和方法。若希望的話(huà),在檢測(cè)時(shí)能對(duì)隨后從數(shù)據(jù)庫(kù)移除的文件加標(biāo)簽。在一個(gè)方面,管理聲頻信息的系統(tǒng)包括標(biāo)識(shí)聲頻文件各部分的指紋組件。檢測(cè)器根據(jù)在聲頻文件之間確定的代價(jià)對(duì)可能從數(shù)據(jù)存儲(chǔ)移除的一個(gè)或多個(gè)聲頻文件加檢簽。檢測(cè)器能根據(jù)代價(jià)低于預(yù)定閾值或根據(jù)最低代價(jià)分析對(duì)聲頻文件加標(biāo)簽。另外方面,提供用戶(hù)界面來(lái)管理聲頻文件。界面包括為可能從數(shù)據(jù)庫(kù)中移除的聲頻文件提供一個(gè)或多個(gè)選項(xiàng)的顯示組件和選擇這些選項(xiàng)的顯示組件和選擇這些選項(xiàng)并配置自動(dòng)聲頻剪輯組件的輸入組件,剪輯組件確定可能被移除的聲頻文件。
本專(zhuān)利中使用的術(shù)語(yǔ)“組件”,“對(duì)象”,“檢測(cè)器”,“系統(tǒng)”等意指計(jì)算機(jī)有關(guān)實(shí)體,或者是硬件,或者是硬件和軟硬件的組合,軟件,或者是執(zhí)行中的軟件。例如,組件能是在處理器上運(yùn)行的進(jìn)程,處理器,對(duì)象,可執(zhí)行碼,執(zhí)行的線(xiàn)程,程序,和/或計(jì)算機(jī),但不限于這些。作為說(shuō)明,在服務(wù)器上運(yùn)行的應(yīng)用軟件和服務(wù)器可以是一組件。一個(gè)或多個(gè)組件能駐留在一個(gè)執(zhí)行的進(jìn)程和/或線(xiàn)程中,且一個(gè)組件能本地位于一臺(tái)計(jì)算機(jī)和/或分布在兩臺(tái)或多臺(tái)計(jì)算機(jī)之中。而且這些組件能從其上存有各種數(shù)據(jù)結(jié)構(gòu)的計(jì)算機(jī)可讀介質(zhì)上執(zhí)行。各組件能如按照具有一個(gè)或多個(gè)數(shù)據(jù)包的信號(hào),通過(guò)本地和/或遠(yuǎn)程進(jìn)程通訊(如來(lái)自一個(gè)組件的數(shù)據(jù)通過(guò)信號(hào)與在本地系統(tǒng),分布式系統(tǒng)和/或經(jīng)如因特網(wǎng)那樣的網(wǎng)絡(luò)與其他系統(tǒng)交互)。
首先參考圖1,示出按本發(fā)明的一方面的聲頻復(fù)制檢測(cè)器系統(tǒng)100。系統(tǒng)100包括由復(fù)制檢測(cè)器120處理的聲頻文件的數(shù)據(jù)庫(kù)110。復(fù)制檢測(cè)器包括一個(gè)或多個(gè)內(nèi)部數(shù)據(jù)庫(kù)124和130,用于保存來(lái)自處理聲頻文件的分析器140的中間結(jié)果,以便確定如復(fù)制聲頻文件是否存在或文件是否已損壞的那些方面。指紋組件和歸一化組件在分析器140中操作,以判定聲頻文件的各部分是否為其他文件的復(fù)制,其中匹配檢測(cè)器為那些部分加標(biāo)簽為復(fù)制品(或如損壞文件或垃圾文件等某些其他名稱(chēng))。用戶(hù)界面150包括輸入部分,使用戶(hù)能輸入系統(tǒng)參數(shù)(如檢測(cè)分析參數(shù))和選擇文件來(lái)移除等。界面150的輸出能包括如要移除的聲頻文件的列表和系統(tǒng)100的配置選項(xiàng)。
在一個(gè)方面,指紋組件采用魯棒聲頻識(shí)別引擎(RARE),這在后面詳述,通常,用戶(hù)選擇從其搜索數(shù)據(jù)庫(kù)110的頂層目錄(稱(chēng)為根目錄),且隨后通過(guò)用戶(hù)界面150起動(dòng)檢測(cè)器120。通常,用戶(hù)供給系統(tǒng)兩上參數(shù)進(jìn)到聲頻文件多少秒(T)來(lái)提取對(duì)應(yīng)的指紋,和使用多大的‘指紋窗口’(s),其中S也以秒度量并在后面描述。然后檢測(cè)器120從根目錄穿過(guò)各子目錄向下搜索,并檢索通過(guò)其擴(kuò)展名(如,MP3,WMA和WAV文件)標(biāo)識(shí)的聲頻文件。當(dāng)檢測(cè)器找到聲頻文件,加載該文件并計(jì)算在進(jìn)入到該文件T-S秒開(kāi)始在進(jìn)入到該文件T+S秒結(jié)束的一系列指紋。在一個(gè)例子中,計(jì)算從產(chǎn)生6秒的聲頻,并包括64個(gè)浮點(diǎn)數(shù)以及歸一化因子(也是浮點(diǎn)數(shù))的指紋。可以理解,能采用其他時(shí)間值和浮點(diǎn)變量的數(shù)目。
如上指出,檢測(cè)器120至少利用兩個(gè)內(nèi)部數(shù)據(jù)庫(kù)124和130,也稱(chēng)DB1和DB2。如業(yè)內(nèi)所知,這些數(shù)據(jù)不必是單獨(dú)的數(shù)據(jù)庫(kù)。它們能是同一數(shù)據(jù)庫(kù)中的兩個(gè)列表,或甚至能以標(biāo)準(zhǔn)軟件。如C++中實(shí)現(xiàn),而不需要數(shù)據(jù)庫(kù)軟件。在DB1,記錄一般包括兩個(gè)對(duì)象指紋和與其相關(guān)的歸一化。在DB2,記錄一般包括三個(gè)對(duì)象文件名(通常認(rèn)為文件名包括全路徑和文件的名字),稱(chēng)為ID索引的相關(guān)索引,和稱(chēng)為‘偏移量’和‘距離’的兩個(gè)相關(guān)輸出參數(shù)。
ID索引的一個(gè)目的是保持跟蹤哪個(gè)文件被標(biāo)識(shí)為復(fù)制若在處理聲頻文件后,兩個(gè)文件具有相同的ID索引,則它們被識(shí)別為復(fù)制的,而若它們具有不同的ID索引,則它們被識(shí)別為不是復(fù)制的。雖然能采用外部數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)通常對(duì)系統(tǒng)是內(nèi)部的。而且雖然檢測(cè)器通常加載約2MB數(shù)據(jù)來(lái)計(jì)算指紋,檢測(cè)器120不需要外部指紋數(shù)據(jù)庫(kù)來(lái)操作。
在加載第一聲頻文件時(shí),計(jì)算并存儲(chǔ)在位置T開(kāi)始的指紋,還存儲(chǔ)文件的名字和位置。雖然不是所有文件具有存儲(chǔ)的指紋,所有加載的文件具有它們計(jì)算的指紋和它們存儲(chǔ)的名字和位置。在加載第二聲頻文件時(shí),在該文件的T-S位置處計(jì)算指紋,且此指紋與從第一文件計(jì)算的指紋比較。若存在匹配,則檢測(cè)器120注意到,由于它們的ID索引設(shè)置成同一數(shù)(處理的第一文件具有設(shè)置成0的ID索引),兩個(gè)文件包含同一聲頻,且隨后檢測(cè)器移到下一文件。若不存在匹配,檢測(cè)器對(duì)第二文件在進(jìn)入該文件的T-S+D秒處開(kāi)始計(jì)算指紋,其中D是步長(zhǎng)(如D=186ms)。
如上考慮,即使一個(gè)或兩個(gè)文件的開(kāi)始部分被丟失,聲頻文件能被識(shí)別為復(fù)制的。若對(duì)一個(gè)聲頻文件的指紋F在數(shù)據(jù)庫(kù)內(nèi),且新的文件比對(duì)F進(jìn)行測(cè)試,則只有一個(gè)在窗口中(在進(jìn)入到文件的T-S處開(kāi)始,在進(jìn)入到文件T+S秒處結(jié)束)計(jì)算的指紋需要匹配F,以便宣稱(chēng)為匹配。參數(shù)S能是用戶(hù)選擇的,所以用戶(hù)能針對(duì)關(guān)于移除一個(gè)或兩個(gè)聲頻文件開(kāi)始部分的魯棒性(robustness)平衡復(fù)制檢測(cè)的速度。通過(guò)如下排序比較,速度還能進(jìn)一步提高首先比對(duì)指紋數(shù)據(jù)庫(kù)校驗(yàn)在T秒處進(jìn)入文件的計(jì)算的指紋,然后校驗(yàn)在T-D秒處,再在T+D處,再在T-2D處,再在T+2D處等,直到整個(gè)(2S秒的持續(xù)時(shí)間)窗口被校驗(yàn)。以此方式,首先校驗(yàn)最可能的匹配位置,且當(dāng)找到匹配時(shí)系統(tǒng)能終止在指紋窗中的指紋(下面稱(chēng)為‘退出-bailing’),從而加速此過(guò)程。
上述過(guò)程一直繼續(xù)到找到匹配或在指紋窗(如在T-S秒開(kāi)始到在第二文件中在T+S秒開(kāi)始的指紋)中所有指紋已被計(jì)算。若找到匹配,通過(guò)將其ID索引設(shè)置成等于DB2中文件1的ID索引(在這種情況下為0),檢索器設(shè)置文件2是文件1的復(fù)制的標(biāo)志,并隨后退出(停止處理文件2)。若未找到匹配,檢測(cè)器(1)添加(已計(jì)算的)指紋T秒到對(duì)DB1的第二文件;(2)計(jì)算并保存對(duì)應(yīng)的歸一化,還保持DB1中的數(shù)據(jù);(3)設(shè)置其ID索引成id_index_max,并將其保存在DB2中;和(4)增量id_index_max。注意id_index_max通常初始化成0。以此方式id_index_max實(shí)際上是至今找到的各別的聲頻剪輯(clip)的總數(shù)。
在本發(fā)明的另外方面,檢測(cè)器不是退出而是計(jì)算和比較在指紋窗內(nèi)的所有指紋,以找到在第二文件中的最好匹配位置。例如,即使在第二文件中的第三個(gè)計(jì)算的指紋能匹配第一文件中的指紋,后續(xù)的指紋能產(chǎn)生最好的匹配,因而計(jì)算在指紋窗中所有指紋以找到最好的匹配。為了計(jì)算第二文件中的指紋離它所期望處有多遠(yuǎn),這是有用的。此分析轉(zhuǎn)而表明,相對(duì)于其他的一個(gè)文件在聲頻的開(kāi)始處已被剪輯,且還提供被舍棄的聲頻的持續(xù)時(shí)間。在這方面,存儲(chǔ)在DB2中兩個(gè)輸出參數(shù)之一是在找到最佳匹配處和在未被剪輯所在處之間的間隙的以秒計(jì)的持續(xù)時(shí)間。而且在這方面若找到匹配,第二參數(shù)存儲(chǔ)在DB2中與最佳匹配相關(guān)的‘距離’。該距離是兩個(gè)被比較的指紋如何不同的度量(若兩指紋等同則是0),且因而能用作兩個(gè)匹配的聲頻文件如何不同的度量。例如,兩個(gè)匹配文件可能是同一歌曲的再混合,且雖然仍在閾值之下,距離能夠相當(dāng)大。
不論是否利用退出,檢測(cè)器120根據(jù)存儲(chǔ)的和計(jì)算的指紋之間的距離確定是否宣稱(chēng)為匹配。若距離在固定閾值之下,則宣稱(chēng)是匹配,另一方面,那個(gè)最低距離(通過(guò)將在指紋窗中所有指紋與數(shù)據(jù)庫(kù)中所有指紋比較來(lái)計(jì)算)存入DB2。在不同的例程中計(jì)算偏移和距離而不總是完成計(jì)算的一個(gè)理由是計(jì)算這些數(shù)量更耗費(fèi)計(jì)算量(因而更慢),因?yàn)闉榱诉@樣做,要計(jì)算和比較指紋窗口中的所有指紋。在利用退出的本發(fā)明的第一方面,檢測(cè)器在找到匹配時(shí)退出。雖然在此情況仍保持相關(guān)的距離和偏移量,此信息不太有用,因?yàn)橐源朔绞接?jì)算的偏移量是對(duì)真實(shí)偏移量的粗略近似,且以此方式計(jì)算的距離僅是真實(shí)(最小)距離的上界。
在上述之后,檢測(cè)器以類(lèi)似方式迭代通過(guò)在由用戶(hù)選擇的目錄樹(shù)中的所有聲頻文件迭代。即,加載每個(gè)聲頻文件,在指紋窗中計(jì)算其指紋,且若任何那樣的指紋匹配已在DB1中的任何指紋,則說(shuō)明是匹配的并如上保存,否則該聲頻剪輯被宣稱(chēng)為不同于至今加載的所有聲頻,且它的指紋(計(jì)算的T秒中)保存在DB1中,它的索引在DB2中設(shè)置成id_indwx_max,且還遞增id_indwx_max。而且計(jì)算并在DB1中保存聲頻文件的歸一化,用于與對(duì)應(yīng)于其他已加載的聲頻剪輯比較。以此方式,每個(gè)文件只加載一次,且為處理此文件只需通過(guò)一輪。在文件被處理之后,使用DB2向用戶(hù)界面160輸出復(fù)制文件的列表。實(shí)現(xiàn)此過(guò)程的一個(gè)方法是打印所有文件名,其中‘在文件名之間無(wú)空行表明它們是復(fù)制的,空行表明該空行之上及之下的文件不是復(fù)制的。在上述另一方面,對(duì)應(yīng)打印的文件名后面跟著對(duì)應(yīng)的距離和偏移量(對(duì)在復(fù)制列表中的第一文件均是0)。
現(xiàn)參考圖2,示出按本發(fā)明的復(fù)制處理器200和相關(guān)的處理方面。復(fù)制處理器200包括比上面參考圖1描述的對(duì)聲頻文件更進(jìn)一步的處理,以便于聲頻文件的管理。這能包括在210處給檢測(cè)到的錯(cuò)誤狀態(tài)加標(biāo)志,并在220處列表與那個(gè)錯(cuò)誤相關(guān)的文件。若當(dāng)試圖加載文件時(shí),文件不能讀出,或標(biāo)題與聲頻文件中期望的標(biāo)題不一致,或遇到其他錯(cuò)誤狀態(tài),處理器200只對(duì)該文件作出錯(cuò)誤狀態(tài)的記錄且移到下一文件。然而當(dāng)完成文件處理時(shí),系統(tǒng)首先輸出遇到的文件名,以及為何它不處理該文件的理由(如‘不支持的采樣率’或由于DRM限止“不能打開(kāi)”)。在220此列表能在名為“損壞文件”的單個(gè)塊中輸出。
另外有用的功能應(yīng)用到作為聲頻成功加載但例如包含噪聲或某些其他缺陷的文件。對(duì)每個(gè)文件;在應(yīng)用其他處理之前,在從該文件抽取的指紋在230處與“veto(否決)”指紋的列表比較,它們是以前通過(guò)對(duì)少量聲頻類(lèi)型,如白噪聲或在無(wú)輸入時(shí)從各種聲卡記錄的那些,計(jì)算指紋和歸一化而計(jì)算得到的。若對(duì)所談?wù)摰奈募闹讣y匹配任何這些“veto指紋”,則該文件被知道是“垃圾”,且能如此標(biāo)志。而且,當(dāng)聲頻文件的處理完成時(shí),這些“垃圾”文件能在240在題為“垃圾的文件”的塊中列出。以此方式,系統(tǒng)不僅找出復(fù)制品,但也能標(biāo)識(shí)用戶(hù)校驗(yàn)并可能想刪除的其他文件。
轉(zhuǎn)向圖3,按本發(fā)明的一方面示出用戶(hù)界面處理300。當(dāng)對(duì)給定文件發(fā)現(xiàn)某些復(fù)制或損壞時(shí),系統(tǒng)能通過(guò)用戶(hù)界面310試圖比較復(fù)制品,并向用戶(hù)提供各種選項(xiàng),要保存哪一個(gè)。對(duì)刪除,用戶(hù)界面310能通過(guò)兩個(gè)或多個(gè)階段。在階段1在320,文件被安排為可能刪除;在階段2在330,用戶(hù)選擇對(duì)應(yīng)文件的哪一個(gè)實(shí)際被刪除。
關(guān)于320處的階段1,本發(fā)明能(1)提供用戶(hù)根據(jù)在340的質(zhì)量比較保持一個(gè)或多個(gè)復(fù)制品的能力;(2)根據(jù)它們?cè)?50處的編碼給出對(duì)文件的優(yōu)選的處理;和/或(3)根據(jù)在360的數(shù)字權(quán)限管理給出優(yōu)選的處理。例如在質(zhì)量比較方面340若兩文件具有相同的編碼類(lèi)型(如它們均是WMA,或均是MP3),且若它們具有不同的位速率,但它們?cè)谄渌矫嫦嗨?,則保持較高位速率(從而軟高質(zhì)量)的文件(即將其他文件被安排為可能刪除)。類(lèi)似地,若兩個(gè)文件具有相同的編碼類(lèi)型,且除一個(gè)比另一個(gè)有更長(zhǎng)延續(xù)時(shí)間以外其他所有方面相似,則能保存更長(zhǎng)持續(xù)時(shí)間的文件(所以刪除的文件一般是被剪輯的)。通常,若兩個(gè)文件在除一個(gè)方面的所有其他方面類(lèi)似,則較低質(zhì)量的文件將被選擇為可能的刪除。另外,若用戶(hù)的目標(biāo)主要是增加盤(pán)空間,用戶(hù)能選擇保存較低質(zhì)量,但較小的文件。
關(guān)于在350處的編碼,若一個(gè)文件具有WMA編碼類(lèi)型,而另一個(gè)具有MP3編碼類(lèi)型,則可能要保存WMA。這就授予內(nèi)容/服務(wù)提供者選擇更喜歡哪種編碼的能力。例如,一個(gè)公司為了各種業(yè)務(wù)原因喜愛(ài)WMA編碼。關(guān)于在360處的數(shù)字權(quán)限管理,若一個(gè)文件比另一個(gè)服從更強(qiáng)的數(shù)字管理權(quán)限保護(hù),則后者將是安排為可能刪除的文件(例如若一個(gè)文件由于FRM是不可拷貝的,而另一個(gè)可拷貝,則后者被安排為到被刪除處)。在這方面,復(fù)制刪除被用于“調(diào)整-align”給定的歌曲到最強(qiáng)的DRM約束,那是該用戶(hù)同意的。當(dāng)然可能有用戶(hù)故意需要同一歌曲帶各種強(qiáng)度DRM的拷貝的情況,那種情況能在330的階段2之中處理。可以理解,雖然上述例子是基于文件之間的雙向比較,也能用多向比較。
關(guān)于330處的階段2,向用戶(hù)呈現(xiàn)關(guān)于在370實(shí)際上刪除哪個(gè)文件的各種選擇,且在用戶(hù)確認(rèn)之后,那些選為刪除的文件被刪除。也能根據(jù)復(fù)制檢測(cè)器有多少把握認(rèn)為那些文件實(shí)際上是復(fù)制的,來(lái)向用戶(hù)呈現(xiàn)各種等級(jí)的警告。此處,在階段2,用戶(hù)界面310能為用戶(hù)提供比較兩個(gè)復(fù)制品的‘快速瀏覽’能力。例如,假設(shè)發(fā)現(xiàn)文件(A)和文件(B)是復(fù)制品,且除(A)更長(zhǎng)以外(A)和(B)相擬。因?yàn)閺?fù)制檢測(cè)器能通過(guò)操作判定在兩個(gè)拷貝中在哪里匹配指紋,且因?yàn)樗卸慷温曨l的總的持續(xù)時(shí)間,它知道,是否(A)在開(kāi)始處長(zhǎng)于(B)或是否(A)在結(jié)束處長(zhǎng)于(B),或兩處均較長(zhǎng)。然后用戶(hù)界面310能播放看來(lái)不包括在文件(B)中的文件(A)的部分,且用戶(hù)能確定實(shí)際上他們是否希望保持兩個(gè)文件的較長(zhǎng)的那個(gè)(例如若差別僅是歡呼或安靜,它們能喜歡兩者的短的那個(gè))。
此外,若用戶(hù)不確定兩個(gè)文件確實(shí)是復(fù)制的,且不希望必須分別聽(tīng)每一個(gè),則他們能請(qǐng)求復(fù)制檢測(cè)器再次在兩個(gè)文件上運(yùn)行,但此時(shí)使用在不同位置的許多指紋來(lái)確定兩個(gè)文件的哪個(gè)部分實(shí)際上是復(fù)制的。例如,若一個(gè)文件3倍長(zhǎng)于另一個(gè),它們可能只在開(kāi)始處等同。以此方法,用戶(hù)界面310能再次調(diào)用復(fù)制檢測(cè)器來(lái)獲取關(guān)于具體文件的更多的信息,在所有用戶(hù)的聲頻文件中在初始運(yùn)行復(fù)制檢測(cè)器期間哪個(gè)在計(jì)算上花費(fèi)太多計(jì)算量。應(yīng)注意,所有上述檢測(cè)方法能用于標(biāo)識(shí)視頻的復(fù)制(如通過(guò)搜索聲道的復(fù)制)。
圖4是流程圖,示出按本發(fā)明的一方面的聲頻復(fù)制過(guò)程。雖然為了解釋簡(jiǎn)單起見(jiàn),方法示出并描述成一系列動(dòng)作,可以理解,本發(fā)明不限于動(dòng)作的次序,按本發(fā)明,某些動(dòng)作能以不同次序發(fā)生和/或與這里示出及描述的其他動(dòng)作進(jìn)發(fā)地發(fā)生。例如,業(yè)內(nèi)行家理解,方法能另外地表示成如在狀態(tài)圖中的一系列互相關(guān)聯(lián)的狀態(tài)或事件。此外不是所有示出的動(dòng)作是實(shí)施按本發(fā)明的方法所必需的。
魯棒聲頻識(shí)別引擎(RARE)復(fù)制檢測(cè)器DupDet能按圖4的基本過(guò)程400操作,例如在目錄樹(shù)中遞歸地處理聲頻文件。對(duì)每個(gè)創(chuàng)建的指紋也創(chuàng)建歸一化因子,使得從該指紋到從其他聲頻文件計(jì)算的指紋的大的集合的平均歐幾里得距離是1。這樣做使得在指紋對(duì)之間的計(jì)算距離能有用地比較。
過(guò)程400對(duì)每個(gè)文件創(chuàng)建一組蹤跡(trace),且針對(duì)其他聲頻文件創(chuàng)建的一組指紋校驗(yàn)它們。這里術(shù)語(yǔ)‘蹤跡(trace)’用于從針對(duì)數(shù)據(jù)庫(kù)測(cè)試的文件計(jì)算的指紋,而‘指紋’是被用于存儲(chǔ)在數(shù)據(jù)庫(kù)中的那些指紋。若在蹤跡和指紋之間的D(.,.)(距離)低于閾值,相關(guān)的諸文件被宣稱(chēng)為是復(fù)制的。對(duì)每個(gè)文件,在文件的固定位置T計(jì)算指紋,且在410在圍繞T的搜索窗S中計(jì)算蹤跡;其中S和T是用戶(hù)定義的。
如在420所述,過(guò)程400能在一輪中進(jìn)發(fā)地創(chuàng)建指紋并校驗(yàn)復(fù)制。當(dāng)在430讀出第一聲頻文件時(shí),計(jì)算并保存在位置T的6秒指紋。當(dāng)加載第二聲頻文件時(shí),以時(shí)間次序在410計(jì)算在窗口T-S到T+S中開(kāi)始的蹤跡(每個(gè)蹤跡在前一個(gè)之后1/6秒計(jì)算)。若在440這些蹤跡之一匹配,則該文件被宣稱(chēng)為復(fù)制品,并在450被添加到對(duì)該指紋的復(fù)制品列表中。若對(duì)搜索窗的整個(gè)蹤跡組未找到匹配,則在460該指紋(已在聲頻中位置T處計(jì)算)被保存,代表(至今)唯一的剪輯。系統(tǒng)還使用6個(gè)(或其他數(shù)目)‘veto指紋’,它們是從噪聲(如靜音,無(wú)輸入的聲卡等)收集的指紋。匹配veto指紋的聲頻文件也標(biāo)記為‘垃圾文件’。如圖所示,在470匹配作為復(fù)制品被加標(biāo)簽,在480和490能發(fā)生關(guān)于保存最好匹配記分,偏移,和匹配指紋ID等的其他處理。
圖5示出按本發(fā)明的一方面的聲頻指紋系統(tǒng)500。在流聲頻指紋(SAF)中,任務(wù)是標(biāo)識(shí)在聲頻流中的聲頻段,其中該流可能被噪音損壞。圖5的系統(tǒng)500示出整個(gè)布局。輸入聲頻流510的固定長(zhǎng)度段在520處首先被轉(zhuǎn)換成低維度的蹤跡(示作一時(shí)間間隔的向量)。然后輸入蹤跡520針對(duì)在530處存儲(chǔ)的預(yù)先計(jì)算的蹤跡(指紋)的大的組進(jìn)行比較,其中每個(gè)存儲(chǔ)的指紋以前已從特定聲頻段(如一歌曲)被提取。
輸入蹤跡520在流510的重復(fù)的時(shí)間間隔上計(jì)算,并與數(shù)據(jù)庫(kù)530比較。能通過(guò)使用次級(jí)指紋,在數(shù)據(jù)庫(kù)內(nèi)找到的輸入蹤跡然后能以可忽略不計(jì)的計(jì)算代價(jià)加以確認(rèn)。典型的應(yīng)用包括識(shí)別廣播聲頻,如為了王位評(píng)估(royaltyassessment),或?yàn)榱舜_認(rèn)商業(yè)被廣播成對(duì)資助者的服務(wù);使軟件玩家識(shí)別用戶(hù)產(chǎn)生的CD上的信息道;尋找對(duì)未加標(biāo)記聲頻的元數(shù)據(jù);或在大的聲頻數(shù)據(jù)庫(kù)自動(dòng)檢索復(fù)制品。本發(fā)明能采用稱(chēng)為失真鑒別分析(DDA)的算法自動(dòng)從聲頻中提取耐噪聲(noise-robust)的特征。DDA特征由線(xiàn)性,卷積神經(jīng)網(wǎng)絡(luò)計(jì)算,在那里每層完成定向主分量分析(OPCA)維度縮減的一個(gè)版本。
為建立抵抗失真的魯棒性,DDA評(píng)估,假設(shè)一組訓(xùn)練信號(hào)的失真版本是可用的。要求失真信號(hào)的樣本是不那么苛求,而比要求知道真實(shí)的噪聲則更平常。DDA一般不認(rèn)為失真是加性的也處理非線(xiàn)性失真。雖然能夠訓(xùn)練在測(cè)試階段所期望的特定失真是有用的,DDA能推廣到對(duì)未用于訓(xùn)練的失真是魯棒的。預(yù)計(jì)算的蹤跡稱(chēng)為“指紋”,因?yàn)樗鼈儽挥糜谖ㄒ坏貥?biāo)識(shí)聲頻段。雖然通過(guò)使用更多的指紋能進(jìn)一步減少錯(cuò)誤速率,通常每個(gè)聲頻剪輯使用一個(gè)或現(xiàn)兩個(gè)指紋。而且在下面描述中,給出某些數(shù)學(xué)背景,其中矢量以黑體字標(biāo)記,它們的分量以正常字體標(biāo)記,帶撇號(hào)字母表記轉(zhuǎn)置。
給出一組向量Xi∈Rd,i=1,...,m,其中每個(gè)Xi代表一信號(hào)(這里及下面,未失真的數(shù)據(jù)稱(chēng)為“信號(hào)”數(shù)據(jù)),并假設(shè)對(duì)每個(gè)Xi具有一組N個(gè)失真的版本 k=1,...,N。定義對(duì)應(yīng)差矢量Zik≡X~ik-Xi]]>(下面稱(chēng)為“噪聲”矢量)。一般希望找到線(xiàn)性投影,它盡可能對(duì)所有k正交于Zik,但沿著它原始信號(hào)Xi的方差最大。標(biāo)記定義希望的投影的單位矢量為ni,i=1,...,M,其中M將由用戶(hù)選擇。暫時(shí)通過(guò)選擇M=1來(lái)簡(jiǎn)化討論。
能構(gòu)造一特征提取器n,它最小化重構(gòu)的均方差(1/mN) 其中Xik≡(X~ik·n)n.]]>直接示出,解此問(wèn)題的n是R1-R2的具有最大特征值的特征向量,其中R1,R2分別是Xi和Zi的相關(guān)矩陣。然而,此特征提取器具有不希望有的特性,若噪聲和信號(hào)矢量用兩個(gè)不同比例因子整體換算,n的方向?qū)⒏淖?。而是,OPCA(有向的PCA)方向被定義成最大化廣義Rayleigh商的那些方向nqo=n′c1nn′c2n---(1)]]>其中C1是信號(hào)的協(xié)方差矩陣而C2是噪聲的協(xié)方差矩陣。然而與OPCA的初始形式不同,使用噪聲的相關(guān)矩陣而非協(xié)方差距陣,因?yàn)橄MP平均噪聲信號(hào)及其方差。直接取C≡1mΣi(Xi-E[X])(Xi-E[x])′---(2)]]>R≡1mNΣi,kZik(Zik)′---(3)]]>并最大化廣義的Rayleigh商q=n′Cnn′Rn---(4)]]>(4)中的分子是信號(hào)數(shù)據(jù)沿單位向量n的投影的方差,而分母是投影的均方“誤差”(所有噪聲向量Zik沿n投影的平均平方模)。
方向nj能通過(guò)沿設(shè)置q=0找到,它給出廣義特特值問(wèn)題q=qRn (5)可直接得到1)對(duì)正半定C,R(如在此情況),廣義特征值是正的。但若R不是滿(mǎn)秩,問(wèn)題被規(guī)則化為好姿態(tài)(Well-posed);2)對(duì)信號(hào)或噪聲改變比例,雖然特征值將改變,但OPCA的方向不變;3)ni是線(xiàn)性無(wú)關(guān),或能選擇成線(xiàn)性無(wú)關(guān);4)雖然ni不必需正交,它們相對(duì)于矩陣C和R是共軛的;5)通過(guò)選擇n為最高加權(quán)廣義特征向量,q被最大化。
對(duì)如聲頻的高維數(shù)據(jù),OPCA能在多個(gè)層次中應(yīng)用。如考慮從6秒聲頻提取64維的指紋,聲頻信號(hào)被轉(zhuǎn)換成單音的且降低采樣到11025HZ,隨后的特征提取將維度66150的矢量映射到維度64的矢量。在此情況直接解廣義特征值問(wèn)題是不可行的。相反,OPCA能在兩個(gè)層次上應(yīng)用,其中第一層在小窗口上計(jì)算的對(duì)數(shù)譜上操作,而第二層在通過(guò)由第一層產(chǎn)生的累計(jì)矢量計(jì)算的矢量上操作。此方法稱(chēng)為“失真鑒別分析”(DDA)。DDA是線(xiàn)性方法;在給定層發(fā)生的投影可被看作為卷積。因此,DDA能看作線(xiàn)性卷積神經(jīng)網(wǎng)絡(luò),其中權(quán)重使用OPCA所選擇的。
在DDA中,每個(gè)后續(xù)層看到比前一層更寬的時(shí)間窗對(duì)該層找到的特征方向適宜于該特定的時(shí)間比例。這是DDA的特征;例如,它可以用來(lái)補(bǔ)償對(duì)齊噪聲,它被定義成由于存儲(chǔ)的指紋能在時(shí)間上錯(cuò)開(kāi)輸入蹤跡的相位而導(dǎo)致的噪聲。在最壞情況,指紋能從用于計(jì)算兩個(gè)相鄰輸入蹤跡的兩個(gè)幀之間各跨一半的幀計(jì)算。在DDA系統(tǒng)中對(duì)這種時(shí)間失真的補(bǔ)償應(yīng)當(dāng)被應(yīng)用于最近的層,因?yàn)樗鼈兛吹阶顚挼臅r(shí)間窗。
DDA不僅使測(cè)試階段在計(jì)算上有效,并允許以不同的時(shí)間尺度來(lái)補(bǔ)償失真;它在訓(xùn)練階段也是有效的。能計(jì)算需要的協(xié)方差和相關(guān)距陣,若希望則一次一個(gè)矢量。因此,這些距陣能使用任意大量的數(shù)據(jù)來(lái)估計(jì)。在估計(jì)了這些矩陣后,能用標(biāo)準(zhǔn)的數(shù)值線(xiàn)性代數(shù)程序包來(lái)計(jì)算廣義特征值。
圖6示出按本發(fā)明的一方面的失真鑒別分析系統(tǒng)。用于聲頻處理的技術(shù),如從語(yǔ)音提取特征的技術(shù),常使用20ms數(shù)量級(jí)的幀持續(xù)期。然而為了減少對(duì)指紋應(yīng)用的計(jì)算開(kāi)銷(xiāo),希望以約每秒幾次從流產(chǎn)生蹤跡。對(duì)20ms的輸入幀,在最后DDA層使用的步長(zhǎng)必須以低于100HZ的初始采樣速率采樣,這將引起混疊,它將起到另外的失真源作用。圖6中示出的系統(tǒng)避免了此問(wèn)題。通常不存在混疊,因?yàn)殡S著采樣速率減少不存在中間層。由于此要求以及在約半秒的時(shí)間數(shù)量級(jí)上產(chǎn)生蹤跡的要求,很大地約束了可能的第一層的時(shí)間幀的持續(xù)期間。而且時(shí)間上寬的第一層允許DDA在選擇頻率空間中的重要方向上有更大的靈活性。
圖7示出按本發(fā)明的一方面的廣義特征值700。圖7示出,通過(guò)在訓(xùn)練數(shù)據(jù)上測(cè)量的廣義特征譜引導(dǎo)了對(duì)上述系統(tǒng)600的第一層的64輸出維度的選擇。來(lái)自第一層大部分有關(guān)信息在前100個(gè)投影中被捕捉。在第二層的譜下降不迅速。然而為加速數(shù)據(jù)庫(kù)查找,只考慮第二層上前64個(gè)投影。通過(guò)只在每372ms而非每186ms采樣,能進(jìn)一步增加數(shù)據(jù)庫(kù)查找的速度2倍。
上述流聲頻指紋系統(tǒng)首先將立體聲聲頻信號(hào)轉(zhuǎn)換成單音并隨后降低采樣到11025HZ。信號(hào)波分裂成固定長(zhǎng)度372ms的幀,互相重疊一半。然后應(yīng)用MCLT(重疊加窗富立葉變換)到每個(gè)幀。通過(guò)取每個(gè)MCLT系統(tǒng)的對(duì)數(shù)模而產(chǎn)生對(duì)數(shù)譜。流聲頻指紋系統(tǒng)執(zhí)行兩個(gè)每幀的預(yù)處理步驟,它們抑制了具體的易于識(shí)別的失真。
第一預(yù)處理步驟去除由頻率均衡和音量調(diào)節(jié)引起的失真。通過(guò)取對(duì)數(shù)譜的DCT,通過(guò)令每個(gè)DCT系數(shù)乘以從對(duì)第1分量為1到第6和更高分量為0線(xiàn)性斜坡的權(quán)重,并隨后執(zhí)行逆向DCT,此“去均衡閾值(de-equalizationthresholding)”步驟將低通濾波器應(yīng)用于對(duì)數(shù)譜。這導(dǎo)致對(duì)該對(duì)數(shù)譜的光滑逼近A。然后A被均勻地降低6dB并在-70dB處被鉗位。若在對(duì)數(shù)譜之間按分量方式的差是正,則第一預(yù)處理步驟的輸出矢量就是該差值,否則為0。
第二預(yù)處理步驟去除信號(hào)中不能被人聽(tīng)到的失真。此步驟將來(lái)自第一步驟的對(duì)數(shù)譜取指數(shù),然后由算法產(chǎn)生與頻率相關(guān)的可感覺(jué)的閾值。若對(duì)數(shù)譜和對(duì)數(shù)感覺(jué)閾值之間的以dB表示的差是正的,則最終預(yù)處理信號(hào)就是該差值,否則為零。最終預(yù)處理數(shù)據(jù)包括每幀2048個(gè)實(shí)系數(shù)(因此2048頻帶)。
參考圖8用于實(shí)施本發(fā)明的各方面的示例環(huán)境包括計(jì)算機(jī)912。計(jì)算機(jī)912包括處理單元914,系統(tǒng)存儲(chǔ)器916,和系統(tǒng)總線(xiàn)918。系統(tǒng)總線(xiàn)918將包括,但不限于,系統(tǒng)存儲(chǔ)器916的系統(tǒng)組件耦合到處理單元914。處理單元916能是各種可用處理器的任一種。作為處理單元914能采用雙微處理器和其他多微處理器體系結(jié)構(gòu)。
系統(tǒng)總線(xiàn)918能是若干總線(xiàn)結(jié)構(gòu)類(lèi)型的任一種,包括存儲(chǔ)器總線(xiàn)或存儲(chǔ)器控制器,外圍總線(xiàn)或外部總線(xiàn),和/或使用各種可用總線(xiàn)體系結(jié)構(gòu)的任一種的局部總線(xiàn),包括,但不限于,16位總線(xiàn),工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA),微通道體系結(jié)構(gòu)(MSA),擴(kuò)展ISA(EISA),智能驅(qū)動(dòng)電子(IDE),VESA局部總線(xiàn)(VLB),外圍部件互連(PCI),通用串口總線(xiàn)(USB)高級(jí)圖象端口(AGP),個(gè)人計(jì)算機(jī)存儲(chǔ)卡國(guó)際協(xié)會(huì)總線(xiàn)(PCMCIA),和小型計(jì)算機(jī)系統(tǒng)接口(SCSI)。
系統(tǒng)存儲(chǔ)器916包括易失性存儲(chǔ)器920和非易失性存儲(chǔ)器922。包含如在起動(dòng)時(shí)在計(jì)算機(jī)912中各單元之間傳遞信息的基本例程的基本輸入/輸出系統(tǒng)(BTOS)存儲(chǔ)在非易失性存儲(chǔ)器922中。作為解釋而非限制,非易失性存儲(chǔ)器922能包括只讀存儲(chǔ)器(ROM),可編程ROM(PROM),電可編程ROM(EPROM),電可擦除ROM(EEPROM),或閃存卡。易失性存儲(chǔ)器920包括可用作外部高速緩沖存儲(chǔ)器的隨機(jī)存儲(chǔ)器(RAM)。作為解釋而非限制,RAM可有許多方式,如同步RAM(SRAM),動(dòng)態(tài)RAM(DRAM),同步DRAM(SDRAM),雙數(shù)據(jù)速率SDRAM(DDR SDRAM),增強(qiáng)型SDRAM(ESDRAM),同步鏈接(Synchlink)DRAM(SLDRAM),和直接內(nèi)存總線(xiàn)RAM(DRRAM)。
計(jì)算機(jī)912還包括可移動(dòng)/不可移動(dòng),易失性/非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)。例如圖8示出盤(pán)存儲(chǔ)器924。盤(pán)存儲(chǔ)器924包括,但不限于,如磁盤(pán)驅(qū)動(dòng)器,軟盤(pán)驅(qū)動(dòng)器,磁帶驅(qū)動(dòng)器,Jaz驅(qū)動(dòng)器,Zip驅(qū)動(dòng)器,LS-100驅(qū)動(dòng)器,閃存卡,或存儲(chǔ)棒(stick)等設(shè)備。此外,盤(pán)驅(qū)動(dòng)器能包括單獨(dú)的存儲(chǔ)介質(zhì),或與其他存儲(chǔ)介質(zhì)結(jié)合,包括,但不限于,如緊致盤(pán)ROM驅(qū)動(dòng)器(CD-ROM)的光盤(pán)驅(qū)動(dòng)器,CD可記錄驅(qū)動(dòng)器(CD-R Drive)CD可改寫(xiě)驅(qū)動(dòng)器(CD-RW Drive)或數(shù)字多功能盤(pán)ROM驅(qū)動(dòng)器(DVD-ROM)。為便于盤(pán)存儲(chǔ)設(shè)備924到系統(tǒng)總線(xiàn)的連接,通常使用如接口926那樣的可移動(dòng)或不可移動(dòng)接口。
可以理解,圖8描述作為用戶(hù)和在合適的操作環(huán)境910描述的基本計(jì)算機(jī)資源之間的中介的軟件。那樣的軟件包括操作系統(tǒng)928。能存儲(chǔ)在盤(pán)存儲(chǔ)器924的操作系統(tǒng)928起著控制和分配計(jì)算機(jī)系統(tǒng)912的資源的作用。系統(tǒng)應(yīng)用930得益于由操作系統(tǒng)928通過(guò)存儲(chǔ)在系統(tǒng)存儲(chǔ)器916或盤(pán)存儲(chǔ)器924上的程序模塊932或程序數(shù)據(jù)934對(duì)資源的管理??梢岳斫猓景l(fā)明能用各種操作系統(tǒng)或各操作系統(tǒng)的組合實(shí)現(xiàn)。
用戶(hù)通過(guò)輸入設(shè)備936將命令或信息輸入到計(jì)算機(jī)912。輸入設(shè)備936包括,但不限于,如鼠標(biāo)的指點(diǎn)設(shè)備,跟蹤球,筆尖,觸摸墊,鍵盤(pán),麥克風(fēng),操縱桿,游戲墊,圓盤(pán)式衛(wèi)星天線(xiàn),掃描儀,TV調(diào)諧卡,數(shù)碼相機(jī),數(shù)碼錄相機(jī),web相機(jī)等。這些和其他輸入設(shè)備經(jīng)接口端938通過(guò)系統(tǒng)總線(xiàn)918連接處理單元914。接口端包括如串行口,并行口,游戲端口,和通用串行總線(xiàn)(USB)。輸出設(shè)備940使用某些如輸入設(shè)備936同樣類(lèi)型的端口。因此,如USB端口能用于提供到計(jì)算機(jī)912的輸入,并從計(jì)算機(jī)912輸出信息到輸出設(shè)備940。提供輸出適配器942,說(shuō)明存在某些輸出設(shè)備,如監(jiān)視器,擴(kuò)音器,打印機(jī)及其他輸出設(shè)備,它們需要專(zhuān)門(mén)適配器。作為說(shuō)明但非限止,輸出適配器942包括視頻卡及聲卡,它們提供在輸出設(shè)備940和系統(tǒng)總線(xiàn)918之間的連接裝置。應(yīng)該注意,其他設(shè)備和/或設(shè)備系統(tǒng)可以如遠(yuǎn)程計(jì)算機(jī)944那樣提供輸入和輸出能力。
計(jì)算機(jī)912使用到如遠(yuǎn)程計(jì)算機(jī)944那樣的一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī)的邏輯連接,在網(wǎng)絡(luò)環(huán)境中操作。遠(yuǎn)程計(jì)算機(jī)944能是個(gè)人計(jì)算機(jī),服務(wù)器,路由器,網(wǎng)絡(luò)PC,工作站,基于微處理器的電器裝置,對(duì)等設(shè)備或其他公共網(wǎng)絡(luò)節(jié)點(diǎn)等,并通常包括關(guān)于計(jì)算機(jī)912描述的許多或所有單元。為簡(jiǎn)單起見(jiàn),僅對(duì)遠(yuǎn)程計(jì)算機(jī)944示出存儲(chǔ)器設(shè)備946。遠(yuǎn)程計(jì)算機(jī)944通過(guò)網(wǎng)絡(luò)接口948在邏輯上連接到計(jì)算機(jī)912,因而是通過(guò)通訊連結(jié)950物理上連結(jié)。網(wǎng)絡(luò)接口948包括如局域網(wǎng)(LAN)和廣域網(wǎng)(WAN)的通訊連接。LAN技術(shù)包括光纖分布式數(shù)字接口(FDDI),銅線(xiàn)分布式數(shù)字接口(CDDI),以太網(wǎng)/IEEE1102.3,令牌環(huán)網(wǎng)1102.5等。WAN技術(shù)包括,但不限于,點(diǎn)對(duì)點(diǎn)鏈路,如綜合業(yè)務(wù)數(shù)字網(wǎng)(ISDN)及其變種的電路交換網(wǎng),分組交換網(wǎng)和數(shù)字用戶(hù)線(xiàn)(DSL)。
通訊連接950指的是用來(lái)連接網(wǎng)絡(luò)接口948到總線(xiàn)918的硬件/軟件,雖然為說(shuō)明清楚,通訊連接950示出在計(jì)算機(jī)912之內(nèi),它也能在計(jì)算機(jī)912外部。僅為示例的目的,用于連接到網(wǎng)絡(luò)接口948所必需的硬件/軟件包括內(nèi)置和外接技術(shù),如包括常規(guī)的電話(huà)等級(jí)調(diào)制解調(diào)器,電纜調(diào)制解調(diào)器,DSL調(diào)制解調(diào)器,ISDN適配器,和以太網(wǎng)卡。
圖9是本發(fā)明能與其交互的范例計(jì)算環(huán)境1000的原理方框圖。系統(tǒng)1000包括一個(gè)或多個(gè)客戶(hù)機(jī)1010??蛻?hù)機(jī)1010能是硬件和/或軟件(如線(xiàn)程,進(jìn)程,計(jì)算設(shè)備)。系統(tǒng)1000還包括一個(gè)或多個(gè)服務(wù)器1030。服務(wù)器1030也能是硬件和/或軟件(如線(xiàn)程,進(jìn)程,計(jì)算設(shè)備)。例如,服務(wù)器1030能包容由采用本發(fā)明完成的轉(zhuǎn)換的線(xiàn)程。在客戶(hù)機(jī)1010和服務(wù)器1030之間一種可能的通訊能是以適宜在兩個(gè)或多個(gè)計(jì)算機(jī)進(jìn)程之間發(fā)送的數(shù)據(jù)分組的形式。系統(tǒng)1000包括通訊框架1050,它能用于便于在客戶(hù)機(jī)1010和服務(wù)器1030之間的通訊??蛻?hù)機(jī)1010在操作上連結(jié)到一個(gè)或多個(gè)客戶(hù)機(jī)數(shù)據(jù)存儲(chǔ)器1060,它能用于在客戶(hù)機(jī)1010上本地存儲(chǔ)信息。類(lèi)似地,服務(wù)器1030在操作上連接一個(gè)或多個(gè)服務(wù)器數(shù)據(jù)存儲(chǔ)器1040,它能用于在服務(wù)器1030上本地存儲(chǔ)信息。
上述的討論包括本發(fā)明的例子。當(dāng)然,為描述本發(fā)明的目的,不可能描述組件或方法的每個(gè)想得到的組合,但業(yè)內(nèi)行家認(rèn)識(shí)到,本發(fā)明的許多進(jìn)一步組合和變更是可能的。因而,本發(fā)明力圖包容落入所附的權(quán)利要求的精神和范圍內(nèi)的所有更改,修改和變種。此外,在上述詳述的權(quán)利要求中使用的術(shù)語(yǔ)“包括(include)”的范圍而言,那樣的術(shù)語(yǔ)以類(lèi)似于術(shù)語(yǔ)“包含(comprising)”的方式是包括性的,因?yàn)椤鞍痹跈?quán)利要求中使用時(shí)被解釋成過(guò)渡(transitional)詞。
權(quán)利要求
1.一個(gè)管理聲頻信息的系統(tǒng),包括將多個(gè)聲頻文件的各部分映射到對(duì)應(yīng)的指紋的指紋組件;和部分地根據(jù)諸指紋之間的距離,對(duì)一個(gè)或多個(gè)聲頻文件加標(biāo)簽,以便潛在地從數(shù)據(jù)存儲(chǔ)設(shè)備移除的檢測(cè)器。
2.如權(quán)利要求1的系統(tǒng),其特征在于所述檢測(cè)器根據(jù)在各指紋之間的所述距離低于預(yù)定閾值時(shí)給所述聲頻文件加標(biāo)簽。
3.如權(quán)利要求1的系統(tǒng),其特征在于所述指紋組件對(duì)一個(gè)文件還產(chǎn)生多個(gè)指紋,所述多個(gè)指紋對(duì)應(yīng)于在所述文件中聲頻的一個(gè)時(shí)間窗,且其中所述檢測(cè)器根據(jù)在對(duì)每個(gè)文件多個(gè)指紋和一個(gè)或多個(gè)存儲(chǔ)的指紋之間的最低距離對(duì)所述聲頻文件加標(biāo)簽。
4.如權(quán)利要求3的系統(tǒng),其特征在于安排指紋組件以接收在所述聲頻文件中的時(shí)間偏移和在所述文件中時(shí)間窗的持續(xù)時(shí)間。
5.如權(quán)利要求1的系統(tǒng),其特征在于所述指紋組件計(jì)算指紋,它從多于1秒的聲頻中產(chǎn)生,并由約64個(gè)浮點(diǎn)數(shù)組成。
6.如權(quán)利要求1的系統(tǒng),其特征在于所述檢測(cè)器至少利用兩個(gè)稱(chēng)為DB1和DB2的數(shù)據(jù)庫(kù),在DB1,一個(gè)記錄包括一指紋和包含歸一化因子的有關(guān)數(shù)量,在DS2,一個(gè)記錄至少包括4個(gè)對(duì)象文件名,稱(chēng)為ID索引的相關(guān)索引,‘偏移’參數(shù)和‘距離’參數(shù)。
7.如權(quán)利要求4的系統(tǒng),其特征在于所述檢測(cè)器計(jì)算并比較在一個(gè)時(shí)間窗中的所有指紋,以便找出在已被處理的文件中的最佳匹配位置。
8.如權(quán)利要求7的系統(tǒng),其特征在于利用所述檢測(cè)器來(lái)確定一個(gè)聲頻文件的身份。
9.如權(quán)利要求8的系統(tǒng),其特征在于所述身份包括與一聲頻文件相關(guān)的元數(shù)據(jù)。
10.如權(quán)利要求1的系統(tǒng),其特征在于還包括一數(shù)據(jù)庫(kù),利用它來(lái)向用戶(hù)界面輸出復(fù)制的或有缺陷的聲頻文件的列表。
11.如權(quán)利要求10的系統(tǒng),其特征在于所述檢測(cè)器在處理所述聲頻文件時(shí)登錄出錯(cuò)狀態(tài),并向用戶(hù)界面輸出與出錯(cuò)狀態(tài)相關(guān)的文件列表。
12.如權(quán)利要求1的系統(tǒng),其特征在于還包括存儲(chǔ)用于識(shí)別噪聲聲頻文件的veto指紋的數(shù)據(jù)庫(kù)。
13.具有在其上存儲(chǔ)有計(jì)算機(jī)可讀指令的計(jì)算機(jī)可讀介質(zhì),計(jì)算機(jī)可讀指令用于實(shí)現(xiàn)權(quán)利要求1的指紋組件和檢測(cè)器。
14.用于管理聲頻文件的用戶(hù)界面,包括對(duì)要從數(shù)據(jù)庫(kù)移除的潛在聲頻文件提供一個(gè)或多個(gè)任選項(xiàng)的顯示組件;和對(duì)下列至少一個(gè)的輸入組件選擇任選項(xiàng),配置確定可能移除的聲頻文件的自動(dòng)聲頻剪輯組件。
15.如權(quán)利要求14的用戶(hù)界面,其特征在于還包括組織可能刪除的文件的組件和讓用戶(hù)選擇要?jiǎng)h除的文件的顯示。
16.如權(quán)利要求15的用戶(hù)界面,其特征在于還包括對(duì)下面至少一個(gè)的組件給予用戶(hù)根據(jù)文件之間的質(zhì)量比較保存一個(gè)或多個(gè)復(fù)制文件的能力;根據(jù)與所述文件的編碼對(duì)文件應(yīng)用優(yōu)選的處理;根據(jù)與該文件相關(guān)的數(shù)字權(quán)限管理應(yīng)用優(yōu)選的處理。
17.如權(quán)利要求16的用戶(hù)界面,其特征在于還包括一個(gè)組件,它根據(jù)復(fù)制檢測(cè)器有多么確信所述文件實(shí)際上是復(fù)制品,向用戶(hù)提出各種級(jí)別的警告。
18.如權(quán)利要求16的用戶(hù)界面,其特征在于還包括用于比較復(fù)制文件的“快速瀏覽”組件。
19.如權(quán)利要求16的用戶(hù)界面,其特征在于還包括一選項(xiàng),請(qǐng)求復(fù)制檢測(cè)器使用在不同位置的許多指紋在文件上運(yùn)行,以確定這些文件的哪些部分是復(fù)制的。
20.便于聲頻文件管理的方法,包括接收搜索聲頻文件的時(shí)間參數(shù);對(duì)所述文件確定指紋;和采用所述時(shí)間參數(shù)和所述指紋來(lái)確定潛在地要從數(shù)據(jù)庫(kù)移除的聲頻文件。
21.如權(quán)利要求20的方法,其特征在于還包括在目錄樹(shù)中遞歸地處理聲頻文件,并對(duì)每個(gè)所述指紋確定歸一化因子。
22.如權(quán)利要求20的方法,其特征在于還包括對(duì)聲頻文件創(chuàng)建一組蹤跡,并針對(duì)為其他聲頻文件創(chuàng)建的一組指紋校驗(yàn)所述諸蹤跡。
23.如權(quán)利要求20的方法,其特征在于還包括在單輪通過(guò)所述聲頻文件數(shù)據(jù)時(shí)同時(shí)創(chuàng)建指紋和校驗(yàn)復(fù)制。
24.如權(quán)利要求20的方法,其特征在于還包括采用一個(gè)或多個(gè)veto指紋以判定噪聲文件。
25.如權(quán)利要求20的方法,其特征在于還包括在至少兩個(gè)層上處理所述聲頻文件,其中第一層的所述輸出取決于在小的窗口上計(jì)算的對(duì)數(shù)譜,而第二層在通過(guò)累加由第一層產(chǎn)生的矢量而計(jì)算的矢量上操作。
26.如權(quán)利要求25的方法,其特征在于還包括在后續(xù)層中比以前的層提供更寬的時(shí)間窗。
27.如權(quán)利要求25的方法,其特征在于還包括采用至少一個(gè)層來(lái)補(bǔ)償文件之間的時(shí)間不對(duì)齊。
全文摘要
本發(fā)明涉及便于自動(dòng)管理和剪輯駐留在數(shù)據(jù)庫(kù)中的聲頻文件的系統(tǒng)和方法。聲頻指紋是使用指紋的數(shù)據(jù)庫(kù)標(biāo)識(shí)流或基于文件的聲頻的強(qiáng)有力的工具。復(fù)制檢測(cè)標(biāo)識(shí)在一集合中的復(fù)制聲頻剪輯,即使這些剪輯在壓縮質(zhì)量和持續(xù)時(shí)間方面不同。本發(fā)明能作為不需要外部指紋數(shù)據(jù)庫(kù)的自包含應(yīng)用被提供。還有,用戶(hù)界面對(duì)管理和剪輯聲頻文件提供各種任選項(xiàng)。
文檔編號(hào)G06F17/30GK1627295SQ200410088289
公開(kāi)日2005年6月15日 申請(qǐng)日期2004年10月21日 優(yōu)先權(quán)日2003年10月24日
發(fā)明者C·J·C·伯吉斯, D·普拉斯迪納, E·L·任斯豪, J·C·普拉特 申請(qǐng)人:微軟公司