一種判斷文件內(nèi)容與標(biāo)題間一致性的方法及裝置制造方法
【專利摘要】本發(fā)明提供了一種判斷文件內(nèi)容與標(biāo)題間一致性的方法及裝置,其中判斷文件內(nèi)容與標(biāo)題間一致性的方法包括:A.利用目標(biāo)文件的標(biāo)題在至少一個(gè)候選網(wǎng)站進(jìn)行檢索,以獲取與所述目標(biāo)文件類型相同的候選文件;B.將所述目標(biāo)文件及各候選文件基于內(nèi)容之間的相似度進(jìn)行聚類;C.確定聚類結(jié)果中的最優(yōu)類簇;D.當(dāng)所述目標(biāo)文件不屬于所述最優(yōu)類簇時(shí),確定所述目標(biāo)文件內(nèi)容與標(biāo)題不一致,否則確定所述目標(biāo)文件內(nèi)容與標(biāo)題一致。通過上述方式,能夠準(zhǔn)確判斷文件內(nèi)容與標(biāo)題間是否一致。
【專利說明】一種判斷文件內(nèi)容與標(biāo)題間一致性的方法及裝置
【【技術(shù)領(lǐng)域】】
[0001]本發(fā)明涉及數(shù)據(jù)處理技術(shù),特別涉及一種判斷文件內(nèi)容與標(biāo)題間一致性的方法及
>J-U裝直。
【【背景技術(shù)】】 [0002]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)上資源越來越豐富,用戶通過向搜索引擎輸入檢索關(guān)鍵字,即可得到自己想要的信息資源。例如,用戶向音樂網(wǎng)站的搜索引擎輸入“北京歡迎您”,就可以從音樂網(wǎng)站得到與“北京歡迎您”相關(guān)的音樂文件。然而,由于互聯(lián)網(wǎng)上存在大量的資源,在音樂網(wǎng)站的數(shù)據(jù)庫中,有可能存在歌曲名為“北京歡迎您”的音樂文件,其實(shí)質(zhì)的音頻內(nèi)容卻是“北京一夜”,即現(xiàn)有網(wǎng)絡(luò)資源中存在著文件內(nèi)容與標(biāo)題不一致的現(xiàn)象,這種現(xiàn)象會(huì)導(dǎo)致向用戶返回?cái)?shù)據(jù)時(shí)出現(xiàn)錯(cuò)誤。
[0003]此外,由于互聯(lián)網(wǎng)成為越來越開放的平臺(tái),用戶除了可以從網(wǎng)絡(luò)上獲取資源,也可以將自己的資源分享到網(wǎng)絡(luò)上。當(dāng)用戶將文件上傳到網(wǎng)絡(luò)上時(shí),用戶有可能出于有意或無意的目的,將文件內(nèi)容與標(biāo)題保存得不一致。例如有的用戶故意將某個(gè)非法視頻的名稱保存為“建國大業(yè)”,或者有的用戶誤將音頻內(nèi)容為“北京一夜”的文件名記錯(cuò)為“北京歡迎您”而導(dǎo)致錯(cuò)誤上傳。
【
【發(fā)明內(nèi)容】
】
[0004]本發(fā)明所要解決的技術(shù)問題是提供一種判斷文件內(nèi)容與標(biāo)題間一致性的方法及裝置,以對文件內(nèi)容與標(biāo)題間不一致的情況做出準(zhǔn)確判斷。
[0005]本發(fā)明為解決技術(shù)問題而采用的技術(shù)方案是提供一種判斷文件內(nèi)容與標(biāo)題間一致性的方法,包括:A.利用目標(biāo)文件的標(biāo)題在至少一個(gè)候選網(wǎng)站進(jìn)行檢索,以獲取與所述目標(biāo)文件類型相同的候選文件將所述目標(biāo)文件及各候選文件基于內(nèi)容之間的相似度進(jìn)行聚類;C.確定聚類結(jié)果中的最優(yōu)類簇;D.當(dāng)所述目標(biāo)文件不屬于所述最優(yōu)類簇時(shí),確定所述目標(biāo)文件內(nèi)容與標(biāo)題不一致,否則確定所述目標(biāo)文件內(nèi)容與標(biāo)題一致。
[0006]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述方法在所述步驟D后進(jìn)一步包括:E.當(dāng)所述目標(biāo)文件內(nèi)容與標(biāo)題不一致時(shí),使用所述最優(yōu)類簇中的候選文件替換保存在文件庫中的所述目標(biāo)文件。
[0007]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟B包括:B1.提取所述目標(biāo)文件及各候選文件的內(nèi)容特征;B2.基于所述內(nèi)容特征對所述目標(biāo)文件及各候選文件進(jìn)行聚類。
[0008]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,當(dāng)所述目標(biāo)文件的類型為音頻時(shí),所述內(nèi)容特征為音頻指紋特征。
[0009]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,當(dāng)所述目標(biāo)文件的類型為視頻時(shí),所述步驟BI包括:Bll.分別從所述目標(biāo)文件及各候選文件中分離出各自的音頻;B12.提取每個(gè)音頻的音頻指紋特征作為對應(yīng)文件的內(nèi)容特征。
[0010]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟B2包括:B21.依次將所述目標(biāo)文件及各候選文件中各個(gè)未被標(biāo)識(shí)的文件W的內(nèi)容特征與預(yù)設(shè)的內(nèi)容特征庫中的內(nèi)容特征進(jìn)行比對,如果比對成功,則將所述內(nèi)容特征庫中相匹配的內(nèi)容特征所對應(yīng)的文件標(biāo)識(shí)賦予W,否則為W賦予新的文件標(biāo)識(shí),并將W的內(nèi)容特征保存在所述內(nèi)容特征庫中以供與下一個(gè)未被標(biāo)識(shí)的文件的內(nèi)容特征比對時(shí)使用,其中所述內(nèi)容特征庫初始包含的內(nèi)容特征數(shù)為非負(fù)整數(shù),且每個(gè)內(nèi)容特征對應(yīng)一個(gè)文件標(biāo)識(shí);B22.將具有相同標(biāo)識(shí)的文件確定為一個(gè)類簇。
[0011]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟C包括:Cl.從聚類結(jié)果中確定各有效類簇,其中有效類簇為該類簇中的文件數(shù)與參與聚類的文件數(shù)之比大于設(shè)定閾值的類簇;C2.從各有效類簇中選取最優(yōu)類簇。
[0012]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟C2包括:C21.基于以下至少一個(gè)因素確定每個(gè)有效類簇中的各個(gè)候選文件的得分:候選文件的網(wǎng)站置信度、候選文件的檢索詞置信度、候選文件標(biāo)題與所述目標(biāo)文件標(biāo)題之間的匹配度;C22.根據(jù)每個(gè)有效類簇中的各個(gè)候選文件的得分確定該有效類簇的得分;C23.選取得分最高的有效類簇為最優(yōu)類簇。
[0013]本發(fā)明還提供了一種判斷文件內(nèi)容與標(biāo)題間一致性的裝置,包括:檢索單元,用于利用目標(biāo)文件的標(biāo)題在至少一個(gè)候選網(wǎng)站進(jìn)行檢索,以獲取與所述目標(biāo)文件類型相同的候選文件;聚類單元,用于將所述目標(biāo)文件及各候選文件基于內(nèi)容之間的相似度進(jìn)行聚類;確定單元,用于確定聚類結(jié)果中的最優(yōu)類簇;判斷單元,用于當(dāng)所述目標(biāo)文件不屬于所述最優(yōu)類簇時(shí),確定所述目標(biāo)文件內(nèi)容與標(biāo)題不一致,否則確定所述目標(biāo)文件內(nèi)容與標(biāo)題一致。
[0014]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述裝置進(jìn)一步還包括:替換單元,用于當(dāng)所述判斷單元確定所述目標(biāo)文件內(nèi)容與標(biāo)題不一致時(shí),使用所述最優(yōu)類簇中的候選文件替換保存在文件庫中的所述目標(biāo)文件。
[0015]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述聚類單元包括:特征提取單元,用于提取所述目標(biāo)文件及各候選文件的內(nèi)容特征;文件聚類單元,用于基于所述內(nèi)容特征對所述目標(biāo)文件及各候選文件進(jìn)行聚類。
[0016]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,當(dāng)所述目標(biāo)文件的類型為音頻時(shí),所述內(nèi)容特征為音頻指紋特征。
[0017]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,當(dāng)所述目標(biāo)文件的類型為視頻時(shí),所述特征提取單元包括:分離單元,用于分別從所述目標(biāo)文件及各候選文件中分離出各自的音頻;提取單元,用于提取每個(gè)音頻的音頻指紋特征作為對應(yīng)文件的內(nèi)容特征。
[0018]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述文件聚類單元包括:迭代單元,用于依次將所述目標(biāo)文件及各候選文件中每個(gè)未被標(biāo)識(shí)的文件W的內(nèi)容特征與預(yù)設(shè)的內(nèi)容特征庫中的內(nèi)容特征進(jìn)行比對,如果比對成功,則將所述內(nèi)容特征庫中相匹配的內(nèi)容特征所對應(yīng)的文件標(biāo)識(shí)賦予W,否則為W賦予新的文件標(biāo)識(shí),并將W的內(nèi)容特征保存在所述內(nèi)容特征庫中以供與下一個(gè)未被標(biāo)識(shí)的文件的內(nèi)容特征比對時(shí)使用,其中所述內(nèi)容特征庫初始包含的內(nèi)容特征數(shù)為非負(fù)整數(shù),且每一內(nèi)容特征對應(yīng)一個(gè)文件標(biāo)識(shí);結(jié)果生成單元,用于將具有相同標(biāo)識(shí)的文件確定為一個(gè)類簇。
[0019]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述確定單元包括:類簇確定單元,用于從聚類結(jié)果中確定各有效類簇,其中有效類簇為該類簇中的文件數(shù)與參與聚類的文件數(shù)之比大于設(shè)定閾值的類簇;類簇選取單元,用于從各有效類簇中選取最優(yōu)類簇。
[0020]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述類簇選取單元包括:文件得分確定單元,用于基于以下至少一個(gè)因素確定每個(gè)有效類簇中的各個(gè)候選文件的得分:候選文件的網(wǎng)站置信度、候選文件的檢索詞置信度、候選文件標(biāo)題與所述目標(biāo)文件標(biāo)題之間的匹配度;類簇得分確定單元,用于根據(jù)每個(gè)有效類簇中的各個(gè)候選文件的得分確定該有效類簇的得分;最終類簇確定單元,用于選取得分最高的有效類簇為最優(yōu)類簇。
[0021]由以上技術(shù)方案可以看出,本發(fā)明通過利用目標(biāo)文件的標(biāo)題在候選網(wǎng)站獲取候選文件,并基于內(nèi)容之間的相似度對目標(biāo)文件和候選文件進(jìn)行聚類,能夠充分利用互聯(lián)網(wǎng)上絕大多數(shù)正確的資源為目標(biāo)文件內(nèi)容與標(biāo)題之間的關(guān)聯(lián)性判斷提供依據(jù),當(dāng)目標(biāo)文件不屬于最優(yōu)類簇時(shí),說明目標(biāo)文件的內(nèi)容與標(biāo)題之間的聯(lián)系不符合互聯(lián)網(wǎng)上可信資源的規(guī)律,從而使得目標(biāo)文件內(nèi)容與標(biāo)題間不一致的判斷的準(zhǔn)確性大大增加。通過本發(fā)明的方法,能夠很好的對文件內(nèi)容和標(biāo)題之間的一致性進(jìn)行判斷,從而使得解決由于文件內(nèi)容和標(biāo)題間不一致而導(dǎo)致的各種問題成為可能,如對數(shù)據(jù)庫中內(nèi)容與標(biāo)題不一致的數(shù)據(jù)進(jìn)行修正,或者對用戶上傳的內(nèi)容與標(biāo)題不一致的數(shù)據(jù)進(jìn)行警示等。
【【專利附圖】
【附圖說明】】
[0022]圖1為本發(fā)明中判斷文件內(nèi)容與標(biāo)題間一致性的方法的流程示意圖;
[0023]圖2為本發(fā)明中對音頻類型的目標(biāo)文件和候選文件進(jìn)行聚類的示意流程圖;
[0024]圖3為本發(fā)明中判斷文件內(nèi)容與標(biāo)題間一致性的裝置的實(shí)施例的結(jié)構(gòu)示意框圖;
[0025]圖4為本發(fā)明中特征提取單元的一個(gè)實(shí)施例的結(jié)構(gòu)示意框圖;
[0026]圖5為本發(fā)明中文件聚類單元的一個(gè)優(yōu)選實(shí)施例的結(jié)構(gòu)示意框圖;
[0027]圖6為本發(fā)明中類簇選取單元的一個(gè)優(yōu)選實(shí)施例的結(jié)構(gòu)示意框圖。
【【具體實(shí)施方式】】
[0028]為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)描述。
[0029]請參考圖1,圖1為本發(fā)明中判斷文件內(nèi)容與標(biāo)題間一致性的方法的流程示意圖。如圖1所示,該方法包括:
[0030]步驟SlOl:利用目標(biāo)文件的標(biāo)題在至少一個(gè)候選網(wǎng)站進(jìn)行檢索,以獲取與目標(biāo)文件類型相同的候選文件。
[0031]步驟S102:將目標(biāo)文件及各候選文件基于內(nèi)容之間的相似度進(jìn)行聚類。
[0032]步驟S103:確定聚類結(jié)果中的最優(yōu)類簇。
[0033]步驟S104:當(dāng)目標(biāo)文件不屬于最優(yōu)類簇時(shí),確定目標(biāo)文件內(nèi)容與標(biāo)題不一致,否則確定目標(biāo)文件內(nèi)容與標(biāo)題一致。
[0034]為了便于理解,下面的例子中主要以目標(biāo)文件為音頻類型的文件來對上述步驟進(jìn)行介紹,本領(lǐng)域技術(shù)人員應(yīng)該理解,根據(jù)本發(fā)明的思想,將本發(fā)明的目標(biāo)文件類型擴(kuò)展到文本類型或視頻類型并不影響本發(fā)明的實(shí)施。
[0035]本發(fā)明中的目標(biāo)文件的標(biāo)題,不僅僅局限于文件名的范圍,凡是能夠用于定位目標(biāo)文件的屬性特征,均可歸屬于本發(fā)明中標(biāo)題的概念范圍。例如對于歌曲音頻文件而言,其標(biāo)題可包括歌曲名、歌手名以及專輯名等要素。
[0036]步驟SlOl中得到的候選文件是與目標(biāo)文件類型相同的文件,這是指如果目標(biāo)文件為文本類型的文件,則候選文件也為文本類型,如果目標(biāo)文件為音頻類型的文件,則候選文件也為音頻類型。
[0037]假設(shè)目標(biāo)文件為劉德華專輯《笨小孩》中的《冰雨》音頻文件,則步驟SlOl中,可利用冰雨、劉德華、笨小孩,即歌曲名、歌手名、專輯名組成的檢索詞在候選網(wǎng)站A中進(jìn)行檢索,得到若干個(gè)候選文件,同時(shí)利用冰雨、劉德華,即歌曲名、歌手名組成的檢索詞在候選網(wǎng)站B中進(jìn)行檢索,得到若干個(gè)候選文件,可見,在獲取候選文件時(shí),可以選擇不同的檢索詞或候選網(wǎng)站。因此,在本發(fā)明中可以預(yù)先設(shè)置檢索詞置信度C1和網(wǎng)站置信度C2來對候選文件進(jìn)行評價(jià)。例如:預(yù)先將包含歌曲名、歌手名及專輯名三個(gè)維度的檢索詞X的置信度值設(shè)置為1,而僅包含歌曲名、歌手名兩個(gè)維度的檢索詞Y的置信度值設(shè)置為0.9,則使用X檢索得到的候選文件的檢索詞置信度C1的值就等于1,使用Y檢索得到的候選文件的檢索詞置信度C1的值就等于0.9。又如,預(yù)先將百度的網(wǎng)站置信度值設(shè)置為1,騰訊的網(wǎng)站置信度值設(shè)置為0.9,則來源于百度的候選文件的網(wǎng)站置信度C2的值就是1,來源于騰訊的候選文件的網(wǎng)站置信度C2的值就是0.9。候選文件的檢索詞置信度C1和網(wǎng)站置信度C2可在步驟S103中用于確定最優(yōu)類簇,具體的使用方式將在后續(xù)介紹。
[0038]步驟S102具體地包括:
[0039]步驟S1021:提取目標(biāo)文件及各候選文件的內(nèi)容特征。
[0040]步驟S1022:基于上述內(nèi)容特征對目標(biāo)文件及各候選文件進(jìn)行聚類。
[0041]其中,本發(fā)明對不同類型的目標(biāo)文件,步驟S1021提取的內(nèi)容特征也不相同。
[0042]如果目標(biāo)文件是文本類型的文件,則根據(jù)步驟SlOl中所述,候選文件也是文本類型的文件,則步驟S1021中提取的內(nèi)容特征,可以是現(xiàn)有技術(shù)為了對文本文件進(jìn)行聚類時(shí)采用的任何特征,例如由特征詞構(gòu)成的特征向量,甚至可以將整個(gè)文本文件作為內(nèi)容特征,使得聚類結(jié)果中的每個(gè)類簇包含的文本內(nèi)容是完全一致的。由于現(xiàn)有技術(shù)的文本內(nèi)容特征提取技術(shù)已經(jīng)非常成熟,本發(fā)明在此不再贅述。
[0043]如果目標(biāo)文件為音頻文件,則步驟S1021中提取的內(nèi)容特征為音頻指紋特征。具體地,步驟S1021中提取音頻指紋特征的方式,于本領(lǐng)域有多種已知的做法,例如可以參考中國發(fā)明專利申請?zhí)枮?01110218558.3的專利文件(下面稱為專利文件一),該專利文件即公開了一種提取音頻指紋的方式。
[0044]如果目標(biāo)文件為視頻文件,則作為一種實(shí)施方式,步驟S1021具體包括:
[0045]步驟S1021_l:分別從目標(biāo)文件及各候選文件中分離出各自的音頻。
[0046]步驟S1021_2:提取每個(gè)音頻的音頻指紋特征作為對應(yīng)文件的內(nèi)容特征。
[0047]如將目標(biāo)文件A和候選文件B中的音頻分別分離出來,這通過現(xiàn)有技術(shù)即可實(shí)現(xiàn),然后采用專利文件一中公開的音頻指紋特征提取方法對A的音頻提取音頻指紋特征作為A的內(nèi)容特征,以及對B的音頻提取音頻指紋特征作為B的內(nèi)容特征。本實(shí)施方式充分利用了視頻中的聲音來對視頻的內(nèi)容進(jìn)行定位,計(jì)算量小,方便實(shí)施。
[0048]此外,也可以提取視頻指紋特征作為視頻目標(biāo)文件和候選文件的內(nèi)容特征,提取視頻指紋特征于本領(lǐng)域也有多種做法,例如可以參考中國發(fā)明專利申請?zhí)枮?00910046777.0的專利文件(下面稱為專利文件二),該專利文件即公開了一種提取視頻指紋特征的方式。
[0049]在得到目標(biāo)文件及各候選文件的內(nèi)容特征后,步驟S1022中可采用各種已知的聚類算法對目標(biāo)文件及各候選文件進(jìn)行聚類,其中聚類采用的特征即為步驟S1021中提取的內(nèi)容特征。
[0050]此外,本發(fā)明還給出了步驟S1022的一個(gè)優(yōu)選實(shí)施方式,在該實(shí)施方式下,步驟S1022包括:
[0051]步驟S1022_l:依次將目標(biāo)文件及各候選文件中各個(gè)未被標(biāo)識(shí)的文件W的內(nèi)容特征與預(yù)設(shè)的內(nèi)容特征庫中的內(nèi)容特征進(jìn)行比對,如果比對成功,則將內(nèi)容特征庫中相匹配的內(nèi)容特征所對應(yīng)的文件標(biāo)識(shí)賦予W,否則為W賦予新的文件標(biāo)識(shí),并將W的內(nèi)容特征保存在內(nèi)容特征庫中以供與下一個(gè)未被標(biāo)識(shí)的文件的內(nèi)容特征比對時(shí)使用。
[0052]步驟S1022_2:將具有相同標(biāo)識(shí)的文件確定為一個(gè)類簇。
[0053]下面以目標(biāo)文件和候選文件為音頻類型文件對上述聚類過程進(jìn)行進(jìn)一步說明。請參考圖2,圖2為本發(fā)明中對音頻類型的目標(biāo)文件和候選文件進(jìn)行聚類的示意流程圖。如圖2所示,對由目標(biāo)文件和各候選文件構(gòu)成的集合,每次從中取一個(gè)未被標(biāo)識(shí)的文件W與預(yù)設(shè)的音頻指紋特征庫中的音頻指紋特征進(jìn)行比對,如果比對成功,則將音頻指紋特征庫中相匹配的音頻指紋特征對應(yīng)的文件標(biāo)識(shí)賦予W,轉(zhuǎn)向下一個(gè)未被標(biāo)識(shí)的文件比對,否則為W賦予一個(gè)新的文件標(biāo)識(shí),并將W的音頻指紋特征保存到音頻指紋特征庫,轉(zhuǎn)向下一個(gè)未被標(biāo)識(shí)的文件比對。上述過程重復(fù)進(jìn)行直到目標(biāo)文件和各候選文件均比對完成。
[0054]其中上述的音頻指紋特征庫初始包含的音頻指紋特征數(shù)為非負(fù)整數(shù),且每個(gè)音頻指紋特征對應(yīng)一個(gè)文件標(biāo)識(shí)。這里的音頻指紋特征庫可以是一個(gè)已建立好的音頻指紋特征庫,其中包含了若干數(shù)量的音頻指紋特征,每個(gè)音頻指紋特征對應(yīng)一個(gè)文件標(biāo)識(shí),此外,這里的音頻指紋特征庫也可以為空,即音頻指紋特征庫中初始包含零個(gè)音頻指紋特征,這種情況下,隨著上述比對過程的進(jìn)行,音頻指紋特征庫中的音頻指紋特征會(huì)增加。
[0055]當(dāng)目標(biāo)文件和各候選文件均完成比對之后,目標(biāo)文件和各候選文件均會(huì)得到一個(gè)文件標(biāo)識(shí),在步驟S1022_2中,即可根據(jù)文件標(biāo)識(shí)將目標(biāo)文件和各候選文件分為不同的類簇。
[0056]將兩個(gè)音頻指紋特征進(jìn)行比對以確定是否比對成功的方式,可以參考專利文件一中的相關(guān)描述,本發(fā)明在此不再贅述。
[0057]請繼續(xù)參考圖1。在步驟S102得到聚類結(jié)果后,步驟S103確定最優(yōu)類簇的方式具體包括:
[0058]步驟S1031:從聚類結(jié)果中確定有效類簇。
[0059]步驟S1032:從有效類簇中選取最優(yōu)類簇。
[0060]其中有效類簇為該類簇中的文件數(shù)與參與聚類的文件數(shù)之比大于設(shè)定閾值的類簇。例如目標(biāo)文件及候選文件,即參與聚類的文件數(shù)為100,假設(shè)設(shè)定閾值為0.2,則類簇中文件數(shù)大于20的類簇都屬于有效類簇。
[0061]通過設(shè)定閾值,可以對有效類簇的多樣性進(jìn)行控制,設(shè)定閾值越高,則步驟S1031得到的有效類簇?cái)?shù)量越少。
[0062]若步驟S1031得到的有效類簇有多個(gè),則步驟S1032還需要在多個(gè)有效類簇中選取出最優(yōu)類簇。
[0063]具體地,步驟S1032包括:
[0064]步驟S1032_l:基于以下至少一個(gè)因素確定每個(gè)有效類簇中的各候選文件的得分:候選文件的檢索詞置信度、候選文件的網(wǎng)站置信度、候選文件標(biāo)題與目標(biāo)文件標(biāo)題之間的匹配度。
[0065]候選文件的檢索詞置信度,就是前文在說明步驟SlOl時(shí)提到的C1,候選文件的網(wǎng)站置信度,則是前文在說明步驟SlOl時(shí)提到的c2。候選文件標(biāo)題與目標(biāo)文件標(biāo)題之間的匹配度,可以通過編輯距離、余弦相似度、漢明距離等現(xiàn)有技術(shù)的手段來確定,本文不再詳述。
[0066]優(yōu)選的,一個(gè)候選文件的得分,可以參見下列公式:
[0067]SF=w1*C1+w2*C2+w3*C3
[0068]其中,SF是一個(gè)候選文件的得分,CpCyC3分別為該候選文件的檢索詞置信度、該候選文件的網(wǎng)站置信度及該候選文件標(biāo)題與目標(biāo)文件標(biāo)題之間的匹配度,而W2, W3分別是預(yù)先為Cp C2、C3這三個(gè)參數(shù)確定的權(quán)重。
[0069]候選文件的網(wǎng)站置信度C2預(yù)先可根據(jù)經(jīng)驗(yàn)值設(shè)定,隨著使用本發(fā)明方法對大量目標(biāo)文件進(jìn)行判斷后,可以看出來源于哪個(gè)網(wǎng)站的候選文件的質(zhì)量更好,從而對網(wǎng)站置信度的值進(jìn)行調(diào)整。
[0070]步驟S1032_2:根據(jù)每個(gè)有效類簇包含的候選文件的得分確定該有效類簇的得分。
[0071]一個(gè)有效類簇包含了若干候選文件,作為一種實(shí)施方式,步驟S1032_2中可將有效類簇中的各候選文件的得分相加后作為該有效類簇的得分,如下列公式所示:
【權(quán)利要求】
1.一種判斷文件內(nèi)容與標(biāo)題間一致性的方法,包括: A.利用目標(biāo)文件的標(biāo)題在至少一個(gè)候選網(wǎng)站進(jìn)行檢索,以獲取與所述目標(biāo)文件類型相同的候選文件; B.將所述目標(biāo)文件及各候選文件基于內(nèi)容之間的相似度進(jìn)行聚類; C.確定聚類結(jié)果中的最優(yōu)類簇; D.當(dāng)所述目標(biāo)文件不屬于所述最優(yōu)類簇時(shí),確定所述目標(biāo)文件內(nèi)容與標(biāo)題不一致,否則確定所述目標(biāo)文件內(nèi)容與標(biāo)題一致。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法在所述步驟D后進(jìn)一步包括: E.當(dāng)所述目標(biāo)文件內(nèi)容與標(biāo)題不一致時(shí),使用所述最優(yōu)類簇中的候選文件替換保存在文件庫中的所述目標(biāo)文件。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟B包括: B1.提取所述目標(biāo)文件及各候選文件的內(nèi)容特征; B2.基于所述內(nèi)容特征對所述目標(biāo)文件及各候選文件進(jìn)行聚類。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,當(dāng)所述目標(biāo)文件的類型為音頻時(shí),所述內(nèi)各特征為首頻指紋特征。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,當(dāng)所述目標(biāo)文件的類型為視頻時(shí),所述步驟BI包括: BH.分別從所述目標(biāo)文件及各候選文件中分離出各自的音頻; B12.提取每個(gè)音頻的音頻指紋特征作為對應(yīng)文件的內(nèi)容特征。
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述步驟B2包括: B21.依次將所述目標(biāo)文件及各候選文件中各個(gè)未被標(biāo)識(shí)的文件W的內(nèi)容特征與預(yù)設(shè)的內(nèi)容特征庫中的內(nèi)容特征進(jìn)行比對,如果比對成功,則將所述內(nèi)容特征庫中相匹配的內(nèi)容特征所對應(yīng)的文件標(biāo)識(shí)賦予W,否則為W賦予新的文件標(biāo)識(shí),并將W的內(nèi)容特征保存在所述內(nèi)容特征庫中以供與下一個(gè)未被標(biāo)識(shí)的文件的內(nèi)容特征比對時(shí)使用,其中所述內(nèi)容特征庫初始包含的內(nèi)容特征數(shù)為非負(fù)整數(shù),且每個(gè)內(nèi)容特征對應(yīng)一個(gè)文件標(biāo)識(shí); B22.將具有相同標(biāo)識(shí)的文件確定為一個(gè)類簇。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟C包括: Cl.從聚類結(jié)果中確定各有效類簇,其中有效類簇為該類簇中的文件數(shù)與參與聚類的文件數(shù)之比大于設(shè)定閾值的類簇; C2.從各有效類簇中選取最優(yōu)類簇。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述步驟C2包括: C21.基于以下至少一個(gè)因素確定每個(gè)有效類簇中的各個(gè)候選文件的得分:候選文件的網(wǎng)站置信度、候選文件的檢索詞置信度、候選文件標(biāo)題與所述目標(biāo)文件標(biāo)題之間的匹配度; C22.根據(jù)每個(gè)有效類簇中的各個(gè)候選文件的得分確定該有效類簇的得分; C23.選取得分最高的有效類簇為最優(yōu)類簇。
9.一種判斷文件內(nèi)容與標(biāo)題間一致性的裝置,包括: 檢索單元,用于利用目標(biāo)文件的標(biāo)題在至少一個(gè)候選網(wǎng)站進(jìn)行檢索,以獲取與所述目標(biāo)文件類型相同的候選文件;聚類單元,用于將所述目標(biāo)文件及各候選文件基于內(nèi)容之間的相似度進(jìn)行聚類; 確定單元,用于確定聚類結(jié)果中的最優(yōu)類簇; 判斷單元,用于當(dāng)所述目標(biāo)文件不屬于所述最優(yōu)類簇時(shí),確定所述目標(biāo)文件內(nèi)容與標(biāo)題不一致,否則確定所述目標(biāo)文件內(nèi)容與標(biāo)題一致。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述裝置進(jìn)一步還包括: 替換單元,用于當(dāng)所述判斷單元確定所述目標(biāo)文件內(nèi)容與標(biāo)題不一致時(shí),使用所述最優(yōu)類簇中的候選文件替換保存在文件庫中的所述目標(biāo)文件。
11.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述聚類單元包括: 特征提取單元,用于提取所述目標(biāo)文件及各候選文件的內(nèi)容特征; 文件聚類單元,用于基于所述內(nèi)容特征對所述目標(biāo)文件及各候選文件進(jìn)行聚類。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,當(dāng)所述目標(biāo)文件的類型為音頻時(shí),所述內(nèi)容特征為音頻指紋特征。
13.根據(jù)權(quán)利要求11所述的裝置, 其特征在于,當(dāng)所述目標(biāo)文件的類型為視頻時(shí),所述特征提取單元包括: 分離單元,用于分別從所述目標(biāo)文件及各候選文件中分離出各自的音頻; 提取單元,用于提取每個(gè)音頻的音頻指紋特征作為對應(yīng)文件的內(nèi)容特征。
14.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述文件聚類單元包括: 迭代單元,用于依次將所述目標(biāo)文件及各候選文件中每個(gè)未被標(biāo)識(shí)的文件W的內(nèi)容特征與預(yù)設(shè)的內(nèi)容特征庫中的內(nèi)容特征進(jìn)行比對,如果比對成功,則將所述內(nèi)容特征庫中相匹配的內(nèi)容特征所對應(yīng)的文件標(biāo)識(shí)賦予W,否則為W賦予新的文件標(biāo)識(shí),并將W的內(nèi)容特征保存在所述內(nèi)容特征庫中以供與下一個(gè)未被標(biāo)識(shí)的文件的內(nèi)容特征比對時(shí)使用,其中所述內(nèi)容特征庫初始包含的內(nèi)容特征數(shù)為非負(fù)整數(shù),且每一內(nèi)容特征對應(yīng)一個(gè)文件標(biāo)識(shí); 結(jié)果生成單元,用于將具有相同標(biāo)識(shí)的文件確定為一個(gè)類簇。
15.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述確定單元包括: 類簇確定單元,用于從聚類結(jié)果中確定各有效類簇,其中有效類簇為該類簇中的文件數(shù)與參與聚類的文件數(shù)之比大于設(shè)定閾值的類簇; 類簇選取單元,用于從各有效類簇中選取最優(yōu)類簇。
16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述類簇選取單元包括: 文件得分確定單元,用于基于以下至少一個(gè)因素確定每個(gè)有效類簇中的各個(gè)候選文件的得分:候選文件的網(wǎng)站置信度、候選文件的檢索詞置信度、候選文件標(biāo)題與所述目標(biāo)文件標(biāo)題之間的匹配度; 類簇得分確定單元,用于根據(jù)每個(gè)有效類簇中的各個(gè)候選文件的得分確定該有效類簇的得分; 最終類簇確定單元,用于選取得分最高的有效類簇為最優(yōu)類簇。
【文檔編號】G06F17/27GK103631769SQ201210303895
【公開日】2014年3月12日 申請日期:2012年8月23日 優(yōu)先權(quán)日:2012年8月23日
【發(fā)明者】朱中的 申請人:北京百度網(wǎng)訊科技有限公司