多媒體文件分類方法及裝置的制造方法
【專利摘要】本發(fā)明實施例公開了一種多媒體文件分類方法及裝置,該多媒體文件分類方法,利用訓練得到的多個分類器逐個對待分類多媒體文件的類別進行判斷,直到確定出待分類多媒體文件的類別,或者,全部分類器都不能確定該待分類多媒體文件的類別。其中,分類器的數量等于為多媒體文件全部預定類別的數量。換言之,確定一個待分類多媒體文件的類別最多經過N個分類器進行判斷,其中,N為多媒體文件全部預定類別的數量,遠遠小于N*(N?1)/2個分類器,因此,大大減少了多媒體文件分類方法的運算量,提高了分類速度和效率。
【專利說明】
多媒體文件分類方法及裝置
技術領域
[0001]本發(fā)明涉及分類技術領域,特別是涉及一種多媒體文件分類方法及裝置。
【背景技術】
[0002]隨著網絡技術飛速發(fā)展,網絡傳輸速度不斷提高,各種多媒體信息不斷涌現(xiàn)。為了幫助用戶有效地檢索相關的多媒體信息或迅速獲取用戶感興趣的多媒體信息,就需要一些分類工具(分類器)幫助用戶提取相應的內容并對大量的多媒體信息進行有效的分類操作。于是基于內容的多媒體信息分類技術應運而生,從而實現(xiàn)自動分析多媒體信息并對多媒體信息進行分類。
[0003]現(xiàn)有的分類技術主要包括二分類和多分類;其中,二分類比較簡單,例如,某個視頻數據輸入分類器(該分類器用于判斷視頻是否屬于體育類),則分類器的輸出結果只包括兩種情況,即是體育類和不是體育類。多分類可以基于二分類實現(xiàn),例如,A、B、C、D、E五個分類,兩兩為一組訓練分類器,需要訓練AB,AC,AD,AE,BC,BD,BE,CD,CE,DE共1個分類器,其中,分類器AB用于判斷一個視頻數據屬于A類還是屬于B類。對于一個未知類型的視頻數據,通過這10個分類進行判斷給出投票結果,得票最多的一個類別就是該未知類型的視頻數據最終的類別。這樣,對于有N個類別的分類體系,需要訓練練N*(N-1 )/2個二分類器,例如,對于有100個類別的體系,需要訓練4950個分類器;顯然,采用此種多分類方法需要訓練的分類器數量非常多,大大增加了分類過程中的運算量,效率較低。
【發(fā)明內容】
[0004]本發(fā)明實施例中提供了一種多媒體文件分類方法及裝置,以解決現(xiàn)有技術中的分類過程中運算量大、效率低的問題。
[0005]為了解決上述技術問題,本發(fā)明實施例公開了如下技術方案:
[0006]第一方面,本發(fā)明實施例提供一種多媒體文件分類方法,包括:
[0007]獲取待分類多媒體文件的特征信息;
[0008]由第一分類器根據所述特征信息判斷所述待分類多媒體文件是否屬于所述第一分類器的類別;
[0009]當所述第一分類器確定所述待分類多媒體文件不屬于所述第一分類器的類別時,由第二分類器根據所述特征信息判斷所述待分類多媒體文件是否屬于所述第二分類器的類別;
[0010]當所述第二分類器確定所述待分類多媒體文件不屬于所述第二分類器的類別時,繼續(xù)由下一個分類器判斷,直到確定出所述待分類多媒體文件的類別,或者,全部分類器都不能確定所述待分類多媒體文件的類別時結束;
[0011]其中,分類器的數量等于多媒體文件全部預定類別的數量,且每個所述分類器用于識別一個類別,且不同的所述分類器所識別的類別不相同。
[0012]可選地,由第一分類器根據所述特征信息判斷所述待分類多媒體文件是否屬于所述第一分類器的類別,包括:
[0013]判斷所述特征信息經過第一分類器的分類函數后計算得到的數值是否大于所述第一分類器的閾值;
[0014]若大于所述第一分類器的閾值,則所述待分類多媒體文件屬于第一分類器對應的類別;
[0015]若小于或等于所述第一分類器的閾值,則所述待分類多媒體文件不屬于第一分類器對應的類別。
[0016]可選地,所述方法還包括:
[0017]當確定出所述待分類多媒體文件所屬的類別時,利用所述多媒體文件所屬類別對應的分類器所包含的子分類器確定所述多媒體文件所屬的子類。
[0018]可選地,在獲取待分類多媒體文件的特征信息之前,包括:
[0019]獲取全部訓練樣本的特征信息;
[0020]分別利用所述訓練樣本的特征信息訓練得到N個分類器,每個所述分類器用于判斷待分類多媒體文件是否屬于所述分類器的類別;
[0021]其中,所述訓練樣本的類別已知,且訓練樣本包含多媒體文件全部預定類別的樣本;N等于多媒體文件全部預定類別的數量。
[0022]可選地,若所述訓練樣本是視頻文件,則所述獲取全部訓練樣本的特征信息,包括:
[0023]利用爬蟲從視頻網站中爬取視頻文件的特征信息,作為所述訓練樣本的特征信息。
[0024]第二方面,本發(fā)明實施例提供一種多媒體文件分類裝置,包括:
[0025]第一獲取模塊,用于獲取待分類多媒體文件的特征信息;
[0026]類別確定模塊,用于由第一分類器根據所述特征信息判斷所述待分類多媒體文件是否屬于所述第一分類器的類別;如果所述待分類多媒體文件不屬于所述第一分類器的類別,由第二分類器根據所述特征信息判斷所述待分類多媒體文件是否屬于所述第二分類器的類別;如果所述待分類多媒體文件不屬于所述第二分類器的類別,繼續(xù)由下一個分類器判斷,直到確定出所述待分類多媒體文件的類別,或者,全部分類器都不能確定所述待分類多媒體文件的類別;
[0027]其中,所述類別確定模塊所包含的分類器的數量等于多媒體文件全部預定類別的數量,且每個所述分類器用于識別一個類別,且不同的所述分類器所識別的類別不相同。
[0028]可選地,其特征在于,所述類別確定模塊,包括:
[0029]判斷子模塊,用于判斷所述特征信息經過分類器的分類函數后計算得到的數值是否大于所述分類器的閾值;
[0030]第一確定子模塊,用于當計算得到的數值大于所述分類器的閾值時,確定所述待分類多媒體文件屬于所述分類器對應的類別;
[0031]第二確定子模塊,用于當計算得到的數值小于或等于所述分類器的閾值時,確定所述待分類多媒體文件不屬于所述分類器對應的類別。
[0032]可選地,所述類別確定模塊包括:
[0033]子類確定子模塊,用于當確定出所述待分類多媒體文件所屬的類別時,利用所述多媒體文件所屬類別對應的分類器所包含的子分類器確定所述多媒體文件所屬的子類別。
[0034]可選地,所述裝置還包括:
[0035]第二獲取模塊,用于獲取全部訓練樣本的特征信息;
[0036]訓練模塊,用于分別利用所述訓練樣本的特征信息訓練得到N個分類器,每個所述分類器用于判斷待分類多媒體文件是否屬于所述分類器的類別;
[0037]其中,所述訓練樣本的類別已知,且訓練樣本包含多媒體文件全部預定類別的樣本;N等于多媒體文件全部預定類別的數量。
[0038]可選地,若所述訓練樣本是視頻文件,則所述第二獲取模塊,用于利用爬蟲從視頻網站中爬取視頻文件的特征信息,作為所述訓練樣本的特征信息。
[0039]由以上技術方案可見,本發(fā)明實施例提供的多媒體文件分類方法,利用多個分類器逐個對待分類多媒體文件的類別進行判斷,直到確定出待分類多媒體文件的類別,或者,全部分類器都不能確定該待分類多媒體文件的類別。其中,分類器的數量等于多媒體文件全部預定類別的數量。換言之,確定一個待分類多媒體文件的類別最多經過N個分類器進行判斷,其中,N為多媒體文件預定類別的總數量,遠遠小于N*(N_l)/2個分類器。因此,大大減少了多媒體文件分類方法的運算量,提高了分類速度和效率。
【附圖說明】
[0040]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,對于本領域普通技術人員而言,在不付出創(chuàng)造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
[0041 ]圖1為本發(fā)明實施例一種多媒體文件分類方法的流程示意圖;
[0042]圖2為本發(fā)明實施例一種多媒體文件分類方法實例的流程示意圖;
[0043]圖3為本發(fā)明實施例另一種多媒體文件分類方法的流程示意圖;
[0044]圖4為本發(fā)明實施例一種多媒體文件分類裝置的框圖;
[0045]圖5為本發(fā)明實施例另一種多媒體文件分類裝置的框圖。
【具體實施方式】
[0046]為了使本技術領域的人員更好地理解本發(fā)明中的技術方案,下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應當屬于本發(fā)明保護的范圍。
[0047]參見圖1,為本發(fā)明實施例提供的一種多媒體文件分類方法的流程示意圖,該方法應用于服務器中,如圖1所示,該方法可以包括以下步驟:
[0048]S110,獲取待分類多媒體文件的特征信息。
[0049]多媒體文件的特征信息包括用于表征多媒體文件內容類型的信息。例如,如果多媒體文件是視頻文件,則視頻文件的特征信息可以包括視頻文件的標題、標簽、描述信息及面包肩導航信息,通過這些信息表征視頻文件的內容類型信息。
[0050]其中,面包肩導航信息用于告訴訪問者他們目前在網站中的位置,以及如何返回。[0051 ] S120,由第一分類器根據待分類多媒體文件的特征信息判斷該待分類多媒體文件是否屬于所述第一分類器的類別。
[0052]分類的概念就是在已有數據的基礎上建立一個分類函數或構造出一個分類模型,即分類器,該分類函數或分類模型能夠把數據庫中的數據映射到給定類中的某一個類別中。
[0053]本實施例中每個分類器對應一個類別,即每個分類器均能識別一個類別。
[0054]待分類多媒體文件的特征信息輸入到第一分類器中,如果待分類多媒體文件的特征信息經過第一分類器的分類函數后得到的數值大于該第一分類器的閾值(該閾值是根據訓練樣本訓練得到的分類模型的最佳閾值,每個分類器都會對應一個最佳閾值,不同的分類器對應的最佳閾值也不同),則認為該待分類多媒體文件屬于第一分類器對應的類別;否貝1J,如果計算得到的數值小于或等于第一分類器的閾值,則認為待分類多媒體文件不屬于第一分類器對應的類別。
[0055]S130,當所述第一分類器確定所述待分類多媒體文件不屬于所述第一分類器的類別時,由第二分類器判斷所述待分類多媒體文件是否屬于所述第二分類器的類別。
[0056]如果第一分類器確定待分類多媒體文件不屬于第一分類器所對應的類別時,將該待分類多媒體文件的特征信息輸入到第二分類器中,判斷該待分類多媒體文件的特征信息經過第二分類器的分類函數得到的數值是否大于第二分類器對應的閾值,如果計算得到的數值大于該閾值,則確定該待分類多媒體文件屬于第二分類器對應的類別;否則,如果計算得到的數值小于或等于該閾值,則確定該待分類多媒體文件不屬于第二分類器對應的類別。
[0057]S140,當所述第二分類器確定所述待分類多媒體文件不屬于所述第二分類器的類別時,繼續(xù)由下一個分類器判斷,直到確定出所述待分類多媒體文件的類別,或者,全部分類器都不能確定所述待分類多媒體文件的類別時結束。
[0058]如果第二分類器確定待分類多媒體文件不屬于第二分類器的類別,則繼續(xù)由下一個分類器判斷,直到確定出待分類多媒體文件的類別,或者,全部分類器已經全部判斷完。
[0059]分類器的數量與多媒體文件全部預定類別的總數相同,且每個所述分類器用于識別一個類別,不同的所述分類器所識別的類別不相同。多媒體文件的全部預定類別是指預定為全部多媒體文件劃分的全部類別。
[0060]可選地,在確定出所述待分類多媒體文件所屬的類別后,進一步還可以識別該待分類多媒體文件所屬的子類別,例如,體育類視頻又可以細分為籃球、足球、網球、高爾夫球等子類別,當確定某個待分類視頻文件屬于體育類時,還可以繼續(xù)判斷該待分類視頻屬于哪個子類別。其中,利用所述多媒體文件所屬類別對應分類器所包含的子分類器確定所述多媒體文件所屬的子類。其中,每個分類器包含的子分類器的數量與該分類器對應的類別所包含的子類別的數量相等,即每個子分類器用于識別一個子類別。與現(xiàn)有技術相比,利用該方法識別出多媒體文件的大類后,還能繼續(xù)利用該大類對應的分類器所包含的子分類器識別該多媒體文件的子類別,實現(xiàn)對多媒體文件進行更細化的分類,分類結果更精確。
[0061]本實施例提供的多媒體文件分類方法,利用訓練得到的多個分類器逐個對待分類多媒體文件的類別進行判斷,直到確定出待分類多媒體文件的類別,或者,全部分類器都不能確定該待分類多媒體文件的類別。其中,分類器的數量等于多媒體文件全部預定類別的數量。換言之,確定一個待分類多媒體文件的類別最多經過N個分類器進行判斷,其中,N為多媒體文件全部預定類別的數量,遠遠小于Ν*(Ν-1)/2個分類器,因此,大大減少了多媒體文件分類方法的運算量,提高了分類速度和效率。
[0062]參見圖2,為本申請實施例一種多媒體文件分類方法實例的流程圖,該實例中,多媒體文件為視頻文件,而且,視頻文件包括A、B、C、D、E五個類別,則需要五個分類器且每個分類器對應一個類別,這五個分類器分別是第一分類器、第二分類器、第三分類器、第四分類器和第五分類器。第一分類器識別A類、第二分類器識別B類、第三分類器識別C類、第四分類器識別D類、第五分類器識別E類。
[0063]如圖2所示,該多媒體文件分類方法包括以下步驟:
[0064]S210,獲取待分類視頻文件的特征信息。特征信息可以包括標題、標簽、描述信息、
面包肩導航信息等。
[0065]S220,由第一分類器根據待分類視頻文件的特征信息判斷待分類視頻文件是否屬于A類;如果是,則執(zhí)行S230 ;如果否,則執(zhí)行S240。
[0066]S230,輸出待分類視頻文件的類別為A類。
[0067]S240,由第二分類器判斷待分類視頻文件是否屬于B類;如果是,則執(zhí)行S250;如果否,則執(zhí)行S260。
[0068]S250,輸出待分類視頻文件的類別是B類。
[0069]S260,由第三分類器判斷待分類視頻文件是否屬于C類;如果是,則執(zhí)行S270;如果否,則執(zhí)行S280。
[0070]S270,輸出待分類視頻文件的類別是C類。
[0071 ] S280,由第四分類器判斷待分類視頻文件是否屬于D類;如果是,則執(zhí)行S290;如果否,則執(zhí)行S2100。
[0072]S290,輸出待分類視頻文件的類別是D類。
[0073]S2100,由第五分類器判斷待分類視頻文件是否屬于E類;如果是,則執(zhí)行S2110;如果否,則執(zhí)行S2120。
[0074]S2110,輸出待分類視頻文件的類別是E類。
[0075 ] S2120,輸出待分類視頻文件的類別是除A、B、C、D、E五類之外的其它類別。
[0076]本實施例中,每個分類器均通過以下方法判斷待分類視頻文件是否屬于自身對應的類別:分類器利用自身的分類函數及待分類視頻文件的特征信息計算得到一個數值,并比較該數值與分類器的閾值,如果計算得到的數值大于該閾值,則確定該待分類視頻文件屬于該分類器對應的類別;如果計算得到的數值小于或等于該閾值,則確定該待分類視頻文件不屬于該分類器對應的類別。
[0077]本實施例提供的視頻文件分類方法,視頻文件包括五個類別,則需要五個分類器逐個對待分類視頻文件的類別進行判斷,直到確定出待分類視頻文件的類別,或者,全部分類器都不能確定該待分類視頻文件的類別。換言之,對于一個待分類視頻文件最多經過五個分類器進行判斷后就能確定出所屬類別,大大減少了視頻文件分類方法的運算量,提高了分類速度和效率。
[0078]參見圖3,為本申請實施例又一種多媒體文件分類方法的流程示意圖,該方法在圖1所示實施例的基礎上還可以包括以下步驟:
[0079]S310,獲取全部訓練樣本的特征信息。
[0080]訓練樣本的目的是建立數學模型的參數,根據訓練樣本訓練得到最佳的數據模型。訓練樣本的類別已知,而且,訓練樣本必須包含多媒體文件全部預定類別的樣本。
[0081]根據訓練樣本的類別信息訓練得到分類器的分類模型。
[0082]本實施例中,訓練樣本可以從網絡中抓取,例如,對視頻文件分類時,訓練樣本可以通過爬蟲從視頻網站中爬取多個視頻文件作為訓練樣本,并從視頻網站中爬取視頻文件訓練樣本的特征信息(例如,標題、標簽、描述信息、面包肩導航信息等)。
[0083]S320,分別利用所述全部訓練樣本的特征信息訓練得到N個分類器;每個所述分類器用于判斷待分類多媒體文件是否屬于所述分類器的類別,其中,N等于多媒體文件的預定類別的數量。
[0084]訓練分類器時利用已知類別的多媒體文件經過相應的分類算法進行運算后,得到最佳的數據模型,同時得到分類器的最佳閾值。
[0085]分類器的分類模型其實就是屬于該分類器的類別的多媒體文件所具有的特征集合,要比較輸入的多媒體文件的特征值和分類器中的特征,就需要一個閾值,當輸入的多媒體文件的特征值大于該閾值時才判斷該多媒體文件的類別是該分類器對應的類別。訓練分類器的過程實際就是尋找合適的分類器閾值,使得該分類器對所有訓練樣本的判斷誤差最低。對于每個特征信息計算全部訓練樣本的特征值,并進行排序,對排好序的表中的每個元素,計算該元素的分類誤差,最后,得到分類誤差最小的元素,則該元素即最佳閾值。
[0086]使用分類器的過程時,對于未知分類的多媒體文件,經過分類器的分類模型計算后得到的數值與該分類器對應的閾值比較,如果計算得到的數值大于該閾值,則確定該多媒體文件屬于該分類器對應的類別;如果計算得到的數值小于或等于該閾值,則確定該多媒體文件不屬于該分類器對應的類別。
[0087]本實施例提供的多媒體分類裝置利用訓練樣本訓練根據多媒體文件所劃分的類別訓練相應的分類器,為多媒體文件劃分多少個類別就需要訓練多少個分類器,每個分類器能識別多媒體文件的一個類別。這樣,在利用訓練得到的分類器判斷待分類多媒體文件的類別時,最多經過N個分類器就能判斷出來,N為多媒體文件全部預定類別的數量,遠遠小于Ν*(Ν-1)/2個分類器,大大減少了多媒體文件分類方法的運算量,提高了分類速度和效率。
[0088]與上述本發(fā)明提供的多媒體文件分類方法實施例相對應,本發(fā)明還提供了多媒體文件分類裝置實施例。
[0089]參見圖4,為本發(fā)明實施例提供的一種多媒體文件分類裝置的結構示意圖,該裝置應用于服務器中,如圖4所示,該裝置包括:第一獲取模塊110、類別確定模塊120,其中類別確定模塊包括多個分類器,分類器的數量等于為多媒體文件所劃分類別的數量,每個分類器用于識別一個類別;
[0090]第一獲取模塊110,用于獲取待分類多媒體文件的特征信息。
[0091]多媒體文件的特征信息包括用于表征多媒體文件內容類型的信息。例如,視頻文件的特征信息可以包括視頻文件的標題、標簽、描述信息及面包肩導航信息,通過這些信息表征視頻文件的內容類型信息。
[0092]類別確定模塊120,用于由第一分類器根據所述特征信息判斷所述待分類多媒體文件是否屬于所述第一分類器的類別;如果所述待分類多媒體文件不屬于所述第一分類器的類別,由第二分類器判根據所述特征信息斷所述待分類多媒體文件是否屬于所述第二分類器的類別;如果所述待分類多媒體文件不屬于所述第二分類器的類別,繼續(xù)由下一個分類器判斷,直到確定出所述待分類多媒體文件的類別,或者,全部分類器都不能確定所述待分類多媒體文件的類別。
[0093]在本申請的一些實施例中,類別確定模塊120可以包括判斷子模塊、第一確定子模塊和第二確定子模塊;
[0094]判斷子模塊,用于判斷所述特征信息經過分類器的分類函數后計算得到的數值是否大于所述分類器的閾值;第一確定子模塊,用于當計算得到的數值大于所述分類器的閾值時,確定所述待分類多媒體文件屬于所述分類器對應的類別;第二確定子模塊,用于當計算得到的數值小于或等于所述分類器的閾值,確定所述待分類多媒體文件不屬于所述分類器對應的類別。
[0095]待分類多媒體文件的特征信息輸入到第一分類器中,如果待分類多媒體文件的特征信息經過第一分類器的分類函數后得到的數值大于該第一分類器的閾值,則認為該待分類多媒體文件屬于第一分類器對應的類別;否則,如果計算得到的數值不大于第一分類器的閾值,則認為待分類多媒體文件不屬于第一分類器對應的類別。然后,待分類多媒體文件的特征信息繼續(xù)輸入到第二分類器中,繼續(xù)由第二分類器判斷待分類多媒體文件是否屬于第二分類器對應的類別,依此類推,直到確定出待分類多媒體文件的類別,或者,全部分類器都無法確定待分類多媒體文件的類別。
[0096]可選地,在本申請的一些實施例中,類別確定模塊120還包括子類確定子模塊,該子類確定子模塊也通過分類器實現(xiàn),用于在確定出待分類多媒體文件所屬的類別后,利用多媒體文件所屬類別對應的分類器所包含的子分類器確定多媒體文件所屬的子類別。其中,每個分類器包含的子分類器的數量與該分類器對應的類別所包含的子類別的數量相等,即每個子分類器用于識別一個子類別。
[0097]本實施例提供的多媒體文件分類方法,利用訓練得到的多個分類器逐個對待分類多媒體文件的類別進行判斷,直到確定出待分類多媒體文件的類別,或者,全部分類器都不能確定該待分類多媒體文件的類別。其中,分類器的數量等于多媒體文件全部預定類別的數量。換言之,確定一個待分類多媒體文件的類別最多經過N個分類器進行判斷,其中,N為多媒體文件全部預定類別的數量,遠遠小于N*(N_l)/2個分類器,因此,大大減少了多媒體文件分類方法的運算量,提高了分類速度和效率。
[0098]參見圖5,為本發(fā)明實施例另一種多媒體文件分類裝置的框圖,該裝置在圖4所示實施例的基礎上還包括第二獲取模塊210和訓練模塊220。
[0099]第二獲取模塊210,用于獲取全部訓練樣本的特征信息。
[0100]本實施例中,訓練樣本可以從網絡中抓取,例如,對視頻文件分類時,訓練樣本可以通過爬蟲從視頻網站中爬取多個視頻文件作為訓練樣本,并從視頻網站中爬取視頻文件訓練樣本的特征信息(例如,標題、標簽、描述信息、面包肩導航信息等)。
[0101]訓練模塊220,用于分別利用所述訓練樣本的特征信息訓練得到N個分類器,每個所述分類器用于判斷待分類多媒體文件是否屬于所述分類器的類別;
[0102]其中,訓練樣本的類別已知,且訓練樣本包含多媒體文件全部預定類別的樣本;N等于多媒體文件全部預定類別的數量。
[0103]訓練樣本的類別已知,根據訓練樣本的類別信息訓練得到各個分類器的分類模型(即,分類函數)。訓練分類器的過程和使用分類器的逆過程,訓練分類器時利用已知類別的多媒體文件經過相應的分類算法進行運算后,得到分類器的最佳閾值。
[0104]使用分類器的過程是,對于未知分類的多媒體文件,經過分類器的分類模型計算后得到的數值與該分類器對應的閾值比較,如果計算得到的數值大于該閾值,則確定該多媒體文件屬于該分類器對應的類別;如果計算得到的數值不大于該閾值,則確定該多媒體文件不屬于該分類器對應的類別。
[0105]本實施例提供的多媒體分類裝置利用訓練樣本訓練根據多媒體文件所劃分的類別訓練相應的分類器,為多媒體文件劃分多少個類別就需要訓練多少個分類器,每個分類器能識別多媒體文件的一個類別。這樣,在利用訓練得到的分類器判斷待分類多媒體文件的類別時,最多經過N個分類器就能判斷出來,N為多媒體文件全部預定類別的數量,遠遠小于Ν*(Ν-1)/2個分類器,大大減少了多媒體文件分類方法的運算量,提高了分類速度和效率。
[0106]本說明書中的各個實施例均采用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于裝置或系統(tǒng)實施例而言,由于其基本相似于方法實施例,所以描述得比較簡單,相關之處參見方法實施例的部分說明即可。以上所描述的裝置及系統(tǒng)實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領域普通技術人員在不付出創(chuàng)造性勞動的情況下,即可以理解并實施。
[0107]需要說明的是,在本文中,諸如“第一”和“第二”等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。
[0108]以上所述僅是本發(fā)明的【具體實施方式】,應當指出,對于本技術領域的普通技術人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本發(fā)明的保護范圍。
【主權項】
1.一種多媒體文件分類方法,其特征在于,包括: 獲取待分類多媒體文件的特征信息; 由第一分類器根據所述特征信息判斷所述待分類多媒體文件是否屬于所述第一分類器的類別; 當所述第一分類器確定所述待分類多媒體文件不屬于所述第一分類器的類別時,由第二分類器根據所述特征信息判斷所述待分類多媒體文件是否屬于所述第二分類器的類別; 當所述第二分類器確定所述待分類多媒體文件不屬于所述第二分類器的類別時,繼續(xù)由下一個分類器判斷,直到確定出所述待分類多媒體文件的類別,或者,全部分類器都不能確定所述待分類多媒體文件的類別時結束; 其中,分類器的數量等于多媒體文件全部預定類別的數量,且每個所述分類器用于識別一個類別,且不同的所述分類器所識別的類別不相同。2.根據權利要求1所述的方法,其特征在于,由第一分類器根據所述特征信息判斷所述待分類多媒體文件是否屬于所述第一分類器的類別,包括: 判斷所述特征信息經過第一分類器的分類函數后計算得到的數值是否大于所述第一分類器的閾值; 若大于所述第一分類器的閾值,則所述待分類多媒體文件屬于第一分類器對應的類別; 若小于或等于所述第一分類器的閾值,則所述待分類多媒體文件不屬于第一分類器對應的類別。3.根據權利要求1所述的方法,其特征在于,所述方法還包括: 當確定出所述待分類多媒體文件所屬的類別時,利用所述多媒體文件所屬類別對應的分類器所包含的子分類器確定所述多媒體文件所屬的子類。4.根據權利要求1所述的方法,其特征在于,在獲取待分類多媒體文件的特征信息之前,包括: 獲取全部訓練樣本的特征信息; 分別利用所述訓練樣本的特征信息訓練得到N個分類器,每個所述分類器用于判斷待分類多媒體文件是否屬于所述分類器的類別; 其中,所述訓練樣本的類別已知,且訓練樣本包含多媒體文件全部預定類別的樣本;N等于多媒體文件全部預定類別的數量。5.根據權利要求4所述的方法,其特征在于,若所述訓練樣本是視頻文件,則所述獲取全部訓練樣本的特征信息,包括: 利用爬蟲從視頻網站中爬取視頻文件的特征信息,作為所述訓練樣本的特征信息。6.一種多媒體文件分類裝置,其特征在于,包括: 第一獲取模塊,用于獲取待分類多媒體文件的特征信息; 類別確定模塊,用于由第一分類器根據所述特征信息判斷所述待分類多媒體文件是否屬于所述第一分類器的類別;如果所述待分類多媒體文件不屬于所述第一分類器的類別,由第二分類器根據所述特征信息判斷所述待分類多媒體文件是否屬于所述第二分類器的類別;如果所述待分類多媒體文件不屬于所述第二分類器的類別,繼續(xù)由下一個分類器判斷,直到確定出所述待分類多媒體文件的類別,或者,全部分類器都不能確定所述待分類多媒體文件的類別; 其中,所述類別確定模塊所包含的分類器的數量等于多媒體文件全部預定類別的數量,且每個所述分類器用于識別一個類別,且不同的所述分類器所識別的類別不相同。7.根據權利要求6所述的裝置,其特征在于,所述類別確定模塊,包括: 判斷子模塊,用于判斷所述特征信息經過分類器的分類函數后計算得到的數值是否大于所述分類器的閾值; 第一確定子模塊,用于當計算得到的數值大于所述分類器的閾值時,確定所述待分類多媒體文件屬于所述分類器對應的類別; 第二確定子模塊,用于當計算得到的數值小于或等于所述分類器的閾值,確定所述待分類多媒體文件不屬于所述分類器對應的類別。8.根據權利要求6所述的裝置,其特征在于,所述類別確定模塊包括: 子類確定子模塊,用于當確定出所述待分類多媒體文件所屬的類別時,利用所述多媒體文件所屬類別對應的分類器所包含的子分類器確定所述多媒體文件所屬的子類別。9.根據權利要求6所述的裝置,其特征在于,所述裝置還包括: 第二獲取模塊,用于獲取全部訓練樣本的特征信息; 訓練模塊,用于分別利用所述訓練樣本的特征信息訓練得到N個分類器,每個所述分類器用于判斷待分類多媒體文件是否屬于所述分類器的類別; 其中,所述訓練樣本的類別已知,且訓練樣本包含多媒體文件全部預定類別的樣本;N等于多媒體文件全部預定類別的數量。10.根據權利要求9所述的裝置,其特征在于,若所述訓練樣本是視頻文件,則所述第二獲取模塊,用于利用爬蟲從視頻網站中爬取視頻文件的特征信息,作為所述訓練樣本的特征信息。
【文檔編號】G06K9/62GK105868272SQ201610158208
【公開日】2016年8月17日
【申請日】2016年3月18日
【發(fā)明人】李強
【申請人】樂視網信息技術(北京)股份有限公司