專利名稱::一種檢索多媒體資源的方法及裝置的制作方法
技術領域:
:本發(fā)明涉及通信領域以及計算機領域,特別涉及一種檢索多媒體資源的方法、裝置及系統(tǒng)。
背景技術:
:隨著互聯(lián)網(wǎng)技術的飛速發(fā)展,網(wǎng)絡中多媒體資源的數(shù)目與日倶增,越來越多的網(wǎng)站開始向互聯(lián)網(wǎng)用戶提供各種多媒體資源。目前,用戶使用搜索引擎檢索自身需要的多媒體資源時,通常使用索引字段(即檢索關鍵字)來精準地提取出相應的多媒體信息;而現(xiàn)有的搜索引擎在根據(jù)索引字段檢索多媒體資源時,先使用工具網(wǎng)頁蜘蛛(SPIDER)對互聯(lián)網(wǎng)的網(wǎng)頁進行抓取,再將網(wǎng)頁特征信息(如,網(wǎng)頁內(nèi)容描述信息、網(wǎng)頁標題等等)與索引字段進行關鍵詞匹酉己,接著,將匹配后的各網(wǎng)頁進行索引對應并排序,最后,將^r索結果呈現(xiàn)給用戶。現(xiàn)有技術下,用戶輸入用于搜索多々某體資源的索引字段后,搜索引擎根據(jù)該索引字段進行關鍵字匹配時所采用的網(wǎng)頁特征信息,通常是網(wǎng)頁內(nèi)包含的多媒體資源的屬性信息,例如,多媒體資源的名稱、標簽等等,而多々某體資源的屬性信息一般由其上傳者預先設置,因此,不同網(wǎng)頁內(nèi)包含的內(nèi)容相同的多々某體資源可能具有不同的屬性信息,顯然,這種情況極易導致檢索結果的不精準。例如不同的上傳者將包含電影《變形金剛》的視頻文件分別上傳至多個網(wǎng)站后,分別為其設置了不同的文件名稱,如,《西域金剛》、《汽車人》、《擎天柱》等等,而搜索引擎接收用戶輸入的索引字段為"變形金剛",那么,搜索引擎將視頻文件的文件名稱作為網(wǎng)頁特征信息,與用戶輸入的索引字段進行關鍵字匹配來檢索上述電影,便會因為文件名稱的不準確而無法獲得最精準的檢索結果,從而降低用戶體驗。此外,現(xiàn)有技術下,搜索引擎根據(jù)用戶輸入的索引字段無法得知用戶檢索的多媒體資源的類型,因此檢索結果內(nèi)往往包含過多的條目,使用戶需花費大量的時間從中確定自身所需的多媒體資源,從而進一步降低了用戶體驗。
發(fā)明內(nèi)容本發(fā)明實施例提供一種檢索多媒體資源的方法及裝置,用以在進行多媒體資源檢索時,提高檢索結果的精準度。本發(fā)明實施例提供的具體技術方案如下一種檢索多々某體資源的方法,包括接收用戶輸入的用于檢索多媒體資源的索引字段;根據(jù)所述索引字段獲得對應的多媒體資源的內(nèi)容簽名CID,該CID為所述多媒體資源經(jīng)哈希運算后得到的哈希值;確定具有所述CID的多媒體資源歸屬的各網(wǎng)頁,并將各網(wǎng)頁的鏈接地址進行索引對應,以獲得檢索結果。一種用于檢索多媒體資源的服務器,包括存儲單元,用于保存多媒體資源的內(nèi)容簽名CID,該CID為所述多媒體資源經(jīng)哈希運算后得到的哈希值;用戶接口單元,用于接收用戶輸入的用于檢索多媒體資源的索引字段;第一處理單元,用于根據(jù)所述索引字段獲得對應的多媒體資源的CID;第二處理單元,用于確定具有所述CID的多々某體資源歸屬的各網(wǎng)頁,并將各網(wǎng)頁的鏈接地址進行索引對應,以獲得檢索結果。本發(fā)明實施例中,檢索服務器接收用戶輸入的用于檢索多々某體資源的索引字段后,根據(jù)該索引字段對應的多媒體資源的CID,確定具有所述CID的多媒體資源歸屬的各網(wǎng)頁,并將各網(wǎng)頁的鏈接地址進行索引對應,以獲得檢索結果;其中,所述CID為所述多媒體資源經(jīng)哈希運算后得到的哈希值。由于包含相同內(nèi)容的多媒體資源具有相同的CID,因此,檢索服務器可以根據(jù)索引字段對應的CID準確地獲取符合要求的多媒體資源,并且無論多媒體資源被上傳者設置了何種屬性信息,都不會影響最終的檢索結果,這樣,便在很大程度上提高了檢索結果的精準性,從而有效地提升了用戶體驗。圖l為本發(fā)明實施例中檢索服務器功能結構圖2為檢索服務器根據(jù)索引字段進行多媒體資源檢索流程圖。具體實施例方式用戶使用搜索引擎進行多媒體資源檢索時,為了提高檢索結果的精準性,本發(fā)明實施例中,接收用戶輸入的用于檢索多4某體資源的索引字段后,根據(jù)所述索引字段獲得對應的多^某體資源的內(nèi)容簽名(ContentID,CID),該CID為所述多媒體資源經(jīng)哈希運算后得到的哈希值,接著,確定具有所述CID的多々某體資源歸屬的各網(wǎng)頁,并將各網(wǎng)頁的鏈接地址進行索引對應,以獲得4全索結果。下面以視頻文件為例并結合附圖對本發(fā)明優(yōu)選的實施方式進行詳細說明。參閱圖l所示,本實施例中,系統(tǒng)內(nèi)用于向用戶提供多媒體資源檢索服務的檢索服務器包括存儲單元100、用戶接口單元101、第一處理單元102和第二處理103,其中存儲單元IOO,用于保存多媒體資源的CID,該CID為所述多媒體資源經(jīng)哈希運算后得到的哈希值;用戶接口單元101,用于接收用戶輸入的用于檢索多媒體資源的索引字段;第一處理單元102,用于根據(jù)所述索引字段獲得對應的多媒體資源的CID;第二處理單元103,用于確定具有所述CID的多々某體資源歸屬的各網(wǎng)頁,并將各網(wǎng)頁的鏈接地址進行索引對應,以獲得4企索結果。如圖1所示,檢索服務器中還可以包括維護單元104,用于記錄指定時間段內(nèi)各用戶使用的索引字段和點擊的多媒體資源,統(tǒng)計每個索引字段對應的點擊率最高的多媒體資源,并根據(jù)統(tǒng)計結果對索引字段和多媒體資源之間的對應6關系進行更新。在實際應用中,上述檢索服務器既可以運行于互聯(lián)網(wǎng)內(nèi),也可以運行于局域網(wǎng)內(nèi),下面僅以互聯(lián)網(wǎng)為例進行介紹。本實施例中,檢索服務器將上傳至互聯(lián)網(wǎng)的每一個視頻文件都對應設置一個內(nèi)容簽名(ContentID,CID),每個牙見頻文件的CID是通過對該視頻文件進行哈希運算得到的,可以采用的哈希算法包含但不限于信息-摘要算法(Message-digestAlgorithm5,MD5)、HA1算法和MD4算法。例如,一種較佳的CID計算方法為獲取視頻文件頭部、中部、尾部各32K字節(jié)的數(shù)據(jù),并采用MD5算法對其進行計算,得到的哈希值即是上述視頻文件的CID。另一方面,由哈希算法本身的特性所決定,內(nèi)容相同的^f見頻文件具有相同的CID,因此,-現(xiàn)頻文件的CID可以用于區(qū)分^f見頻文件所包含的信息。在實際應用中,為了提高檢索結果的精準度,對于CID相同但用戶預設的屬性信息不同的視頻文件,檢索服務器可以采集多個用戶的設置內(nèi)容對該視頻文件的屬性信息進行校正。下面以視頻文件的屬性信息為其文件名稱為例進行介紹-現(xiàn)頻文件1正確的文件名稱為"導火線",;見頻文件1的CID稱為CID1,用戶A上傳4見頻文件1后將其文件名稱設置為"導火索",用戶B上傳3見頻文件1后將其文件名稱設置為"導火線",用戶C上傳視頻文件1后將其文件名稱設置為"導火",用戶D上傳^f見頻文件l后將其文件名稱設置為"導火線",而用戶E上傳視頻文件l后將其文件名稱設置為"火線追擊,,;那么,檢索服務器通過哈希運算,將上述5個用戶分別上傳的視頻文件1的CID均設置為CID1,接著,檢索服務器通過Spider工具抓取網(wǎng)頁上的信息,統(tǒng)計所有用戶設置的文件名稱,將設置次數(shù)最多的文件名稱"導火線"的權重設為最高,并將權重最高的文件名稱"導火線"作為視頻文件1最精準的文件名稱進行保存,以及在文件名稱"導火線"和CID1之間建立對應關系,這樣,當其他用戶使用索引字段"導火線"進行視頻文件搜索時,檢索服務器便可以根據(jù)"導火線,,和CID1之間的對應關系,迅速找到具有CID1的^L頻文件1所在的各個網(wǎng)頁,并將各個網(wǎng)頁的鏈接地址提供給相應的用戶,從而無論視頻文件1的上傳者為其設置了何種文件名稱,檢索服務器都可以根據(jù)CID1準確地檢索到視頻文件1所在的網(wǎng)頁,這在很大程度上提升了檢索結果的精準性。同理,視頻文件1的其他屬性信息,如版本、地區(qū)、發(fā)行時間、內(nèi)容簡介等等,也可以采用上述方式獲得最精準的信息描述,并與CID1建立對應關系。本實施例中,視頻文件l的屬性信息、CID1以及這兩者之間的對應關系可以保存在檢索服務器本地,也可以保存在獨立設置的數(shù)據(jù)庫中,以下實施例均可采用此種信息保存方法,將不再贅述。區(qū)別于上述實施例,在另一種情況下,檢索服務器還可以采用詞組分解的方法來校正視頻文件的屬性信息。下面仍以視頻文件的屬性信息為其文件名稱為例進行介紹視頻文件2的正確名稱為"不能說的秘密,,,視頻文件2的CID稱為CID2,用戶A上傳視頻文件2后將其文件名稱設置為"周xx不能說的秘密",用戶B上傳視頻文件2后將其文件名稱設置為"不能說的秘密",用戶C上傳視頻文件2后將其文件名稱設置為"我有不能說的秘密",那么,檢索服務器通過哈希運算,將上述3個用戶分別上傳的視頻文件2的CID均設置為CID2,接著檢索服務器通過Spider工具4爪取網(wǎng)頁上的信息,統(tǒng)計所有用戶"^殳置的文件名稱,并對各用戶設置的文件名稱進行詞組分解,得到的分解結果中包含以下詞組"周xx"、"不能說的秘密"和"我有",其中,"不能說的秘密"這一詞組的出現(xiàn)次數(shù)最多,即占有的權重最高,因此,檢索服務器將"不能說的秘密"作為視頻文件2最精準的文件名稱進行保存,并在"不能說的秘密,,和CID2之間建立對應關系,這樣,當其他用戶使用索引字段"不能說的秘密,,進行視頻文件搜索時,檢索服務器便可以根據(jù)"不能說的秘密"和CID2之間的對應關系,迅速找到具有CID2的視頻文件2所在的各個網(wǎng)頁,并將各個網(wǎng)頁的鏈接地址提供給相應的用戶。同理,視頻文件2的其他屬性信息,如版本、地區(qū)、發(fā)行時間、內(nèi)容簡介等等,也可以采用上述方式獲得最精準的信息描述,并與視頻文件2的標識CID2建立對應關系。基于上述兩種規(guī)劃方式,參閱圖2所示,本實施例中,檢索服務器根據(jù)用戶輸入的索引字段進行視頻文件檢索的詳細流程如下步驟200:接收用戶輸入的索引字段。本實施例中,用戶輸入的索引字段為"標簽B"。步驟210:將接收的索引字段和視頻文件的屬性信息進行匹配,獲得匹配結果。參閱表l所示,本實施例中,檢索服務器為各視頻文件的屬性信息和其相應的CID專門設置一張對應關系表,其內(nèi)容如下表1<table>tableseeoriginaldocumentpage9</column></row><table>步驟220:根據(jù)匹配結果獲得對應的CID。如表l所示,顯然,用戶輸入的索引字革殳"標簽B,,與第二個視頻文件的名稱匹配成功,那么,檢索服務器便可以根據(jù)這個匹配結果獲得對應的CIDB。步驟230:根據(jù)獲得的CID確定具有該CID的視頻文件所在的各網(wǎng)頁。步驟240:將各網(wǎng)頁的鏈接地址進行索引對應,得到檢索結果。本實施例中,即是^r索服務器將具有CIDB的視頻文件所在的各網(wǎng)頁的鏈接地址,在搜索引擎呈現(xiàn)的網(wǎng)頁內(nèi)進行索引對應,得到最后的檢索結果;其中,檢索服務器可以將各網(wǎng)頁的鏈接地址,按照具有CIDB的多媒體資源在各網(wǎng)頁檢索服務器可以將各網(wǎng)頁的鏈接地址,按照具有CIDB的多媒體資源在各網(wǎng)頁的發(fā)布時間、播;改次數(shù)或被評論次數(shù)進行排序。步驟250:將4企索結果呈現(xiàn)給相應的用戶。基于上述實施例,在實際應用中,若視頻文件(其CID稱為源CID)被轉碼為其他格式上傳,則檢索服務器應針對轉碼后的視頻文件重新設置CID(稱為子CID),并且,檢索服務器在源CID和子CID之間建立對應關系,一個源CID可以對應多個子CID,在建立對應關系時,可以在源CID中增設屬性字段,通過增設的屬性字段來表示源CID的各種屬性,例如,通過屬性字段表示存在與源CID對應的子CID、源CID對應的子CID的個數(shù)和各子CID的序號等等。檢索服務器在檢索具有源CID的視頻文件時,也需要將具有子CID的視頻文件列入檢索范圍之內(nèi),即檢索服務器最終獲取的各網(wǎng)頁中既包括具有源CID的視頻文件所在的網(wǎng)頁,也包括具有子CID的視頻文件所在的網(wǎng)頁,這樣,便進一步提高了檢索結果的精準性。基于上述實施例,檢索服務器在為用戶提供其需要的視頻文件后,定期或不定其地對指定時間段內(nèi)的各個用戶的檢索行為進行采集并整理,例如,將各用戶檢索時使用的索引字^1和對應的點擊結果進行記錄和匯總統(tǒng)計,得到每個索SI字段對應的點擊率最高的視頻文件,并根據(jù)統(tǒng)計結果對索?I字段與視頻文件之間的對應關系進行更新,以便在用戶下一次進行檢索時,為其提供更為精準的檢索結果。另一方面,在用戶輸入的索引字段不完整的情況下,檢索服務器可以根據(jù)對用戶的歷史檢索行為的統(tǒng)計結果,將索引字段補充完整(可以有多種補充方式),并將補充后的索引字段呈現(xiàn)給用戶以供選擇,較佳地,將不同的補充后的索引字段4姿照其^b險索的次數(shù)從大到小順序進行排列,并將排列結果呈現(xiàn)給用戶。當然,上述各實施例同樣適合于其他的多媒體資源,例如,音頻文件。檢索服務器針對其他多媒體資源同樣可以通過設置CID的方式來獲得準確的檢索結果,在此不再贅述。綜上所述,本發(fā)明實施例中,檢索服務器接收用戶輸入的用于檢索多媒體資源的索引字段后,根據(jù)該索引字段對應的多媒體資源的CID,確定具有所述CID的多媒體資源歸屬的各網(wǎng)頁,并將各網(wǎng)頁的鏈接地址進行索引對應,以獲得檢索結果;其中,所述CID為所述多媒體資源經(jīng)哈希運算后得到的哈希值。由于包含相同內(nèi)容的多媒體資源具有相同的CID,因此,檢索服務器可以根據(jù)索引字段對應的CID準確地獲取符合要求的多媒體資源,并且無論多媒體資源被上傳者設置了何種屬性信息,都不會影響最終的檢索結果,這樣,便在很大程度上提高了檢索結果的精準性,從而有效地提升了用戶體驗。不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明實施例中的這些修改和變型屬于本發(fā)明權利要求及其等同技術的范圍之內(nèi),則本發(fā)明中的實施例也意圖包含這些改動和變型在內(nèi)。權利要求1、一種檢索多媒體資源的方法,其特征在于,包括接收用戶輸入的用于檢索多媒體資源的索引字段;根據(jù)所述索引字段獲得對應的多媒體資源的內(nèi)容簽名CID,該CID為所述多媒體資源經(jīng)哈希運算后得到的哈希值;確定具有所述CID的多媒體資源歸屬的各網(wǎng)頁,并將各網(wǎng)頁的鏈接地址進行索引對應,以獲得檢索結果。2、如權利要求l所述的方法,其特征在于,接收用戶輸入的索引字段后,根據(jù)歷史檢索行為的統(tǒng)計結果,對用戶輸入的索引字段進行補充,并將補充后的索引字段呈現(xiàn)給用戶,以及在用戶重新選擇索引字段后,根據(jù)重新選擇的索引字段獲得對應的多媒體資源的CID。3、如權利要求l所述的方法,其特征在于,獲取具有所述CID的多媒體資源歸屬的各網(wǎng)頁后,將各網(wǎng)頁的鏈接地址按照該多々某體資源在各網(wǎng)頁的發(fā)布時間、播放次數(shù)或被評論次數(shù)進行排序。4、如權利要求l、2或3所述的方法,其特征在于,根據(jù)所述索引字段獲得對應的多4某體資源的CID后,若該CID具有至少一個子CID,則確定具有所述CID的多4某體資源歸屬的各網(wǎng)頁,以及確定具有所述子CID的多i某體資源歸屬的各網(wǎng)頁,并將確定的各網(wǎng)頁的鏈接地址進行索引對應,以獲得檢索結果。5、如權利要求4所述的方法,其特征在于,記錄指定時間段內(nèi)各用戶使用的索引字段和點擊的多媒體資源,統(tǒng)計每個索引字段對應的點擊率最高的多媒體資源,并根據(jù)統(tǒng)計結果對索引字段和多媒體資源之間的對應關系進行更新。6、一種用于檢索多媒體資源的服務器,其特征在于,包括存儲單元,用于保存多媒體資源的內(nèi)容簽名CID,該CID為所述多媒體資源經(jīng)哈希運算后得到的哈希值;用戶接口單元,用于接收用戶輸入的用于檢索多媒體資源的索引字段;第一處理單元,用于根據(jù)所述索引字段獲得對應的多々某體資源的CID;第二處理單元,用于確定具有所述CID的多4某體資源歸屬的各網(wǎng)頁,并將各網(wǎng)頁的鏈接地址進行索引對應,以獲得檢索結果。7、如權利要求6所述的服務器,其特征在于,所述用戶"l妄口單元接收用戶輸入的索引字段后,所述第一處理單元根據(jù)歷史檢索行為的統(tǒng)計結果,對用戶輸入的索31字段進行補充,并將補充后的索引字段通過所述用戶接口單元呈現(xiàn)給用戶,以及在用戶重新選擇索引字段后,根據(jù)重新選擇的索引字段獲得對應的多媒體資源的CID。8、如權利要求6所述的服務器,其特征在于,所述第二處理單元獲取具有所述CID的多4某體資源歸屬的各網(wǎng)頁后,將各網(wǎng)頁的鏈接地址按照該多々某體資源在各網(wǎng)頁的發(fā)布時間、播放次數(shù)或被評論次數(shù)進行排序。9、如權利要求6、7或8所述的服務器,其特征在于,所述第二處理單元根據(jù)所述索引字段獲得對應的多媒體資源的CID后,若該CID具有至少一個子CID,則所述第二處理單元確定具有所述CID的多媒體資源歸屬的各網(wǎng)頁,以及確定具有所述子CID的多々某體資源歸屬的各網(wǎng)頁,并將確定的各網(wǎng)頁的鏈接地址進行索引對應,以獲得檢索結果。10、如權利要求9所述的服務器,其特征在于,還包括維護單元,用于記錄指定時間段內(nèi)各用戶使用的索引字段和點擊的多媒體資源,統(tǒng)計每個索引字段對應的點擊率最高的多媒體資源,并才艮據(jù)統(tǒng)計結果對索引全文摘要本發(fā)明公開了一種檢索視頻文件的方法,該方法為接收用戶輸入的用于檢索多媒體資源的索引字段;根據(jù)所述索引字段獲得對應的多媒體資源的內(nèi)容簽名CID,該CID為所述多媒體資源經(jīng)哈希運算后得到的哈希值;確定具有所述CID的多媒體資源歸屬的各網(wǎng)頁,并將各網(wǎng)頁的鏈接地址進行索引對應,以獲得檢索結果。由于包含相同內(nèi)容的多媒體資源具有相同的CID,因此,檢索服務器可以根據(jù)索引字段對應的CID準確地獲取符合要求的多媒體資源,并且無論多媒體資源被上傳者設置了何種屬性信息,都不會影響最終的檢索結果,這樣,便在很大程度上提高了檢索結果的精準性,從而有效地提升了用戶體驗。本發(fā)明同時公開了一種檢索服務器。文檔編號G06F17/30GK101477527SQ200810188199公開日2009年7月8日申請日期2008年12月30日優(yōu)先權日2008年12月30日發(fā)明者楊建軍申請人:深圳市迅雷網(wǎng)絡技術有限公司