国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      重復(fù)信息識別方法和設(shè)備的制作方法

      文檔序號:6340446閱讀:522來源:國知局
      專利名稱:重復(fù)信息識別方法和設(shè)備的制作方法
      重復(fù)信息識別方法和設(shè)備技術(shù)領(lǐng)域
      本申請涉及通信技術(shù)領(lǐng)域,特別涉及一種重復(fù)信息識別方法和設(shè)備。
      技術(shù)背景
      電子商務(wù)(Electronic Commerce, EC)通常是指在全球各地廣泛的商業(yè)貿(mào)易活動中,在因特網(wǎng)開放的網(wǎng)絡(luò)環(huán)境下,基于瀏覽器/服務(wù)器應(yīng)用方式,買賣雙方不謀面地進(jìn)行各種商貿(mào)活動,實現(xiàn)消費者的網(wǎng)上購物、商戶之間的網(wǎng)上交易和在線電子支付以及各種商務(wù)活動、交易活動、金融活動和相關(guān)的綜合服務(wù)活動的一種新型的商業(yè)運營模式。
      電子商務(wù)涵蓋的范圍很廣,一般可分為企業(yè)對企業(yè)(Business-to-Business, B2B),或企業(yè)對消費者(Business-to-Customer, B2C)兩種。另外還有消費者對消費者 (Customer-to-Customer, C2C)這種大步增長的模式。隨著國內(nèi)Internet (互聯(lián)網(wǎng))使用人數(shù)的增加,利用^ternet進(jìn)行網(wǎng)絡(luò)購物并以銀行卡付款的消費方式已漸流行,市場份額也在迅速增長,電子商務(wù)網(wǎng)站也層出不窮。
      隨著電子商務(wù)的高速發(fā)展,互聯(lián)網(wǎng)上電子商務(wù)網(wǎng)站中的商品數(shù)量也在高速增長, 在海量的商品信息背后,存在著大量相同或相似的商品信息,對于電子商務(wù)網(wǎng)站的管理者, 大量的相同或相似的商品信息的重復(fù)審核,大大降低了產(chǎn)品審核效率,并消耗存儲空間,浪費了商品信息的審核和存儲資源,而如果大量內(nèi)容相同或相似產(chǎn)品在前臺展示,則對于電子商務(wù)網(wǎng)站的使用者來說,大量雷同信息的重復(fù)顯示也會嚴(yán)重影響使用者的商品搜索體驗和搜索效率。
      因此,現(xiàn)有技術(shù)中,在電子商務(wù)網(wǎng)站的信息管理端啟動了產(chǎn)品信息源頭去重技術(shù), 在產(chǎn)品信息進(jìn)入審核前,通過技術(shù)手段自動將內(nèi)容相同或相似的產(chǎn)品信息進(jìn)行退回處理, 從而提高電子商務(wù)網(wǎng)站整體信息的質(zhì)量。
      通常,在現(xiàn)有的技術(shù)方案中,上述的產(chǎn)品信息源頭去重技術(shù)所采用的方法具體為數(shù)據(jù)庫查詢比對法即將進(jìn)入審核流程的產(chǎn)品數(shù)據(jù)取出,訪問數(shù)據(jù)庫查詢出該產(chǎn)品對應(yīng)用戶的所有產(chǎn)品信息。通過程序?qū)⒃摦a(chǎn)品信息與本用戶的其它產(chǎn)品信息依次進(jìn)行比較。如比較斷定為重復(fù)信息,則對該產(chǎn)品信息的審核處理進(jìn)行退回操作,反之,則繼續(xù)進(jìn)行其余審核。
      在實現(xiàn)本申請實施例的過程中,申請人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題
      1、造成了數(shù)據(jù)庫訪問的巨大壓力
      如果按照現(xiàn)有的技術(shù)方案,使用數(shù)據(jù)庫查詢比對法,則每審核一條產(chǎn)品信息都需要對數(shù)據(jù)庫進(jìn)行一次查詢。在需要審核的信息量較小時,不會產(chǎn)生過大的影響,但需要審核的信息量一旦增加,便會對數(shù)據(jù)庫造成極大的訪問壓力。
      如果以一個電子商務(wù)網(wǎng)站每天需要審核幾十萬條的產(chǎn)品信息的審核量來計算,那么,對于一個電子商務(wù)網(wǎng)站的數(shù)據(jù)庫來講,每天至少將會增加幾十萬次的數(shù)據(jù)庫查詢操作, 系統(tǒng)資源浪費和數(shù)據(jù)庫的訪問流量壓力巨大。
      2、產(chǎn)品信息的比對效率低
      使用數(shù)據(jù)庫查詢比對法,在查詢數(shù)據(jù)庫信息時,需要進(jìn)行SQL(S加CturedQuery Language,結(jié)構(gòu)化查詢語言)解析、IO anput/Output,輸入輸出)操作、網(wǎng)絡(luò)傳輸?shù)纫幌盗胁僮?,因此,在需要查詢的產(chǎn)品信息量較大時,會嚴(yán)重影響產(chǎn)品信息的比對效率。發(fā)明內(nèi)容
      本申請實施例提供一種重復(fù)信息識別方法和設(shè)備,解決在現(xiàn)有技術(shù)中存在大量重復(fù)數(shù)據(jù),影響產(chǎn)品信息的使用體驗的問題。
      為達(dá)到上述目的,本申請實施例一方面提供了一種重復(fù)信息識別方法,包括
      當(dāng)服務(wù)器接收到一個信息發(fā)布者所發(fā)送的信息發(fā)布請求時,所述服務(wù)器根據(jù)所述信息發(fā)布請求所請求發(fā)布的信息生成特征編碼;
      所述服務(wù)器在對應(yīng)保存有信息發(fā)布者的標(biāo)識信息和已發(fā)布信息的特征編碼的內(nèi)存中查找獲取與所述信息發(fā)布者的標(biāo)識信息所對應(yīng)的已發(fā)布的信息的特征編碼;
      所述服務(wù)器判斷所述生成的特征編碼與在內(nèi)存中獲取的已發(fā)布的信息的特征編碼是否存在重復(fù);
      如果所述服務(wù)器的判斷結(jié)果為重復(fù),所述服務(wù)器拒絕發(fā)布所述信息發(fā)布請求所請求發(fā)布的信息。
      另一方面,本申請實施例還提供了一種服務(wù)器,包括
      接收模塊,用于接收信息發(fā)布請求;
      生成模塊,用于在所述接收模塊接收到一個信息發(fā)布者發(fā)送的信息發(fā)布請求時, 根據(jù)所述信息發(fā)布請求所請求發(fā)布的信息生成特征編碼;
      獲取模塊,用于在對應(yīng)保存有信息發(fā)布者的標(biāo)識信息和已發(fā)布信息的特征編碼的內(nèi)存中查找獲取與所述信息發(fā)布者的標(biāo)識信息所對應(yīng)的已發(fā)布的信息的特征編碼;
      判斷模塊,用于判斷所述生成模塊所生成的特征編碼與所述獲取模塊在內(nèi)存中獲取到的已發(fā)布的各信息的特征編碼是否存在重復(fù);
      處理模塊,用于在所述判斷模塊的判斷結(jié)果為重復(fù)時,拒絕發(fā)布所述信息發(fā)布請求所請求發(fā)布的信息。
      與現(xiàn)有技術(shù)相比,本申請實施例具有以下優(yōu)點
      通過應(yīng)用本申請實施例的技術(shù)方案,將已發(fā)布的信息以特征編碼的形式存儲于內(nèi)存中,在接收到新的信息發(fā)布請求時,在內(nèi)存中查詢相應(yīng)的特征編碼,通過比較是否存在重復(fù)的特征編碼判斷該信息發(fā)布者所請求發(fā)布的信息是否與已發(fā)布信息相重復(fù),從而,在保證信息查重準(zhǔn)確率的情況下,減少通過數(shù)據(jù)庫進(jìn)行信息重復(fù)查詢所帶來的數(shù)據(jù)庫訪問流量負(fù)擔(dān),以及提高重復(fù)信息的查詢效率,縮短信息發(fā)布過程的查重時間。


      圖1為本申請實施例提出的一種重復(fù)信息識別方法的流程示意圖2為本申請實施例所提出的一種重復(fù)信息識別方法的主體思路的流程示意圖3為本申請實施例所提出的一種重復(fù)信息識別方法的具體的應(yīng)用場景的系統(tǒng)結(jié)構(gòu)示意圖4為本申請實施例所提出的一種重復(fù)信息識別方法的具體的應(yīng)用場景的系統(tǒng)6結(jié)構(gòu)示意圖5為本申請實施例提出的一種服務(wù)器的結(jié)構(gòu)示意圖。
      具體實施方式
      如背景技術(shù)所述,現(xiàn)有技術(shù)中的通過數(shù)據(jù)庫進(jìn)行重復(fù)信息查詢的方案存在流量負(fù)擔(dān)高,信息對比效率低的缺陷,如何降低因為重復(fù)信息查詢所帶來的流量負(fù)擔(dān),提高重復(fù)信息的查詢效率,成為信息發(fā)布領(lǐng)域的一個重要課題。
      基于此,本申請實施例提出了一種通過內(nèi)存存儲已發(fā)布信息編碼進(jìn)行信息查重的方法,重復(fù)信息比對解決方案,直接從內(nèi)存獲取數(shù)據(jù)進(jìn)行比對,不訪問數(shù)據(jù)庫,避免了由于信息查重所帶來的數(shù)據(jù)庫的訪問流量,并且不再需要數(shù)據(jù)庫相關(guān)的操作,大大提高了比對效率。
      如圖1所示,為本申請實施例提出的一種重復(fù)信息識別方法的流程示意圖,該方法具體包括以下步驟
      步驟S101、當(dāng)服務(wù)器接收到一個信息發(fā)布者所發(fā)送的信息發(fā)布請求時,服務(wù)器根據(jù)信息發(fā)布請求所請求發(fā)布的信息生成特征編碼。
      具體的特征編碼生成過程為
      首先,服務(wù)器獲取信息發(fā)布請求所請求發(fā)布的信息中所包含的特征數(shù)據(jù),在實際的應(yīng)用場景中,該特征數(shù)據(jù)的項目類型可以根據(jù)信息的類型進(jìn)行預(yù)設(shè),對于大量信息類型和信息結(jié)構(gòu)相類似的待發(fā)布信息可以按照此方式進(jìn)行。
      例如,對于請求發(fā)布待銷售的產(chǎn)品信息的情況,預(yù)設(shè)的特征數(shù)據(jù)的項目類型可以為產(chǎn)品名稱、產(chǎn)品分類、圖片特征(例如產(chǎn)品圖片的相似性比對參數(shù))、產(chǎn)品說明、產(chǎn)品價格和產(chǎn)品生產(chǎn)信息等,而對于另一種情況,例如請求進(jìn)行新聞發(fā)布的場景,如果應(yīng)用本申請實施例所提出的技術(shù)方案,則可以設(shè)置的特征數(shù)據(jù)的項目可以包括新聞題目、新聞發(fā)生時間、 新聞關(guān)鍵詞、新聞?wù)?、新聞來源、新聞多媒體資料和新聞版權(quán)信息等,通過這樣的項目類型的設(shè)置,可以標(biāo)識出所請求發(fā)布的待銷售的產(chǎn)品信息或新聞的特征,以便進(jìn)行后續(xù)的重復(fù)信息的識別。
      具體的,上述的示例僅是以待銷售的產(chǎn)品信息和新聞的請求發(fā)布過程中,對于能夠表明信息差異性的特征數(shù)據(jù)的項目類型的設(shè)置方式進(jìn)行舉例說明,在實際的應(yīng)用場景中,可以根據(jù)實際的場景需要進(jìn)行選擇,具體的項目類型的變化并不會影響本申請的保護(hù)范圍。
      在完成了上述的特征數(shù)據(jù)的項目類型的設(shè)置后,當(dāng)服務(wù)器接收到相應(yīng)的信息發(fā)布的請求后,可以根據(jù)相應(yīng)的項目類型設(shè)置獲取所請求發(fā)布的信息的特征數(shù)據(jù),并根據(jù)預(yù)設(shè)算法,將所獲取的特征數(shù)據(jù)轉(zhuǎn)換為信息發(fā)布請求所請求發(fā)布的信息的特征編碼。具體的算法可以是MD5算法,消息摘要算法以及其他能夠?qū)ο鄳?yīng)的信息數(shù)據(jù)進(jìn)行編碼轉(zhuǎn)換,以達(dá)到本申請實施例中相應(yīng)的技術(shù)目的的算法規(guī)則,這樣的算法類型的變化并不會影響本申請的保護(hù)范圍。
      這樣進(jìn)行轉(zhuǎn)換處理的目的一方面在于經(jīng)過編碼后的數(shù)據(jù)可以在后續(xù)的比對過程中提高比對效率,另一方面,則在于減少所獲取的特征數(shù)據(jù)所占用的存儲空間資源,尤其是對于已發(fā)布的信息,通過預(yù)設(shè)算法進(jìn)行編碼處理后,特征數(shù)據(jù)所占用的空間大小將大幅縮小,從而,使得服務(wù)器可以存儲更多的已發(fā)布信息的特征數(shù)據(jù),或存儲更多項目類型的特征數(shù)據(jù),從而,提高重復(fù)信息識別的準(zhǔn)確性和全面性。
      步驟S102、服務(wù)器在對應(yīng)保存有信息發(fā)布者的標(biāo)識信息和已發(fā)布信息的特征編碼的內(nèi)存中查找獲取與所述信息發(fā)布者的標(biāo)識信息所對應(yīng)的已發(fā)布的信息的特征編碼。
      其中,已發(fā)布的各信息的特征編碼即是先前已發(fā)布的各信息的特征信息經(jīng)過預(yù)設(shè)算法轉(zhuǎn)換處理后形成的編碼信息,這部分信息在經(jīng)過編碼處理后所占用的存儲空間資源已經(jīng)很少,而且,被調(diào)用和更新的頻率又會比較高,所以,服務(wù)器將這部分?jǐn)?shù)據(jù)直接在內(nèi)存中進(jìn)行存儲,一方面方便調(diào)用和更新,另一方面,也避免了對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行頻繁調(diào)用所帶來的數(shù)據(jù)通信負(fù)擔(dān)。
      同時,內(nèi)存中以信息發(fā)布者的標(biāo)識信息為鍵(key),以該信息發(fā)布者所發(fā)布的各信息的特征編碼為鍵值(value),建立信息發(fā)布者的標(biāo)識信息和已發(fā)布的各信息的特征編碼的對應(yīng)關(guān)系,以便根據(jù)信息發(fā)布者的標(biāo)識信息,對已發(fā)布信息進(jìn)行來源分類和重復(fù)比較。
      需要指出的是,根據(jù)具體應(yīng)用場景的差異,在內(nèi)存中存儲已發(fā)布的信息的特征編碼及其相對應(yīng)的信息發(fā)布者的標(biāo)識信息的方式也存在差別
      情況一、在各信息發(fā)布者所發(fā)布的信息相互獨立的情況下,即不同的發(fā)布者發(fā)布的信息之間互不干擾,允許不同的發(fā)布者發(fā)布重復(fù)的信息的情況下,例如,網(wǎng)絡(luò)商店,個人博客等應(yīng)用場景。
      本步驟所獲取的特征編碼范圍應(yīng)該是屬于同一個信息發(fā)布者所發(fā)布的信息的特征編碼,即判斷信息發(fā)布請求的信息發(fā)布者先前是否已發(fā)布過相同的信息。
      在此種情況下,為了能夠區(qū)分內(nèi)存中已存儲的特征編碼與信息發(fā)布請求是否由相同的信息發(fā)布者所發(fā)送,便需要根據(jù)內(nèi)存中與已發(fā)布的信息的特征編碼相對應(yīng)存儲的信息發(fā)布者的標(biāo)識信息,因此,本步驟的執(zhí)行過程,具體為
      服務(wù)器確定信息發(fā)布請求的信息發(fā)布者的標(biāo)識信息;
      服務(wù)器根據(jù)該標(biāo)識信息,在內(nèi)存中已存儲的信息的特征編碼中,獲取該標(biāo)識信息所對應(yīng)的全部特征編碼,即在內(nèi)存中查詢該標(biāo)識信息所對應(yīng)的信息發(fā)布者已發(fā)布的信息。
      即在此種情況下,內(nèi)存中存儲已發(fā)布的信息的特征編碼時,對應(yīng)性的存儲了發(fā)布該信息的信息發(fā)布者的標(biāo)識信息。
      情況二、在各信息發(fā)布者所發(fā)布的信息共享的情況下,即不同的發(fā)布者發(fā)布的信息彼此共享,不允許不同的發(fā)布者發(fā)布重復(fù)的信息的情況下,例如,新聞網(wǎng)站,資源共享平臺等應(yīng)用場景。
      本步驟所獲取的特征編碼范圍除了本信息發(fā)布者所發(fā)布的信息的特征編碼外,還要包括其他信息發(fā)布者所發(fā)布的所有信息的特征編碼,即判斷所有已發(fā)布的所有信息中是否存在與本次信息發(fā)布請求所請求發(fā)布的信息內(nèi)容相同的信息。
      在此種情況下,在內(nèi)存中存儲已發(fā)布的信息的特征編碼時,可以繼續(xù)對應(yīng)存儲信息發(fā)布者的標(biāo)識,但在此種情況下,這個標(biāo)識可以只包含真正發(fā)布此信息的信息發(fā)布者,也可以進(jìn)一步包含所有請求過發(fā)布該信息的信息發(fā)布者,即在記錄成功發(fā)布該信息的信息發(fā)布者的同時,還可以記錄所有請求發(fā)布該信息,但由于識別為重復(fù)信息而被拒絕了發(fā)布請求的信息發(fā)布者,從而,使其他再請求發(fā)布該相同或相似信息的信息發(fā)布者獲知自己與哪個或哪些信息發(fā)布者請求發(fā)布了相同或相似的信息。
      在實際應(yīng)用中,具體應(yīng)用上述哪種信息發(fā)布者的標(biāo)識信息的存儲方式可以根據(jù)需要進(jìn)行選擇,具體選擇內(nèi)容的變化并不會影響本申請的保護(hù)范圍。
      步驟S103、服務(wù)器判斷生成的特征編碼與在內(nèi)存中獲取的已發(fā)布的各信息的特征編碼是否存在重復(fù)。
      如果服務(wù)器的判斷結(jié)果為存在重復(fù),執(zhí)行步驟S103 ;
      如果服務(wù)器的判斷結(jié)果為不存在重復(fù),執(zhí)行步驟S104。
      在實際應(yīng)用中,為了實現(xiàn)后續(xù)的比對識別過程,上述的步驟SlOl中服務(wù)器生成的特征編碼,以及步驟S102中所提及的內(nèi)存中所存儲的特征編碼,必須是根據(jù)相同的預(yù)設(shè)算法所生成的相同類型的編碼信息,例如MD5編碼信息以及其他類型的編碼信息。
      步驟S104、服務(wù)器拒絕發(fā)布所請求發(fā)布的信息。
      在實際應(yīng)用中,為了實現(xiàn)對特殊業(yè)務(wù)或高級客戶所請求業(yè)務(wù)的優(yōu)先處理和特殊管理,本步驟的處理還包括
      服務(wù)器判斷信息發(fā)布者是否定制了相應(yīng)的特殊發(fā)布業(yè)務(wù);
      如果是,服務(wù)器發(fā)布該信息發(fā)布請求所請求發(fā)布的信息,如果不是,服務(wù)器拒絕發(fā)布該信息發(fā)布請求所請求發(fā)布的信息。
      通過這樣的處理,可以對開通了特殊業(yè)務(wù)的用戶,以及優(yōu)先級或發(fā)布權(quán)限較高的高級用戶提供區(qū)別于一般情況的高級別服務(wù),既這樣的特殊業(yè)務(wù)和高級用戶不再受到信息重復(fù)的發(fā)布限制,或所受到的發(fā)布限制較少,從而,改善這部分用戶的使用體驗,為其提供高級別的個性化服務(wù)。
      在上述的處理過程中,具體的拒絕信息發(fā)布的方式為服務(wù)器向信息發(fā)布請求的信息發(fā)布者返回發(fā)布拒絕指示,為了使該信息發(fā)布者更多的了解自己的信息發(fā)布請求的處理情況,在發(fā)布拒絕指示中,還可以進(jìn)一步攜帶拒絕發(fā)布的原因信息。
      進(jìn)一步的,本申請實施例所提出的技術(shù)方案還包括
      服務(wù)器根據(jù)內(nèi)存中所存儲的已發(fā)布信息的特征編碼,生成包含多個標(biāo)桿信息的樣本庫。
      在此過程中,內(nèi)存中所存儲的每一個已發(fā)布信息的特征編碼都會生成相應(yīng)的一個標(biāo)桿信息存儲到該樣本庫中,同時,該樣本庫中的標(biāo)桿信息除了存儲這些特征編碼相對應(yīng)的信息外,還記錄了該特征編碼相關(guān)的其他信息,例如其所對應(yīng)的已發(fā)布信息的更新時間,更新次數(shù),被識別重復(fù)為發(fā)布請求的次數(shù),當(dāng)前狀態(tài)等信息,通過這樣的處理,可以更加準(zhǔn)確的記錄信息發(fā)布請求的處理情況,以及為相應(yīng)的后臺維護(hù)提供記錄依據(jù)。
      進(jìn)一步的,由于樣本庫中的信息相對于內(nèi)存中所存儲的特征編碼被調(diào)用的頻率和調(diào)用速度要求都要更低一些,所以,樣本庫無需在內(nèi)存中進(jìn)行存儲,而是可以存儲在服務(wù)器的本地磁盤或者相應(yīng)的數(shù)據(jù)庫中,具體存儲位置可以根據(jù)實際的需要進(jìn)行選擇。
      在完成上述的樣本庫的生成操作后,如果服務(wù)器判斷內(nèi)存中所存儲的已發(fā)布信息的特征編碼與信息發(fā)布請求所請求發(fā)布的信息的特征編碼相重復(fù),服務(wù)器將更新樣本庫中該特征編碼所對應(yīng)的標(biāo)桿信息的操作時間及計數(shù),并刪除修改前的編碼信息及其對應(yīng)的標(biāo)桿信息。
      服務(wù)器將該標(biāo)桿信息的地址信息發(fā)送給該信息發(fā)布請求的信息發(fā)布者,以使該信息發(fā)布者能夠根據(jù)所接收到的地址信息查看該標(biāo)桿信息,從而,確認(rèn)已發(fā)布信息與信息發(fā)布請求的重復(fù)情況,通過這樣的處理,一方面可以使信息發(fā)布者獲知準(zhǔn)確的信息重復(fù)發(fā)布情況,另一方面,地址信息的傳輸也不會給服務(wù)器構(gòu)成過大的傳輸負(fù)擔(dān),不會影響服務(wù)器的業(yè)務(wù)性能。
      步驟S105、服務(wù)器繼續(xù)對信息發(fā)布請求根據(jù)預(yù)設(shè)的驗證規(guī)則進(jìn)行其他驗證。
      如果其他驗證通過,執(zhí)行步驟S106 ;
      如果其他驗證沒有通過,則停止對該信息發(fā)布請求的后續(xù)驗證過程,并記錄該信息發(fā)布請求沒有通過的原因。
      步驟S106、服務(wù)器發(fā)布所請求發(fā)布的信息,并將信息所對應(yīng)的特征編碼存儲至內(nèi)存。
      需要說明的是,在存儲到內(nèi)存中之后,如果特征數(shù)據(jù)的重要性較高,服務(wù)器還可以按照相應(yīng)的備份策略對內(nèi)存中的特征編碼進(jìn)行備份處理,以防止服務(wù)器遇到突發(fā)情況而不能提供服務(wù)時內(nèi)存中的特征編碼信息的丟失,例如,在服務(wù)器本地的磁盤中建立小型數(shù)據(jù)庫,按照預(yù)設(shè)的備份周期將內(nèi)存中的特征編碼進(jìn)行備份,以便在遭遇突發(fā)情況時,恢復(fù)相應(yīng)的特征編碼信息到內(nèi)存中。
      其中,具體的備份策略可以根據(jù)實際需要進(jìn)行變化,例如,除了上述的周期備份外,還可以包括定時備份,事件觸發(fā)備份等方式觸發(fā)相應(yīng)的備份操作,而備份數(shù)據(jù)的存儲位置也不僅限于服務(wù)器的本地磁盤,也可以是與該服務(wù)器同處于一個服務(wù)器集群的其他服務(wù)器,或者數(shù)據(jù)庫所對應(yīng)的存儲資源中。
      需要指出的是,上述的備份操作是一種可選操作,因為其會帶來存儲資源的消耗, 也會產(chǎn)生一定量的傳輸負(fù)載,是否需要付出這樣的資源和負(fù)載消耗可以根據(jù)內(nèi)存中的特征數(shù)據(jù)的重要性進(jìn)行確定,如果系統(tǒng)中沒有進(jìn)行這樣的備份操作,而服務(wù)器又遭遇了突發(fā)情況,那么,服務(wù)器恢復(fù)工作或備份服務(wù)器代替服務(wù)器開始工作后,可以在前述的樣本庫,或者數(shù)據(jù)庫中重新獲取特征編碼到內(nèi)存中。
      在上述技術(shù)方案實現(xiàn)的過程中,服務(wù)器還可以通過以下方式進(jìn)行內(nèi)存中的信息整理
      方式一、如果已發(fā)布的信息被刪除,則服務(wù)器刪除內(nèi)存中所存儲的被刪除信息所對應(yīng)的特征編碼。
      方式二、如果已發(fā)布的信息被修改,服務(wù)器根據(jù)修改后的信息內(nèi)容,返回步驟 S103,判斷修改后的信息內(nèi)容所對應(yīng)的特征編碼與內(nèi)存中存儲的同一個信息發(fā)布者已發(fā)布的各信息的特征編碼是否存在重復(fù),如果不重復(fù),則修改內(nèi)存中存儲的被修改信息所對應(yīng)的特征編碼,如果重復(fù),則參照前述的處理步驟來實現(xiàn)相應(yīng)的進(jìn)一步處理。
      方式三、如果內(nèi)存中所存儲的特征編碼達(dá)到了預(yù)設(shè)的清理觸發(fā)條件,服務(wù)器按照預(yù)設(shè)的策略刪除內(nèi)存中存儲的信息所對應(yīng)的特征編碼。
      在實際的應(yīng)用場景中,上述的預(yù)設(shè)的清理觸發(fā)條件具體可以包括
      1、如果內(nèi)存中所存儲的特征編碼或樣本庫中的標(biāo)桿信息的總數(shù)量達(dá)到了預(yù)設(shè)的數(shù)量閾值,則對內(nèi)存中所存儲的特征編碼進(jìn)行清理,同時,相應(yīng)的清理樣本庫中相對應(yīng)的標(biāo)桿信息。
      2、如果內(nèi)存中所存儲的特征編碼或樣本庫中的標(biāo)桿信息所占用的存儲空間的大小達(dá)到了預(yù)設(shè)的空間閾值,則對內(nèi)存中所存儲的特征編碼進(jìn)行清理,同時,相應(yīng)的清理樣本10庫中相對應(yīng)的標(biāo)桿信息。
      3、如果內(nèi)存中所存儲的特征編碼或樣本庫中的標(biāo)桿信息所對應(yīng)的操作時間距離當(dāng)前時間的時間長度達(dá)到了預(yù)設(shè)的時間閾值,則對內(nèi)存中所存儲的特征編碼進(jìn)行清理,同時,相應(yīng)的清理樣本庫中相對應(yīng)的標(biāo)桿信息。
      在具體的清理過程中,可以根據(jù)預(yù)先定制的策略進(jìn)行清理,例如,按照所對應(yīng)的操作時間(生成時間或更新時間)的順序,優(yōu)先清理操作時間最早的特征信息,同時,相應(yīng)的清理樣本庫中相對應(yīng)的標(biāo)桿信息。
      具體應(yīng)用的策略內(nèi)容可以根據(jù)實際需要進(jìn)行調(diào)整,這樣的變化并不會影響本申請的保護(hù)范圍。
      這樣的清理主要目的在于對內(nèi)存空間資源的釋放,避免長期不用的特征編碼信息對內(nèi)存存儲空間的占用,當(dāng)然,這會導(dǎo)致一部分已發(fā)布的信息所對應(yīng)的特征編碼的缺失,從而影響這部分?jǐn)?shù)據(jù)的重復(fù)識別,但是,考慮到上述的清理策略所針對的特征編碼,都是在相應(yīng)的場景下被再次使用的概率較低的特征編碼,所以,清楚這部分特征編碼所帶來的重復(fù)識別誤差將會很小,相反,如果要避免這部分誤差,必然需要存儲更多的特征編碼,那么,所能采取的措施只能是增加內(nèi)存容量,在具體的應(yīng)用場景中,通過權(quán)衡增大內(nèi)存所帶來的成本投入與上述誤差對系統(tǒng)運行所帶來的影響,可以確定是否應(yīng)用上述的清理策略,這樣的變化同樣屬于本申請的保護(hù)范圍。
      與現(xiàn)有技術(shù)相比,本申請實施例具有以下優(yōu)點
      通過應(yīng)用本申請實施例的技術(shù)方案,將已發(fā)布的信息以特征編碼的形式存儲于內(nèi)存中,在接收到新的信息發(fā)布請求時,在內(nèi)存中查詢相應(yīng)的特征編碼,通過比較是否存在重復(fù)的特征編碼判斷該信息發(fā)布者所請求發(fā)布的信息是否與已發(fā)布信息相重復(fù),從而,在保證信息查重準(zhǔn)確率的情況下,減少通過數(shù)據(jù)庫進(jìn)行信息重復(fù)查詢所帶來的數(shù)據(jù)庫訪問流量負(fù)擔(dān),以及提高重復(fù)信息的查詢效率,縮短信息發(fā)布過程的查重時間。
      下面,結(jié)合具體的應(yīng)用場景,對本申請實施例所提出的技術(shù)方案進(jìn)行說明。
      本申請實施例所提出的一種重復(fù)信息識別方法的主體思路的流程示意圖如圖2 所示,其關(guān)鍵點在于
      信息發(fā)布者所應(yīng)用的本地客戶端設(shè)備負(fù)責(zé)整理和抽取需要比對的數(shù)據(jù)(如確定待發(fā)布的信息),例如,根據(jù)信息發(fā)布者的操作以及所輸入的指令信息,獲取相應(yīng)的待發(fā)布 fn息ο
      進(jìn)一步的,上述的客戶端設(shè)備根據(jù)分發(fā)策略選擇相應(yīng)的的服務(wù)器,進(jìn)行信息發(fā)布請求的上報,服務(wù)器負(fù)責(zé)按照相應(yīng)的算法,對相應(yīng)的數(shù)據(jù)完成特征編碼的計算,并將計算得到的特征編碼與當(dāng)前內(nèi)存中已存在的特征編碼進(jìn)行比對,根據(jù)比對結(jié)果為應(yīng)用該客戶端設(shè)備的信息發(fā)布者提供相應(yīng)的服務(wù)。
      為了應(yīng)對大量的業(yè)務(wù)交互需求,上述的服務(wù)器一般可以通過多個服務(wù)器所組成的服務(wù)器集群來實現(xiàn),在這樣的處理過程中,客戶端設(shè)備能實現(xiàn)異?;謴?fù)、錯誤重試等操作, 而服務(wù)器集群中的各服務(wù)器則能對相應(yīng)的請求實現(xiàn)水平擴(kuò)展以及負(fù)載均衡。
      在實際的應(yīng)用過程中,上述的比對活動由客戶端設(shè)備發(fā)起,客戶端設(shè)備在收集好需要比對的信息后,根據(jù)一定的時間區(qū)間(如最近的1分鐘內(nèi))服務(wù)器集群中的各服務(wù)器所處理的信息發(fā)布請求總量,選取處理數(shù)量最小的服務(wù)器(從而實現(xiàn)負(fù)載均衡),向其請求進(jìn)行比對服務(wù),如果發(fā)生異常(如該服務(wù)提供者不能接收新的比對請求),則根據(jù)上述規(guī)則從剩余的服務(wù)器中重新選取服務(wù)器進(jìn)行請求,在極端情況下,如果服務(wù)器集群中全部的服務(wù)器都存在異常,無法完成比對服務(wù),則客戶端設(shè)備直接為信息發(fā)布者返回缺省結(jié)果(例如,當(dāng)前所請求發(fā)布的信息與已發(fā)布信息不重復(fù))。
      具體的,在實際應(yīng)用中,如圖3所示,為本申請實施例所提出的一種重復(fù)信息識別方法的具體的應(yīng)用場景的系統(tǒng)結(jié)構(gòu)示意圖。
      其中,信息發(fā)布者通過客戶端設(shè)備接入網(wǎng)絡(luò),提交信息發(fā)布請求,客戶端設(shè)備根據(jù)相應(yīng)的分發(fā)策略向服務(wù)器集群中的相應(yīng)服務(wù)器提交比對請求,由相應(yīng)的服務(wù)器將待發(fā)布信息與內(nèi)存中存儲的已發(fā)布信息進(jìn)行比對操作,并根據(jù)相應(yīng)的比對結(jié)果進(jìn)行后續(xù)操作。
      在實際的應(yīng)用中,為了更好的進(jìn)行集中調(diào)度和管理,在客戶端設(shè)備和服務(wù)器集群之間,還可以進(jìn)一步設(shè)置集中式處理服務(wù)器,集中接收客戶端上報的比對請求,并根據(jù)服務(wù)器集群中的各服務(wù)器當(dāng)前的請求處理情況進(jìn)行相應(yīng)的請求分發(fā),交給服務(wù)器集群中相應(yīng)的服務(wù)器進(jìn)行處理操作,這樣的集中式管理可以有效的提高處理效率,避免客戶端設(shè)備直接與服務(wù)器集群中的多臺服務(wù)器通信所帶來的網(wǎng)絡(luò)流量的提高。
      并且,如果訪問服務(wù)器集群對于客戶端設(shè)備來講是遠(yuǎn)程調(diào)用的話,集中式管理可以有效的節(jié)約網(wǎng)絡(luò)資源,其中,遠(yuǎn)程調(diào)用可以使用RMI (RemoteMethod Invocation,遠(yuǎn)程方法調(diào)用)技術(shù)。
      另外,如果集中式處理服務(wù)器對于服務(wù)器集群中的一臺或多臺服務(wù)器的狀態(tài)查詢或配置信息獲取失敗,則集中式處理服務(wù)器可以沿用前次配置信息,避免硬件故障或通訊延遲對于系統(tǒng)穩(wěn)定性的影響。
      需要進(jìn)一步指出的是,在上述的技術(shù)方案中,還需要通過對服務(wù)器集群中的各服務(wù)器同步操作,保持服務(wù)器集群中的各臺服務(wù)器中的樣本庫信息的一致性,從而保證比對結(jié)果的準(zhǔn)確。
      在具體的實施場景中,對于上述的本申請實施例所提出的技術(shù)方案,以下問題需要特別說明
      1、比對服務(wù)采用分布式計算
      通過服務(wù)器集群中的多臺服務(wù)器同時提供比對服務(wù),客戶端設(shè)備或服務(wù)器可以根據(jù)服務(wù)器集群中各臺服務(wù)器的狀態(tài)文件中的信息來分發(fā)信息發(fā)布請求,實現(xiàn)負(fù)載分擔(dān)。
      通過這樣的處理,海量數(shù)據(jù)的比對服務(wù)可伸縮性強,只要動態(tài)增加服務(wù)器就可以實現(xiàn)更大的吞吐量。
      2、樣本數(shù)據(jù)結(jié)構(gòu)的創(chuàng)新
      樣本數(shù)據(jù)(即前述的特征編碼)以雙向Map形式放在內(nèi)存中,例如,對于待銷售的產(chǎn)品信息,可以分別以公司ID或信息發(fā)布者標(biāo)識信息和公司對應(yīng)的產(chǎn)品相關(guān)信息的MD5值為key和value放在雙向Map的數(shù)據(jù)結(jié)構(gòu)里。
      (1)在實際應(yīng)用中,因為內(nèi)存中存儲的只是已發(fā)布信息的MD5值或其他編碼信息, 多以,其在內(nèi)存中所占用的存儲資源非常少,并且,可預(yù)知每個對象的內(nèi)存占用情況。
      (2)對于待銷售的產(chǎn)品信息,將公司ID或信息發(fā)布者標(biāo)識信息和產(chǎn)品相關(guān)信息的 MD5值或其他編碼信息存放在雙向Map數(shù)據(jù)結(jié)構(gòu)中,樣本數(shù)據(jù)實現(xiàn)了水平拆分??梢钥焖俣ㄎ坏较嗤净蛳嗤男畔l(fā)布者的相關(guān)數(shù)據(jù),通過檢索樣本數(shù)據(jù)的關(guān)鍵值是否存在與所請求發(fā)布信息的特征編碼值相同的MD5值或其他編碼信息來判斷信息是否重復(fù),從而,實現(xiàn)信息識別過程的高性能和高準(zhǔn)確性。相比直接進(jìn)行信息比對,通過特征編碼進(jìn)行比對的方式顯然具有更高的處理效率。
      3、比對服務(wù)器集群間的數(shù)據(jù)同步
      服務(wù)器集群中的各服務(wù)器間的同步采用主動推送方式,即當(dāng)其中一臺服務(wù)器的內(nèi)存中所存儲的樣本信息發(fā)生改變時,便直接通知服務(wù)器集群內(nèi)的其它服務(wù)器進(jìn)行相應(yīng)的更新,從而,避免了服務(wù)器集群的同步操作所需要的額外的系統(tǒng)開銷,而與不同的服務(wù)器之間的數(shù)據(jù)同步工作采用異步實現(xiàn),大大提高了服務(wù)器的響應(yīng)能力,增強了服務(wù)器集群配置的靈活性。
      4、服務(wù)器集群的擴(kuò)展
      當(dāng)服務(wù)器的內(nèi)存資源不夠用時,除了直接增加服務(wù)器自身內(nèi)存資源外,還可通過增加服務(wù)器集群中的服務(wù)器數(shù)量來達(dá)到擴(kuò)展內(nèi)存容量的目的,可以有效的提高系統(tǒng)的擴(kuò)展性。
      5、服務(wù)器集群的可靠性
      當(dāng)服務(wù)器集群中某臺服務(wù)器出現(xiàn)故障,使內(nèi)存數(shù)據(jù)丟失時,可通過兩種方式恢復(fù)數(shù)據(jù)
      (1)通過集群其它服務(wù)器的數(shù)據(jù)同步恢復(fù),這種方式恢復(fù)速度較快,但需要預(yù)先配置好服務(wù)器集群中的各服務(wù)器之間的同步策略,并且,在平時便需要及時在各服務(wù)器之間進(jìn)行數(shù)據(jù)備份。
      (2)通過數(shù)據(jù)庫持久化的比對庫數(shù)據(jù)恢復(fù),這種方式主要是將服務(wù)器內(nèi)存中的數(shù)據(jù)進(jìn)行持久化,存儲于其他設(shè)備中,恢復(fù)速度較慢,且存在數(shù)據(jù)延遲情況,但操作方便。
      當(dāng)然,還可以直接在已發(fā)布信息中進(jìn)行重新獲取,但這樣操作的負(fù)載成本會很高。
      在上述的各策略中,服務(wù)器集群的各服務(wù)器之間的同步策略可根據(jù)不同應(yīng)用場景進(jìn)行配置,在實際的應(yīng)用場景中,對于同步策略的配置,可以在內(nèi)存使用率和系統(tǒng)容災(zāi)性之間進(jìn)行權(quán)衡,內(nèi)存使用率越高,容災(zāi)性越低;容災(zāi)性越高,內(nèi)存使用率越低。
      與現(xiàn)有技術(shù)相比,本申請實施例具有以下優(yōu)點
      通過應(yīng)用本申請實施例的技術(shù)方案,將已發(fā)布的信息以特征編碼的形式存儲于內(nèi)存中,在接收到新的信息發(fā)布請求時,在內(nèi)存中查詢與相應(yīng)的特征編碼,通過比較是否存在重復(fù)的特征編碼判斷該信息發(fā)布者所請求發(fā)布的信息是否與已發(fā)布信息相重復(fù),從而,在保證信息查重準(zhǔn)確率的情況下,減少通過數(shù)據(jù)庫進(jìn)行信息重復(fù)查詢所帶來的數(shù)據(jù)庫訪問流量負(fù)擔(dān),以及提高重復(fù)信息的查詢效率,縮短信息發(fā)布過程的查重時間。
      為了實現(xiàn)本申請實施例的技術(shù)方案,本申請實施例還提供了一種服務(wù)器,其結(jié)構(gòu)示意圖如圖5所示,具體包括
      接收模塊51,用于接收信息發(fā)布請求;
      生成模塊52,用于在接收模塊51接收到一個信息發(fā)布者發(fā)送的信息發(fā)布請求時, 根據(jù)信息發(fā)布請求所請求發(fā)布的信息生成特征編碼;
      獲取模塊53,用于在對應(yīng)保存有信息發(fā)布者的標(biāo)識信息和已發(fā)布信息的特征編碼的內(nèi)存中查找獲取與所述信息發(fā)布者的標(biāo)識信息所對應(yīng)的已發(fā)布的信息的特征編碼;
      判斷模塊M,用于判斷生成模塊52所生成的特征編碼與獲取模塊53在內(nèi)存中獲取到的已發(fā)布的各信息的特征編碼是否存在重復(fù);
      處理模塊55,用于在判斷模塊M的判斷結(jié)果為重復(fù)時,拒絕發(fā)布信息發(fā)布請求所請求發(fā)布的信息。
      其中,生成模塊52,具體用于
      獲取接收模塊51所接收的信息發(fā)布請求所請求發(fā)布的信息中所包含的特征數(shù)據(jù),并根據(jù)預(yù)設(shè)算法,將特征數(shù)據(jù)轉(zhuǎn)換為該信息發(fā)布請求所請求發(fā)布的信息的特征編碼。
      在具體的應(yīng)用場景中,對應(yīng)前述的步驟S102中所提及的情況一,如果需要判斷重復(fù)的信息范圍是相同信息發(fā)布者所發(fā)布的信息,那么,獲取模塊53,具體用于
      確定接收模塊51所接收的信息發(fā)布請求的信息發(fā)布者所對應(yīng)的標(biāo)識信息,根據(jù)標(biāo)識信息,在內(nèi)存中已存儲的信息的特征編碼中,獲取標(biāo)識信息所對應(yīng)的全部特征編碼,之后,判斷模塊M將獲取模塊53獲取到的特征編碼與生成模塊52所生成的特征編碼進(jìn)行比較,判斷是否存在重復(fù)。
      另一方面,對應(yīng)前述的步驟S102中所提及的情況二,如果需要判斷重復(fù)的信息范圍是所有已發(fā)布信息,那么,獲取模塊53具體用于
      在內(nèi)存中獲取所述信息發(fā)布請求的信息發(fā)布者的標(biāo)識信息所對應(yīng)的已發(fā)布的各信息的特征編碼后,進(jìn)一步獲取其他已發(fā)布的各信息的特征編碼。
      進(jìn)一步的,處理模塊55,還用于
      在判斷模塊M的判斷結(jié)果為不重復(fù)時,繼續(xù)對信息發(fā)布請求根據(jù)預(yù)設(shè)的驗證規(guī)則進(jìn)行其他驗證,如果其他驗證通過,則發(fā)布信息發(fā)布請求所請求發(fā)布的信息,并將信息所對應(yīng)的特征編碼存儲至內(nèi)存;如果其他驗證沒有通過,則停止對該信息發(fā)布請求的后續(xù)驗證過程,并記錄該信息發(fā)布請求沒有通過的原因。
      不僅如此,處理模塊55,還用于
      在判斷模塊M的判斷結(jié)果為重復(fù)時,判斷信息發(fā)布者是否定制了相應(yīng)的特殊發(fā)布業(yè)務(wù),如果是,發(fā)布信息發(fā)布請求所請求發(fā)布的信息,如果不是,拒絕發(fā)布信息發(fā)布請求所請求發(fā)布的信息。
      當(dāng)處理模塊55確定拒絕發(fā)布信息發(fā)布請求所請求發(fā)布的信息時,處理模塊55,具體用于向信息發(fā)布者返回發(fā)布拒絕指示,并攜帶拒絕發(fā)布的原因信息。
      在具體的應(yīng)用場景中,生成模塊52,還用于根據(jù)內(nèi)存中所存儲的已發(fā)布信息的特征編碼,生成包含多個標(biāo)桿信息的樣本庫;
      相應(yīng)的,處理模塊55,還用于在判斷模塊M的判斷結(jié)果為重復(fù)時,更新生成模塊 52所生成的樣本庫中所述特征編碼所對應(yīng)的標(biāo)桿信息的操作時間及計數(shù),并將生成模塊 52所生成的標(biāo)桿信息的地址信息發(fā)送給信息發(fā)布者,以使信息發(fā)布者根據(jù)地址信息查看標(biāo)桿信息。
      在實際的應(yīng)用場景中,處理模塊55,還用于
      在已發(fā)布的信息被刪除時,刪除內(nèi)存中存儲的被刪除信息所對應(yīng)的特征編碼;和 /或,
      在已發(fā)布的信息被修改時,根據(jù)修改后的信息內(nèi)容,判斷修改后的信息內(nèi)容所對應(yīng)的特征編碼與內(nèi)存中存儲的已發(fā)布的各信息的特征編碼是否存在重復(fù),如果不重復(fù),則修改內(nèi)存中存儲的被修改信息所對應(yīng)的特征編碼,如果重復(fù),則更新重復(fù)的特征編碼所對應(yīng)的相關(guān)信息,并刪除修改前的編碼信息;和/或,
      在已發(fā)布的信息達(dá)到了預(yù)設(shè)的清理觸發(fā)條件時,按照預(yù)設(shè)的策略刪除內(nèi)存中存儲的信息所對應(yīng)的特征編碼。
      相應(yīng)的預(yù)設(shè)策略的內(nèi)容參照前述說明,在此不再重復(fù)敘述。
      與現(xiàn)有技術(shù)相比,本申請實施例具有以下優(yōu)點
      通過應(yīng)用本申請實施例的技術(shù)方案,將已發(fā)布的信息以特征編碼的形式存儲于內(nèi)存中,在接收到新的信息發(fā)布請求時,在內(nèi)存中查詢相應(yīng)的特征編碼,通過比較是否存在重復(fù)的特征編碼判斷該信息發(fā)布者所請求發(fā)布的信息是否與已發(fā)布信息相重復(fù),從而,在保證信息查重準(zhǔn)確率的情況下,減少通過數(shù)據(jù)庫進(jìn)行信息重復(fù)查詢所帶來的數(shù)據(jù)庫訪問流量負(fù)擔(dān),以及提高重復(fù)信息的查詢效率,縮短信息發(fā)布過程的查重時間。
      通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請實施例可以通過硬件實現(xiàn),也可以借助軟件加必要的通用硬件平臺的方式來實現(xiàn)?;谶@樣的理解,本申請實施例的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品可以存儲在一個非易失性存儲介質(zhì)(可以是⑶-ROM,U盤,移動硬盤等)中,包括若干指令用以使得一臺計算機(jī)設(shè)備(可以是個人計算機(jī),服務(wù)器,或網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請實施例各個實施場景所述的方法。
      本領(lǐng)域技術(shù)人員可以理解附圖只是一個優(yōu)選實施場景的示意圖,附圖中的模塊或流程并不一定是實施本申請實施例所必須的。
      本領(lǐng)域技術(shù)人員可以理解實施場景中的裝置中的模塊可以按照實施場景描述進(jìn)行分布于實施場景的裝置中,也可以進(jìn)行相應(yīng)變化位于不同于本實施場景的一個或多個裝置中。上述實施場景的模塊可以合并為一個模塊,也可以進(jìn)一步拆分成多個子模塊。
      上述本申請實施例序號僅僅為了描述,不代表實施場景的優(yōu)劣。
      以上公開的僅為本申請實施例的幾個具體實施場景,但是,本申請實施例并非局限于此,任何本領(lǐng)域的技術(shù)人員能思之的變化都應(yīng)落入本申請實施例的業(yè)務(wù)限制范圍。
      權(quán)利要求
      1.一種重復(fù)信息識別方法,其特征在于,包括當(dāng)服務(wù)器接收到一個信息發(fā)布者所發(fā)送的信息發(fā)布請求時,所述服務(wù)器根據(jù)所述信息發(fā)布請求所請求發(fā)布的信息生成特征編碼;所述服務(wù)器在對應(yīng)保存有信息發(fā)布者的標(biāo)識信息和已發(fā)布信息的特征編碼的內(nèi)存中查找獲取與所述信息發(fā)布者的標(biāo)識信息所對應(yīng)的已發(fā)布的信息的特征編碼;所述服務(wù)器判斷所述生成的特征編碼與在內(nèi)存中獲取的已發(fā)布的信息的特征編碼是否存在重復(fù);如果所述服務(wù)器的判斷結(jié)果為重復(fù),所述服務(wù)器拒絕發(fā)布所述信息發(fā)布請求所請求發(fā)布的信息。
      2.如權(quán)利要求1所述的方法,其特征在于,所述服務(wù)器根據(jù)所述信息發(fā)布請求所請求發(fā)布的信息生成特征編碼,具體為所述服務(wù)器獲取所述信息發(fā)布請求所請求發(fā)布的信息中所包含的特征數(shù)據(jù);所述服務(wù)器根據(jù)預(yù)設(shè)算法,將獲取的所述特征數(shù)據(jù)轉(zhuǎn)換為所述信息發(fā)布請求所請求發(fā)布的信息的特征編碼。
      3.如權(quán)利要求1或2所述的方法,其特征在于,當(dāng)所述所請求發(fā)布的信息具體為產(chǎn)品類信息時,所述特征數(shù)據(jù),至少包括以下信息的一種或多種產(chǎn)品名稱、產(chǎn)品分類、圖片特征、產(chǎn)品說明、產(chǎn)品價格和產(chǎn)品生產(chǎn)信息。
      4.如權(quán)利要求1或2所述的方法,其特征在于,當(dāng)所述所請求發(fā)布的信息具體為新聞類信息時,所述特征數(shù)據(jù),至少包括以下信息的一種或多種新聞題目、新聞發(fā)生時間、新聞關(guān)鍵詞、新聞?wù)?、新聞來源、新聞多媒體資料和新聞版權(quán)信息。
      5.如權(quán)利要求1或2所述的方法,其特征在于,所述服務(wù)器生成的特征編碼,以及所述內(nèi)存中存儲的特征編碼,具體為根據(jù)相同的預(yù)設(shè)算法生成的相同類型的編碼信息。
      6.如權(quán)利要求1所述的方法,其特征在于,所述服務(wù)器在對應(yīng)保存有信息發(fā)布者的標(biāo)識信息和已發(fā)布信息的特征編碼的內(nèi)存中查找獲取與所述信息發(fā)布者的標(biāo)識信息所對應(yīng)的已發(fā)布的信息的特征編碼,具體包括所述服務(wù)器確定所述信息發(fā)布請求的信息發(fā)布者所對應(yīng)的標(biāo)識信息;所述服務(wù)器根據(jù)所述標(biāo)識信息,在所述內(nèi)存中已存儲的信息的特征編碼中,獲取與所述標(biāo)識信息所對應(yīng)的特征編碼。
      7.如權(quán)利要求1所述的方法,其特征在于,所述服務(wù)器判斷所述生成的特征編碼與在內(nèi)存中獲取的已發(fā)布的各信息的特征編碼是否存在重復(fù)之后,還包括所述服務(wù)器判斷所述特征編碼與內(nèi)存中存儲的所有已發(fā)布的各信息的特征編碼是否存在重復(fù)。
      8.如權(quán)利要求1或7所述的方法,其特征在于,所述服務(wù)器判斷所述特征編碼與內(nèi)存中存儲的已發(fā)布的各信息的特征編碼是否存在重復(fù)之后,還包括如果所述服務(wù)器的判斷結(jié)果為不重復(fù),所述服務(wù)器繼續(xù)對所述信息發(fā)布請求根據(jù)預(yù)設(shè)的驗證規(guī)則進(jìn)行其他驗證;如果其他驗證通過,所述服務(wù)器發(fā)布所述信息發(fā)布請求所請求發(fā)布的信息,并將所述信息所對應(yīng)的特征編碼存儲至所述內(nèi)存;如果其他驗證沒有通過,則停止對所述信息發(fā)布請求的后續(xù)驗證過程,并記錄所述信息發(fā)布請求沒有通過的原因。
      9.如權(quán)利要求1所述的方法,其特征在于,如果所述服務(wù)器的判斷結(jié)果為重復(fù),還包括所述服務(wù)器判斷所述信息發(fā)布者是否定制了相應(yīng)的特殊發(fā)布業(yè)務(wù);如果是,所述服務(wù)器發(fā)布所述信息發(fā)布請求所請求發(fā)布的信息,如果不是,所述服務(wù)器拒絕發(fā)布所述信息發(fā)布請求所請求發(fā)布的信息。
      10.如權(quán)利要求1或9所述的方法,其特征在于,所述服務(wù)器拒絕發(fā)布所述信息發(fā)布請求所請求發(fā)布的信息,具體包括所述服務(wù)器向所述信息發(fā)布者返回發(fā)布拒絕指示,并攜帶拒絕發(fā)布的原因信息。
      11.如權(quán)利要求10所述的方法,其特征在于,還包括所述服務(wù)器根據(jù)內(nèi)存中所存儲的已發(fā)布信息的特征編碼,生成包含多個標(biāo)桿信息的樣本庫;當(dāng)所述服務(wù)器判斷內(nèi)存中所存儲的已發(fā)布信息的特征編碼與信息發(fā)布請求所請求發(fā)布的信息的特征編碼相重復(fù)時,所述服務(wù)器更新樣本庫中所述特征編碼所對應(yīng)的標(biāo)桿信息的操作時間及計數(shù);所述服務(wù)器將所述標(biāo)桿信息的地址信息發(fā)送給所述信息發(fā)布者,以使所述信息發(fā)布者根據(jù)所述地址信息查看所述標(biāo)桿信息。
      12.如權(quán)利要求1所述的方法,其特征在于,還包括如果已發(fā)布的信息被刪除,所述服務(wù)器刪除所述內(nèi)存中存儲的被刪除信息所對應(yīng)的特征編碼;和/或,如果已發(fā)布的信息被修改,所述服務(wù)器根據(jù)修改后的信息內(nèi)容,判斷修改后的信息內(nèi)容所對應(yīng)的特征編碼與內(nèi)存中存儲的已發(fā)布的各信息的特征編碼是否存在重復(fù),如果不重復(fù),則修改內(nèi)存中存儲的被修改信息所對應(yīng)的特征編碼,如果重復(fù),則更新重復(fù)的特征編碼所對應(yīng)的相關(guān)信息,并刪除修改前的編碼信息;和/或,如果內(nèi)存中所存儲的特征編碼達(dá)到了預(yù)設(shè)的清理觸發(fā)條件,所述服務(wù)器按照預(yù)設(shè)的策略刪除所述內(nèi)存中存儲的特征編碼。
      13.一種服務(wù)器,其特征在于,包括接收模塊,用于接收信息發(fā)布請求;生成模塊,用于在所述接收模塊接收到一個信息發(fā)布者發(fā)送的信息發(fā)布請求時,根據(jù)所述信息發(fā)布請求所請求發(fā)布的信息生成特征編碼;獲取模塊,用于在對應(yīng)保存有信息發(fā)布者的標(biāo)識信息和已發(fā)布信息的特征編碼的內(nèi)存中查找獲取與所述信息發(fā)布者的標(biāo)識信息所對應(yīng)的已發(fā)布的信息的特征編碼;判斷模塊,用于判斷所述生成模塊所生成的特征編碼與所述獲取模塊在內(nèi)存中獲取到的已發(fā)布的各信息的特征編碼是否存在重復(fù);處理模塊,用于在所述判斷模塊的判斷結(jié)果為重復(fù)時,拒絕發(fā)布所述信息發(fā)布請求所請求發(fā)布的信息。
      14.如權(quán)利要求13所述的服務(wù)器,其特征在于,所述生成模塊,具體用于獲取所述接收模塊所接收的信息發(fā)布請求所請求發(fā)布的信息中所包含的特征數(shù)據(jù),并根據(jù)預(yù)設(shè)算法,將所述特征數(shù)據(jù)轉(zhuǎn)換為所述信息發(fā)布請求所請求發(fā)布的信息的特征編碼。
      15.如權(quán)利要求13所述的服務(wù)器,其特征在于,所述獲取模塊,具體用于確定所述接收模塊所接收的信息發(fā)布請求的信息發(fā)布者所對應(yīng)的標(biāo)識信息,根據(jù)所述標(biāo)識信息,在所述內(nèi)存中已存儲的信息的特征編碼中,獲取與所述標(biāo)識信息所對應(yīng)的特征編碼。
      16.如權(quán)利要求13所述的服務(wù)器,其特征在于,所述獲取模塊,具體用于在內(nèi)存中獲取所述信息發(fā)布請求的信息發(fā)布者的標(biāo)識信息所對應(yīng)的已發(fā)布的各信息的特征編碼后,獲取其他已發(fā)布的各信息的特征編碼。
      17.如權(quán)利要求13或16所述的服務(wù)器,其特征在于,所述處理模塊,還用于在所述判斷模塊的判斷結(jié)果為不重復(fù)時,繼續(xù)對所述信息發(fā)布請求根據(jù)預(yù)設(shè)的驗證規(guī)則進(jìn)行其他驗證,如果其他驗證通過,則發(fā)布所述信息發(fā)布請求所請求發(fā)布的信息,并將所述信息所對應(yīng)的特征編碼存儲至所述內(nèi)存;如果其他驗證沒有通過,則停止對所述信息發(fā)布請求的后續(xù)驗證過程,并記錄所述信息發(fā)布請求沒有通過的原因。
      18.如權(quán)利要求13所述的服務(wù)器,其特征在于,所述處理模塊,還用于在所述判斷模塊的判斷結(jié)果為重復(fù)時,判斷所述信息發(fā)布者是否定制了相應(yīng)的特殊發(fā)布業(yè)務(wù),如果是,發(fā)布所述信息發(fā)布請求所請求發(fā)布的信息,如果不是,拒絕發(fā)布所述信息發(fā)布請求所請求發(fā)布的信息。
      19.如權(quán)利要求13或18所述的服務(wù)器,其特征在于,當(dāng)所述處理模塊確定拒絕發(fā)布所述信息發(fā)布請求所請求發(fā)布的信息時,所述處理模塊,具體用于向所述信息發(fā)布者返回發(fā)布拒絕指示,并攜帶拒絕發(fā)布的原因信息。
      20.如權(quán)利要求19所述的服務(wù)器,其特征在于,所述生成模塊,還用于根據(jù)內(nèi)存中所存儲的已發(fā)布信息的特征編碼,生成包含多個標(biāo)桿信息的樣本庫;所述處理模塊,還用于在所述判斷模塊的判斷結(jié)果為重復(fù)時,更新所述生成模塊所生成的樣本庫中所述特征編碼所對應(yīng)的標(biāo)桿信息的操作時間及計數(shù),并將所述生成模塊所生成的標(biāo)桿信息的地址信息發(fā)送給所述信息發(fā)布者,以使所述信息發(fā)布者根據(jù)所述地址信息查看所述標(biāo)桿信息。
      21.如權(quán)利要求13所述的服務(wù)器,其特征在于,所述處理模塊,還用于在已發(fā)布的信息被刪除時,刪除所述內(nèi)存中存儲的被刪除信息所對應(yīng)的特征編碼;和/或,在已發(fā)布的信息被修改時,根據(jù)修改后的信息內(nèi)容,判斷修改后的信息內(nèi)容所對應(yīng)的特征編碼與內(nèi)存中存儲的已發(fā)布的各信息的特征編碼是否存在重復(fù),如果不重復(fù),則修改內(nèi)存中存儲的被修改信息所對應(yīng)的特征編碼,如果重復(fù),則更新重復(fù)的特征編碼所對應(yīng)的相關(guān)信息,并刪除修改前的編碼信息;和/或,在已發(fā)布的信息達(dá)到了預(yù)設(shè)的清理觸發(fā)條件時,按照預(yù)設(shè)的策略刪除所述內(nèi)存中存儲的所述信息所對應(yīng)的特征編碼。
      全文摘要
      本申請實施例公開了一種重復(fù)信息識別方法和設(shè)備,通過應(yīng)用本申請實施例的技術(shù)方案,將已發(fā)布的信息以特征編碼的形式存儲于內(nèi)存中,在接收到新的信息發(fā)布請求時,在內(nèi)存中查詢相應(yīng)的特征編碼,通過比較是否存在重復(fù)的特征編碼判斷該信息發(fā)布者所請求發(fā)布的信息是否與已發(fā)布信息相重復(fù),從而,在保證信息查重準(zhǔn)確率的情況下,減少通過數(shù)據(jù)庫進(jìn)行信息重復(fù)查詢所帶來的數(shù)據(jù)庫訪問流量負(fù)擔(dān),以及提高重復(fù)信息的查詢效率,縮短信息發(fā)布過程的查重時間。
      文檔編號G06F17/30GK102541918SQ20101061274
      公開日2012年7月4日 申請日期2010年12月30日 優(yōu)先權(quán)日2010年12月30日
      發(fā)明者初永光, 李樂, 林朝森, 胡懷文, 蘇磊, 陳斌, 韓靈葉 申請人:阿里巴巴集團(tuán)控股有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1