一種數(shù)據(jù)分類方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)信息處理技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)分類方法及系統(tǒng)。
【背景技術(shù)】
[0002]在現(xiàn)有的推薦系統(tǒng)(比如廣告系統(tǒng),新聞推薦系統(tǒng),或視頻推薦系統(tǒng)等)中,商家可以通過推薦系統(tǒng)定向地或不定向的將需要推薦的數(shù)據(jù)發(fā)送到各個(gè)用戶終端,從而達(dá)到推廣某一產(chǎn)品,或告知某一信息的目的。
[0003]一般情況下,推薦系統(tǒng)會(huì)基于文本分類的方法,將推薦數(shù)據(jù)進(jìn)行分類,并按照類別將推薦數(shù)據(jù)發(fā)送給對應(yīng)的用戶終端,比如將推薦數(shù)據(jù)按照地域進(jìn)行分類,使得推薦系統(tǒng)將與某一地域相關(guān)的推薦數(shù)據(jù)只發(fā)送給該地域內(nèi)的用戶終端,這樣可以有針對性地發(fā)送推薦數(shù)據(jù)。其中,推薦數(shù)據(jù)的分類方法的主要步驟包括訓(xùn)練數(shù)據(jù)準(zhǔn)備、特征抽取、特征選擇、模型訓(xùn)練和線上預(yù)測,其中訓(xùn)練數(shù)據(jù)準(zhǔn)備階段是選取訓(xùn)練數(shù)據(jù)的階段,需要對待處理數(shù)據(jù)進(jìn)行標(biāo)注,現(xiàn)有技術(shù)中一般采用人工標(biāo)注的方法,然后再根據(jù)人工標(biāo)注的數(shù)據(jù)選取訓(xùn)練數(shù)據(jù),在這個(gè)過程中需要大量的人力投入,成本較高。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實(shí)施例提供一種數(shù)據(jù)分類方法及系統(tǒng),省去人工標(biāo)注的過程,從而簡化了選取訓(xùn)練數(shù)據(jù)的流程。
[0005]本發(fā)明實(shí)施例提供一種數(shù)據(jù)分類方法,包括:
[0006]分別獲取多條推薦數(shù)據(jù)的地域信息,及獲取所述多條推薦數(shù)據(jù)分別對應(yīng)的用戶行為數(shù)據(jù),所述用戶行為數(shù)據(jù)中包括一種用戶操作對應(yīng)的用戶位置信息;
[0007]選取所述多條推薦數(shù)據(jù)中的第一推薦數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),所述第一推薦數(shù)據(jù)的地域信息與對應(yīng)的用戶位置信息一致;
[0008]根據(jù)所述訓(xùn)練數(shù)據(jù)獲取地域分類的模型文件,以對待發(fā)送推薦數(shù)據(jù)進(jìn)行地域分類。
[0009]本發(fā)明實(shí)施例中還提供一種數(shù)據(jù)分類系統(tǒng),包括:
[0010]信息獲取單元,用于分別獲取多條推薦數(shù)據(jù)的地域信息,及獲取所述多條推薦數(shù)據(jù)分別對應(yīng)的用戶行為數(shù)據(jù),所述用戶行為數(shù)據(jù)中包括一種用戶操作對應(yīng)的用戶位置信息;
[0011]選取單元,用于選取所述多條推薦數(shù)據(jù)中的第一推薦數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),所述第一推薦數(shù)據(jù)的地域信息與對應(yīng)的用戶位置信息一致;
[0012]文件獲取單元,用于根據(jù)所述選取單元選取的訓(xùn)練數(shù)據(jù)獲取地域分類的模型文件,以對待發(fā)送推薦數(shù)據(jù)進(jìn)行地域分類。
[0013]可見,在本發(fā)明實(shí)施例中,推薦系統(tǒng)在獲取對待發(fā)送推薦數(shù)據(jù)進(jìn)行地域分類的模型文件時(shí),會(huì)直接對已經(jīng)發(fā)送的推薦數(shù)據(jù)的地域信息,與各個(gè)用戶終端反饋的對推薦數(shù)據(jù)進(jìn)行操作的用戶行為數(shù)據(jù)中的用戶位置信息進(jìn)行比較,從而根據(jù)比較結(jié)果自動(dòng)地選取訓(xùn)練數(shù)據(jù),以便根據(jù)訓(xùn)練數(shù)據(jù)得到模型文件。與現(xiàn)有技術(shù)中在選取訓(xùn)練數(shù)據(jù)的過程中,采用人工標(biāo)注的方法相比,本發(fā)明實(shí)施例中,推薦系統(tǒng)在選取訓(xùn)練數(shù)據(jù)的過程中,直接根據(jù)獲取的信息的比較來選取訓(xùn)練數(shù)據(jù),省去了人工標(biāo)注的過程,從而簡化了選取訓(xùn)練數(shù)據(jù)的流程。
【附圖說明】
[0014]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0015]圖1是本發(fā)明實(shí)施例提供的一種數(shù)據(jù)分類方法的流程圖;
[0016]圖2是本發(fā)明實(shí)施例中推薦系統(tǒng)選取訓(xùn)練數(shù)據(jù)的一種方法流程圖;
[0017]圖3是本發(fā)明實(shí)施例中推薦系統(tǒng)選取訓(xùn)練數(shù)據(jù)的另一種方法流程圖;
[0018]圖4是本發(fā)明實(shí)施例提供的一種數(shù)據(jù)分類系統(tǒng)的結(jié)構(gòu)示意圖;
[0019]圖5是本發(fā)明實(shí)施例提供的另一種數(shù)據(jù)分類系統(tǒng)的結(jié)構(gòu)示意圖;
[0020]圖6是本發(fā)明實(shí)施例提供的另一種數(shù)據(jù)分類系統(tǒng)的結(jié)構(gòu)示意圖;
[0021]圖7是本發(fā)明應(yīng)用實(shí)施例中的新聞推薦系統(tǒng)執(zhí)行數(shù)據(jù)分類方法的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0022]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0023]本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”、“第三” “第四”等(如果存在)是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例例如能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排它的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
[0024]本發(fā)明實(shí)施例提供一種數(shù)據(jù)分類方法,主要是應(yīng)用于推薦系統(tǒng)中,比如應(yīng)用于廣告系統(tǒng),新聞推薦系統(tǒng)或視頻推薦系統(tǒng)中,本實(shí)施例的方法是推薦系統(tǒng)所執(zhí)行的方法,流程圖如圖1所示,包括:
[0025]步驟101,推薦系統(tǒng)分別獲取多條推薦數(shù)據(jù)的地域信息,及獲取多條推薦數(shù)據(jù)分別對應(yīng)的用戶行為數(shù)據(jù),用戶行為數(shù)據(jù)中包括一種用戶操作對應(yīng)的用戶位置信息。
[0026]可以理解,這里的推薦數(shù)據(jù)是推薦系統(tǒng)發(fā)送給各個(gè)用戶終端的數(shù)據(jù),比如在廣告系統(tǒng)中推薦數(shù)據(jù)為廣告數(shù)據(jù),在新聞推薦系統(tǒng)中推薦數(shù)據(jù)為新聞數(shù)據(jù),在視頻推薦系統(tǒng)中推薦數(shù)據(jù)為視頻數(shù)據(jù)。某一條推薦數(shù)據(jù)的地域信息是表征該推薦數(shù)據(jù)所涉及的具體內(nèi)容所在地域的信息;某一條推薦數(shù)據(jù)對應(yīng)的用戶行為數(shù)據(jù)是指:當(dāng)推薦系統(tǒng)將該條推薦數(shù)據(jù)發(fā)送給用戶終端后,用戶終端對該推薦數(shù)據(jù)執(zhí)行的用戶操作(比如查看,收藏,點(diǎn)贊等用戶操作)的數(shù)據(jù),具體可以包括用戶位置信息(即執(zhí)行用戶操作的用戶終端的位置信息)及用戶操作的信息(表示具體是哪種用戶操作的信息),且用戶行為數(shù)據(jù)還可以包括用戶標(biāo)識(shí)及一些具體應(yīng)用的信息等。
[0027]在具體實(shí)現(xiàn)時(shí),推薦系統(tǒng)在獲取多條推薦數(shù)據(jù)的地域信息時(shí),會(huì)將推薦數(shù)據(jù)的標(biāo)題中的地域詞提取出來,將多條推薦數(shù)據(jù)的標(biāo)題中的地域詞分別作為多條推薦數(shù)據(jù)的地域信息;如果推薦數(shù)據(jù)的標(biāo)題中的地域詞有多個(gè),則推薦數(shù)據(jù)會(huì)將推薦數(shù)據(jù)的正式文本中的地域詞提取出來,將多條推薦數(shù)據(jù)的正式文本中的地域詞分別作為多條推薦數(shù)據(jù)的地域信息;進(jìn)一步地,如果推薦數(shù)據(jù)的標(biāo)題中的地域詞有多個(gè),且推薦數(shù)據(jù)的正式文本中的地域詞也有多個(gè),則推薦數(shù)據(jù)會(huì)將推薦數(shù)據(jù)的正式文本和標(biāo)題中的地域詞都提取出來,并比較正式文本和標(biāo)題中的地域詞,將多條推薦數(shù)據(jù)的標(biāo)題中與正式文本中一致的地域詞分別作為多條推薦數(shù)據(jù)的地域信息。
[0028]在獲取用戶行為數(shù)據(jù)時(shí),推薦系統(tǒng)可以主動(dòng)獲取用戶終端統(tǒng)計(jì)的用戶行為數(shù)據(jù),或接收用戶終端主動(dòng)上報(bào)的用戶行為數(shù)據(jù)。由于一條推薦數(shù)據(jù)是發(fā)送給多個(gè)用戶終端的,則推薦系統(tǒng)得到的用戶行為數(shù)據(jù)中包括執(zhí)行用戶操作的多個(gè)用戶終端的用戶位置信息,且這些用戶終端的用戶操作也可能不同,比如查看推薦數(shù)據(jù),或是收藏推薦數(shù)據(jù)。而在本實(shí)施例中,推薦系統(tǒng)會(huì)選擇某一種用戶操作(比如查看推薦數(shù)據(jù))對應(yīng)的多個(gè)用戶終端的用戶位置信息,如果這多個(gè)用戶終端中N個(gè)以上的用戶終端的用戶位置信息一致,則將這N個(gè)以上的用戶終端的用戶位置信息作為最終結(jié)果。
[0029]步驟102,推薦系統(tǒng)選取多條推薦數(shù)據(jù)中的第一推薦數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),其中,第一推薦數(shù)據(jù)的地域信息與對應(yīng)的用戶位置信息一致。
[0030]推薦系統(tǒng)會(huì)根據(jù)步驟101中獲取的每條推薦數(shù)據(jù)的地域信息和對應(yīng)的用戶位置信息,確定該條推薦數(shù)據(jù)是否可以作為第一推薦數(shù)據(jù)。
[0031]步驟103,推薦系統(tǒng)根據(jù)上述步驟102中得到的訓(xùn)練數(shù)據(jù)獲取地域分類的模型文件,以對待發(fā)送推薦數(shù)據(jù)進(jìn)行地域分類。其中,推薦系統(tǒng)具體可以通過對訓(xùn)練數(shù)據(jù)進(jìn)行特征抽取和模型訓(xùn)練的步驟后得到模型文件,進(jìn)一步地,為了使得得到的模型文件更準(zhǔn)確,更能反映訓(xùn)練數(shù)據(jù)的實(shí)際情況,推薦系統(tǒng)在獲取模型文件的過程中,還可以在特征抽取后進(jìn)行特征選擇,過濾掉高噪音和冗余的特征。
[0032]推薦系統(tǒng)最終得到的模型文件主要描述了各個(gè)地域的推薦數(shù)據(jù)的特征約束條件,這樣推薦系統(tǒng)就可以根據(jù)這些特征約束條件來確定某條待發(fā)送推薦數(shù)據(jù)是哪個(gè)地域的推薦數(shù)據(jù),即將待發(fā)送推薦數(shù)據(jù)歸入該地域的推薦數(shù)據(jù)中,從而可以將待發(fā)送推薦數(shù)據(jù)的地域分類作為精準(zhǔn)投放的一個(gè)參考依據(jù),比如將某個(gè)地域的待發(fā)送推薦數(shù)據(jù)發(fā)送給該地域部署的用戶終端,而不是發(fā)送給所有的用戶終端。
[0033]可以理解的是,上述步驟101到103中的操