一種用戶可擴(kuò)展的標(biāo)簽標(biāo)注方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開一種用戶可擴(kuò)展的標(biāo)簽標(biāo)注方法及系統(tǒng),包括步驟步驟S1:對用戶采樣獲取用戶樣本數(shù)據(jù)并標(biāo)記用戶的樣本圖片,生成樣本用戶標(biāo)簽標(biāo)注矩陣;步驟S2:通過卷積神經(jīng)網(wǎng)絡(luò)對用戶樣本數(shù)據(jù)預(yù)處理,生成用戶興趣特征矩陣和標(biāo)簽興趣特征矩陣;步驟S3:利用樣本用戶標(biāo)簽標(biāo)注矩陣、用戶興趣特征矩陣和標(biāo)簽興趣特征矩陣計(jì)算并生成用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù);步驟S4:通過用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù),計(jì)算生成用戶新標(biāo)簽標(biāo)注數(shù)據(jù)。本發(fā)明解決在對用戶進(jìn)行圖像數(shù)據(jù)標(biāo)簽化處理過程中,如何合理地、低成本地完成對用戶進(jìn)行新的標(biāo)簽標(biāo)注的問題,本發(fā)明有效地提升了在對用戶進(jìn)行新的標(biāo)簽化的過程中的計(jì)算效率和數(shù)據(jù)利用效率。
【專利說明】
一種用戶可擴(kuò)展的標(biāo)簽標(biāo)注方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,特別是涉及一種用戶可擴(kuò)展的標(biāo)簽標(biāo)注方法及系 統(tǒng)。
【背景技術(shù)】
[0002] 目前大數(shù)據(jù)技術(shù)和商業(yè)智能技術(shù)正在飛速發(fā)展,互聯(lián)網(wǎng)用戶每天正在飛速地產(chǎn)生 大量數(shù)據(jù),這些數(shù)據(jù)中包含了結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),其中圖片數(shù)據(jù)就是非結(jié)構(gòu)化數(shù) 據(jù)中占比極大的一塊。基于用戶的圖像數(shù)據(jù),挖掘用戶的潛在興趣點(diǎn),在商業(yè)智能領(lǐng)域的需 求已經(jīng)非常巨大,伴隨而生的深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等技術(shù)也正日趨成熟商用。但這些技術(shù)的 應(yīng)用往往需要大量的GPU高昂硬件設(shè)備成本的付出,在對這些圖片數(shù)據(jù)進(jìn)一步進(jìn)行處理的 時(shí)候,會(huì)對同一張圖片進(jìn)行重復(fù)的GPU計(jì)算處理,消耗了大量不必要的計(jì)算資源,從而產(chǎn)生 了極大的資源浪費(fèi)。
【發(fā)明內(nèi)容】
[0003] 為了解決上述問題,本發(fā)明提出了一種用戶可擴(kuò)展的標(biāo)簽標(biāo)注方法及系統(tǒng),解決 在對用戶進(jìn)行圖像數(shù)據(jù)標(biāo)簽化處理過程中,如何合理地、低成本地完成對用戶進(jìn)行新的標(biāo) 簽標(biāo)注的問題,本發(fā)明有效地提升了在對用戶進(jìn)行新的標(biāo)簽化的過程中的計(jì)算效率和數(shù)據(jù) 利用效率。
[0004] 為達(dá)到上述目的,本發(fā)明采用的技術(shù)方案是:一種用戶可擴(kuò)展的標(biāo)簽標(biāo)注方法,步 驟包括:
[0005] 步驟S1:對用戶采樣獲取用戶樣本數(shù)據(jù),并標(biāo)記用戶的樣本圖片,生成樣本用戶標(biāo) 簽標(biāo)注矩陣;
[0006] 步驟S2:通過卷積神經(jīng)網(wǎng)絡(luò)對用戶樣本數(shù)據(jù)預(yù)處理,生成用戶興趣特征矩陣和標(biāo) 簽興趣特征矩陣;
[0007] 步驟S3:利用樣本用戶標(biāo)簽標(biāo)注矩陣、用戶興趣特征矩陣和標(biāo)簽興趣特征矩陣計(jì) 算并生成用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù);
[0008] 步驟S4:通過用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù),計(jì)算生成用戶新標(biāo)簽標(biāo)注數(shù)據(jù)。
[0009] 進(jìn)一步的是,所述步驟S1包括步驟:
[0010] 對用戶進(jìn)行隨機(jī)采樣作為用戶樣本數(shù)據(jù),標(biāo)記用戶收藏的圖片作為樣本圖片;
[0011] 對樣本圖片進(jìn)行標(biāo)簽標(biāo)記,其中每張圖片有多個(gè)標(biāo)簽標(biāo)記或只有一個(gè)標(biāo)簽標(biāo)記;
[0012] 利用用戶樣本數(shù)據(jù)和樣本圖片的標(biāo)簽標(biāo)記生成樣本用戶的標(biāo)簽標(biāo)注矩陣,其中第 j個(gè)用戶的標(biāo)簽特征向量由標(biāo)記的圖片標(biāo)簽歸一化分布產(chǎn)生。
[0013] 進(jìn)一步的是,所述步驟S2包括步驟:
[0014] 將每個(gè)用戶樣本數(shù)據(jù)作為卷積神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù),獲取分類特征層的數(shù)值輸出 特征,每張圖片輸出一個(gè)固定維度的特征;將帶有標(biāo)簽標(biāo)注的樣本圖片依據(jù)用戶進(jìn)行歸類, 作為訓(xùn)練數(shù)據(jù)輸入;綜合歸一化每個(gè)用戶樣本的特征維度,根據(jù)訓(xùn)練數(shù)據(jù)生成用戶興趣特 征矩陣;
[0015] 將樣本圖片依據(jù)標(biāo)簽進(jìn)行歸類,作為訓(xùn)練數(shù)據(jù)輸入;將生成的圖片特征作為矩陣 的橫向量,構(gòu)建圖像特征矩陣;綜合歸一化每個(gè)標(biāo)簽樣本的特征維度,生成標(biāo)簽興趣特征矩 陣。
[0016] 進(jìn)一步的是,步驟S3中計(jì)算用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù)的計(jì)算公式為U · A · TT~Ut,通 過梯度下降方法求解矩陣A;其中,Ut為樣本用戶標(biāo)簽標(biāo)注矩陣,U為用戶興趣特征矩陣,T為 標(biāo)簽興趣特征矩陣,A為用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù)。
[0017] 進(jìn)一步的是,所述步驟S4包括步驟:
[0018] 構(gòu)建需要標(biāo)注的用戶的興趣特征矩陣為IT,計(jì)算IT · A · Ττ,記結(jié)果為Ut' =[m, U2,U3…Ui ] T,其中行向量Ui為第i個(gè)用戶對應(yīng)的標(biāo)簽標(biāo)注權(quán)重;逐行抽取用戶的新標(biāo)簽關(guān)聯(lián) 權(quán)重,并篩選適用于用戶的新標(biāo)簽,輸出用戶的標(biāo)簽標(biāo)注數(shù)據(jù)。
[0019] 進(jìn)一步的是,對m進(jìn)行降序排序,通過設(shè)定閾值s對排序后的數(shù)據(jù)進(jìn)行權(quán)重截?cái)啵?獲取新標(biāo)簽對用戶i的權(quán)重標(biāo)記,完成對用戶的新標(biāo)簽標(biāo)注。
[0020] 進(jìn)一步的是,對權(quán)重向量進(jìn)行降序排列,并截取其中前k位的標(biāo)簽,作為該用戶的 標(biāo)注標(biāo)簽,輸出用戶的標(biāo)簽標(biāo)注作為新標(biāo)簽。
[0021] 另一方面,本發(fā)明還提供了一種用于用戶可擴(kuò)展的標(biāo)簽標(biāo)注方法的系統(tǒng),包括
[0022] 數(shù)據(jù)獲取模塊:采樣用戶的樣本用戶數(shù)據(jù)并標(biāo)記用戶的樣本圖片,生成樣本用戶 標(biāo)簽標(biāo)注矩陣;
[0023]預(yù)處理模塊:連接數(shù)據(jù)獲取模塊,對用戶樣本圖片數(shù)據(jù)預(yù)處理,生成用戶興趣特征 矩陣和標(biāo)簽興趣特征矩陣;
[0024] 計(jì)算模塊:連接預(yù)處理模塊,利用樣本用戶標(biāo)簽標(biāo)注矩陣、用戶興趣特征矩陣和標(biāo) 簽興趣特征矩陣計(jì)算并生成用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù);
[0025] 標(biāo)簽生成模塊:連接計(jì)算模塊,通過用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù),計(jì)算生成用戶新標(biāo)簽 標(biāo)注數(shù)據(jù)。
[0026] 進(jìn)一步的是,向預(yù)處理模塊輸入對用戶數(shù)據(jù),并計(jì)算返回特征,合并為統(tǒng)一的向量 數(shù)據(jù),標(biāo)準(zhǔn)化用戶的圖片特征,該特征矩陣為用戶的興趣特征描述矩陣,包含全部樣本用戶 數(shù)據(jù);
[0027]向圖片預(yù)處理模塊輸入樣本圖片中各個(gè)標(biāo)簽的通用特征權(quán)重,該模塊對特征數(shù)據(jù) 其進(jìn)行分維度取期望值;
[0028]向預(yù)處理模塊對需要進(jìn)行新標(biāo)簽標(biāo)注的用戶進(jìn)行樣本圖片的特征處理;將處理好 的用戶圖片數(shù)據(jù)輸入標(biāo)簽標(biāo)注計(jì)算模塊,進(jìn)行矩陣運(yùn)算,計(jì)算用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù);逐行 抽取用戶的新標(biāo)簽關(guān)聯(lián)權(quán)重,并對其進(jìn)行降序排列,通過閾值來篩選適用于用戶的新標(biāo)簽, 輸出用戶的標(biāo)簽標(biāo)注。
[0029] 進(jìn)一步的是,向知識(shí)矩陣計(jì)算模塊輸入每個(gè)用戶新標(biāo)簽的個(gè)數(shù),該模塊對用戶的 新標(biāo)簽權(quán)重進(jìn)行標(biāo)準(zhǔn)化處理,生成樣本用戶標(biāo)簽數(shù)據(jù);向知識(shí)矩陣計(jì)算模塊輸入預(yù)處理后 的數(shù)據(jù),對處理后的樣本數(shù)據(jù),該模塊通過梯度下降方法對知識(shí)矩陣進(jìn)行數(shù)值計(jì)算,并輸出 用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù)。
[0030] 采用本技術(shù)方案的有益效果:
[0031] 有效地提升了在對用戶進(jìn)行新的標(biāo)簽化的過程中的計(jì)算效率和數(shù)據(jù)利用效率;
[0032] 有效地利用了圖片的卷積神經(jīng)網(wǎng)絡(luò)輸出特征,減少了處理圖片過程中卷積計(jì)算的 頻次,降低了在用戶標(biāo)簽標(biāo)記過程中的圖像處理所需的硬件成本;易于擴(kuò)展新的用戶的標(biāo) 簽數(shù)據(jù),不需要多次對神經(jīng)網(wǎng)絡(luò)進(jìn)行樣本的模型訓(xùn)練。
【附圖說明】
[0033] 圖1為本發(fā)明的一種用戶可擴(kuò)展的標(biāo)簽標(biāo)注方法流程示意圖;
[0034] 圖2為本發(fā)明的實(shí)施例中步驟S1的流程示意圖;
[0035] 圖3為本發(fā)明的實(shí)施例中步驟S2中獲取用戶興趣特征矩陣的流程示意圖;
[0036] 圖4為本發(fā)明的實(shí)施例中步驟S2中獲取標(biāo)簽興趣特征矩陣的流程示意圖;
[0037] 圖5為本發(fā)明的實(shí)施例中步驟S3的流程示意圖;
[0038]圖6為本發(fā)明的實(shí)施例中步驟S4的流程示意圖;
[0039] 圖7為本發(fā)明實(shí)施例中一種用于用戶可擴(kuò)展的標(biāo)簽標(biāo)注方法的系統(tǒng)的結(jié)構(gòu)示意 圖。
【具體實(shí)施方式】
[0040] 為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖對本發(fā)明作進(jìn)一 步闡述。
[0041] 在實(shí)施例中,參見圖1所示,本發(fā)明提出了一種用戶可擴(kuò)展的標(biāo)簽標(biāo)注方法,包括 步驟
[0042] 步驟S1:對用戶采樣獲取用戶樣本數(shù)據(jù)并標(biāo)記用戶的樣本圖片,生成樣本用戶標(biāo) 簽標(biāo)注矩陣,如圖2所示;
[0043] 具體為:對用戶進(jìn)行隨機(jī)采樣作為用戶樣本數(shù)據(jù),標(biāo)記用戶收藏的圖片作為樣本 圖片;對樣本圖片進(jìn)行標(biāo)簽標(biāo)記,其中每張圖片有多個(gè)標(biāo)簽標(biāo)記或只有一個(gè)標(biāo)簽標(biāo)記;利用 用戶樣本數(shù)據(jù)和樣本圖片的標(biāo)簽標(biāo)記生成樣本用戶的標(biāo)簽標(biāo)注矩陣,其中第j個(gè)用戶的標(biāo) 簽特征向量由標(biāo)記的圖片標(biāo)簽歸一化分布產(chǎn)生。
[0044] 優(yōu)選實(shí)施例,如圖2所示:
[0045] 步驟S1-1,采樣用戶,獲取用戶的圖片數(shù)據(jù)。
[0046] 該步驟包含,通過隨機(jī)采樣的形式獲取數(shù)據(jù)庫中的用戶數(shù)據(jù),若用戶的圖片數(shù)量 大于閾值,則采樣該用戶。
[0047]步驟S1-2,將所有采樣的用戶標(biāo)識(shí)ID生成列表文件;抽取用戶的圖片數(shù)據(jù)。
[0048]步驟S1-3,抽取用戶i的圖片集合,對其進(jìn)行新標(biāo)簽標(biāo)注數(shù)據(jù)的統(tǒng)計(jì),獲取用戶的 標(biāo)注特征,對其進(jìn)行L2的標(biāo)準(zhǔn)化處理,得到【/, = ,Ut為樣本用戶標(biāo)簽標(biāo)注 矩陣。
[0049]在該實(shí)施例中,讀取采樣用戶標(biāo)識(shí)列表文件,獲取用戶的圖片數(shù)據(jù),存放文件夾, 并以用戶的ID作為文件夾命名。
[0050] 步驟S2:通過卷積神經(jīng)網(wǎng)絡(luò)對用戶樣本數(shù)據(jù)預(yù)處理,生成用戶興趣特征矩陣和標(biāo) 簽興趣特征矩陣;
[0051] 提取圖片特征數(shù)據(jù),構(gòu)建用戶興趣特征矩陣數(shù)據(jù);通過對采樣用戶圖片進(jìn)行卷積 神經(jīng)網(wǎng)絡(luò)分類特征的提取,該步驟中涉及到卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)建,不在該發(fā)明的涉及范圍 為現(xiàn)有技術(shù)。
[0052]具體為,將每個(gè)用戶的樣本圖片數(shù)據(jù)作為卷積神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù),獲取分類特 征層的數(shù)值輸出特征,每張圖片輸出一個(gè)固定維度的特征;將帶有標(biāo)簽標(biāo)注的樣本圖片依 據(jù)用戶進(jìn)行歸類,作為訓(xùn)練數(shù)據(jù)輸入;綜合歸一化每個(gè)用戶樣本的特征維度,根據(jù)訓(xùn)練數(shù)據(jù) 生成用戶興趣特征矩陣。
[0053] 優(yōu)選實(shí)施例,如圖3和圖4所示:
[0054]步驟S2-1-1,對采樣用戶的每一張圖片獲取其分類特征記為P/,其中m為用戶標(biāo) 識(shí),i為圖片標(biāo)識(shí);
[0055] 對其進(jìn)行L2標(biāo)準(zhǔn)化處理即:
[0057]生成采用用戶的興趣特征矩陣記為^ f ,將此特征矩陣存儲(chǔ)為 文件,文件名稱以用戶ID命名。
[0058]步驟S2-1-2,生成用戶興趣特征矩陣。
[0059] 讀取采樣用戶的興趣特征數(shù)據(jù),分別對其進(jìn)行各個(gè)特征維度的歸一化處理,生成 用戶興趣特征矩陣記為U。
[0060] 記yi為用戶i的興趣特征向量,U= |>1,以2士3^少11]1',其中以1的計(jì)算公式如下:
[0062] 具體為,將樣本圖片依據(jù)標(biāo)簽進(jìn)行歸類,作為訓(xùn)練數(shù)據(jù)輸入;將生成的圖片特征作 為矩陣的橫向量,構(gòu)建圖像特征矩陣;綜合歸一化每個(gè)標(biāo)簽樣本的特征維度,生成標(biāo)簽興趣 特征矩陣。
[0063] 對采樣用戶的圖片進(jìn)行新標(biāo)簽的標(biāo)注,生成新標(biāo)簽的特征矩陣。該步驟包含,對采 樣用戶圖片進(jìn)行基于新標(biāo)簽標(biāo)注的歸類。
[0064] 步驟S2-2-1,對用戶圖片數(shù)據(jù)新標(biāo)簽標(biāo)注,被標(biāo)注的圖片可以包含有1個(gè)或者1個(gè) 以上的標(biāo)簽屬性。
[0065]步驟S2-2-2,生成新標(biāo)簽的特征矩陣。
[0066] 將包含有同樣標(biāo)簽的圖片進(jìn)行歸類,并抽取其特征#,其中t為標(biāo)簽標(biāo)識(shí),i為圖片 標(biāo)識(shí)。
[0067] 對/f進(jìn)行L2標(biāo)準(zhǔn)化處理,生成新標(biāo)簽的特征矩陣記為r = [if ,/f...。
[0068] 將新標(biāo)簽的特征矩陣存儲(chǔ)為文件,并以標(biāo)簽ID進(jìn)行命名。
[0069]讀取標(biāo)簽特征數(shù)據(jù),分別對其進(jìn)行各個(gè)特征維度的歸一化處理,生成標(biāo)簽興趣特 征矩陣為T。
[0070]記Ti為標(biāo)簽i的特征向量,Τ= [τ?,τ2,τ3··_τη]τ,其中^的計(jì)算公式如下:
[0072]步驟S3:利用樣本用戶標(biāo)簽標(biāo)注矩陣、用戶興趣特征矩陣和標(biāo)簽興趣特征矩陣計(jì) 算并生成用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù)。
[0073]具體為,計(jì)算用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù)的計(jì)算公式為U · A · TT~Ut,通過梯度下降方 法求解矩陣A;其中,Ut為樣本用戶標(biāo)簽標(biāo)注矩陣,U為用戶興趣特征矩陣,T為標(biāo)簽興趣特征 矩陣,A為用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù)。
[0074]優(yōu)選實(shí)施例,如圖5所示:
[0075] 構(gòu)建學(xué)習(xí)模型,求解相應(yīng)的關(guān)聯(lián)矩陣,生成知識(shí)模塊。該步驟包含,構(gòu)建關(guān)聯(lián)模型, 對關(guān)聯(lián)矩陣進(jìn)行基于統(tǒng)計(jì)的求解,并輸出最終的模型知識(shí)矩陣,用于對新用戶的標(biāo)簽標(biāo)注。
[0076] 步驟S3-1,構(gòu)建用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù)模型,本發(fā)明通過對圖片特征進(jìn)行基于用 戶的建模來實(shí)現(xiàn)對新用戶的標(biāo)簽標(biāo)注的效果,其主要問題是找到標(biāo)簽的特征與用戶興趣 特征之間的數(shù)據(jù)關(guān)聯(lián),構(gòu)建U · A · TT~Ut關(guān)系式,得到用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù)A。
[0077] 步驟S3-2,通過梯度下降方法來對矩陣A進(jìn)行求解。
[0078]優(yōu)化目標(biāo)函數(shù)如下:
[0080] 其中,μι,τι分別為用戶i的特征向量和標(biāo)簽j的特征向量,其計(jì)算方法請參見步驟 S2-1-2 和步驟 S2-2-3。
[0081] 計(jì)算所得的關(guān)聯(lián)因子矩陣,寫入文本或者內(nèi)存或者cache模塊,作為關(guān)聯(lián)用戶標(biāo)簽 關(guān)聯(lián)知識(shí)數(shù)據(jù)模塊。
[0082]步驟S4:通過用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù),計(jì)算生成用戶新標(biāo)簽標(biāo)注數(shù)據(jù)。
[0083]具體的為,包括步驟:構(gòu)建需要標(biāo)注的用戶的興趣特征矩陣為IT,計(jì)算IT · A · Ττ, 記結(jié)果為U1/ =[111,112,113 - 1^]1',其中行向量1^為第;[個(gè)用戶對應(yīng)的標(biāo)簽標(biāo)注權(quán)重;逐行抽取 用戶的新標(biāo)簽關(guān)聯(lián)權(quán)重,并篩選適用于用戶的新標(biāo)簽,輸出用戶的標(biāo)簽標(biāo)注數(shù)據(jù)。
[0084]優(yōu)選方法一:對m進(jìn)行降序排序,通過設(shè)定閾值s對排序后的數(shù)據(jù)進(jìn)行權(quán)重截?cái)啵?獲取新標(biāo)簽對用戶i的權(quán)重標(biāo)記,完成對用戶的新標(biāo)簽標(biāo)注。
[0085]優(yōu)選方法二,對權(quán)重向量進(jìn)行降序排列,并截取其中前k位的標(biāo)簽,作為該用戶的 標(biāo)注標(biāo)簽,輸出用戶的標(biāo)簽標(biāo)注作為新標(biāo)簽。
[0086] 優(yōu)選實(shí)施例,如圖6所示:
[0087]步驟S4-1,計(jì)算待標(biāo)注用戶的標(biāo)簽特征,通過知識(shí)模塊對新用戶進(jìn)行標(biāo)簽標(biāo)注。該 步驟包含,計(jì)算待標(biāo)注用戶的興趣特征矩陣,其計(jì)算方法請參見步驟S2-1-2,用戶的興趣特 征矩陣為1/。
[0088] 最終新用戶的標(biāo)簽標(biāo)注權(quán)重矩陣為= · A · Ττ其中UV ]Τ〇
[0089] 步驟S4-2,計(jì)算新用戶的標(biāo)簽評分權(quán)重。
[0090]方法一 丨為用戶的新標(biāo)簽權(quán)重評分,對其依據(jù)權(quán)重大小進(jìn)行降序排序,設(shè)置閾值 s,獲取權(quán)重大于s的標(biāo)簽。
[0091]方法二:對權(quán)重向量進(jìn)行降序排列,并截取其中前k位的標(biāo)簽,作為該用戶的標(biāo)注 標(biāo)簽。
[0092]為配合本發(fā)明方法的實(shí)現(xiàn),基于相同的發(fā)明構(gòu)思,如圖7所示,本發(fā)明還提供了一 種用于用戶可擴(kuò)展的標(biāo)簽標(biāo)注方法的系統(tǒng),包括:
[0093]數(shù)據(jù)獲取模塊:采樣用戶的樣本用戶數(shù)據(jù)并標(biāo)記用戶的樣本圖片,生成樣本用戶 標(biāo)簽標(biāo)注矩陣;
[0094]預(yù)處理模塊:連接數(shù)據(jù)獲取模塊,對用戶樣本圖片數(shù)據(jù)預(yù)處理,生成用戶興趣特征 矩陣和標(biāo)簽興趣特征矩陣;
[0095] 計(jì)算模塊:連接預(yù)處理模塊,利用樣本用戶標(biāo)簽標(biāo)注矩陣、用戶興趣特征矩陣和標(biāo) 簽興趣特征矩陣計(jì)算并生成用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù);
[0096] 標(biāo)簽生成模塊:連接計(jì)算模塊,通過用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù),計(jì)算生成用戶新標(biāo)簽 標(biāo)注數(shù)據(jù)。
[0097]其中,向預(yù)處理模塊輸入對用戶數(shù)據(jù),并計(jì)算返回特征,合并為統(tǒng)一的向量數(shù)據(jù), 標(biāo)準(zhǔn)化用戶的圖片特征,該特征矩陣為用戶的興趣特征描述矩陣,包含全部樣本用戶數(shù)據(jù); [0098]向圖片預(yù)處理模塊輸入樣本圖片中各個(gè)標(biāo)簽的通用特征權(quán)重,該模塊對特征數(shù)據(jù) 其進(jìn)行分維度取期望值;
[0099]向預(yù)處理模塊對需要進(jìn)行新標(biāo)簽標(biāo)注的用戶進(jìn)行樣板圖片的特征處理;將處理好 的用戶圖片數(shù)據(jù)輸入標(biāo)簽標(biāo)注計(jì)算模塊,進(jìn)行矩陣運(yùn)算,計(jì)算用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù);逐行 抽取用戶的新標(biāo)簽關(guān)聯(lián)權(quán)重,并對其進(jìn)行降序排列,通過閾值來篩選適用于用戶的新標(biāo)簽, 輸出用戶的標(biāo)簽標(biāo)注。
[0100] 其中,向知識(shí)矩陣計(jì)算模塊輸入每個(gè)用戶新標(biāo)簽的個(gè)數(shù),該模塊對用戶的新標(biāo)簽 權(quán)重進(jìn)行標(biāo)準(zhǔn)化處理,生成樣本用戶標(biāo)簽數(shù)據(jù);向知識(shí)矩陣計(jì)算模塊輸入預(yù)處理后的數(shù)據(jù), 對處理后的樣本數(shù)據(jù),該模塊通過梯度下降方法對知識(shí)矩陣進(jìn)行數(shù)值計(jì)算,并輸出用戶標(biāo) 簽關(guān)聯(lián)知識(shí)數(shù)據(jù)。
[0101] 以上顯示和描述了本發(fā)明的基本原理和主要特征和本發(fā)明的優(yōu)點(diǎn)。本行業(yè)的技術(shù) 人員應(yīng)該了解,本發(fā)明不受上述實(shí)施例的限制,上述實(shí)施例和說明書中描述的只是說明本 發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下,本發(fā)明還會(huì)有各種變化和改進(jìn),這些變 化和改進(jìn)都落入要求保護(hù)的本發(fā)明范圍內(nèi)。本實(shí)發(fā)明要求保護(hù)范圍由所附的權(quán)利要求書及 其等效物界定。
【主權(quán)項(xiàng)】
1. 一種用戶可擴(kuò)展的標(biāo)簽標(biāo)注方法,其特征在于,步驟包括; 步驟S1:對用戶采樣獲取用戶樣本數(shù)據(jù),并標(biāo)記用戶的樣本圖片,生成樣本用戶標(biāo)簽標(biāo) 注矩陣; 步驟S2:通過卷積神經(jīng)網(wǎng)絡(luò)對用戶樣本數(shù)據(jù)預(yù)處理,生成用戶興趣特征矩陣和標(biāo)簽興 趣特征矩陣; 步驟S3:利用樣本用戶標(biāo)簽標(biāo)注矩陣、用戶興趣特征矩陣和標(biāo)簽興趣特征矩陣計(jì)算并 生成用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù); 步驟S4:通過用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù),計(jì)算生成用戶新標(biāo)簽標(biāo)注數(shù)據(jù)。2. 根據(jù)權(quán)利要求1所述的一種用戶可擴(kuò)展的標(biāo)簽標(biāo)注方法,其特征在于,所述步驟S1包 括步驟: 對用戶進(jìn)行隨機(jī)采樣作為用戶樣本數(shù)據(jù),標(biāo)記用戶收藏的圖片作為樣本圖片; 對樣本圖片進(jìn)行標(biāo)簽標(biāo)記,其中每張圖片有多個(gè)標(biāo)簽標(biāo)記或只有一個(gè)標(biāo)簽標(biāo)記; 利用用戶樣本數(shù)據(jù)和樣本圖片的標(biāo)簽標(biāo)記生成樣本用戶的標(biāo)簽標(biāo)注矩陣,其中第j個(gè) 用戶的標(biāo)簽特征向量由標(biāo)記的圖片標(biāo)簽歸一化分布產(chǎn)生。3. 根據(jù)權(quán)利要求2所述的一種用戶可擴(kuò)展的標(biāo)簽標(biāo)注方法,其特征在于,所述步驟S2包 括步驟: 將每個(gè)用戶樣本數(shù)據(jù)作為卷積神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù),獲取分類特征層的數(shù)值輸出特 征,每張圖片輸出一個(gè)固定維度的特征;將帶有標(biāo)簽標(biāo)注的樣本圖片依據(jù)用戶進(jìn)行歸類,作 為訓(xùn)練數(shù)據(jù)輸入;綜合歸一化每個(gè)用戶樣本的特征維度,根據(jù)訓(xùn)練數(shù)據(jù)生成用戶興趣特征 矩陣; 將樣本圖片依據(jù)標(biāo)簽進(jìn)行歸類,作為訓(xùn)練數(shù)據(jù)輸入;將生成的圖片特征作為矩陣的橫 向量,構(gòu)建圖像特征矩陣;綜合歸一化每個(gè)標(biāo)簽樣本的特征維度,生成標(biāo)簽興趣特征矩陣。4. 根據(jù)權(quán)利要求3所述的一種用戶可擴(kuò)展的標(biāo)簽標(biāo)注方法,其特征在于,步驟S3中計(jì)算 用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù)的計(jì)算公式為U · A · TT~Ut,通過梯度下降方法求解矩陣A;其中,Ut 為樣本用戶標(biāo)簽標(biāo)注矩陣,U為用戶興趣特征矩陣,T為標(biāo)簽興趣特征矩陣,A為用戶標(biāo)簽關(guān) 聯(lián)知識(shí)數(shù)據(jù)。5. 根據(jù)權(quán)利要求4所述的一種用戶可擴(kuò)展的標(biāo)簽標(biāo)注方法,其特征在于,所述步驟S4包 括步驟: 構(gòu)建需要標(biāo)注的用戶的興趣特征矩陣為V,計(jì)算If · A · Ττ,記結(jié)果為U1/ =[ui,U2,U3··· m]T,其中行向量m為第i個(gè)用戶對應(yīng)的標(biāo)簽標(biāo)注權(quán)重;逐行抽取用戶的新標(biāo)簽關(guān)聯(lián)權(quán)重,并 篩選適用于用戶的新標(biāo)簽,輸出用戶的標(biāo)簽標(biāo)注數(shù)據(jù)。6. 根據(jù)權(quán)利要求5所述的一種用戶可擴(kuò)展的標(biāo)簽標(biāo)注方法,其特征在于,對m進(jìn)行降序 排序,通過設(shè)定閾值s對排序后的數(shù)據(jù)進(jìn)行權(quán)重截?cái)?,獲取新標(biāo)簽對用戶i的權(quán)重標(biāo)記,完成 對用戶的新標(biāo)簽標(biāo)注。7. 根據(jù)權(quán)利要求5所述的一種用戶可擴(kuò)展的標(biāo)簽標(biāo)注方法,其特征在于,對權(quán)重向量進(jìn) 行降序排列,并截取其中前k位的標(biāo)簽作為該用戶的標(biāo)注標(biāo)簽,輸出用戶的標(biāo)簽標(biāo)注作為新 標(biāo)簽。8. -種用于用戶可擴(kuò)展的標(biāo)簽標(biāo)注方法的系統(tǒng),其特征在于,包括: 數(shù)據(jù)獲取模塊:采樣用戶的樣本用戶數(shù)據(jù),并標(biāo)記用戶的樣本圖片,生成樣本用戶標(biāo)簽 標(biāo)注矩陣; 預(yù)處理模塊:連接數(shù)據(jù)獲取模塊,對用戶樣本圖片數(shù)據(jù)預(yù)處理,生成用戶興趣特征矩陣 和標(biāo)簽興趣特征矩陣; 計(jì)算模塊:連接預(yù)處理模塊,利用樣本用戶標(biāo)簽標(biāo)注矩陣、用戶興趣特征矩陣和標(biāo)簽興 趣特征矩陣計(jì)算并生成用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù); 標(biāo)簽生成模塊:連接計(jì)算模塊,通過用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù),計(jì)算生成用戶新標(biāo)簽標(biāo)注 數(shù)據(jù)。9. 根據(jù)權(quán)利要求8所述的一種用戶可擴(kuò)展的標(biāo)簽標(biāo)注方法,其特征在于, 向預(yù)處理模塊輸入對用戶數(shù)據(jù),并計(jì)算返回特征,合并為統(tǒng)一的向量數(shù)據(jù),標(biāo)準(zhǔn)化用戶 的圖片特征,該特征矩陣為用戶的興趣特征描述矩陣,包含全部樣本用戶數(shù)據(jù); 向圖片預(yù)處理模塊輸入樣本圖片中各個(gè)標(biāo)簽的通用特征權(quán)重,該模塊對特征數(shù)據(jù)其進(jìn) 行分維度取期望值; 向預(yù)處理模塊對需要進(jìn)行新標(biāo)簽標(biāo)注的用戶進(jìn)行樣本圖片的特征處理;將處理好的用 戶圖片數(shù)據(jù)輸入標(biāo)簽標(biāo)注計(jì)算模塊,進(jìn)行矩陣運(yùn)算,計(jì)算用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù);逐行抽取 用戶的新標(biāo)簽關(guān)聯(lián)權(quán)重,并對其進(jìn)行降序排列,通過閾值來篩選適用于用戶的新標(biāo)簽,輸出 用戶的新標(biāo)簽標(biāo)注。10. 根據(jù)權(quán)利要求8所述的一種用戶可擴(kuò)展的標(biāo)簽標(biāo)注方法,其特征在于,向知識(shí)矩陣 計(jì)算模塊輸入每個(gè)用戶新標(biāo)簽的個(gè)數(shù),該模塊對用戶的新標(biāo)簽權(quán)重進(jìn)行標(biāo)準(zhǔn)化處理,生成 樣本用戶標(biāo)簽數(shù)據(jù);向知識(shí)矩陣計(jì)算模塊輸入預(yù)處理后的數(shù)據(jù),對處理后的樣本數(shù)據(jù),該模 塊通過梯度下降方法對知識(shí)矩陣進(jìn)行數(shù)值計(jì)算,并輸出用戶標(biāo)簽關(guān)聯(lián)知識(shí)數(shù)據(jù)。
【文檔編號(hào)】G06F17/30GK106095966SQ201610435965
【公開日】2016年11月9日
【申請日】2016年6月15日
【發(fā)明人】陸豪放
【申請人】成都品果科技有限公司