數(shù)據(jù)分類方法及裝置制造方法
【專利摘要】本公開揭示了一種數(shù)據(jù)分類方法及裝置,屬于數(shù)據(jù)分類【技術(shù)領(lǐng)域】。所述數(shù)據(jù)分類方法包括:獲取測試數(shù)據(jù),通過預(yù)定方法計算得到與測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量;根據(jù)訓(xùn)練得到的訓(xùn)練矩陣確定稀疏系數(shù)向量中的每個非零變量針對每種類別標簽的后驗概率;根據(jù)每種類別標簽所對應(yīng)的后驗概率,計算得到每種類別標簽所對應(yīng)的后驗概率之和;將后驗概率之和最大的類別標簽所指示的類別,確定為測試數(shù)據(jù)的類別。通過確定稀疏系數(shù)向量中的每個非零變量針對每種類別的后驗概率,將后驗概率和值最大的類別確定為測試數(shù)據(jù)的類別;因此解決了一般的分類方法由于需要訓(xùn)練復(fù)雜的分類器且存在大量的模型文件,從而使得分類速度較慢的問題;達到了提高分類效率的效果。
【專利說明】數(shù)據(jù)分類方法及裝置
【技術(shù)領(lǐng)域】
[0001]本公開涉及數(shù)據(jù)分類【技術(shù)領(lǐng)域】,特別涉及一種數(shù)據(jù)分類方法及裝置。
【背景技術(shù)】
[0002]分類是一種重要的數(shù)據(jù)挖掘技術(shù)。分類的目的是根據(jù)數(shù)據(jù)集的特點構(gòu)造一個分類函數(shù)或分類器。該分類器能把未知類別的樣本映射到給定類別中,如何更好地使用分類器就成了提高分類效果的關(guān)鍵。
[0003]相關(guān)技術(shù)中在字典學(xué)習(xí)與稀疏分解算法的基礎(chǔ)上,一般的分類方法會應(yīng)用復(fù)雜的分類器模型,同時對分類器本身進行訓(xùn)練,并需要大量模型文件。
[0004]發(fā)明人在實現(xiàn)本公開的過程中,發(fā)現(xiàn)相關(guān)技術(shù)至少存在如下缺陷:一般的分類方法由于需要訓(xùn)練復(fù)雜的分類器并且存在大量的模型文件,從而使得分類速度較慢。
【發(fā)明內(nèi)容】
[0005]為了解決相關(guān)技術(shù)中一般的分類方法由于需要訓(xùn)練復(fù)雜的分類器并且存在大量的模型文件,從而使得分類速度較慢的問題,本公開提供一種數(shù)據(jù)分類方法及裝置。所述技術(shù)方案如下:
[0006]根據(jù)本公開實施例的第一方面,提供一種數(shù)據(jù)分類方法,所述方法包括:
[0007]獲取測試數(shù)據(jù),通過預(yù)定方法計算得到與所述測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量,所述稀疏系數(shù)向量是所述測試數(shù)據(jù)映射到訓(xùn)練得到的字典上時得到的系數(shù)向量;
[0008]對于所述稀疏系數(shù)向量中的每個非零變量,根據(jù)訓(xùn)練得到的訓(xùn)練矩陣確定所述非零變量針對每種類別標簽的后驗概率;
[0009]根據(jù)每種類別標簽所對應(yīng)的后驗概率,計算得到每種類別標簽所對應(yīng)的后驗概率之和;
[0010]將后驗概率之和最大的類別標簽所指示的類別,確定為所述測試數(shù)據(jù)的類別。
[0011]可選的,所述方法還包括:
[0012]選取第一訓(xùn)練樣本集和第二訓(xùn)練樣本集;
[0013]利用所述第一訓(xùn)練樣本集得到所述字典,對于所述第二訓(xùn)練樣本集中的每個訓(xùn)練樣本,計算所述訓(xùn)練樣本映射到所述字典時得到的稀疏系數(shù)向量,將所述稀疏系數(shù)向量確定為訓(xùn)練稀疏系數(shù)向量;
[0014]對于每個類別標簽所指示的類別,根據(jù)各個所述訓(xùn)練稀疏系數(shù)向量中的位于同一位置的各個變量,計算所述位置處的變量為非零時,所述訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于所述類別標簽所指示類別的后驗概率;
[0015]利用各個位置的變量所對應(yīng)的后驗概率組成所述訓(xùn)練矩陣;
[0016]其中,所述訓(xùn)練矩陣中一行的數(shù)據(jù)分別為各個所述訓(xùn)練稀疏系數(shù)向量中同一個位置的變量所對應(yīng)的后驗概率,所述訓(xùn)練矩陣的每一行對應(yīng)各個所述訓(xùn)練稀疏系數(shù)向量中的一個位置的變量,每一列對應(yīng)一個類別標簽。
[0017]可選的,所述根據(jù)各個所述訓(xùn)練稀疏系數(shù)向量中的位于同一位置的各個變量,計算所述位置處的變量為非零時,所述訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于所述類別標簽所指不類別的后驗概率,包括:
[0018]對于所述訓(xùn)練稀疏系數(shù)向量中的一個位置,獲取各個所述訓(xùn)練稀疏系數(shù)向量中所述位置處的變量,利用后驗概率公式計算所述位置處的變量為非零時,所述訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于每個類別標簽所指示類別的后驗概率;
[0019]其中,所述后驗概率公式為:
[0020]P (C = Ci I Xj ! = O) = P (Xj.! = O | C = Ci) P (Ci) /P (Xj ! = O)
[0021]其中,先驗概率P(Ci)為所述訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于第Ci類的概率;先驗概率P(x] ! = O)為所述稀疏系數(shù)向量中變量\為非O的概率;條件概率P (Xj != OlC = Ci)為在所述訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于第Ci類時,所述稀疏系數(shù)向量的變量Xj為非O的概率;所述后驗概率P (C = CiIxj ! = O)為在所述稀疏系數(shù)向量中變量\為非O時,所述訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于第Ci類的概率,1、j為大于O的自然數(shù)。
[0022]可選的,所述利用所述第一訓(xùn)練樣本集得到所述字典,對于所述第二訓(xùn)練樣本集中的每個訓(xùn)練樣本,計算所述訓(xùn)練樣本映射到所述字典時得到的稀疏系數(shù)向量,包括:
[0023]將所述第一訓(xùn)練樣本集中的各個訓(xùn)練樣本變換為列向量,將得到的列向量依序排列成矩陣,構(gòu)成所述字典,利用第一公式計算得到所述第二訓(xùn)練樣本集中的訓(xùn)練樣本的稀疏系數(shù)向量;
[0024]或,
[0025]對于所述第一訓(xùn)練樣本集中的各個訓(xùn)練樣本,采用奇異值分解算法進行字典的學(xué)習(xí),得到所述字典,利用所述第一公式計算得到所述第二訓(xùn)練樣本集中的訓(xùn)練樣本的稀疏系數(shù)向量;
[0026]或,
[0027]根據(jù)類別對所述第一訓(xùn)練樣本集中各個訓(xùn)練樣本進行分組,得到至少一個訓(xùn)練樣本子集,每個訓(xùn)練樣本子集中的訓(xùn)練樣本具有相同的類別;采用奇異值分解算法分別對各個訓(xùn)練樣本子集進行字典學(xué)習(xí),得到各個訓(xùn)練樣本子集的字典;將各個訓(xùn)練樣本子集的字典級聯(lián)組成獲取的所述字典,利用所述第一公式計算得到所述第二訓(xùn)練樣本集中的訓(xùn)練樣本的稀疏系數(shù)向量。
[0028]其中,所述第一公式為:min(x) | x | 11; s.t.y = Dx,所述D為字典,y為所述訓(xùn)練數(shù)據(jù),X為上述稀疏系數(shù)向量。
[0029]可選的,所述通過預(yù)定方法計算得到與所述測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量,包括:
[0030]利用訓(xùn)練時得到的所述字典以及所述測試數(shù)據(jù),得到所述測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量。
[0031]根據(jù)本公開實施例的第二方面,提供一種數(shù)據(jù)分類裝置,所述裝置包括:
[0032]第一計算模塊,被配置為獲取測試數(shù)據(jù),通過預(yù)定方法計算得到與所述測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量,所述稀疏系數(shù)向量是所述測試數(shù)據(jù)映射到訓(xùn)練得到的字典上時得到的系數(shù)向量;
[0033]第一確定模塊,被配置為對于所述稀疏系數(shù)向量中的每個非零變量,根據(jù)訓(xùn)練得到的訓(xùn)練矩陣確定所述非零變量針對每種類別標簽的后驗概率;
[0034]第二計算模塊,被配置為根據(jù)每種類別標簽所對應(yīng)的后驗概率,計算得到每種類別標簽所對應(yīng)的后驗概率之和;
[0035]第二確定模塊,被配置為將后驗概率之和最大的類別標簽所指示的類別,確定為所述測試數(shù)據(jù)的類別。
[0036]可選的,所述裝置還包括:
[0037]選取模塊,被配置為選取第一訓(xùn)練樣本集和第二訓(xùn)練樣本集;
[0038]第三計算模塊,被配置為利用所述第一訓(xùn)練樣本集得到所述字典,對于所述第二訓(xùn)練樣本集中的每個訓(xùn)練樣本,計算所述訓(xùn)練樣本映射到所述字典時得到的稀疏系數(shù)向量,將所述稀疏系數(shù)向量確定為訓(xùn)練稀疏系數(shù)向量;
[0039]第四計算模塊,被配置為對于每個類別標簽所指示的類別,根據(jù)各個所述訓(xùn)練稀疏系數(shù)向量中的位于同一位置的各個變量,計算所述位置處的變量為非零時,所述訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于所述類別標簽所指示類別的后驗概率;
[0040]組成模塊,被配置為利用各個位置的變量所對應(yīng)的后驗概率組成所述訓(xùn)練矩陣;
[0041]其中,所述訓(xùn)練矩陣中一行的數(shù)據(jù)分別為各個所述訓(xùn)練稀疏系數(shù)向量中同一個位置的變量所對應(yīng)的后驗概率,所述訓(xùn)練矩陣的每一行對應(yīng)各個所述訓(xùn)練稀疏系數(shù)向量中的一個位置的變量,每一列對應(yīng)一個類別標簽
[0042]可選的,所述第四計算模塊被配置為對于所述訓(xùn)練稀疏系數(shù)向量中的一個位置,獲取各個所述訓(xùn)練稀疏系數(shù)向量中所述位置處的變量,利用后驗概率公式計算所述位置處的變量為非零時,所述訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于每個類別標簽所指示類別的后驗概率;
[0043]其中,所述后驗概率公式為:
[0044]P (C = Ci I Xj ! = O) = P (Xj.! = O | C = Ci) P (Ci) /P (Xj ! = O)
[0045]其中,先驗概率P(Ci)為所述訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于第Ci類的概率;先驗概率P(x] ! = O)為所述稀疏系數(shù)向量中變量\為非O的概率;條件概率P (Xj != OlC = Ci)為在所述訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于第Ci類時,所述稀疏系數(shù)向量的變量Xj為非O的概率;所述后驗概率P (C = CiIxj ! = O)為在所述稀疏系數(shù)向量中變量\為非O時,所述訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于第Ci類的概率,1、j為大于O的自然數(shù)。
[0046]可選的,所述第三計算模塊,包括:
[0047]第一計算子模塊,被配置為將所述第一訓(xùn)練樣本集中的各個訓(xùn)練樣本變換為列向量,將得到的列向量依序排列成矩陣,構(gòu)成所述字典,利用第一公式計算得到所述第二訓(xùn)練樣本集中的訓(xùn)練樣本的稀疏系數(shù)向量;
[0048]或,
[0049]第二計算子模塊,被配置為對于所述第一訓(xùn)練樣本集中的各個訓(xùn)練樣本,采用奇異值分解算法進行字典的學(xué)習(xí),得到所述字典,利用所述第一公式計算得到所述第二訓(xùn)練樣本集中的訓(xùn)練樣本的稀疏系數(shù)向量;
[0050]或,
[0051]第三計算子模塊,被配置為根據(jù)類別對所述第一訓(xùn)練樣本集中各個訓(xùn)練樣本進行分組,得到至少一個訓(xùn)練樣本子集,每個訓(xùn)練樣本子集中的訓(xùn)練樣本具有相同的類別;采用奇異值分解算法分別對各個訓(xùn)練樣本子集進行字典學(xué)習(xí),得到各個訓(xùn)練樣本子集的字典;將各個訓(xùn)練樣本子集的字典級聯(lián)組成獲取的所述字典,,利用所述第一公式計算得到所述第二訓(xùn)練樣本集中的訓(xùn)練樣本的稀疏系數(shù)向量。
[0052]其中,所述第一公式為:min(x) | x | 11; s.t.y = Dx,所述D為字典,y為所述訓(xùn)練數(shù)據(jù),X為上述稀疏系數(shù)向量。
[0053]可選的,所述第一計算模塊被配置為利用訓(xùn)練時得到的所述字典以及所述測試數(shù)據(jù),得到所述測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量。
[0054]根據(jù)本公開實施例的第三方面,提供一種數(shù)據(jù)分類裝置,所述裝置包括:
[0055]處理器;
[0056]用于存儲所述處理器可執(zhí)行指令的存儲器;
[0057]其中,所述處理器被配置為:
[0058]獲取測試數(shù)據(jù),通過預(yù)定方法計算得到與所述測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量,所述稀疏系數(shù)向量是所述測試數(shù)據(jù)映射到訓(xùn)練得到的字典上時得到的系數(shù)向量;
[0059]對于所述稀疏系數(shù)向量中的每個非零變量,根據(jù)訓(xùn)練得到的訓(xùn)練矩陣確定所述非零變量針對每種類別標簽的后驗概率;
[0060]根據(jù)每種類別標簽所對應(yīng)的后驗概率,計算得到每種類別標簽所對應(yīng)的后驗概率之和;
[0061]將后驗概率之和最大的類別標簽所指示的類別,確定為所述測試數(shù)據(jù)的類別。
[0062]本公開的實施例提供的技術(shù)方案可以包括以下有益效果:
[0063]通過計算得到與測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量,根據(jù)訓(xùn)練得到的訓(xùn)練矩陣確定稀疏系數(shù)向量中的每個非零變量針對每種類別標簽的后驗概率,計算每種類別標簽所對應(yīng)的后驗概率之和,將后驗概率之和最大的類別標簽所指示的類別,確定為測試數(shù)據(jù)的類別;由于只需計算后驗概率就能確定測試數(shù)據(jù)的類別,因此解決了一般的分類方法由于需要訓(xùn)練復(fù)雜的分類器并且存在大量的模型文件,從而使得分類速度較慢的問題;達到了提高分類效率的效果。
[0064]應(yīng)當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性的,并不能限制本公開。
【專利附圖】
【附圖說明】
[0065]此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本公開的實施例,并于說明書一起用于解釋本公開的原理。
[0066]圖1是根據(jù)一示例性實施例示出的一種數(shù)據(jù)分類方法的流程圖;
[0067]圖2是根據(jù)另一示例性實施例示出的一種數(shù)據(jù)分類方法的流程圖;
[0068]圖3是根據(jù)一示例性實施例示出的一種數(shù)據(jù)分類裝置的框圖;
[0069]圖4是根據(jù)另一示例性實施例示出的一種數(shù)據(jù)分類裝置的框圖;
[0070]圖5是根據(jù)一示例性實施例示出的一種用于對數(shù)據(jù)進行分類的裝置的框圖。
【具體實施方式】
[0071]這里將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本公開相一致的所有實施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本公開的一些方面相一致的裝置和方法的例子。
[0072]圖1是根據(jù)一示例性實施例示出的一種數(shù)據(jù)分類方法的流程圖,如圖1所示,該數(shù)據(jù)分類方法可以包括以下步驟。
[0073]在步驟101中,獲取測試數(shù)據(jù),通過預(yù)定方法計算得到與測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量,稀疏系數(shù)向量是測試數(shù)據(jù)映射到訓(xùn)練得到的字典上時得到的系數(shù)向量。
[0074]在步驟102中,對于稀疏系數(shù)向量中的每個非零變量,根據(jù)訓(xùn)練得到的訓(xùn)練矩陣確定非零變量針對每種類別標簽的后驗概率。
[0075]在步驟103中,根據(jù)每種類別標簽所對應(yīng)的后驗概率,計算得到每種類別標簽所對應(yīng)的后驗概率之和。
[0076]在步驟104中,將后驗概率之和最大的類別標簽所指示的類別,確定為測試數(shù)據(jù)的類別。
[0077]綜上所述,本公開實施例中提供的數(shù)據(jù)分類方法,通過計算得到與測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量,根據(jù)訓(xùn)練得到的訓(xùn)練矩陣確定稀疏系數(shù)向量中的每個非零變量針對每種類別標簽的后驗概率,計算每種類別標簽所對應(yīng)的后驗概率之和,將后驗概率之和最大的類別標簽所指示的類別,確定為測試數(shù)據(jù)的類別;由于只需計算后驗概率就能確定測試數(shù)據(jù)的類別,因此解決了一般的分類方法由于需要訓(xùn)練復(fù)雜的分類器并且存在大量的模型文件,從而使得分類速度較慢的問題;達到了提高分類效率的效果。
[0078]圖2是根據(jù)另一示例性實施例示出的一種數(shù)據(jù)分類方法的流程圖,如圖2所示,該數(shù)據(jù)分類方法可以包括以下步驟。
[0079]在步驟201中,選取第一訓(xùn)練樣本集和第二訓(xùn)練樣本集。
[0080]這里的第一訓(xùn)練樣本集和第二訓(xùn)練樣本集可以是從一個總訓(xùn)練樣本集中選取得至IJ,第一訓(xùn)練樣本集中的訓(xùn)練樣本可以與第二訓(xùn)練樣本集中的訓(xùn)練樣本相同、部分相同或者全部不同。
[0081]舉例來講,在一個總訓(xùn)練樣本集中有10000個訓(xùn)練樣本,此時可以選取3000個訓(xùn)練樣本作為第一訓(xùn)練樣本集,選取剩下的7000個訓(xùn)練樣本作為第二訓(xùn)練樣本集;或者選取6000個訓(xùn)練樣本作為第一訓(xùn)練樣本集,選取7000個訓(xùn)練樣本作為第二訓(xùn)練樣本集,其中在第一訓(xùn)練樣本集和第二訓(xùn)練樣本集中有3000個相同的訓(xùn)練樣本;或者選取全部10000個訓(xùn)練樣本作為第一訓(xùn)練樣本集和第二訓(xùn)練樣本集,這樣第一訓(xùn)練樣本集和第二訓(xùn)練樣本集中的訓(xùn)練樣本就全部相同。
[0082]在步驟202中,利用第一訓(xùn)練樣本集得到字典,對于第二訓(xùn)練樣本集中的每個訓(xùn)練樣本,計算訓(xùn)練樣本映射到字典時得到的稀疏系數(shù)向量,將稀疏系數(shù)向量確定為訓(xùn)練稀疏系數(shù)向量。
[0083]在利用第一訓(xùn)練樣本集獲取字典時,可以通過以下三種方式實現(xiàn)。
[0084]在第一種實現(xiàn)方式中,將第一訓(xùn)練樣本集中的各個訓(xùn)練樣本變換為列向量,將得到的列向量依序排列成矩陣,構(gòu)成字典。
[0085]舉例來講,第一訓(xùn)練樣本集中有10000張mxn的圖像作為訓(xùn)練樣本,首先將每幅圖像轉(zhuǎn)換為(m*n)xl的列向量,得到10000個列向量,將這10000個列向量級聯(lián)為一個(m*n)XlOOOO的矩陣,該矩陣即為字典。其中,10000個列向量與10000個訓(xùn)練樣本——對應(yīng)。
[0086]在第二種實現(xiàn)方式中,對于第一訓(xùn)練樣本集中的各個訓(xùn)練樣本,采用奇異值分解算法進行字典的學(xué)習(xí),得到字典。
[0087]這里的奇異值分解算法主要步驟為:獲取初始化字典,采用正交匹配跟蹤算法計算得到稀疏系數(shù)矩陣,根據(jù)得到的稀疏系數(shù)矩陣利用第二公式迭代地更新字典與稀疏系數(shù)矩陣。
[0088]這里的第二公式為:min(X,D) ( Y-DX F)2s.t.| Xi |彡T。,其中X為稀疏系數(shù)矩陣,D為字典,Y為訓(xùn)練樣本矩陣。
[0089]奇異值分解算法是本領(lǐng)域普通技術(shù)人員都能夠?qū)崿F(xiàn)的,這里就不再詳述。
[0090]在第三種實現(xiàn)方式中,根據(jù)類別對第一訓(xùn)練樣本集中各個訓(xùn)練樣本進行分組,得到至少一個訓(xùn)練樣本子集,每個訓(xùn)練樣本子集中的訓(xùn)練樣本具有相同的類別;采用奇異值分解算法分別對各個訓(xùn)練樣本子集進行字典學(xué)習(xí),得到各個訓(xùn)練樣本子集的字典;將各個訓(xùn)練樣本子集的字典級聯(lián)組成獲取的字典。
[0091]在得到字典后,可以利用第一公式計算第二訓(xùn)練樣本集中的各個訓(xùn)練樣本映射到字典時得到的稀疏系數(shù)向量,并將該稀疏系數(shù)向量確定為訓(xùn)練稀疏系數(shù)向量。
[0092]其中,第一公式為:min(x) | x | 11; s.t.y = Dx, D為通過上述三種實現(xiàn)方式中任意一種得到的字典,I為第二訓(xùn)練樣本集中的訓(xùn)練樣本,X為需要求解的訓(xùn)練稀疏系數(shù)向量。
[0093]在步驟203中,對于每個類別標簽所指示的類別,根據(jù)各個訓(xùn)練稀疏系數(shù)向量中的位于同一位置的各個變量,利用后驗概率公式計算該位置處的變量為非零時,訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于每個類別標簽所指示類別的后驗概率。
[0094]這里的后驗概率公式為:
[0095]P (C = Ci I Xj ! = O) = P (Xj.! = O | C = Ci) P (Ci) /P (Xj ! = O)
[0096]其中,先驗概率P(Ci)為訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于第Ci類的概率;先驗概率P(Xj ! = O)為稀疏系數(shù)向量中變量為非O的概率;條件概率P(Xj ! =OlC =Ci)為在訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于第Ci類時,稀疏系數(shù)向量的變量\為非O的概率;后驗概率P (C = CiI^ ! =0)為在稀疏系數(shù)向量中變量&為非O時,訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于第Ci類的概率,1、j為大于O的自然數(shù)。
[0097]條件概率P(Xj ! =OlC = Ci)可以根據(jù)各個訓(xùn)練稀疏系數(shù)向量中的位于同一位置的各個變量,進行相應(yīng)計算得到。
"Π ?ιλ fo) p) fo、
[0098]舉例來講,得到的訓(xùn)練稀疏系數(shù)向量分別為O、2、3、1、2,其中,訓(xùn)練稀
v2y IvSy v0y
?λ⑴(O彳(2\〔O彳疏系數(shù)向量O、2、3所對應(yīng)的訓(xùn)練樣本屬于C1類,訓(xùn)練稀疏系數(shù)向量1、2所對應(yīng)的訓(xùn)練樣本屬于C2類。
[0099]在屬于C1類的訓(xùn)練稀疏系數(shù)向量中,對應(yīng)于第一位置的各個變量分別為1、1、0,由此可知,在訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于C1類時,其第一位置的變量為非零的概率為2/3 ;對應(yīng)于第二位置的各個變量分別為0、2、3,由此可知,在訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于C1類時,其第二位置的變量為非零的概率為2/3 ;對應(yīng)于第三位置的各個變量分別為0、0、2,由此可知,在訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于C1類時,其第三位置的變量為非零的概率為1/3。
[0100]在屬于C2類的訓(xùn)練稀疏系數(shù)向量中,對應(yīng)于第一位置的各個變量分別為2、0,由此可知,在訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于C2類時,其第一位置的變量為非零的概率為1/2 ;對應(yīng)于第二位置的各個變量分別為1、2,由此可知,在訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于C2類時,其第二位置的變量為非零的概率為I ;對應(yīng)于第三位置的各個變量分別為3、0,由此可知,在訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于C2類時,其第三位置的變量為非零的概率為1/2。
[0101]需要說明的是,這里的先驗概率P(Ci)和P(Xj ! = O)可以等同于平均分布。
[0102]在步驟204中,利用各個位置的變量所對應(yīng)的后驗概率組成訓(xùn)練矩陣。
[0103]在計算得到各個變量屬于每個類別標簽所指示類別的后驗概率后,將得到的這些后驗概率組成一個訓(xùn)練矩陣,該訓(xùn)練矩陣可以應(yīng)用于測試中。
[0104]訓(xùn)練矩陣中一行的數(shù)據(jù)分別為各個訓(xùn)練稀疏系數(shù)向量中同一個位置的變量所對應(yīng)的后驗概率,訓(xùn)練矩陣的每一行對應(yīng)各個訓(xùn)練稀疏系數(shù)向量中的一個位置的變量,每一列對應(yīng)一個類別標簽。
[0105]舉例來講,假設(shè)共有三類類別標簽,計算得到第一位置的變量X1屬于C1類的后驗概率為30%,屬于C2類的后驗概率為20%,屬于C3類的后驗概率為50% ;第二位置的變量X2屬于C1類的后驗概率為20%,屬于C2類的后驗概率為50 %,屬于C3類的后驗概率為
(0T, O 2 O 5^1
30%。此時將這些后驗概率組成的訓(xùn)練矩陣為05其中矩陣的第一行代表第一位置的變量X1屬于各類類別標簽的概率,第二行代表第二位置的變量X2屬于各類類別標簽的概率,第一列代表各個訓(xùn)練樣本屬于C1類的概率,第二列代表各個訓(xùn)練樣本屬于C2類的概率,第三列代表各個訓(xùn)練樣本屬于C3類的概率。
[0106]在步驟205中,獲取測試數(shù)據(jù),利用訓(xùn)練時得到的字典以及測試數(shù)據(jù),得到與測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量。
[0107]在獲取測試數(shù)據(jù)和訓(xùn)練時得到的字典后,可以利用第一公式計算與測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量。
[0108]這里的第一公式為:min(x) | x | 11; s.t.y = Dx, D為通過步驟202中任意一種實現(xiàn)方式得到的字典,I為測試數(shù)據(jù),X為需要求解的測試數(shù)據(jù)的稀疏系數(shù)向量。
[0109]在步驟206中,對于稀疏系數(shù)向量中的每個非零變量,根據(jù)訓(xùn)練得到的訓(xùn)練矩陣確定非零變量針對每種類別標簽的后驗概率。
[0110]由于訓(xùn)練得到的訓(xùn)練矩陣中有各個變量屬于每個類別標簽所指示類別的后驗概率,因此在獲得測試數(shù)據(jù)的稀疏系數(shù)向量后,可以根據(jù)該訓(xùn)練矩陣得到該稀疏系數(shù)向量中每個非零變量針對每種類別標簽的后驗概率。
"0.3 0.2 0.5、
[0111]舉例來講,訓(xùn)練得到的訓(xùn)練矩陣為0.2 0.5 0.3,測試數(shù)據(jù)的稀疏系數(shù)向量為
、0.2 0.2 0.6,
H
I,根據(jù)該訓(xùn)練矩陣可以得到測試數(shù)據(jù)的稀疏系數(shù)向量中第一位置的非零變量屬于C1類
1J
的概率為30%,屬于C2類的概率為20%,屬于C3類的概率為50%;第二位置的非零變量屬于C1類的概率為20%,屬于C2類的概率為50% ,屬于C3類的概率為30%;由于第三位置的變量為零,因此不作考慮。
[0112]在步驟207中,根據(jù)每種類別標簽所對應(yīng)的后驗概率,計算得到每種類別標簽所對應(yīng)的后驗概率之和。
[0113]在獲得稀疏系數(shù)向量中每個非零變量針對每種類別標簽的后驗概率后,將每種類別標簽對應(yīng)的后驗概率相加,得到每種類別標簽對應(yīng)的后驗概率之和。
[0114]仍參照上述例子,測試數(shù)據(jù)的稀疏系數(shù)向量為I ,其中,第一位置非零變量屬于
1J
C1類的概率為30%,屬于C2類的概率為20%,屬于C3類的概率為50%;第二位置的非零變量屬于C1類的概率為20%,屬于C2類的概率為50%,屬于C3類的概率為30%。將每種類別標簽對應(yīng)的后驗概率相加后,得到測試數(shù)據(jù)屬于C1類的后驗概率之和為50%,屬于C2類的后驗概率之和為70%,屬于C3類的后驗概率之和為80%。
[0115]在步驟208中,將后驗概率之和最大的類別標簽所指示的類別,確定為測試數(shù)據(jù)的類別。
[0116]在獲得每種類別標簽對應(yīng)的后驗概率之和后,將這些后驗概率和值進行比較,得出和值最大的后驗概率,將后驗概率和值最大的類別標簽對應(yīng)的類別確定為測試數(shù)據(jù)的類別。
[0117]仍參照上述例子,在將每種類別標簽對應(yīng)的后驗概率相加后,得到測試數(shù)據(jù)屬于C1類的后驗概率之和為50%,屬于C2類的后驗概率之和為70%,屬于C3類的后驗概率之和為80%??梢缘贸龊篁灨怕手妥畲鬄?0%,此時將后驗概率之和為80%的類別標簽所對應(yīng)的C3類確定為測試數(shù)據(jù)的類別。
[0118]綜上所述,本公開實施例中提供的數(shù)據(jù)分類方法,通過計算得到與測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量,根據(jù)訓(xùn)練得到的訓(xùn)練矩陣確定稀疏系數(shù)向量中的每個非零變量針對每種類別標簽的后驗概率,計算每種類別標簽所對應(yīng)的后驗概率之和,將后驗概率之和最大的類別標簽所指示的類別,確定為測試數(shù)據(jù)的類別;由于只需計算后驗概率就能確定測試數(shù)據(jù)的類別,因此解決了一般的分類方法由于需要訓(xùn)練復(fù)雜的分類器并且存在大量的模型文件,從而使得分類速度較慢的問題;達到了提高分類效率的效果。
[0119]下述為本公開裝置實施例,可以用于執(zhí)行本公開方法實施例。對于本公開裝置實施例中未披露的細節(jié),請參照本公開方法實施例。
[0120]圖3是根據(jù)一示例性實施例示出的一種數(shù)據(jù)分類裝置的框圖,如圖3所示,該數(shù)據(jù)分類裝置可以包括但不限于:第一計算模塊302、第一確定模塊304、第二計算模塊306和第二確定模塊308。
[0121]該第一計算模塊302,被配置為獲取測試數(shù)據(jù),通過預(yù)定方法計算得到與測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量,稀疏系數(shù)向量是測試數(shù)據(jù)映射到訓(xùn)練得到的字典上時得到的系數(shù)向量。
[0122]該第一確定模塊304,被配置為對于稀疏系數(shù)向量中的每個非零變量,根據(jù)訓(xùn)練得到的訓(xùn)練矩陣確定非零變量針對每種類別標簽的后驗概率。
[0123]該第二計算模塊306,被配置為根據(jù)每種類別標簽所對應(yīng)的后驗概率,計算得到每種類別標簽所對應(yīng)的后驗概率之和。
[0124]該第二確定模塊308,被配置為將后驗概率之和最大的類別標簽所指示的類別,確定為測試數(shù)據(jù)的類別。
[0125]綜上所述,本公開實施例中提供的數(shù)據(jù)分類裝置,通過計算得到與測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量,根據(jù)訓(xùn)練得到的訓(xùn)練矩陣確定稀疏系數(shù)向量中的每個非零變量針對每種類別標簽的后驗概率,計算每種類別標簽所對應(yīng)的后驗概率之和,將后驗概率之和最大的類別標簽所指示的類別,確定為測試數(shù)據(jù)的類別;由于只需計算后驗概率就能確定測試數(shù)據(jù)的類別,因此解決了一般的分類方法由于需要訓(xùn)練復(fù)雜的分類器并且存在大量的模型文件,從而使得分類速度較慢的問題;達到了提高分類效率的效果。
[0126]圖4是根據(jù)另一示例性實施例示出的一種數(shù)據(jù)分類裝置的框圖,如圖4所示,該數(shù)據(jù)分類裝置可以包括但不限于:第一計算模塊402、第一確定模塊404、第二計算模塊406和第二確定模塊408。
[0127]該第一計算模塊402,被配置為獲取測試數(shù)據(jù),通過預(yù)定方法計算得到與測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量,稀疏系數(shù)向量是測試數(shù)據(jù)映射到訓(xùn)練得到的字典上時得到的系數(shù)向量。
[0128]該第一確定模塊404,被配置為對于稀疏系數(shù)向量中的每個非零變量,根據(jù)訓(xùn)練得到的訓(xùn)練矩陣確定非零變量針對每種類別標簽的后驗概率。
[0129]該第二計算模塊406,被配置為根據(jù)每種類別標簽所對應(yīng)的后驗概率,計算得到每種類別標簽所對應(yīng)的后驗概率之和。
[0130]該第二確定模塊408,被配置為將后驗概率之和最大的類別標簽所指示的類別,確定為測試數(shù)據(jù)的類別。
[0131]在一種可能的實施例中,該裝置還包括:選取模塊410、第三計算模塊412、第四計算模塊414和組成模塊416。
[0132]該選取模塊410,被配置為選取第一訓(xùn)練樣本集和第二訓(xùn)練樣本集。
[0133]該第三計算模塊412,被配置為利用第一訓(xùn)練樣本集得到字典,對于第二訓(xùn)練樣本集中的每個訓(xùn)練樣本,計算訓(xùn)練樣本映射到字典時得到的稀疏系數(shù)向量,將稀疏系數(shù)向量確定為訓(xùn)練稀疏系數(shù)向量。
[0134]該第四計算模塊414,被配置為對于每個類別標簽所指示的類別,根據(jù)各個訓(xùn)練稀疏系數(shù)向量中的位于同一位置的各個變量,計算該位置處的變量為非零時,訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于該類別標簽所指示類別的后驗概率。
[0135]該組成模塊416,被配置為利用各個位置的變量所對應(yīng)的后驗概率組成訓(xùn)練矩陣。
[0136]其中,訓(xùn)練矩陣中一行的數(shù)據(jù)分別為各個訓(xùn)練稀疏系數(shù)向量中同一個位置的變量所對應(yīng)的后驗概率,訓(xùn)練矩陣的每一行對應(yīng)各個訓(xùn)練稀疏系數(shù)向量中的一個位置的變量,每一列對應(yīng)一個類別標簽
[0137]在一種可能的實施例中,該第四計算模塊414被配置為對于訓(xùn)練稀疏系數(shù)向量中的一個位置,獲取各個訓(xùn)練稀疏系數(shù)向量中該位置處的變量,利用后驗概率公式計算該位置處的變量為非零時,訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于每個類別標簽所指示類別的后驗概率。
[0138]其中,后驗概率公式為:
[0139]P (C = Ci I Xj ! = O) = P (Xj.! = O | C = Ci) P (Ci) /P (Xj ! = O)
[0140]其中,先驗概率P(Ci)為訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于第Ci類的概率;先驗概率P(Xj ! = O)為稀疏系數(shù)向量中變量為非O的概率;條件概率P(Xj ! =OlC =Ci)為在訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于第Ci類時,稀疏系數(shù)向量的變量\為非O的概率;后驗概率P (C = CiI^ ! =0)為在稀疏系數(shù)向量中變量&為非O時,訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于第Ci類的概率,1、j為大于O的自然數(shù)。
[0141]在一種可能的實施例中,該第三計算模塊412可以包括:第一計算子模塊412a、第二計算子模塊412b或第三計算子模塊412c。
[0142]該第一計算子模塊412a,被配置為將第一訓(xùn)練樣本集中的各個訓(xùn)練樣本變換為列向量,將得到的列向量依序排列成矩陣,構(gòu)成字典,利用第一公式計算得到第二訓(xùn)練樣本集中的訓(xùn)練樣本的稀疏系數(shù)向量。
[0143]或,
[0144]該第二計算子模塊412b,被配置為對于第一訓(xùn)練樣本集中的各個訓(xùn)練樣本,采用奇異值分解算法進行字典的學(xué)習(xí),得到字典,利用第一公式計算得到第二訓(xùn)練樣本集中的訓(xùn)練樣本的稀疏系數(shù)向量。
[0145]或,
[0146]該第三計算子模塊412c,被配置為根據(jù)類別對第一訓(xùn)練樣本集中各個訓(xùn)練樣本進行分組,得到至少一個訓(xùn)練樣本子集,每個訓(xùn)練樣本子集中的訓(xùn)練樣本具有相同的類別;采用奇異值分解算法分別對各個訓(xùn)練樣本子集進行字典學(xué)習(xí),得到各個訓(xùn)練樣本子集的字典;將各個訓(xùn)練樣本子集的字典級聯(lián)組成獲取的字典,利用第一公式計算得到第二訓(xùn)練樣本集中的訓(xùn)練樣本的稀疏系數(shù)向量。
[0147]在一種可能的實施例中,該第一計算模塊402被配置為利用訓(xùn)練時得到的字典以及測試數(shù)據(jù),得到測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量。
[0148]綜上所述,本公開實施例中提供的數(shù)據(jù)分類裝置,通過計算得到與測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量,根據(jù)訓(xùn)練得到的訓(xùn)練矩陣確定稀疏系數(shù)向量中的每個非零變量針對每種類別標簽的后驗概率,計算每種類別標簽所對應(yīng)的后驗概率之和,將后驗概率之和最大的類別標簽所指示的類別,確定為測試數(shù)據(jù)的類別;由于只需計算后驗概率就能確定測試數(shù)據(jù)的類別,因此解決了一般的分類方法由于需要訓(xùn)練復(fù)雜的分類器并且存在大量的模型文件,從而使得分類速度較慢的問題;達到了提高分類效率的效果。
[0149]關(guān)于上述實施例中的裝置,其中各個模塊執(zhí)行操作的具體方式已經(jīng)在有關(guān)該方法的實施例中進行了詳細描述,此處將不做詳細闡述說明。
[0150]本公開一示例性實施例提供了一種數(shù)據(jù)分類裝置,能夠?qū)崿F(xiàn)本公開提供的數(shù)據(jù)分類方法,該數(shù)據(jù)分類裝置包括:處理器、用于存儲處理器可執(zhí)行指令的存儲器;
[0151]其中,處理器被配置為:
[0152]獲取測試數(shù)據(jù),通過預(yù)定方法計算得到與測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量,稀疏系數(shù)向量是測試數(shù)據(jù)映射到訓(xùn)練得到的字典上時得到的系數(shù)向量;
[0153]對于稀疏系數(shù)向量中的每個非零變量,根據(jù)訓(xùn)練得到的訓(xùn)練矩陣確定非零變量針對每種類別標簽的后驗概率;
[0154]根據(jù)每種類別標簽所對應(yīng)的后驗概率,計算得到每種類別標簽所對應(yīng)的后驗概率之和;
[0155]將后驗概率之和最大的類別標簽所指示的類別,確定為測試數(shù)據(jù)的類別。
[0156]圖5是根據(jù)一示例性實施例示出的一種用于進行數(shù)據(jù)分類的裝置的框圖。例如,裝置500可以被提供為一服務(wù)器。參照圖5,裝置500包括處理組件502,其進一步包括一個或多個處理器,以及由存儲器504所代表的存儲器資源,用于存儲可由處理組件502的執(zhí)行的指令,例如應(yīng)用程序。存儲器504中存儲的應(yīng)用程序可以包括一個或一個以上的每一個對應(yīng)于一組指令的模塊。此外,處理組件502被配置為執(zhí)行指令,以執(zhí)行上述數(shù)據(jù)分類方法。
[0157]裝置500還可以包括一個電源組件506被配置為執(zhí)行裝置500的電源管理,一個有線或無線網(wǎng)絡(luò)接口 508被配置為將裝置500連接到網(wǎng)絡(luò),和一個輸入輸出(I/O)接口510。裝置500可以操作基于存儲在存儲器504的操作系統(tǒng),例如Windows ServerTM, MacOS XTM, UnixTM, LinuxTM, FreeBSDTM 或類似。
[0158]本領(lǐng)域技術(shù)人員在考慮說明書及實踐這里公開的發(fā)明后,將容易想到本公開的其它實施方案。本申請旨在涵蓋本公開的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本公開的一般性原理并包括本公開未公開的本【技術(shù)領(lǐng)域】中的公知常識或慣用技術(shù)手段。說明書和實施例僅被視為示例性的,本公開的真正范圍和精神由下面的權(quán)利要求指出。
[0159]應(yīng)當理解的是,本公開并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進行各種修改和改變。本公開的范圍僅由所附的權(quán)利要求來限制。
【權(quán)利要求】
1.一種數(shù)據(jù)分類方法,其特征在于,所述方法包括: 獲取測試數(shù)據(jù),通過預(yù)定方法計算得到與所述測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量,所述稀疏系數(shù)向量是所述測試數(shù)據(jù)映射到訓(xùn)練得到的字典上時得到的系數(shù)向量; 對于所述稀疏系數(shù)向量中的每個非零變量,根據(jù)訓(xùn)練得到的訓(xùn)練矩陣確定所述非零變量針對每種類別標簽的后驗概率; 根據(jù)每種類別標簽所對應(yīng)的后驗概率,計算得到每種類別標簽所對應(yīng)的后驗概率之和; 將后驗概率之和最大的類別標簽所指示的類別,確定為所述測試數(shù)據(jù)的類別。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 選取第一訓(xùn)練樣本集和第二訓(xùn)練樣本集; 利用所述第一訓(xùn)練樣本集得到所述字典,對于所述第二訓(xùn)練樣本集中的每個訓(xùn)練樣本,計算所述訓(xùn)練樣本映射到所述字典時得到的稀疏系數(shù)向量,將所述稀疏系數(shù)向量確定為訓(xùn)練稀疏系數(shù)向量; 對于每個類別標簽所指示的類別,根據(jù)各個所述訓(xùn)練稀疏系數(shù)向量中的位于同一位置的各個變量,計算所述位置處的變量為非零時,所述訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于所述類別標簽所指示類別的后驗概率; 利用各個位置的變量所對應(yīng)的后驗概率組成所述訓(xùn)練矩陣; 其中,所述訓(xùn)練矩陣中一行的數(shù)據(jù)分別為各個所述訓(xùn)練稀疏系數(shù)向量中同一個位置的變量所對應(yīng)的后驗概率,所述訓(xùn)練矩陣的每一行對應(yīng)各個所述訓(xùn)練稀疏系數(shù)向量中的一個位置的變量,每一列對應(yīng)一個類別標簽。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)各個所述訓(xùn)練稀疏系數(shù)向量中的位于同一位置的各個變量,計算所述位置處的變量為非零時,所述訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于所述類別標簽所指示類別的后驗概率,包括: 對于所述訓(xùn)練稀疏系數(shù)向量中的一個位置,獲取各個所述訓(xùn)練稀疏系數(shù)向量中所述位置處的變量,利用后驗概率公式計算所述位置處的變量為非零時,所述訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于每個類別標簽所指示類別的后驗概率; 其中,所述后驗概率公式為:
P (C = Ci I Xj ! = O) = P (χ」! = O I C = Ci) P (Ci) /P (Xj ! = O) 其中,先驗概率P(Ci)為所述訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于第Ci類的概率;先驗概率P(Xj ! = O)為所述稀疏系數(shù)向量中變量Xj為非O的概率;條件概率P(Xj !=OlC = Ci)為在所述訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于第Ci類時,所述稀疏系數(shù)向量的變量Xj為非O的概率;所述后驗概率P (C = CiIxj ! = O)為在所述稀疏系數(shù)向量中變量\為非O時,所述訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于第Ci類的概率,1、j為大于O的自然數(shù)。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述利用所述第一訓(xùn)練樣本集得到所述字典,對于所述第二訓(xùn)練樣本集中的每個訓(xùn)練樣本,計算所述訓(xùn)練樣本映射到所述字典時得到的稀疏系數(shù)向量,包括: 將所述第一訓(xùn)練樣本集中的各個訓(xùn)練樣本變換為列向量,將得到的列向量依序排列成矩陣,構(gòu)成所述字典,利用第一公式計算得到所述第二訓(xùn)練樣本集中的訓(xùn)練樣本的稀疏系數(shù)向量; 或, 對于所述第一訓(xùn)練樣本集中的各個訓(xùn)練樣本,采用奇異值分解算法進行字典的學(xué)習(xí),得到所述字典,利用所述第一公式計算得到所述第二訓(xùn)練樣本集中的訓(xùn)練樣本的稀疏系數(shù)向量; 或, 根據(jù)類別對所述第一訓(xùn)練樣本集中各個訓(xùn)練樣本進行分組,得到至少一個訓(xùn)練樣本子集,每個訓(xùn)練樣本子集中的訓(xùn)練樣本具有相同的類別;采用奇異值分解算法分別對各個訓(xùn)練樣本子集進行字典學(xué)習(xí),得到各個訓(xùn)練樣本子集的字典;將各個訓(xùn)練樣本子集的字典級聯(lián)組成獲取的所述字典,利用所述第一公式計算得到所述第二訓(xùn)練樣本集中的訓(xùn)練樣本的稀疏系數(shù)向量。 其中,所述第一公式為:min(x) |x| I!, s.t.y = Dx,所述D為字典,y為所述訓(xùn)練數(shù)據(jù),X為上述稀疏系數(shù)向量。
5.根據(jù)權(quán)利要求1至4中任一所述的方法,其特征在于,所述通過預(yù)定方法計算得到與所述測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量,包括: 利用訓(xùn)練時得到的所述字典以及所述測試數(shù)據(jù),得到所述測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量。
6.一種數(shù)據(jù)分類裝置,其特征在于,所述裝置包括: 第一計算模塊,被配置為獲取測試數(shù)據(jù),通過預(yù)定方法計算得到與所述測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量,所述稀疏系數(shù)向量是所述測試數(shù)據(jù)映射到訓(xùn)練得到的字典上時得到的系數(shù)向量; 第一確定模塊,被配置為對于所述稀疏系數(shù)向量中的每個非零變量,根據(jù)訓(xùn)練得到的訓(xùn)練矩陣確定所述非零變量針對每種類別標簽的后驗概率; 第二計算模塊,被配置為根據(jù)每種類別標簽所對應(yīng)的后驗概率,計算得到每種類別標簽所對應(yīng)的后驗概率之和; 第二確定模塊,被配置為將后驗概率之和最大的類別標簽所指示的類別,確定為所述測試數(shù)據(jù)的類別。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述裝置還包括: 選取模塊,被配置為選取第一訓(xùn)練樣本集和第二訓(xùn)練樣本集; 第三計算模塊,被配置為利用所述第一訓(xùn)練樣本集得到所述字典,對于所述第二訓(xùn)練樣本集中的每個訓(xùn)練樣本,計算所述訓(xùn)練樣本映射到所述字典時得到的稀疏系數(shù)向量,將所述稀疏系數(shù)向量確定為訓(xùn)練稀疏系數(shù)向量; 第四計算模塊,被配置為對于每個類別標簽所指示的類別,根據(jù)各個所述訓(xùn)練稀疏系數(shù)向量中的位于同一位置的各個變量,計算所述位置處的變量為非零時,所述訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于所述類別標簽所指示類別的后驗概率; 組成模塊,被配置為利用各個位置的變量所對應(yīng)的后驗概率組成所述訓(xùn)練矩陣; 其中,所述訓(xùn)練矩陣中一行的數(shù)據(jù)分別為各個所述訓(xùn)練稀疏系數(shù)向量中同一個位置的變量所對應(yīng)的后驗概率,所述訓(xùn)練矩陣的每一行對應(yīng)各個所述訓(xùn)練稀疏系數(shù)向量中的一個位置的變量,每一列對應(yīng)一個類別標簽。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于, 所述第四計算模塊,被配置為對于所述訓(xùn)練稀疏系數(shù)向量中的一個位置,獲取各個所述訓(xùn)練稀疏系數(shù)向量中所述位置處的變量,利用后驗概率公式計算所述位置處的變量為非零時,所述訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于每個類別標簽所指示類別的后驗概率; 其中,所述后驗概率公式為:
P (C = Ci I Xj ! = O) = P (χ」! = O I C = Ci) P (Ci) /P (Xj ! = O) 其中,先驗概率P(Ci)為所述訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于第Ci類的概率;先驗概率P(Xj ! = O)為所述稀疏系數(shù)向量中變量Xj為非O的概率;條件概率P(Xj !=OlC = Ci)為在所述訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于第Ci類時,所述稀疏系數(shù)向量的變量Xj為非O的概率;所述后驗概率P (C = CiIxj ! = O)為在所述稀疏系數(shù)向量中變量\為非O時,所述訓(xùn)練稀疏系數(shù)向量所對應(yīng)的訓(xùn)練樣本屬于第Ci類的概率,1、j為大于O的自然數(shù)。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第三計算模塊,包括: 第一計算子模塊,被配置為將所述第一訓(xùn)練樣本集中的各個訓(xùn)練樣本變換為列向量,將得到的列向量依序排列成矩陣,構(gòu)成所述字典,利用第一公式計算得到所述第二訓(xùn)練樣本集中的訓(xùn)練樣本的稀疏系數(shù)向量; 或, 第二計算子模塊,被配置為對于所述第一訓(xùn)練樣本集中的各個訓(xùn)練樣本,采用奇異值分解算法進行字典的學(xué)習(xí),得到所述字典,利用所述第一公式計算得到所述第二訓(xùn)練樣本集中的訓(xùn)練樣本的稀疏系數(shù)向量; 或, 第三計算子模塊,被配置為根據(jù)類別對所述第一訓(xùn)練樣本集中各個訓(xùn)練樣本進行分組,得到至少一個訓(xùn)練樣本子集,每個訓(xùn)練樣本子集中的訓(xùn)練樣本具有相同的類別;采用奇異值分解算法分別對各個訓(xùn)練樣本子集進行字典學(xué)習(xí),得到各個訓(xùn)練樣本子集的字典;將各個訓(xùn)練樣本子集的字典級聯(lián)組成獲取的所述字典,利用所述第一公式計算得到所述第二訓(xùn)練樣本集中的訓(xùn)練樣本的稀疏系數(shù)向量。 其中,所述第一公式為:min(x) |x| I1, s.t.y = Dx,所述D為字典,y為所述訓(xùn)練數(shù)據(jù),χ為上述稀疏系數(shù)向量。
10.根據(jù)權(quán)利要求1至4中任一所述的裝置,其特征在于,所述第一計算模塊被配置為利用訓(xùn)練時得到的所述字典以及所述測試數(shù)據(jù),得到所述測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量。
11.一種數(shù)據(jù)分類裝置,其特征在于,所述裝置包括: 處理器; 用于存儲所述處理器可執(zhí)行指令的存儲器; 其中,所述處理器被配置為: 獲取測試數(shù)據(jù),通過預(yù)定方法計算得到與所述測試數(shù)據(jù)對應(yīng)的稀疏系數(shù)向量,所述稀疏系數(shù)向量是所述測試數(shù)據(jù)映射到訓(xùn)練得到的字典上時得到的系數(shù)向量; 對于所述稀疏系數(shù)向量中的每個非零變量,根據(jù)訓(xùn)練得到的訓(xùn)練矩陣確定所述非零變量針對每種類別標簽的后驗概率; 根據(jù)每種類別標簽所對應(yīng)的后驗概率,計算得到每種類別標簽所對應(yīng)的后驗概率之和; 將后驗概率之和最大的類別標簽所指示的類別,確定為所述測試數(shù)據(jù)的類別。
【文檔編號】G06F17/30GK104298729SQ201410510302
【公開日】2015年1月21日 申請日期:2014年9月28日 優(yōu)先權(quán)日:2014年9月28日
【發(fā)明者】龍飛, 陳志軍, 張濤 申請人:小米科技有限責(zé)任公司