本申請涉及計算機技術(shù)領(lǐng)域,具體涉及計算機網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其涉及用于分類數(shù)據(jù)的方法和裝置。
背景技術(shù):
在處理上千億的文本數(shù)據(jù),為文本分類模型準備質(zhì)量較高的訓(xùn)練數(shù)據(jù)時,也即為無類別信息的用戶搜索query及點擊title這樣的原始數(shù)據(jù)設(shè)計學(xué)習(xí)方法時,可以為其打上相應(yīng)的類別標簽,再通過設(shè)計過濾方法及增補方法來保證各類樣本的純度及數(shù)量,從而為用戶畫像的興趣屬性分類問題,挖掘訓(xùn)練樣本,也即對用于用戶畫像的數(shù)據(jù)進行分類。
目前,對用于用戶畫像的數(shù)據(jù)進行分類的方法,可以采用人工審查的方法,或者采用編制領(lǐng)域?qū)C~匯來匹配日志的方法,抓取或過濾出各類別的樣本。
然而,目前的這種對用于用戶畫像的數(shù)據(jù)進行分類的方法,采用人工審查的方法的成本太大,而且不同的人,對類別的定義標準不穩(wěn)定;采用編制領(lǐng)域?qū)C~匯的方法,雖然由于數(shù)據(jù)量基數(shù)較大,可以在數(shù)量上得以保證,但在類別內(nèi)部的樣本多樣性上欠缺,并且指定專名的個數(shù)也較少,且不易更新。
技術(shù)實現(xiàn)要素:
本申請的目的在于提出一種改進的用于分類數(shù)據(jù)的方法和裝置,來解決以上背景技術(shù)部分提到的技術(shù)問題。
第一方面,本申請實施例提供了一種用于分類數(shù)據(jù)的方法,方法包括:采用各預(yù)定類別的初始過濾詞集合,過濾原始數(shù)據(jù),得到各預(yù)定類別的原始樣本集合;對原始樣本集合進行分類處理,得到驗證的準確率滿足閾值的更新后的樣本集合;其中,分類處理包括:對原始樣本集合進行過濾處理,得到更新后的樣本集合,對更新后的樣本集合進行驗證,得到驗證的準確率,響應(yīng)于驗證的準確率不滿足閾值,對原始樣本集合進行分類處理直至準確率滿足閾值。
在一些實施例中,對原始樣本集合進行過濾處理,得到更新后的樣本集合包括:提取原始樣本集合的表征詞集合;對表征詞集合去噪,得到更新后的過濾詞集合;響應(yīng)于原始數(shù)據(jù)命中更新后的過濾詞集合的數(shù)量超過預(yù)定數(shù)量,將原始數(shù)據(jù)添加至與更新后的過濾詞集合相對應(yīng)的更新后的樣本集合。
在一些實施例中,對原始樣本集合進行過濾處理,得到更新后的樣本集合包括:提取原始樣本集合的表征詞集合;對表征詞集合去噪,得到更新后的過濾詞集合;響應(yīng)于原始數(shù)據(jù)命中更新后的過濾詞集合的數(shù)量超過預(yù)定數(shù)量,將原始數(shù)據(jù)添加至與更新后的過濾詞集合相對應(yīng)的更新樣本集合;響應(yīng)于原始數(shù)據(jù)未命中更新后的過濾詞集合,將原始數(shù)據(jù)添加至其它類別的樣本集合;將更新樣本集合和其它類別的樣本集合,確定為更新后的樣本集合。
在一些實施例中,提取原始樣本集合的表征詞集合包括:采用以下一項或多項提取原始樣本集合的表征詞集合:文檔主題生成模型、文本關(guān)鍵詞提取算法以及詞頻-逆向文件頻率算法。
在一些實施例中,對表征詞集合去噪包括以下一項或多項:對表征詞集合去停用詞;以及對表征詞集合去與本詞相關(guān)性低于預(yù)定閾值的詞。
在一些實施例中,對更新后的樣本集合進行驗證包括:對更新后的樣本集合進行k折交叉驗證;和/或?qū)Ω潞蟮臉颖炯线M行隨機劃分訓(xùn)練集合與測試集合的驗證。
在一些實施例中,方法還包括:將驗證的準確率滿足閾值的更新后的樣本集合確定為標準樣本集合;輸出標準樣本集合。
在一些實施例中,原始數(shù)據(jù)包括:用戶搜索查詢數(shù)據(jù)和/或用戶點擊標題數(shù)據(jù)。
第二方面,本申請實施例提供了一種用于分類數(shù)據(jù)的裝置,裝置包括:初始過濾單元,用于采用各預(yù)定類別的初始過濾詞集合,過濾原始數(shù)據(jù),得到各預(yù)定類別的原始樣本集合;分類處理單元,用于對原始樣本集合進行分類處理,得到驗證的準確率滿足閾值的更新后的樣本集合;其中,分類處理包括:對原始樣本集合進行過濾處理,得到更新后的樣本集合,對更新后的樣本集合進行驗證,得到驗證的準確率,響應(yīng)于驗證的準確率不滿足閾值,對原始樣本集合進行分類處理直至準確率滿足閾值。
在一些實施例中,分類處理單元包括:第一表征詞提取單元,用于提取原始樣本集合的表征詞集合;第一表征詞去噪單元,用于對表征詞集合去噪,得到更新后的過濾詞集合;更新后樣本添加單元,用于響應(yīng)于原始數(shù)據(jù)命中更新后的過濾詞集合的數(shù)量超過預(yù)定數(shù)量,將原始數(shù)據(jù)添加至與更新后的過濾詞集合相對應(yīng)的更新后的樣本集合。
在一些實施例中,分類處理單元包括:第二表征詞提取單元,用于提取原始樣本集合的表征詞集合;第二表征詞去噪單元,用于對表征詞集合去噪,得到更新后的過濾詞集合;更新樣本確定單元,用于響應(yīng)于原始數(shù)據(jù)命中更新后的過濾詞集合的數(shù)量超過預(yù)定數(shù)量,將原始數(shù)據(jù)添加至與更新后的過濾詞集合相對應(yīng)的更新樣本集合;其它樣本確定單元,用于響應(yīng)于原始數(shù)據(jù)未命中更新后的過濾詞集合,將原始數(shù)據(jù)添加至其它類別的樣本集合;更新后樣本確定單元,用于將更新樣本集合和其它類別的樣本集合,確定為更新后的樣本集合。
在一些實施例中,第一表征詞提取單元和第二表征詞提取單元進一步用于:采用以下一項或多項提取原始樣本集合的表征詞集合:文檔主題生成模型、文本關(guān)鍵詞提取算法以及詞頻-逆向文件頻率算法。
在一些實施例中,第一表征詞去噪單元和第二表征詞去噪單元進一步用于以下一項或多項:對表征詞集合去停用詞;以及對表征詞集合去與本詞相關(guān)性低于預(yù)定閾值的詞。
在一些實施例中,分類處理單元進一步用于:對更新后的樣本集合進行k折交叉驗證;和/或?qū)Ω潞蟮臉颖炯线M行隨機劃分訓(xùn)練集合與測試集合的驗證。
在一些實施例中,裝置還包括:標準樣本確定單元,用于將驗證的準確率滿足閾值的更新后的樣本集合確定為標準樣本集合;標準樣本輸出單元,用于輸出標準樣本集合。
在一些實施例中,初始過濾單元中的原始數(shù)據(jù)包括:用戶搜索查詢數(shù)據(jù)和/或用戶點擊標題數(shù)據(jù)。
第三方面,本申請實施例提供了一種設(shè)備,包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序;當一個或多個程序被一個或多個處理器執(zhí)行,使得一個或多個處理器實現(xiàn)如上任意一項用于分類數(shù)據(jù)的方法。
第四方面,本申請實施例提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)如上任意一項用于分類數(shù)據(jù)的方法。
本申請上述實施例提供的用于分類數(shù)據(jù)的方法和裝置,首先采用各預(yù)定類別的初始過濾詞集合,過濾原始數(shù)據(jù),得到各預(yù)定類別的原始樣本集合;對原始樣本集合進行分類處理,得到驗證的準確率滿足閾值的更新后的樣本集合;其中,分類處理包括:對原始樣本集合進行過濾處理,得到更新后的樣本集合,對更新后的樣本集合進行驗證,得到驗證的準確率,響應(yīng)于驗證的準確率不滿足閾值,對原始樣本集合進行分類處理直至準確率滿足閾值。上述實施例可以人工干預(yù)初始過濾詞集合,并對基于初始過濾詞集合得到的原始樣本集合提取表征詞,得到更新后的過濾詞集合,基于更新后的過濾詞集合得到更新后的樣本集合,并對驗證的準確率不滿足閾值的更新后的樣本集合進行迭代,從而自動的學(xué)習(xí)計算出準確率滿足閾值的更新后的樣本集合,提高了更新后的樣本集合的準確率,增強了對于未知樣本的分類能力,又由于類別內(nèi)部的樣本多樣性好,并且更新后的過濾詞集合可以迭代更新,因此分類數(shù)據(jù)所采用的過濾詞的個數(shù)較多且更新性良好。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它特征、目的和優(yōu)點將會變得更明顯:
圖1是根據(jù)本申請的用于分類數(shù)據(jù)的方法的一個實施例的示意性流程圖;
圖2是根據(jù)本申請實施例的用于分類數(shù)據(jù)的方法的一個應(yīng)用場景的示例性流程圖;
圖3是根據(jù)本申請的用于分類數(shù)據(jù)的裝置的一個實施例的示例性結(jié)構(gòu)圖;
圖4是適于用來實現(xiàn)本申請實施例的終端設(shè)備或服務(wù)器的計算機系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施方式
下面結(jié)合附圖和實施例對本申請作進一步的詳細說明??梢岳斫獾氖牵颂幩枋龅木唧w實施例僅僅用于解釋相關(guān)發(fā)明,而非對該發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與有關(guān)發(fā)明相關(guān)的部分。
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結(jié)合實施例來詳細說明本申請。
圖1示出了根據(jù)本申請的用于分類數(shù)據(jù)的方法的一個實施例的流程100。該用于分類數(shù)據(jù)的方法包括:
在步驟110中,采用各預(yù)定類別的初始過濾詞集合,過濾原始數(shù)據(jù),得到各預(yù)定類別的原始樣本集合。
在本實施例中,每一個預(yù)定類別對應(yīng)一個初始過濾詞集合,該初始過濾詞集合中包括預(yù)定數(shù)量的初始過濾詞。原始數(shù)據(jù)是指未經(jīng)處理的用戶交互文檔數(shù)據(jù),例如用戶搜索查詢數(shù)據(jù)和/或用戶點擊標題數(shù)據(jù)。在采用各預(yù)定類別的初始過濾詞集合過濾原始數(shù)據(jù)時,可以判斷原始數(shù)據(jù)是否命中各預(yù)定類別的初始過濾詞,若原始數(shù)據(jù)命中某一預(yù)定類別的初始過濾詞,那么將該原始數(shù)據(jù)分類至這一預(yù)定類別。
示例性的,可以定義用戶的興趣類別作為預(yù)定類別,例如可以定義31個預(yù)定類別,包括汽車、餐飲美食、旅游出行等。可以為每個類別指定一定數(shù)量的初始過濾詞作為本類別區(qū)別于其它類別的標識,原始數(shù)據(jù)命中一個初始過濾詞,即可判定原始數(shù)據(jù)所屬類別。這里初始過濾詞的數(shù)量可以根據(jù)用戶需要設(shè)定,數(shù)量越多越好。例如可以設(shè)定為20個,為旅游出行類可指定的初始過濾詞可以包括:自駕游,一日游,旅游攻略,xx潭,y國旅游,周邊游等。在采用初始過濾詞集合過濾原始數(shù)據(jù)時,可以準備海量(例如千億數(shù)量級)用戶的搜索查詢(query)及點擊標題(title)數(shù)據(jù)。在這批原始數(shù)據(jù)中用準備好的31個類別的初始過濾詞集合過濾,并判斷為其所屬類別。即可得到帶標簽的原始樣本集合。
在步驟120中,對原始樣本集合進行分類處理,得到驗證的準確率滿足閾值的更新后的樣本集合。
在本實施例中,分類處理可以包括:對原始樣本集合進行過濾處理,得到更新后的樣本集合,對更新后的樣本集合進行驗證,得到驗證的準確率,響應(yīng)于驗證的準確率不滿足閾值,對原始樣本集合進行分類處理直至準確率滿足閾值。
在對原始樣本集合進行過濾處理,得到更新后的樣本集合時,可以提取原始樣本集合的表征詞集合,對表征詞集合去噪,得到預(yù)設(shè)數(shù)量的更新后的過濾詞集合,并且響應(yīng)于原始數(shù)據(jù)命中更新后的過濾詞集合的數(shù)量超過預(yù)定數(shù)量,可以通過以下任意一種方式得到更新后的樣本集合:第一種,是直接將原始數(shù)據(jù)添加至與更新后的過濾詞集合相對應(yīng)的更新后的樣本集合;第二種,是將原始數(shù)據(jù)添加至與更新后的過濾詞集合相對應(yīng)的更新樣本集合,并且響應(yīng)于原始數(shù)據(jù)未命中更新后的過濾詞集合,將原始數(shù)據(jù)添加至其它類別的樣本集合,并將更新樣本集合和其它類別的樣本集合,確定為更新后的樣本集合。
在提取原始樣本集合的表征詞時,可以采用一些提取文檔關(guān)鍵詞的算法來完成提取,例如,采用文檔主題生成模型(lda)、文本關(guān)鍵詞(textrank)提取算法、詞頻-逆文檔頻率算法(tf-idf)等,來提取原始樣本集合的表征詞集合。
例如,在原始樣本集合的樣本內(nèi),采用lda和textrank算法來計算本類別的帶權(quán)重的表征詞,從而可以用這些表征詞來代表該類別。對每個類別計算而得的表征詞進行一些去噪操作,如去停用詞中及一些與本詞相關(guān)性不是很強的詞,從而得到預(yù)設(shè)數(shù)量的更新后的過濾詞集合,更新后的過濾詞集合會比初始過濾詞集合的數(shù)量多很多,但缺點在于不像初始過濾詞集合那樣可通過是否出現(xiàn)一個初始過濾詞集合中的詞即可判定是否原始數(shù)據(jù)所屬類別,這里需要設(shè)定一個預(yù)定數(shù)量n(n為大于0的整數(shù)),用更新后的過濾詞集合來過濾原始數(shù)據(jù),每條原始數(shù)據(jù)要出現(xiàn)至少n個更新后的過濾詞集合中的詞,才算命中,即可選中該原始數(shù)據(jù)作為更新后的過濾詞集合所代表的類別的所屬樣本,并基于此得到更新后的樣本集合。在這里,若原始數(shù)據(jù)未命中每個類別的更新后的過濾詞集合,即可認為該原始數(shù)據(jù)為其它類別的樣本,得到其它類別的樣本集合。
在這里,驗證的方法可以為對更新后的樣本集合的準確率進行驗證的方法,例如,驗證的方法可以為對更新后的樣本集合進行k折交叉驗證的方法,備選地或附加地,驗證的方法可以為對更新后的樣本集合進行隨機劃分訓(xùn)練集合與測試集合的驗證的方法。
以k折交叉驗證中的5折交叉驗證為例,也即對于更新后的樣本集合,可以將其分為5份(每份包含20%的樣本),每次將其中的4份作為訓(xùn)練樣本,1份作為測試樣本做一次測試,直到5種訓(xùn)練樣本與測試樣本的排列均做了一次測試,并計算測試結(jié)果的平均值作為驗證的準確率。若準確率達到要求,可完成無監(jiān)督的樣本學(xué)習(xí),若不滿足,則需要迭代上述的分類處理步驟至樣本類別收斂為止。
可選地,在步驟130中,可以將驗證的準確率滿足閾值的更新后的樣本集合確定為標準樣本集合。
可選地,對應(yīng)步驟130,在步驟140中,可以輸出標準樣本集合。
在本實施例中,在將驗證的準確率滿足閾值的更新后的樣本集合確定為標準樣本集合之后,可以輸出該標準樣本集合,以備后續(xù)的用戶畫像的興趣屬性分類使用。
本申請的上述實施例提供的用于分類數(shù)據(jù)的方法,可以人工干預(yù)類別初始詞,可以自動的學(xué)習(xí)計算出更新后的過濾詞集合并且可以迭代進行,可以人工設(shè)置各類別需要共現(xiàn)的詞匯的數(shù)量,準確率滿足閾值的更新后的樣本集合的準確度高,數(shù)據(jù)分類的準確度較高,對于未知樣本的分類能力較好。又由于類別內(nèi)部的樣本多樣性好,并且更新后的過濾詞集合可以迭代更新,因此分類數(shù)據(jù)所采用的過濾詞的個數(shù)較多且更新性良好。
以下結(jié)合圖2,描述本申請實施例的用于分類數(shù)據(jù)的方法的示例性應(yīng)用場景。
如圖2所示,圖2示出了根據(jù)本申請實施例的用于分類數(shù)據(jù)的方法的一個應(yīng)用場景的示例性流程圖。
在圖2所示的流程圖中,包括以下步驟:
首先,對于原始數(shù)據(jù)201,采用初始過濾詞集合202進行過濾,可以得到原始樣本集合203;
之后,對于原始樣本集合203,可以在步驟204中提取表征詞集合;
之后,可以在步驟205中對表征詞集合去噪,得到更新后的過濾詞集合206;
之后,可以在步驟207中采用更新后的過濾詞集合206對原始數(shù)據(jù)201進行過濾,并判斷每條原始數(shù)據(jù)是否命中某類別的n個更新后的過濾詞,若是,則得到更新后的初始樣本集合208;
之后,可以在步驟209中,對初始樣本集合208中的詞去重,對于去重后的更新后的初始樣本集合,可以先將其作為更新樣本集合210,并在步驟211中,采用原始數(shù)據(jù)201對更新后的過濾詞集合206進行反過濾;
之后,在步驟212中,若反過濾的結(jié)果為原始數(shù)據(jù)201未命中更新后的過濾詞集合206,將原始數(shù)據(jù)添加至其它樣本集合,并將更新樣本集合210以及其它樣本集合作為更新后的樣本集合213;
應(yīng)當理解,作為經(jīng)由步驟210、211及212確定更新后的樣本集合213的備選方案,還可以直接將步驟209中去重后的更新后的初始樣本集合直接作為更新后的樣本集合213;
之后,在步驟214中,對更新后的樣本集合213進行穩(wěn)定性測試,若穩(wěn)定性測試通過,將更新后的樣本集合213作為標準測試集合,若穩(wěn)定性測試不通過,則跳轉(zhuǎn)至執(zhí)行步驟204。
本申請的上述應(yīng)用場景中提供的用于分類數(shù)據(jù)的方法,可以基于主體觀點對提供評論內(nèi)容以及評論情感,可以人工干預(yù)初始過濾詞,并對準確率不滿足閾值的更新后的樣本集合進行迭代過濾,并且可以人工設(shè)置迭代過濾時各類別需要共現(xiàn)的詞匯的數(shù)量,從而可以自動的學(xué)習(xí)計算出準確率滿足閾值的更新后的樣本集合,提高了更新后的樣本集合的準確率,并且增強了對于未知樣本的分類能力。又由于類別內(nèi)部的樣本多樣性好,并且更新后的過濾詞集合可以迭代更新,因此分類數(shù)據(jù)所采用的過濾詞的個數(shù)較多且更新性良好。
進一步參考圖3,作為對上述方法的實現(xiàn),本申請實施例提供了一種用于分類數(shù)據(jù)的裝置的一個實施例,該用于分類數(shù)據(jù)的方法的實施例與圖1至圖2所示的用于分類數(shù)據(jù)的方法的實施例相對應(yīng),由此,上文針對圖1至圖2中用于分類數(shù)據(jù)的方法描述的操作和特征同樣適用于用于分類數(shù)據(jù)的裝置300及其中包含的單元,在此不再贅述。
如圖3所示,該配置用于分類數(shù)據(jù)的裝置300包括:初始過濾單元310,用于采用各預(yù)定類別的初始過濾詞集合,過濾原始數(shù)據(jù),得到各預(yù)定類別的原始樣本集合;分類處理單元320,用于對原始樣本集合進行分類處理,得到驗證的準確率滿足閾值的更新后的樣本集合;其中,分類處理包括:對原始樣本集合進行過濾處理,得到更新后的樣本集合,對更新后的樣本集合進行驗證,得到驗證的準確率,響應(yīng)于驗證的準確率不滿足閾值,對原始樣本集合進行分類處理直至準確率滿足閾值。
在本實施例的一些可選實現(xiàn)方式中(圖中未示出),分類處理單元310包括:第一表征詞提取單元,用于提取原始樣本集合的表征詞集合;第一表征詞去噪單元,用于對表征詞集合去噪,得到更新后的過濾詞集合;更新后樣本添加單元,用于響應(yīng)于原始數(shù)據(jù)命中更新后的過濾詞集合的數(shù)量超過預(yù)定數(shù)量,將原始數(shù)據(jù)添加至與更新后的過濾詞集合相對應(yīng)的更新后的樣本集合。
在本實施例的一些可選實現(xiàn)方式中(圖中未示出),分類處理單元310包括:第二表征詞提取單元,用于提取原始樣本集合的表征詞集合;第二表征詞去噪單元,用于對表征詞集合去噪,得到更新后的過濾詞集合;更新樣本確定單元,用于響應(yīng)于原始數(shù)據(jù)命中更新后的過濾詞集合的數(shù)量超過預(yù)定數(shù)量,將原始數(shù)據(jù)添加至與更新后的過濾詞集合相對應(yīng)的更新樣本集合;其它樣本確定單元,用于響應(yīng)于原始數(shù)據(jù)未命中更新后的過濾詞集合,將原始數(shù)據(jù)添加至其它類別的樣本集合;更新后樣本確定單元,用于將更新樣本集合和其它類別的樣本集合,確定為更新后的樣本集合。
在本實施例的一些可選實現(xiàn)方式中,第一表征詞提取單元和第二表征詞提取單元進一步用于:采用以下一項或多項提取原始樣本集合的表征詞集合:文檔主題生成模型、文本關(guān)鍵詞提取算法以及詞頻-逆向文件頻率算法。
在本實施例的一些可選實現(xiàn)方式中,第一表征詞去噪單元和第二表征詞去噪單元進一步用于以下一項或多項:對表征詞集合去停用詞;以及對表征詞集合去與本詞相關(guān)性低于預(yù)定閾值的詞。
在本實施例的一些可選實現(xiàn)方式中,分類處理單元進一步用于:對更新后的樣本集合進行k折交叉驗證;和/或?qū)Ω潞蟮臉颖炯线M行隨機劃分訓(xùn)練集合與測試集合的驗證。
在本實施例的一些可選實現(xiàn)方式中,裝置還包括:標準樣本確定單元330,用于將驗證的準確率滿足閾值的更新后的樣本集合確定為標準樣本集合;標準樣本輸出單元340,用于輸出標準樣本集合。
在本實施例的一些可選實現(xiàn)方式中,初始過濾單元中的原始數(shù)據(jù)包括:用戶搜索查詢數(shù)據(jù)和/或用戶點擊標題數(shù)據(jù)。
在本申請的上述實施例中,第一表征詞提取單元和第二表征詞提取單元僅代表在兩個不同的實現(xiàn)方式中的表征詞提取單元,這兩個表征詞提取單元所作的操作以及提取的內(nèi)容相同。本領(lǐng)域技術(shù)人員應(yīng)當理解,其中的第一或第二并不構(gòu)成對表征詞提取單元的特殊限定。
同理,在在本申請的上述實施例中,第一表征詞去噪單元和第二表征詞去噪單元僅代表在兩個不同的實現(xiàn)方式中的表征詞去噪單元,這兩個表征詞去噪單元所完成的操作以及得到的更新后的過濾詞集合相同。本領(lǐng)域技術(shù)人員應(yīng)當理解,其中的第一或第二并不構(gòu)成對表征詞去噪單元的特殊限定。
本申請還提供了一種設(shè)備的實施例,包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序;當一個或多個程序被一個或多個處理器執(zhí)行,使得一個或多個處理器實現(xiàn)如上任意一項所述的用于分類數(shù)據(jù)的方法。
本申請還提供了一種計算機可讀存儲介質(zhì)的實施例,其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)如上任意一項所述的用于分類數(shù)據(jù)的方法。
下面參考圖4,其示出了適于用來實現(xiàn)本申請實施例的終端設(shè)備或服務(wù)器的計算機系統(tǒng)400的結(jié)構(gòu)示意圖。圖4示出的終端設(shè)備僅僅是一個示例,不應(yīng)對本申請實施例的功能和使用范圍帶來任何限制。
如圖4所示,計算機系統(tǒng)400包括中央處理單元(cpu)401,其可以根據(jù)存儲在只讀存儲器(rom)402中的程序或者從存儲部分408加載到隨機訪問存儲器(ram)403中的程序而執(zhí)行各種適當?shù)膭幼骱吞幚怼T趓am403中,還存儲有系統(tǒng)400操作所需的各種程序和數(shù)據(jù)。cpu401、rom402以及ram403通過總線404彼此相連。輸入/輸出(i/o)接口405也連接至總線404。
以下部件連接至i/o接口405:包括鍵盤、鼠標等的輸入部分406;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚聲器等的輸出部分407;包括硬盤等的存儲部分408;以及包括諸如lan卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分409。通信部分409經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器410也根據(jù)需要連接至i/o接口405。可拆卸介質(zhì)411,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等,根據(jù)需要安裝在驅(qū)動器410上,以便于從其上讀出的計算機程序根據(jù)需要被安裝入存儲部分408。
特別地,根據(jù)本公開的實施例,上文參考流程圖描述的過程可以被實現(xiàn)為計算機軟件程序。例如,本公開的實施例包括一種計算機程序產(chǎn)品,其包括承載在計算機可讀介質(zhì)上的計算機程序,所述計算機程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實施例中,該計算機程序可以通過通信部分409從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)411被安裝。在該計算機程序被中央處理單元(cpu)401執(zhí)行時,執(zhí)行本申請的方法中限定的上述功能。
需要說明的是,本申請所述的計算機可讀介質(zhì)可以是計算機可讀信號介質(zhì)或者計算機可讀存儲介質(zhì)或者是上述兩者的任意組合。計算機可讀存儲介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機可讀存儲介質(zhì)的更具體的例子可以包括但不限于:具有一個或多個導(dǎo)線的電連接、便攜式計算機磁盤、硬盤、隨機訪問存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本申請中,計算機可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。而在本申請中,計算機可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質(zhì)還可以是計算機可讀存儲介質(zhì)以外的任何計算機可讀介質(zhì),該計算機可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。計算機可讀介質(zhì)上包含的程序代碼可以用任何適當?shù)慕橘|(zhì)傳輸,包括但不限于:無線、電線、光纜、rf等等,或者上述的任意合適的組合。
附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個單元、程序段、或代碼的一部分,所述單元、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當注意,在有些作為替換的實現(xiàn)中,方框中所標注的功能也可以以不同于附圖中所標注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。
描述于本申請實施例中所涉及到的單元可以通過軟件的方式實現(xiàn),也可以通過硬件的方式來實現(xiàn)。所描述的單元也可以設(shè)置在處理器中,例如,可以描述為:一種處理器包括初始過濾單元和分類處理單元。其中,這些單元的名稱在某種情況下并不構(gòu)成對該單元本身的限定,例如,初始過濾單元還可以被描述為“采用各預(yù)定類別的初始過濾詞集合,過濾原始數(shù)據(jù),得到各預(yù)定類別的原始樣本集合的單元”。
作為另一方面,本申請還提供了一種非易失性計算機存儲介質(zhì),該非易失性計算機存儲介質(zhì)可以是上述實施例中所述裝置中所包含的非易失性計算機存儲介質(zhì);也可以是單獨存在,未裝配入終端中的非易失性計算機存儲介質(zhì)。上述非易失性計算機存儲介質(zhì)存儲有一個或者多個程序,當所述一個或者多個程序被一個設(shè)備執(zhí)行時,使得所述設(shè)備:采用各預(yù)定類別的初始過濾詞集合,過濾原始數(shù)據(jù),得到各預(yù)定類別的原始樣本集合;對原始樣本集合進行分類處理,得到驗證的準確率滿足閾值的更新后的樣本集合。
以上描述僅為本申請的較佳實施例以及對所運用技術(shù)原理的說明。本領(lǐng)域技術(shù)人員應(yīng)當理解,本申請中所涉及的發(fā)明范圍,并不限于上述技術(shù)特征的特定組合而成的技術(shù)方案,同時也應(yīng)涵蓋在不脫離上述發(fā)明構(gòu)思的情況下,由上述技術(shù)特征或其等同特征進行任意組合而形成的其它技術(shù)方案。例如上述特征與本申請中公開的(但不限于)具有類似功能的技術(shù)特征進行互相替換而形成的技術(shù)方案。