一種數(shù)據(jù)分類(lèi)的方法及裝置制造方法
【專利摘要】本發(fā)明實(shí)施例公開(kāi)了一種數(shù)據(jù)分類(lèi)的方法及裝置,所述方法通過(guò)預(yù)先定義分類(lèi)的沖突處理規(guī)則,解決分類(lèi)中有沖突的數(shù)據(jù),得到有效數(shù)據(jù),從而得到無(wú)歧義、無(wú)沖突的數(shù)據(jù);并使用常用詞表,篩選有效數(shù)據(jù)得到搭配詞表,根據(jù)所述搭配詞表形成概率矩陣,從而避免出現(xiàn)數(shù)據(jù)稀疏的情況。
【專利說(shuō)明】一種數(shù)據(jù)分類(lèi)的方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)分析處理領(lǐng)域,尤其涉及到一種數(shù)據(jù)分類(lèi)的方法及裝置。
【背景技術(shù)】
[0002] 實(shí)際工作中很多記錄都是由人工記錄的,屬于超短文本,其中很多記錄可能會(huì)出 現(xiàn)描述前后不一致的情況。比如,在同一超短文本中,某些字段中寫(xiě)的故障原因是焊接,但 是在某些字段又說(shuō)明是雷擊造成故障。如果在這種數(shù)據(jù)質(zhì)量不好的情況下進(jìn)行數(shù)據(jù)挖掘, 會(huì)大大降低分析的準(zhǔn)確度,所以有必要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,對(duì)數(shù)據(jù)按照故障原因分為幾類(lèi), 通過(guò)分類(lèi)方法解決問(wèn)題。
[0003] IFIDF分類(lèi)方法的主要思想是如果某個(gè)詞或者短語(yǔ)在同一超短文本中出現(xiàn)的頻 率IF高,并且在其他超短文本中很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)具有很好的類(lèi)別區(qū)分能 力,適合用來(lái)分類(lèi)。IFIDF實(shí)際是IF*IDF,IF是詞頻(Term Frequency), IDF是反文檔頻率 (Inverse Document Frequency), IF表示詞條在超短文本中出現(xiàn)的頻率,IDF表示詞條在本 超短文本和其他超短文本的對(duì)比結(jié)果,當(dāng)詞條在本超短文本出現(xiàn)頻率越高,但在其他超短 文本出現(xiàn)頻率越低時(shí),說(shuō)明所述詞條具有很好的類(lèi)別區(qū)分能力,則所述詞條在本超短文本 的IDF值越大。IFIDF分類(lèi)方法的缺點(diǎn)是沒(méi)有考慮分類(lèi)和分類(lèi)之間的關(guān)系;分類(lèi)與分類(lèi)之 間存在交集,對(duì)于交集的超短文本沒(méi)有做特別的處理;超短文本命中的準(zhǔn)確率較低;只體 現(xiàn)一個(gè)詞和分類(lèi)的關(guān)系,沒(méi)有體現(xiàn)多個(gè)詞搭配出現(xiàn)時(shí)和分類(lèi)的關(guān)系。
[0004] N元文法分類(lèi)方法的主要思路是詞條的概率是由一組特定的詞構(gòu)成的序列決定 的,稱為所述詞條的歷史(history)。N元文法是大詞匯連續(xù)出現(xiàn)時(shí)常用的一種語(yǔ)言模型, 該模型基于這樣一種假設(shè),第N個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),而與其他任何詞都不 相關(guān),整句的概率就是各個(gè)詞出現(xiàn)的概率的乘積,而這些概率可以通過(guò)直接從語(yǔ)料中統(tǒng)計(jì)N 個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到,常用的是二元文法和三元文法。N元文法的缺點(diǎn)是當(dāng)由4個(gè)以 上的詞構(gòu)成序列的情況下,超短文本中數(shù)據(jù)稀疏非常嚴(yán)重,基本上N元文法沒(méi)辦法使用;同 時(shí),序列需要重新訓(xùn)練語(yǔ)言模型,由人工標(biāo)注,工作量比較大。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明提供了一種數(shù)據(jù)分類(lèi)的方法及裝置,所述方法旨在解決分類(lèi)時(shí)數(shù)據(jù)沖突及 數(shù)據(jù)稀疏的問(wèn)題。
[0006] 第一方面,一種數(shù)據(jù)分類(lèi)的方法,所述方法包括:
[0007] 對(duì)數(shù)據(jù)進(jìn)行分詞、去停頓詞的處理;
[0008] 對(duì)處理后的數(shù)據(jù)做詞頻統(tǒng)計(jì),將所述處理后的數(shù)據(jù)中的詞按照詞頻由大到小排 序,根據(jù)預(yù)先設(shè)置的常用詞的取詞范圍,在所述取詞范圍中選取常用詞生成常用詞表;
[0009] 將所述處理后的數(shù)據(jù)進(jìn)行分類(lèi),分類(lèi)后的所述處理后的數(shù)據(jù)所屬的類(lèi)別之間的關(guān) 系是不沖突或者沖突;
[0010] 預(yù)先定義沖突處理規(guī)則,當(dāng)同一處理后的數(shù)據(jù)所屬的類(lèi)別之間的關(guān)系有沖突時(shí), 根據(jù)所述沖突處理規(guī)則得到有效數(shù)據(jù),使得所述有效數(shù)據(jù)所屬的類(lèi)別不沖突;
[0011] 根據(jù)所述常用詞表,篩選所述有效數(shù)據(jù)得到搭配詞表,所述搭配詞表包括常用詞 和常用詞組合;
[0012] 統(tǒng)計(jì)每一分類(lèi)中的有效數(shù)據(jù)中出現(xiàn)所述搭配詞表中常用詞或者常用詞組合的次 數(shù);
[0013] 根據(jù)所述常用詞或者常用詞組合在每一分類(lèi)中的次數(shù)和所有分類(lèi)中的次數(shù),對(duì)每 一分類(lèi)中的常用詞或者常用詞組合進(jìn)行歸一化,形成概率矩陣;
[0014] 根據(jù)所述概率矩陣對(duì)數(shù)據(jù)進(jìn)行分類(lèi)。
[0015] 結(jié)合第一方面,在第一方面的第一種可能的實(shí)現(xiàn)方式中,所述預(yù)先定義沖突處理 規(guī)則,包括:
[0016] 當(dāng)對(duì)所述處理后的數(shù)據(jù)進(jìn)行分類(lèi)后,所述處理后的數(shù)據(jù)同時(shí)屬于A類(lèi)和B類(lèi)時(shí),當(dāng) A類(lèi)和B類(lèi)不沖突時(shí),則標(biāo)識(shí)所述處理后的數(shù)據(jù)不沖突,所述處理后的數(shù)據(jù)同時(shí)屬于A類(lèi)和 B類(lèi);
[0017] 當(dāng)A類(lèi)和B類(lèi)互相沖突時(shí),則標(biāo)識(shí)所述處理后的數(shù)據(jù)不沖突,所述處理后的數(shù)據(jù)屬 于A類(lèi);
[0018] 或者當(dāng)A類(lèi)和B類(lèi)互相沖突時(shí),則標(biāo)識(shí)所述處理后的數(shù)據(jù)不沖突,所述處理后的數(shù) 據(jù)屬于B類(lèi);
[0019] 當(dāng)A類(lèi)和B類(lèi)互相沖突時(shí),且沒(méi)有沖突處理規(guī)則解決所述A類(lèi)和B類(lèi)的沖突時(shí),則 標(biāo)識(shí)所述處理后的數(shù)據(jù)沖突。
[0020] 結(jié)合第一方面的第一種可能的實(shí)現(xiàn)方式,在第一方面的第二種可能的實(shí)現(xiàn)方式 中,所述根據(jù)所述沖突處理規(guī)則得到有效數(shù)據(jù),包括:
[0021] 當(dāng)對(duì)所述處理后的數(shù)據(jù)進(jìn)行分類(lèi)后,所述處理后的數(shù)據(jù)屬于某一個(gè)分類(lèi)時(shí),則標(biāo) 識(shí)所述處理后的數(shù)據(jù)不沖突,所述處理后的數(shù)據(jù)屬于所述某一個(gè)分類(lèi);
[0022] 當(dāng)所述處理后的數(shù)據(jù)同時(shí)屬于兩個(gè)沖突的分類(lèi)時(shí),則根據(jù)所述沖突處理規(guī)則,得 到有效數(shù)據(jù);
[0023] 當(dāng)所述處理后的數(shù)據(jù)同時(shí)屬于兩個(gè)以上的分類(lèi)時(shí),則根據(jù)所述沖突處理規(guī)則化簡(jiǎn) 所述兩個(gè)以上的分類(lèi)集合;
[0024] 對(duì)化簡(jiǎn)后的分類(lèi)集合,根據(jù)所述沖突處理規(guī)則中當(dāng)A類(lèi)和B類(lèi)相互沖突時(shí),且沒(méi)有 沖突處理規(guī)則解決A類(lèi)和B類(lèi)的沖突時(shí),標(biāo)識(shí)所述處理后的數(shù)據(jù)為沖突。
[0025] 結(jié)合第一方面的第二種可能的實(shí)現(xiàn)方式,在第一方面的第三種可能的實(shí)現(xiàn)方式 中,所述根據(jù)所述沖突處理規(guī)則化簡(jiǎn)所述兩個(gè)以上的分類(lèi)集合,包括:
[0026] 當(dāng)所述兩個(gè)以上的分類(lèi)集合中A類(lèi)和B類(lèi)不沖突時(shí),將A類(lèi)和B類(lèi)化簡(jiǎn)為同一類(lèi);
[0027] 當(dāng)所述兩個(gè)以上的分類(lèi)集合中A類(lèi)和B類(lèi)互相沖突時(shí)以A類(lèi)為準(zhǔn),將A類(lèi)和B類(lèi) 化簡(jiǎn)為A類(lèi);
[0028] 當(dāng)所述兩個(gè)以上的分類(lèi)集合中A類(lèi)和B類(lèi)互相沖突時(shí)以B類(lèi)為準(zhǔn),將A類(lèi)和B類(lèi) 化簡(jiǎn)為B類(lèi)。
[0029] 結(jié)合第一方面或者第一方面的第一種可能的實(shí)現(xiàn)方式或者第一方面的第二種可 能的實(shí)現(xiàn)方式或者第一方面的第三種可能的實(shí)現(xiàn)方式,在第一方面的第四種可能的實(shí)現(xiàn)方 式中,所述根據(jù)所述常用詞表,篩選所述有效數(shù)據(jù)得到搭配詞表,包括:
[0030] 根據(jù)所述常用詞表,篩選所述有效數(shù)據(jù)得到所述常用詞表中的詞,當(dāng)所述常用詞 表中的同一個(gè)詞出現(xiàn)多次時(shí),僅按照一次處理,當(dāng)篩選后的詞少于等于3時(shí),得到所述有效 數(shù)據(jù)的常用詞組合,所述常用詞組合中對(duì)有效數(shù)據(jù)中的詞的順序不做限制;
[0031] 對(duì)所有有效數(shù)據(jù)做篩選后,將所述篩選后的詞和所述常用詞組合形成搭配詞表。
[0032] 結(jié)合第一方面的第四種可能的實(shí)現(xiàn)方式,在第一方面的第五種可能的實(shí)現(xiàn)方式 中,所述統(tǒng)計(jì)每一分類(lèi)中的有效數(shù)據(jù)中出現(xiàn)所述搭配詞表中常用詞或者常用詞組合的次 數(shù),包括:
[0033] 統(tǒng)計(jì)每一分類(lèi)中的所有有效數(shù)據(jù)中出現(xiàn)所述搭配詞表中常用詞或者常用詞組合 的次數(shù);
[0034] 統(tǒng)計(jì)所有分類(lèi)中的所有有效數(shù)據(jù)中出現(xiàn)所述搭配詞表中常用詞或者常用詞組合 的次數(shù)。
[0035] 結(jié)合第一方面的第五種可能的實(shí)現(xiàn)方式,在第一方面的第六種可能的實(shí)現(xiàn)方式 中,所述根據(jù)所述常用詞或者常用詞組合在每一分類(lèi)中的次數(shù)和所有分類(lèi)中的次數(shù),對(duì)每 一分類(lèi)中的常用詞或者常用詞組合進(jìn)行歸一化,形成概率矩陣,包括:
[0036] 將所有分類(lèi)作為列,將所述搭配詞表中常用詞或者常用詞組合在每一列下出現(xiàn)的 次數(shù)作為行,形成矩陣;
[0037] 根據(jù)所述矩陣,將所述矩陣中每一行在每一列的次數(shù)除以所述每一行在所有列的 總次數(shù),得到每一行在每一列的概率,形成概率矩陣。
[0038] 結(jié)合第一方面或者第一方面的第一種可能的實(shí)現(xiàn)方式或者第一方面的第二種可 能的實(shí)現(xiàn)方式或者第一方面的第三種可能的實(shí)現(xiàn)方式或者第一方面的第四種可能的實(shí)現(xiàn) 方式或者第一方面的第五種可能的實(shí)現(xiàn)方式或者第一方面的第六種可能的實(shí)現(xiàn)方式,在第 一方面的第七種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述概率矩陣對(duì)數(shù)據(jù)進(jìn)行分類(lèi),包括:
[0039] 在所述概率矩陣中找到數(shù)據(jù)篩選后得到的最長(zhǎng)的常用詞組合在每一列的概率;
[0040] 將概率最大的列對(duì)應(yīng)的類(lèi)別作為所述數(shù)據(jù)的類(lèi)別。
[0041] 第二方面,一種數(shù)據(jù)分類(lèi)的裝置,所述裝置包括:
[0042] 處理單元,用于對(duì)數(shù)據(jù)進(jìn)行分詞、去停頓詞的處理;
[0043] 第一統(tǒng)計(jì)單元,用于對(duì)處理后的數(shù)據(jù)做詞頻統(tǒng)計(jì),將所述處理后的數(shù)據(jù)中的詞按 照詞頻由大到小排序,根據(jù)預(yù)先設(shè)置的常用詞的取詞范圍,在所述取詞范圍中選取常用詞 生成常用詞表;
[0044] 第一分類(lèi)單元,用于將所述處理后的數(shù)據(jù)進(jìn)行分類(lèi),分類(lèi)后的所述處理后的數(shù)據(jù) 所屬的類(lèi)別之間的關(guān)系是不沖突或者沖突;
[0045] 解決沖突單元,用于預(yù)先定義沖突處理規(guī)則,當(dāng)同一處理后的數(shù)據(jù)所屬的類(lèi)別之 間的關(guān)系有沖突時(shí),根據(jù)所述沖突處理規(guī)則得到有效數(shù)據(jù),使得所述有效數(shù)據(jù)所屬的類(lèi)別 不沖突;
[0046] 篩選單元,用于根據(jù)所述常用詞表,篩選所述有效數(shù)據(jù)得到搭配詞表,所述搭配詞 表包括常用詞或者常用詞組合;
[0047] 第二統(tǒng)計(jì)單元,用于統(tǒng)計(jì)每一分類(lèi)中的有效數(shù)據(jù)中出現(xiàn)所述搭配詞表中常用詞或 者常用詞組合的次數(shù);
[0048] 歸一化單元,用于根據(jù)所述常用詞或者常用詞組合在每一分類(lèi)中的次數(shù)和所有分 類(lèi)中的次數(shù),對(duì)每一分類(lèi)中的常用詞或者常用詞組合進(jìn)行歸一化,形成概率矩陣;
[0049] 第二分類(lèi)單元,用于根據(jù)所述概率矩陣對(duì)數(shù)據(jù)進(jìn)行分類(lèi)。
[0050] 結(jié)合第二方面,在第二方面的第一種可能的實(shí)現(xiàn)方式中,所述解決沖突單元中執(zhí) 行步驟預(yù)先定義分類(lèi)之間的關(guān)系和沖突處理規(guī)則,包括:
[0051] 當(dāng)對(duì)所述處理后的數(shù)據(jù)進(jìn)行分類(lèi)后,所述處理后的數(shù)據(jù)同時(shí)屬于A類(lèi)和B類(lèi)時(shí),當(dāng) A類(lèi)和B類(lèi)不沖突時(shí),則標(biāo)識(shí)所述處理后的數(shù)據(jù)不沖突,所述處理后的數(shù)據(jù)同時(shí)屬于A類(lèi)和 B類(lèi);
[0052] 當(dāng)A類(lèi)和B類(lèi)互相沖突時(shí),則標(biāo)識(shí)所述處理后的數(shù)據(jù)不沖突,所述處理后的數(shù)據(jù)屬 于A類(lèi);
[0053] 或者當(dāng)A類(lèi)和B類(lèi)互相沖突時(shí),則標(biāo)識(shí)所述處理后的數(shù)據(jù)不沖突,所述處理后的數(shù) 據(jù)屬于B類(lèi);
[0054] 當(dāng)A類(lèi)和B類(lèi)互相沖突時(shí),且沒(méi)有沖突處理規(guī)則解決所述A類(lèi)和B類(lèi)的沖突時(shí),則 標(biāo)識(shí)所述處理后的數(shù)據(jù)沖突。
[0055] 結(jié)合第二方面的第一種可能的實(shí)現(xiàn)方式,在第二方面的第二種可能的實(shí)現(xiàn)方式 中,所述解決沖突單元中執(zhí)行步驟根據(jù)所述沖突處理規(guī)則得到有效數(shù)據(jù),包括:
[0056] 當(dāng)對(duì)所述處理后的數(shù)據(jù)進(jìn)行分類(lèi)后,所述處理后的數(shù)據(jù)屬于某一個(gè)分類(lèi)時(shí),則標(biāo) 識(shí)所述處理后的數(shù)據(jù)不沖突,所述處理后的數(shù)據(jù)屬于所述某一個(gè)分類(lèi);
[0057] 當(dāng)所述處理后的數(shù)據(jù)同時(shí)屬于兩個(gè)沖突的分類(lèi)時(shí),則根據(jù)所述沖突處理規(guī)則,得 到有效數(shù)據(jù);
[0058] 當(dāng)所述處理后的數(shù)據(jù)同時(shí)屬于兩個(gè)以上的分類(lèi)時(shí),則根據(jù)所述沖突處理規(guī)則化簡(jiǎn) 所述兩個(gè)以上的分類(lèi)集合;
[0059] 對(duì)化簡(jiǎn)后的分類(lèi)集合,根據(jù)所述沖突處理規(guī)則中當(dāng)A類(lèi)和B類(lèi)相互沖突時(shí),且沒(méi)有 沖突處理規(guī)則解決A類(lèi)和B類(lèi)的沖突時(shí),標(biāo)識(shí)所述處理后的數(shù)據(jù)為沖突。
[0060] 結(jié)合第二方面的第二種可能的實(shí)現(xiàn)方式,在第二方面的第三種可能的實(shí)現(xiàn)方式 中,所述解決沖突單元中執(zhí)行步驟根據(jù)所述沖突處理規(guī)則化簡(jiǎn)所述兩個(gè)以上的分類(lèi)集合, 包括:
[0061] 當(dāng)所述兩個(gè)以上的分類(lèi)集合中A類(lèi)和B類(lèi)不沖突時(shí),將A類(lèi)和B類(lèi)化簡(jiǎn)為同一類(lèi);
[0062] 當(dāng)所述兩個(gè)以上的分類(lèi)集合中A類(lèi)和B類(lèi)互相沖突時(shí)以A類(lèi)為準(zhǔn),將A類(lèi)和B類(lèi) 化簡(jiǎn)為A類(lèi);
[0063] 當(dāng)所述兩個(gè)以上的分類(lèi)集合中A類(lèi)和B類(lèi)互相沖突時(shí)以B類(lèi)為準(zhǔn),將A類(lèi)和B類(lèi) 化簡(jiǎn)為B類(lèi)。
[0064] 結(jié)合第二方面或者第二方面的第一種可能的實(shí)現(xiàn)方式或者第二方面的第二種可 能的實(shí)現(xiàn)方式或者第二方面的第三種可能的實(shí)現(xiàn)方式,在第二方面的第四種可能的實(shí)現(xiàn)方 式中,所述篩選單元具體用于:
[0065] 根據(jù)所述常用詞表,篩選所述有效數(shù)據(jù)得到所述常用詞表中的詞,當(dāng)所述常用詞 表中的同一個(gè)詞出現(xiàn)多次時(shí),僅按照一次處理,當(dāng)篩選后的詞少于等于3時(shí),得到所述有效 數(shù)據(jù)的常用詞組合,所述常用詞組合中對(duì)有效數(shù)據(jù)中的詞的順序不做限制;
[0066] 對(duì)所有有效數(shù)據(jù)做篩選后,將所述篩選后的詞和所述常用詞組合形成搭配詞表。
[0067] 結(jié)合第二方面的四種可能的實(shí)現(xiàn)方式,在第二方面的第五種可能的實(shí)現(xiàn)方式中, 所述第二統(tǒng)計(jì)單元,具體用于:
[0068] 統(tǒng)計(jì)每一分類(lèi)中的所有有效數(shù)據(jù)中出現(xiàn)所述搭配詞表中常用詞或者常用詞組合 的次數(shù);
[0069] 統(tǒng)計(jì)所有分類(lèi)中的所有有效數(shù)據(jù)中出現(xiàn)所述搭配詞表中常用詞或者常用詞組合 的次數(shù)。
[0070] 結(jié)合第二方面的五種可能的實(shí)現(xiàn)方式,在第二方面的第六種可能的實(shí)現(xiàn)方式中, 所述歸一化單元,包括:
[0071] 矩陣單元,用于將所有分類(lèi)作為列,將所述搭配詞表中常用詞或者常用詞組合在 每一列下出現(xiàn)的次數(shù)作為行,形成矩陣;
[0072] 概率矩陣單元,用于根據(jù)所述矩陣,將所述矩陣中每一行在每一列的次數(shù)除以所 述每一行在所有列的總次數(shù),得到每一行在每一列的概率,形成概率矩陣。
[0073] 結(jié)合第二方面或者第二方面的第一種可能的實(shí)現(xiàn)方式或者第二方面的第二種可 能的實(shí)現(xiàn)方式或者第二方面的第三種可能的實(shí)現(xiàn)方式或者第二方面的第四種可能的實(shí)現(xiàn) 方式或者第二方面的第五種可能的實(shí)現(xiàn)方式或者第二方面的第六種可能的實(shí)現(xiàn)方式,在第 二方面的第七種可能的實(shí)現(xiàn)方式中,所述第二分類(lèi)單元,包括:
[0074] 篩選子單元,用于在所述概率矩陣中找到數(shù)據(jù)篩選后得到的最長(zhǎng)的常用詞組合在 每一列的概率;
[0075] 第二分類(lèi)子單元,用于將概率最大的列對(duì)應(yīng)的類(lèi)別作為所述數(shù)據(jù)的類(lèi)別。與現(xiàn)有 技術(shù)相比,本發(fā)明實(shí)施例提供一種數(shù)據(jù)分類(lèi)的方法,所述方法通過(guò)預(yù)先定義分類(lèi)的沖突處 理規(guī)則,解決分類(lèi)中有沖突的數(shù)據(jù),得到有效數(shù)據(jù),從而得到無(wú)歧義、無(wú)沖突的數(shù)據(jù);并使用 常用詞表,篩選有效數(shù)據(jù)得到搭配詞表,根據(jù)所述搭配詞表形成概率矩陣,從而避免出現(xiàn)數(shù) 據(jù)稀疏的情況。
【專利附圖】
【附圖說(shuō)明】
[0076] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。
[0077] 圖1是本發(fā)明實(shí)施例提供的一種數(shù)據(jù)分類(lèi)的方法流程圖;
[0078] 圖2是本發(fā)明實(shí)施例提供的一種數(shù)據(jù)分類(lèi)裝置的裝置結(jié)構(gòu)圖;
[0079] 圖3是本發(fā)明實(shí)施例提供的一種數(shù)據(jù)分類(lèi)裝置中歸一化單元的裝置結(jié)構(gòu)圖;
[0080] 圖4是本發(fā)明實(shí)施例提供的一種數(shù)據(jù)分類(lèi)裝置中第二分類(lèi)單元的裝置結(jié)構(gòu)圖;
[0081] 圖5是本發(fā)明實(shí)施例提供的一種數(shù)據(jù)分類(lèi)裝置的裝置結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0082] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0083] 參考圖1,圖1是本發(fā)明實(shí)施例提供的一種數(shù)據(jù)分類(lèi)的方法流程圖。如圖1所示, 所述方法包括以下步驟:
[0084] 步驟101,對(duì)數(shù)據(jù)進(jìn)行分詞、去停頓詞的處理;
[0085] 具體的,可以用自然語(yǔ)言處理工具進(jìn)行處理,完成分詞、去停頓詞等工作。
[0086] 步驟102,對(duì)處理后的數(shù)據(jù)做詞頻統(tǒng)計(jì),將所述處理后的數(shù)據(jù)中的詞按照詞頻由大 到小排序,根據(jù)預(yù)先設(shè)置的常用詞的取詞范圍,在所述取詞范圍中選取常用詞生成常用詞 表;
[0087] 可選地,所述常用詞的取值范圍為前20%。
[0088] 具體的,對(duì)所有數(shù)據(jù)做完處理后,統(tǒng)計(jì)處理后的所有數(shù)據(jù)中的詞的頻率,并按照頻 率的大小對(duì)所有數(shù)據(jù)中的詞進(jìn)行排序,選取排序前20%的詞作為常用詞,生成常用詞表。
[0089] 步驟103,將所述處理后的數(shù)據(jù)進(jìn)行分類(lèi),分類(lèi)后的所述處理后的數(shù)據(jù)所屬的類(lèi)別 之間的關(guān)系是不沖突或者沖突;
[0090] 具體的,使用傳統(tǒng)的方法對(duì)所有數(shù)據(jù)進(jìn)行分類(lèi)或者使用樸素貝葉斯方法對(duì)所有數(shù) 據(jù)進(jìn)行分類(lèi)。假設(shè)同一個(gè)數(shù)據(jù)分類(lèi)后既是A類(lèi),又是B類(lèi),A類(lèi)是雷擊,B類(lèi)是進(jìn)水,則A類(lèi) 和B類(lèi)是同時(shí)出現(xiàn)的,則該數(shù)據(jù)分類(lèi)后所屬的類(lèi)別是不沖突的。
[0091] 步驟104,預(yù)先定義沖突處理規(guī)則,當(dāng)同一處理后的數(shù)據(jù)所屬的類(lèi)別之間的關(guān)系有 沖突時(shí),根據(jù)所述沖突處理規(guī)則得到有效數(shù)據(jù),使得所述有效數(shù)據(jù)所屬的類(lèi)別不沖突;
[0092] 可選地,所述預(yù)先定義沖突處理規(guī)則,包括:
[0093] 當(dāng)對(duì)所述處理后的數(shù)據(jù)進(jìn)行分類(lèi)后,所述處理后的數(shù)據(jù)同時(shí)屬于A類(lèi)和B類(lèi)時(shí),當(dāng) A類(lèi)和B類(lèi)不沖突時(shí),則標(biāo)識(shí)所述處理后的數(shù)據(jù)不沖突,所述處理后的數(shù)據(jù)同時(shí)屬于A類(lèi)和 B類(lèi);
[0094] 當(dāng)A類(lèi)和B類(lèi)互相沖突時(shí),則標(biāo)識(shí)所述處理后的數(shù)據(jù)不沖突,所述處理后的數(shù)據(jù)屬 于A類(lèi);
[0095] 或者當(dāng)A類(lèi)和B類(lèi)互相沖突時(shí),則標(biāo)識(shí)所述處理后的數(shù)據(jù)不沖突,所述處理后的數(shù) 據(jù)屬于B類(lèi);
[0096] 當(dāng)A類(lèi)和B類(lèi)互相沖突時(shí),且沒(méi)有沖突處理規(guī)則解決所述A類(lèi)和B類(lèi)的沖突時(shí),則 標(biāo)識(shí)所述處理后的數(shù)據(jù)沖突。
[0097] 具體的,沖突處理規(guī)則是由連個(gè)分類(lèi)和一個(gè)操作符組成??梢远x一些符號(hào)表示 這些規(guī)則:
[0098] A °〇 B表示A、B不沖突,不沖突。如,A類(lèi)是進(jìn)水,B類(lèi)是雷擊,進(jìn)水和雷擊可能 是因?yàn)橥粋€(gè)原因下雨而同時(shí)出現(xiàn)的,則A類(lèi)和B類(lèi)是不沖突的;
[0099] A術(shù)B表示A、B兩個(gè)類(lèi)互相沖突,而且沖突時(shí)以分類(lèi)B的為準(zhǔn),假設(shè)A類(lèi)是焊接,B 類(lèi)是雷擊,根據(jù)外部經(jīng)驗(yàn),A類(lèi)和B類(lèi)是無(wú)關(guān)的,既無(wú)法找到一個(gè)原因是既能造成焊接又能 造成雷擊,因此,A類(lèi)和B類(lèi)是沖突的;
[0100] A > B表示A、B兩個(gè)類(lèi)互相沖突,而且沖突時(shí)以分類(lèi)A的為準(zhǔn);
[0101] 如:焊接術(shù)雷擊,或者雷擊>焊接;
[0102] A尹B表示A、B兩個(gè)類(lèi)互相沖突,但是沒(méi)有規(guī)則解決沖突,比如:進(jìn)水尹焊接。
[0103] 可選地,所述根據(jù)所述沖突處理規(guī)則得到有效數(shù)據(jù),包括:
[0104] 當(dāng)對(duì)所述處理后的數(shù)據(jù)進(jìn)行分類(lèi)后,所述處理后的數(shù)據(jù)屬于某一個(gè)分類(lèi)時(shí),則標(biāo) 識(shí)所述處理后的數(shù)據(jù)不沖突,所述處理后的數(shù)據(jù)屬于所述某一個(gè)分類(lèi);
[0105] 當(dāng)所述處理后的數(shù)據(jù)同時(shí)屬于兩個(gè)沖突的分類(lèi)時(shí),則根據(jù)所述沖突處理規(guī)則,得 到有效數(shù)據(jù);
[0106] 當(dāng)所述處理后的數(shù)據(jù)同時(shí)屬于兩個(gè)以上的分類(lèi)時(shí),則根據(jù)所述沖突處理規(guī)則化簡(jiǎn) 所述兩個(gè)以上的分類(lèi)集合;
[0107] 對(duì)化簡(jiǎn)后的分類(lèi)集合,根據(jù)所述沖突處理規(guī)則中當(dāng)A類(lèi)和B類(lèi)相互沖突時(shí),且沒(méi)有 沖突處理規(guī)則解決A類(lèi)和B類(lèi)的沖突時(shí),標(biāo)識(shí)所述處理后的數(shù)據(jù)為沖突。
[0108] 其中,所述有效數(shù)據(jù)是標(biāo)識(shí)為A類(lèi)和/或B類(lèi)的數(shù)據(jù)。
[0109] 具體的,參考如下的偽代碼:
[0110] for -條數(shù)據(jù)in數(shù)據(jù)集 { 獲得數(shù)據(jù)的初始分突; if存在多個(gè)分突 ? ^(分類(lèi)數(shù)量》--) 得志f神夾i , if (規(guī)則2 or規(guī)則3 > 標(biāo)志不沖突,按照規(guī)則修改分類(lèi)狀態(tài) i?編 _ ? 標(biāo)志沖夾; > else < 規(guī)則1化懸合_ 規(guī)則2化搞翼合; 分類(lèi)1,分類(lèi)2 in化筒后的分類(lèi)集合》 規(guī)則為) { 一 標(biāo)志沖突; rel::wrn; > > 標(biāo)志為不沖夾; > > else { 標(biāo)志不沖突; 可 } > 選地,
[0111] 所述根據(jù)所述沖突處理規(guī)則化簡(jiǎn)所述兩個(gè)以上的分類(lèi)集合,包括:
[0112] 當(dāng)所述兩個(gè)以上的分類(lèi)集合中A類(lèi)和B類(lèi)不沖突時(shí),將A類(lèi)和B類(lèi)化簡(jiǎn)為同一類(lèi);
[0113] 當(dāng)所述兩個(gè)以上的分類(lèi)集合中A類(lèi)和B類(lèi)互相沖突時(shí)以A類(lèi)為準(zhǔn),將A類(lèi)和B類(lèi) 化簡(jiǎn)為A類(lèi);
[0114] 當(dāng)所述兩個(gè)以上的分類(lèi)集合中A類(lèi)和B類(lèi)互相沖突時(shí)以B類(lèi)為準(zhǔn),將A類(lèi)和B類(lèi) 化簡(jiǎn)為B類(lèi)。
[0115] 步驟105,根據(jù)所述常用詞表,篩選所述有效數(shù)據(jù)得到搭配詞表,所述搭配詞表包 括常用詞和常用詞組合;
[0116] 可選地,所述根據(jù)所述常用詞表,篩選所述有效數(shù)據(jù)得到搭配詞表,包括:
[0117] 根據(jù)所述常用詞表,篩選所述有效數(shù)據(jù)得到所述常用詞表中的詞,當(dāng)所述常用詞 表中的同一個(gè)詞出現(xiàn)多次時(shí),僅按照一次處理,當(dāng)篩選后的詞少于等于3時(shí),得到所述有效 數(shù)據(jù)的常用詞組合,所述常用詞組合中對(duì)有效數(shù)據(jù)中的詞的順序不做限制;
[0118] 對(duì)所有有效數(shù)據(jù)做篩選后,將所述篩選后的詞和所述常用詞組合形成搭配詞表。
[0119] 具體的,當(dāng)數(shù)據(jù)Π 根據(jù)所述常用詞表篩選后,得到"失效",則搭配詞表中會(huì)出現(xiàn) "失效";當(dāng)數(shù)據(jù)i2根據(jù)所述常用詞表篩選后,得到"短路,脫落",則搭配詞表中會(huì)出現(xiàn)"短 路,脫落"。
[0120] 同時(shí),當(dāng)數(shù)據(jù)il根據(jù)常用詞表篩選后,"失效"出現(xiàn)兩次,則僅按照一次做處理,即 搭配詞表中"失效"僅出現(xiàn)一次;當(dāng)數(shù)據(jù)i3根據(jù)所述常用詞表篩選后,得到"脫落,短路",則 搭配詞表中可用"短路,脫落"替代,不考慮詞的順序;當(dāng)數(shù)據(jù)i4根據(jù)常用詞表篩選后,出現(xiàn) "脫落,短路,失效,雷擊,進(jìn)水"等四個(gè)以上的詞時(shí),可不考慮將篩選后的數(shù)據(jù)i4作為搭配詞 表中的常用詞組合。
[0121] 搭配詞表的格式可如表1所示:
[0122]
[0123] 表 1
【權(quán)利要求】
1. 一種數(shù)據(jù)分類(lèi)的方法,其特征在于,所述方法包括: 對(duì)數(shù)據(jù)進(jìn)行分詞、去停頓詞的處理; 對(duì)處理后的數(shù)據(jù)做詞頻統(tǒng)計(jì),將所述處理后的數(shù)據(jù)中的詞按照詞頻由大到小排序,根 據(jù)預(yù)先設(shè)置的常用詞的取詞范圍,在所述取詞范圍中選取常用詞生成常用詞表; 將所述處理后的數(shù)據(jù)進(jìn)行分類(lèi),分類(lèi)后的所述處理后的數(shù)據(jù)所屬的類(lèi)別之間的關(guān)系是 不沖突或者沖突; 預(yù)先定義沖突處理規(guī)則,當(dāng)同一處理后的數(shù)據(jù)所屬的類(lèi)別之間的關(guān)系有沖突時(shí),根據(jù) 所述沖突處理規(guī)則得到有效數(shù)據(jù),使得所述有效數(shù)據(jù)所屬的類(lèi)別不沖突; 根據(jù)所述常用詞表,篩選所述有效數(shù)據(jù)得到搭配詞表,所述搭配詞表包括常用詞和常 用詞組合; 統(tǒng)計(jì)每一分類(lèi)中的有效數(shù)據(jù)中出現(xiàn)所述搭配詞表中常用詞或者常用詞組合的次數(shù); 根據(jù)所述常用詞或者常用詞組合在每一分類(lèi)中的次數(shù)和所有分類(lèi)中的次數(shù),對(duì)每一分 類(lèi)中的常用詞或者常用詞組合進(jìn)行歸一化,形成概率矩陣; 根據(jù)所述概率矩陣對(duì)數(shù)據(jù)進(jìn)行分類(lèi)。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)先定義沖突處理規(guī)則,包括: 當(dāng)對(duì)所述處理后的數(shù)據(jù)進(jìn)行分類(lèi)后,所述處理后的數(shù)據(jù)同時(shí)屬于A類(lèi)和B類(lèi),當(dāng)A類(lèi)和 B類(lèi)不沖突時(shí),則標(biāo)識(shí)所述處理后的數(shù)據(jù)不沖突,所述處理后的數(shù)據(jù)同時(shí)屬于A類(lèi)和B類(lèi); 當(dāng)A類(lèi)和B類(lèi)互相沖突時(shí),則標(biāo)識(shí)所述處理后的數(shù)據(jù)不沖突,所述處理后的數(shù)據(jù)屬于A 類(lèi); 或者當(dāng)A類(lèi)和B類(lèi)互相沖突時(shí),則標(biāo)識(shí)所述處理后的數(shù)據(jù)不沖突,所述處理后的數(shù)據(jù)屬 于B類(lèi); 當(dāng)A類(lèi)和B類(lèi)互相沖突時(shí),且沒(méi)有沖突處理規(guī)則解決所述A類(lèi)和B類(lèi)的沖突時(shí),則標(biāo)識(shí) 所述處理后的數(shù)據(jù)沖突。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述沖突處理規(guī)則得到有效數(shù) 據(jù),包括: 當(dāng)對(duì)所述處理后的數(shù)據(jù)進(jìn)行分類(lèi)后,所述處理后的數(shù)據(jù)屬于某一個(gè)分類(lèi)時(shí),則標(biāo)識(shí)所 述處理后的數(shù)據(jù)不沖突,所述處理后的數(shù)據(jù)屬于所述某一個(gè)分類(lèi); 當(dāng)所述處理后的數(shù)據(jù)同時(shí)屬于兩個(gè)沖突的分類(lèi)時(shí),則根據(jù)所述沖突處理規(guī)則,得到有 效數(shù)據(jù); 當(dāng)所述處理后的數(shù)據(jù)同時(shí)屬于兩個(gè)以上的分類(lèi)時(shí),則根據(jù)所述沖突處理規(guī)則化簡(jiǎn)所述 兩個(gè)以上的分類(lèi)集合; 對(duì)化簡(jiǎn)后的分類(lèi)集合,根據(jù)所述沖突處理規(guī)則中當(dāng)A類(lèi)和B類(lèi)相互沖突時(shí),且沒(méi)有沖突 處理規(guī)則解決A類(lèi)和B類(lèi)的沖突時(shí),標(biāo)識(shí)所述處理后的數(shù)據(jù)為沖突。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述沖突處理規(guī)則化簡(jiǎn)所述兩 個(gè)以上的分類(lèi)集合,包括: 當(dāng)所述兩個(gè)以上的分類(lèi)集合中A類(lèi)和B類(lèi)不沖突時(shí),將A類(lèi)和B類(lèi)化簡(jiǎn)為同一類(lèi); 當(dāng)所述兩個(gè)以上的分類(lèi)集合中A類(lèi)和B類(lèi)互相沖突時(shí)以A類(lèi)為準(zhǔn),將A類(lèi)和B類(lèi)化簡(jiǎn) 為A類(lèi); 當(dāng)所述兩個(gè)以上的分類(lèi)集合中A類(lèi)和B類(lèi)互相沖突時(shí)以B類(lèi)為準(zhǔn),將A類(lèi)和B類(lèi)化簡(jiǎn) 為B類(lèi)。
5. 根據(jù)權(quán)利要求1至4任意一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述常用詞表,篩 選所述有效數(shù)據(jù)得到搭配詞表,包括: 根據(jù)所述常用詞表,篩選所述有效數(shù)據(jù)得到所述常用詞表中的詞,當(dāng)所述常用詞表中 的同一個(gè)詞出現(xiàn)多次時(shí),僅按照一次處理,當(dāng)篩選后的詞少于等于3時(shí),得到所述有效數(shù)據(jù) 的常用詞組合,所述常用詞組合中對(duì)有效數(shù)據(jù)中的詞的順序不做限制; 對(duì)所有有效數(shù)據(jù)做篩選后,將所述篩選后的詞和所述常用詞組合形成搭配詞表。
6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述統(tǒng)計(jì)每一分類(lèi)中的有效數(shù)據(jù)中出現(xiàn) 所述搭配詞表中常用詞或者常用詞組合的次數(shù),包括: 統(tǒng)計(jì)每一分類(lèi)中的所有有效數(shù)據(jù)中出現(xiàn)所述搭配詞表中常用詞或者常用詞組合的次 數(shù); 統(tǒng)計(jì)所有分類(lèi)中的所有有效數(shù)據(jù)中出現(xiàn)所述搭配詞表中常用詞或者常用詞組合的次 數(shù)。
7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述根據(jù)所述常用詞或者常用詞組合在 每一分類(lèi)中的次數(shù)和所有分類(lèi)中的次數(shù),對(duì)每一分類(lèi)中的常用詞或者常用詞組合進(jìn)行歸一 化,形成概率矩陣,包括 : 將所有分類(lèi)作為列,將所述搭配詞表中常用詞或者常用詞組合在每一列下出現(xiàn)的次數(shù) 作為行,形成矩陣; 根據(jù)所述矩陣,將所述矩陣中每一行在每一列的次數(shù)除以所述每一行在所有列的總次 數(shù),得到每一行在每一列的概率,形成概率矩陣。
8. 根據(jù)權(quán)利要求1至7所述的方法,其特征在于,所述根據(jù)所述概率矩陣對(duì)數(shù)據(jù)進(jìn)行分 類(lèi),包括: 在所述概率矩陣中找到數(shù)據(jù)篩選后得到的最長(zhǎng)的常用詞組合在每一列的概率; 將概率最大的列對(duì)應(yīng)的類(lèi)別作為所述數(shù)據(jù)的類(lèi)別。
9. 一種數(shù)據(jù)分類(lèi)的裝置,其特征在于,所述裝置包括: 處理單元,用于對(duì)數(shù)據(jù)進(jìn)行分詞、去停頓詞的處理; 第一統(tǒng)計(jì)單元,用于對(duì)處理后的數(shù)據(jù)做詞頻統(tǒng)計(jì),將所述處理后的數(shù)據(jù)中的詞按照詞 頻由大到小排序,根據(jù)預(yù)先設(shè)置的常用詞的取詞范圍,在所述取詞范圍中選取常用詞生成 常用詞表; 第一分類(lèi)單元,用于將所述處理后的數(shù)據(jù)進(jìn)行分類(lèi),分類(lèi)后的所述處理后的數(shù)據(jù)所屬 的類(lèi)別之間的關(guān)系是不沖突或者沖突; 解決沖突單元,用于預(yù)先定義沖突處理規(guī)則,當(dāng)同一處理后的數(shù)據(jù)所屬的類(lèi)別之間的 關(guān)系有沖突時(shí),根據(jù)所述沖突處理規(guī)則得到有效數(shù)據(jù),使得所述有效數(shù)據(jù)所屬的類(lèi)別不沖 關(guān); 篩選單元,用于根據(jù)所述常用詞表,篩選所述有效數(shù)據(jù)得到搭配詞表,所述搭配詞表包 括常用詞或者常用詞組合; 第二統(tǒng)計(jì)單元,用于統(tǒng)計(jì)每一分類(lèi)中的有效數(shù)據(jù)中出現(xiàn)所述搭配詞表中常用詞或者常 用詞組合的次數(shù); 歸一化單元,用于根據(jù)所述常用詞或者常用詞組合在每一分類(lèi)中的次數(shù)和所有分類(lèi)中 的次數(shù),對(duì)每一分類(lèi)中的常用詞或者常用詞組合進(jìn)行歸一化,形成概率矩陣; 第二分類(lèi)單元,用于根據(jù)所述概率矩陣對(duì)數(shù)據(jù)進(jìn)行分類(lèi)。
10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述解決沖突單元中執(zhí)行步驟預(yù)先定義 沖突處理規(guī)則,包括: 當(dāng)對(duì)所述處理后的數(shù)據(jù)進(jìn)行分類(lèi)后,所述處理后的數(shù)據(jù)同時(shí)屬于A類(lèi)和B類(lèi)時(shí),當(dāng)A 類(lèi)和B類(lèi)不沖突時(shí),則標(biāo)識(shí)所述處理后的數(shù)據(jù)不沖突,所述處理后的數(shù)據(jù)同時(shí)屬于A類(lèi)和B 類(lèi); 當(dāng)A類(lèi)和B類(lèi)互相沖突時(shí),則標(biāo)識(shí)所述處理后的數(shù)據(jù)不沖突,所述處理后的數(shù)據(jù)屬于A 類(lèi); 或者當(dāng)A類(lèi)和B類(lèi)互相沖突時(shí),則標(biāo)識(shí)所述處理后的數(shù)據(jù)不沖突,所述處理后的數(shù)據(jù)屬 于B類(lèi); 當(dāng)A類(lèi)和B類(lèi)互相沖突時(shí),且沒(méi)有沖突處理規(guī)則解決所述A類(lèi)和B類(lèi)的沖突時(shí),則標(biāo)識(shí) 所述處理后的數(shù)據(jù)沖突。
11. 根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述解決沖突單元中執(zhí)行步驟根據(jù)所 述沖突處理規(guī)則得到有效數(shù)據(jù),包括: 當(dāng)對(duì)所述處理后的數(shù)據(jù)進(jìn)行分類(lèi)后,所述處理后的數(shù)據(jù)屬于某一個(gè)分類(lèi)時(shí),則標(biāo)識(shí)所 述處理后的數(shù)據(jù)不沖突,所述處理后的數(shù)據(jù)屬于所述某一個(gè)分類(lèi); 當(dāng)所述處理后的數(shù)據(jù)同時(shí)屬于兩個(gè)沖突的分類(lèi)時(shí),則根據(jù)所述沖突處理規(guī)則,得到有 效數(shù)據(jù); 當(dāng)所述處理后的數(shù)據(jù)同時(shí)屬于兩個(gè)以上的分類(lèi)時(shí),則根據(jù)所述沖突處理規(guī)則化簡(jiǎn)所述 兩個(gè)以上的分類(lèi)集合; 對(duì)化簡(jiǎn)后的分類(lèi)集合,根據(jù)所述沖突處理規(guī)則中當(dāng)A類(lèi)和B類(lèi)相互沖突時(shí),且沒(méi)有沖突 處理規(guī)則解決A類(lèi)和B類(lèi)的沖突時(shí),標(biāo)識(shí)所述處理后的數(shù)據(jù)為沖突。
12. 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述解決沖突單元中執(zhí)行步驟根據(jù)所 述沖突處理規(guī)則化簡(jiǎn)所述兩個(gè)以上的分類(lèi)集合,包括: 當(dāng)所述兩個(gè)以上的分類(lèi)集合中A類(lèi)和B類(lèi)不沖突時(shí),將A類(lèi)和B類(lèi)化簡(jiǎn)為同一類(lèi); 當(dāng)所述兩個(gè)以上的分類(lèi)集合中A類(lèi)和B類(lèi)互相沖突時(shí)以A類(lèi)為準(zhǔn),將A類(lèi)和B類(lèi)化簡(jiǎn) 為A類(lèi); 當(dāng)所述兩個(gè)以上的分類(lèi)集合中A類(lèi)和B類(lèi)互相沖突時(shí)以B類(lèi)為準(zhǔn),將A類(lèi)和B類(lèi)化簡(jiǎn) 為B類(lèi)。
13. 根據(jù)權(quán)利要求9至12任意一項(xiàng)所述的裝置,其特征在于,所述篩選單元具體用于: 根據(jù)所述常用詞表,篩選所述有效數(shù)據(jù)得到所述常用詞表中的詞,當(dāng)所述常用詞表中 的同一個(gè)詞出現(xiàn)多次時(shí),僅按照一次處理,當(dāng)篩選后的詞少于等于3時(shí),得到所述有效數(shù)據(jù) 的常用詞組合,所述常用詞組合中對(duì)有效數(shù)據(jù)中的詞的順序不做限制; 對(duì)所有有效數(shù)據(jù)做篩選后,將所述篩選后的詞和所述常用詞組合形成搭配詞表。
14. 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述第二統(tǒng)計(jì)單元,具體用于: 統(tǒng)計(jì)每一分類(lèi)中的所有有效數(shù)據(jù)中出現(xiàn)所述搭配詞表中常用詞或者常用詞組合的次 數(shù); 統(tǒng)計(jì)所有分類(lèi)中的所有有效數(shù)據(jù)中出現(xiàn)所述搭配詞表中常用詞或者常用詞組合的次 數(shù)。
15. 根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述歸一化單元,包括: 矩陣單元,用于將所有分類(lèi)作為列,將所述搭配詞表中常用詞或者常用詞組合在每一 列下出現(xiàn)的次數(shù)作為行,形成矩陣; 概率矩陣單元,用于根據(jù)所述矩陣,將所述矩陣中每一行在每一列的次數(shù)除以所述每 一行在所有列的總次數(shù),得到每一行在每一列的概率,形成概率矩陣。
16. 根據(jù)權(quán)利要求9至15所述的裝置,其特征在于,所述第二分類(lèi)單元,包括: 篩選子單元,用于在所述概率矩陣中找到數(shù)據(jù)篩選后得到的最長(zhǎng)的常用詞組合在每一 列的概率; 第二分類(lèi)子單元,用于將概率最大的列對(duì)應(yīng)的類(lèi)別作為所述數(shù)據(jù)的類(lèi)別。
【文檔編號(hào)】G06F17/30GK104123291SQ201310148102
【公開(kāi)日】2014年10月29日 申請(qǐng)日期:2013年4月25日 優(yōu)先權(quán)日:2013年4月25日
【發(fā)明者】臧文陽(yáng), 齊泉 申請(qǐng)人:華為技術(shù)有限公司