一種漢語疊詞的自動(dòng)獲取方法
【專利摘要】本發(fā)明公開了一種漢語疊詞的自動(dòng)獲取方法,利用結(jié)構(gòu)合理的五元組模型對(duì)分詞后的語料進(jìn)行統(tǒng)計(jì)以獲得各類疊詞候選集;并在此基礎(chǔ)上,通過疊詞度的運(yùn)算判斷實(shí)現(xiàn)AAB式、ABB式、ABA式、ABAB式、AABB式疊詞的自動(dòng)獲??;并在疊詞度判斷的基礎(chǔ)上,進(jìn)一步通過左、右鄰接熵的運(yùn)算判斷實(shí)現(xiàn)AA式疊詞的自動(dòng)獲取。本發(fā)明根據(jù)結(jié)構(gòu)合理的五元組模型獲得的統(tǒng)計(jì)信息,結(jié)合疊詞度和信息熵的判斷,實(shí)現(xiàn)了疊詞的量化判斷和自動(dòng)獲取,經(jīng)實(shí)驗(yàn)證明,本發(fā)明準(zhǔn)確率高,有利于更為更為精準(zhǔn)的開展自然語言的信息化處理工作,在自然語言處理領(lǐng)域中具有十分明顯的實(shí)用意義,可廣泛推廣使用。
【專利說明】一種漢語疊詞的自動(dòng)獲取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及人工智能計(jì)算機(jī)領(lǐng)域中的自然語言處理,特別涉及一種利用自然語言 處理來實(shí)現(xiàn)漢語疊詞的自動(dòng)獲取方法。
【背景技術(shù)】
[0002] 在大量的自然語言應(yīng)用中,有一個(gè)基本的而又共同的問題:對(duì)由一個(gè)由短文本構(gòu) 成的語料集(以下簡(jiǎn)稱短文本語料集或語料集),如何將其中的短文本按照某種相似度聚 集成不同的類。
[0003] 漢語中的疊詞是一種特殊的語言現(xiàn)象,漢語疊詞由兩個(gè)或兩個(gè)以上的字形和字義 都相同的漢字,重疊在一起使用所組成的詞語。漢語疊詞在自然語言中的使用越來越廣泛, 并且有不斷的新的疊詞出現(xiàn),這對(duì)自然語言處理帶來了更多的挑戰(zhàn)。比如在中文文本自動(dòng) 校對(duì)領(lǐng)域,字詞插入錯(cuò)誤,都是相同的字或詞的插入,但由于漢語疊詞的存在,在錯(cuò)別字識(shí) 別的過程中經(jīng)過統(tǒng)計(jì)分析可能會(huì)將疊詞當(dāng)做成插入錯(cuò)誤。而如果將滿足疊詞格式都看成疊 詞的話,則很多類似疊詞式的插入錯(cuò)誤會(huì)被過濾掉,因?yàn)椴皇撬械脑~都可以當(dāng)做疊詞出 現(xiàn)。因此,需要來判斷重復(fù)出現(xiàn)的串是否是疊詞,如果是不是疊詞,則認(rèn)為該串是一個(gè)字詞 插入錯(cuò)誤。
[0004] 很多漢語研究者對(duì)疊詞進(jìn)行了分類,漢語的疊詞種類有很多。一般而論,疊詞自動(dòng) 獲取方法的基本思想對(duì)大規(guī)模語料中重復(fù)出現(xiàn)的"疊詞"模式串進(jìn)行判斷,如果該"疊詞"模 式串高頻重復(fù)出現(xiàn),那么該模式串很可能是一個(gè)疊詞。
[0005] 在疊詞自動(dòng)獲取中,常遇到幾個(gè)難題需要解決:
[0006] 1)疊詞自動(dòng)獲取是一個(gè)自然語言處理的問題,因此在獲取前需要進(jìn)行分詞,因此 首先要對(duì)疊詞在分詞后的結(jié)構(gòu)進(jìn)行分析,并且需要對(duì)滿足候選模式的進(jìn)行統(tǒng)計(jì)和存儲(chǔ)。
[0007] 2)如何來對(duì)疊詞進(jìn)行量化?高頻出現(xiàn)的"疊詞"模式串不一定真是一個(gè)疊詞,因此 需要利用量化的指標(biāo)來對(duì)疊詞進(jìn)行判斷。例如在"一車車的"這個(gè)串中"一車車"滿足"ABB" 式疊詞結(jié)構(gòu)、"車車的"滿足"AAB"式疊詞,且都是高頻出現(xiàn),但是我們認(rèn)為"一車車"是一個(gè) 疊詞,而"車車的"不是一個(gè)疊詞。因此,需要定義一種對(duì)疊詞量化的方法來判斷模式串是 否是一個(gè)疊詞。
[0008] 3)對(duì)于"ABB"式和"AAB"式疊詞,其中的"BB"或"AA"不一定是"AA"式疊詞,例 如:"血淋淋"是一個(gè)"ABB"式疊詞,而"淋淋"就不是一個(gè)"AA"式疊詞,因此還需要對(duì)滿 足"AA"式疊詞進(jìn)行進(jìn)一步的判斷。
[0009] 因此想要實(shí)現(xiàn)疊詞的自動(dòng)獲取并獲得較高的準(zhǔn)確率,需要考慮如下有待解決的問 題:
[0010] 技術(shù)問題1:漢語分詞后疊詞分詞的疊詞模式以及大規(guī)模語料統(tǒng)計(jì)。對(duì)漢語文本 分詞后進(jìn)行分析,對(duì)疊詞的模式進(jìn)行歸類,如何設(shè)計(jì)一種合理的數(shù)據(jù)結(jié)果對(duì)大規(guī)模語料進(jìn) 行統(tǒng)計(jì)?
[0011] 技術(shù)問題2 :疊詞的量化問題。怎么根據(jù)統(tǒng)計(jì)信息來量化地判斷一個(gè)疊詞候選是 否是一個(gè)真正的疊詞?
[0012] 技術(shù)問題3 :對(duì)"AA"式疊詞進(jìn)行獲取和驗(yàn)證。如何利用統(tǒng)計(jì)信息對(duì)"AA"式疊詞 候選進(jìn)行獲取和驗(yàn)證?
[0013] 針對(duì)上述難題和問題,結(jié)合疊詞在中文文本自動(dòng)校對(duì)領(lǐng)域的字詞插入錯(cuò)誤,本發(fā) 明提出并且實(shí)現(xiàn)了 AAB式、ABB式、AA式、ABA式、ABAB式、AABB式漢語疊詞的自動(dòng)獲取方 法。
【發(fā)明內(nèi)容】
[0014] 發(fā)明目的:為了克服現(xiàn)有技術(shù)中存在的不足,本發(fā)明提供了一種漢語疊詞的自動(dòng) 獲取方法,以實(shí)現(xiàn)AAB式、ABB式、AA式、ABA式、ABAB式、AABB式漢語疊詞的自動(dòng)獲取。
[0015] 技術(shù)方案:
[0016] 為達(dá)到上述目的,本發(fā)明提供的一種漢語疊詞的自動(dòng)獲取方法,包括以下步驟:
[0017] 利用五元組模型對(duì)分詞后的語料進(jìn)行統(tǒng)計(jì)的步驟:
[0018] 對(duì)分詞后的語料,根據(jù)疊詞的定義、類型以及分詞后的模式,利用五元組模型來統(tǒng) 計(jì)滿足AAB式、ABB式、AA式、ABA式、ABAB式、AABB式疊詞模式的五元組,并作為候選疊詞 加入到對(duì)應(yīng)的AAB式、ABB式、AA式、ABA式、ABAB式、AABB式疊詞候選集中去;
[0019] 自動(dòng)獲取AAB式、ABB式、ABA式、ABAB式、AABB式疊詞的步驟:
[0020] 遍歷AAB式、ABB式、ABA式、ABAB式、AABB式疊詞候選集中的候選疊詞,逐一計(jì)算 疊詞度,將疊詞度大于預(yù)設(shè)疊詞度閾值的候選疊詞列入疊詞庫(kù),以實(shí)現(xiàn)語料中AAB式、ABB 式、ABA式、ABAB式、AABB式疊詞的自動(dòng)獲??;
[0021] 自動(dòng)獲取AA式疊詞的步驟:
[0022] 遍歷對(duì)應(yīng)的AA式疊詞候選集中的候選疊詞,逐一計(jì)算疊詞度;對(duì)疊詞度大于預(yù)設(shè) 疊詞度閾值的候選疊詞,計(jì)算其鄰接信息熵,并將鄰接信息熵大于預(yù)設(shè)信息熵閾值的候選 疊詞列入疊詞庫(kù),以實(shí)現(xiàn)語料中AA式疊詞的自動(dòng)獲取。
[0023] 優(yōu)選的,所述利用五元組模型對(duì)分詞后的預(yù)料進(jìn)行統(tǒng)計(jì)的步驟中,
[0024] 所述五元組模型用于表示和統(tǒng)計(jì)詞與詞之間的關(guān)系,為:Five-Element Model = (leftfford, leftlnterval, word, rightlnterval, rightfford);
[0025] 其中:word為當(dāng)前統(tǒng)計(jì)的詞,IeftWord是與詞word左邊相隔距離為 leftlnterval 的詞;leftlnterval 表不 word 與 IeftWord 之間的距離;rightWord 是與詞 word右邊相隔距離為rightlnterval的詞;rightlnterval表不word與rightWord之間的 距離。
[0026] 當(dāng) leftlnterval = 0 時(shí)表不 IeftWord 與 word 是相鄰,當(dāng) leftlnterval = 1 時(shí) 表不IeftWord與word中間隔一個(gè)詞,以此類推,rightlnterval的含義與leftlnterval類 似。
[0027] 所述 AAB 式五元組模型包括(A, 0, AB, 0, *),(*,0, A, 0, AB),(AA, 0, B, 0, *), (A,0, A,0, B),(*,0, AA,0, B);
[0028] 所述 ABB 式五元組模型包括(A,0, B,0, B),(A,0, BB,0, *),(*,0, A,0, BB), (AB,0, B,0, *),(*,0, AB,0, B);
[0029] 所述 AA 式五元組模型包括(*,0, A, 0, A), (*,0, AA, 0, *), (A, 0, A, 0, *);
[0030] 所述ABA式五元組模型包括(A,0, B,0, A),其中B是一個(gè)單字詞;
[0031] 所述 ABAB 式五元組模型包括(AB,0, AB,0, *),(*,0, AB,0, AB);
[0032] 所述 AABB 式五元組模型包括(AA,0, BB,0, *),(*,0, AA,0, BB);
[0033] 上述五元組中的代表任意詞;
[0034] 所述 AAB 式疊詞候選集為:SAAB = {(A,0, AB,*),(*,0, A,0, AB),(AA,0, B,0,,*), (A,0, A,0, B),(*,0, AA,0, B)};
[0035] 所述 ABB 式疊詞候選集為:SABB = {(A,0, B,0, B),(A,0, BB,0, *),(*,0, A,0, BB), (AB,0, B,0, *),(*,0, AB,0, B)};
[0036] 所述 AA 式疊詞候選集為:SAA = {(*,0, A, 0, A), (*,0, AA, 0, *),(A, 0, A, 0, *)};
[0037] 所述ABA式疊詞候選集為:SABA ={ (A,0, B,0, A),其中B是一個(gè)單字詞};
[0038] 所述 ABAB 式疊詞候選集為:SABAB ={ (AB,0, AB,0, *),(*,0, AB,0, AB)};
[0039] 所述 AABB 式疊詞候選集為:SAABB ={ (AA,0, BB,0, *),(*,0, AA,0, BB)}。
[0040] 優(yōu)選的,所述自動(dòng)獲取AAB式、ABB式、ABA式、ABAB式、AABB式疊詞的步驟和自動(dòng) 獲取AA式疊詞的步驟中,所述疊詞度ComDegr ee用于表示疊詞的內(nèi)部組成部分的結(jié)合程 度:
[0041] 所述AAB式疊詞的疊詞度為:
[0042] ComDegree(AAB) - min (log (p(A).p(AB)),i〇g(P(AA)*p(B)),i〇g(P(A)*p(A)*i〇g(B))) ⑴;
[0043] 所述ABB式疊詞的疊詞度為:
[0044] ComDegree(ABB) = min (log ⑵;
[0045] 所述AA式疊詞的疊詞度為:
[0046] ComDegree(AA) = ⑴;
[0047] 所述ABA式疊詞的疊詞度為:
[0048] ComDegree(ABA) = log ^^(A))⑷;
[0049] 所述ABAB式疊詞的疊詞度為:
[0050] ComDegree(ABAB) = 1():(:::) (5);
[0051] 所述AABB式疊詞的疊詞度為:
[0052] ComDegree(AABB) = (6);
[0053] 其中P (W)表示詞W在語料中的出現(xiàn)概率,p (W) = Count (W) /N,N表示語料中所有 詞的頻率,min (X,Y)表示最小值函數(shù)。
[0054] 優(yōu)選的,所述自動(dòng)獲取AA式疊詞的步驟中,所述鄰接信息熵H (AA)包括左信息熵 LH(AA)和右信息熵RH(AA);
[0055] 所述左信息熵LH(AA)的計(jì)算步驟包括:
[0056] 統(tǒng)計(jì)AA的左鄰接詞W集合LAd jWordSet = (W1, ... WJ,及對(duì)應(yīng)的左鄰接詞和AA的 共現(xiàn)頻次LF = (F1,…Fj ;
[0057] 計(jì)算獲得左信息熵LH(AA):
[0058] LH(AA) = - Ef=O P(W; |AA) * l〇gP(Wj |AA) (7);
[0059] 所述右信息熵RH(AA)的計(jì)算步驟包括:
[0060] 統(tǒng)計(jì)AA的右鄰接詞W集合RAd jWordSet = (W1,... WJ,及對(duì)應(yīng)的左鄰接詞和AA的 共現(xiàn)頻次RF = (F1,…FJ ;
[0061] 計(jì)算獲得右信息熵RH(AA):
[0062] RH(AA) =P(WiIAA) * IogP(WiIAA) (8);
[0063] 上述 P(WiIAA) =
[0064] 優(yōu)選的,所述利用五元組模型對(duì)分詞后的預(yù)料進(jìn)行統(tǒng)計(jì)的步驟中,還包括分別統(tǒng) 計(jì)候選疊詞的出現(xiàn)頻率的步驟:遍歷AAB式、ABB式、AA式、ABA式、ABAB式、AABB式疊詞候 選集中的候選疊詞,統(tǒng)計(jì)得到AAB式、ABB式、AA式、ABA式、ABAB式、AABB式候選疊詞的出 現(xiàn)頻率分別為:
[0065] Count(AAB) = Eil=lABl{freq(ei)|e i G SAAB};
[0066] Count(ABB) = EjiiBBl{freq(ei)|ei e SABB};
[0067] Count(AA) = G SAA};
[0068] Count(ABA) = 2|hBAl{freq(ei)Iei G SABA};
[0069] Count(ABAB) = I]|=iBABl{freq(ei)|ei G SABAB|;
[0070] Count(AABB) = E|!:tABB丨{freq(ei)|e; e SAABB}。
[0071] 優(yōu)選的,所述預(yù)設(shè)疊詞度閾值為3. 5,所述預(yù)設(shè)信息熵閾值為2. 0。
[0072] 有益效果:本發(fā)明利用結(jié)構(gòu)合理的五元組模型對(duì)分詞后的語料進(jìn)行統(tǒng)計(jì)以獲得各 類疊詞候選集;并在此基礎(chǔ)上,通過疊詞度的運(yùn)算判斷實(shí)現(xiàn)AAB式、ABB式、ABA式、ABAB式、 AABB式疊詞的自動(dòng)獲??;并在疊詞度判斷的基礎(chǔ)上,進(jìn)一步通過左、右鄰接熵的運(yùn)算判斷 實(shí)現(xiàn)AA式疊詞的自動(dòng)獲取。本發(fā)明根據(jù)結(jié)構(gòu)合理的五元組模型獲得的統(tǒng)計(jì)信息,結(jié)合疊詞 度和信息熵的判斷,實(shí)現(xiàn)了疊詞的量化判斷和自動(dòng)獲取,經(jīng)實(shí)驗(yàn)證明,本發(fā)明準(zhǔn)確率高,有 利于更為更為精準(zhǔn)的開展自然語言的信息化處理工作,可廣泛推廣使用。如結(jié)合到中文文 本自動(dòng)校對(duì)領(lǐng)域中,疊詞的自動(dòng)獲取,可以有效改善"將疊詞當(dāng)做插入錯(cuò)誤"的誤判,也可以 避免矯枉過正,將"不是疊詞卻類似疊詞式的插入錯(cuò)誤"被全部過濾掉而產(chǎn)生的漏判,在自 然語言處理領(lǐng)域中具有十分明顯的實(shí)用意義。
[0073] 對(duì)本發(fā)明進(jìn)行大規(guī)模語料(8G)中自動(dòng)獲取疊詞的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明:本發(fā)明提 供的漢語疊詞的自動(dòng)獲取方法能有效的獲得漢語疊詞,本發(fā)明在試驗(yàn)語料中獲得"AA"式疊 詞1012個(gè)、"AAB"式疊詞3512個(gè)、"ABB"式疊詞980個(gè),"ABA"式疊詞6350個(gè)、"ABAB"式 疊詞2958個(gè),"AABB"式疊詞1175個(gè)。統(tǒng)計(jì)分析后得知,本發(fā)明提供的漢語疊詞的自動(dòng)獲 取方法,其疊詞獲取的準(zhǔn)確率高達(dá)85. 7%。
【專利附圖】
【附圖說明】
[0074] 圖1是實(shí)施例中的漢語疊詞的自動(dòng)獲取方法的流程圖。
【具體實(shí)施方式】
[0075] 下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作更進(jìn)一步的說明。
[0076] 根據(jù)漢語疊詞的定義,對(duì)疊詞進(jìn)行如下分類:"AA"、"AAB"、"ABB"、"ABA"、"AABB"、 "ABAB"、"AABC"、"BCAA" 和 "ABAC"。對(duì)于 "ABAC"、"BCAA"、"AABC" 型疊詞一般都是固定的 表達(dá)法,大部分收錄在漢語成語詞典中。本發(fā)明是針對(duì)"AA"、"AAB"、"ABB"、"ABA"、"ABAB"、 "AABB"這六種類型的疊詞進(jìn)行自動(dòng)獲取。
[0077] 如圖1所示,本實(shí)施例提供的漢語疊詞的自動(dòng)獲取方法,包括以下步驟:
[0078] 1.利用五元組模型對(duì)分詞后的語料進(jìn)行統(tǒng)計(jì)的步驟,包括:
[0079] I. 1五元組模型統(tǒng)計(jì)的步驟:
[0080] 疊詞自動(dòng)獲取需要對(duì)疊詞模式串進(jìn)行統(tǒng)計(jì)以及對(duì)其上下文信息進(jìn)行統(tǒng)計(jì),為了便 于對(duì)大規(guī)模語料進(jìn)行統(tǒng)計(jì)和存儲(chǔ),以方便后面疊詞的計(jì)算和判斷,本發(fā)明對(duì)分詞后的語料, 根據(jù)疊詞的定義、類型以及分詞后的模式,利用五元組模型來統(tǒng)計(jì)滿足AAB式、ABB式、AA 式、ABA式、ABAB式、AABB式疊詞模式的五元組。
[0081] 所述五元組模型用于表示和統(tǒng)計(jì)詞與詞之間的關(guān)系,為:Five-Element Model = (leftfford, leftlnterval, word, rightlnterval, rightfford);
[0082] 其中:word為當(dāng)前統(tǒng)計(jì)的詞,IeftWord是與詞word左邊相隔距離為 leftlnterval 的詞;leftlnterval 表不 word 與 IeftWord 之間的距離;rightWord 是與詞 word右邊相隔距離為rightlnterval的詞;rightlnterval表不word與rightWord之間的 距離。
[0083] 當(dāng) leftlnterval = 0 時(shí)表不 IeftWord 與 word 是相鄰,當(dāng) leftlnterval = 1 時(shí) 表不IeftWord與word中間隔一個(gè)詞,以此類推,rightlnterval的含義與leftlnterval類 似。五元組模型統(tǒng)計(jì)中,IeftIntervaK = 2, rightlnterval〈 = 2,本發(fā)明經(jīng)實(shí)驗(yàn)判斷,窗 口寬度為[_1,1]已經(jīng)包含了足夠的語義信息和上下文詞的信息。
[0084] 由于疊詞是相鄰的詞,因此,只需要考慮leftlnterval和rightlnterval相等且 為0的五元組模型,因此本實(shí)施例中:
[0085] 所述 AAB 式五元組模型包括(A, 0, AB, 0, *),(*,0, A, 0, AB),(AA, 0, B, 0, *), (A,0, A,0, B),(*,0, AA,0, B);
[0086] 所述 ABB 式五元組模型包括(A,0, B,0, B),(A,0, BB,0, *),(*,0, A,0, BB), (AB,0, B,0, *),(*,0, AB,0, B);
[0087] 所述 AA 式五元組模型包括(*,0, A, 0, A), (*,0, AA, 0, *), (A, 0, A, 0, *);
[0088] 所述ABA式五元組模型包括(A,0, B,0, A),其中B是一個(gè)單字詞;
[0089] 所述 ABAB 式五元組模型包括(AB, 0, AB, 0, *),〇, 0, AB, 0, AB);
[0090] 所述 AABB 式五元組模型包括(AA, 0, BB, 0, *),(*,0, AA, 0, BB);
[0091] 上述五元組中的代表任意詞。
[0092] 1. 2疊詞模式候選獲取的步驟:將上述統(tǒng)計(jì)獲得的滿足五元組模型疊詞模式的五 元組模式串,作為候選疊詞加入到對(duì)應(yīng)的AAB式、ABB式、AA式、ABA式、ABAB式、AABB式疊 詞候選集中去,其中:
[0093] AAB 式疊詞候選集為:SAAB = {(A,0, AB,*),(*,0, A,0, AB),(AA,0, B,0,,*), (A,0, A,0, B),(*,0, AA,0, B)};
[0094] ABB 式疊詞候選集為:SABB = {(A,0, B,0, B),(A,0, BB,0, *),(*,0, A,0, BB), (AB,0, B,0, *),(*,0, AB,0, B)};
[0095] AA 式疊詞候選集為:SAA = {(*,0, A,0, A),(*,0, AA,0, *),(A,0, A,0, *)};
[0096] ABA式疊詞候選集為:SABA ={ (A,0, B,0, A),其中B是一個(gè)單字詞};
[0097] ABAB 式疊詞候選集為:SABAB = {(AB,0, AB,0, *),(*,0, AB,0, AB)};
[0098] AABB 式疊詞候選集為:SAABB = {(AA,0, BB,0, *),(*,0, AA,0, BB)}。
[0099] 1. 3統(tǒng)計(jì)候選疊詞出現(xiàn)頻率的步驟(圖中未示出):遍歷AAB式、ABB式、AA式、ABA 式、ABAB式、AABB式疊詞候選集中的候選疊詞,統(tǒng)計(jì)得到AAB式、ABB式、AA式、ABA式、ABAB 式、AABB式候選疊詞的出現(xiàn)頻率分別為:
【權(quán)利要求】
1. 一種漢語疊詞的自動(dòng)獲取方法,其特征在于包括以下步驟: 利用五元組模型對(duì)分詞后的語料進(jìn)行統(tǒng)計(jì)的步驟: 對(duì)分詞后的語料,根據(jù)疊詞的定義、類型以及分詞后的模式,利用五元組模型來統(tǒng)計(jì)滿 足AAB式、ABB式、AA式、ABA式、ABAB式、AABB式疊詞模式的五元組,并作為候選疊詞加入 到對(duì)應(yīng)的AAB式、ABB式、AA式、ABA式、ABAB式、AABB式疊詞候選集中去; 自動(dòng)獲取AAB式、ABB式、ABA式、ABAB式、AABB式疊詞的步驟: 遍歷AAB式、ABB式、ABA式、ABAB式、AABB式疊詞候選集中的候選疊詞,逐一計(jì)算疊 詞度,將疊詞度大于預(yù)設(shè)疊詞度閾值的候選疊詞列入疊詞庫(kù),以實(shí)現(xiàn)語料中AAB式、ABB式、 ABA式、ABAB式、AABB式疊詞的自動(dòng)獲取; 自動(dòng)獲取AA式疊詞的步驟: 遍歷對(duì)應(yīng)的AA式疊詞候選集中的候選疊詞,逐一計(jì)算疊詞度;對(duì)疊詞度大于預(yù)設(shè)疊詞 度閾值的候選疊詞,計(jì)算其鄰接信息熵,并將鄰接信息熵大于預(yù)設(shè)信息熵閾值的候選疊詞 列入疊詞庫(kù),以實(shí)現(xiàn)語料中AA式疊詞的自動(dòng)獲取。
2. 根據(jù)權(quán)利要求1所述的漢語疊詞的自動(dòng)獲取方法,其特征在于: 所述利用五元組模型對(duì)分詞后的預(yù)料進(jìn)行統(tǒng)計(jì)的步驟中, 所述五元組模型用于表示和統(tǒng)計(jì)詞與詞之間的關(guān)系,為:Five-Element Model = (Ief tfford, leftlnterval, word, rightlnterval, rightfford); 其中:word為當(dāng)前統(tǒng)計(jì)的詞,IeftWord是與詞word左邊相隔距離為IeftInterval的 詞;leftlnterval表不word與IeftWord之間的距離;rightWord是與詞word右邊相隔距 離為 rightlnterval 的詞;rightlnterval 表不 word 與 rightWord 之間的距離; 所述 AAB 式五元組模型包括(A, 0, AB, 0, *),(*,0, A, 0, AB),(AA, 0, B, 0, *), (A, 0, A, 0, B), (*, 0, AA, 0, B); 所述 ABB 式五元組模型包括(A, 0, B, 0, B),(A, 0, BB, 0, *),(*,0, A, 0, BB), (AB,0, B,0, *),(*,0, AB,0, B); 所述 AA 式五元組模型包括(*,0, A, 0, A), (*,0, AA, 0, *), (A, 0, A, 0, *); 所述ABA式五元組模型包括(A,0, B,0, A),其中B是一個(gè)單字詞; 所述 ABAB 式五元組模型包括(AB,0, AB,0, *),(*,0, AB,0, AB); 所述 AABB 式五元組模型包括(AA,0, BB,0, *),(*,0, AA,0, BB); 上述五元組中的代表任意詞; 所述 AAB 式疊詞候選集為:SAAB = {(A,0, AB,*),(*,0, A,0, AB),(AA,0, B,0,,*), (A,0, A,0, B),(*,0, AA,0, B)}; 所述 ABB 式疊詞候選集為:SABB = {(A,0, B,0, B),(A,0, BB,0, *),(*,0, A,0, BB), (AB,0, B,0, *),(*,0, AB,0, B)}; 所述 AA 式疊詞候選集為:SAA = {(*,0, A, 0, A), (*,0, AA, 0, *),(A, 0, A, 0, *)}; 所述ABA式疊詞候選集為:SABA ={ (A,0, B,0, A),其中B是一個(gè)單字詞}; 所述 ABAB 式疊詞候選集為:SABAB ={ (AB,0, AB,0, *),(*,0, AB,0, AB)}; 所述 AABB 式疊詞候選集為:SAABB ={ (AA,0, BB,0, *),(*,0, AA,0, BB)}。
3. 根據(jù)權(quán)利要求1所述的漢語疊詞的自動(dòng)獲取方法,其特征在于: 所述自動(dòng)獲取AAB式、ABB式、ABA式、ABAB式、AABB式疊詞的步驟和自動(dòng)獲取AA式疊 詞的步驟中,所述疊詞度ComDegree用于表示疊詞的內(nèi)部組成部分的結(jié)合程度: 所述AAB式疊詞的疊詞度為:
斷械A(chǔ)RR =F?*愚福的愚福瘡士 .
所述AA式疊詞的疊詞度為:
所述ABA式疊詞的疊詞度為:
所述ABAB式疊詞的疊詞度為:
所述AABB式疊詞的疊詞度為:
其中P(W)表示詞W在語料中的出現(xiàn)概率,min (X,Y)表示最小值函數(shù)。
4. 根據(jù)權(quán)利要求1所述的漢語疊詞的自動(dòng)獲取方法,其特征在于:所述自動(dòng)獲取AA式 疊詞的步驟中,所述鄰接信息熵H(AA)包括左信息熵LH(AA)和右信息熵RH(AA); 所述左信息熵LH(AA)的計(jì)算步驟包括: 統(tǒng)計(jì)AA的左鄰接詞W集合LAdjWordSet = (W1,... WJ,及對(duì)應(yīng)的左鄰接詞和AA的共 現(xiàn)頻次LF = (F1,…Fj ; 計(jì)算獲得左信息熵LH(AA):
所述右信息熵RH(AA)的計(jì)算步驟包括: 統(tǒng)計(jì)AA的右鄰接詞W集合RAdjWordSet = (W1,... WJ,及對(duì)應(yīng)的左鄰接詞和AA的共 現(xiàn)頻次RF = (F1,…Fj ; 計(jì)算獲得右信息熵RH(AA):
5. 根據(jù)權(quán)利要求2所述的漢語疊詞的自動(dòng)獲取方法,其特征在于: 所述利用五元組模型對(duì)分詞后的預(yù)料進(jìn)行統(tǒng)計(jì)的步驟中,還包括分別統(tǒng)計(jì)候選疊詞的 出現(xiàn)頻率的步驟:遍歷AAB式、ABB式、AA式、ABA式、ABAB式、AABB式疊詞候選集中的候選 疊詞,統(tǒng)計(jì)得到AAB式、ABB式、AA式、ABA式、ABAB式、AABB式候選疊詞的出現(xiàn)頻率分別為:
6.根據(jù)權(quán)利要求1所述的漢語疊詞的自動(dòng)獲取方法,其特征在于:所述預(yù)設(shè)疊詞度閾 值為3. 5,所述預(yù)設(shè)信息熵閾值為2. 0。
【文檔編號(hào)】G06F17/27GK104375986SQ201410720547
【公開日】2015年2月25日 申請(qǐng)日期:2014年12月2日 優(yōu)先權(quán)日:2014年12月2日
【發(fā)明者】劉亮亮, 吳健康, 馬健 申請(qǐng)人:江蘇科技大學(xué)