專利名稱:用hmm計(jì)算語言結(jié)構(gòu)、進(jìn)行分詞、機(jī)器翻譯和語音識(shí)別的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種自然語言處理方法,尤其涉及一種采用隱馬爾可夫模型建模和計(jì)算自然語言結(jié)構(gòu)的方法以及利用上述方法進(jìn)行自然語言分詞、機(jī)器翻譯和語音識(shí)別的方法。
背景技術(shù):
用于語音識(shí)別的語言模型(LM)通常是基于統(tǒng)計(jì)學(xué)的N元模型,而用于句法分析的通常是基于產(chǎn)生式規(guī)則的上下文無關(guān)文法(CFG)。盡管N元模型用于語音識(shí)別取得了一定的成功,但是它依然有著相當(dāng)?shù)木窒?。其中的一些局限是它不能表達(dá)語言中長(zhǎng)距離語言單元之間的語法依賴性,也不能給出一個(gè)句子中的句法結(jié)構(gòu)。
已經(jīng)用于一些語言技術(shù)產(chǎn)品中的上下文無關(guān)文法,往往使用成千上萬條手編規(guī)則來描述各種短語類型。然而一方面這些手編規(guī)則是難于完備的,另一方面當(dāng)其達(dá)到一定規(guī)模時(shí)它們常常是難于維護(hù)和擴(kuò)充的。雖然另一種樹庫語法靠構(gòu)造大規(guī)模的樹庫擺脫了手工編制規(guī)則,使得人們可以從樹庫中的句法樹中讀取規(guī)則,但是隨著語料庫的增大,規(guī)則集合的規(guī)模也迅速增大。即使人們無須考慮這個(gè)開銷,要從中獲得完備的語法依然是非常困難的。
另一種稱為面向數(shù)據(jù)的分析技術(shù)把經(jīng)過標(biāo)注的語料庫看作為一個(gè)語法,當(dāng)輸入一個(gè)新的語言現(xiàn)象時(shí),系統(tǒng)通過對(duì)語料庫中片段單元的組合操作來組合分析過程,根據(jù)所有單元的共現(xiàn)頻率來評(píng)估最有可能的分析結(jié)果。然而很明顯,這樣一個(gè)語法也很難具有完備性。
近年來將統(tǒng)計(jì)手段和語言學(xué)知識(shí)相結(jié)合的趨勢(shì)是很明顯的,人們公認(rèn)這種結(jié)合是實(shí)現(xiàn)句法分析和語言建模的正確途徑。然而當(dāng)前有關(guān)方法的原理通常都是將概率機(jī)制引入基于規(guī)則的語法如上下文無關(guān)文法或樹庫語法,這雖然獲得了一些改進(jìn),使得在有多種句法分析結(jié)果時(shí)可以依靠概率手段來選擇,然而基于規(guī)則的語法如上下文無關(guān)文法或樹庫語法本身的缺點(diǎn)依然存在,N元文法又會(huì)造成語法結(jié)構(gòu)的不完整。此外,當(dāng)前的統(tǒng)計(jì)語言模型對(duì)文本風(fēng)格、主題等的變化非常敏感,而由越來越大的語料庫所帶來的改善正趨于極限。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種采用隱馬爾可夫模型(HMM)建模和計(jì)算語言結(jié)構(gòu)的方法,能高效且完備地表達(dá)和計(jì)算自然語言的語法結(jié)構(gòu),特別是其中的遞歸和并列。相應(yīng)地,本發(fā)明還提供了借助上述的隱馬爾可夫模型對(duì)自然語言的建模方法,對(duì)例如漢語或其類似的自然語言進(jìn)行分詞的方法,進(jìn)行機(jī)器翻譯的方法以及進(jìn)行語音識(shí)別的方法。
本發(fā)明的技術(shù)方案為本發(fā)明提高了一種采用隱馬爾可夫模型計(jì)算語言結(jié)構(gòu)的方法,包括 (1)建立該語言的分級(jí)建筑塊語法; (2)建立該語言的隱馬爾可夫模型的語法,設(shè)計(jì)該語言隱馬爾可夫模型的拓?fù)浣Y(jié)構(gòu); (3)對(duì)訓(xùn)練語料庫進(jìn)行人工標(biāo)注以形成該語言隱馬爾可夫模型的參數(shù)值或拓?fù)浣Y(jié)構(gòu),同時(shí)可人工增刪和/或更改該語言隱馬爾可失模型的參數(shù)和拓?fù)浣Y(jié)構(gòu); (4)利用隱馬爾可夫模型理論對(duì)測(cè)試語料庫測(cè)試該語言隱馬爾可夫模型的參數(shù)和拓?fù)浣Y(jié)構(gòu)的準(zhǔn)確性,分析測(cè)試結(jié)果,并根據(jù)該結(jié)果對(duì)上述參數(shù)和拓?fù)浣Y(jié)構(gòu)進(jìn)行或人工或自動(dòng)的調(diào)整; (5)利用隱馬爾可夫模型理論計(jì)算待分析句子的語法結(jié)構(gòu),同時(shí)采用與(4)類似的機(jī)制,繼續(xù)完善該語言隱馬爾可夫模型的拓?fù)浣Y(jié)構(gòu)和參數(shù)。
上述的采用隱馬爾可夫模型計(jì)算語言結(jié)構(gòu)的方法,其中,該分級(jí)建筑塊語法采用有向圖數(shù)據(jù)結(jié)構(gòu),將各有關(guān)語言單位在平面或直線上進(jìn)行有機(jī)排列和相互連接以表示語言結(jié)構(gòu),特別是采用分級(jí)手段表達(dá)其遞歸結(jié)構(gòu)。
上述的采用隱馬爾可夫模型計(jì)算語言結(jié)構(gòu)的方法,其中,該隱馬爾可夫模型語法在該分級(jí)建筑塊語法和一個(gè)詞性語言模型之間作了適當(dāng)?shù)钠胶?,? 合并該分級(jí)建筑塊語法中功能相似的語言單位,合并后的語言單位就是隱馬爾可夫模型語法的最終狀態(tài); 同時(shí)添加相反的連接方向,實(shí)現(xiàn)遞歸表達(dá)。
上述的采用隱馬爾可夫模型計(jì)算語言結(jié)構(gòu)的方法,其中,該隱馬爾可夫模型語法用到的任何語言單位,都占有一個(gè)和一個(gè)以上的狀態(tài)。
上述的采用隱馬爾可夫模型計(jì)算語言結(jié)構(gòu)的方法,其中,步驟(3)是對(duì)該訓(xùn)練語料庫的全部進(jìn)行人工標(biāo)注以形成該語言隱馬爾可夫模型的參數(shù)值或拓?fù)浣Y(jié)構(gòu)。
上述的采用隱馬爾可夫模型計(jì)算語言結(jié)構(gòu)的方法,其中,步驟(3)是對(duì)該訓(xùn)練語料庫的一部分進(jìn)行人工標(biāo)注以形成該語言隱馬爾可夫模型的參數(shù)初始值或初始拓?fù)浣Y(jié)構(gòu),再利用隱馬爾可夫模型理論對(duì)剩余的或全部的訓(xùn)練語料計(jì)算該語言隱馬爾可夫模型的參數(shù)值或拓?fù)浣Y(jié)構(gòu)。
上述的采用隱馬爾可夫模型計(jì)算語言結(jié)構(gòu)的方法,其中,所述步驟(3)、(4)和(5)可反復(fù)進(jìn)行以獲得越來越精確的參數(shù)。
另一方面,本發(fā)明提供了一種采用隱馬爾可夫模型進(jìn)行語言分詞的方法,包括 以上述的方法建立該語言的隱馬爾可夫模型; 將待分詞的句子進(jìn)行各種可能的分詞后的序列作為該語言隱馬爾可夫模型的輸入; 選擇概率最大的輸出所對(duì)應(yīng)的分詞序列,同時(shí)得到最佳語法結(jié)構(gòu)。
另一方面,本發(fā)明還提供了一種采用隱馬爾可夫模型進(jìn)行機(jī)器翻譯的方法,將源語言翻譯成目標(biāo)語言,所述方法包括 (1)源語言和目標(biāo)語言進(jìn)行細(xì)致的句型分類并找到它們之間的對(duì)應(yīng)關(guān)系; (2)以上述的方法建立源語言和目標(biāo)語言的隱馬爾可夫模型,并獲得模型參數(shù); (3)用Viterbi算法和步驟(2)的模型參數(shù)對(duì)待翻譯的源語言句子進(jìn)行計(jì)算,得到其語法結(jié)構(gòu)及分詞序列; (4)搜索目標(biāo)語言的全部句型,找出其與步驟(3)的語法結(jié)構(gòu)相對(duì)應(yīng)的句型; (5)在相應(yīng)句型對(duì)之間進(jìn)行相應(yīng)的單詞置換。
除此之外,本發(fā)明還提供了一種采用隱馬爾可夫模型進(jìn)行語音識(shí)別的方法,包括 (1)以上述的方法建立語言的隱馬爾可夫模型; (2)把聲學(xué)隱馬爾可夫模型和語言隱馬爾可夫模型合在一起作為一個(gè)整體的隱馬爾可夫模型; (3)用Viterbi算法計(jì)算該整體的隱馬爾可夫模型的最佳狀態(tài)序列。
本發(fā)明相對(duì)現(xiàn)有技術(shù)有如下的有益效果本發(fā)明將自然語言中的句子看做一段觀察符號(hào)序列,根據(jù)語音信號(hào)和語言信號(hào)的相似性,將在語音識(shí)別中成功運(yùn)用的HMM技術(shù)全面引入到自然語言的自動(dòng)語法分析中來。本發(fā)明徹底放棄了現(xiàn)有技術(shù)中對(duì)N元文法和基于規(guī)則語法如上下文無關(guān)語法的依賴性,而這些語法不能夠完備和高效地表達(dá)自然語言的語法結(jié)構(gòu),特別是其中的遞歸和并列。本發(fā)明以最佳方式并最大限度地利用了人類有史以來積聚的語言學(xué)知識(shí),從而對(duì)語料庫和訓(xùn)練文本的風(fēng)格的依賴性顯著降低,對(duì)數(shù)據(jù)稀疏問題有更為合理的解決方案。除此之外,本發(fā)明還具有良好的擴(kuò)充性,并能夠完備和高效地表達(dá)和計(jì)算自然語言的語法結(jié)構(gòu),特別是其中的遞歸和并列。
圖1是本發(fā)明的采用隱馬爾可夫模型計(jì)算語言結(jié)構(gòu)的方法的實(shí)施例的流程圖。
圖2是本發(fā)明的HMM語法設(shè)計(jì)中第二部分句子結(jié)構(gòu)的設(shè)計(jì)示意圖。
圖3是本發(fā)明的利用HMM理論對(duì)LHMM的拓?fù)浣Y(jié)構(gòu)的參數(shù)甚至結(jié)構(gòu)本身進(jìn)行訓(xùn)練和測(cè)試的流程圖。
圖4是本發(fā)明的利用LHMM對(duì)漢語以及類似語言進(jìn)行分詞的方法的流程圖。
圖5是本發(fā)明的利用LHMM對(duì)漢語以及類似語言進(jìn)行機(jī)器翻譯的方法的流程圖。
圖6是本發(fā)明的利用LHMM進(jìn)行語音識(shí)別的方法的流程圖。
具體實(shí)施例方式 下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的描述。
圖1示出了本發(fā)明的采用隱馬爾可夫模型計(jì)算語言結(jié)構(gòu)的方法,請(qǐng)參見圖1,下面是對(duì)該方法流程中各步驟的詳細(xì)描述。
步驟S1建立該自然語言的分級(jí)建筑塊語法(GBBG)。
GBBG語法的特征是提供了有關(guān)語言單位在平面或直線上進(jìn)行有機(jī)排列和相互連接以表達(dá)語言結(jié)構(gòu)特別是語言遞歸和并列的方式,也就是采用有向圖數(shù)據(jù)結(jié)構(gòu)表達(dá)自然語言的語法結(jié)構(gòu),特別是任意級(jí)別的遞歸模式。更具體說就是,把有關(guān)的簡(jiǎn)單短語、簡(jiǎn)單分句看作基本的語言建筑塊,各種等級(jí)的遞歸就能用這些基本建筑塊來表示。盡管簡(jiǎn)單短語、簡(jiǎn)單分句在不同語言中的定義有所差別,但共同點(diǎn)都是不存在任何遞歸,并能組合起來后有效地表達(dá)各種遞歸。
下面主要以英語為例,說明GBBG語法中各級(jí)別建筑塊的構(gòu)造和對(duì)語言結(jié)構(gòu)特別是其遞歸的表達(dá)。
1.S級(jí)建筑塊 S級(jí)建筑塊就是基本建筑塊,即,S級(jí)名詞短語SNP、S級(jí)介詞短語SPP、S級(jí)形容詞短語SAP、S級(jí)動(dòng)詞短語SVP、S級(jí)基本分句SC0、S級(jí)句首狀語SAh、S級(jí)句尾狀語SAt、S級(jí)分句SC。這些建筑塊一個(gè)套一個(gè),最終組成了S級(jí)分句SC。除了這些之外,還有一種S級(jí)建筑塊是組成M級(jí)建筑塊和M級(jí)分句的組塊,即動(dòng)詞非謂語形式建筑塊SV*P。
SNP的構(gòu)成是“(限定詞)+(前置修飾語)+[名詞中心詞]”,在本實(shí)施例中,一般來說圓括號(hào)表示可選項(xiàng),方括號(hào)表示必選項(xiàng)。但這也不是絕對(duì)的,例如,英語中“The important is....”中的中心詞就省略了;漢語中也可以有類似的省略“重要的是...”。另外,這里的[名詞中心詞]顯然也包括各種處于這個(gè)位置的詞,如代詞等。
SPP的構(gòu)成是“[介詞]+[SNP]”,如果是漢語的話,則SNP后常有方位詞,而介詞常省略。
SAP的構(gòu)成是“(副詞)+[形容詞]+(SPP)”。
SVP(可包括動(dòng)詞的各種時(shí)態(tài)語態(tài))可分為5種S級(jí)不及物動(dòng)詞短語SViP、S級(jí)系動(dòng)詞短語SV1P、S級(jí)及物動(dòng)詞短語SVtP、S級(jí)復(fù)合及物動(dòng)詞短語SVcP、S級(jí)雙賓語及物動(dòng)詞短語SVdP。
SViP的構(gòu)成是“(副詞)+(助動(dòng)詞)+(副詞,SPP)+[不及物動(dòng)詞Vi]+(SPP,副詞)”。
為簡(jiǎn)便起見,以下的動(dòng)詞短語結(jié)構(gòu)說明將略去“(副詞)+(助動(dòng)詞)+(副詞,SPP)”。
SV1P的構(gòu)成是“[系動(dòng)詞V1]+[SNP,SPP,SAP,少量副詞]”。
SVtP的構(gòu)成是“[及物動(dòng)詞Vt]+[SNP]”。
SVcP的構(gòu)成是“[復(fù)合及物動(dòng)詞Vc]+[SNP]+[SNP,SPP,SAP,少量副詞]”。
SVdP的構(gòu)成是“[雙賓語及物動(dòng)詞Vd]+(SNP)+[SNP]+(to,for)+(SNP)”。
SC0的構(gòu)成是“[SNP]+[SVP]”。
SAh、SAt的構(gòu)成是“[SPP,SAP,副詞]”。
SC的構(gòu)成是“(SAh)+[SC0]+(SAt)”。
SV*P可分為不定式短語SVin*P、現(xiàn)在分詞和過去分詞短語SVing*P、SVed*P。
SVin*P的構(gòu)成是“(for)+(SNP)+[to]+[SVP]+(SAt)”。
SVing*P的構(gòu)成是“(SNP,所有格SNP)+[SVingP]+(SAt)”。
SVed*P的構(gòu)成是“(SNP)+[SVedP]+(SAt)”。
[SVingP]和[SVedP]分別是[SVP]的現(xiàn)在分詞形式和過去分詞形式。
2.M級(jí)建筑塊 M級(jí)建筑塊是M級(jí)名詞短語MNP、M級(jí)介詞短語MPP、M級(jí)形容詞短語MAP、M級(jí)動(dòng)詞短語MVP、M級(jí)基本分句MC0、M級(jí)句首狀語MAh、M級(jí)句尾狀語MAt、M級(jí)分句MC。這些建筑塊一個(gè)套一個(gè),最終組成了M級(jí)分句MC。除了這些之外,還有一種M級(jí)建筑塊是組成L級(jí)建筑塊和L級(jí)分句的組塊,即動(dòng)詞非謂語形式建筑塊MV*P。
MNP的構(gòu)成是“[SNP]+(逗號(hào)等)+(SNP,SPP,SAP,SV*P,SC,少量副詞)”。
英語中蘊(yùn)涵遞歸的修飾語通常放在[SNP]后面;而漢語中蘊(yùn)涵遞歸的修飾語通常放在[SNP]前面。此外作為從句的SC中的引導(dǎo)詞將認(rèn)為已包含在里面。后面的M級(jí)分句MC、L級(jí)分句LC等都類同。
MPP的構(gòu)成是“[介詞]+[MNP,SVing*P,SC]”,如果是漢語的話,則MNP后常有方位詞,而介詞常省略。
MAP的構(gòu)成是“(副詞)+[形容詞]+(MPP,SVing*P,SC)”。
MVP(可包括動(dòng)詞的各種時(shí)態(tài)語態(tài))可分為5種M級(jí)不及物動(dòng)詞短語MViP、M級(jí)系動(dòng)詞短語MV1P、M級(jí)及物動(dòng)詞短語MVtP、M級(jí)復(fù)合及物動(dòng)詞短語MVcP、M級(jí)雙賓語及物動(dòng)詞短語MVdP。
MViP的構(gòu)成是“(副詞)+(助動(dòng)詞)+(副詞,MPP)+[不及物動(dòng)詞Vi]+(MPP,SV*P,SC,副詞)”。
為簡(jiǎn)便起見,以下的動(dòng)詞短語結(jié)構(gòu)說明將略去“(副詞)+(助動(dòng)詞)+(副詞,MPP)”。
MV1P的構(gòu)成是“[系動(dòng)詞V1]+[MNP,MPP,MAP,SV*P,SC,少量副詞]”。
MVtP的構(gòu)成是“[及物動(dòng)詞Vt]+[MNP,SVin*P,SVing*P,SC]”。
MVcP的構(gòu)成是“[復(fù)合及物動(dòng)詞Vc]+[MNP,SC]+[MNP,MPP,MAP,SV*P,SC,少量副詞]”。
MVdP的構(gòu)成是“[雙賓語及物動(dòng)詞Vd]+(MNP)+[MNP,SC]+(to,for)+(MNP,SC)”。
MC0的構(gòu)成是“[MNP,SV*P,SC]+[MVP]”。
MAh、MAt的構(gòu)成是“[MPP,MAP,SV*P,SC,副詞]”。
MC的構(gòu)成是“(MAh)+[MC0]+(MAt)”。
MV*P可分為不定式短語MVin*P、現(xiàn)在分詞和過去分詞短語MVing*P、MVed*P。
MVin*P的構(gòu)成是“(for)+(MNP)+[to]+[MVP]+(MAt)”。
MVing*P的構(gòu)成是“(MNP,所有格MNP)+[MVingP]+(MAt)”。
MVed*P的構(gòu)成是“(MNP)+[MVedP]+(MAt)”。
[MVingP]和[MVedP]分別是[MVP]的現(xiàn)在分詞形式和過去分詞形式。
3.L級(jí)建筑塊 L級(jí)及以上級(jí)建筑塊遵循與M級(jí)建筑塊完全類似的分布和構(gòu)造規(guī)則。例如L級(jí)名詞短語LNP的構(gòu)造為“[MNP]+(逗號(hào)等)+(MNP,MPP,MAP,MV*P,MC)”。
4.說明與小結(jié) 上述分級(jí)建筑塊語法的特征是采用有向圖數(shù)據(jù)結(jié)構(gòu)清晰地表達(dá)了自然語言(本實(shí)施例以英語為例)的語法結(jié)構(gòu),特別是任意級(jí)別的遞歸模式??梢杂貌煌绞絹砜创臓顟B(tài)節(jié)點(diǎn)。當(dāng)把建筑塊特別是較高級(jí)別建筑塊看作狀態(tài)節(jié)點(diǎn)時(shí),有利于語法結(jié)構(gòu)特別是遞歸結(jié)構(gòu)在人眼中的清晰表達(dá),但作為語言的隱馬爾可夫模型(LHMM)的拓?fù)浣Y(jié)構(gòu)中的最終狀態(tài)(利用HMM理論計(jì)算最佳語法結(jié)構(gòu)時(shí)的狀態(tài))會(huì)造成LHMM的統(tǒng)計(jì)參數(shù)的不準(zhǔn)確,事實(shí)上整個(gè)拓?fù)浣Y(jié)構(gòu)就已經(jīng)太粗略以至不準(zhǔn)確了。因?yàn)檎Z音HMM中的狀態(tài)意味著語音信號(hào)的短時(shí)平穩(wěn)性,將語言與語音類比,則LHMM中的狀態(tài)對(duì)應(yīng)著語言的語法單位,而其中所包含的觀察符號(hào)(單詞或相當(dāng)于單詞作用的詞組)應(yīng)該具有某種相似性,確切地說,應(yīng)該都具有與該語法單位相應(yīng)的語法功能。因此作為L(zhǎng)HMM最終狀態(tài)的應(yīng)該是詞類、詞類的子類、具有標(biāo)志性意義的詞匯、S級(jí)短語、介于S級(jí)短語與詞類之間的次短語等。不難看出上述分級(jí)建筑塊語法中的各級(jí)別建筑塊歸根結(jié)底都能做相應(yīng)的分解(一直分解到最終狀態(tài))。比如SNP可以分解為限定詞、前置修飾語和名詞中心詞,當(dāng)然名詞中心詞還可以繼續(xù)分解為可數(shù)名詞、不可數(shù)名詞、單數(shù)名詞、復(fù)數(shù)名詞、物質(zhì)名詞、抽象名詞等。
上下文無關(guān)文法對(duì)遞歸的表達(dá)采用的是基于規(guī)則的說明式方法,這種方法不能被直接地轉(zhuǎn)換為基于有向圖數(shù)據(jù)結(jié)構(gòu)的分布式方法,即分級(jí)建筑塊語法。
步驟S2建立該語言的隱馬爾可夫模型的語法(HMM語法),設(shè)計(jì)出語言HMM(LHMM)的拓?fù)浣Y(jié)構(gòu)。
詞性語言模型(POS)的拓?fù)浣Y(jié)構(gòu)是一種有向圖數(shù)據(jù)結(jié)構(gòu),但是它的狀態(tài)節(jié)點(diǎn)所代表的語言單位以及它們的互連方式,使得它僅僅是各個(gè)詞類之間的任意連接,這種連接與語法結(jié)構(gòu)無關(guān)。而由上述GBBG語法作為L(zhǎng)HMM的拓?fù)浣Y(jié)構(gòu),盡管它語法結(jié)構(gòu)清晰,狀態(tài)節(jié)點(diǎn)的連接方向基本上都是從左至右,但由于過多的狀態(tài)節(jié)點(diǎn)而不能實(shí)用。
HMM語法的特征是在GBBG語法和詞性語言模型(POS)之間做了適當(dāng)?shù)钠胶狻8唧w說,HMM語法就是盡量合并GBBG語法中功能相似的語法單位,合并后的語言單位就是HMM語法(也即LHMM的拓?fù)浣Y(jié)構(gòu))的最終狀態(tài),同時(shí)添加相反的連接方向,從而實(shí)現(xiàn)高效率的遞歸表達(dá)。例如在GBBG語法的一層套一層的遞歸中反復(fù)出現(xiàn)的有關(guān)語言單位顯然是相似的語法單位,如MNP和LNP中都會(huì)出現(xiàn)的作為中心詞的SNP,甚至作為修飾成分的SNP也可以看作與作為中心詞的SNP相似而合并。定義相似的語言單位合并后為HMM語法的最終狀態(tài),而這種狀態(tài)(以下如果沒有特別提及,“狀態(tài)”就指最終狀態(tài))前已定義。
HMM語法也是對(duì)POS的擴(kuò)充,使其拓?fù)浣Y(jié)構(gòu)由原來的各狀態(tài)節(jié)點(diǎn)的任意連接變?yōu)橛姓Z法意義的連接,從而使其可以表達(dá)語法結(jié)構(gòu)。
下面以英語的主動(dòng)語態(tài)及物動(dòng)詞句型為例,說明HMM語法的設(shè)計(jì)步驟。
1.句子結(jié)構(gòu)的適當(dāng)分解。
把句子結(jié)構(gòu)分為適當(dāng)?shù)膸讉€(gè)部分,比如4個(gè)部分句首狀語、主語、謂語、句尾狀語。本例暫將句子結(jié)構(gòu)分為2個(gè)部分句首狀語+主語;謂語+句尾狀語。這樣分解是為了在大的語法單位之間,比如句首狀語、主語、謂語、句尾狀語之間,建立盡可能單一的連接,以便盡可能獲得語法的準(zhǔn)確性。
2.第二部分句子結(jié)構(gòu)的設(shè)計(jì) 這一步旨在給出句子結(jié)構(gòu)第二部分的狀態(tài)(為了突出HMM語法對(duì)遞歸性的表達(dá),將句子中部通常是副詞以及助動(dòng)詞的狀語除外)的組成與連接。
這部分的動(dòng)詞是后接名詞短語做賓語的及物動(dòng)詞原形V3及其各種形式V3s,ingV3,edV3,后接現(xiàn)在分詞短語做賓語的及物動(dòng)詞原形V31及其各種形式V31s,ingV31,edV31、后接不定式短語做賓語的及物動(dòng)詞原形V32及其各種形式V32s,ingV32,edV32、后接從句做賓語的及物動(dòng)詞原形V33及其各種形式V33s,ingV33,edV33。
充當(dāng)狀態(tài)的還有不定式符號(hào)To、做名詞后置修飾語的過去分詞ed-V3(edV31-edV33邏輯上不適合做名詞修飾語);介詞Prep、形容詞Adj、W-從句引導(dǎo)詞W、that-從句引導(dǎo)詞That、Which-從句引導(dǎo)詞Which、狀語從句引導(dǎo)詞Ad(它也可引導(dǎo)分詞短語作狀語)、簡(jiǎn)單名詞短語SNP(SNP有其更為精密的內(nèi)部結(jié)構(gòu),但在此為便于整體敘述和表示,暫將其看作狀態(tài))以及句子級(jí)并列符號(hào)狀態(tài)和結(jié)束狀態(tài)。
顯然可以且有必要為各狀態(tài)所表達(dá)的語言單位專門設(shè)置并列符狀態(tài),這也是HMM語法對(duì)語言并列現(xiàn)象的表達(dá)方式。
做賓語的名詞短語由于遞歸性,將涉及所有的狀態(tài);這也導(dǎo)致了所有與其有關(guān)聯(lián)的語法單位與其它所有狀態(tài)的連接,遞歸性還表現(xiàn)在從句的嵌套。
圖2給出了第二部分的各個(gè)狀態(tài)以及它們之間的連接方式; 圖2中實(shí)線框內(nèi)可以認(rèn)為是狀態(tài),虛線框內(nèi)的諸狀態(tài)往往具有某種相同的語法性質(zhì),比如線型比較稀疏的4個(gè)虛線框是4種及物動(dòng)詞的謂語形式,而動(dòng)詞ing形式的虛線框的語法功能是充當(dāng)動(dòng)詞非謂語形式,動(dòng)詞原形的虛線框的語法功能是充當(dāng)動(dòng)詞不定式中的動(dòng)詞原形,包含SNP、Adj、ed-V3的虛線框的語法功能是相當(dāng)于一個(gè)較為復(fù)雜的名詞短語,最下面的虛線框的語法功能是可以充當(dāng)該名詞短語的進(jìn)一步的修飾成分。
盡管其它狀態(tài)(或虛線框)到達(dá)這些框內(nèi)各狀態(tài)的轉(zhuǎn)移概率不同,但為簡(jiǎn)明起見,用一根箭頭表示某相應(yīng)狀態(tài)(或某虛線框內(nèi)諸狀態(tài))與另一框內(nèi)所有狀態(tài)的轉(zhuǎn)移關(guān)系。同時(shí),由于相似狀態(tài)的合并,同一個(gè)狀態(tài)可能兼有兩個(gè)或兩個(gè)以上的語法功能。例如,狀態(tài)To引導(dǎo)的不定式既可能是動(dòng)詞賓語,也可能是名詞修飾語,還可能是句尾狀語。同理,虛線框內(nèi)各個(gè)狀態(tài)也可以具有不同的語法功能,例如最下面的虛線框內(nèi),狀態(tài)that引導(dǎo)的從句的語法功能可能是賓語從句或同位語從句因而它的后續(xù)狀態(tài)將是第一部分的初始狀態(tài)如主語或句首狀語等。也可能是定語從句,因而當(dāng)that是邏輯主語,它的后續(xù)狀態(tài)將是本部分的謂語動(dòng)詞;當(dāng)that是邏輯賓語,它的后續(xù)狀態(tài)將是第一部分的初始狀態(tài)如主語或句首狀語等。
在圖2的表示中,到達(dá)或離開實(shí)線框的箭頭表達(dá)的是該狀態(tài)與其他狀態(tài)或狀態(tài)群(虛線框)的轉(zhuǎn)移關(guān)系;到達(dá)或離開虛線線框的箭頭表達(dá)的是該框代表的狀態(tài)群與其他狀態(tài)或狀態(tài)群(虛線框)的轉(zhuǎn)移關(guān)系。在虛線框內(nèi)的狀態(tài)完全可能還有與該虛線框不同的轉(zhuǎn)移關(guān)系。此外,單一箭頭方向表示狀態(tài)(包括虛線框)之間的單向轉(zhuǎn)移;而雙箭頭方向表示狀態(tài)(包括虛線框)之間的雙向轉(zhuǎn)移。
3.第一部分句子結(jié)構(gòu)的設(shè)計(jì) 第二部分和第一部分的結(jié)構(gòu)有很大的相似性。不同之處主要是初始狀態(tài)不同--第二部分的初始狀態(tài)主要是謂語動(dòng)詞而第一部分的初始狀態(tài)主要是表示主語和句首狀語的起始狀態(tài)。具體說,第一部分的初始狀態(tài)主要是SNP*、Adj*、Prep*、To*、W*、That*、Ad*、ed-V3*和ingV3*、ingV31*、ingV32*、ingV33*(加*號(hào)以便與第二部分的相應(yīng)狀態(tài)相區(qū)別)。第一部分的結(jié)束狀態(tài)與第二部分相似,都是SNP*、Adj*、ed-V3*。另外本例的第二部分把從句中的主語和從句首狀語推給了第一部分,那么位于第一部分的從句就必須自己解決類似問題。解決的方案原則上依然是增加相應(yīng)狀態(tài)或(和)相應(yīng)狀態(tài)之間的連接方式,最簡(jiǎn)單的方法是添加各從句引導(dǎo)詞狀態(tài)W*、That*、Ad*、Which*向第一部分各初始狀態(tài)的轉(zhuǎn)移。
本實(shí)施例并不一定是一個(gè)完備的語法結(jié)構(gòu)的表達(dá),如不定式中可能的邏輯主語就沒有出現(xiàn)。但一方面,本例已經(jīng)明示了HMM語法對(duì)語言現(xiàn)象特別是遞歸和并列的表達(dá)手段,另一方面,在下面的步驟S3和S4對(duì)LHMM進(jìn)行訓(xùn)練和計(jì)算時(shí),將有能力把所有遺漏的語言現(xiàn)象增補(bǔ)進(jìn)去。
步驟S3根據(jù)HMM語法對(duì)LHMM的拓?fù)浣Y(jié)構(gòu)和參數(shù)進(jìn)行訓(xùn)練和測(cè)試。
請(qǐng)同時(shí)參見圖3,訓(xùn)練和測(cè)試的詳細(xì)步驟如下。
步驟S31LHMM模型訓(xùn)練。包括首先選擇用于模型訓(xùn)練的自然語言文本(即訓(xùn)練語料庫),然后根據(jù)步驟S2中定義的HMM語法,計(jì)算出LHMM的參數(shù)。計(jì)算LHMM參數(shù)可以有兩種方式。一種是先對(duì)訓(xùn)練語料庫進(jìn)行部分的手工語法標(biāo)注以形成LHMM的初始參數(shù)或初始的拓?fù)浣Y(jié)構(gòu),然后對(duì)訓(xùn)練語料庫中剩余部分或全部,根據(jù)HMM的參數(shù)訓(xùn)練理論計(jì)算出LHMM的參數(shù)或拓?fù)浣Y(jié)構(gòu)。另一種是對(duì)訓(xùn)練語料庫進(jìn)行完全的手工語法標(biāo)注(即對(duì)訓(xùn)練語料庫的全部進(jìn)行手工標(biāo)注)以形成LHMM的參數(shù)。與此同時(shí)也可以人工增刪和更改該語言隱馬爾可夫模型的參數(shù)和拓?fù)浣Y(jié)構(gòu)。
步驟S32LHMM模型測(cè)試。包括首先選擇用于模型測(cè)試的自然語言文本(即測(cè)試語料庫),然后根據(jù)HMM理論計(jì)算出待測(cè)試文本的語法結(jié)構(gòu),最后手工標(biāo)注出待測(cè)試文本的語法結(jié)構(gòu),并與上述計(jì)算出的語法結(jié)構(gòu)對(duì)比,找出差異。
步驟S33LHMM誤差分析。通過分析上述計(jì)算出的語法結(jié)構(gòu)與手工標(biāo)注出的語法結(jié)構(gòu)的差異,找出LHMM參數(shù)所對(duì)應(yīng)的語法結(jié)構(gòu)的局限。如果對(duì)誤差的結(jié)果滿意,則結(jié)束整個(gè)訓(xùn)練和測(cè)試過程,否則進(jìn)入步驟S34。誤差基本可以分為兩類第一類是由于LHMM的參數(shù)甚至拓?fù)浣Y(jié)構(gòu)本身沒有包括相應(yīng)的語法現(xiàn)象,第二類是由于LHMM的參數(shù)不夠精確甚或是統(tǒng)計(jì)機(jī)制本身不可能100%準(zhǔn)確。
步驟S34LHMM參數(shù)調(diào)整。根據(jù)上述的誤差分析以及語法知識(shí),增刪(通常是增加)必要的狀態(tài)、狀態(tài)內(nèi)包含的單詞和/或有關(guān)狀態(tài)之間的轉(zhuǎn)移。這些新增的狀態(tài)之間的轉(zhuǎn)移概率和/或狀態(tài)內(nèi)包含的單詞的出現(xiàn)概率的初始值可以人為地計(jì)算或估算??梢栽诖私Y(jié)束整個(gè)訓(xùn)練和測(cè)試過程,也可以轉(zhuǎn)到步驟S31或者S32,并更新步驟S31所使用的訓(xùn)練語料庫(如果轉(zhuǎn)到步驟S31),也可以更新步驟S32所使用的測(cè)試語料庫。應(yīng)理解,步驟S32~S34可反復(fù)進(jìn)行以獲得越來越精確的參數(shù)。而對(duì)于上述的第一類誤差通過做相應(yīng)的擴(kuò)充去除,第二類誤差也可以通過對(duì)LHMM參數(shù)不斷求精而獲得減少。
步驟S4對(duì)待分析的句子應(yīng)用HMM理論計(jì)算其語法結(jié)構(gòu)。在步驟S3中得到LHMM參數(shù)后,就可以應(yīng)用HMM理論計(jì)算待分析句子的語法結(jié)構(gòu),例如用Viterbi算法。但即使在這里,未考慮到的語言現(xiàn)象也有可能出現(xiàn),這些語言現(xiàn)象所對(duì)應(yīng)的結(jié)構(gòu)和參數(shù)也可以采用與前述類似的手段加到LHMM中去。
除此之外,本發(fā)明還提供了一種利用LHMM對(duì)漢語以及類似語言進(jìn)行分詞的方法。請(qǐng)參見圖4,下面是對(duì)該方法各流程的詳細(xì)描述。
步驟S41以圖3所示實(shí)施例的方法建立該語言的HMM模型,即LHMM模型。
步驟S42把待分詞句子的各種可能的分詞序列作為該LHMM模型的輸入。
步驟S43由HMM理論中的有關(guān)算法如Viterbi算法得到各分詞序列通過該LHMM的概率,選擇概率最大的輸出所對(duì)應(yīng)的分詞序列,同時(shí)得到最佳語法結(jié)構(gòu)。
另一方面,本發(fā)明還提供了利用LHMM對(duì)漢語以及類似語言進(jìn)行機(jī)器翻譯的方法。請(qǐng)參見圖5,下面是對(duì)該方法中各流程的詳細(xì)描述。
步驟S51根據(jù)人類語言學(xué)知識(shí)和大規(guī)模的源語言和目標(biāo)語言語料庫,對(duì)源語言和目標(biāo)語言進(jìn)行細(xì)致的句型分類并找到它們之間的對(duì)應(yīng)關(guān)系,同時(shí)找出源語言和目標(biāo)語言在相應(yīng)句型中單詞的對(duì)應(yīng)關(guān)系。本發(fā)明所指句型包括以各種與機(jī)器翻譯有關(guān)的分類準(zhǔn)則所進(jìn)行的句子分類。
步驟S52根據(jù)上述的語料庫、人類語言學(xué)知識(shí)以及分詞方法,分別進(jìn)行源語言和目標(biāo)語言的HMM語法設(shè)計(jì)、LHMM的訓(xùn)練和測(cè)試,以獲得滿意的模型參數(shù)。
步驟S53用HMM理論中的有關(guān)算法如Viterbi算法和上述LHMM參數(shù)對(duì)待翻譯的源語言句子進(jìn)行計(jì)算,得到最滿意的語法結(jié)構(gòu)和分詞序列。
步驟S54搜索目標(biāo)語言的全部句型,找出其與步驟S53中的語法結(jié)構(gòu)相對(duì)應(yīng)的句型。
步驟S55在相應(yīng)句型對(duì)之間進(jìn)行相應(yīng)的單詞置換。
步驟S56如果用戶對(duì)翻譯結(jié)果不滿意,則修正機(jī)制提供給用戶以下幾種操作提供若干種候選翻譯結(jié)果;判斷步驟S55中單詞置換的正確性;判斷步驟S54中句型對(duì)的正確性;判斷步驟S53中源語言句子的分詞序列和語法分析的正確性;判斷源語言句子本身的正確性。在相應(yīng)的修正或完善機(jī)制中進(jìn)行相應(yīng)的更正。
再一方面,本發(fā)明將上述的LHMM技術(shù)應(yīng)用到語音識(shí)別領(lǐng)域。請(qǐng)參見圖6,下面是對(duì)利用LHMM進(jìn)行語音識(shí)別的方法的各步驟的詳細(xì)描述。
步驟S61設(shè)置參數(shù)。具體地,需要設(shè)置的參數(shù)如下 La(i’,i)是LHMM的狀態(tài)轉(zhuǎn)移矩陣(A矩陣)的元素(i,i’=1,2,...I),I是狀態(tài)總數(shù)。Lb(i,j)是LHMM的觀察符號(hào)概率矩陣(B矩陣)的元素(i=1,2,...I,j=1,2,...v(i)),v(i)是第i狀態(tài)的單詞個(gè)數(shù)。Pa(k,m’,m)是第k個(gè)詞聲學(xué)模型HMM的A矩陣的元素(m,m’=1,2,...Mk,k=1,2,...W),W是詞匯表尺寸,Mk是第k個(gè)詞聲學(xué)模型HMM的全體狀態(tài)數(shù)。Pb(k,m,Ot)是第k個(gè)詞聲學(xué)模型HMM的B矩陣的元素(m=1,2,...Mk),Ot是在時(shí)刻t(t=1,2,...T)的聲學(xué)觀察矢量,T是待識(shí)別的一個(gè)句子的總幀數(shù)。
k與i,j之間的關(guān)系是在LHMM中,第i狀態(tài)的第j個(gè)詞與詞匯表中的第k個(gè)詞相對(duì)應(yīng),因此下面的k將寫為k(i,j)。
設(shè)上述LHMM和各個(gè)詞聲學(xué)HMM的A、B矩陣均已由HMM訓(xùn)練算法得到。
Rt(i,j,m)表示一條在時(shí)刻t的最佳路徑的概率。這條路徑是關(guān)于前面的t幀聲學(xué)觀察,它們結(jié)束于語言模型第i狀態(tài)的第j個(gè)詞和第k個(gè)詞聲學(xué)模型的第m個(gè)狀態(tài)。Pt(i,j,m)和Qt(i,j,m)是Rt(i,j,m)的候選者。
下面主要是采用Viterbi算法計(jì)算一個(gè)輸入句子的最佳語法狀態(tài)序列(內(nèi)含最佳聲學(xué)狀態(tài)序列)的過程。
步驟S62初始化。R1(i,j,1)=La(0,i)·Lb(i,j)·π[k(i,j),m]·Pb[k(i,j),m,O1],其中i=1,2,...I;j=1,2,...v[i]; 本實(shí)施例假設(shè)所有初始的聲學(xué)HMM狀態(tài)都是1,結(jié)束狀態(tài)是Mk(i,j)。
步驟S63迭代。首先是關(guān)于一個(gè)詞內(nèi)的聲學(xué)狀態(tài)轉(zhuǎn)移。其中i=1,2,...I;j=1,2,...v[i];m,m’=1,2,...Mk(i,j);t=2,3,...T。
對(duì)于這種情況,先前t-1時(shí)刻語言HMM的狀態(tài)i’和這個(gè)狀態(tài)內(nèi)的單詞j’將等于在當(dāng)前時(shí)刻t的i和j。
其次是關(guān)于詞間的聲學(xué)狀態(tài)轉(zhuǎn)移。其中i,i’=1,2,...I;j,j’=1,2,...v[i];t=2,3,...T。
對(duì)于這種情況,從t-1時(shí)刻到t時(shí)刻,語言HMM的狀態(tài)和這一狀態(tài)的單詞從i’和j’到i和j,聲學(xué)HMM的狀態(tài)將從有關(guān)的結(jié)束狀態(tài)Mk(i’,j’)變到一個(gè)初始狀態(tài)。
本實(shí)施例假設(shè)所有初始的聲學(xué)HMM狀態(tài)都是1,結(jié)束狀態(tài)是Mk(i,j)。在時(shí)刻t所獲得的不僅是最佳聲學(xué)狀態(tài)序列,還有最佳語法狀態(tài)序列。因此,只要足夠精細(xì)和準(zhǔn)確地設(shè)計(jì)語言模型HMM的狀態(tài)和A,B矩陣,就能得到一個(gè)在Viterbi算法意義上的最佳單詞輸出序列,同時(shí)還得到了這個(gè)單詞序列內(nèi)的語法關(guān)系。所有這些都是因?yàn)楸緦?shí)施例中的語言模型是一個(gè)表達(dá)語法結(jié)構(gòu)的HMM系統(tǒng),它能被完全地和準(zhǔn)確地放入一個(gè)真正的具有語言層和語音層兩個(gè)層次的大HMM框架。
然后,判決轉(zhuǎn)移發(fā)生的性質(zhì)。當(dāng)m≠1是發(fā)生詞內(nèi)聲學(xué)狀態(tài)轉(zhuǎn)移,Rt(i,j,m)=Pt(i,j,m)。當(dāng)m=1時(shí)可能發(fā)生詞內(nèi)聲學(xué)狀態(tài)轉(zhuǎn)移也可能發(fā)生詞間轉(zhuǎn)移,Rt(i,j,1)=max{Pt(i,j,1),Qt(i,j,1)},若Pt(i,j,1)<Qt(i,j,1)則發(fā)生詞間轉(zhuǎn)移,否則發(fā)生詞內(nèi)聲學(xué)狀態(tài)轉(zhuǎn)移。
設(shè)t時(shí)刻觀察符號(hào)處于LHMM的狀態(tài)i、屬于該狀態(tài)的第j個(gè)單詞。用Ψt(i,j)裝載t-1時(shí)刻的最佳LHMM的狀態(tài)i*(t-1),用Φt(i,j)裝載t-1時(shí)刻該狀態(tài)下的最佳單詞j*(t-1) 步驟S64終結(jié)。最佳LHMM和聲學(xué)HMM狀態(tài)路徑的概率設(shè)i*(T)是最后時(shí)刻T的最佳LHMM的狀態(tài)號(hào),j*(T)是該狀態(tài)下的最佳單詞,則 步驟S65回溯。根據(jù)Ψt(i,j)和Φt(i,j)進(jìn)行回溯以決定時(shí)刻t(t<T)的最佳LHMM的狀態(tài)i*(t)與該狀態(tài)下的最佳單詞j*(t) i*(t)=Ψt+1(i*(t+1),j*(t+1)) j*(t)=Φt+1(i*(t+1),j*(t+1)) 最后該Viterbi算法完全適合于任何次詞單位作為聲學(xué)HMM的識(shí)別單位。
上述實(shí)施例是提供給本領(lǐng)域普通技術(shù)人員來實(shí)現(xiàn)或使用本發(fā)明的,本領(lǐng)域普通技術(shù)人員可在不脫離本發(fā)明的發(fā)明思想的情況下,對(duì)上述實(shí)施例做出種種修改或變化,因而本發(fā)明的保護(hù)范圍并不被上述實(shí)施例所限,而應(yīng)該是符合權(quán)利要求書提到的創(chuàng)新性特征的最大范圍。
權(quán)利要求
1.一種采用隱馬爾可夫模型計(jì)算語言結(jié)構(gòu)的方法,包括
(1)建立該語言的分級(jí)建筑塊語法;
(2)建立該語言的隱馬爾可夫模型的語法,設(shè)計(jì)該語言隱馬爾可夫模型的拓?fù)浣Y(jié)構(gòu);
(3)對(duì)訓(xùn)練語料庫進(jìn)行人工標(biāo)注以形成該語言隱馬爾可夫模型的參數(shù)值或拓?fù)浣Y(jié)構(gòu),同時(shí)可人工增刪和/或更改該語言隱馬爾可夫模型的參數(shù)和拓?fù)浣Y(jié)構(gòu);
(4)利用隱馬爾可夫模型理論對(duì)測(cè)試語料庫測(cè)試該語言隱馬爾可夫模型的參數(shù)和拓?fù)浣Y(jié)構(gòu)的準(zhǔn)確性,分析測(cè)試結(jié)果,并根據(jù)該結(jié)果對(duì)上述參數(shù)和拓?fù)浣Y(jié)構(gòu)進(jìn)行或人工或自動(dòng)的調(diào)整;
(5)利用隱馬爾可夫模型理論計(jì)算待分析句子的語法結(jié)構(gòu),同時(shí)采用與(4)類似的機(jī)制,繼續(xù)完善該語言隱馬爾可夫模型的拓?fù)浣Y(jié)構(gòu)和參數(shù)。
2.根據(jù)權(quán)利要求1所述的采用隱馬爾可夫模型計(jì)算語言結(jié)構(gòu)的方法,其特征在于,該分級(jí)建筑塊語法采用有向圖數(shù)據(jù)結(jié)構(gòu),將各有關(guān)語言單位在平面或直線上進(jìn)行有機(jī)排列和相互連接以表示語言結(jié)構(gòu),特別是采用分級(jí)手段表達(dá)其遞歸結(jié)構(gòu)。
3.根據(jù)權(quán)利要求1或2所述的采用隱馬爾可夫模型計(jì)算語言結(jié)構(gòu)的方法,其特征在于,該隱馬爾可夫模型語法在該分級(jí)建筑塊語法和一個(gè)詞性語言模型之間作了適當(dāng)?shù)钠胶?,?br>
合并該分級(jí)建筑塊語法中功能相似的語言單位,合并后的語言單位就是隱馬爾可夫模型語法的最終狀態(tài);
同時(shí)添加相反的連接方向,實(shí)現(xiàn)遞歸表達(dá)。
4.根據(jù)權(quán)利要求3所述的采用隱馬爾可夫模型計(jì)算語言結(jié)構(gòu)的方法,其特征在于,該隱馬爾可夫模型語法用到的任何語言單位,都占有一個(gè)和一個(gè)以上的狀態(tài)。
5.根據(jù)權(quán)利要求1所述的采用隱馬爾可夫模型計(jì)算語言結(jié)構(gòu)的方法,其特征在于,步驟(3)是對(duì)該訓(xùn)練語料庫的全部進(jìn)行人工標(biāo)注以形成該語言隱馬爾可夫模型的參數(shù)值或拓?fù)浣Y(jié)構(gòu)。
6.根據(jù)權(quán)利要求1所述的采用隱馬爾可夫模型計(jì)算語言結(jié)構(gòu)的方法,其特征在于,步驟(3)是對(duì)該訓(xùn)練語料庫的一部分進(jìn)行人工標(biāo)注以形成該語言隱馬爾可夫模型的參數(shù)初始值或初始拓?fù)浣Y(jié)構(gòu),再利用隱馬爾可夫模型理論對(duì)剩余的或全部的訓(xùn)練語料計(jì)算該語言隱馬爾可夫模型的參數(shù)值或拓?fù)浣Y(jié)構(gòu)。
7.根據(jù)權(quán)利要求1所述的采用隱馬爾可夫模型計(jì)算語言結(jié)構(gòu)的方法,其特征在于,所述步驟(3)、(4)和(5)可反復(fù)進(jìn)行以獲得越來越精確的參數(shù)。
8.一種采用隱馬爾可夫模型進(jìn)行語言分詞的方法,包括
以權(quán)利要求1的方法建立該語言的隱馬爾可夫模型;
將待分詞的句子進(jìn)行各種可能的分詞后的序列作為該語言隱馬爾可夫模型的輸入;
選擇概率最大的輸出所對(duì)應(yīng)的分詞序列,同時(shí)得到最佳語法結(jié)構(gòu)。
9.一種采用隱馬爾可夫模型進(jìn)行機(jī)器翻譯的方法,將源語言翻譯成目標(biāo)語言,所述方法包括
(1)對(duì)源語言和目標(biāo)語言進(jìn)行細(xì)致的句型分類并找到它們之間的對(duì)應(yīng)關(guān)系;
(2)以權(quán)利要求1的方法建立源語言和目標(biāo)語言的隱馬爾可夫模型,并獲得模型參數(shù);
(3)用Viterbi算法和步驟(2)的模型參數(shù)對(duì)待翻譯的源語言句子進(jìn)行計(jì)算,得到其語法結(jié)構(gòu)及分詞序列;
(4)搜索目標(biāo)語言的全部句型,找出其與步驟(3)的語法結(jié)構(gòu)相對(duì)應(yīng)的句型;
(5)在相應(yīng)句型對(duì)之間進(jìn)行相應(yīng)的單詞置換。
10.一種采用隱馬爾可夫模型進(jìn)行語音識(shí)別的方法,包括
(1)以權(quán)利要求1的方法建立語言的隱馬爾可夫模型;
(2)把聲學(xué)隱馬爾可夫模型和語言隱馬爾可夫模型合在一起作為一個(gè)整體的隱馬爾可夫模型;
(3)用Viterbi算法計(jì)算該整體的隱馬爾可夫模型的最佳狀態(tài)序列。
全文摘要
本發(fā)明公開了一種采用隱馬爾可夫模型(HMM)建模和計(jì)算語言結(jié)構(gòu)的方法,能高效且完備地表達(dá)和計(jì)算自然語言的語法結(jié)構(gòu),特別是其中的遞歸和并列。其技術(shù)方案為建立該語言的GBBG語法;建立該語言HMM語法,設(shè)計(jì)LHMM的拓?fù)浣Y(jié)構(gòu);根據(jù)HMM語法對(duì)LHMM的拓?fù)浣Y(jié)構(gòu)和參數(shù)進(jìn)行訓(xùn)練和測(cè)試;應(yīng)用HMM理論計(jì)算待分析句子的語法結(jié)構(gòu),并根據(jù)需要繼續(xù)調(diào)整LHMM的拓?fù)浣Y(jié)構(gòu)和參數(shù)。本發(fā)明應(yīng)用于自然語言處理領(lǐng)域。
文檔編號(hào)G06F17/27GK101201818SQ20061011953
公開日2008年6月18日 申請(qǐng)日期2006年12月13日 優(yōu)先權(quán)日2006年12月13日
發(fā)明者萍 李 申請(qǐng)人:萍 李