一種融合了越南語(yǔ)語(yǔ)言特點(diǎn)的pcfg模型的越南語(yǔ)短語(yǔ)樹庫(kù)構(gòu)建方法
【專利摘要】本發(fā)明涉及一種融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型的越南語(yǔ)短語(yǔ)樹庫(kù)構(gòu)建方法,屬自然語(yǔ)言處理技術(shù)領(lǐng)域。本發(fā)明首先獲取融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型中的語(yǔ)法規(guī)則概率;再制定越南語(yǔ)語(yǔ)言特征概率;將越南語(yǔ)語(yǔ)言特征概率作為語(yǔ)法規(guī)則概率的補(bǔ)充和語(yǔ)法規(guī)則概率一起融入到PCFG模型中,得到融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型;再進(jìn)行初級(jí)越南語(yǔ)短語(yǔ)樹庫(kù)的構(gòu)建;再利用短語(yǔ)樹庫(kù)校正器對(duì)新生成的越南語(yǔ)短語(yǔ)樹庫(kù)進(jìn)行校正,最后得到最終的越南語(yǔ)短語(yǔ)樹庫(kù)。本發(fā)明避免了人工收集和標(biāo)注越南語(yǔ)短語(yǔ)樹庫(kù)的過(guò)程,節(jié)省了人力和構(gòu)建樹庫(kù)的時(shí)間;相比采用傳統(tǒng)PCFG構(gòu)建越南語(yǔ)短語(yǔ)樹庫(kù)和最大熵構(gòu)建越南語(yǔ)短語(yǔ)樹庫(kù)方法準(zhǔn)確率明顯提高。
【專利說(shuō)明】
一種融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型的越南語(yǔ)短語(yǔ)樹庫(kù)構(gòu) 建方法
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及一種融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型的越南語(yǔ)短語(yǔ)樹庫(kù)構(gòu)建方法, 屬于自然語(yǔ)言處理技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 越南與云南山水相連,兩國(guó)人民之間的交往歷史悠久,語(yǔ)言溝通在雙方人民友好 往來(lái)與相處、相互學(xué)習(xí)方面起到了十分重要的作用。因此,針對(duì)漢越雙語(yǔ)的研究工作具有重 要的現(xiàn)實(shí)意義。在越南語(yǔ)和漢語(yǔ)的互譯過(guò)程中,越南語(yǔ)的句法分析是十分重要的基礎(chǔ)工作。 句法分析是根據(jù)給定的語(yǔ)法體系,自動(dòng)推導(dǎo)出句子的語(yǔ)法結(jié)構(gòu),分析句子所包含的語(yǔ)法單 元和這些語(yǔ)法單元之間的關(guān)系,將句子轉(zhuǎn)化為一棵結(jié)構(gòu)化的語(yǔ)法樹。除了為詞義消歧、語(yǔ)義 分析提供技術(shù)支撐之外,句法分析的結(jié)果可直接用于機(jī)器翻譯、問(wèn)答系統(tǒng)、信息抽取等應(yīng)用 中,并改善應(yīng)用的性能。目前的機(jī)器翻譯系統(tǒng)越來(lái)越依賴于句法分析,串到樹、樹到串以及 樹到樹的方法已經(jīng)應(yīng)用到機(jī)器翻譯中,并在不斷地提高機(jī)器翻譯的準(zhǔn)確率。短語(yǔ)結(jié)構(gòu)分析 法就是將句子切分成短語(yǔ),分析出句子短語(yǔ)之間的層次關(guān)系。短語(yǔ)結(jié)構(gòu)樹主要是由終結(jié)點(diǎn)、 非終結(jié)點(diǎn)以及短語(yǔ)標(biāo)記構(gòu)成的,其中最基本的成分是句法標(biāo)記,也就是非終結(jié)點(diǎn)(例如名詞 短語(yǔ)NP、動(dòng)詞短語(yǔ)VP)。短語(yǔ)句法分析是機(jī)器分析語(yǔ)言句法特征非常有效的方法之一。越南 語(yǔ)短語(yǔ)標(biāo)注體系和越南語(yǔ)短語(yǔ)樹庫(kù)的構(gòu)建,已經(jīng)成為整個(gè)越南語(yǔ)短語(yǔ)句法分析的核心工 作,如果能對(duì)該問(wèn)題加以有效合理的解決,那么對(duì)對(duì)越南語(yǔ)的句法分析、機(jī)器翻譯、信息抽 取等上層應(yīng)用可以提供有力支撐。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明提供了一種融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型的越南語(yǔ)短語(yǔ)樹庫(kù)構(gòu)建方 法,以用于解決人工標(biāo)注越南語(yǔ)短語(yǔ)樹庫(kù)比較困難的問(wèn)題,構(gòu)建規(guī)模較大的越南語(yǔ)短語(yǔ)樹 庫(kù)比較稀缺的問(wèn)題,本發(fā)明構(gòu)建的越南語(yǔ)短語(yǔ)樹庫(kù)對(duì)越南語(yǔ)的句法分析、機(jī)器翻譯、信息抽 取等上層應(yīng)用能提供有力支撐。
[0004] 本發(fā)明的技術(shù)方案是:一種融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型的越南語(yǔ)短語(yǔ)樹庫(kù) 構(gòu)建方法,所述融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型的越南語(yǔ)短語(yǔ)樹庫(kù)構(gòu)建方法的具體步驟 如下:
[0005] Stepl、首先構(gòu)建越南語(yǔ)短語(yǔ)樹語(yǔ)料,并利用得到的語(yǔ)料獲取融合了越南語(yǔ)語(yǔ)言特 點(diǎn)的PCFG模型中的語(yǔ)法規(guī)則概率;
[0006] Step2、分析越南語(yǔ)的語(yǔ)言特征,主要針對(duì)越南語(yǔ)狀語(yǔ)后置和定語(yǔ)后置的特點(diǎn),制 定越南語(yǔ)語(yǔ)言特征概率;
[0007] Step3、將越南語(yǔ)語(yǔ)言特征概率作為融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型中的語(yǔ)法 規(guī)則概率的補(bǔ)充和語(yǔ)法規(guī)則概率一起融入到PCFG模型中,得到融合了越南語(yǔ)語(yǔ)言特點(diǎn)的 PCFG模型;
[0008] Step4、將爬取的越南語(yǔ)網(wǎng)頁(yè)經(jīng)過(guò)規(guī)則提取、去重、機(jī)器標(biāo)注、人工校對(duì)形成越南語(yǔ) 文本語(yǔ)料庫(kù),作為構(gòu)建初級(jí)越南語(yǔ)短語(yǔ)樹庫(kù)的測(cè)試語(yǔ)料;
[0009] Step5、把測(cè)試語(yǔ)料加載到融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型中進(jìn)行初級(jí)越南語(yǔ) 短語(yǔ)樹庫(kù)的構(gòu)建;
[0010] Step6、再利用短語(yǔ)樹庫(kù)校正器對(duì)新生成的越南語(yǔ)短語(yǔ)樹庫(kù)進(jìn)行校正,最后得到最 終的越南語(yǔ)短語(yǔ)樹庫(kù)。
[0011]所述步驟stepl中,獲取融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型中的語(yǔ)法規(guī)則概率的 具體步驟如下:
[0012] Stepl. 1、從VLSP的組塊語(yǔ)料中獲取分詞以后的越南語(yǔ)句子;
[0013] Stepl. 2、把得到的分詞之后的越南語(yǔ)句子放在VLSP網(wǎng)站中分析得到對(duì)應(yīng)的越南 語(yǔ)短語(yǔ)樹;
[0014] Stepl.3、對(duì)得到的越南語(yǔ)短語(yǔ)樹進(jìn)行人工校對(duì),得到越南語(yǔ)短語(yǔ)樹語(yǔ)料;
[0015] Stepl .4、將得到的越南語(yǔ)短語(yǔ)樹語(yǔ)料利用Inside-Outside算法,獲取融合了越南 語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型中的語(yǔ)法規(guī)則概率。
[0016] 所述步驟Step4的具體步驟如下:
[0017] Step4.1、對(duì)爬取的越南語(yǔ)語(yǔ)料進(jìn)行預(yù)處理,去除html標(biāo)簽、格式標(biāo)簽、字符編碼和 噪首過(guò)濾等;
[0018] Step4.2、從預(yù)處理得到的語(yǔ)料中提取出正文和標(biāo)題;
[0019] Step4.3、對(duì)Step4.2中得到的語(yǔ)料進(jìn)行去重、機(jī)器標(biāo)注處理,最后進(jìn)行人工校對(duì), 形成越南語(yǔ)文本語(yǔ)料庫(kù),作為構(gòu)建越南語(yǔ)短語(yǔ)樹庫(kù)的測(cè)試語(yǔ)料。
[0020] 本發(fā)明的有益效果是:
[0021] 1、構(gòu)建的越南語(yǔ)短語(yǔ)樹庫(kù)對(duì)越南語(yǔ)的句法分析、機(jī)器翻譯、信息抽取等上層應(yīng)用 能提供有力支撐;
[0022] 2、構(gòu)建了規(guī)模相對(duì)較大的越南語(yǔ)短語(yǔ)樹語(yǔ)料庫(kù);
[0023] 3、本發(fā)明提出的構(gòu)建短語(yǔ)樹的方法省略了人工收集和標(biāo)注越南語(yǔ)短語(yǔ)樹庫(kù)的過(guò) 程,大大的節(jié)省了人力和構(gòu)建樹庫(kù)的時(shí)間;
[0024] 4、本發(fā)明提出的構(gòu)建短語(yǔ)樹的方法在語(yǔ)料規(guī)模較小的情況下相比采用傳統(tǒng)PCFG 構(gòu)建越南語(yǔ)短語(yǔ)樹庫(kù)和最大熵構(gòu)建越南語(yǔ)短語(yǔ)樹庫(kù)方法準(zhǔn)確率明顯提高。
【附圖說(shuō)明】
[0025]圖1為本發(fā)明中的流程圖。
【具體實(shí)施方式】
[0026]實(shí)施例1:如圖1所示,一種融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型的越南語(yǔ)短語(yǔ)樹庫(kù) 構(gòu)建方法。融合語(yǔ)言特點(diǎn)與上下文無(wú)關(guān)文法(PCFG)的越南語(yǔ)短語(yǔ)樹庫(kù)構(gòu)建方法的具體步驟 如下:
[0027] Stepl、首先構(gòu)建越南語(yǔ)短語(yǔ)樹語(yǔ)料,并利用得到的語(yǔ)料獲取融合了越南語(yǔ)語(yǔ)言特 點(diǎn)的PCFG模型中的語(yǔ)法規(guī)則概率;
[0028] Step2、分析越南語(yǔ)的語(yǔ)言特征,主要針對(duì)越南語(yǔ)狀語(yǔ)后置和定語(yǔ)后置的特點(diǎn),制 定越南語(yǔ)語(yǔ)言特征概率;
[0029] Step3、將越南語(yǔ)語(yǔ)言特征概率作為融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型中的語(yǔ)法 規(guī)則概率的補(bǔ)充和語(yǔ)法規(guī)則概率一起融入到PCFG模型中,得到融合了越南語(yǔ)語(yǔ)言特點(diǎn)的 PCFG模型;
[0030] Step4、將爬取的越南語(yǔ)網(wǎng)頁(yè)經(jīng)過(guò)規(guī)則提取、去重、機(jī)器標(biāo)注、人工校對(duì)形成越南語(yǔ) 文本語(yǔ)料庫(kù),作為構(gòu)建初級(jí)越南語(yǔ)短語(yǔ)樹庫(kù)的測(cè)試語(yǔ)料;
[0031] Step5、把測(cè)試語(yǔ)料加載到融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型中進(jìn)行初級(jí)越南語(yǔ) 短語(yǔ)樹庫(kù)的構(gòu)建;
[0032] Step6、再利用短語(yǔ)樹庫(kù)校正器對(duì)新生成的越南語(yǔ)短語(yǔ)樹庫(kù)進(jìn)行校正,最后得到最 終的越南語(yǔ)短語(yǔ)樹庫(kù)。
[0033]所述步驟Stepl中,獲取融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型中的語(yǔ)法規(guī)則概率的 具體步驟如下:
[0034] Stepl. 1、從VLSP的組塊語(yǔ)料中獲取分詞以后的越南語(yǔ)句子;
[0035] Stepl. 2、把得到的分詞之后的越南語(yǔ)句子放在VLSP網(wǎng)站中分析得到對(duì)應(yīng)的越南 語(yǔ)短語(yǔ)樹;
[0036] Stepl.3、對(duì)得到的越南語(yǔ)短語(yǔ)樹進(jìn)行人工校對(duì),得到越南語(yǔ)短語(yǔ)樹語(yǔ)料;
[0037] Step 1.4、將得到的越南語(yǔ)短語(yǔ)樹語(yǔ)料利用Ins i de-〇ut s ide算法,獲取融合了越南 語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型中的語(yǔ)法規(guī)則概率。
[0038] 所述步驟Step4的具體步驟如下:
[0039] Step4.1、對(duì)爬取的越南語(yǔ)語(yǔ)料進(jìn)行預(yù)處理,去除html標(biāo)簽、格式標(biāo)簽、字符編碼和 噪首過(guò)濾等;
[0040] Step4.2、從預(yù)處理得到的語(yǔ)料中提取出正文和標(biāo)題;
[0041] Step4.3、對(duì)Step4.2中得到的語(yǔ)料進(jìn)行去重、機(jī)器標(biāo)注處理,最后進(jìn)行人工校對(duì), 形成越南語(yǔ)文本語(yǔ)料庫(kù),作為構(gòu)建初級(jí)越南語(yǔ)短語(yǔ)樹庫(kù)的測(cè)試語(yǔ)料。
[0042]其中,所述步驟Stepl中首先構(gòu)建越南語(yǔ)短語(yǔ)樹語(yǔ)料,并利用得到的語(yǔ)料獲取融合 了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型中的語(yǔ)法規(guī)則概率,具體的包含部分語(yǔ)法規(guī)則概率的選取結(jié) 果如表1所示;
[0043] 表1部分越南語(yǔ)語(yǔ)法規(guī)則概率示例
1〇〇45]^構(gòu)建一定數(shù)量的越南語(yǔ)短語(yǔ)樹語(yǔ)料是進(jìn)行越南語(yǔ)短語(yǔ)樹庫(kù)構(gòu)建的基礎(chǔ)。只有建設(shè) 出高質(zhì)量的語(yǔ)料,才能以之為基礎(chǔ)進(jìn)行信息化開發(fā)工作。短語(yǔ)樹語(yǔ)料也是進(jìn)行融合語(yǔ)言特 點(diǎn)PCFG短語(yǔ)樹庫(kù)構(gòu)建研究不可缺少的一個(gè)組成部分。構(gòu)建一定數(shù)量的短語(yǔ)樹語(yǔ)料具體步驟 如下:
[0046] 1)、從VLSP平臺(tái)的組塊語(yǔ)料中獲取分詞以后的越南語(yǔ)句子;
[0047]首先在VLSP平臺(tái)上下載越南語(yǔ)組塊的語(yǔ)料,提取分詞得到的越南語(yǔ)單句3000句。 [0048] 2)、把得到的分詞之后的越南語(yǔ)句子放在VLSP平臺(tái)中分析得到對(duì)應(yīng)的越南語(yǔ)短語(yǔ) 樹;
[0049] 把得到的3000句分詞之后的越南語(yǔ)單句,放在VLSP平臺(tái)中可以得到對(duì)應(yīng)的短語(yǔ)結(jié) 構(gòu)樹庫(kù)。
[0050] 3)、對(duì)得到的越南語(yǔ)短語(yǔ)樹讓越南語(yǔ)老師和學(xué)生進(jìn)行人工校對(duì),從而得到準(zhǔn)確率 比較高的越南語(yǔ)短語(yǔ)樹庫(kù);
[0051] 為了能夠更好的進(jìn)行樹庫(kù)轉(zhuǎn)換工作,請(qǐng)?jiān)侥险Z(yǔ)老師和越南留學(xué)生對(duì)得到的3000句 短語(yǔ)結(jié)構(gòu)樹庫(kù)進(jìn)行人工校對(duì),以保證實(shí)驗(yàn)基礎(chǔ)語(yǔ)料的準(zhǔn)確性。
[0052] 4)、利用得到短語(yǔ)樹庫(kù)語(yǔ)料,將其中的2000句作為訓(xùn)練語(yǔ)料,1000句作為測(cè)試語(yǔ) 料,獲取融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型中的語(yǔ)法規(guī)則概率;
[0053]對(duì)于規(guī)則概率值的估計(jì)一般做法是:首先通過(guò)統(tǒng)計(jì)訓(xùn)練語(yǔ)料庫(kù)中出現(xiàn)的規(guī)則及其 出現(xiàn)次數(shù),然后再利用最大似然估計(jì)從規(guī)則出現(xiàn)頻率估計(jì)出規(guī)則使用概率,作為規(guī)則的概 率值,計(jì)算公式如下:
(1)
[0055] 這里C(A-X)表示規(guī)則A-X在樹庫(kù)中出現(xiàn)的次數(shù),Pr(A-X)表示規(guī)則A-X的估計(jì) 概率值。
[0056] 這種做法使得規(guī)則概率值的設(shè)定對(duì)訓(xùn)練語(yǔ)料庫(kù)的依賴程度非常的大,這就要求要 有一個(gè)很大規(guī)模的樹庫(kù)作為訓(xùn)練語(yǔ)料,但在目前越南語(yǔ)樹庫(kù)規(guī)模較小的情況下,這種方法 將使得概率值的設(shè)定完全依賴于樹庫(kù)中的句子,無(wú)法反映自然語(yǔ)言的真實(shí)規(guī)律。本文的做 法還是沿用已有的Inside-Outside算法,首先通過(guò)樹庫(kù)統(tǒng)計(jì)得到規(guī)則的初始集,然后利用 EM算法在訓(xùn)練語(yǔ)料庫(kù)中進(jìn)行迭代訓(xùn)練從而得到一個(gè)收斂的PCFG文法,唯一不同的一點(diǎn)在于 產(chǎn)生式規(guī)則初始概率的設(shè)定上。為了盡量減少規(guī)則概率的估計(jì)對(duì)語(yǔ)料庫(kù)的依賴,我們對(duì)利 用公式(1)得到的規(guī)則的初始估計(jì)概率值進(jìn)行再次估算,做法如下:
[0057]設(shè)置一個(gè)閥值Y,將規(guī)則分成高頻規(guī)則集和低頻規(guī)則集HFR和LFR,分別如下:
[0058] HFR={A-X|Pr(A-X)> y } (2)
[0059] LFR={A-X|Pr(A-XK y } (3)
[0060] 假設(shè)M為L(zhǎng)FR集合中規(guī)則的個(gè)數(shù),N為HFR中所有規(guī)則的概率值的總和,即
[0061] N= E(A-X)eHFRPr(A-X) (4)
[0062] 此時(shí)再利用公式(5)與(6)得到用于開始迭代的初始概率值
C5) (:6)
[0065]這里a取值范圍為0-1,是再次估計(jì)后HFR集合中所有規(guī)則的估計(jì)概率值的總和;同 樣的,(1 -a)為L(zhǎng)FR集合中規(guī)則的概率值總和,在本文的實(shí)驗(yàn)中a取值0.9。
[0066]其中,所述Step2分析越南語(yǔ)的語(yǔ)言特征,主要針對(duì)越南語(yǔ)狀語(yǔ)后置和定語(yǔ)后置的 特點(diǎn),制定越南語(yǔ)語(yǔ)言特征概率,具體的包含語(yǔ)言特征概率的選取結(jié)果如表2所示;
[0067] 越南語(yǔ)屬于南亞語(yǔ)系,它是越南國(guó)家的母語(yǔ)。大多數(shù)說(shuō)越南語(yǔ)的人都分布在東南 亞。越南語(yǔ)是一種相當(dāng)固定語(yǔ)序的語(yǔ)言,由固定的語(yǔ)序構(gòu)成主謂賓(SV0),也就是說(shuō),他們一 般的語(yǔ)序?yàn)?主語(yǔ)+謂語(yǔ)+賓語(yǔ)。每一種語(yǔ)言都有自己的語(yǔ)序,越南語(yǔ)主要依靠成分的順序去 傳達(dá)重要的語(yǔ)法信息。盡管越南語(yǔ)文本的書寫來(lái)源于拉丁字母表的變種(形體簡(jiǎn)單清楚,便 于認(rèn)讀書寫,流傳很廣,成為世界最通行的字母。始于十七世紀(jì),廣泛流行于二十世紀(jì)),越 南語(yǔ)有三個(gè)明顯的特點(diǎn)區(qū)別去西方語(yǔ)言。
[0068] 漢語(yǔ)和越南語(yǔ)差異性從修飾詞與定語(yǔ)的位置、狀語(yǔ)的位置、補(bǔ)賓語(yǔ)的位置這三個(gè) 方面來(lái)討論:
[0069] 首先,從修飾詞-定語(yǔ)的位置進(jìn)行分析,越南語(yǔ)定語(yǔ)位置和漢語(yǔ)不同,越南語(yǔ)定語(yǔ) 一般在中心詞后邊。例如:"C61am&t (她是)c6gSi (女孩)xinh衝p(美麗的)"。越南語(yǔ)里只有 當(dāng)數(shù)詞、量詞或指示代詞"各"、"每"等充當(dāng)?shù)亩ㄕZ(yǔ)排在中心語(yǔ)之時(shí),漢語(yǔ)和越語(yǔ)定位置才是 相同的,例如:Anh.dlmua (他買了)m§t. quA tSo (-個(gè)蘋果);Mo i nguoi (每個(gè)人)dlu cuM (都 笑了)。另外一種修飾詞-定語(yǔ)的位置情況是,越南語(yǔ)的描寫性多層定語(yǔ)的結(jié)構(gòu)順序與漢語(yǔ) 呈鏡像關(guān)系,漢語(yǔ)中描寫性定語(yǔ)的順序是:1-2-3-4_中心語(yǔ);與之相反,越語(yǔ)的順序是:中心 語(yǔ)m-l。例如:C61&(她是)cdg&i (女孩)xinhdQp tiMt (最美剛的)mfildi tii'ng (My (我見 過(guò)的)"。
[0070] 其次,從修飾詞-狀語(yǔ)的位置進(jìn)行分析,從狀語(yǔ)的位置分析分為三種情況:第一,漢 語(yǔ)與越南語(yǔ)狀語(yǔ)成分大多數(shù)情況下是一致的,但是時(shí)間狀語(yǔ)的問(wèn)題上不相同,在漢語(yǔ)習(xí)慣 中,時(shí)間的狀語(yǔ)是放在主語(yǔ)后面,但在越南語(yǔ)中時(shí)間狀語(yǔ)放是在句末的,例如:"Ngai Mi6ng. _d:4n Idphpc ng&_y_(他沒(méi)來(lái)上課);h6m.nay(今天)";第二,越南語(yǔ)中由介詞短語(yǔ)充當(dāng)?shù)?時(shí)間的狀語(yǔ),一般這樣的時(shí)間狀語(yǔ)也放在句末,例如:& Mngxanha(我就遠(yuǎn)離家鄉(xiāng))tunM (從小)";第三,越南語(yǔ)里表示處所的狀語(yǔ)一般位于謂語(yǔ)動(dòng)詞之后,例如:"T6i thir^mg an(我 常常吃飯)dqu如Sn lij phyc vi..i(在食堂)。
[0071]最后,從修飾詞-補(bǔ)語(yǔ)和賓語(yǔ)的位置來(lái)進(jìn)行分析:第一種情況:補(bǔ)語(yǔ)的語(yǔ)義指向賓 語(yǔ)部分時(shí),越南語(yǔ)的賓語(yǔ)和補(bǔ)語(yǔ)部分不能同時(shí)放在動(dòng)詞后面,例如:"C6ay danhc6nX她打孩 子)kh6cr6i (哭了)";第二種情況:補(bǔ)語(yǔ)的語(yǔ)義指向動(dòng)詞時(shí),越語(yǔ)的賓語(yǔ)和補(bǔ)語(yǔ)能同時(shí)現(xiàn)于 動(dòng)詞之后,例如:"MldanM(媽媽織毛衣)dtnhanh(很快)"。
[0072] 更具上面的針對(duì)越南語(yǔ)的語(yǔ)法特征的分析,制定出越南語(yǔ)語(yǔ)法特征概率,具體的 特征概率的部分示例在表2中給出。
[0073] 表2部分越南語(yǔ)語(yǔ)言特征概率示例
[0075]其中,所述步驟Step3中將越南語(yǔ)語(yǔ)言特征概率作為融合了越南語(yǔ)語(yǔ)言特點(diǎn)的 PCFG模型中的語(yǔ)法規(guī)則概率的補(bǔ)充和語(yǔ)法規(guī)則概率一起融入到傳統(tǒng)的PCFG模型中,得到融 合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型;
[0076] 結(jié)合Step2中得到的越南語(yǔ)語(yǔ)言特征概率以及Stepl中得到的語(yǔ)法規(guī)則概率的分 析,提出共現(xiàn)概率的計(jì)算方法,同時(shí)將這些方法融入到傳統(tǒng)PCFG模型中,最終得到針對(duì)越南 語(yǔ)短語(yǔ)樹構(gòu)建的新的PCFG模型。
[0077]對(duì)于結(jié)構(gòu)共現(xiàn)概率的計(jì)算,我們采用的是最大似然估計(jì)的方法,以下是具體計(jì)算 公式。對(duì)于處于句首的句法范疇C有向前共現(xiàn)概率:
(7)
[0079]對(duì)于非句首的句法范疇C有向前共現(xiàn)概率:
(8)
[0081 ] 類似的有計(jì)算向后共現(xiàn)概率的方法。對(duì)于處于句尾的句法范疇C有向后共現(xiàn)概率:
(9)
[0083]對(duì)于非句尾的句法范疇C有向后共現(xiàn)概率:
(10)
[0085]在本文中統(tǒng)計(jì)概率時(shí)出現(xiàn)的數(shù)據(jù)稀疏問(wèn)題我們采用一種簡(jiǎn)單的平滑方法來(lái)處理。 對(duì)于以上公式(9)到(10),統(tǒng)一用公式(11)來(lái)表示:
(11)
[0087]其中P是要求的概率,M是分子,是某一個(gè)要統(tǒng)計(jì)的頻次,N是分母,是某一個(gè)總數(shù)。 對(duì)于統(tǒng)計(jì)得到M為零的情況,即出現(xiàn)零概率情況時(shí),令其概率為1/N。為了保證總概率和為1, 其他情況的概率則根據(jù)公式(12)來(lái)計(jì)算:
(12)
[0089] 其中,所述Step4中將爬取的越南語(yǔ)網(wǎng)頁(yè)經(jīng)過(guò)規(guī)則提取、去重、機(jī)器標(biāo)注、人工校對(duì) 等步驟形成文本語(yǔ)料庫(kù),作為構(gòu)建初級(jí)越南語(yǔ)短語(yǔ)樹的測(cè)試語(yǔ)料;
[0090]基于前面構(gòu)建的越南語(yǔ)短語(yǔ)樹語(yǔ)料,這里使用MST算法訓(xùn)練得到依存關(guān)系模型,然 后利用得到的模型對(duì)新的越南語(yǔ)句子進(jìn)行訓(xùn)練,這里我們將越南語(yǔ)短語(yǔ)樹庫(kù)的規(guī)模擴(kuò)充到 20萬(wàn)句。
[0091 ] 1 )、從中國(guó)國(guó)際廣播電臺(tái)的越南語(yǔ)版塊上爬取越南語(yǔ)新聞、廣播、博客、論壇、學(xué)習(xí) 中國(guó)、娛樂(lè)等十三個(gè)方面的語(yǔ)料;
[0092] 網(wǎng)絡(luò)新聞以網(wǎng)絡(luò)為載體,具有全面、實(shí)時(shí)、多元等多個(gè)特點(diǎn)。在越南網(wǎng)絡(luò)新聞中,關(guān) 于中越兩國(guó)之間的新聞報(bào)道越來(lái)越多,無(wú)疑互聯(lián)網(wǎng)已經(jīng)成為目前容量最大、速度最快和信 息最為全面的新聞信息傳播平臺(tái)。因此,這種時(shí)效性的越南語(yǔ)網(wǎng)絡(luò)應(yīng)該作為我們語(yǔ)料的主 要采集地。
[0093] 目前,由于互聯(lián)網(wǎng)的快速發(fā)展,關(guān)于越南語(yǔ)新聞的報(bào)道有很多網(wǎng)站,但是就越南語(yǔ) 新聞的權(quán)威性來(lái)講,目前,主要有以下網(wǎng)站,如下表3所示。
[0094] 表3語(yǔ)料選取
[0096]由于中國(guó)國(guó)際廣播電臺(tái)作為中越兩國(guó)官方信息來(lái)源,它不僅實(shí)時(shí)的報(bào)道越南語(yǔ)國(guó) 內(nèi)國(guó)家的實(shí)時(shí)新聞,還會(huì)報(bào)道中越兩國(guó)之間各行各業(yè),比如經(jīng)濟(jì),政治、文化和娛樂(lè)等方面 的信息,信息比較全面。不僅向中國(guó)而且向世界傳達(dá)越南的真實(shí)面貌,并將世界其他國(guó)家的 信息傳達(dá)給越南國(guó)內(nèi)的讀者。所以本文選取中國(guó)國(guó)際廣播電臺(tái)網(wǎng)站作為越南語(yǔ)新聞?wù)Z料的 獲取來(lái)源。
[0097] 2)、對(duì)爬取的越南語(yǔ)語(yǔ)料進(jìn)行預(yù)處理,去除html標(biāo)簽、格式標(biāo)簽、字符編碼和噪音 過(guò)濾等;
[0098] 采集到新聞網(wǎng)頁(yè)不僅包含了主題型網(wǎng)頁(yè),也包含了大量的目錄型網(wǎng)頁(yè)。其中主題 型網(wǎng)頁(yè)包含了主要的新聞信息,比如新聞標(biāo)題、新聞?wù)?、發(fā)布時(shí)間、作者,但也包含了許多 噪音信息,比如,圖片、廣告、HTML標(biāo)簽等。而目錄型網(wǎng)頁(yè)則認(rèn)為是噪音信息,必須過(guò)濾掉。通 過(guò)對(duì)噪聲網(wǎng)頁(yè)特征的深入分析,本文采用特征閾值判別和規(guī)則相結(jié)合的方法過(guò)濾噪音網(wǎng) 頁(yè),然后根據(jù)HTML標(biāo)簽過(guò)濾規(guī)則對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)一步處理。
[0099] 3)、從預(yù)處理得到的語(yǔ)料中提取出正文和標(biāo)題;
[0100]通過(guò)上一步,可以得到新聞?wù)奈谋緝?nèi)容,但是內(nèi)容是由段落構(gòu)成,每個(gè)段落中有 包含了一句或者n(你大于等于2)多句子構(gòu)成,分詞和詞性標(biāo)注模型的訓(xùn)練要求是句子級(jí)語(yǔ) 料,所以有必要多新聞文本內(nèi)容進(jìn)行處理。通過(guò)句號(hào)、問(wèn)號(hào)、感嘆號(hào)為標(biāo)識(shí)進(jìn)行自動(dòng)切分,得 到越南語(yǔ)句子級(jí)文本語(yǔ)料庫(kù)。
[0101] 4)、對(duì)Step4.3中得到的語(yǔ)料進(jìn)行去重、機(jī)器標(biāo)注處理,最后由越南語(yǔ)老師和學(xué)生 進(jìn)行人工校對(duì),形成文本語(yǔ)料庫(kù);
[0102] 越南語(yǔ)的自然語(yǔ)言處理最重要的基礎(chǔ)工作就是對(duì)越南語(yǔ)進(jìn)行分詞和詞性標(biāo)注,它 也是越南語(yǔ)信息處理中重要的基礎(chǔ)環(huán)節(jié)。有監(jiān)督的訓(xùn)練方法需要標(biāo)注語(yǔ)料,無(wú)論是分詞還 是詞性標(biāo)注,都需要從標(biāo)注好的語(yǔ)料中學(xué)習(xí)、統(tǒng)計(jì)并提取標(biāo)注規(guī)則,進(jìn)而對(duì)非標(biāo)注語(yǔ)料進(jìn)行 準(zhǔn)確的標(biāo)注。然而人工標(biāo)注語(yǔ)料既費(fèi)時(shí)又費(fèi)力,所以為了節(jié)省時(shí)間和開銷,我們采用了機(jī)器 標(biāo)注(已有的越南語(yǔ)分詞工具VnTokenizer),人工校對(duì)的方式進(jìn)行,最后形成文本語(yǔ)料庫(kù)。 [0103]其中,所述步驟Step5中把測(cè)試語(yǔ)料加載到融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型中 進(jìn)行初級(jí)越南語(yǔ)短語(yǔ)樹庫(kù)的構(gòu)建;
[0104]基于Step3中得到的融合語(yǔ)言特點(diǎn)PCFG模型用Step4得到的越南語(yǔ)文本語(yǔ)料進(jìn)行 越南語(yǔ)短語(yǔ)樹庫(kù)的構(gòu)建,最終得到初級(jí)越南語(yǔ)短語(yǔ)樹庫(kù)。
[0105]其中,所述步驟Step6中利用短語(yǔ)樹庫(kù)校正器對(duì)新生成的初級(jí)越南語(yǔ)短語(yǔ)樹庫(kù)進(jìn) 行校正,最后得到質(zhì)量較高的越南語(yǔ)短語(yǔ)樹庫(kù)。
[0106]由于step5中得到的初級(jí)越南語(yǔ)短語(yǔ)樹庫(kù)在質(zhì)量上存在一些問(wèn)題,主要是由于所 得到的到Step2中得到的越南語(yǔ)語(yǔ)言特征概率以及Stepl中得到的語(yǔ)法規(guī)則概率并不能完 全覆蓋所有的越南語(yǔ)語(yǔ)法規(guī)則和語(yǔ)言特點(diǎn)所造成的,針對(duì)這一問(wèn)題,利用短語(yǔ)樹庫(kù)校正器 對(duì)初級(jí)越南語(yǔ)短語(yǔ)樹庫(kù)進(jìn)行校正,最后得到質(zhì)量較高的越南語(yǔ)短語(yǔ)樹庫(kù)。
[0107] 本發(fā)明首先獲取融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型中的語(yǔ)法規(guī)則概率;再制定越 南語(yǔ)語(yǔ)言特征概率;將越南語(yǔ)語(yǔ)言特征概率作為語(yǔ)法規(guī)則概率的補(bǔ)充和語(yǔ)法規(guī)則概率一起 融入到PCFG模型中,得到融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型;再進(jìn)行初級(jí)越南語(yǔ)短語(yǔ)樹庫(kù) 的構(gòu)建;再利用短語(yǔ)樹庫(kù)校正器對(duì)新生成的越南語(yǔ)短語(yǔ)樹庫(kù)進(jìn)行校正,最后得到最終的越 南語(yǔ)短語(yǔ)樹庫(kù)。
[0108] 實(shí)驗(yàn)結(jié)果如表4所示。表4中可以看出,采用以融合語(yǔ)言特點(diǎn)與上下文無(wú)關(guān)文法 (PCFG)的越南語(yǔ)短語(yǔ)樹庫(kù)構(gòu)建方法所生成的越南語(yǔ)短語(yǔ)樹庫(kù),準(zhǔn)確率相比采用傳統(tǒng)PCFG構(gòu) 建越南語(yǔ)短語(yǔ)樹庫(kù)和最大熵構(gòu)建越南語(yǔ)短語(yǔ)樹庫(kù)方法準(zhǔn)確率明顯提高
[0109] 其中,采用PARSEVAL句法分析評(píng)價(jià)體系,它是一種國(guó)際上通用的評(píng)測(cè)標(biāo)準(zhǔn)。主要由 準(zhǔn)確率(LP)、召回率(LR)和F值三個(gè)指標(biāo),F(xiàn)值綜合考慮了準(zhǔn)確率和召回率。其定義如下:
[0113]表4其他方法和本發(fā)明方法的比較
[0115]上面結(jié)合附圖對(duì)本發(fā)明的【具體實(shí)施方式】作了詳細(xì)說(shuō)明,但是本發(fā)明并不限于上述 實(shí)施方式,在本領(lǐng)域普通技術(shù)人員所具備的知識(shí)范圍內(nèi),還可以在不脫離本發(fā)明宗旨的前 提下作出各種變化。
【主權(quán)項(xiàng)】
1. 一種融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型的越南語(yǔ)短語(yǔ)樹庫(kù)構(gòu)建方法,其特征在于: 所述融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型的越南語(yǔ)短語(yǔ)樹庫(kù)構(gòu)建方法的具體步驟如下: Stepl、首先構(gòu)建越南語(yǔ)短語(yǔ)樹語(yǔ)料,并利用得到的語(yǔ)料獲取融合了越南語(yǔ)語(yǔ)言特點(diǎn)的 PCFG模型中的語(yǔ)法規(guī)則概率; Step2、分析越南語(yǔ)的語(yǔ)言特征,主要針對(duì)越南語(yǔ)狀語(yǔ)后置和定語(yǔ)后置的特點(diǎn),制定越 南語(yǔ)語(yǔ)言特征概率; Step3、將越南語(yǔ)語(yǔ)言特征概率作為融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型中的語(yǔ)法規(guī)則 概率的補(bǔ)充和語(yǔ)法規(guī)則概率一起融入到PCFG模型中,得到融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模 型; Step4、將爬取的越南語(yǔ)網(wǎng)頁(yè)經(jīng)過(guò)規(guī)則提取、去重、機(jī)器標(biāo)注、人工校對(duì)形成越南語(yǔ)文本 語(yǔ)料庫(kù),作為構(gòu)建初級(jí)越南語(yǔ)短語(yǔ)樹庫(kù)的測(cè)試語(yǔ)料; Step5、把測(cè)試語(yǔ)料加載到融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型中進(jìn)行初級(jí)越南語(yǔ)短語(yǔ) 樹庫(kù)的構(gòu)建; Step6、再利用短語(yǔ)樹庫(kù)校正器對(duì)新生成的越南語(yǔ)短語(yǔ)樹庫(kù)進(jìn)行校正,最后得到最終的 越南語(yǔ)短語(yǔ)樹庫(kù)。2. 根據(jù)權(quán)利要求1所述的融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型的越南語(yǔ)短語(yǔ)樹庫(kù)構(gòu)建方 法,其特征在于:所述步驟Stepl中,獲取融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型中的語(yǔ)法規(guī)則 概率的具體步驟如下: Stepl. 1、從VLSP的組塊語(yǔ)料中獲取分詞以后的越南語(yǔ)句子; Stepl. 2、把得到的分詞之后的越南語(yǔ)句子放在VLSP網(wǎng)站中分析得到對(duì)應(yīng)的越南語(yǔ)短 語(yǔ)樹; Step 1.3、對(duì)得到的越南語(yǔ)短語(yǔ)樹進(jìn)行人工校對(duì),得到越南語(yǔ)短語(yǔ)樹語(yǔ)料; Step 1.4、將得到的越南語(yǔ)短語(yǔ)樹語(yǔ)料利用Ins i de-〇ut s i de算法,獲取融合了越南語(yǔ)語(yǔ) 言特點(diǎn)的PCFG模型中的語(yǔ)法規(guī)則概率。3. 根據(jù)權(quán)利要求1所述的融合了越南語(yǔ)語(yǔ)言特點(diǎn)的PCFG模型的越南語(yǔ)短語(yǔ)樹庫(kù)構(gòu)建方 法,其特征在于:所述步驟Step4的具體步驟如下: Step4.1、對(duì)爬取的越南語(yǔ)語(yǔ)料進(jìn)行預(yù)處理,去除html標(biāo)簽、格式標(biāo)簽、字符編碼和噪音 過(guò)濾等; Step4.2、從預(yù)處理得到的語(yǔ)料中提取出正文和標(biāo)題; Step4.3、對(duì)Step4.2中得到的語(yǔ)料進(jìn)行去重、機(jī)器標(biāo)注處理,最后進(jìn)行人工校對(duì),形成 越南語(yǔ)文本語(yǔ)料庫(kù),作為構(gòu)建越南語(yǔ)短語(yǔ)樹庫(kù)的測(cè)試語(yǔ)料。
【文檔編號(hào)】G06F17/27GK105912529SQ201610242291
【公開日】2016年8月31日
【申請(qǐng)日】2016年4月19日
【發(fā)明人】郭劍毅, 李英, 余正濤, 線巖團(tuán), 毛存禮, 陳瑋
【申請(qǐng)人】昆明理工大學(xué)