專利名稱:一種基于詞匯注釋的領(lǐng)域詞典自動(dòng)擴(kuò)充方法
技術(shù)領(lǐng)域:
本發(fā)明涉及到一種領(lǐng)域詞典的自動(dòng)擴(kuò)充方法,特別涉及一種基于詞匯注釋的領(lǐng)域詞典自動(dòng)擴(kuò)充方法,屬于自然語言處理技術(shù)領(lǐng)域。
背景技術(shù):
領(lǐng)域詞典(Domain Dictionary)是指特定領(lǐng)域特有的術(shù)語或表達(dá)方式的集合。領(lǐng)域詞典是自然語言處理的基本資源,領(lǐng)域知識(shí)被廣泛應(yīng)用于機(jī)器翻譯、信息檢索、數(shù)據(jù)挖掘以及文本分類等多種任務(wù)的詞義消歧、句法分析等環(huán)節(jié),領(lǐng)域詞典的規(guī)模及質(zhì)量直接關(guān)系到相關(guān)應(yīng)用的性能。領(lǐng)域詞典的構(gòu)建和擴(kuò)充方法按照自動(dòng)化程度可以分為三類:基于專家知識(shí)的人工構(gòu)建和擴(kuò)充方法,半自動(dòng)生成和擴(kuò)充方法和全自動(dòng)生成和擴(kuò)充方法。人工構(gòu)建和擴(kuò)充方法準(zhǔn)確率高,但是需要大量的領(lǐng)域?qū)<议L時(shí)間參與,人工成本和時(shí)間成本太高,且缺乏實(shí)時(shí)性。全自動(dòng)生成和擴(kuò)充方法通過分析詞匯在不同領(lǐng)域語料庫中統(tǒng)計(jì)特性的差異,判定詞匯的領(lǐng)域?qū)傩?,該方法無需領(lǐng)域?qū)<业膮⑴c,節(jié)省了大量的人工成本,但是詞典收錄的準(zhǔn)確率不高。半自動(dòng)的生成和擴(kuò)充方法介于人工編撰和全自動(dòng)生成方法之間,通過領(lǐng)域?qū)<抑付ㄉ倭康念I(lǐng)域知識(shí),實(shí)現(xiàn)領(lǐng)域詞典的自動(dòng)擴(kuò)充?,F(xiàn)有的半自動(dòng)和全自動(dòng)的領(lǐng)域詞典方法大多需要領(lǐng)域語料庫的支持,所生成的領(lǐng)域詞典的質(zhì)量依賴于所采用的領(lǐng)域語料庫的質(zhì)量,領(lǐng)域詞典的完備性受到領(lǐng)域語料庫規(guī)模的限制,同時(shí),考慮到語料庫非平衡性的影響,詞語的領(lǐng)域標(biāo)注更容易向語料庫規(guī)模大的領(lǐng)域偏斜。上述兩種方法都未能有效地利用已有的詞典資源,并且未考慮領(lǐng)域之間的相關(guān)性。
發(fā)明內(nèi)容
本發(fā)明的目的是針對(duì)目前已有領(lǐng)域詞典自動(dòng)擴(kuò)充方法存在的不足,提出一種基于詞匯注釋的領(lǐng)域詞典自動(dòng)擴(kuò)充方法。本發(fā)明的目的是通過如下技術(shù)方案實(shí)現(xiàn)的。一種基于詞匯注釋的領(lǐng)域詞典自動(dòng)擴(kuò)充方法,其具體操作步驟為:步驟一、通過分析領(lǐng)域詞典所屬領(lǐng)域間的相關(guān)度,生成一棵領(lǐng)域分類樹。具體為:步驟1.1:用符號(hào)D表示待處理節(jié)點(diǎn)集合,并設(shè)定待處理節(jié)點(diǎn)集合的初始狀態(tài)為空;步驟1.2:將每個(gè)待擴(kuò)充的領(lǐng)域詞典分別作為一個(gè)節(jié)點(diǎn)放入到待處理節(jié)點(diǎn)集合中。節(jié)點(diǎn)名稱為該領(lǐng)域詞典的名稱,節(jié)點(diǎn)內(nèi)容為該領(lǐng)域詞典中的全部詞條;所述詞條包括詞匯及該詞匯的解釋信息。步驟1.3:通過公式(I)分別計(jì)算待處理節(jié)點(diǎn)集合中的任意兩個(gè)節(jié)點(diǎn)所代表的領(lǐng)域詞典所屬領(lǐng)域間的相關(guān)度,用符號(hào)RW1, d2)表示。
權(quán)利要求
1.一種基于詞匯注釋的領(lǐng)域詞典自動(dòng)擴(kuò)充方法,其特征在于:其具體操作步驟為: 步驟一、通過分析領(lǐng)域詞典所屬領(lǐng)域間的相關(guān)度,生成一棵領(lǐng)域分類樹;具體為: 步驟1.1:用符號(hào)D表示待處理節(jié)點(diǎn)集合,并設(shè)定待處理節(jié)點(diǎn)集合的初始狀態(tài)為空;步驟1.2:將每個(gè)待擴(kuò)充的領(lǐng)域詞典分別作為一個(gè)節(jié)點(diǎn)放入到待處理節(jié)點(diǎn)集合中;節(jié)點(diǎn)名稱為該領(lǐng)域詞典的名稱,節(jié)點(diǎn)內(nèi)容為該領(lǐng)域詞典中的全部詞條;所述詞條包括詞匯及該詞匯的解釋信息; 步驟1.3:通過公式(I)分別計(jì)算待處理節(jié)點(diǎn)集合中的任意兩個(gè)節(jié)點(diǎn)所代表的領(lǐng)域詞典所屬領(lǐng)域間的相關(guān)度;
全文摘要
本發(fā)明涉及到一種基于詞匯注釋的領(lǐng)域詞典自動(dòng)擴(kuò)充方法,屬于自然語言處理技術(shù)領(lǐng)域。其步驟為①通過分析領(lǐng)域詞典所屬領(lǐng)域間的相關(guān)度,生成一棵領(lǐng)域分類樹。②為每一個(gè)待擴(kuò)充的領(lǐng)域詞典獲取一個(gè)訓(xùn)練集。③對(duì)訓(xùn)練集進(jìn)行預(yù)處理,得到語料特征集。④統(tǒng)計(jì)每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的語料特征集中每個(gè)詞匯在該語料特征集中出現(xiàn)的次數(shù)以及其子節(jié)點(diǎn)對(duì)應(yīng)的語料特征集中包含某一詞匯的語料特征集的個(gè)數(shù)。⑤計(jì)算各語料特征集中每個(gè)詞匯的置信度。⑥將新詞匯加入到待擴(kuò)充的領(lǐng)域詞典中。本發(fā)明提出的基于詞匯注釋的領(lǐng)域詞典自動(dòng)擴(kuò)充方法不需要人工搜集領(lǐng)域語料庫,因此避免了受領(lǐng)域語料庫的質(zhì)量和規(guī)模的局限以及領(lǐng)域語料庫非平衡性的影響。
文檔編號(hào)G06F17/27GK103116573SQ20131004664
公開日2013年5月22日 申請(qǐng)日期2013年2月6日 優(yōu)先權(quán)日2013年2月6日
發(fā)明者黃河燕, 史樹敏, 朱朝勇 申請(qǐng)人:北京理工大學(xué)