一種基于詞匯注釋的領(lǐng)域詞典自動(dòng)擴(kuò)充方法

文檔序號(hào)：6586081閱讀：354來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種基于詞匯注釋的領(lǐng)域詞典自動(dòng)擴(kuò)充方法
技術(shù)領(lǐng)域：
本發(fā)明涉及到一種領(lǐng)域詞典的自動(dòng)擴(kuò)充方法，特別涉及一種基于詞匯注釋的領(lǐng)域詞典自動(dòng)擴(kuò)充方法，屬于自然語言處理技術(shù)領(lǐng)域。
背景技術(shù)：
領(lǐng)域詞典(Domain Dictionary)是指特定領(lǐng)域特有的術(shù)語或表達(dá)方式的集合。領(lǐng)域詞典是自然語言處理的基本資源，領(lǐng)域知識(shí)被廣泛應(yīng)用于機(jī)器翻譯、信息檢索、數(shù)據(jù)挖掘以及文本分類等多種任務(wù)的詞義消歧、句法分析等環(huán)節(jié)，領(lǐng)域詞典的規(guī)模及質(zhì)量直接關(guān)系到相關(guān)應(yīng)用的性能。領(lǐng)域詞典的構(gòu)建和擴(kuò)充方法按照自動(dòng)化程度可以分為三類:基于專家知識(shí)的人工構(gòu)建和擴(kuò)充方法，半自動(dòng)生成和擴(kuò)充方法和全自動(dòng)生成和擴(kuò)充方法。人工構(gòu)建和擴(kuò)充方法準(zhǔn)確率高，但是需要大量的領(lǐng)域?qū)＜议L時(shí)間參與，人工成本和時(shí)間成本太高，且缺乏實(shí)時(shí)性。全自動(dòng)生成和擴(kuò)充方法通過分析詞匯在不同領(lǐng)域語料庫中統(tǒng)計(jì)特性的差異，判定詞匯的領(lǐng)域?qū)傩?，該方法無需領(lǐng)域?qū)＜业膮⑴c，節(jié)省了大量的人工成本，但是詞典收錄的準(zhǔn)確率不高。半自動(dòng)的生成和擴(kuò)充方法介于人工編撰和全自動(dòng)生成方法之間，通過領(lǐng)域?qū)＜抑付ㄉ倭康念I(lǐng)域知識(shí)，實(shí)現(xiàn)領(lǐng)域詞典的自動(dòng)擴(kuò)充?，F(xiàn)有的半自動(dòng)和全自動(dòng)的領(lǐng)域詞典方法大多需要領(lǐng)域語料庫的支持，所生成的領(lǐng)域詞典的質(zhì)量依賴于所采用的領(lǐng)域語料庫的質(zhì)量，領(lǐng)域詞典的完備性受到領(lǐng)域語料庫規(guī)模的限制，同時(shí)，考慮到語料庫非平衡性的影響，詞語的領(lǐng)域標(biāo)注更容易向語料庫規(guī)模大的領(lǐng)域偏斜。上述兩種方法都未能有效地利用已有的詞典資源，并且未考慮領(lǐng)域之間的相關(guān)性。

發(fā)明內(nèi)容
本發(fā)明的目的是針對(duì)目前已有領(lǐng)域詞典自動(dòng)擴(kuò)充方法存在的不足，提出一種基于詞匯注釋的領(lǐng)域詞典自動(dòng)擴(kuò)充方法。本發(fā)明的目的是通過如下技術(shù)方案實(shí)現(xiàn)的。一種基于詞匯注釋的領(lǐng)域詞典自動(dòng)擴(kuò)充方法，其具體操作步驟為:步驟一、通過分析領(lǐng)域詞典所屬領(lǐng)域間的相關(guān)度，生成一棵領(lǐng)域分類樹。具體為:步驟1.1:用符號(hào)D表示待處理節(jié)點(diǎn)集合，并設(shè)定待處理節(jié)點(diǎn)集合的初始狀態(tài)為空；步驟1.2:將每個(gè)待擴(kuò)充的領(lǐng)域詞典分別作為一個(gè)節(jié)點(diǎn)放入到待處理節(jié)點(diǎn)集合中。節(jié)點(diǎn)名稱為該領(lǐng)域詞典的名稱，節(jié)點(diǎn)內(nèi)容為該領(lǐng)域詞典中的全部詞條；所述詞條包括詞匯及該詞匯的解釋信息。步驟1.3:通過公式(I)分別計(jì)算待處理節(jié)點(diǎn)集合中的任意兩個(gè)節(jié)點(diǎn)所代表的領(lǐng)域詞典所屬領(lǐng)域間的相關(guān)度，用符號(hào)RW1, d2)表示。
權(quán)利要求
1.一種基于詞匯注釋的領(lǐng)域詞典自動(dòng)擴(kuò)充方法，其特征在于:其具體操作步驟為: 步驟一、通過分析領(lǐng)域詞典所屬領(lǐng)域間的相關(guān)度，生成一棵領(lǐng)域分類樹；具體為: 步驟1.1:用符號(hào)D表示待處理節(jié)點(diǎn)集合，并設(shè)定待處理節(jié)點(diǎn)集合的初始狀態(tài)為空；步驟1.2:將每個(gè)待擴(kuò)充的領(lǐng)域詞典分別作為一個(gè)節(jié)點(diǎn)放入到待處理節(jié)點(diǎn)集合中；節(jié)點(diǎn)名稱為該領(lǐng)域詞典的名稱，節(jié)點(diǎn)內(nèi)容為該領(lǐng)域詞典中的全部詞條；所述詞條包括詞匯及該詞匯的解釋信息；步驟1.3:通過公式(I)分別計(jì)算待處理節(jié)點(diǎn)集合中的任意兩個(gè)節(jié)點(diǎn)所代表的領(lǐng)域詞典所屬領(lǐng)域間的相關(guān)度；
全文摘要
本發(fā)明涉及到一種基于詞匯注釋的領(lǐng)域詞典自動(dòng)擴(kuò)充方法，屬于自然語言處理技術(shù)領(lǐng)域。其步驟為①通過分析領(lǐng)域詞典所屬領(lǐng)域間的相關(guān)度，生成一棵領(lǐng)域分類樹。②為每一個(gè)待擴(kuò)充的領(lǐng)域詞典獲取一個(gè)訓(xùn)練集。③對(duì)訓(xùn)練集進(jìn)行預(yù)處理，得到語料特征集。④統(tǒng)計(jì)每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的語料特征集中每個(gè)詞匯在該語料特征集中出現(xiàn)的次數(shù)以及其子節(jié)點(diǎn)對(duì)應(yīng)的語料特征集中包含某一詞匯的語料特征集的個(gè)數(shù)。⑤計(jì)算各語料特征集中每個(gè)詞匯的置信度。⑥將新詞匯加入到待擴(kuò)充的領(lǐng)域詞典中。本發(fā)明提出的基于詞匯注釋的領(lǐng)域詞典自動(dòng)擴(kuò)充方法不需要人工搜集領(lǐng)域語料庫，因此避免了受領(lǐng)域語料庫的質(zhì)量和規(guī)模的局限以及領(lǐng)域語料庫非平衡性的影響。
文檔編號(hào)G06F17/27GK103116573SQ20131004664
公開日2013年5月22日申請(qǐng)日期2013年2月6日優(yōu)先權(quán)日2013年2月6日
發(fā)明者黃河燕, 史樹敏, 朱朝勇申請(qǐng)人:北京理工大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃河燕;史樹敏;朱朝勇
技術(shù)所有人：北京理工大學(xué)
我是此專利的發(fā)明人

上一篇：一種基于分段模型的攝像機(jī)標(biāo)定方法
上一篇：鈉硫電池陶瓷管最大應(yīng)力和Weibull擬合公式的確定方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

mac自帶詞典擴(kuò)充相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于詞匯注釋的領(lǐng)域詞典自動(dòng)擴(kuò)充方法