一種電力領(lǐng)域?qū)I(yè)詞匯自動抽取方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及電力營銷自動化領(lǐng)域,更具體的說,本發(fā)明涉及一種電力領(lǐng)域?qū)I(yè)詞 匯自動抽取方法及系統(tǒng)。
【背景技術(shù)】
[0002] 營銷自動化系統(tǒng)標(biāo)準(zhǔn)化設(shè)計工作是國家電網(wǎng)公司在電力營銷技術(shù)支持系統(tǒng)建設(shè) 取得初步成效,公司發(fā)展戰(zhàn)略對系統(tǒng)建設(shè)提出更新、更高要求的基礎(chǔ)上開展的,該項工作的 開展使得營銷業(yè)務(wù)應(yīng)用系統(tǒng)集團化運作、集約化發(fā)展、精細(xì)化管理、標(biāo)準(zhǔn)化建設(shè),可促進營 銷發(fā)展方式和管理方式的轉(zhuǎn)變,提高服務(wù)能力和水平、業(yè)務(wù)處理及流程規(guī)范,達到資源共享 集約。但隨著國家電網(wǎng)公司"大營銷"建設(shè),營銷自動化系統(tǒng)建設(shè)周期要求日益緊迫,標(biāo)準(zhǔn) 化設(shè)計工作的壓力逐步加大,逐漸顯現(xiàn)一系列問題降低了營銷標(biāo)準(zhǔn)化設(shè)計效率以及營銷自 動化系統(tǒng)的質(zhì)量。
[0003] 在營銷自動化系統(tǒng)標(biāo)準(zhǔn)化設(shè)計過程中較多地方需要將專業(yè)詞匯轉(zhuǎn)換成英文,而目 前專業(yè)詞匯轉(zhuǎn)換工作主要采用人工或者簡單轉(zhuǎn)換工具的方式實現(xiàn)。人工轉(zhuǎn)換的方式主要 由一個或多個專業(yè)人員根據(jù)個人經(jīng)驗完成,轉(zhuǎn)換結(jié)果能夠在一定程度上滿足營銷工作的需 要,但由于占用大量的時間,嚴(yán)重影響了營銷標(biāo)準(zhǔn)化工作的效率。利用網(wǎng)絡(luò)工具進行轉(zhuǎn)換的 方式,由于沒有與營銷自動化背景相結(jié)合,使得轉(zhuǎn)換結(jié)果不理想,需要進行多次轉(zhuǎn)換才能滿 足標(biāo)準(zhǔn)化設(shè)計工作的需求,時間復(fù)雜度也較高,這兩種轉(zhuǎn)換方式得到的結(jié)果給營銷自動化 技術(shù)人員、業(yè)務(wù)人員以及電力用戶準(zhǔn)確透徹理解相關(guān)標(biāo)準(zhǔn)、規(guī)范、產(chǎn)品帶來了不便。
[0004] 另外,在進行電力營銷專業(yè)詞匯轉(zhuǎn)換時,關(guān)于如何獲取較多的專業(yè)詞匯以增加詞 匯庫的詞匯量,如何構(gòu)建專業(yè)詞匯庫以提高用戶輸入詞匯的檢索速度都成為當(dāng)前詞匯轉(zhuǎn)換 亟待解決的問題。現(xiàn)有詞匯抽取技術(shù)中基于語言特性的術(shù)語抽取方法,通過計算相鄰詞匯 之間的耦合度得到領(lǐng)域術(shù)語,但需要對語料中所有的詞匯計算耦合度,且僅能找出在專業(yè) 領(lǐng)域出現(xiàn)概率較高的術(shù)語,準(zhǔn)確度較低;基于條件隨機場的術(shù)語抽取方法,手工標(biāo)注所有訓(xùn) 練語料中的專業(yè)術(shù)語,采用條件隨機場方法訓(xùn)練得到抽取模型,然后用于抽取其他的術(shù)語, 但手工標(biāo)注專業(yè)術(shù)語工作量大、效率低,嚴(yán)重影響了抽取的效率,因此,需要結(jié)合上述現(xiàn)狀, 研究一種電力領(lǐng)域?qū)I(yè)詞匯自動抽取方法及系統(tǒng),利用自動化抽取轉(zhuǎn)換工具,進行營銷標(biāo) 準(zhǔn)化設(shè)計成果的專業(yè)詞匯的自動轉(zhuǎn)換,提高標(biāo)準(zhǔn)化設(shè)計成果的質(zhì)量及標(biāo)準(zhǔn)化設(shè)計工作的效 率。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的就是為解決上述問題,提出一種電力領(lǐng)域?qū)I(yè)詞匯自動抽取方法及 系統(tǒng),進行電力營銷專業(yè)詞匯的自動抽取,豐富專業(yè)詞匯庫的信息量,并建立具有兩級索引 結(jié)構(gòu)的詞匯庫,方便用戶詞匯的高效檢索,進而實現(xiàn)營銷標(biāo)準(zhǔn)化設(shè)計成果中專業(yè)詞匯的自 動化轉(zhuǎn)換,以提高專業(yè)詞匯轉(zhuǎn)換的質(zhì)量和效率。
[0006] 為實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
[0007] -種電力領(lǐng)域?qū)I(yè)詞匯的自動抽取方法及系統(tǒng),實現(xiàn)步驟如下:
[0008] 步驟A:首先利用相關(guān)性計算方法從電力營銷領(lǐng)域語料庫中找出電力營銷領(lǐng)域基 礎(chǔ)詞匯,其次從電力營銷領(lǐng)域語料庫中隨機抽取一部分語料作為待訓(xùn)練語料,然后以待訓(xùn) 練語料中的每個電力營銷領(lǐng)域基礎(chǔ)詞匯為中心,與周圍鄰近的其他詞匯組合成不同長度的 詞匯串,計算詞匯串中相鄰詞匯之間的互信息和詞匯串的語言特性,將既與電力營銷領(lǐng)域 有較高相關(guān)性又符合漢語語言特性的詞匯作為電力營銷領(lǐng)域?qū)I(yè)詞匯,并在待訓(xùn)練語料中 標(biāo)注出來,生成訓(xùn)練語料,最后基于條件隨機場方法對訓(xùn)練語料進行訓(xùn)練,得到專業(yè)詞匯抽 取模型,利用該專業(yè)詞匯抽取模型實現(xiàn)從電力營銷領(lǐng)域語料庫中抽取電力營銷相關(guān)的專業(yè) 詞匯,人工將其轉(zhuǎn)換成對應(yīng)的英文,并添加至電力營銷專業(yè)詞匯庫中;
[0009] 步驟B:搜集電力系統(tǒng)相關(guān)詞匯及對應(yīng)翻譯,并將其添加到電力營銷專業(yè)詞匯庫 中,所述電力營銷專業(yè)詞匯庫主要包含電力系統(tǒng)詞匯、通用詞典和從步驟A抽取得到的電 力營銷領(lǐng)域詞匯;
[0010] 步驟C:建立電力營銷專業(yè)詞匯庫的兩級索引結(jié)構(gòu),其中,一級索引包含關(guān)鍵字、 下一漢字索引指針,二級索引包含關(guān)鍵字、其余字串組指針;
[0011] 步驟D:檢索電力營銷專業(yè)詞匯庫,檢索順序依次為電力系統(tǒng)詞匯、通用詞典、電 力營銷領(lǐng)域抽取詞匯,檢索完畢后,返回給用戶檢索結(jié)果。
[0012] 所述步驟A具體步驟為:
[0013] 步驟A1 :進行電力營銷領(lǐng)域語料、平衡語料的預(yù)處理,采用中科院漢語詞法分析 系統(tǒng)ICTCLAS對電力營銷語料、平衡語料進行分詞,這是確定電力營銷領(lǐng)域基礎(chǔ)詞匯的基 礎(chǔ);電力營銷領(lǐng)域語料是指電力營銷領(lǐng)域的文獻;所述平衡預(yù)料是指涵蓋電力、社保、職業(yè) 資格多領(lǐng)域的文獻;
[0014] 步驟A2 :抽取待訓(xùn)練語料,并進行訓(xùn)練語料的自動標(biāo)注,首先在步驟A1的分詞的 基礎(chǔ)上,采用領(lǐng)域相關(guān)性計算方法找出在電力營銷領(lǐng)域出現(xiàn)概率較高的詞語,并將其作為 電力營銷領(lǐng)域基礎(chǔ)詞匯,其次從電力營銷領(lǐng)域語料庫中隨機抽取20%語料作為待訓(xùn)練語 料,然后從中找出所有包含電力營銷領(lǐng)域基礎(chǔ)詞匯而且互信息和語言特性均符合要求的相 鄰詞匯串,將相鄰詞匯串標(biāo)注為電力營銷專業(yè)詞匯,最終得到已標(biāo)注的訓(xùn)練語料;所述電力 營銷領(lǐng)域語料庫由搜集的電力營銷領(lǐng)域的大量文獻組成;所述符合要求是指在互信息的基 礎(chǔ)上引入停用詞和詞性組合作為懲罰因子進行專業(yè)詞匯的篩選;
[0015] 步驟A3 :采用機器學(xué)習(xí)中的條件隨機場方法對已標(biāo)注的訓(xùn)練語料進行分析,包含 各專業(yè)詞匯的內(nèi)部組成、詞匯與上下文的關(guān)系特征,選擇合適的特征模板進行推演訓(xùn)練,得 到專業(yè)詞匯抽取模型,并依據(jù)該抽取模型從電力營銷領(lǐng)域語料庫中抽取電力營銷相關(guān)的專 業(yè)詞匯或新語料庫中的專業(yè)詞匯;
[0016] 步驟A4 :由電力營銷領(lǐng)域的相關(guān)專家對抽取得到的專業(yè)詞匯進行篩選,并完成專 業(yè)詞匯的轉(zhuǎn)換,轉(zhuǎn)換得到的專業(yè)詞匯會添加到電力營銷專業(yè)詞匯庫中。
[0017] 所述步驟A2中的領(lǐng)域相關(guān)性指詞匯在電力營銷領(lǐng)域的專屬性,計算公式
【主權(quán)項】
1. 一種電力領(lǐng)域?qū)I(yè)詞匯的自動抽取方法,其特征是,實現(xiàn)步驟如下: 步驟A:首先利用相關(guān)性計算方法從電力營銷領(lǐng)域語料庫中找出電力營銷領(lǐng)域基礎(chǔ)詞 匯,其次從電力營銷領(lǐng)域語料庫中隨機抽取一部分語料作為待訓(xùn)練語料,然后以待訓(xùn)練語 料中的每個電力營銷領(lǐng)域基礎(chǔ)詞匯為中心,與周圍鄰近的其他詞匯組合成不同長度的詞匯 串,計算詞匯串中相鄰詞匯之間的互信息和詞匯串的語言特性,將既與電力營銷領(lǐng)域有較 高相關(guān)性又符合漢語語言特性的詞匯作為電力營銷領(lǐng)域?qū)I(yè)詞匯,并在待訓(xùn)練語料中標(biāo)注 出來,生成訓(xùn)練語料,最后基于條件隨機場方法對訓(xùn)練語料進行訓(xùn)練,得到專業(yè)詞匯抽取模 型,利用該專業(yè)詞匯抽取模型實現(xiàn)從電力營銷領(lǐng)域語料庫中抽取電力營銷相關(guān)的專業(yè)詞 匯,人工將其轉(zhuǎn)換成對應(yīng)的英文,并添加至電力營銷專業(yè)詞匯庫中; 步驟B:搜集電力系統(tǒng)相關(guān)詞匯及對應(yīng)翻譯,并將其添加到電力營銷專業(yè)詞匯庫中,所 述電力營銷專業(yè)詞匯庫主要包含電力系統(tǒng)詞匯、通用詞典和從步驟A抽取得到的電力營銷 領(lǐng)域詞匯; 步驟C:建立電力營