命名實體識別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種命名實體識別方法及裝置。
【背景技術(shù)】
[0002] 自然語言處理和機器學習是人工智能的一個重要方向,而命名實體識別(Name EntityRecognition,NER)是這些研宄中重要且不可缺少的一步。在語言文本中,命名實 體是信息的主要載體,用來表達文本的主要內(nèi)容,同時命名實體識別也是文本處理的一個 前提工作,識別的質(zhì)量直接影響到后續(xù)的工作,因此命名實體識別是信息處理的前提和重 要任務(wù)。
[0003] 現(xiàn)有人機對話系統(tǒng)中,用戶輸入的問題中包含的信息可能并不完整,某些情況下 只是簡單的輸入商品的簡稱,而系統(tǒng)需要識別出一個完整的命名實體信息,以便于能夠更 精準的對信息進行后續(xù)處理?,F(xiàn)有技術(shù)尚不能滿足這種情況下的實體識別的需求。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本發(fā)明提供一種命名實體識別方法及裝置,能夠?qū)崿F(xiàn)對輸入不完整信 息進行命名實體識別。
[0005] 為實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種命名實體識別方法,包括: 利用命名實體識別模型對用戶輸入語料進行識別,得到多個初步識別命名實體;將所述多 個初步識別命名實體組成查詢詞條在商品數(shù)據(jù)庫中進行搜索,得到多個候選完整命名實 體;分別計算所述多個候選完整命名實體與所述用戶輸入語料的相似度;選擇所述相似度 最高的所述候選完整命名實體作為最終識別命名實體,輸出所述最終識別命名實體。
[0006] 可選地,所述命名實體識別模型為隱馬爾科夫模型、最大熵模型或條件隨機場模 型。
[0007] 可選地,所述命名實體識別模型為條件隨機場模型;所述利用命名實體識別模型 對用戶輸入語料進行識別,得到多個初步識別命名實體的步驟之前還包括:建立至少一個 自定義詞典;從預先獲得的語料中抽取訓練文本串;參照所述至少一個自定義詞典對所述 訓練文本串進行ansj分詞,得到分詞集合;對所述分詞集合中的詞進行詞性標注和序列標 注;將標注后的所述分詞集合作為訓練數(shù)據(jù),使用CRF工具包進行訓練從而得到所述命名 實體識別模型。
[0008] 可選地,所述至少一個自定義詞典為商品分類自定義詞典、商品品牌自定義詞典、 商品屬性信息自定義詞典中的至少之一。
[0009] 為實現(xiàn)上述目的,根據(jù)本發(fā)明的另一個方面,提供了一種命名實體識別裝置,包 括:初步識別模塊,用于利用命名實體識別模型對用戶輸入語料進行識別,得到多個初步識 別命名實體;搜索模塊,用于將所述多個初步識別命名實體組成查詢詞條在商品數(shù)據(jù)庫中 進行搜索,得到多個候選完整命名實體;相似度計算模塊,用于分別計算所述多個候選完整 命名實體與所述用戶輸入語料的相似度;選擇輸出模塊,用于選擇所述相似度最高的所述 候選完整命名實體作為最終識別命名實體,輸出所述最終識別命名實體。
[0010] 可選地,所述命名實體識別模型為隱馬爾科夫模型、最大熵模型或條件隨機場模 型。
[0011] 可選地,所述命名實體識別模型為條件隨機場模型;所述命名實體識別裝置還包 括模型訓練模塊,所述模型訓練模塊用于:建立至少一個自定義詞典;從預先獲得的語料 中抽取訓練文本串;參照所述至少一個自定義詞典對所述訓練文本串進行ansj分詞,得到 分詞集合;對所述分詞集合中的詞進行詞性標注和序列標注;將標注后的所述分詞集合作 為訓練數(shù)據(jù),使用CRF工具包進行訓練從而得到所述命名實體識別模型。
[0012] 可選地,所述至少一個自定義詞典為商品分類自定義詞典、商品品牌自定義詞典、 商品屬性信息自定義詞典中的至少之一。
[0013] 根據(jù)本發(fā)明的技術(shù)方案,采用了實體識別模型和搜索引擎相結(jié)合的策略,在模型 初步識別出的實體信息的基礎(chǔ)上搜索出更完整的候選的實體信息,并根據(jù)相似度選擇最相 似度的完整實體信息輸出,從而實現(xiàn)了對輸入不完整信息進行命名實體識別,提高了命名 實體識別信息的完整度,為系統(tǒng)后續(xù)的自然語言處理提供了更精準的基礎(chǔ)。
【附圖說明】
[0014] 附圖用于更好地理解本發(fā)明,不構(gòu)成對本發(fā)明的不當限定。其中:
[0015] 圖1是根據(jù)本發(fā)明實施例的命名實體識別方法的主要步驟示意圖;
[0016] 圖2是根據(jù)本發(fā)明實施例的命名實體識別裝置的主要部件示意圖。
【具體實施方式】
[0017] 以下結(jié)合附圖對本發(fā)明的示范性實施例做出說明,其中包括本發(fā)明實施例的各種 細節(jié)以助于理解,應當將它們認為僅僅是示范性的。因此,本領(lǐng)域普通技術(shù)人員應當認識 到,可以對這里描述的實施例做出各種改變和修改,而不會背離本發(fā)明的范圍和精神。同 樣,為了清楚和簡明,以下的描述中省略了對公知功能和結(jié)構(gòu)的描述。
[0018] 圖1是根據(jù)本發(fā)明實施例的命名實體識別方法的主要步驟示意圖。如圖1所示, 該方法主要包括以下的步驟A至步驟D。
[0019] 步驟A:利用命名實體識別模型對用戶輸入語料進行識別,得到多個初步識別命 名實體。
[0020] 步驟B:將多個初步識別命名實體組成查詢詞條在商品數(shù)據(jù)庫中進行搜索,得到 多個候選完整命名實體。需要說明的是,商品數(shù)據(jù)庫中預先存儲有大量的完整的命名實體 詞條。
[0021] 步驟C:分別計算多個候選完整命名實體與用戶輸入語料的相似度。
[0022] 步驟D:選擇相似度最高的候選完整命名實體作為最終識別命名實體,輸出最終 識別命名實體。
[0023] 根據(jù)上述實施例的命名實體識別方法,采用了實體識別模型和搜索引擎相結(jié)合 的策略,在模型初步識別出的實體信息的基礎(chǔ)上搜索出更完整的候選的實體信息,并根據(jù) 相似度選擇最相似度的完整實體信息輸出,從而實現(xiàn)了對輸入不完整信息進行命名實體識 另IJ,提高了命名實體識別信息的完整度,為系統(tǒng)后續(xù)的自然語言處理提供了更精準的基礎(chǔ)。
[0024] 在本發(fā)明的實施方式中,命名實體識別模型可以為隱馬爾科夫模型(Hidden MarkovModel,HMM)、最大摘模型(MaximumEntropyMarkovModel,MEMM)或條件隨機場模 型(ConditionalRandomFields,CRF)。這三種模型是最常見的命名實體識別模型,具有 技術(shù)成熟的優(yōu)點。下面對這三種模型做簡要介紹。
[0025]HMM模型是一個有限狀態(tài)模型,基本思想是首先建立樣本的概率密度模型,再利用 模型進行推理預測,屬于生產(chǎn)式模型。HMM只依賴于每一個狀態(tài)和它對應的觀察對象,為了 定義一個觀察值和標注值的聯(lián)合概率,產(chǎn)生式模型必須列出所有可能的觀察序列。
[0026]MEMM模型是對轉(zhuǎn)移概率和表現(xiàn)概率建立聯(lián)合概率,統(tǒng)計時統(tǒng)計的是條件概率,但 因為MEMM只在局部做歸一化,MEMM容易陷入局部最優(yōu)。MEMM考慮到相鄰狀態(tài)之間依賴關(guān) 系,且考慮整個觀察序列,因此MEMM的表達能力更強。但是MEMM傾向于選擇擁有更少轉(zhuǎn)移 的狀態(tài),容易產(chǎn)生標記偏置(labelbias)。
[0027]CRF模型中,統(tǒng)計了全局概率,在做歸一化時考慮了數(shù)據(jù)在全局的分布,而不是僅 僅在局部歸一化,這樣就解決了MEMM中的標記偏置的問題。
[0028] 在本發(fā)明的實施方式中,命名實體識別模型為條件隨機場模型的情況下,步驟A之前還可以包括訓練條件隨機場模型的過程。訓練條件隨機場模型的過程具體包括如下步 驟:建立至少一個自定義詞典;從預先獲得的語料中抽取訓練文本串;參照所述至少一個 自定義詞典對所述訓練文本串進行ansj分詞,得到分詞集合;對所述分詞集合中的詞進行 詞性標注和序列標注;將標注后的所述分詞集合作為訓練數(shù)據(jù),使用CRF工具包進行訓練 從而得到命名實體識別模型。需要說明的是,至少一個自定義詞典為商品分類自定義詞典、 商品品牌自定義詞典、商品屬性信息自定義詞典中的至少之一。該實施方式中,通過引入自 定義詞典使得詞性特征更加豐富,可以提高CRF模型的準確率。以及,通過引入序列標注作 為數(shù)據(jù)特征,同樣可以提高CRF模型的準確率。
[0029] 為使本領(lǐng)域技術(shù)人員更好地理解本發(fā)明的命名實體識別方法,下面列舉一個具體 實施例進行說明。
[0030] (1)首先通過腳本從電商網(wǎng)站上抓取數(shù)據(jù),然后對抓取到的數(shù)據(jù)進行人工標注 詞性并建立相應的自定義詞典。例如:抓取到"華為"一詞,為它標注上"brand(商品品 牌)"標簽,并加入到brand自定義詞典中;抓取到"手機"一詞,為它標注上"prodsort(商 品分類)"標簽,并加入到prodsort自定義詞典中;抓取到"大屏幕"一詞,為它標注上 "property(商品屬性)"標簽,并加入到prope