命名實體識別方法及裝置的制造方法

文檔序號：9217293閱讀：449來源：國知局

命名實體識別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及人工智能技術(shù)領(lǐng)域，尤其涉及一種命名實體識別方法及裝置。
【背景技術(shù)】
[0002] 自然語言處理和機器學習是人工智能的一個重要方向，而命名實體識別（Name EntityRecognition，NER)是這些研宄中重要且不可缺少的一步。在語言文本中，命名實體是信息的主要載體，用來表達文本的主要內(nèi)容，同時命名實體識別也是文本處理的一個前提工作，識別的質(zhì)量直接影響到后續(xù)的工作，因此命名實體識別是信息處理的前提和重要任務(wù)。
[0003] 現(xiàn)有人機對話系統(tǒng)中，用戶輸入的問題中包含的信息可能并不完整，某些情況下只是簡單的輸入商品的簡稱，而系統(tǒng)需要識別出一個完整的命名實體信息，以便于能夠更精準的對信息進行后續(xù)處理?，F(xiàn)有技術(shù)尚不能滿足這種情況下的實體識別的需求。

【發(fā)明內(nèi)容】

[0004] 有鑒于此，本發(fā)明提供一種命名實體識別方法及裝置，能夠?qū)崿F(xiàn)對輸入不完整信息進行命名實體識別。
[0005] 為實現(xiàn)上述目的，根據(jù)本發(fā)明的一個方面，提供了一種命名實體識別方法，包括：利用命名實體識別模型對用戶輸入語料進行識別，得到多個初步識別命名實體；將所述多個初步識別命名實體組成查詢詞條在商品數(shù)據(jù)庫中進行搜索，得到多個候選完整命名實體；分別計算所述多個候選完整命名實體與所述用戶輸入語料的相似度；選擇所述相似度最高的所述候選完整命名實體作為最終識別命名實體，輸出所述最終識別命名實體。
[0006] 可選地，所述命名實體識別模型為隱馬爾科夫模型、最大熵模型或條件隨機場模型。
[0007] 可選地，所述命名實體識別模型為條件隨機場模型；所述利用命名實體識別模型對用戶輸入語料進行識別，得到多個初步識別命名實體的步驟之前還包括：建立至少一個自定義詞典；從預先獲得的語料中抽取訓練文本串；參照所述至少一個自定義詞典對所述訓練文本串進行ansj分詞，得到分詞集合；對所述分詞集合中的詞進行詞性標注和序列標注；將標注后的所述分詞集合作為訓練數(shù)據(jù)，使用CRF工具包進行訓練從而得到所述命名實體識別模型。
[0008] 可選地，所述至少一個自定義詞典為商品分類自定義詞典、商品品牌自定義詞典、商品屬性信息自定義詞典中的至少之一。
[0009] 為實現(xiàn)上述目的，根據(jù)本發(fā)明的另一個方面，提供了一種命名實體識別裝置，包括：初步識別模塊，用于利用命名實體識別模型對用戶輸入語料進行識別，得到多個初步識別命名實體；搜索模塊，用于將所述多個初步識別命名實體組成查詢詞條在商品數(shù)據(jù)庫中進行搜索，得到多個候選完整命名實體；相似度計算模塊，用于分別計算所述多個候選完整命名實體與所述用戶輸入語料的相似度；選擇輸出模塊，用于選擇所述相似度最高的所述候選完整命名實體作為最終識別命名實體，輸出所述最終識別命名實體。
[0010] 可選地，所述命名實體識別模型為隱馬爾科夫模型、最大熵模型或條件隨機場模型。
[0011] 可選地，所述命名實體識別模型為條件隨機場模型；所述命名實體識別裝置還包括模型訓練模塊，所述模型訓練模塊用于：建立至少一個自定義詞典；從預先獲得的語料中抽取訓練文本串；參照所述至少一個自定義詞典對所述訓練文本串進行ansj分詞，得到分詞集合；對所述分詞集合中的詞進行詞性標注和序列標注；將標注后的所述分詞集合作為訓練數(shù)據(jù)，使用CRF工具包進行訓練從而得到所述命名實體識別模型。
[0012] 可選地，所述至少一個自定義詞典為商品分類自定義詞典、商品品牌自定義詞典、商品屬性信息自定義詞典中的至少之一。
[0013] 根據(jù)本發(fā)明的技術(shù)方案，采用了實體識別模型和搜索引擎相結(jié)合的策略，在模型初步識別出的實體信息的基礎(chǔ)上搜索出更完整的候選的實體信息，并根據(jù)相似度選擇最相似度的完整實體信息輸出，從而實現(xiàn)了對輸入不完整信息進行命名實體識別，提高了命名實體識別信息的完整度，為系統(tǒng)后續(xù)的自然語言處理提供了更精準的基礎(chǔ)。
【附圖說明】
[0014] 附圖用于更好地理解本發(fā)明，不構(gòu)成對本發(fā)明的不當限定。其中：
[0015] 圖1是根據(jù)本發(fā)明實施例的命名實體識別方法的主要步驟示意圖；
[0016] 圖2是根據(jù)本發(fā)明實施例的命名實體識別裝置的主要部件示意圖。
【具體實施方式】
[0017] 以下結(jié)合附圖對本發(fā)明的示范性實施例做出說明，其中包括本發(fā)明實施例的各種細節(jié)以助于理解，應當將它們認為僅僅是示范性的。因此，本領(lǐng)域普通技術(shù)人員應當認識到，可以對這里描述的實施例做出各種改變和修改，而不會背離本發(fā)明的范圍和精神。同樣，為了清楚和簡明，以下的描述中省略了對公知功能和結(jié)構(gòu)的描述。
[0018] 圖1是根據(jù)本發(fā)明實施例的命名實體識別方法的主要步驟示意圖。如圖1所示，該方法主要包括以下的步驟A至步驟D。
[0019] 步驟A:利用命名實體識別模型對用戶輸入語料進行識別，得到多個初步識別命名實體。
[0020] 步驟B:將多個初步識別命名實體組成查詢詞條在商品數(shù)據(jù)庫中進行搜索，得到多個候選完整命名實體。需要說明的是，商品數(shù)據(jù)庫中預先存儲有大量的完整的命名實體詞條。
[0021] 步驟C:分別計算多個候選完整命名實體與用戶輸入語料的相似度。
[0022] 步驟D:選擇相似度最高的候選完整命名實體作為最終識別命名實體，輸出最終識別命名實體。
[0023] 根據(jù)上述實施例的命名實體識別方法，采用了實體識別模型和搜索引擎相結(jié)合的策略，在模型初步識別出的實體信息的基礎(chǔ)上搜索出更完整的候選的實體信息，并根據(jù) 相似度選擇最相似度的完整實體信息輸出，從而實現(xiàn)了對輸入不完整信息進行命名實體識另IJ，提高了命名實體識別信息的完整度，為系統(tǒng)后續(xù)的自然語言處理提供了更精準的基礎(chǔ)。
[0024] 在本發(fā)明的實施方式中，命名實體識別模型可以為隱馬爾科夫模型（Hidden MarkovModel，HMM)、最大摘模型（MaximumEntropyMarkovModel，MEMM)或條件隨機場模型（ConditionalRandomFields，CRF)。這三種模型是最常見的命名實體識別模型，具有技術(shù)成熟的優(yōu)點。下面對這三種模型做簡要介紹。
[0025]HMM模型是一個有限狀態(tài)模型，基本思想是首先建立樣本的概率密度模型，再利用模型進行推理預測，屬于生產(chǎn)式模型。HMM只依賴于每一個狀態(tài)和它對應的觀察對象，為了定義一個觀察值和標注值的聯(lián)合概率，產(chǎn)生式模型必須列出所有可能的觀察序列。
[0026]MEMM模型是對轉(zhuǎn)移概率和表現(xiàn)概率建立聯(lián)合概率，統(tǒng)計時統(tǒng)計的是條件概率，但因為MEMM只在局部做歸一化，MEMM容易陷入局部最優(yōu)。MEMM考慮到相鄰狀態(tài)之間依賴關(guān) 系，且考慮整個觀察序列，因此MEMM的表達能力更強。但是MEMM傾向于選擇擁有更少轉(zhuǎn)移的狀態(tài)，容易產(chǎn)生標記偏置（labelbias)。
[0027]CRF模型中，統(tǒng)計了全局概率，在做歸一化時考慮了數(shù)據(jù)在全局的分布，而不是僅僅在局部歸一化，這樣就解決了MEMM中的標記偏置的問題。
[0028] 在本發(fā)明的實施方式中，命名實體識別模型為條件隨機場模型的情況下，步驟A之前還可以包括訓練條件隨機場模型的過程。訓練條件隨機場模型的過程具體包括如下步驟：建立至少一個自定義詞典；從預先獲得的語料中抽取訓練文本串；參照所述至少一個自定義詞典對所述訓練文本串進行ansj分詞，得到分詞集合；對所述分詞集合中的詞進行詞性標注和序列標注；將標注后的所述分詞集合作為訓練數(shù)據(jù)，使用CRF工具包進行訓練從而得到命名實體識別模型。需要說明的是，至少一個自定義詞典為商品分類自定義詞典、商品品牌自定義詞典、商品屬性信息自定義詞典中的至少之一。該實施方式中，通過引入自定義詞典使得詞性特征更加豐富，可以提高CRF模型的準確率。以及，通過引入序列標注作為數(shù)據(jù)特征，同樣可以提高CRF模型的準確率。
[0029] 為使本領(lǐng)域技術(shù)人員更好地理解本發(fā)明的命名實體識別方法，下面列舉一個具體實施例進行說明。
[0030] (1)首先通過腳本從電商網(wǎng)站上抓取數(shù)據(jù)，然后對抓取到的數(shù)據(jù)進行人工標注詞性并建立相應的自定義詞典。例如：抓取到"華為"一詞，為它標注上"brand(商品品牌）"標簽，并加入到brand自定義詞典中；抓取到"手機"一詞，為它標注上"prodsort(商品分類）"標簽，并加入到prodsort自定義詞典中；抓取到"大屏幕"一詞，為它標注上 "property(商品屬性）"標簽，并加入到prope

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：石東旭;姜文;
技術(shù)所有人：北京京東尚科信息技術(shù)有限公司;北京京東世紀貿(mào)易有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

命名實體識別方法相關(guān)技術(shù)

命名實體識別相關(guān)技術(shù)

中文命名實體識別相關(guān)技術(shù)

命名實體識別工具相關(guān)技術(shù)

中文命名實體識別工具相關(guān)技術(shù)

命名實體識別算法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

命名實體識別方法及裝置的制造方法