一種基于場(chǎng)景信息的實(shí)體含義識(shí)別方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息技術(shù),尤其涉及一種基于場(chǎng)景信息的實(shí)體含義識(shí)別方法和系統(tǒng)。
【背景技術(shù)】
[0002]在信息檢索中,首先要識(shí)別用戶輸入,并準(zhǔn)確解釋用戶輸入的含義,根據(jù)用戶輸入的含義檢索用戶需要的內(nèi)容。在準(zhǔn)確解釋用戶輸入的含義時(shí),用戶輸入中的實(shí)體(專用名詞,例如頤和園、交大、中山路)的含義識(shí)別尤為重要。例如交大,可能存在北京交通大學(xué)、上海交通大學(xué)、西安交通大學(xué)等。在深圳、哈爾濱等都存在中山路。因此,準(zhǔn)確識(shí)別實(shí)體的含義對(duì)于信息檢索的準(zhǔn)確性尤為重要。
【發(fā)明內(nèi)容】
[0003]本發(fā)明解決的技術(shù)問(wèn)題之一是提升實(shí)體含義識(shí)別的準(zhǔn)確性。
[0004]根據(jù)本發(fā)明的一個(gè)方面的一個(gè)實(shí)施例,提供了一種基于場(chǎng)景信息的實(shí)體含義識(shí)別方法,包括:
[0005]識(shí)別用戶輸入,以產(chǎn)生輸入識(shí)別結(jié)果;
[0006]從輸入識(shí)別結(jié)果中識(shí)別出實(shí)體;
[0007]為識(shí)別出的實(shí)體獲取候選實(shí)體含義的集合;
[0008]基于獲取的場(chǎng)景信息,計(jì)算所述候選實(shí)體含義的集合中各候選實(shí)體含義的特征向量;
[0009]基于各候選實(shí)體含義的特征向量,計(jì)算各候選實(shí)體含義的分?jǐn)?shù),根據(jù)計(jì)算出的分?jǐn)?shù)從候選實(shí)體含義集合中選取候選實(shí)體含義作為實(shí)體含義識(shí)別結(jié)果。
[0010]根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述用戶輸入包括語(yǔ)音輸入和/或文字輸入。
[0011]根據(jù)本發(fā)明的一個(gè)實(shí)施例,從輸入識(shí)別結(jié)果中識(shí)別出實(shí)體的步驟包括:
[0012]將輸入識(shí)別結(jié)果分詞;
[0013]為從輸入識(shí)別結(jié)果中分出的詞進(jìn)行詞性標(biāo)注;
[0014]將每一個(gè)字輸入分類器,判定每一個(gè)字是否是構(gòu)成實(shí)體的字、以及構(gòu)成實(shí)體的開頭、中間還是末尾;
[0015]根據(jù)分類器對(duì)每一個(gè)字的判定結(jié)果,判斷該詞是否是實(shí)體。
[0016]根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述分類器是通過(guò)利用訓(xùn)練語(yǔ)料作為輸入、并對(duì)分類結(jié)果進(jìn)行反饋訓(xùn)練出的。
[0017]根據(jù)本發(fā)明的一個(gè)實(shí)施例,為識(shí)別出的實(shí)體獲取候選實(shí)體含義的集合的步驟包括:針對(duì)識(shí)別出的實(shí)體,從實(shí)體含義庫(kù)查找與該實(shí)體匹配的候選實(shí)體含義。
[0018]根據(jù)本發(fā)明的一個(gè)實(shí)施例,獲取的場(chǎng)景信息包括用戶查詢歷史、查詢時(shí)間、用戶位置、周邊事件、周邊人物、應(yīng)用使用情況中的一項(xiàng)或多項(xiàng)。
[0019]根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述候選實(shí)體含義的集合中各候選實(shí)體含義的特征向量中的至少一部分特征基于用戶查詢歷史、查詢時(shí)間、用戶位置、周邊事件、周邊人物、應(yīng)用使用情況中的一項(xiàng)或多項(xiàng)計(jì)算。
[0020]根據(jù)本發(fā)明的一個(gè)實(shí)施例,計(jì)算各候選實(shí)體含義的分?jǐn)?shù)的步驟包括:
[0021]使用評(píng)分函數(shù)計(jì)算各候選實(shí)體含義的分?jǐn)?shù)。
[0022]根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述評(píng)分函數(shù)的系數(shù)是利用訓(xùn)練語(yǔ)料作為輸入、并對(duì)實(shí)體含義識(shí)別結(jié)果進(jìn)行反饋訓(xùn)練出的。
[0023]根據(jù)本發(fā)明另一個(gè)方面的一個(gè)實(shí)施例,還提供了一種基于場(chǎng)景信息的實(shí)體含義識(shí)別系統(tǒng),包括:
[0024]輸入識(shí)別裝置,被配置為識(shí)別用戶輸入以產(chǎn)生輸入識(shí)別結(jié)果;
[0025]實(shí)體識(shí)別裝置,被配置為從輸入識(shí)別結(jié)果中識(shí)別出實(shí)體;
[0026]候選實(shí)體含義獲取裝置,被配置為為識(shí)別出的實(shí)體獲取候選實(shí)體含義的集合;
[0027]計(jì)算裝置,被配置為基于獲取的場(chǎng)景信息,計(jì)算所述候選實(shí)體含義的集合中各候選實(shí)體含義的特征向量;
[0028]實(shí)體含義識(shí)別裝置,被配置為基于各候選實(shí)體含義的特征向量,計(jì)算各候選實(shí)體含義的分?jǐn)?shù),根據(jù)計(jì)算出的分?jǐn)?shù)從候選實(shí)體含義集合中選取候選實(shí)體含義作為實(shí)體含義識(shí)別結(jié)果。
[0029]根據(jù)本發(fā)明的一個(gè)實(shí)施例,用戶輸入包括語(yǔ)音輸入和/或文字輸入。
[0030]根據(jù)本發(fā)明的一個(gè)實(shí)施例,實(shí)體識(shí)別裝置包括:
[0031]分詞單元,被配置為將輸入識(shí)別結(jié)果分詞,并為從輸入識(shí)別結(jié)果中分出的詞進(jìn)行詞性標(biāo)注;
[0032]實(shí)體判斷單元,被配置為將每一個(gè)字輸入分類器,判定每一個(gè)字是否是構(gòu)成實(shí)體的字、以及構(gòu)成實(shí)體的開頭、中間還是末尾,根據(jù)分類器對(duì)每一個(gè)字的判定結(jié)果,判斷該詞是否是實(shí)體。
[0033]根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述分類器是通過(guò)利用訓(xùn)練語(yǔ)料作為輸入、并對(duì)分類結(jié)果進(jìn)行反饋訓(xùn)練出的。
[0034]根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述候選實(shí)體含義獲取裝置被配置為:
[0035]針對(duì)識(shí)別出的實(shí)體,從實(shí)體含義庫(kù)查找與該實(shí)體匹配的候選實(shí)體含義。
[0036]根據(jù)本發(fā)明的一個(gè)實(shí)施例,獲取的場(chǎng)景信息包括用戶查詢歷史、查詢時(shí)間、用戶位置、周邊事件、周邊人物、應(yīng)用使用情況中的一項(xiàng)或多項(xiàng)。
[0037]根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述候選實(shí)體含義的集合中各候選實(shí)體含義的特征向量中的至少一部分特征基于用戶查詢歷史、查詢時(shí)間、用戶位置、周邊事件、周邊人物、應(yīng)用使用情況中的一項(xiàng)或多項(xiàng)計(jì)算。
[0038]根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述實(shí)體含義識(shí)別裝置被配置為使用評(píng)分函數(shù)計(jì)算各候選實(shí)體含義的分?jǐn)?shù)。
[0039]根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述評(píng)分函數(shù)的系數(shù)是利用訓(xùn)練語(yǔ)料作為輸入、并對(duì)實(shí)體含義識(shí)別結(jié)果進(jìn)行反饋訓(xùn)練出的。
[0040]與僅采用通用模型的現(xiàn)有技術(shù)相比,本發(fā)明的實(shí)施例所提供的技術(shù)方案,通過(guò)基于獲取的場(chǎng)景信息而不僅是通用模型來(lái)分析候選實(shí)體含義,根據(jù)不同的場(chǎng)景信息對(duì)候選實(shí)體含義進(jìn)行針對(duì)性地分析,較大地提升了實(shí)體含義識(shí)別的準(zhǔn)確性。
[0041]本領(lǐng)域普通技術(shù)人員將了解,雖然下面的詳細(xì)說(shuō)明將參考圖示實(shí)施例、附圖進(jìn)行,但本發(fā)明并不僅限于這些實(shí)施例。而是,本發(fā)明的范圍是廣泛的,且意在僅通過(guò)后附的權(quán)利要求限定本發(fā)明的范圍。
【附圖說(shuō)明】
[0042]通過(guò)閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
[0043]圖1示出根據(jù)本發(fā)明一個(gè)實(shí)施例的基于場(chǎng)景信息的實(shí)體含義識(shí)別方法的流程圖;
[0044]圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的基于場(chǎng)景信息的實(shí)體含義識(shí)別系統(tǒng)的示意性框圖;
[0045]圖3示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的實(shí)體識(shí)別裝置的示意性框圖;
[0046]附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件。
【具體實(shí)施方式】
[0047]下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。
[0048]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的基于場(chǎng)景信息的實(shí)體含義識(shí)別方法的流程圖。根據(jù)圖1,所述實(shí)體含義識(shí)別方法包括:
[0049]步驟S101,識(shí)別用戶輸入,以產(chǎn)生輸入識(shí)別結(jié)果。
[0050]可選地,所述用戶輸入包括諸如語(yǔ)音輸入、文字輸入等各種輸入方式,文字輸入可包括諸如字形輸入和拼音輸入。當(dāng)用戶輸入為文字輸入時(shí),輸入識(shí)別結(jié)果即輸入的文字;當(dāng)用戶輸入為語(yǔ)音輸入時(shí),可以基于聲學(xué)模型識(shí)別出音節(jié),通過(guò)查詢字典中音節(jié)與文本的可能映射關(guān)系,利用語(yǔ)言模型進(jìn)行語(yǔ)音解碼,識(shí)別出對(duì)應(yīng)的文本作為輸入識(shí)別結(jié)果。語(yǔ)音解碼目前已有成熟技術(shù)。
[0051]以語(yǔ)音識(shí)別為例,用戶輸入為“woyaoqujiaoda”,輸入識(shí)別結(jié)果為“我要去交大”。
[0052]步驟S102,從輸入識(shí)別結(jié)果中識(shí)別出實(shí)體。
[0053]實(shí)體是輸入識(shí)別結(jié)果中的專用名詞,例如地點(diǎn)、人名等。
[0054]可選地,對(duì)輸入識(shí)別結(jié)果進(jìn)行一系列的預(yù)處理,諸如編碼轉(zhuǎn)換、全角半角轉(zhuǎn)換等。預(yù)處理后,基于相應(yīng)的規(guī)則、統(tǒng)計(jì)方法或機(jī)器學(xué)習(xí)方法從輸入識(shí)別結(jié)果中識(shí)別出實(shí)體。
[0055]可選地,從輸入識(shí)別結(jié)果中識(shí)別出實(shí)體的步驟包括:
[0056]-將輸入識(shí)別結(jié)果分詞;
[0057]例如,將輸入識(shí)別結(jié)果“我要去交大”進(jìn)行分詞,得到“我/要/去/交大”,分詞的方法是已有技術(shù),在此不作限定,包括諸如基于字符串匹配的分詞方法、基于理解的分詞方法、基于統(tǒng)計(jì)的分詞方法等。通過(guò)分詞,將輸入識(shí)別結(jié)果切分為一個(gè)一個(gè)的詞。
[0058]-為從輸入識(shí)別結(jié)果中分出的詞進(jìn)行詞性標(biāo)注;
[0059]例如,為上文中切分后的各個(gè)詞“我/要/去/交大”進(jìn)行詞性標(biāo)注,我-代詞,要-助動(dòng)詞,去-動(dòng)詞,交大-名詞。詞性標(biāo)注的方法是已有技術(shù)。
[0060]通過(guò)分詞和詞性標(biāo)注,可以提升實(shí)體識(shí)別的準(zhǔn)確率。分詞后的名詞也可以作為訓(xùn)練語(yǔ)料,為構(gòu)建實(shí)體識(shí)別的模型服務(wù)