用于表征功能實體的和用于將功能實體消歧的方法和設(shè)備的制作方法
【專利摘要】本發(fā)明提供了用于表征文檔中的功能實體的方法和設(shè)備以及用于將文檔中的功能實體消歧的方法和設(shè)備。用于表征在包括關(guān)于對裝置進行操作的信息的文檔中的功能實體的方法包括:識別該文檔中的功能實體;以及對于每個功能實體,從該文檔中提取至少一個裝置狀態(tài)轉(zhuǎn)移;以及其中該裝置狀態(tài)轉(zhuǎn)移由與裝置的狀態(tài)相關(guān)的實體和該實體之間的關(guān)系構(gòu)成。這種表征方法可以被用于將文檔中的功能實體消歧,并且可以被用于聚類/歸類/搜索功能實體/文檔。本發(fā)明對于其名字在多個版本間已經(jīng)發(fā)生變化的功能實體的消歧而言是尤其有利的。
【專利說明】用于表征功能實體的和用于將功能實體消歧的方法和設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及用于表征在包括關(guān)于對裝置進行操作的信息的文檔中的功能實體的方法和設(shè)備、以及用于將文檔中的功能實體消歧的方法和設(shè)備。
【背景技術(shù)】
[0002]對于實體消歧的需求通常出現(xiàn)在其中表示相同實體的數(shù)據(jù)對象以不同的方式呈現(xiàn)并且沒有用于相同實體的統(tǒng)一的標識符的信息整合應(yīng)用中。實體消歧通常是在可以進行關(guān)于實體的任何其它推論之前必須被執(zhí)行的關(guān)鍵的第一步。
[0003]手冊、操作指南以及包括關(guān)于對一個裝置或一類裝置進行操作的信息的類似文檔在企業(yè)和我們的日常生活中被頻繁地使用。這些文檔的特征在于是隨時間演變的,并且因此會具有多個版本。例如,當發(fā)布一個系列的數(shù)字式照相機的新型號時,用于該系列的照相機的手冊將演變成與新型號對應(yīng)的新版本。手冊或操作指南中的功能實體和一般性的表達在多個版本的手冊或操作指南之間可能不同。因此,存在對于多個版本的文檔進行功能實體消歧的需求。
[0004]功能實體指的是設(shè)定、選項、動作、部件、步驟和功能等的命名實體,并且在手冊、操作指南和包括關(guān)于對裝置進行操作的信息的類似文檔中頻繁出現(xiàn)。為了利用相同的標識符來標識在不同版本的文檔(尤其是手冊或操作指南)中的相同的功能實體,可以執(zhí)行功能實體消歧。一般,在制作手冊之前將功能實體編索引(index)。對于多個版本的文檔的功能實體消歧的任務(wù)是使文檔中的功能實體同索引(co-1ndex)。
[0005]功能實體消歧系統(tǒng)一般獲取文檔和索引化的功能實體列表作為其輸入,并且輸出同索引的功能實體的列表。期望的是,一系列文檔中的功能名的演變可以通過使用功能實體消歧來跟蹤。例如,如表I中所示出的,由相同公司制造的數(shù)字式照相機的所有型號具有相同的菜單“FUNC.菜單”(#12)。功能“自動回放(自動播放)”、“自動回放(幻燈片放映)”和“觀看幻燈片放映”是同索引的(#17)。此外,“捕獲最佳面部表情(最佳圖像選擇)”被指定一個新的標識符(#203),因為它僅存在于照相機型號220/230中。
[0006]
【權(quán)利要求】
1.一種用于表征在包括關(guān)于對裝置進行操作的信息的文檔中的功能實體的方法,包括: a)識別該文檔中的功能實體;以及 b)對于每個功能實體,從該文檔中提取至少一個裝置狀態(tài)轉(zhuǎn)移;以及 其中該裝置狀態(tài)轉(zhuǎn)移由與裝置的狀態(tài)相關(guān)的實體和該實體之間的關(guān)系構(gòu)成。
2.根據(jù)權(quán)利要求1所述的方法,其中步驟b)包括: bl)獲得與該功能實體相關(guān)的設(shè)定-選項對的森林; b2)基于該森林和該功能實體來提取設(shè)定-選項對的葉節(jié)點中的至少一個作為該裝置狀態(tài)轉(zhuǎn)移; 其中,該與裝置的狀態(tài)相關(guān)的實體是設(shè)定和選項;以及 該實體之間的關(guān)系是每個設(shè)定-選項對中的設(shè)定與選項之間的關(guān)系。
3.根據(jù)權(quán)利要求2所述的方法,其中步驟b)包括: b3)從該文檔中提取與該功能實體相關(guān)的操作的至少一個動作-部件對作為該裝置狀態(tài)轉(zhuǎn)移; 其中,該與裝置的狀態(tài)相關(guān)的實體是設(shè)定、選項、動作和部件;以及該實體之間的關(guān)系是每個設(shè)定-選項對中的設(shè)定與選項之間的關(guān)系、以及每個動作-部件對中的動作與部件之間的關(guān)系。
4.根據(jù)權(quán)利要求3所述的方法,其中步驟b)包括: b4)輸入包括該裝置的相應(yīng)功能的效果的字典; b5)從該字典中提取與該功能實體相關(guān)的至少一個效果作為該裝置狀態(tài)轉(zhuǎn)移; 其中,該與裝置的狀態(tài)相關(guān)的實體是設(shè)定、選項、動作、部件和效果;以及該實體之間的關(guān)系是每個設(shè)定-選項對中的設(shè)定與選項之間的關(guān)系、以及每個動作-部件對中的動作與部件之間的關(guān)系。
5.根據(jù)權(quán)利要求2所述的方法,還包括: c)輸入已被編索引的候選功能實體的集合; d)對于每個功能實體,通過比較該功能實體與每個已被編索引的候選功能實體的設(shè)定-選項對的葉節(jié)點來計算該功能實體與每個已被編索引的候選功能實體之間的第一相似度分數(shù)。
6.根據(jù)權(quán)利要求3所述的方法,還包括: c)輸入已被編索引的候選功能實體的集合; 對于每個功能實體, d)通過比較該功能實體與每個已被編索引的候選功能實體的設(shè)定-選項對的葉節(jié)點來計算該功能實體與每個已被編索引的候選功能實體之間的第四相似度分數(shù); e)通過比較該功能實體與每個已被編索引的候選功能實體的操作的動作-部件對來計算該功能實體與每個已被編索引的候選功能實體之間的第五相似度分數(shù);以及 f)根據(jù)第四相似度分數(shù)和第五相似度分數(shù)來計算該功能實體與每個已被編索引的候選功能實體之間的第二相似度分數(shù)。
7.根據(jù)權(quán)利要求4所述的方法,還包括: c)輸入已被編索引的候選功能實體的集合;對于每個功能實體, d)通過比較該功能實體與每個已被編索引的候選功能實體的設(shè)定-選項對的葉節(jié)點來計算該功能實體與每個已被編索引的候選功能實體之間的第四相似度分數(shù); e)通過比較該功能實體與每個已被編索引的候選功能實體的操作的動作-部件對來計算該功能實體與每個已被編索引的候選功能實體之間的第五相似度分數(shù); f)通過比較該功能實體與每個已被編索引的候選功能實體的效果來計算該功能實體與每個已被編索引的候選功能實體之間的第六相似度分數(shù);以及 g)根據(jù)第四相似度分數(shù)、第五相似度分數(shù)和第六相似度分數(shù)來計算該功能實體與每個已被編索引的候選功能實體之間的第三相似度分數(shù)。
8.根據(jù)權(quán)利要求5到7中的任意一項所述的方法,還包括: 對于每個功能實體,在步驟d)之前,通過在字面上將該功能實體與已被編索引的候選功能實體進行比較來計算第七相似度分數(shù);并且在該第七相似度分數(shù)小于閾值的情況下執(zhí)行步驟d)及其后續(xù)步驟。
9.根據(jù)權(quán)利要求2到7中的任意一項所述的方法,其中,步驟b2)包括: b21)通過使用命名實體識別來從該文檔中提取設(shè)定和選項; b22)通過使用關(guān)系提取來提取設(shè)定-選項對;以及 b23)修剪該森林,從而僅保留與該功能實體相關(guān)的設(shè)定-選項對的葉節(jié)點。
10.根據(jù)權(quán)利要求9所述的方法,其中步驟b2)還包括: b24)通過使用該文檔中的關(guān)于該功能實體的部分中的預(yù)定義的順序來將葉節(jié)點序列化,以便獲得設(shè)定-選項對的葉節(jié)點的有序序列。
11.根據(jù)權(quán)利要求10所述的方法,其中步驟b24)包括: 基于設(shè)定-選項對的辨別力來過濾前η個設(shè)定-選項對的葉節(jié)點;以及通過使用該文檔中的關(guān)于該功能實體的部分中的預(yù)定義的順序來將過濾得到的前η個葉節(jié)點序列化,以便獲得設(shè)定-選項對的葉節(jié)點的有序序列; 其中一個設(shè)定-選項對的辨別力被定義為:
"? = /1 *log(4)
n\ 其中dl表示該設(shè)定-選項對的辨別力,Π表示該設(shè)定-選項對的頻率,t表示該文檔中的功能實體的總數(shù),并且nl表示與該設(shè)定-選項對相關(guān)的功能實體的數(shù)量。
12.根據(jù)權(quán)利要求3到4和6到7中的任意一項所述的方法,其中步驟b3)包括: b31)通過使用命名實體識別來從該文檔中提取動作和部件;以及 b32)通過使用關(guān)系提取來提取動作-部件對。
13.根據(jù)權(quán)利要求12所述的方法,其中步驟b3)還包括: b33)通過使用該文檔中的關(guān)于該功能實體的部分中的預(yù)定義的順序來將所提取的動作-部件對序列化,以便獲得操作的動作-部件對的有序序列。
14.根據(jù)權(quán)利要求13所述的方法,其中步驟b33)包括: 基于動作-部件對的辨別力來過濾前η個動作-部件對; 通過使用該文檔中的關(guān)于該功能實體的部分中的預(yù)定義的順序來將過濾得到的前η個動作-部件對序列化,以便獲得操作的動作-部件對的有序序列;其中一個動作-部件對的辨別力被定義為:
15.根據(jù)權(quán)利要求4或7所述的方法,其中步驟b5)包括: 基于與該功能實體相關(guān)的效果的辨別力來過濾前η個與該功能實體相關(guān)的效果; 其中,一個效果的辨別力被定義為:
16.一種用于將包括關(guān)于對裝置進行操作的信息的文檔中的功能實體消歧的方法,包括: 計算步驟,對于每個功能實體,通過使用根據(jù)權(quán)利要求5到15中的任意一項所述的方法來計算該功能實體與每個已被編索引的候選功能實體之間的相似度分數(shù); 輸出步驟,對于每個功能實體,輸出η個最好的列表,該η個最好的列表示出了具有最高的η個相似度分數(shù)的已被編索引的候選功能實體。
17.根據(jù)權(quán)利要求16所述的方法,其中該輸出步驟包括: 對于每個功能實體,如果該η個最好的列表中的一個已被編索引的候選功能實體的相似度分數(shù)大于第一閾值,則將該功能實體與相應(yīng)的已被編索引的候選功能實體同索引;否則給該功能實體指定一個新的標識符。
18.根據(jù)權(quán)利要求17所述的方法,其中該輸出步驟包括: 如果第一相似度分數(shù)大于第二閾值,則將該功能實體與相應(yīng)的已被編索引的候選功能實體同索引;否則 如果第二相似度分數(shù)大于第三閾值,則將該功能實體與相應(yīng)的已被編索引的候選功能實體同索引;否則 如果第三相似度分數(shù)大于第四閾值,則將該功能實體與相應(yīng)的已被編索引的候選功能實體同索引;否則 給該功能實體指定一個新的標識符。
19.一種用于表征在包括關(guān)于對裝置進行操作的信息的文檔中的功能實體的設(shè)備,包括: 單元a),被配置為識別該文檔中的功能實體;以及 單元b),被配置為,對于每個功能實體,從該文檔中提取至少一個裝置狀態(tài)轉(zhuǎn)移;以及 其中該裝置狀態(tài)轉(zhuǎn)移由與裝置的狀態(tài)相關(guān)的實體和該實體之間的關(guān)系構(gòu)成。
20.根據(jù)權(quán)利要求19所述的設(shè)備,其中該單元b)包括: 單元bl),被配置為獲得與該功能實體相關(guān)的設(shè)定-選項對的森林; 單元b2),被配置為基于該森林和該功能實體來提取設(shè)定-選項對的葉節(jié)點中的至少一個作為該裝置狀態(tài)轉(zhuǎn)移; 其中,該與裝置的狀態(tài)相關(guān)的實體是設(shè)定和選項;以及該實體之間的關(guān)系是每個設(shè)定-選項對中的設(shè)定與選項之間的關(guān)系。
21.根據(jù)權(quán)利要求20所述的設(shè)備,其中單元b)包括: 單元b3),被配置為從該文檔中提取與該功能實體相關(guān)的操作的至少一個動作-部件對作為該裝置狀態(tài)轉(zhuǎn)移; 其中,該與裝置的狀態(tài)相關(guān)的實體是設(shè)定、選項、動作和部件;以及該實體之間的關(guān)系是每個設(shè)定-選項對中的設(shè)定與選項之間的關(guān)系、以及每個動作-部件對中的動作與部件之間的關(guān)系。
22.根據(jù)權(quán)利要求21所述的設(shè)備,其中單元b)包括: 單元b4),被配置為輸入包括該裝置的相應(yīng)功能的效果的字典; 單元b5),被配置為從該字典中提取與該功能實體相關(guān)的至少一個效果作為該裝置狀態(tài)轉(zhuǎn)移; 其中,該與裝置的狀態(tài)相關(guān)的實體是設(shè)定、選項、動作、部件和效果;以及該實體之間的關(guān)系是每個設(shè)定-選項對中的設(shè)定與選項之間的關(guān)系、以及每個動作-部件對中的動作與部件之間的關(guān)系。
23.根據(jù)權(quán)利要求20所述的設(shè)備,還包括: 單元c),被配置為輸入已被編索引的候選功能實體的集合; 單元d),被配置為對于每個功能實體,通過比較該功能實體與每個已被編索引的候選功能實體的設(shè)定-選項對的葉節(jié)點來計算該功能實體與每個已被編索引的候選功能實體之間的第一相似度分數(shù)。
24.根據(jù)權(quán)利要求21所述的設(shè)備,還包括: 單元C),被配置為輸入已被編索引的候選功能實體的集合; 單元d),被配置為對于每個功能實體,通過比較該功能實體與每個已被編索引的候選功能實體的設(shè)定-選項對的葉節(jié)點來計算該功能實體與每個已被編索引的候選功能實體之間的第四相似度分數(shù); 單元e),被配置為對于每個功能實體,通過比較該功能實體與每個已被編索引的候選功能實體的操作的動作-部件對來計算該功能實體與每個已被編索引的候選功能實體之間的第五相似度分數(shù);以及 單元f),被配置為對于每個功能實體,根據(jù)第四相似度分數(shù)和第五相似度分數(shù)來計算該功能實體與每個已被編索引的候選功能實體之間的第二相似度分數(shù)。
25.根據(jù)權(quán)利要求22所述的設(shè)備,還包括: 單元c),被配置為輸入已被編索引的候選功能實體的集合; 單元d),被配置為對于每個功能實體,通過比較該功能實體與每個已被編索引的候選功能實體的設(shè)定-選項對的葉節(jié)點來計算該功能實體與每個已被編索引的候選功能實體之間的第四相似度分數(shù); 單元e),被配置為對于每個功能實體,通過比較該功能實體與每個已被編索引的候選功能實體的操作的動作-部件對來計算該功能實體與每個已被編索引的候選功能實體之間的第五相似度分數(shù); 單元f),被配置為對于每個功能實體,通過比較該功能實體與每個已被編索引的候選功能實體的效果來計算該功能實體與每個已被編索引的候選功能實體之間的第六相似度分數(shù);以及 單元g),被配置為對于每個功能實體,根據(jù)第四相似度分數(shù)、第五相似度分數(shù)和第六相似度分數(shù)來計算該功能實體與每個已被編索引的候選功能實體之間的第三相似度分數(shù)。
26.根據(jù)權(quán)利要求23到25中的任意一項所述的設(shè)備,還包括: 被配置為對于每個功能實體通過在字面上將該功能實體與已被編索引的候選功能實體進行比較來計算第七相似度分數(shù)的單元;并且 在該第七相似度分數(shù)小于閾值的情況下單元d)及其后續(xù)單元執(zhí)行相應(yīng)的處理。
27.根據(jù)權(quán)利要求20到25中的任意一項所述的設(shè)備,其中,單元b2)包括: 單元b21),被配置為通過使用命名實體識別來從該文檔中提取設(shè)定和選項; 單元b22),被配置為通過使用關(guān)系提取來提取設(shè)定-選項對;以及 單元b23),被配置為修剪該森林,從而僅保留與該功能實體相關(guān)的設(shè)定-選項對的葉節(jié)點。
28.根據(jù)權(quán)利要求27所述的設(shè)備,其中單元b2)還包括: 單元b24),被配置為通過使用該文檔中的關(guān)于該功能實體的部分中的預(yù)定義的順序來將葉節(jié)點序列化,以便獲得設(shè)定-選項對的葉節(jié)點的有序序列。
29.根據(jù)權(quán)利要求28所述的設(shè)備,其中單元b24)包括: 被配置為基于設(shè)定-選項對的辨別力來過濾前η個設(shè)定-選項對的葉節(jié)點的單元;以及 被配置為通過使用該文檔中的關(guān)于該功能實體的部分中的預(yù)定義的順序來將過濾得到的前η個葉節(jié)點序列化以便獲得設(shè)定-選項對的葉節(jié)點的有序序列的單元; 其中一個設(shè)定-選項對的辨別力被定義為:
30.根據(jù)權(quán)利要求21到22和24到25中的任意一項所述的設(shè)備,其中單元b3)包括: 單元b31),被配置為通過使用命名實體識別來從該文檔中提取動作和部件;以及 單元b32),被配置為通過使用關(guān)系提取來提取動作-部件對。
31.根據(jù)權(quán)利要求30所述的設(shè)備,其中單元b3)還包括: 單元b33),被配置為通過使用該文檔中的關(guān)于該功能實體的部分中的預(yù)定義的順序來將所提取的動作-部件對序列化,以便獲得操作的動作-部件對的有序序列。
32.根據(jù)權(quán)利要求31所述的設(shè)備,其中單元b33)包括: 被配置為基于動作-部件對的辨別力來過濾前η個動作-部件對的單元; 被配置為通過使用該文檔中的關(guān)于該功能實體的部分中的預(yù)定義的順序來將過濾得到的前η個動作-部件對序列化以便獲得操作的動作-部件對的有序序列的單元; 其中一個動作-部件對的辨別力被定義為:
33.根據(jù)權(quán)利要求22或25所述的設(shè)備,其中單元b5)包括: 被配置為基于與該功能實體相關(guān)的效果的辨別力來過濾前η個與該功能實體相關(guān)的效果的單元; 其中,一個效果的辨別力被定義為:
34.一種用于將包括關(guān)于對裝置進行操作的信息的文檔中的功能實體消歧的設(shè)備,包括: 根據(jù)權(quán)利要求23到33中的任意一項所述的設(shè)備,用于對于每個功能實體,計算該功能實體與每個已被編索引的候選功能實體之間的相似度分數(shù);以及 輸出單兀,被配置為,對于每個功能實體,輸出η個最好的列表,該η個最好的列表不出了具有最高的η個相似度分數(shù)的已被編索引的候選功能實體。
35.根據(jù)權(quán)利要求34所述的設(shè)備,其中該輸出單元被配置為: 對于每個功能實體,如果該η個最好的列表中的一個已被編索引的候選功能實體的相似度分數(shù)大于第一閾值,則將該功能實體與相應(yīng)的已被編索引的候選功能實體同索引;否則給該功能實體指定一個新的標識符。
36.根據(jù)權(quán)利要求35所述的設(shè)備,其中該輸出單元被配置為: 如果第一相似度分數(shù)大于第二閾值,則將該功能實體與相應(yīng)的已被編索引的候選功能實體同索引;否則 如果第二相似度分數(shù)大于第三閾值,則將該功能實體與相應(yīng)的已被編索引的候選功能實體同索引;否則 如果第三相似度分數(shù)大于第四閾值,則將該功能實體與相應(yīng)的已被編索引的候選功能實體同索引;否則 給該功能實體指定一個新的標識符。
【文檔編號】G06F17/30GK103577491SQ201210281408
【公開日】2014年2月12日 申請日期:2012年8月9日 優(yōu)先權(quán)日:2012年8月9日
【發(fā)明者】胡欽諳, 黃耀海, 李榮軍 申請人:佳能株式會社