一種知識(shí)共享平臺(tái)的詞條處理裝置和方法
【專利摘要】提供了一種知識(shí)共享平臺(tái)的詞條處理裝置和方法。所述知識(shí)共享平臺(tái)的詞條處理裝置包括:候選詞條獲取單元,用于根據(jù)目標(biāo)詞條的目錄中第一目錄的目錄名稱和所述第一目錄下的目錄內(nèi)容,獲取與所述第一目錄關(guān)聯(lián)的候選詞條及其詞條內(nèi)容;內(nèi)容比較單元,用于計(jì)算每個(gè)候選詞條的詞條內(nèi)容與所述第一目錄下的目錄內(nèi)容之間的文本相似度;詞條確定單元,用于根據(jù)內(nèi)容比較單元計(jì)算的文本相似度,從候選詞條中確定與所述第一目錄相關(guān)的詞條。
【專利說明】一種知識(shí)共享平臺(tái)的詞條處理裝置和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種知識(shí)共享平臺(tái)的詞條處理裝置和方法,更具體地講,涉及一種網(wǎng)絡(luò)百科的詞條處理裝置和方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,在互聯(lián)網(wǎng)上能夠?yàn)橛脩籼峁┑膬?nèi)容也越來越多,互聯(lián)網(wǎng)的用戶更加傾向于在互聯(lián)網(wǎng)上搜尋自己想要了解的內(nèi)容。然而,在用戶從互聯(lián)網(wǎng)搜尋想要了解的內(nèi)容時(shí),互聯(lián)網(wǎng)所能夠提供的結(jié)果通常過于繁雜,并且與用戶想要了解的內(nèi)容可能并不十分相關(guān),這使得用戶感到非常的不便。
[0003]在互聯(lián)網(wǎng)上提供的百科應(yīng)用是一種能夠供用戶查檢所需知識(shí)和事實(shí)資料的在線資料應(yīng)用,通常以詞條的形式向用戶提供相關(guān)的知識(shí)內(nèi)容。并且由于互聯(lián)網(wǎng)能夠提供更加豐富的資料,因此現(xiàn)在的互聯(lián)網(wǎng)百科應(yīng)用所能夠提供的詞條內(nèi)容也越來越詳細(xì),不僅包括對(duì)于詞條的說明,還會(huì)包括與詞條相關(guān)的一些其他內(nèi)容。例如,如圖1A中所示,當(dāng)展示詞條“紅樓夢”的相關(guān)內(nèi)容時(shí),不僅會(huì)展示對(duì)于紅樓夢這部作品的內(nèi)容介紹,還會(huì)展示與紅樓夢相關(guān)的其他信息,諸如作者簡介、人物介紹等等內(nèi)容。由于展示的內(nèi)容通常較多,因此如圖1A中所示,會(huì)以目錄的形式對(duì)這些內(nèi)容進(jìn)行歸類,以便于用戶查看相應(yīng)內(nèi)容。
[0004]然而,在百科詞條之間會(huì)存在許多相似或重復(fù)的內(nèi)容。例如,如圖1B所示,在詞條“紅樓夢”的目錄項(xiàng)“作者簡介”部分,以大量的篇幅介紹了作者“曹雪芹”,而在百科中,“曹雪芹”也是一個(gè)百科詞條,詞條“紅樓夢”的部分詞條內(nèi)容與詞條“曹雪芹”相似或重復(fù),在詞條“紅樓夢”的詞條內(nèi)容中以大量的篇幅介紹了與另一詞條相關(guān)的一些內(nèi)容。也就是說,在一個(gè)詞條的詞條內(nèi)容中,通常會(huì)存在與其他詞條相關(guān)的一些內(nèi)容,這可能導(dǎo)致在向用戶展示與該詞條相關(guān)的內(nèi)容時(shí),展示的內(nèi)容過多使得用戶難以很快的找到想要的信息,并且這樣的詞條展示方式需要大量的存儲(chǔ)空間來存儲(chǔ)每個(gè)詞條的詞條內(nèi)容。此外,如圖1B中所示,盡管在詞條“紅樓夢”的相關(guān)詞條內(nèi)容中包括對(duì)作者曹雪芹的一些介紹,但相對(duì)于詞條“曹雪芹”中提供的與曹雪芹相關(guān)的信息而言,這些介紹可能不夠詳細(xì)。因此,需要一種新的百科詞條內(nèi)容設(shè)置方法使得能夠以更加簡潔、高效的方式向用戶展示詞條的相關(guān)信息。
【發(fā)明內(nèi)容】
[0005]根據(jù)本發(fā)明的一方面,提供了一種知識(shí)共享平臺(tái)的詞條處理裝置,所述裝置包括:候選詞條獲取單元,用于根據(jù)目標(biāo)詞條的目錄中第一目錄的目錄名稱和所述第一目錄下的目錄內(nèi)容,獲取與所述第一目錄關(guān)聯(lián)的候選詞條及其詞條內(nèi)容;內(nèi)容比較單元,用于計(jì)算每個(gè)候選詞條的詞條內(nèi)容與所述第一目錄下的目錄內(nèi)容之間的文本相似度;詞條確定單元,用于根據(jù)內(nèi)容比較單元計(jì)算的文本相似度,從候選詞條中確定與所述第一目錄相關(guān)的詞條。
[0006]所述候選詞條獲取單元可使用trie樹算法從存儲(chǔ)有詞條的詞條數(shù)據(jù)庫提取與所述第一目錄關(guān)聯(lián)的候選詞條。[0007]所述內(nèi)容比較單元可使用tf-1df算法來計(jì)算候選詞條的詞條內(nèi)容與所述第一目錄下的目錄內(nèi)容之間的文本相似度。
[0008]所述詞條確定單元可具體用于:將針對(duì)特定候選詞條而計(jì)算的文本相似度與預(yù)設(shè)閾值進(jìn)行比較,如果計(jì)算的文本相似度高于預(yù)設(shè)閾值,則所述詞條確定單元將所述特定候選詞條確定為與所述第一目錄相關(guān)的詞條。
[0009]所述詞條確定單元還可用于:確定所述特定候選詞條是否滿足預(yù)設(shè)的多條后處理規(guī)則;如果所述特定候選詞條滿足預(yù)設(shè)的多條后處理規(guī)則中的第N條,則所述詞條確定單元確定所述第N條后處理規(guī)則對(duì)應(yīng)的閥值,并判斷針對(duì)所述特定候選詞條計(jì)算的文本相似度是否高于與所述第N條后處理規(guī)則對(duì)應(yīng)的閾值,如果高于,則所述詞條確定單元將所述特定候選詞條確定為與所述第一目錄相關(guān)的詞條,N為自然數(shù)。
[0010]根據(jù)本發(fā)明的另一方面,提供了一種知識(shí)共享平臺(tái)的詞條處理方法,所述方法包括:根據(jù)目標(biāo)詞條的目錄中第一目錄的目錄名稱和所述第一目錄下的目錄內(nèi)容,獲取與所述第一目錄關(guān)聯(lián)的候選詞條及其詞條內(nèi)容;計(jì)算每個(gè)候選詞條的詞條內(nèi)容與所述第一目錄下的目錄內(nèi)容之間的文本相似度;根據(jù)計(jì)算的文本相似度,從候選詞條中確定與所述第一目錄相關(guān)的詞條。
[0011]可使用trie樹算法從存儲(chǔ)有詞條的詞條數(shù)據(jù)庫提取與所述第一目錄關(guān)聯(lián)的候選詞條。
[0012]可使用tf-1df算法來計(jì)算候選詞條的詞條內(nèi)容與所述第一目錄下的目錄內(nèi)容之間的文本相似度。
[0013]確定與所述第一目錄相關(guān)的詞條的步驟具體可包括:將針對(duì)特定候選詞條而計(jì)算的文本相似度與預(yù)設(shè)閾值進(jìn)行比較,如果計(jì)算的文本相似度高于預(yù)設(shè)閾值,則將所述特定候選詞條確定為與所述第一目錄相關(guān)的詞條。
[0014]確定與所述第一目錄相關(guān)的詞條的步驟可進(jìn)一步包括:確定所述特定候選詞條是否滿足預(yù)設(shè)的多條后處理規(guī)則;如果所述特定候選詞條滿足預(yù)設(shè)的多條后處理規(guī)則中的第N條,則確定所述第N條后處理規(guī)則對(duì)應(yīng)的閥值,并判斷針對(duì)所述特定候選詞條計(jì)算的文本相似度是否高于與所述第N條后處理規(guī)則對(duì)應(yīng)的閾值,如果高于,則將所述特定候選詞條確定為與所述第一目錄相關(guān)的詞條,N為自然數(shù)。
[0015]有益效果
[0016]通過應(yīng)用本發(fā)明的知識(shí)共享平臺(tái)的詞條處理裝置和方法,不僅能夠引導(dǎo)用戶方便地瀏覽更詳細(xì)的詞條相關(guān)信息,還能夠?qū)崿F(xiàn)詞條間的內(nèi)容去重從而達(dá)到節(jié)省存儲(chǔ)詞條內(nèi)容所需的存儲(chǔ)空間的目的。
【專利附圖】
【附圖說明】
[0017]通過下面結(jié)合附圖對(duì)本發(fā)明的示例性實(shí)施例進(jìn)行的描述,本發(fā)明的上述和其他目的和特點(diǎn)將會(huì)變得更加清楚,其中:
[0018]圖1A和圖1B是示出詞條目錄和內(nèi)容的示意性示圖;
[0019]圖2是示出根據(jù)本發(fā)明的示例性實(shí)施例的知識(shí)共享平臺(tái)的詞條處理裝置的框圖;
[0020]圖3是示出根據(jù)本發(fā)明的示例性實(shí)施例的知識(shí)共享平臺(tái)的詞條處理方法的流程圖?!揪唧w實(shí)施方式】
[0021]提供以下參照附圖進(jìn)行的描述以幫助全面理解由權(quán)利要求及其等同物限定的本發(fā)明的示例性實(shí)施例。所述描述包括各種特定細(xì)節(jié)以幫助理解,但這些細(xì)節(jié)被認(rèn)為僅是示例性的。因此,本領(lǐng)域的普通技術(shù)人員將認(rèn)識(shí)到:在不脫離本發(fā)明的范圍和精神的情況下,可對(duì)這里描述的實(shí)施例進(jìn)行各種改變和修改。此外,為了清楚和簡明,可省略已知功能和構(gòu)造的描述。
[0022]圖2是示出根據(jù)本發(fā)明的示例性實(shí)施例的知識(shí)共享平臺(tái)的詞條處理裝置100的框圖。
[0023]參照圖2,本發(fā)明的示例性實(shí)施例的知識(shí)共享平臺(tái)的詞條處理裝置100可包括:候選詞條獲取單元110、內(nèi)容比較單元120和詞條確定單元130。
[0024]在本發(fā)明的示例性實(shí)施例中,候選詞條獲取單元110可根據(jù)目標(biāo)詞條A (例如,紅樓夢)的目錄中的某個(gè)目錄B (例如,圖1A和IB中的作者之謎)的目錄名(即,作者之謎)和所述目錄B下的目錄內(nèi)容,獲取與所述目錄B關(guān)聯(lián)的候選詞條C及其詞條內(nèi)容。
[0025]具體地講,候選詞條獲取單元110可使用trie樹(即,字典樹)算法從存儲(chǔ)有詞條的詞條數(shù)據(jù)庫提取與所述目錄B關(guān)聯(lián)的候選詞條并獲取其詞條內(nèi)容。例如,候選詞條獲取單元110可選擇目錄B的目錄名加上目錄B的一部分目錄內(nèi)容(例如,目錄B下的目錄內(nèi)容的前幾句話)組成候選文本,使用trie樹算法從該候選文本中找出候選詞條的集合C={C1,C2,…,Cn},即,使用trie樹從所述候選文本中確定哪些詞屬于詞條數(shù)據(jù)庫中的現(xiàn)有詞條,將該候選文本中屬于詞條數(shù)據(jù)庫中的現(xiàn)有詞條的詞條確定為候選詞條并獲取其詞條內(nèi)容。在找出候選詞條集合之后,候選詞條獲取單元110還可通過詞條的逆向文件頻率(idf)來過濾掉一些無 意義的候選詞條。在本發(fā)明的示例性實(shí)施例中,可基于預(yù)先設(shè)置的語料庫或文件集來獲得詞條的idf。
[0026]應(yīng)該理解,使用trie樹算法找出候選詞條的方法以及使用idf來濾除無意義的候選詞條的方法對(duì)于本領(lǐng)域技術(shù)人員而言是已知的,因此在此將不再進(jìn)行詳細(xì)描述。此外,從所述候選文本中找出哪些詞條屬于詞條數(shù)據(jù)庫中的現(xiàn)有詞條的方法也不限于trie樹算法,還可使用本領(lǐng)域已知的各種算法對(duì)所述候選文本進(jìn)行處理以確定出候選詞條。
[0027]在提取出候選詞條的集合C之后,內(nèi)容比較單元120可計(jì)算集合C中的每個(gè)候選詞條的詞條內(nèi)容與目錄B下的目錄內(nèi)容(B卩,目標(biāo)詞條A的詞條內(nèi)容中的用于描述目錄B的一部分內(nèi)容)之間的文本相似度。
[0028]在本發(fā)明的示例性實(shí)施例中,僅作為示例,內(nèi)容比較單元120可使用tf-1df算法來計(jì)算候選詞條的詞條內(nèi)容與目錄B下的目錄內(nèi)容之間的文本相似度。
[0029]具體地講,首先,內(nèi)容比較單元120可對(duì)待比較的候選詞條的詞條內(nèi)容的文本以及目錄B下的目錄內(nèi)容的文本進(jìn)行詞語和詞性的標(biāo)注,從而過濾掉一些副詞或介詞。然后,內(nèi)容比較單元120可基于所述兩個(gè)文本中剩余的每個(gè)詞語的兩個(gè)詞向量tf (關(guān)鍵詞詞頻)和idf (逆向文件頻率)來計(jì)算每個(gè)候選詞條的詞條內(nèi)容的文本與目錄B下的目錄內(nèi)容的文本之間的文本相似度,例如,可將基于所述剩余詞語的tf和idf而計(jì)算的候選詞條的詞條內(nèi)容的文本與目錄B下的目錄內(nèi)容的文本之間的余弦相似度確定為其文本相似度。
[0030]應(yīng)該理解,使用tf-1df算法計(jì)算文本相似度的方法對(duì)于本領(lǐng)域技術(shù)人員而言是已知的并且不限于以上所列舉的示例,因此為了簡明,在此將不再進(jìn)行更加詳細(xì)的描述。
[0031]詞條確定單元130可根據(jù)內(nèi)容比較單元120計(jì)算的文本相似度,從候選詞條C中確定與目錄B相關(guān)的詞條。具體地講,所述詞條確定單元130可將針對(duì)每個(gè)候選詞條而計(jì)算的文本相似度與預(yù)設(shè)閾值進(jìn)行比較,如果計(jì)算的文本相似度高于預(yù)設(shè)閾值,則所述詞條確定單元130可將所述候選詞條確定為與所述目錄B相關(guān)的詞條。在本發(fā)明的實(shí)施例中,所述候選閾值可根據(jù)候選詞條所滿足的預(yù)設(shè)后處理規(guī)則而不同。具體地講,可根據(jù)預(yù)先確定的后處理規(guī)則來對(duì)目錄B和針對(duì)目錄B確定的候選詞條的集合C進(jìn)行后處理,判斷候選詞條集合C中的每個(gè)候選詞條所滿足的后處理規(guī)則。例如,對(duì)于候選詞條集合C中的某個(gè)候選詞條Ci,詞條確定單元130可確定所述候選詞條Ci是否滿足預(yù)設(shè)的多條后處理規(guī)則;如果所述特定候選詞條Ci滿足預(yù)設(shè)的多條后處理規(guī)則中的第N條后處理規(guī)則(其中,N為自然數(shù)),則所述詞條確定單元130可確定所述第N條后處理規(guī)則對(duì)應(yīng)的閥值,并判斷針對(duì)候選詞條Ci而計(jì)算的文本相似度是否高于與所述第N條后處理規(guī)則對(duì)應(yīng)的閾值,如果高于與所述第N條后處理規(guī)則對(duì)應(yīng)的閾值,則所述詞條確定單元130可將所述候選詞條Ci確定為與目錄B相關(guān)的詞條CB。以下列出了一些用于判斷候選詞條Ci是否可被確定為與目錄B相關(guān)的詞條的后處理規(guī)則。
[0032]規(guī)則1:如果B不包含A并且B屬于人名,則閾值設(shè)置為0.5。
[0033]規(guī)則2:如果B中含有比較明顯的關(guān)鍵字并且Ci是人名,則針對(duì)B的以下不同關(guān)鍵字,可分別設(shè)置相應(yīng)的閾值:
[0034](I)(專家簡介,閾值設(shè)置為0.5);
[0035](2)(樂團(tuán)簡介、作家,閾值設(shè)置為0.7);
[0036](3)(樂隊(duì)簡介、譯者簡介,閾值設(shè)置為0.6);
[0037](4)(作家簡介、聲優(yōu)簡介、聲優(yōu)介紹、聲優(yōu)資料、歌手介紹、作者介紹、歌手資料、歌手簡介、畫家介紹、作者簡介、畫家簡介、作者、聲優(yōu)等,閾值設(shè)置為0.5);
[0038](5)(創(chuàng)始人且詞條Ci的詞條區(qū)分tf值大于預(yù)設(shè)值,閾值設(shè)置為0.4)
[0039](6)(相關(guān)信息、相關(guān)知識(shí)、相關(guān)簡介、相關(guān)介紹,閾值設(shè)置為0.8)。
[0040]規(guī)則3:
[0041](I)如果B不包含A并且B包含Ci,則閾值設(shè)置為0.8 ;
[0042](2)如果B包含A且B等于Ci,則閾值設(shè)置為0.4。
[0043]規(guī)則4:
[0044](I)如果B和Ci的長度同時(shí)大于等于4個(gè)字,B不包含A,且B也不包含C,則閾值設(shè)置為0.8 ;
[0045](2)如果B的長度大于4個(gè)字并且Ci屬于實(shí)體類,則閾值設(shè)置為0.9;
[0046](3)如果B的長度大于4個(gè)字,Ci屬于實(shí)體類,且B包含Ci,則閾值設(shè)置為0.9。
[0047]然而,應(yīng)該理解,上面列出的后處理規(guī)則僅是為了便于理解而舉出的一些示例,在實(shí)際應(yīng)用中,用戶還可根據(jù)需要而設(shè)置不同的后處理規(guī)則。
[0048]僅作為上述確定結(jié)果的一種示例性應(yīng)用,在確定了與目錄B相關(guān)的詞條Cb之后,在展示目錄B的目錄內(nèi)容時(shí),可將所述目錄內(nèi)容中與詞條Cb相關(guān)的部分替換為具有可鏈接到詞條Cb的詞條內(nèi)容頁面的鏈接形式的詞條CB。這樣,當(dāng)用戶希望查看目錄B下與詞條Cb相關(guān)的信息時(shí),可通過點(diǎn)擊具有鏈接的詞條Cb來跳轉(zhuǎn)到詞條Cb的頁面,從而能夠獲得更詳細(xì)的關(guān)于該部分的相關(guān)信息。
[0049]圖3是示出根據(jù)本發(fā)明的示例性實(shí)施例的知識(shí)共享平臺(tái)的詞條處理方法的流程圖。
[0050]如圖3中所示,在210,可由根據(jù)本發(fā)明的示例性實(shí)施例的知識(shí)共享平臺(tái)的詞條處理裝置100的候選詞條獲取單元110根據(jù)目標(biāo)詞條的目錄中第一目錄的目錄名稱和所述第一目錄下的目錄內(nèi)容,獲取與所述第一目錄關(guān)聯(lián)的候選詞條及其詞條內(nèi)容。在本發(fā)明的示例性實(shí)施例中,候選詞條獲取單元110可使用trie樹算法從存儲(chǔ)有詞條的詞條數(shù)據(jù)庫提取與所述第一目錄關(guān)聯(lián)的候選詞條。僅作為示例,候選詞條獲取單元110可選擇目標(biāo)詞條A的多個(gè)目錄之中的目錄B的目錄名加上目錄B的一部分目錄內(nèi)容(例如,目錄B下的目錄內(nèi)容的前幾句話)組成候選文本,使用trie樹算法從所述候選文本中確定哪些詞屬于詞條數(shù)據(jù)庫中的現(xiàn)有詞條,并將該候選文本中屬于詞條數(shù)據(jù)庫中的現(xiàn)有詞條的詞條確定為候選詞條并獲取其詞條內(nèi)容。
[0051]在找出與目錄關(guān)聯(lián)的候選詞條之后,在230,可由知識(shí)共享平臺(tái)的詞條處理裝置100的內(nèi)容比較單元120計(jì)算每個(gè)候選詞條的詞條內(nèi)容與所述第一目錄下的目錄內(nèi)容之間的文本相似度。在本發(fā)明的示例性實(shí)施例中,所述內(nèi)容比較單元120可使用tf-1df算法來計(jì)算候選詞條的詞條內(nèi)容和所述第一目錄下的目錄內(nèi)容之間的文本相似度。
[0052]具體地講,例如,內(nèi)容比較單元120可對(duì)待比較的候選詞條的詞條內(nèi)容的文本以及第一目錄下的目錄內(nèi)容的文本進(jìn)行詞語和詞性的標(biāo)注,從而過濾掉一些副詞或介詞。然后,內(nèi)容比較單元120可基于所述兩個(gè)文本中剩余的每個(gè)詞語的兩個(gè)詞向量tf (關(guān)鍵詞詞頻)和idf (逆向文件頻率)來計(jì)算每個(gè)候選詞條的詞條內(nèi)容的文本與第一目錄下的目錄內(nèi)容的文本之間的文本相似度,例如,可將基于所述剩余詞語的tf和idf而計(jì)算的候選詞條的詞條內(nèi)容的文本與第一目錄下的目錄內(nèi)容的文本之間的余弦相似度確定為其文本相似度。
[0053]然后,在250,可由知識(shí)共享平臺(tái)的詞條處理裝置100的詞條確定單元130根據(jù)內(nèi)容比較單元120計(jì)算的文本相似度,從候選詞條中確定與所述第一目錄相關(guān)的詞條。
[0054]在本發(fā)明的示例性實(shí)施例中,詞條確定單元120可將針對(duì)候選詞條而計(jì)算的文本相似度與預(yù)設(shè)閾值進(jìn)行比較,如果計(jì)算的文本相似度高于預(yù)設(shè)閾值,則可將所述候選詞條確定為與所述第一目錄相關(guān)的詞條。
[0055]優(yōu)選地,在本發(fā)明的示例性實(shí)施例中,可預(yù)設(shè)多條后處理規(guī)則來從候選詞條確定與所述第一目錄相關(guān)的詞條,每條預(yù)設(shè)規(guī)則可具有不同的閾值。在這種情況下,僅作為示例,對(duì)于某個(gè)候選詞條Ci,詞條確定單元130可首先確定所述候選詞條Ci是否滿足預(yù)設(shè)的多條后處理規(guī)則,如果所述特定候選詞條Ci滿足預(yù)設(shè)的多條后處理規(guī)則中的第N條后處理規(guī)則,則所述詞條確定單元130可確定所述第N條后處理規(guī)則對(duì)應(yīng)的閥值,并判斷針對(duì)候選詞條Ci而計(jì)算的文本相似度是否高于與所述第N條后處理規(guī)則對(duì)應(yīng)的閾值,如果高于與所述第N條后處理規(guī)則對(duì)應(yīng)的閾值,則所述詞條確定單元130可將所述候選詞條Ci確定為與第一目錄相關(guān)的詞條CB。
[0056]通過應(yīng)用以上所描述的根據(jù)知識(shí)共享平臺(tái)的詞條處理裝置和方法,不僅能夠引導(dǎo)用戶方便地瀏覽更詳細(xì)的詞條相關(guān)信息,還能夠?qū)崿F(xiàn)詞條間的內(nèi)容去重從而達(dá)到節(jié)省存儲(chǔ)詞條內(nèi)容所需的存儲(chǔ)空間的目的。[0057]本發(fā)明示例性實(shí)施例可實(shí)現(xiàn)為計(jì)算機(jī)可讀記錄介質(zhì)上的計(jì)算機(jī)可讀代碼。計(jì)算機(jī)可讀記錄介質(zhì)是可存儲(chǔ)其后可由計(jì)算機(jī)系統(tǒng)讀出的數(shù)據(jù)的任意數(shù)據(jù)存儲(chǔ)裝置。計(jì)算機(jī)可讀記錄介質(zhì)的示例包括:只讀存儲(chǔ)器(ROM)、隨機(jī)存取存儲(chǔ)器(RAM)、CD-ROM、磁帶、軟盤、光數(shù)據(jù)存儲(chǔ)裝置和載波(諸如經(jīng)有線或無線傳輸路徑通過互聯(lián)網(wǎng)的數(shù)據(jù)傳輸)。計(jì)算機(jī)可讀記錄介質(zhì)也可分布于連接網(wǎng)絡(luò)的計(jì)算機(jī)系統(tǒng),從而計(jì)算機(jī)可讀代碼以分布式存儲(chǔ)和執(zhí)行。此夕卜,完成本發(fā)明的功能程序、代碼和代碼段可容易地被與本發(fā)明相關(guān)的領(lǐng)域的普通程序員在本發(fā)明的范圍之內(nèi)解釋。
[0058]盡管已經(jīng)參照其示例性實(shí)施例具體顯示和描述了本發(fā)明,但是本領(lǐng)域的技術(shù)人員應(yīng)該理解,在不脫離權(quán)利要求所限定的本發(fā)明的精神和范圍的情況下,可以對(duì)其進(jìn)行形式和細(xì)節(jié)上的各種改變。
【權(quán)利要求】
1.一種知識(shí)共享平臺(tái)的詞條處理裝置,所述裝置包括: 候選詞條獲取單元,用于根據(jù)目標(biāo)詞條的目錄中第一目錄的目錄名稱和所述第一目錄下的目錄內(nèi)容,獲取與所述第一目錄關(guān)聯(lián)的候選詞條及其詞條內(nèi)容; 內(nèi)容比較單元,用于計(jì)算每個(gè)候選詞條的詞條內(nèi)容與所述第一目錄下的目錄內(nèi)容之間的文本相似度; 詞條確定單元,用于根據(jù)內(nèi)容比較單元計(jì)算的文本相似度,從候選詞條中確定與所述第一目錄相關(guān)的詞條。
2.如權(quán)利要求1所述的裝置,其中,所述候選詞條獲取單元使用trie樹算法從存儲(chǔ)有詞條的詞條數(shù)據(jù)庫提取與所述第一目錄關(guān)聯(lián)的候選詞條。
3.如權(quán)利要求1所述的裝置,其中,所述內(nèi)容比較單元使用tf-1df算法來計(jì)算候選詞條的詞條內(nèi)容與所述第一目錄下的目錄內(nèi)容之間的文本相似度。
4.如權(quán)利要求1所述的裝置,其中,所述詞條確定單元具體用于:將針對(duì)特定候選詞條而計(jì)算的文本相似度與預(yù)設(shè)閾值進(jìn)行比較,如果計(jì)算的文本相似度高于預(yù)設(shè)閾值,則所述詞條確定單元將所述特定候選詞條確定為與所述第一目錄相關(guān)的詞條。
5.如權(quán)利要求4所述的裝置,其中,所述詞條確定單元還用于:確定所述特定候選詞條是否滿足預(yù)設(shè)的多條后 處理規(guī)則;如果所述特定候選詞條滿足預(yù)設(shè)的多條后處理規(guī)則中的第N條,則所述詞條確定單元確定所述第N條后處理規(guī)則對(duì)應(yīng)的閥值,并判斷針對(duì)所述特定候選詞條計(jì)算的文本相似度是否高于與所述第N條后處理規(guī)則對(duì)應(yīng)的閾值,如果高于,則所述詞條確定單元將所述特定候選詞條確定為與所述第一目錄相關(guān)的詞條,N為自然數(shù)。
6.—種知識(shí)共享平臺(tái)的詞條處理方法,所述方法包括: 根據(jù)目標(biāo)詞條的目錄中第一目錄的目錄名稱和所述第一目錄下的目錄內(nèi)容,獲取與所述第一目錄關(guān)聯(lián)的候選詞條及其詞條內(nèi)容; 計(jì)算每個(gè)候選詞條的詞條內(nèi)容與所述第一目錄下的目錄內(nèi)容之間的文本相似度; 根據(jù)計(jì)算的文本相似度,從候選詞條中確定與所述第一目錄相關(guān)的詞條。
7.如權(quán)利要求6所述的方法,其中,使用trie樹算法從存儲(chǔ)有詞條的詞條數(shù)據(jù)庫提取與所述第一目錄關(guān)聯(lián)的候選詞條。
8.如權(quán)利要求6所述的方法,其中,使用tf-1df算法來計(jì)算候選詞條的詞條內(nèi)容與所述第一目錄下的目錄內(nèi)容之間的文本相似度。
9.如權(quán)利要求6所述的方法,其中,確定與所述第一目錄相關(guān)的詞條的步驟具體包括:將針對(duì)特定候選詞條而計(jì)算的文本相似度與預(yù)設(shè)閾值進(jìn)行比較,如果計(jì)算的文本相似度高于預(yù)設(shè)閾值,則將所述特定候選詞條確定為與所述第一目錄相關(guān)的詞條。
10.如權(quán)利要求9所述的方法,其中,確定與所述第一目錄相關(guān)的詞條的步驟進(jìn)一步包括:確定所述特定候選詞條是否滿足預(yù)設(shè)的多條后處理規(guī)則;如果所述特定候選詞條滿足預(yù)設(shè)的多條后處理規(guī)則中的第N條,則確定所述第N條后處理規(guī)則對(duì)應(yīng)的閥值,并判斷針對(duì)所述特定候選詞條計(jì)算的文本相似度是否高于與所述第N條后處理規(guī)則對(duì)應(yīng)的閾值,如果高于,則將所述特定候選詞條確定為與所述第一目錄相關(guān)的詞條,N為自然數(shù)。
【文檔編號(hào)】G06F17/30GK104021202SQ201410268830
【公開日】2014年9月3日 申請日期:2014年6月16日 優(yōu)先權(quán)日:2014年6月16日
【發(fā)明者】李永強(qiáng) 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司