一種相關(guān)知識(shí)點(diǎn)的獲取方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種電數(shù)字?jǐn)?shù)據(jù)處理領(lǐng)域,具體地說(shuō)是一種相關(guān)知識(shí)點(diǎn)的獲取方法及 系統(tǒng)。
【背景技術(shù)】
[0002] 數(shù)字出版資源已成為信息提供的主要方式之一。人們已從紙質(zhì)閱讀大量地轉(zhuǎn)向電 子閱讀。數(shù)字出版資源包含電子圖書(shū)、數(shù)字百科全書(shū)、數(shù)字期刊、數(shù)字報(bào)刊等。數(shù)字出版資 源提供的信息通常比互聯(lián)網(wǎng)更加權(quán)威和正確。因此,如何根據(jù)數(shù)字出版資源的特點(diǎn)提高人 們學(xué)習(xí)或閱讀體驗(yàn)變得尤為重要。
[0003] 百科全書(shū)(Encyclopedia)是介紹人類(lèi)的全部知識(shí)或某一類(lèi)知識(shí)的工具書(shū)。往往 按照辭典形式編排(以條目為基本單元),收集各知識(shí)領(lǐng)域的名詞、熟語(yǔ)、地名、事件、人物、 著作等。百科全書(shū)可以是綜合性的,包含所有領(lǐng)域的相關(guān)內(nèi)容(例如,《大不列顛百科全書(shū)》 就是一部著名的綜合性百科全書(shū))。也可以是專(zhuān)業(yè)性的百科全書(shū),如某一個(gè)領(lǐng)域的百科全 書(shū),像歷史百科全書(shū)、軍事百科全書(shū)等,這種某一個(gè)領(lǐng)域的百科全書(shū)稱(chēng)為領(lǐng)域百科全書(shū)。百 科全書(shū)被視為是一個(gè)國(guó)家和一個(gè)時(shí)代科學(xué)文化發(fā)展的標(biāo)志。
[0004] 領(lǐng)域百科全書(shū)將海量的信息分類(lèi),為用戶(hù)提供更有針對(duì)性的資源。領(lǐng)域百科全書(shū) 也是一種重要的數(shù)字出版資源。領(lǐng)域百科全書(shū)通常以詞條的方式組織領(lǐng)域信息。領(lǐng)域百科 全書(shū)需要包含領(lǐng)域內(nèi)的重要詞條。然而,建設(shè)領(lǐng)域百科全書(shū)需要大量人力投入。由于領(lǐng)域 詞條數(shù)目較多,因此通過(guò)人工的方式尋找合適的領(lǐng)域詞條不僅耗時(shí),而且容易遺漏一些很 相關(guān)的領(lǐng)域詞條。如何確定相關(guān)的這些詞條是否都已經(jīng)收錄是一項(xiàng)很重要的工作,但是實(shí) 現(xiàn)起來(lái)需要花費(fèi)大量的人力和時(shí)間。
[0005] Distributed words representations (分布式詞語(yǔ)表不)在 Rumelhar,D. E., Hinton, G. E. , Williams, R. J. :Learning Represenations by Back-propagating Errors. Nature 323(6088) :pp533-536 (1986)中首次提出,該思想將詞語(yǔ)表示成連續(xù)向 量(continuous vectors),且在向量空間中,相似詞語(yǔ)的距離更近。Feedforward neural network (前饋神經(jīng)網(wǎng)絡(luò))是用于學(xué)習(xí)詞向量和語(yǔ)言模型的方法(見(jiàn)Bengio,Y.,Ducharme, R. , Vincent, P. :A Neural Probabilistic Language Model. Journal of Machine Learning Research 3, ppl 137-1155 (2003))。近來(lái),Mikolov 提出 了使用 skip-gram或 CB0W 模型,通過(guò)在大量文本上訓(xùn)練簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)在短時(shí)間內(nèi)得到詞語(yǔ)向量。雖然關(guān)于語(yǔ)義向 量在理論上已經(jīng)有一些研究,但是仍然缺少該技術(shù)的應(yīng)用推廣。
【發(fā)明內(nèi)容】
[0006] 為此,本發(fā)明所要解決的技術(shù)問(wèn)題在于現(xiàn)有技術(shù)中獲取相關(guān)詞條需要人為篩選、 工作量大、客觀性差的問(wèn)題,從而提出一種根據(jù)語(yǔ)義向量來(lái)確定相關(guān)知識(shí)點(diǎn)的方法。
[0007] 為解決上述技術(shù)問(wèn)題,本發(fā)明的提供一種相關(guān)知識(shí)點(diǎn)的獲取方法和系統(tǒng)。
[0008] 本發(fā)明提供一種相關(guān)知識(shí)點(diǎn)的獲取方法,包括:
[0009] 獲取領(lǐng)域知識(shí)點(diǎn);
[0010] 根據(jù)所述領(lǐng)域知識(shí)點(diǎn)對(duì)文本進(jìn)行分詞,得到分詞結(jié)果;
[0011] 根據(jù)分詞結(jié)果和常用詞,確定候選知識(shí)點(diǎn);
[0012] 確定每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量;
[0013] 對(duì)于每個(gè)領(lǐng)域知識(shí)點(diǎn),計(jì)算該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的語(yǔ)義相似度;
[0014] 根據(jù)計(jì)算出的語(yǔ)義相似度,確定與該領(lǐng)域知識(shí)點(diǎn)相關(guān)的目標(biāo)知識(shí)點(diǎn)。
[0015] 本發(fā)明還提供一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的系統(tǒng),包括:
[0016] 提取單元:獲取領(lǐng)域知識(shí)點(diǎn);
[0017] 分詞單元:根據(jù)所述領(lǐng)域知識(shí)點(diǎn)對(duì)文本進(jìn)行分詞,得到分詞結(jié)果;
[0018] 候選單元:根據(jù)分詞結(jié)果和常用詞,確定候選知識(shí)點(diǎn);
[0019] 語(yǔ)義向量計(jì)算單元:確定每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量;
[0020] 相似度計(jì)算單元:對(duì)于每個(gè)領(lǐng)域知識(shí)點(diǎn),計(jì)算該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的語(yǔ)義 相似度;
[0021] 相關(guān)知識(shí)點(diǎn)計(jì)算單元:根據(jù)計(jì)算出的語(yǔ)義相似度,確定與該領(lǐng)域知識(shí)點(diǎn)相關(guān)的目 標(biāo)知識(shí)點(diǎn)。
[0022] 本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點(diǎn),
[0023] (1)本發(fā)明提供一種相關(guān)知識(shí)點(diǎn)的獲取方法,先獲取領(lǐng)域知識(shí)點(diǎn),再根據(jù)這些領(lǐng)域 知識(shí)點(diǎn)對(duì)領(lǐng)域內(nèi)的文本進(jìn)行分詞,去除常用詞后獲得候選知識(shí)點(diǎn),然后再獲得候選知識(shí)點(diǎn) 的語(yǔ)義向量,通過(guò)計(jì)算領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的相似度,來(lái)獲得與每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān) 的候選知識(shí)點(diǎn),作為目標(biāo)知識(shí)點(diǎn)。這樣,就可以得到每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的若干個(gè)目標(biāo)知識(shí) 點(diǎn)。在建設(shè)百科目錄的詞條時(shí),可以查找每個(gè)領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)是否已經(jīng)存在,如不 存在,則需要增加。通過(guò)這種方式來(lái)完成領(lǐng)域百科全書(shū)的詞條的檢查和建設(shè)。大大降低了 人工的工作量,節(jié)約了時(shí)間成本和人工成本,且避免了人工檢查的主觀性和標(biāo)準(zhǔn)不統(tǒng)一帶 來(lái)的不準(zhǔn)確性,大大提高了效率和準(zhǔn)確度。
[0024] (2)本發(fā)明所述的相關(guān)知識(shí)點(diǎn)的獲取方法,相關(guān)知識(shí)點(diǎn)獲取過(guò)程中,采用計(jì)算候選 知識(shí)點(diǎn)語(yǔ)義向量的方法,將知識(shí)點(diǎn)的語(yǔ)義信息進(jìn)行量化,通過(guò)數(shù)字化的方式來(lái)體現(xiàn)其語(yǔ)義 特征,這樣,在后續(xù)對(duì)知識(shí)點(diǎn)進(jìn)行分析時(shí),可以更加方便,為知識(shí)點(diǎn)搜索、推薦、信息過(guò)濾等 應(yīng)用提供基礎(chǔ)。
[0025] (3)本發(fā)明還提供一種相關(guān)知識(shí)點(diǎn)的獲取系統(tǒng),包括提取單元、分詞單元、候選單 元、語(yǔ)義向量計(jì)算單元、相似度計(jì)算單元以及相關(guān)知識(shí)點(diǎn)計(jì)算單元,采用計(jì)算語(yǔ)義向量的方 式,通過(guò)計(jì)算得到領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的相似度,來(lái)獲得與每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的候 選知識(shí)點(diǎn),從而得到每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的若干個(gè)目標(biāo)知識(shí)點(diǎn)。在建設(shè)百科目錄的詞條時(shí), 可以查找每個(gè)領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)是否已經(jīng)存在,如不存在,則需要增加。通過(guò)這種方 式來(lái)完成領(lǐng)域百科全書(shū)的詞條的檢查和建設(shè),大大降低了人工的工作量。
【附圖說(shuō)明】
[0026] 為了使本發(fā)明的內(nèi)容更容易被清楚的理解,下面根據(jù)本發(fā)明的具體實(shí)施例并結(jié)合 附圖,對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明,其中
[0027] 圖1是實(shí)施例1中相關(guān)知識(shí)點(diǎn)的獲取方法的流程圖;
[0028] 圖2是實(shí)施例2中計(jì)算候選知識(shí)點(diǎn)的語(yǔ)義向量的流程圖;
[0029] 圖3是實(shí)施例2中skip-gram模型的示意圖;
[0030] 圖4是實(shí)施例2中CB0W模型的示意圖;
[0031] 圖5是實(shí)施例4中相關(guān)知識(shí)點(diǎn)的獲取系統(tǒng)的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0032] 實(shí)施例1 :
[0033] 本實(shí)施例中,提供一種相關(guān)知識(shí)點(diǎn)的獲取方法,通過(guò)該方法獲取領(lǐng)域內(nèi)所有的知 識(shí)點(diǎn)的相關(guān)的知識(shí)點(diǎn),然后根據(jù)得到的這些相關(guān)知識(shí)點(diǎn),針對(duì)建立的領(lǐng)域百科全書(shū)中的詞 條進(jìn)行查漏補(bǔ)缺,來(lái)進(jìn)一步完善,具有非常好的指導(dǎo)價(jià)值。知識(shí)點(diǎn)是指信息傳遞的基本單 元,研究知識(shí)點(diǎn)的表示與關(guān)聯(lián)對(duì)提高學(xué)習(xí)導(dǎo)航、信息推薦、檢索、建立詞庫(kù)等具有重要的作 用。
[0034] 該相關(guān)知識(shí)點(diǎn)的獲取方法,流程圖如圖1所示,具體過(guò)程如下:
[0035] 首先,獲取領(lǐng)域知識(shí)點(diǎn),得到該領(lǐng)域內(nèi)的所有知識(shí)點(diǎn),如對(duì)于建設(shè)百科全書(shū)時(shí),可 以獲取已經(jīng)建設(shè)好的該領(lǐng)域內(nèi)的所有詞條,作為領(lǐng)域知識(shí)點(diǎn)。
[0036] 然后,根據(jù)領(lǐng)域知識(shí)點(diǎn)對(duì)文本進(jìn)行分詞,得到分詞結(jié)果。此處的文本選擇領(lǐng)域內(nèi)的 一些數(shù)字資源,為了使得其涵蓋的知識(shí)點(diǎn)足夠廣泛,一般會(huì)多選擇一些本領(lǐng)域內(nèi)的電子數(shù) 字資源。選定領(lǐng)域數(shù)字資源后,從中抽取文本,然后分詞。在分詞時(shí),先將領(lǐng)域知識(shí)點(diǎn)加到 分詞器中,然后再用該分詞器進(jìn)行分詞。將領(lǐng)域知識(shí)點(diǎn)加到分詞器中的作用是將領(lǐng)域內(nèi)的 知識(shí)點(diǎn)在分詞時(shí)作為一個(gè)詞語(yǔ)來(lái)處理,如在"秦始皇上殿接收朝拜"此句中,分詞時(shí)"秦始 皇"是一個(gè)詞語(yǔ),"皇上"也是一個(gè)詞語(yǔ),分詞時(shí)有兩種可能,在領(lǐng)域知識(shí)點(diǎn)中存在"秦始皇" 這個(gè)詞語(yǔ),將領(lǐng)域知識(shí)點(diǎn)加入分詞器后,在分詞時(shí)"秦始皇"將作為一個(gè)詞語(yǔ)。這樣,通過(guò)將 領(lǐng)域知識(shí)點(diǎn)加入分詞器中,可以更好的對(duì)領(lǐng)域內(nèi)的文本進(jìn)行分詞,得到的本領(lǐng)域內(nèi)的分詞 結(jié)果更加準(zhǔn)確。
[0037] 通過(guò)分詞后,得到大量的詞語(yǔ),這些詞語(yǔ)既包括本領(lǐng)域中的一些知識(shí)點(diǎn),也包括一 些常用的詞語(yǔ)