一種相關(guān)知識(shí)點(diǎn)的獲取方法及系統(tǒng)的制作方法

文檔序號(hào)：9844096閱讀：267來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種相關(guān)知識(shí)點(diǎn)的獲取方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種電數(shù)字?jǐn)?shù)據(jù)處理領(lǐng)域，具體地說(shuō)是一種相關(guān)知識(shí)點(diǎn)的獲取方法及系統(tǒng)。
【背景技術(shù)】
[0002] 數(shù)字出版資源已成為信息提供的主要方式之一。人們已從紙質(zhì)閱讀大量地轉(zhuǎn)向電子閱讀。數(shù)字出版資源包含電子圖書(shū)、數(shù)字百科全書(shū)、數(shù)字期刊、數(shù)字報(bào)刊等。數(shù)字出版資源提供的信息通常比互聯(lián)網(wǎng)更加權(quán)威和正確。因此，如何根據(jù)數(shù)字出版資源的特點(diǎn)提高人們學(xué)習(xí)或閱讀體驗(yàn)變得尤為重要。
[0003] 百科全書(shū)（Encyclopedia)是介紹人類(lèi)的全部知識(shí)或某一類(lèi)知識(shí)的工具書(shū)。往往按照辭典形式編排（以條目為基本單元），收集各知識(shí)領(lǐng)域的名詞、熟語(yǔ)、地名、事件、人物、著作等。百科全書(shū)可以是綜合性的，包含所有領(lǐng)域的相關(guān)內(nèi)容（例如，《大不列顛百科全書(shū)》就是一部著名的綜合性百科全書(shū)）。也可以是專(zhuān)業(yè)性的百科全書(shū)，如某一個(gè)領(lǐng)域的百科全書(shū)，像歷史百科全書(shū)、軍事百科全書(shū)等，這種某一個(gè)領(lǐng)域的百科全書(shū)稱(chēng)為領(lǐng)域百科全書(shū)。百科全書(shū)被視為是一個(gè)國(guó)家和一個(gè)時(shí)代科學(xué)文化發(fā)展的標(biāo)志。
[0004] 領(lǐng)域百科全書(shū)將海量的信息分類(lèi)，為用戶(hù)提供更有針對(duì)性的資源。領(lǐng)域百科全書(shū) 也是一種重要的數(shù)字出版資源。領(lǐng)域百科全書(shū)通常以詞條的方式組織領(lǐng)域信息。領(lǐng)域百科全書(shū)需要包含領(lǐng)域內(nèi)的重要詞條。然而，建設(shè)領(lǐng)域百科全書(shū)需要大量人力投入。由于領(lǐng)域詞條數(shù)目較多，因此通過(guò)人工的方式尋找合適的領(lǐng)域詞條不僅耗時(shí)，而且容易遺漏一些很相關(guān)的領(lǐng)域詞條。如何確定相關(guān)的這些詞條是否都已經(jīng)收錄是一項(xiàng)很重要的工作，但是實(shí) 現(xiàn)起來(lái)需要花費(fèi)大量的人力和時(shí)間。
[0005] Distributed words representations (分布式詞語(yǔ)表不）在 Rumelhar，D. E.， Hinton, G. E. , Williams, R. J. ：Learning Represenations by Back-propagating Errors. Nature 323(6088) :pp533-536 (1986)中首次提出，該思想將詞語(yǔ)表示成連續(xù)向量（continuous vectors)，且在向量空間中，相似詞語(yǔ)的距離更近。Feedforward neural network (前饋神經(jīng)網(wǎng)絡(luò)）是用于學(xué)習(xí)詞向量和語(yǔ)言模型的方法（見(jiàn)Bengio，Y.，Ducharme， R. , Vincent, P. ：A Neural Probabilistic Language Model. Journal of Machine Learning Research 3, ppl 137-1155 (2003))。近來(lái)，Mikolov 提出了使用 skip-gram或 CB0W 模型，通過(guò)在大量文本上訓(xùn)練簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)在短時(shí)間內(nèi)得到詞語(yǔ)向量。雖然關(guān)于語(yǔ)義向量在理論上已經(jīng)有一些研究，但是仍然缺少該技術(shù)的應(yīng)用推廣。

【發(fā)明內(nèi)容】

[0006] 為此，本發(fā)明所要解決的技術(shù)問(wèn)題在于現(xiàn)有技術(shù)中獲取相關(guān)詞條需要人為篩選、工作量大、客觀性差的問(wèn)題，從而提出一種根據(jù)語(yǔ)義向量來(lái)確定相關(guān)知識(shí)點(diǎn)的方法。
[0007] 為解決上述技術(shù)問(wèn)題，本發(fā)明的提供一種相關(guān)知識(shí)點(diǎn)的獲取方法和系統(tǒng)。
[0008] 本發(fā)明提供一種相關(guān)知識(shí)點(diǎn)的獲取方法，包括：
[0009] 獲取領(lǐng)域知識(shí)點(diǎn)；
[0010] 根據(jù)所述領(lǐng)域知識(shí)點(diǎn)對(duì)文本進(jìn)行分詞，得到分詞結(jié)果；
[0011] 根據(jù)分詞結(jié)果和常用詞，確定候選知識(shí)點(diǎn)；
[0012] 確定每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量；
[0013] 對(duì)于每個(gè)領(lǐng)域知識(shí)點(diǎn)，計(jì)算該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的語(yǔ)義相似度；
[0014] 根據(jù)計(jì)算出的語(yǔ)義相似度，確定與該領(lǐng)域知識(shí)點(diǎn)相關(guān)的目標(biāo)知識(shí)點(diǎn)。
[0015] 本發(fā)明還提供一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的系統(tǒng)，包括：
[0016] 提取單元：獲取領(lǐng)域知識(shí)點(diǎn)；
[0017] 分詞單元：根據(jù)所述領(lǐng)域知識(shí)點(diǎn)對(duì)文本進(jìn)行分詞，得到分詞結(jié)果；
[0018] 候選單元：根據(jù)分詞結(jié)果和常用詞，確定候選知識(shí)點(diǎn)；
[0019] 語(yǔ)義向量計(jì)算單元：確定每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量；
[0020] 相似度計(jì)算單元：對(duì)于每個(gè)領(lǐng)域知識(shí)點(diǎn)，計(jì)算該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的語(yǔ)義相似度；
[0021] 相關(guān)知識(shí)點(diǎn)計(jì)算單元：根據(jù)計(jì)算出的語(yǔ)義相似度，確定與該領(lǐng)域知識(shí)點(diǎn)相關(guān)的目標(biāo)知識(shí)點(diǎn)。
[0022] 本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點(diǎn)，
[0023] (1)本發(fā)明提供一種相關(guān)知識(shí)點(diǎn)的獲取方法，先獲取領(lǐng)域知識(shí)點(diǎn)，再根據(jù)這些領(lǐng)域知識(shí)點(diǎn)對(duì)領(lǐng)域內(nèi)的文本進(jìn)行分詞，去除常用詞后獲得候選知識(shí)點(diǎn)，然后再獲得候選知識(shí)點(diǎn) 的語(yǔ)義向量，通過(guò)計(jì)算領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的相似度，來(lái)獲得與每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān) 的候選知識(shí)點(diǎn)，作為目標(biāo)知識(shí)點(diǎn)。這樣，就可以得到每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的若干個(gè)目標(biāo)知識(shí) 點(diǎn)。在建設(shè)百科目錄的詞條時(shí)，可以查找每個(gè)領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)是否已經(jīng)存在，如不存在，則需要增加。通過(guò)這種方式來(lái)完成領(lǐng)域百科全書(shū)的詞條的檢查和建設(shè)。大大降低了人工的工作量，節(jié)約了時(shí)間成本和人工成本，且避免了人工檢查的主觀性和標(biāo)準(zhǔn)不統(tǒng)一帶來(lái)的不準(zhǔn)確性，大大提高了效率和準(zhǔn)確度。
[0024] (2)本發(fā)明所述的相關(guān)知識(shí)點(diǎn)的獲取方法，相關(guān)知識(shí)點(diǎn)獲取過(guò)程中，采用計(jì)算候選知識(shí)點(diǎn)語(yǔ)義向量的方法，將知識(shí)點(diǎn)的語(yǔ)義信息進(jìn)行量化，通過(guò)數(shù)字化的方式來(lái)體現(xiàn)其語(yǔ)義特征，這樣，在后續(xù)對(duì)知識(shí)點(diǎn)進(jìn)行分析時(shí)，可以更加方便，為知識(shí)點(diǎn)搜索、推薦、信息過(guò)濾等應(yīng)用提供基礎(chǔ)。
[0025] (3)本發(fā)明還提供一種相關(guān)知識(shí)點(diǎn)的獲取系統(tǒng)，包括提取單元、分詞單元、候選單元、語(yǔ)義向量計(jì)算單元、相似度計(jì)算單元以及相關(guān)知識(shí)點(diǎn)計(jì)算單元，采用計(jì)算語(yǔ)義向量的方式，通過(guò)計(jì)算得到領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的相似度，來(lái)獲得與每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的候選知識(shí)點(diǎn)，從而得到每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的若干個(gè)目標(biāo)知識(shí)點(diǎn)。在建設(shè)百科目錄的詞條時(shí)，可以查找每個(gè)領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)是否已經(jīng)存在，如不存在，則需要增加。通過(guò)這種方式來(lái)完成領(lǐng)域百科全書(shū)的詞條的檢查和建設(shè)，大大降低了人工的工作量。
【附圖說(shuō)明】
[0026] 為了使本發(fā)明的內(nèi)容更容易被清楚的理解，下面根據(jù)本發(fā)明的具體實(shí)施例并結(jié)合附圖，對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明，其中
[0027] 圖1是實(shí)施例1中相關(guān)知識(shí)點(diǎn)的獲取方法的流程圖；
[0028] 圖2是實(shí)施例2中計(jì)算候選知識(shí)點(diǎn)的語(yǔ)義向量的流程圖；
[0029] 圖3是實(shí)施例2中skip-gram模型的示意圖；
[0030] 圖4是實(shí)施例2中CB0W模型的示意圖；
[0031] 圖5是實(shí)施例4中相關(guān)知識(shí)點(diǎn)的獲取系統(tǒng)的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0032] 實(shí)施例1 :
[0033] 本實(shí)施例中，提供一種相關(guān)知識(shí)點(diǎn)的獲取方法，通過(guò)該方法獲取領(lǐng)域內(nèi)所有的知識(shí)點(diǎn)的相關(guān)的知識(shí)點(diǎn)，然后根據(jù)得到的這些相關(guān)知識(shí)點(diǎn)，針對(duì)建立的領(lǐng)域百科全書(shū)中的詞條進(jìn)行查漏補(bǔ)缺，來(lái)進(jìn)一步完善，具有非常好的指導(dǎo)價(jià)值。知識(shí)點(diǎn)是指信息傳遞的基本單元，研究知識(shí)點(diǎn)的表示與關(guān)聯(lián)對(duì)提高學(xué)習(xí)導(dǎo)航、信息推薦、檢索、建立詞庫(kù)等具有重要的作用。
[0034] 該相關(guān)知識(shí)點(diǎn)的獲取方法，流程圖如圖1所示，具體過(guò)程如下：
[0035] 首先，獲取領(lǐng)域知識(shí)點(diǎn)，得到該領(lǐng)域內(nèi)的所有知識(shí)點(diǎn)，如對(duì)于建設(shè)百科全書(shū)時(shí)，可以獲取已經(jīng)建設(shè)好的該領(lǐng)域內(nèi)的所有詞條，作為領(lǐng)域知識(shí)點(diǎn)。
[0036] 然后，根據(jù)領(lǐng)域知識(shí)點(diǎn)對(duì)文本進(jìn)行分詞，得到分詞結(jié)果。此處的文本選擇領(lǐng)域內(nèi)的一些數(shù)字資源，為了使得其涵蓋的知識(shí)點(diǎn)足夠廣泛，一般會(huì)多選擇一些本領(lǐng)域內(nèi)的電子數(shù) 字資源。選定領(lǐng)域數(shù)字資源后，從中抽取文本，然后分詞。在分詞時(shí)，先將領(lǐng)域知識(shí)點(diǎn)加到分詞器中，然后再用該分詞器進(jìn)行分詞。將領(lǐng)域知識(shí)點(diǎn)加到分詞器中的作用是將領(lǐng)域內(nèi)的知識(shí)點(diǎn)在分詞時(shí)作為一個(gè)詞語(yǔ)來(lái)處理，如在"秦始皇上殿接收朝拜"此句中，分詞時(shí)"秦始皇"是一個(gè)詞語(yǔ)，"皇上"也是一個(gè)詞語(yǔ)，分詞時(shí)有兩種可能，在領(lǐng)域知識(shí)點(diǎn)中存在"秦始皇" 這個(gè)詞語(yǔ)，將領(lǐng)域知識(shí)點(diǎn)加入分詞器后，在分詞時(shí)"秦始皇"將作為一個(gè)詞語(yǔ)。這樣，通過(guò)將領(lǐng)域知識(shí)點(diǎn)加入分詞器中，可以更好的對(duì)領(lǐng)域內(nèi)的文本進(jìn)行分詞，得到的本領(lǐng)域內(nèi)的分詞結(jié)果更加準(zhǔn)確。
[0037] 通過(guò)分詞后，得到大量的詞語(yǔ)，這些詞語(yǔ)既包括本領(lǐng)域中的一些知識(shí)點(diǎn)，也包括一些常用的詞語(yǔ)

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3 4

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：葉茂;徐劍波;湯幟;楊亮;盧菁;
技術(shù)所有人：北大方正集團(tuán)有限公司;北京方正阿帕比技術(shù)有限公司;北京大學(xué);
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種相關(guān)知識(shí)點(diǎn)的獲取方法及系統(tǒng)的制作方法