国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      面向語(yǔ)義網(wǎng)的中文百科知識(shí)組織與集成方法

      文檔序號(hào):6538086閱讀:236來(lái)源:國(guó)知局
      面向語(yǔ)義網(wǎng)的中文百科知識(shí)組織與集成方法
      【專利摘要】本發(fā)明涉及知識(shí)抽取【技術(shù)領(lǐng)域】,為本發(fā)明的目的是按照語(yǔ)義網(wǎng)標(biāo)準(zhǔn),提取、整理、發(fā)布和集成中文百科知識(shí),為此,本發(fā)明采用的技術(shù)方案是,面向語(yǔ)義網(wǎng)的中文百科知識(shí)組織與集成方法,包括下列步驟:1)配置Nutch和Jingwei的環(huán)境;2)編寫Nutch插件拓展其功能;3)為Jingwei系統(tǒng)添加動(dòng)態(tài)插入三元組的表述性狀態(tài)轉(zhuǎn)移REST的Web服務(wù);4)下載DBpedia中的中文知識(shí)數(shù)據(jù);5)設(shè)計(jì)并實(shí)現(xiàn)百度百科和互動(dòng)百科數(shù)據(jù)集的整合與集成;6)設(shè)計(jì)并實(shí)現(xiàn)百度百科和中文維基百科數(shù)據(jù)集的整合與集成;7)設(shè)計(jì)并實(shí)現(xiàn)互動(dòng)百科和中文維基百科數(shù)據(jù)集的整合與集成。本發(fā)明主要應(yīng)用于知識(shí)抽取技術(shù)。
      【專利說(shuō)明】面向語(yǔ)義網(wǎng)的中文百科知識(shí)組織與集成方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及知識(shí)抽取【技術(shù)領(lǐng)域】,具體來(lái)說(shuō),涉及面向語(yǔ)義網(wǎng)知識(shí)庫(kù)構(gòu)建、存儲(chǔ),SP面向語(yǔ)義網(wǎng)的中文百科知識(shí)組織與集成方法。
      【背景技術(shù)】
      [0002]隨著互聯(lián)網(wǎng)的普及和發(fā)展,由于計(jì)算機(jī)無(wú)法理解網(wǎng)絡(luò)上的信息導(dǎo)致的性能瓶頸日益凸顯。為了解決這個(gè)問題,實(shí)現(xiàn)人與電腦的無(wú)障礙溝通,1998年蒂姆.伯納斯-李(TimBerners-Lee)提出了語(yǔ)義網(wǎng)的概念。語(yǔ)義網(wǎng)的核心是通過給萬(wàn)維網(wǎng)上的文檔添加能夠被計(jì)算機(jī)所理解的語(yǔ)義,從而使整個(gè)互聯(lián)網(wǎng)成為一個(gè)通用的信息交換媒介,它是一個(gè)能夠根據(jù)語(yǔ)義進(jìn)行判斷的智能網(wǎng)絡(luò),可以使相連的每部電腦理解詞語(yǔ)、概念以及它們之間的邏輯關(guān)系,從而幫助用戶完成復(fù)雜的工作。
      [0003]發(fā)展語(yǔ)義網(wǎng)的兩種主要技術(shù),XML (可擴(kuò)展標(biāo)記語(yǔ)言)和RDF (資源描述框架),如今已經(jīng)日益成熟,同時(shí)基于RDF技術(shù)的Linked Data數(shù)據(jù)集大量地發(fā)布,成為了語(yǔ)義網(wǎng)的數(shù)據(jù)基礎(chǔ)。Linked Data (鏈接數(shù)據(jù))最早是在2007年5月,由Chris Bizer和RichardCyganiak向W3C SWEO提交的一個(gè)項(xiàng)目申請(qǐng)Linked Open Data Pro ject中提出來(lái)的,截止到2011年9月已發(fā)布的Linked Data規(guī)模已經(jīng)達(dá)到310億多個(gè)RDF三元組以及5億多個(gè)RDF關(guān)聯(lián)關(guān)系,與2009年7月已發(fā)布的67億多個(gè)RDF三元組和I億多的RDF關(guān)聯(lián)關(guān)系相t匕,增長(zhǎng)非常迅猛。其中最著名的工作之一 DBpedia (最著名的多領(lǐng)域知識(shí)本體之一)是從英文維基百科中抽取知識(shí)數(shù)據(jù)得到的Linked Data數(shù)據(jù)集,包含多個(gè)語(yǔ)言版本的資源,但是對(duì)于發(fā)布中國(guó)語(yǔ)義數(shù)據(jù)的工作卻很少,對(duì)于國(guó)語(yǔ)使用者理解英文發(fā)布的Linked Data是比較困難的。事實(shí)上,國(guó)內(nèi)三個(gè)最大的百科全書(百度百科、互動(dòng)百科、中文維基百科)所包含的數(shù)據(jù)量是相當(dāng)巨大的,從中提取結(jié)構(gòu)化信息作為L(zhǎng)inked Data發(fā)布出來(lái)也是非常有意義的,可以提高語(yǔ)義網(wǎng)在中文環(huán)境下的應(yīng)用水平。
      [0004]針對(duì)以上問題,有必要研究面向語(yǔ)義網(wǎng)的中文百科知識(shí)組織與集成的方法,對(duì)于百度百科、互動(dòng)百科、中文維基百科的信息框內(nèi)容進(jìn)行爬取并解析成RDF三元組,然后將三個(gè)數(shù)據(jù)集進(jìn)行集成加入到大規(guī)模RDF分布式存儲(chǔ)系統(tǒng),最終形成符合Linked Data要求的中文百科知識(shí)庫(kù)RDF數(shù)據(jù)集。這對(duì)于中文語(yǔ)義網(wǎng)的發(fā)展具有重要影響,也有助于中文語(yǔ)義網(wǎng)相關(guān)應(yīng)用的推進(jìn)。

      【發(fā)明內(nèi)容】

      [0005]為克服現(xiàn)有技術(shù)的不足,本發(fā)明的目的是按照語(yǔ)義網(wǎng)標(biāo)準(zhǔn),從維基百科、百度百科和互動(dòng)百科等中文百科Web頁(yè)面中,提取、整理、發(fā)布和集成中文百科知識(shí),最終形成符合Linked Data要求的中文百科知識(shí)庫(kù)RDF數(shù)據(jù)集,為向世界公開發(fā)布做準(zhǔn)備。為此,本發(fā)明采用的技術(shù)方案是,面向語(yǔ)義網(wǎng)的中文百科知識(shí)組織與集成方法,包括下列步驟:
      [0006]I)配置Nutch和Jingwei的環(huán)境,Nutch是一種開源Java實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲,Jingwei是一種大規(guī)模RDF分布式存儲(chǔ)系統(tǒng);[0007]2)編寫Nutch插件拓展其功能從而對(duì)爬取的百度百科和互動(dòng)百科文章內(nèi)容進(jìn)行解析生成三元組;
      [0008]3)為Jingwei系統(tǒng)添加動(dòng)態(tài)插入三元組的表述性狀態(tài)轉(zhuǎn)移REST的Web服務(wù),從而可以在爬取的過程中調(diào)用該服務(wù)實(shí)現(xiàn)同步地向底層數(shù)據(jù)庫(kù)插入剛解析得到的RDF三元組數(shù)據(jù);
      [0009]4)下載DBpedia中的中文知識(shí)數(shù)據(jù),將該數(shù)據(jù)進(jìn)行簡(jiǎn)單的預(yù)處理,然后裝載入Jingwei底層數(shù)據(jù)庫(kù)中;
      [0010]5)設(shè)計(jì)并實(shí)現(xiàn)百度百科和互動(dòng)百科數(shù)據(jù)集的整合與集成,發(fā)掘兩個(gè)數(shù)據(jù)集之間其中的owl: sameAs鏈接,owl即Web Ontology Language, 一種對(duì)本體描述的網(wǎng)絡(luò)本體語(yǔ)言,并直接裝載入Jingwei底層數(shù)據(jù)庫(kù)中;
      [0011]6)設(shè)計(jì)并實(shí)現(xiàn)百度百科和中文維基百科數(shù)據(jù)集的整合與集成,發(fā)掘兩個(gè)數(shù)據(jù)集之間其中的owl: sameAs鏈接,并直接裝載入Jingwei底層數(shù)據(jù)庫(kù)中;
      [0012]7)設(shè)計(jì)并實(shí)現(xiàn)互動(dòng)百科和中文維基百科數(shù)據(jù)集的整合與集成,發(fā)掘兩個(gè)數(shù)據(jù)集之間其中的owl: sameAs鏈接,并直接裝載入Jingwei底層數(shù)據(jù)庫(kù)中;
      [0013]8)設(shè)計(jì)并實(shí)現(xiàn)動(dòng)態(tài)插入顯示頁(yè)面,對(duì)插入的RDF三元組提供實(shí)時(shí)的顯示和說(shuō)明;
      [0014]9)設(shè)計(jì)并實(shí)現(xiàn)三元組模式查詢頁(yè)面。
      [0015]上述的步驟I)中,采用Cassandra為底層存儲(chǔ)系統(tǒng),Cassandra是一種分布式鍵值存儲(chǔ)庫(kù)集群。
      [0016]步驟2)中實(shí)現(xiàn)的是拓展點(diǎn)HtmlParseFilter,HtmlParseFilter是用于拓展Html功能的接口,提供給插件開發(fā) 者一個(gè)DocumentFragment的對(duì)象,DocumentFragment是用于解析網(wǎng)頁(yè)的DOM結(jié)構(gòu),利用給出的對(duì)象就可以對(duì)其進(jìn)行操作從該超文本標(biāo)記語(yǔ)言HTML的文檔對(duì)象模型DOM結(jié)構(gòu)中提取出RDF三元組,具體過程如下:
      [0017]2.1得到下一個(gè)待解析的網(wǎng)頁(yè)統(tǒng)一資源定位符URL ;
      [0018]2.2通過該URL的前綴判斷網(wǎng)頁(yè)的來(lái)源是百度百科還是互動(dòng)百科,如果是百度百科,則進(jìn)入步驟2.3 ;如果是互動(dòng)百科,則進(jìn)入步驟2.4 ;
      [0019]2.3實(shí)例化對(duì)百度百科進(jìn)行處理的類,獲取該百度百科頁(yè)面的DOM結(jié)構(gòu),利用Nodeffalker對(duì)象對(duì)DOM樹進(jìn)行先根遍歷,Nodeffalker是Nutch中用于遍歷樹的結(jié)構(gòu),然后以百度百科頁(yè)面的設(shè)計(jì)規(guī)則為依據(jù)提取出RDF三元組,進(jìn)入步驟2.5 ;
      [0020]2.4實(shí)例化對(duì)互動(dòng)百科進(jìn)行處理的類,獲取該互動(dòng)百科頁(yè)面的DOM結(jié)構(gòu),利用NodeWalker對(duì)象對(duì)DOM樹進(jìn)行先根遍歷,然后以互動(dòng)百科頁(yè)面的設(shè)計(jì)規(guī)則為依據(jù)提取出RDF三元組,進(jìn)入步驟2.5 ;
      [0021]2.5將解析得到的RDF三元組寫入文本中,用于之后的集成與整合工作;
      [0022]2.6調(diào)用為大規(guī)模RDF分布式存儲(chǔ)系統(tǒng)Jingwei添加的動(dòng)態(tài)插入三元組的RESTWeb服務(wù),將解析出的三元組直接存入系統(tǒng)的底層數(shù)據(jù)庫(kù)中;
      [0023]2.7跳轉(zhuǎn)回步驟2.1,得到下一個(gè)待解析的網(wǎng)頁(yè)URL,直到爬取的過程終止并且所有爬取得到的網(wǎng)頁(yè)內(nèi)容都得到解析。
      [0024]驟3)設(shè)計(jì)了動(dòng)態(tài)插入RDF三元組的REST Web服務(wù),是通過訪問“http://localh
      ost: 8080?rdf=<s1Xp1Xo1> | <s2Xp2Xo2> |.....| <sn>〈pn>〈on>”來(lái)完成 η 個(gè) RDF 三元組的插
      入和建立索引。[0025]步驟5)實(shí)現(xiàn)的是百度百科和互動(dòng)百科之間的整合,所謂整合就是通過在多個(gè)數(shù)據(jù)集之間進(jìn)行鏈接發(fā)現(xiàn)從而構(gòu)成一個(gè)整體,鏈接發(fā)現(xiàn)算法的設(shè)計(jì)基于用于大數(shù)據(jù)處理的并行編程模型MapReduce框架模型,通過對(duì)數(shù)據(jù)集中的每一條RDF三元組進(jìn)行分析和處理,發(fā)掘出其中的owl: sameAs關(guān)系。
      [0026]本發(fā)明的技術(shù)特點(diǎn)及效果:
      [0027]本發(fā)明針對(duì)的是語(yǔ)義網(wǎng)的知識(shí)庫(kù)構(gòu)建,最終提供了一種構(gòu)建符合語(yǔ)義網(wǎng)要求的中文百科知識(shí)庫(kù)Linked Data數(shù)據(jù)集的方法,從而促進(jìn)了中文語(yǔ)義網(wǎng)的進(jìn)步與發(fā)展,有助于基于中文語(yǔ)義網(wǎng)相關(guān)應(yīng)用的成熟。
      【專利附圖】

      【附圖說(shuō)明】
      [0028]圖1是本發(fā)明中中文百科知識(shí)庫(kù)Linked Data數(shù)據(jù)集構(gòu)建的整體流程圖。
      [0029]圖2是爬蟲Nutch的工作流程圖。
      [0030]圖3是HTML文檔的DOM樹結(jié)構(gòu)。
      [0031]圖4是本發(fā)明步驟2)中Nutch插件對(duì)爬取的百度百科和互動(dòng)百科文章內(nèi)容進(jìn)行解析生成RDF三元組的流程圖。
      [0032]圖5是整合百度百科和互動(dòng)百科數(shù)據(jù)集使用的MapReduce算法中Map步的流程圖。
      [0033]圖6是整合百度百科和互動(dòng)百科數(shù)據(jù)集使用的MapReduce算法中Reduce步的流程圖。
      [0034]圖7是最終設(shè)計(jì)的三元組模式查詢頁(yè)面。
      [0035]圖8是三元組模式查詢結(jié)果顯示頁(yè)面。
      [0036]圖9是最終設(shè)計(jì)的動(dòng)態(tài)插入三元組顯示頁(yè)面。
      【具體實(shí)施方式】
      [0037]I)配置Nutch和大規(guī)模RDF分布式存儲(chǔ)系統(tǒng)Jingwei的環(huán)境;
      [0038]2)編與Nutch插件拓展其功能從而對(duì)爬取的百度百科和互動(dòng)百科文章內(nèi)容進(jìn)行解析生成三元組;
      [0039]3)為Jingwei系統(tǒng)添加動(dòng)態(tài)插入三元組的REST Web服務(wù),從而可以在爬取的過程中調(diào)用該服務(wù)實(shí)現(xiàn)同步地向底層數(shù)據(jù)庫(kù)插入剛解析得到的RDF三元組數(shù)據(jù);
      [0040]4)下載DBpedia中的中文知識(shí)數(shù)據(jù),將該數(shù)據(jù)進(jìn)行簡(jiǎn)單的預(yù)處理(例如編碼轉(zhuǎn)換等),然后裝載入Jingwei底層數(shù)據(jù)庫(kù)中;
      [0041]5)設(shè)計(jì)并實(shí)現(xiàn)百度百科和互動(dòng)百科數(shù)據(jù)集的整合與集成,發(fā)掘兩個(gè)數(shù)據(jù)集之間其中的owl: sameAs鏈接,并直接裝載入Jingwei底層數(shù)據(jù)庫(kù)中;
      [0042]6)設(shè)計(jì)并實(shí)現(xiàn)百度百科和中文維基百科數(shù)據(jù)集的整合與集成,發(fā)掘兩個(gè)數(shù)據(jù)集之間其中的owl: sameAs鏈接,并直接裝載入Jingwei底層數(shù)據(jù)庫(kù)中;
      [0043]7)設(shè)計(jì)并實(shí)現(xiàn)互動(dòng)百科和中文維基百科數(shù)據(jù)集的整合與集成,發(fā)掘兩個(gè)數(shù)據(jù)集之間其中的owl: sameAs鏈接,并直接裝載入Jingwei底層數(shù)據(jù)庫(kù)中;
      [0044]8)設(shè)計(jì)并實(shí)現(xiàn)動(dòng)態(tài)插入顯示頁(yè)面,對(duì)插入的RDF三元組提供實(shí)時(shí)的顯示和說(shuō)明;
      [0045]9)設(shè)計(jì)并實(shí)現(xiàn)三元組模式查詢頁(yè)面,同時(shí)為了方便用戶多次進(jìn)行關(guān)聯(lián)資源查詢,頁(yè)面設(shè)計(jì)采用了鏈接數(shù)據(jù)導(dǎo)航;
      [0046]上述的步驟I)中,大規(guī)模RDF分布式存儲(chǔ)系統(tǒng)Jingwei是由本課題所在的課題組開發(fā)的大規(guī)模RDF分布式存儲(chǔ)系統(tǒng),采用Cassandra分布式鍵值存儲(chǔ)庫(kù)集群為底層存儲(chǔ)系統(tǒng),具備高度的水平可伸縮性,同時(shí)它提供了基于MapReduce編程模型的批量裝載RDF三元組并建立索引的功能,以及三元組模式查詢和關(guān)鍵字查詢的服務(wù)。
      [0047]本發(fā)明的步驟2)中實(shí)現(xiàn)的是拓展點(diǎn)HtmlParseFilter接口,該接口的方法中提供給插件開發(fā)者一個(gè)DocumentFragment的對(duì)象,也就是待解析的網(wǎng)頁(yè)的DOM結(jié)構(gòu),利用給出的對(duì)象就可以對(duì)其進(jìn)行操作從該HTML的DOM結(jié)構(gòu)中提取出RDF三元組。具體過程如下:
      [0048]2.1得到下一個(gè)待解析的網(wǎng)頁(yè)URL ;
      [0049]2.2通過該URL的前綴判斷網(wǎng)頁(yè)的來(lái)源是百度百科還是互動(dòng)百科,如果是百度百科,則進(jìn)入步驟2.3 ;如果是互動(dòng)百科,則進(jìn)入步驟2.4 ;
      [0050]2.3實(shí)例化對(duì)百度百科進(jìn)行處理的類,獲取該百度百科頁(yè)面的DOM結(jié)構(gòu),利用Nodeffalker對(duì)象對(duì)DOM樹進(jìn)行先根遍歷,然后以百度百科頁(yè)面的設(shè)計(jì)規(guī)則為依據(jù)提取出RDF三元組,進(jìn)入步驟2.5 ;
      [0051]2.4實(shí)例化對(duì)互動(dòng)百科進(jìn)行處理的類,獲取該互動(dòng)百科頁(yè)面的DOM結(jié)構(gòu),利用NodeWalker對(duì)象對(duì)DOM樹進(jìn)行先根遍歷,然后以互動(dòng)百科頁(yè)面的設(shè)計(jì)規(guī)則為依據(jù)提取出RDF三元組,進(jìn)入步驟2.5 ;
      [0052]2.5將解析得到的RDF三元組寫入文本中,用于之后的集成與整合工作;
      [0053]2.6調(diào)用為大規(guī)模RDF分布式存儲(chǔ)系統(tǒng)Jingwei添加的動(dòng)態(tài)插入三元組的RESTWeb服務(wù),將解析出的三元組直接存入系統(tǒng)的底層數(shù)據(jù)庫(kù)中;
      [0054]2.7跳轉(zhuǎn)回步驟2.1,得到下一個(gè)待解析的網(wǎng)頁(yè)URL,直到爬取的過程終止并且所有爬取得到的網(wǎng)頁(yè)內(nèi)容都得到解析;
      [0055]本發(fā)明的步驟3)設(shè)計(jì)了動(dòng)態(tài)插入RDF三元組的REST Web服務(wù),主要基于以下考慮。因?yàn)榘俣劝倏坪突?dòng)百科的數(shù)據(jù)量非常龐大,并且每天都在不斷地更新擴(kuò)充,所以不能夠短時(shí)間內(nèi)爬取完畢,而Jingwei系統(tǒng)只能夠支持大批量的數(shù)據(jù)裝載和建立索引,不支持RDF三元組實(shí)時(shí)地動(dòng)態(tài)插入,因此需要為其添加動(dòng)態(tài)插入三元組并建立索引的REST Web服務(wù),從而可以通過在爬取的過程中調(diào)用該服務(wù)實(shí)現(xiàn)實(shí)時(shí)地向數(shù)據(jù)庫(kù)插入RDF三元組數(shù)據(jù)。
      本發(fā)明最終是通過訪問 ^http://localhost:8080?rdf=<s1Xp1Xo1> | <s2Xp2Xo2> |.....〈SnXpnXon>”來(lái)完成η個(gè)RDF三元組的插入和建立索引。
      [0056]本發(fā)明的步驟5)實(shí)現(xiàn)的是百度百科和互動(dòng)百科之間的整合。所謂整合就是通過在多個(gè)數(shù)據(jù)集之間進(jìn)行鏈接發(fā)現(xiàn)從而構(gòu)成一個(gè)整體,由于三大中文百科之間有很多公共的知識(shí)數(shù)據(jù),因此必須將這些不同數(shù)據(jù)集中相同的資源通過owl: sameAs關(guān)系鏈接起來(lái)。因?yàn)閿?shù)據(jù)集之間整合過程的輸入數(shù)據(jù)量巨大,并且需要對(duì)這些數(shù)據(jù)進(jìn)行復(fù)雜的處理,所以鏈接發(fā)現(xiàn)算法的設(shè)計(jì)基于MapReduce框架模型,通過對(duì)數(shù)據(jù)集中的每一條RDF三元組進(jìn)行分析和處理,發(fā)掘出其中的owl:SameAS關(guān)系。另外,步驟6)和步驟7)基本思想和方法同步驟
      5)一致。
      [0057]下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。
      [0058]參見圖1,本發(fā)明中整個(gè)中文百科知識(shí)庫(kù)Linked Data數(shù)據(jù)集構(gòu)建的流程圖,詳細(xì)步驟如下:[0059]I)配置Nutch和大規(guī)模RDF分布式存儲(chǔ)系統(tǒng)Jingwei的環(huán)境;
      [0060]2)編與Nutch插件拓展其功能從而對(duì)爬取的百度百科和互動(dòng)百科文章內(nèi)容進(jìn)行解析生成三元組;
      [0061]3)為Jingwei系統(tǒng)添加動(dòng)態(tài)插入三元組的REST Web服務(wù),從而可以在爬取的過程中調(diào)用該服務(wù)實(shí)現(xiàn)同步地向底層數(shù)據(jù)庫(kù)插入剛解析得到的RDF三元組數(shù)據(jù);
      [0062]4)下載DBpedia中的中文知識(shí)數(shù)據(jù),將該數(shù)據(jù)進(jìn)行簡(jiǎn)單的預(yù)處理(例如編碼轉(zhuǎn)換等),然后裝載入Jingwei底層數(shù)據(jù)庫(kù)中;
      [0063]5)設(shè)計(jì)并實(shí)現(xiàn)百度百科和互動(dòng)百科數(shù)據(jù)集的整合與集成,發(fā)掘兩個(gè)數(shù)據(jù)集之間其中的owl: sameAs鏈接,并直接裝載入Jingwei底層數(shù)據(jù)庫(kù)中;
      [0064]6)設(shè)計(jì)并實(shí)現(xiàn)百度百科和中文維基百科數(shù)據(jù)集的整合與集成,發(fā)掘兩個(gè)數(shù)據(jù)集之間其中的owl: sameAs鏈接,并直接裝載入Jingwei底層數(shù)據(jù)庫(kù)中;
      [0065]7)設(shè)計(jì)并實(shí)現(xiàn)互動(dòng)百科和中文維基百科數(shù)據(jù)集的整合與集成,發(fā)掘兩個(gè)數(shù)據(jù)集之間其中的owl: sameAs鏈接,并直接裝載入Jingwei底層數(shù)據(jù)庫(kù)中;
      [0066]8)設(shè)計(jì)并實(shí)現(xiàn)動(dòng)態(tài)插入顯示頁(yè)面,對(duì)插入的RDF三元組提供實(shí)時(shí)的顯示和說(shuō)明;
      [0067]9)設(shè)計(jì)并實(shí)現(xiàn)三元組模式查詢頁(yè)面,同時(shí)為了方便用戶多次進(jìn)行關(guān)聯(lián)資源查詢,頁(yè)面設(shè)計(jì)采用了連接數(shù)據(jù)導(dǎo)航;
      [0068]參見圖2,該圖是 Nutch的工作流程圖,本發(fā)明最關(guān)鍵的是需要理解Nutch的工作過程,才能設(shè)計(jì)出正確的方案。同時(shí),在爬蟲Nutch的工作過程中,為了能夠正確運(yùn)行爬取得到百度百科和互動(dòng)百科的內(nèi)容,并且解析出RDF三元組,需要注意以下幾點(diǎn):
      [0069]I)為了避免對(duì)內(nèi)容較多的百科網(wǎng)頁(yè)爬取時(shí)丟失信息,需要修改nutch-default.xml (Nutch的配置文件)中控制最多爬取內(nèi)容的參數(shù)http, content, limit,將其修改為原來(lái)的100倍。
      [0070]2)因?yàn)榘俣劝倏圃O(shè)置有robots, txt (爬蟲協(xié)議的文件)的限制,而Nutch默認(rèn)是遵守其限制的,所以需要將源代碼Fetcher.java (Ntuch實(shí)現(xiàn)爬取過程的類)里關(guān)于判斷robot, txt限定的if語(yǔ)句注釋掉。
      [0071]3)對(duì)于百度百科需要適當(dāng)增加nutch-default.xml文件中控制向同一個(gè)服務(wù)器發(fā)送請(qǐng)求的最短間隔的參數(shù)fetcher.server, delay,從而避免被屏蔽。
      [0072]4)本發(fā)明包含三個(gè)不同的數(shù)據(jù)源,并且中文的字符不是ASCII (美國(guó)信息交換標(biāo)準(zhǔn)代碼),不能使用URI來(lái)表示,所以需要設(shè)計(jì)三個(gè)IRI (國(guó)際化資源標(biāo)識(shí)符)模式(即URI的補(bǔ)充)來(lái)表明資源的來(lái)源,如表1所示。
      [0073]表1 IRl 模型
      來(lái)源IRI 1? tW
      [0074]fi 度 fi 科h{{p://?w,!ju.edi1.cn//resource/baidu/| Label I
      I?ι;)ι π' |:|-1llp://HW.!jti,edu.co/res?urce/lmd<)ng/lLabelj
      [0075]
      1 ?τ JC維鎮(zhèn) ti科http://zh.dbpedia.0rg/resource/[Label] (DBpedia 采用)
      [0076]圖3是HTML的DOM樹結(jié)構(gòu)。對(duì)于解析RDF三元組的步驟關(guān)鍵是理解HTML的DOM樹結(jié)構(gòu),從而在對(duì)樹進(jìn)行遍歷的過程中,找到能夠提取出三元組的關(guān)鍵點(diǎn),提取出RDF三元組。
      [0077]圖4是整個(gè)流程中的步驟2)和3),詳細(xì)的過程如下:
      [0078]2.1得到下一個(gè)待解析的網(wǎng)頁(yè)URL ;
      [0079]2.2通過該URL的前綴判斷網(wǎng)頁(yè)的來(lái)源是百度百科還是互動(dòng)百科,如果是百度百科,則進(jìn)入步驟2.3 ;如果是互動(dòng)百科,則進(jìn)入步驟2.4 ;
      [0080]2.3實(shí)例化對(duì)百度百科進(jìn)行處理的類,獲取該百度百科頁(yè)面的DOM結(jié)構(gòu),利用Nodeffalker對(duì)象對(duì)DOM樹進(jìn)行先根遍歷,然后以百度百科頁(yè)面的設(shè)計(jì)規(guī)則為依據(jù)提取出RDF三元組,進(jìn)入步驟2.5 ;
      [0081]2.4實(shí)例化對(duì)互動(dòng)百科進(jìn)行處理的類,獲取該互動(dòng)百科頁(yè)面的DOM結(jié)構(gòu),利用NodeWalker對(duì)象對(duì)DOM樹進(jìn)行先根遍歷,然后以互動(dòng)百科頁(yè)面的設(shè)計(jì)規(guī)則為依據(jù)提取出RDF三元組,進(jìn)入步驟2.5 ;
      [0082]2.5將解析得到的RDF三元組寫入文本中,用于之后的集成與整合工作;
      [0083]2.6調(diào)用為大規(guī)模RDF分布式存儲(chǔ)系統(tǒng)Jingwei添加的動(dòng)態(tài)插入三元組的RESTWeb服務(wù),將解析出的三元組直接存入系統(tǒng)的底層數(shù)據(jù)庫(kù)中;
      [0084]2.7跳轉(zhuǎn)回步驟2.1,得到下一個(gè)待解析的網(wǎng)頁(yè)URL,直到爬取的過程終止并且所有爬取得到的網(wǎng)頁(yè)內(nèi)容都得到解析;
      [0085]圖5和圖6分別是步驟5)中對(duì)百度百科和互動(dòng)百科進(jìn)行整合的MapReduce算法的Map步和Reduce步,步驟6)和步驟7)的處理過程和步驟5)類似,其具體算法實(shí)現(xiàn)分別如下:
      [0086]算法1.Map步處理
      [0087]a)從文件中取得一條三元組并轉(zhuǎn)換為字符串,通過判斷主語(yǔ)的前綴識(shí)別出該三元組的來(lái)源。如果來(lái)自百度百科,則跳轉(zhuǎn)到b);如果來(lái)自互動(dòng)百科,跳轉(zhuǎn)到C)。
      [0088]b)判斷謂語(yǔ)是否為重定向(pageRedirects),如果是重定向,跳轉(zhuǎn)到d);不是重定向,跳轉(zhuǎn)到e)。
      [0089]c)判斷謂語(yǔ)是否為重定向(pageRedirects),如果是重定向,跳轉(zhuǎn)到f);不是重定向,跳轉(zhuǎn)到g)。
      [0090]d)將該三元組的主語(yǔ)資源名u提取出來(lái),賓語(yǔ)資源名m提取出來(lái),產(chǎn)生一個(gè)(key=u, value=5)的中間鍵值對(duì),并將(u, m)存入百度哈希表中,跳轉(zhuǎn)回a)。
      [0091]e)將該三元組的主語(yǔ)資源名u提取出來(lái),產(chǎn)生一個(gè)(key=u, value=3)的中間鍵值對(duì),跳轉(zhuǎn)回a)。
      [0092]f)將該三元組的主語(yǔ)資源名u提取出來(lái),賓語(yǔ)資源名m提取出來(lái),產(chǎn)生一個(gè)(key=u, value=7)的中間鍵值對(duì),并將(u, m)存入互動(dòng)哈希表中,跳轉(zhuǎn)回a)。
      [0093]g)將該三元組的主語(yǔ)資源名u提取出來(lái),產(chǎn)生一個(gè)(key=u, value=2)的中間鍵值對(duì),跳轉(zhuǎn)回a)。
      [0094]算法2.Reduce步處理
      [0095]a)得到一組具有相同key值的鍵值對(duì)集合的迭代器。
      [0096]b)通過迭代器,將所有value值相乘得積。
      [0097]c)判斷乘積能否被2整除,如果能則跳轉(zhuǎn)到d),不能則跳轉(zhuǎn)到e)。
      [0098]d)判斷乘積能否被3整除,如果能則跳轉(zhuǎn)到f),不能則跳轉(zhuǎn)到g)。[0099]e)判斷乘積能否被7整除,如果能則跳轉(zhuǎn)到h),不能則跳轉(zhuǎn)到a)。
      [0100]f)生成一條百度百科的資源到互動(dòng)百科的資源的owl: sameAs的三元組,跳轉(zhuǎn)到a)處理下一組鍵值對(duì)。
      [0101]g)判斷乘積能否被5整除,如果能則跳轉(zhuǎn)到i),不能則跳轉(zhuǎn)到a)。
      [0102]h)從互動(dòng)哈希表中通過以資源名為key得到重定向到的實(shí)際資源名并替換掉原來(lái)的資源名,跳轉(zhuǎn)到d)。
      [0103]i)從百度哈希表中通過以資源名為key得到重定向到的實(shí)際資源名并替換掉原來(lái)的資源名,跳轉(zhuǎn)到O。
      [0104]如圖7所示,三元組模式查詢頁(yè)面使用的是鏈接數(shù)據(jù)導(dǎo)航,在三元組模式查詢頁(yè)面設(shè)計(jì)的步驟中,由于RDF數(shù)據(jù)集包含大量的URI字符串,來(lái)自同一數(shù)據(jù)集的資源具有相同且復(fù)雜的前綴,冗長(zhǎng)的前綴不方便用戶的理解和使用。因此,設(shè)計(jì)通過在顯示頁(yè)面時(shí)將冗長(zhǎng)的前綴轉(zhuǎn)換成簡(jiǎn)短又容易理解的字符串可以使界面更加人性化,本發(fā)明采用的URI的實(shí)際前綴與頁(yè)面顯示的前綴對(duì)應(yīng)關(guān)系如表2所示。
      [0105]表2 URI實(shí)際前綴與顯示前綴的映射
      【權(quán)利要求】
      1.一種面向語(yǔ)義網(wǎng)的中文百科知識(shí)組織與集成方法,其特征是,包括下列步驟: .1)配置Nutch和Jingwei的環(huán)境,Nutch是一種開源Java實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲,Jingwei是一種大規(guī)模RDF分布式存儲(chǔ)系統(tǒng); . 2)編寫Nutch插件拓展其功能從而對(duì)爬取的百度百科和互動(dòng)百科文章內(nèi)容進(jìn)行解析生成三元組;. 3)為Jingwei系統(tǒng)添加動(dòng)態(tài)插入三元組的表述性狀態(tài)轉(zhuǎn)移REST的Web服務(wù),從而可以在爬取的過程中調(diào)用該服務(wù)實(shí)現(xiàn)同步地向底層數(shù)據(jù)庫(kù)插入剛解析得到的RDF三元組數(shù)據(jù); . 4)下載DBpedia中的中文知識(shí)數(shù)據(jù),將該數(shù)據(jù)進(jìn)行簡(jiǎn)單的預(yù)處理,然后裝載入Jingwei底層數(shù)據(jù)庫(kù)中; . 5)設(shè)計(jì)并實(shí)現(xiàn)百度百科和互動(dòng)百科數(shù)據(jù)集的整合與集成,發(fā)掘兩個(gè)數(shù)據(jù)集之間其中的owl: sameAs鏈接,owl即Web Ontology Language, 一種對(duì)本體描述的網(wǎng)絡(luò)本體語(yǔ)言,并直接裝載入Jingwei底層數(shù)據(jù)庫(kù)中; . 6)設(shè)計(jì)并實(shí)現(xiàn)百度百科和中文維基百科數(shù)據(jù)集的整合與集成,發(fā)掘兩個(gè)數(shù)據(jù)集之間其中的owl: sameAs鏈接,并直接裝載入Jingwei底層數(shù)據(jù)庫(kù)中;. 7)設(shè)計(jì)并實(shí)現(xiàn)互動(dòng)百科和中文維基百科數(shù)據(jù)集的整合與集成,發(fā)掘兩個(gè)數(shù)據(jù)集之間其中的owl: sameAs鏈接,并直接裝載入Jingwei底層數(shù)據(jù)庫(kù)中; . 8)設(shè)計(jì)并實(shí)現(xiàn)動(dòng)態(tài)插 入顯示頁(yè)面,對(duì)插入的RDF三元組提供實(shí)時(shí)的顯示和說(shuō)明; . 9)設(shè)計(jì)并實(shí)現(xiàn)三元組模式查詢頁(yè)面。
      2.如權(quán)利要求1所述的面向語(yǔ)義網(wǎng)的中文百科知識(shí)組織與集成方法,其特征是,上述的步驟I)中,采用Cassandra為底層存儲(chǔ)系統(tǒng),Cassandra是一種分布式鍵值存儲(chǔ)庫(kù)集群。
      3.如權(quán)利要求1所述的面向語(yǔ)義網(wǎng)的中文百科知識(shí)組織與集成方法,其特征是,步驟2)中實(shí)現(xiàn)的是拓展點(diǎn)HtmlParseFilter, HtmlParseFilter是用于拓展Html功能的接口,提供給插件開發(fā)者一個(gè)DocumentFragment的對(duì)象,DocumentFragment是用于解析網(wǎng)頁(yè)的DOM結(jié)構(gòu),利用給出的對(duì)象就可以對(duì)其進(jìn)行操作從該超文本標(biāo)記語(yǔ)言HTML的文檔對(duì)象模型DOM結(jié)構(gòu)中提取出RDF三元組,具體過程如下: . 2.1得到下一個(gè)待解析的網(wǎng)頁(yè)統(tǒng)一資源定位符URL ;. 2.2通過該URL的前綴判斷網(wǎng)頁(yè)的來(lái)源是百度百科還是互動(dòng)百科,如果是百度百科,則進(jìn)入步驟2.3 ;如果是互動(dòng)百科,則進(jìn)入步驟2.4 ;. 2.3實(shí)例化對(duì)百度百科進(jìn)行處理的類,獲取該百度百科頁(yè)面的DOM結(jié)構(gòu),利用Nodeffalker對(duì)象對(duì)DOM樹進(jìn)行先根遍歷,Nodeffalker是Nutch中用于遍歷樹的結(jié)構(gòu),然后以百度百科頁(yè)面的設(shè)計(jì)規(guī)則為依據(jù)提取出RDF三元組,進(jìn)入步驟2.5 ; . 2.4實(shí)例化對(duì)互動(dòng)百科進(jìn)行處理的類,獲取該互動(dòng)百科頁(yè)面的DOM結(jié)構(gòu),利用Nodeffalker對(duì)象對(duì)DOM樹進(jìn)行先根遍歷,然后以互動(dòng)百科頁(yè)面的設(shè)計(jì)規(guī)則為依據(jù)提取出RDF三元組,進(jìn)入步驟2.5 ; . 2.5將解析得到的RDF三元組寫入文本中,用于之后的集成與整合工作; . 2.6調(diào)用為大規(guī)模RDF分布式存儲(chǔ)系統(tǒng)Jingwei添加的動(dòng)態(tài)插入三元組的REST Web服務(wù),將解析出的三元組直接存入系統(tǒng)的底層數(shù)據(jù)庫(kù)中;. 2.7跳轉(zhuǎn)回步驟2.1,得到下一個(gè)待解析的網(wǎng)頁(yè)URL,直到爬取的過程終止并且所有爬取得到的網(wǎng)頁(yè)內(nèi)容都得到解析。
      4.如權(quán)利要求1所述的面向語(yǔ)義網(wǎng)的中文百科知識(shí)組織與集成方法,其特征是,驟3)設(shè)計(jì)了動(dòng)態(tài)插入RDF三元組的REST Web服務(wù),是通過訪問“http://localhost:8080?rdf=(S1Xp1Xo) /<s2Xp2Xo2> /……/<snXpnXon>”來(lái)完成η個(gè)RDF三元組的插入和建立索引。
      5.如權(quán)利要求1所述的面向語(yǔ)義網(wǎng)的中文百科知識(shí)組織與集成方法,其特征是,步驟5)實(shí)現(xiàn)的是百度百科和互動(dòng)百科之間的整合,所謂整合就是通過在多個(gè)數(shù)據(jù)集之間進(jìn)行鏈接發(fā)現(xiàn)從而構(gòu)成一個(gè)整體,鏈接發(fā)現(xiàn)算法的設(shè)計(jì)基于用于大數(shù)據(jù)處理的并行編程模型MapReduce框架模型,通過對(duì)數(shù)據(jù)集中的每一條RDF三元組進(jìn)行分析和處理,發(fā)掘出其中的owl: sameAs 關(guān)系。
      【文檔編號(hào)】G06F9/44GK103823855SQ201410056318
      【公開日】2014年5月28日 申請(qǐng)日期:2014年2月19日 優(yōu)先權(quán)日:2014年2月19日
      【發(fā)明者】付宇新, 馮志勇, 王鑫 申請(qǐng)人:天津大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1