本發(fā)明涉及知識工程技術領域,特別是指一種法律知識圖譜自動構建方法。
背景技術:
知識圖譜(knowledgegraph,kg)旨在描述客觀世界的概念、實體、事件及其之間的關系。知識圖譜將互聯(lián)網(wǎng)的信息表達成更接近人類認知世界的形式,提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力。知識圖譜給互聯(lián)網(wǎng)語義搜索帶來了活力,同時也在智能問答、大數(shù)據(jù)分析與決策中顯示出強大威力,已經(jīng)成為互聯(lián)網(wǎng)基于知識的智能服務的基礎設施。知識圖譜與大數(shù)據(jù)和深度學習一起,成為推動人工智能發(fā)展的核心驅動力之一。
知識圖譜研究,一方面探索從互聯(lián)網(wǎng)語言資源中獲取知識的理論和方法;另一方面促進知識驅動的語言理解研究。隨著大數(shù)據(jù)時代的到來,研究從大數(shù)據(jù)中挖掘隱含的知識理論與方法,將大數(shù)據(jù)轉化為知識,增強對互聯(lián)網(wǎng)資源的內(nèi)容理解,將促進當代信息處理技術從信息服務向知識服務轉變。
構建法律知識圖譜對整合法律知識,挖掘法律熱點,對法律事件預測,構建法律領域專家系統(tǒng)等將起到重要作用。但是,在現(xiàn)有的技術中,還沒有構建好的法律知識圖譜。
技術實現(xiàn)要素:
本發(fā)明要解決的技術問題是提供一種法律知識圖譜自動構建方法,以解決現(xiàn)有技術所存在的缺少法律知識圖譜的問題。
為解決上述技術問題,本發(fā)明實施例提供一種法律知識圖譜自動構建方法,包括:
獲取民事、刑事、行政三類審判文書作為法律知識圖譜構建的語料,對所述語料去停用詞和進行分詞;
根據(jù)分詞后的語料,分別抽取三類審判文書的主題詞,對抽取的主題詞進行詞性標注和過濾,根據(jù)過濾結果,抽取名詞或名詞短語主題詞作為法律知識圖譜的實體概念;
獲取與抽取的每一名詞或名詞短語主題詞關系相近的詞,對獲取的相近詞進行詞性標注和過濾,根據(jù)過濾結果,抽取名詞或名詞短語相近詞作為法律知識圖譜的實體概念;
同屬于主題詞的實體概念之間形成主題關系,每一主題詞實體概念與其相近詞實體概念構成相近關系,根據(jù)抽取的主題詞實體概念和相近詞實體概念以及其之間的關系形成的主題詞-主題關系-主題詞,主題詞-相近關系-相近詞三元組結構,構建法律知識圖譜。
進一步地,所述獲取民事、刑事、行政三類審判文書作為法律知識圖譜構建的語料,對所述語料去停用詞和進行分詞包括:
從網(wǎng)絡上爬取民事、刑事、行政三類審判文書作為法律知識圖譜構建的語料;
使用現(xiàn)代漢語法律語域詞表結合預先設定的輸入法法律詞典構造法律領域詞典;
根據(jù)構造的法律領域詞典對所述語料去停用詞和進行分詞。
進一步地,所述預先設定的輸入法法律詞典包括:搜狗輸入法法律詞典。
進一步地,所述根據(jù)構造的法律領域詞典對所述語料去停用詞和進行分詞包括:
根據(jù)構造的法律領域詞典,利用結巴分詞工具對所述語料去停用詞和進行分詞。
進一步地,所述分詞后的語料,分別抽取三類審判文書的主題詞包括:
對分詞后的民事、刑事、行政三類審判文書,應用lda主題模型,分別抽取三類審判文書的主題詞。
進一步地,所述對抽取的主題詞進行詞性標注和過濾包括:
利用java開源工具ansj去掉抽取的所述主題詞中無意義的詞語,所述無意義的詞語包括:人名、地名;
去掉所述主題詞中無意義的詞語后,使用結巴分詞工具進行詞性標注和過濾,保留名詞或名詞短語主題詞。
進一步地,所述獲取與抽取的每一名詞或名詞短語主題詞關系相近的詞包括:
將分詞后的民事、刑事、行政三類審判文書,分別作為訓練集使用word2vec模型進行訓練,得到法律領域民事、刑事、行政詞匯的訓練模型;
應用所述訓練模型,獲取與抽取的每一名詞或名詞短語主題詞關系相近的詞。
進一步地,所述對獲取的相近詞進行詞性標注和過濾包括:
利用java開源工具ansj去掉獲取的所述相近詞中無意義的詞語,所述無意義的詞語包括:人名、地名;
去掉所述相近詞中無意義的詞語后,使用結巴分詞工具進行詞性標注和過濾,保留名詞或名詞短語相近詞。
進一步地,在根據(jù)抽取的主題詞實體概念和相近詞實體概念以及其之間的關系形成的主題詞-主題關系-主題詞,主題詞-相近關系-相近詞三元組結構,構建法律知識圖譜之后,所述方法還包括:
利用可視化工具將構建的所述法律知識圖譜可視化顯示。
進一步地,所述可視化工具包括:neo4j圖形數(shù)據(jù)庫。
本發(fā)明的上述技術方案的有益效果如下:
上述方案中,獲取民事、刑事、行政三類審判文書作為法律知識圖譜構建的語料,對所述語料去停用詞和進行分詞;根據(jù)分詞后的語料,分別抽取三類審判文書的主題詞,對抽取的主題詞進行詞性標注和過濾,根據(jù)過濾結果,抽取名詞或名詞短語主題詞作為法律知識圖譜的實體概念;獲取與抽取的每一名詞或名詞短語主題詞關系相近的詞,對獲取的相近詞進行詞性標注和過濾,根據(jù)過濾結果,抽取名詞或名詞短語相近詞作為法律知識圖譜的實體概念;根據(jù)抽取的主題詞實體概念和相近詞實體概念以及其之間的關系形成的主題詞-主題關系-主題詞,主題詞-相近關系-相近詞三元組結構,完成法律知識圖譜的構建。
附圖說明
圖1為本發(fā)明實施例提供的法律知識圖譜自動構建方法的流程示意圖;
圖2為本發(fā)明實施例提供的針對民事類審判文書所列舉的實體概念及其關系的知識圖譜可視化示意圖;
圖3為本發(fā)明實施例提供的針對刑事類審判文書所列舉的實體概念及其關系的知識圖譜可視化示意圖;
圖4為本發(fā)明實施例提供的針對行政類審判文書所列舉的實體概念及其關系的知識圖譜可視化示意圖。
具體實施方式
為使本發(fā)明要解決的技術問題、技術方案和優(yōu)點更加清楚,下面將結合附圖及具體實施例進行詳細描述。
本發(fā)明針對現(xiàn)有的缺少法律知識圖譜的問題,提供一種法律知識圖譜自動構建方法。
如圖1所示,本發(fā)明實施例提供的法律知識圖譜自動構建方法,包括:
s101,獲取民事、刑事、行政三類審判文書作為法律知識圖譜構建的語料,對所述語料去停用詞和進行分詞;
s102,根據(jù)分詞后的語料,分別抽取三類審判文書的主題詞,對抽取的主題詞進行詞性標注和過濾,根據(jù)過濾結果,抽取名詞或名詞短語主題詞作為法律知識圖譜的實體概念;
s103,獲取與抽取的每一名詞或名詞短語主題詞關系相近的詞,對獲取的相近詞進行詞性標注和過濾,根據(jù)過濾結果,抽取名詞或名詞短語相近詞作為法律知識圖譜的實體概念;
s104,同屬于主題詞的實體概念之間形成主題關系,每一主題詞實體概念與其相近詞實體概念構成相近關系,根據(jù)抽取的主題詞實體概念和相近詞實體概念以及其之間的關系形成主題詞-主題關系-主題詞,主題詞-相近關系-相近詞三元組結構,構建法律知識圖譜。
本發(fā)明實施例所述的法律知識圖譜自動構建方法,獲取民事、刑事、行政三類審判文書作為法律知識圖譜構建的語料,對所述語料去停用詞和進行分詞;根據(jù)分詞后的語料,分別抽取三類審判文書的主題詞,對抽取的主題詞進行詞性標注和過濾,根據(jù)過濾結果,抽取名詞或名詞短語主題詞作為法律知識圖譜的實體概念;獲取與抽取的每一名詞或名詞短語主題詞關系相近的詞,對獲取的相近詞進行詞性標注和過濾,根據(jù)過濾結果,抽取名詞或名詞短語相近詞作為法律知識圖譜的實體概念;根據(jù)抽取的主題詞實體概念和相近詞實體概念以及其之間的關系形成的主題詞-主題關系-主題詞,主題詞-相近關系-相近詞三元組結構,完成法律知識圖譜的構建。
本實施例中,所述民事、刑事、行政三類審判文書具有鮮明的法律語言特點,審判文書中的主題詞是值得信賴的,能夠反映審判文書內(nèi)容主題,因此,從審判文書中獲取的主題詞可以作為法律知識圖譜的實體概念。
本實施例中,作為一可選實施例,所述獲取民事、刑事、行政三類審判文書作為法律知識圖譜構建的語料,對所述語料去停用詞和進行分詞包括:
從網(wǎng)絡上爬取民事、刑事、行政三類審判文書作為法律知識圖譜構建的語料;
使用現(xiàn)代漢語法律語域詞表結合預先設定的輸入法法律詞典構造法律領域詞典;
根據(jù)構造的法律領域詞典對所述語料去停用詞和進行分詞。
本實施例中,作為又一可選實施例,所述預先設定的輸入法法律詞典包括:搜狗輸入法法律詞典。
本實施例中,作為再一可選實施例,所述根據(jù)構造的法律領域詞典對所述語料去停用詞和進行分詞包括:
根據(jù)構造的法律領域詞典,利用結巴分詞工具對所述語料去停用詞和進行分詞。
在前述法律知識圖譜自動構建方法的具體實施方式中,進一步地,所述分詞后的語料,分別抽取三類審判文書的主題詞包括:
對分詞后的民事、刑事、行政三類審判文書,應用隱含狄利克雷分布(latentdirichletallocation,lda)主題模型,分別抽取三類審判文書的主題詞。
本實施例中,對分詞后的民事、刑事、行政三類審判文書,基于lda主題模型,選取主題數(shù)和主題詞數(shù),分別抽取三類審判文書的主題詞。lda是一種文檔主題生成模型,也稱為一個三層貝葉斯概率模型,包含詞、主題和文檔三層結構。每篇文章的每個詞都是通過"以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語"這樣一個過程得到。文檔到主題服從多項式分布,主題到詞服從多項式分布。這樣就可以通過主題得到文章的主題詞。
本實施例中,所述lda主題模型抽取的主題詞包括名詞、名詞短語、動詞以及動詞短語等,但知識圖譜中的實體概念應該為名詞或名詞短語,所以還需對應用lda主題模型抽取的主題詞進行詞性標注和過濾。
在前述法律知識圖譜自動構建方法的具體實施方式中,進一步地,所述對抽取的主題詞進行詞性標注和過濾包括:
利用java開源工具ansj去掉抽取的所述主題詞中無意義的詞語,所述無意義的詞語包括:人名、地名;
去掉所述主題詞中無意義的詞語后,使用結巴分詞工具進行詞性標注和過濾,保留名詞或名詞短語主題詞。
在前述法律知識圖譜自動構建方法的具體實施方式中,進一步地,所述獲取與抽取的每一名詞或名詞短語主題詞關系相近的詞包括:
將分詞后的民事、刑事、行政三類審判文書,分別作為訓練集使用詞向量(word2vec)模型進行訓練,得到法律領域民事、刑事、行政詞匯的訓練模型;
應用所述訓練模型,獲取與抽取的每一名詞或名詞短語主題詞關系相近的詞,根據(jù)過濾結果,抽取名詞或名詞短語相近詞作為法律知識圖譜的實體概念。
本實施例中,將分詞后的民事、刑事、行政三類審判文書,分別作為訓練集使用word2vec模型進行訓練,得到法律領域民事、刑事、行政詞匯的訓練模型;應用所述訓練模型,獲取與抽取的每一名詞或名詞短語主題詞關系相近的詞,并對獲取的相近詞進行詞性標注和過濾。
本實施例中,以抽取的第一名詞或第一名詞短語主題詞為例,獲取與抽取的第一名詞或第一名詞短語主題詞關系相近的詞具體步驟可以包括:
使用word2vec將分詞后得到的詞語和抽取的第一名詞或第一名詞短語主題詞進行量化,計算分詞后得到的詞語與抽取的第一名詞或第一名詞短語主題詞之間的距離,若二者之間的距離小于預先設定的距離閾值,則當前的詞語是與抽取的第一名詞或第一名詞短語主題詞關系相近的詞;接著,按照此方法,繼續(xù)確認其他詞語是否是與抽取的第一名詞或第一名詞短語主題詞關系相近的詞。
本實施例中,所述word2vec模型利用深度學習的思想,可以通過訓練,把對審判文書內(nèi)容的處理簡化為k維向量空間中的向量運算,其基本思想是通過訓練將每個詞映射成k維實數(shù)向量(k一般為模型中的超參數(shù)),通過詞之間的距離來判斷詞之間的語義相似度。與lda主題模型相比,word2vec模型利用了詞的上下文,語義信息更加豐富。
本實施例中,將lda主題模型和word2vec模型結合,能夠將基于詞頻和基于詞語上下文語義相結合抽取實體概念,既考慮了審判文書中的詞語頻率特征,又應用了上下文語義,所抽取的實體概念更具有代表意義,更合理的表達知識。
在前述法律知識圖譜自動構建方法的具體實施方式中,進一步地,所述對獲取的相近詞進行詞性標注和過濾包括:
利用java開源工具ansj去掉獲取的所述相近詞中無意義的詞語,所述無意義的詞語包括:人名、地名;
去掉所述相近詞中無意義的詞語后,使用結巴分詞工具進行詞性標注和過濾,保留名詞或名詞短語相近詞。
本實施例中,在根據(jù)抽取的主題詞實體概念和相近詞實體概念以及其之間的關系形成的主題詞-主題關系-主題詞,主題詞-相近關系-相近詞三元組結構,構建法律知識圖譜之后,作為一可選實施例,可以利用可視化工具將構建的所述法律知識圖譜可視化顯示;優(yōu)選地,所述可視化工具包括:neo4j圖形數(shù)據(jù)庫。
本實施例中,利用neo4j圖形數(shù)據(jù)庫將構建的所述法律知識圖譜可視化顯示包括:將構建的法律知識圖譜中的主題詞實體概念、相近詞實體概念以及其之間的關系(主題詞-主題關系-主題詞之間的關系,主題詞-相近關系-相近詞之間的關系)存儲在neo4j圖形數(shù)據(jù)庫中,通過所述neo4j圖形數(shù)據(jù)庫將構建的所述法律知識圖譜可視化顯示。
本實施例中,所述neo4j是一個高性能的nosql圖形數(shù)據(jù)庫,neo4j將結構化數(shù)據(jù)存儲在網(wǎng)絡中,因此可以將法律知識圖譜可視化,從而直觀、形象地反映法律知識和概念,實現(xiàn)知識和信息的可視化。
綜上,從網(wǎng)絡上爬取民事、刑事、行政三類審判文書作為法律知識圖譜構建的語料,使用現(xiàn)代漢語法律語域詞表結合搜狗輸入法法律詞典法律詞典構造法律領域詞典,對所述語料去停用詞和進行分詞;對分詞后的民事、刑事、行政三類審判文書,應用lda主題模型,分別抽取三類審判文書的主題詞進行詞性標注和過濾,根據(jù)過濾結果,抽取名詞或名詞短語主題詞作為法律知識圖譜的實體概念;將分詞后的民事、刑事、行政三類審判文書作為訓練集,應用word2vec模型,獲取與抽取的每一名詞或名詞短語主題詞關系相近的詞,對獲取的相近詞進行詞性標注和過濾,根據(jù)過濾結果,抽取名詞或名詞短語相近詞作為法律知識圖譜的實體概念;lda主題模型和word2vec模型結合,將詞頻和詞語上下文語義相結合,所抽取的實體概念更具有代表意義,更合理的表達知識;根據(jù)抽取的主題詞實體概念和相近詞實體概念以及其之間的關系形成的主題詞-主題關系-主題詞,主題詞-相近關系-相近詞三元組結構,構建法律知識圖譜,并可以使用可視化工具實現(xiàn)法律知識圖譜的可視化顯示。
本實施例中,結合具體的例子,對所述法律知識圖譜自動構建方法進行詳細說明:
a11,從網(wǎng)絡上爬取民事、刑事、行政三類審判文書作為法律知識圖譜構建的語料。
a12,使用現(xiàn)代漢語法律語域詞表結合搜狗輸入法法律詞典構造法律領域詞典,使用結巴分詞分詞工具對語料去停用詞和進行分詞,為應用lda主題模型做準備。
a13,對分詞后的刑事、民事、行政三類審判文書應用lda主題模型提取主題詞。
本實施例中,假設,可以對每類審判文書抽取40個主題詞,例如,對民事審判文書抽取的主題詞及其概率權值如下:
被告0.04538822855714997
原告0.043316588428150726
公司0.018895531919818322
合同0.013633310234119633
訴訟0.01251309001621634
判決0.01108851772997859
規(guī)定0.010230449503707916
責任0.010005382427964789
上訴0.009858321554609905
借款0.009341690312563182
民事0.009330181200735407
有限公司0.009316114508501462
支付0.00906419283849353
證據(jù)0.008995138167526888
中華人民共和國0.007661359985708241
人民法院0.007553941608649022
承擔0.007507905161337927
法律0.007410717105903395
本案0.007202274302800385
約定0.007144728743661517
審理0.007130662051427572
賠償0.007069280121679446
代理0.0070513770588362425
證明0.006947795052386281
履行0.006740631039486356
利息0.006273872615359985
請求0.005982308449056388
委托人0.0059388295821514656
事故0.0058812840230125975
保險0.005873611281794082
執(zhí)行0.005854429428747793
雙方0.005738059520266971
予以0.005359537620153529
期間0.005312222382639349
應當0.005181785781924582
受理0.004997639992680205
申請0.0049426520139475094
提供0.004911961049073446
依法0.004741881952063015
認為0.004729094050032155
對刑事審判文書抽取的主題詞及其概率權值如下:
被告人0.04468756653212941
判決0.013898544185240131
機關0.013463702893840556
審理0.012932857680963156
公訴0.011521035306289217
執(zhí)行0.011357263910827038
刑事0.010803829539954854
犯罪0.010385930117051368
人民法院0.009521894823750918
罪犯0.009194352032826564
有期徒刑0.00916046829583439
被害人0.008725627004434815
處罰0.008584444766967422
指控0.008262549265541763
證據(jù)0.008143956186069152
證實0.007918064606121322
判處0.007810766105646103
依法0.007692173026173492
人民0.007421103130236095
規(guī)定0.0072629790242726144
罰金0.0072347425767791355
上訴0.006918494364852173
某甲0.006737781100893909
人民幣0.006653071758413473
中華人民共和國0.006641777179416081
予以0.006348118125483902
刑期0.006014928045060852
證明0.005517966569175626
認為0.005489730121682147
羈押0.005484082832183451
提出0.00547278825318606
減刑0.005354195173713449
法律0.005354195173713449
檢察院0.005275133120731708
鑒定0.005201718357248663
刑法0.005184776488752576
判決書0.005004063224794311
應當0.004902412013817788
上述0.004902412013817788
公安局0.00469910959186474
對行政審判文書抽取的主題詞及其概率權值如下:
執(zhí)行0.07607003223815077
申請0.0299420399204335
行政0.01917312572878798
原告0.016755264421428082
規(guī)定0.015949310652308115
法律0.013702928870292888
人民法院0.013068454626517595
被告0.012142465189656355
裁定0.011542286850949997
作出0.0108049248919679
中華人民共和國0.009913231360175596
上訴0.008781466492900748
證據(jù)0.008627134920090542
訴訟0.00792406886617738
有限公司0.007906920913642911
履行0.007872625008573976
決定0.00785547705603951
代理0.007838329103505041
依法0.007563961862953564
本案0.007529665957884629
送達0.00739248233760889
政府0.007375334385074423
法定0.007306742574936553
人民0.0071009671445229445
強制0.006878043761574869
民事0.006860895809040401
裁定書0.006723712188764662
處罰0.006620824473557858
公司0.0062264215652651075
財產(chǎn)0.0062264215652651075
申請人0.006140681802592771
審判員0.005986350229782564
發(fā)生0.0058491666095068255
程序0.005832018656972358
行為0.005814870704437891
委托0.005591947321489815
商標0.00542046779614514
認為0.005403319843610674
認定0.005248988270800467
證明0.005077508745455793
a14,利用java開源工具ansj去掉抽取的所述主題詞中無意義的詞語,所述無意義的詞語包括:人名、地名;
a15,去掉所述主題詞中無意義的詞語后,使用結巴分詞工具進行詞性標注過濾,保留名詞或名詞短語主題詞,從保留的名詞或名詞短語主題詞中,抽取名詞或名詞短語主題詞作為法律知識圖譜的實體概念。
本實施例中,針對上文民事審判文書抽取的主題詞,過濾后保留的名詞或名詞短語主題詞實體概念包括:民事、原告、被告、公司、合同、規(guī)定、責任、借款、證據(jù)、中華人民共和國、人民法院、賠償、利息、委托人、事故、保險;
針對上文刑事審判文書抽取的主題詞,過濾后保留的名詞或名詞短語主題詞實體概念包括:刑事、被告人、判決、機關、罪犯、有期徒刑、人民法院、有期徒刑、被害人、證據(jù)、處罰、公安局、罰金、檢察院、證據(jù)、刑期;
針對上文行政審判文書抽取的主題詞,過濾后保留的名詞或名詞短語主題詞實體概念包括:行政、原告、被告、規(guī)定、證據(jù)、訴訟、政府、程序、商標、財產(chǎn)、申請人、行為、中華人民共和國、有限公司。
a16,將分詞后的民事、刑事、行政三類審判文書,分別作為訓練集使用word2vec模型進行訓練,得到法律領域民事、刑事、行政詞匯的訓練模型;應用所述訓練模型,獲取與抽取的每一名詞或名詞短語主題詞關系相近的詞。
應用所述訓練模型,民事類主題詞實體概念“合同”得到關系相近詞及其概率權值包括:
簽訂0.5763912
約定0.48097914
協(xié)議0.37736425
訂立0.3705411
公司0.3696574
租賃0.36512932
雙方0.35705388
劉德金0.34434897
氣泡0.328522
明確0.32501125
涉案0.32185695
協(xié)議書0.31391016
買賣0.3088458
樂業(yè)0.30489194
之間0.30382612
證明0.2990941
終止0.29683605
二手0.29514572
種田0.29396233
追索0.28939554
續(xù)訂0.28641993
解除0.28595838
有限公司0.28574145
書面0.28361073
分期付款0.28282937
提供0.2827272
進駐0.2825332
閣樓0.2816434
鋼材0.2810969
乙方0.2808927
個人0.27966338
通知0.27827317
補充0.27381954
商品房0.2735057
在先0.27306673
形式0.2725207
支付0.27117527
養(yǎng)殖戶0.26940143
必須0.2674929
民事類主題詞實體概念“保險”得到關系相近詞及其概率權值包括:
投保0.56694895
人壽0.5114369
湛江0.48388714
黃泛區(qū)0.4794967
平安0.46968624
葫蘆島0.46316242
股份公司0.4605423
承保0.4594842
第三者0.45929018
太平洋0.45355806
陽光0.45028463
責任險0.42831764
云夢0.41445065
萊西0.41428867
鄲城0.4068216
泰安0.40472373
大地0.39746445
永安0.3968292
扶綏0.3896513
理賠0.38841742
高密0.38796845
機動車0.38347688
限額0.3812008
支公司0.38062343
財險0.37823787
股份0.37744236
秦鳳英0.37533227
王東亮0.37525466
三者0.37188548
王澤娥0.36597794
寧波0.36417973
超載0.36360556
承德市0.3632158
洛陽0.35979813
姚北0.35928556
卡面0.3588715
新鄉(xiāng)0.3568592
賠付0.35668504
民事類主題詞實體概念“事故”得到關系相近詞及其概率權值包括:
機動車0.64636284
道路0.59133244
受傷0.58880615
相撞0.5638595
交警0.55251616
受損0.5505517
安全0.54463726
警察0.5340148
喪生0.53361696
交通0.5322209
孟召霞0.52191746
損壞0.5216344
認定書0.5169376
保險期0.51690906
孫文云0.5163057
李艷華0.5088402
李育愛0.5043047
秦鳳英0.5039391
碰撞0.4961797
逃逸0.49591517
王東亮0.4918255
王澤娥0.48844925
張水蘭0.48542893
湯淑媛0.48374018
連環(huán)0.4697476
劉新國0.46883675
遷安市0.467965
梁棟鋒0.46751007
歐定明0.46699777
公安0.46476513
趙繼慶0.45994714
責任事故0.45580548
肇事0.45535287
駕車0.45335504
黑狗0.4530668
巡邏0.4528954
大隊0.45050552
民事類主題詞實體概念“借款”得到關系相近詞及其概率權值包括:
楊文德0.53020227
約定0.5103647
貸款0.5056032
到期0.4983407
借據(jù)0.49800384
歸還0.48050326
陳樂平0.4619061
本金0.45753172
借款人0.45016727
還款0.4425541
用途0.43778557
償還0.43593448
提前0.41843352
擔保人0.4159059
流動資金0.41377255
本息0.41336417
款項0.40746012
月利率0.40664664
計息0.40537024
方天益0.4042288
利息0.40377522
喬景偉0.4011478
楊秀華0.4001807
石彪0.39721152
陳喜山0.39458355
轉賬0.39407754
個人0.3935814
鄭華富0.38994315
金融0.38959554
截止0.38876835
譚永峰0.38827744
陳麗艷0.38779706
李金停0.38715848
王旭純0.38537905
借條0.38101554
簽訂0.3808062
鄧仙蘭0.38042617
載明0.3793149
劉愛麗0.3779271
a17,利用java開源工具ansj去掉獲取的所述相近詞中無意義的詞語,所述無意義的詞語包括:人名、地名;去掉所述相近詞中無意義的詞語后,使用結巴分詞工具進行詞性標注和過濾,保留名詞或名詞短語相近詞,從保留的名詞或名詞短語相近詞中,抽取名詞或名詞短語相近詞作為法律知識圖譜的實體概念。
本實施例中,列舉與民事類主題詞“合同”實體概念關系相近的實體概念:約定、協(xié)議、公司、書面、租賃、有限公司、買賣、分期付款、乙方、個人、商品房、形式、通知;
列舉與民事類主題詞“保險”實體概念關系相近的實體概念:人壽、平安、太平洋、陽光、責任險、股份公司、第三者、理賠、機動車、財險、賠付、股份;
列舉與民事類主題詞“事故”實體概念關系相近的實體概念:事故:機動車、道路、交警、喪生、警察、認定書、保險期、責任、安全、逃逸、肇事;
列舉與民事類主題詞“借款”實體概念關系相近的實體概念:貸款、借據(jù)、到期、本金、借款人、還款、本息、款項、個人、借條、擔保人、利率、利息;
進一步,道理同上,本案例列舉與刑事類主題詞“判決”實體概念關系相近的實體概念:中華人民共和國、繳納、刑期、責任人員、刑法、原判、并處、敲詐、規(guī)定、裁定、通告、最高人民法院、解釋;
列舉與刑事類主題詞“罪犯”實體概念關系相近的實體概念:監(jiān)獄、服刑、減刑、悔改、改造、考核、受刑、法官、刑罰、刑事制裁;
列舉與刑事類主題詞“證據(jù)”實體概念關系相近的實體概念:事實、異議、材料、體系、法庭、矛盾、庭審、定案、意圖、權屬;
列舉與刑事類主題詞“處罰”實體概念關系相近的實體概念:自首、情節(jié)、罪行、嫌疑人、情形、同案犯、犯罪分子、過失、犯罪、性質、初犯;
進一步,道理同上,本案例列舉與行政類主題詞“政府”實體概念關系相近的實體概念:山區(qū)、開支、補償費、財政所、地租、搬遷、報銷、境內(nèi)、城市規(guī)劃、土地;
列舉與行政類主題詞“商標”實體概念關系相近的實體概念:報銷、注冊證、聲譽、信貸員、代理商、科技、范圍、費用、補償;
列舉與行政類主題詞“程序”實體概念關系相近的實體概念:審判、政治權利、條件、合法、公開、簡易、幅度、標準、最高人民法院;
列舉與行政類主題詞“有限公司”實體概念關系相近的實體概念:合同、股份、訴訟費、支票、保險金、管理費、費用、經(jīng)理、支公司。
a18,根據(jù)抽取的主題詞實體概念和相近詞實體概念以及其之間的關系形成的主題詞-主題關系-主題詞,主題詞-相近關系-相近詞三元組結構,自動構建法律知識圖譜;
a19,使用neo4j圖形數(shù)據(jù)庫,對得到的法律知識圖譜可視化,為了方便清晰,本實施例僅對列舉的主題詞和相近詞及其之間的關系進行可視化展示,如圖2-圖4所示,本實施例中,還可以使用neo4j圖形數(shù)據(jù)庫,對全部列舉的實體概念及其關系進行知識圖譜的可視化顯示。
需要說明的是,在本文中,諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。
以上所述是本發(fā)明的優(yōu)選實施方式,應當指出,對于本技術領域的普通技術人員來說,在不脫離本發(fā)明所述原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本發(fā)明的保護范圍。