国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種中文病理文本結(jié)構(gòu)化處理方法

      文檔序號(hào):8922627閱讀:679來(lái)源:國(guó)知局
      一種中文病理文本結(jié)構(gòu)化處理方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,特別是涉及一種中文病理文本結(jié)構(gòu)化處理方 法。
      【背景技術(shù)】
      [0002] 隨著互聯(lián)網(wǎng)的迅速發(fā)展和國(guó)內(nèi)醫(yī)療行業(yè)信息化進(jìn)程的逐漸推進(jìn),醫(yī)療行業(yè)的信息 量也在呈指數(shù)式爆炸增長(zhǎng)。同時(shí),伴隨著生活水平的提高,人們也逐漸從最基本的能看病, 轉(zhuǎn)向關(guān)注醫(yī)療診斷的效率和準(zhǔn)確度。傳統(tǒng)醫(yī)療方式下積累的以及現(xiàn)階段每天實(shí)時(shí)增加的大 量非結(jié)構(gòu)化的病理數(shù)據(jù),不僅不易于存儲(chǔ)管理,而且不能滿足如今的病理分析需求。
      [0003] 如何從非結(jié)構(gòu)化的病理數(shù)據(jù)中獲取有用的信息成為當(dāng)前的研宄熱點(diǎn)之一。現(xiàn)有的 自然語(yǔ)言處理技術(shù)和數(shù)據(jù)挖掘技術(shù),如分詞、聚類分類、信息抽取等,已經(jīng)能在很大程度上 解決這一問(wèn)題,但如何高效且準(zhǔn)確地從非結(jié)構(gòu)化的中文病理文本中獲取有用的信息仍是一 大難題。

      【發(fā)明內(nèi)容】

      [0004] 本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種中文病理文本結(jié)構(gòu)化處理方法,能夠?qū)⒎?結(jié)構(gòu)化的中文病理文本結(jié)構(gòu)化。
      [0005] 本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案是:提供一種中文病理文本結(jié)構(gòu)化處理 方法,包括以下步驟:
      [0006] (1)從病理報(bào)告文本數(shù)據(jù)的樣本與指標(biāo)的層次結(jié)構(gòu)中提取出各個(gè)樣本所對(duì)應(yīng)的模 板信息;
      [0007] (2)對(duì)模板信息進(jìn)行提取,包括短句切分和指標(biāo)名提??;短句分類;
      [0008] (3)對(duì)每個(gè)樣本結(jié)合分類結(jié)果集合CLUSTER和短句集CLAUSE,計(jì)算指標(biāo)名列表中 的每個(gè)指標(biāo)名在短句語(yǔ)料中的TF值、IDF值和C-value值,篩選出TF值、IDF值和C-value 值閾值的指標(biāo)名,作為最終模板中的成分。
      [0009] 所述步驟(2)中短句切分是采用正則匹配的方法,當(dāng)病理報(bào)告文本數(shù)據(jù)中檢測(cè)到 符合正則表達(dá)式時(shí)進(jìn)行斷句,從而將病理報(bào)告文本數(shù)據(jù)切分成若干短句。
      [0010] 所述步驟(2)的指標(biāo)名提取具體包括:(A)樣本名的提?。豪瞄_(kāi)源的分詞工具, 結(jié)合人體組織器官詞庫(kù)以及樣本名出現(xiàn)在短句的第一個(gè)文本片段中的規(guī)律,對(duì)無(wú)關(guān)文本進(jìn) 行過(guò)濾篩選,提取出每個(gè)短句對(duì)應(yīng)的樣本名;(B)指標(biāo)名的提取:將短句按標(biāo)點(diǎn)符號(hào)切分成 若干語(yǔ)義上獨(dú)立的文本片段,將每個(gè)文本片段先用特殊詞庫(kù)匹配和數(shù)量詞匹配進(jìn)行篩選, 再對(duì)匹配失敗的文本片段用統(tǒng)計(jì)方法進(jìn)行處理;最后通過(guò)將經(jīng)過(guò)上述操作得到的鍵值對(duì)中 的指標(biāo)名去重合并,得到每個(gè)短句對(duì)應(yīng)的若干指標(biāo)名。
      [0011] 所述步驟(2)中的短句分類包括:
      [0012] 先對(duì)短句集合CLAUSE進(jìn)行初步分類,將樣本名完全相同的短句歸為一類,歸類后 的每個(gè)子類的指標(biāo)名列表為其所包含的所有短句的指標(biāo)名列表的去重合并,最后得到經(jīng)過(guò) 初步分類的子類集合CLAUSE_PC;
      [0013] 將初步分類后的每個(gè)子類的樣本名sn跟組織器官詞典DIC中的詞word兩兩計(jì)算 相似度,并放到一個(gè)二維數(shù)組Array中,其中,Arra yij的值是編號(hào)為i的子類的樣本名和編 號(hào)為j的組織器官詞典中的詞的樣本名相似度;
      [0014] 優(yōu)先處理樣本名相似度完全相同的子類:將該子類中的所有短句都被歸入組織器 官詞word下,將分類信息寫入分類結(jié)果集合CLUSTER,并將該子類從子類集合中移除;
      [0015] 處理樣本名相似度值近似的子類:每個(gè)子類都能找到零個(gè)到多個(gè)組織器官詞 word滿足要求,對(duì)那些能夠找到至少一個(gè)滿足要求的組織器官詞word的子類,計(jì)算該子類 的指標(biāo)名列表和與其對(duì)應(yīng)的每個(gè)組織器官word的指標(biāo)名列表的指標(biāo)名相似度,找到指標(biāo) 名相似度最大的組織器官詞word',將該子類c就歸入相似度最大的組織器官詞word'下, 將分類信息寫入分類結(jié)果集合CLUSTER,更新相似度最大的組織器官詞word'在MATCHED集 合中的指標(biāo)值列表,同時(shí)將該子類c從子類集合中移除;
      [0016] 對(duì)子類集合中余下的子類,直接采用初步分類的結(jié)果將短句分類,將分類信息寫 入分類結(jié)果集合CLUSTER,同時(shí),將每個(gè)子類的樣本名和指標(biāo)值列表信息寫入U(xiǎn)NMATCHED集 合中;
      [0017] 輸出分類結(jié)果集合CLUSTER,以及MATCHED集合和UNMATCHED集合。
      [0018] 有益效果
      [0019] 由于采用了上述的技術(shù)方案,本發(fā)明與現(xiàn)有技術(shù)相比,具有以下的優(yōu)點(diǎn)和積極效 果:本發(fā)明中的模板是從訓(xùn)練數(shù)據(jù)集里提取出來(lái)的,因此對(duì)此類文本結(jié)構(gòu)化的準(zhǔn)確率較現(xiàn) 有的通用方法要高;本發(fā)明中提取的模板會(huì)被定期優(yōu)化,以適應(yīng)最新的數(shù)據(jù)結(jié)構(gòu)化需求。
      【附圖說(shuō)明】
      [0020] 圖1是本發(fā)明中病理文本層次結(jié)構(gòu)圖;
      [0021] 圖2是樣本名提取的數(shù)據(jù)流圖;
      [0022] 圖3是指標(biāo)名提取的數(shù)據(jù)流圖;
      [0023] 圖4是短句切分和指標(biāo)名提取的頂層數(shù)據(jù)流圖;
      [0024] 圖5是短句初步分類的數(shù)據(jù)流圖;
      [0025] 圖6是模板提取的數(shù)據(jù)流圖;
      [0026] 圖7是模板應(yīng)用的數(shù)據(jù)流圖。
      【具體實(shí)施方式】
      [0027] 下面結(jié)合具體實(shí)施例,進(jìn)一步闡述本發(fā)明。應(yīng)理解,這些實(shí)施例僅用于說(shuō)明本發(fā)明 而不用于限制本發(fā)明的范圍。此外應(yīng)理解,在閱讀了本發(fā)明講授的內(nèi)容之后,本領(lǐng)域技術(shù)人 員可以對(duì)本發(fā)明作各種改動(dòng)或修改,這些等價(jià)形式同樣落于本申請(qǐng)所附權(quán)利要求書(shū)所限定 的范圍。
      [0028] 本發(fā)明的實(shí)施方式涉及一種中文病理文本結(jié)構(gòu)化處理方法,包括以下步驟:(1) 從病理報(bào)告文本數(shù)據(jù)的樣本與指標(biāo)的層次結(jié)構(gòu)中提取出各個(gè)樣本所對(duì)應(yīng)的模板信息;(2) 對(duì)模板信息進(jìn)行提取,包括短句切分和指標(biāo)名提?。欢叹浞诸?;(3)對(duì)每個(gè)樣本結(jié)合分類結(jié) 果集合CLUSTER和短句集CLAUSE,計(jì)算指標(biāo)名列表中的每個(gè)指標(biāo)名在短句語(yǔ)料中的TF值、 IDF值和C-value值,篩選出TF值、IDF值和C-value值滿足閾值的指標(biāo)名,作為最終模板 中的成分。
      [0029] 病理報(bào)告文本數(shù)據(jù)主要包含如下信息(見(jiàn)表1):病人基本信息、肉眼所見(jiàn)、鏡下所 見(jiàn)、病理診斷。本方法是針對(duì)病理文本數(shù)據(jù)中的"肉眼所見(jiàn)"部分。
      [0030] 表1病理文本數(shù)據(jù)樣例
      [0033] 醫(yī)生書(shū)寫的病理文本一般都會(huì)遵循一定的書(shū)寫規(guī)范。如在病理文本的"肉眼所見(jiàn)" 字段中,一般會(huì)包含若干個(gè)樣本,針對(duì)其中某個(gè)樣本,又會(huì)有若干個(gè)指標(biāo)來(lái)描述,從而構(gòu)成 樣本與指標(biāo)的層次結(jié)構(gòu)(見(jiàn)圖1)。
      [0034]以表1中的病理文本數(shù)據(jù)為例,該例中的樣本名有十二指腸、腫塊、管壁樣物、膽 總管、膽囊、結(jié)節(jié)等;其中,十二指腸的指標(biāo)名有長(zhǎng)度、周徑、粘膜等。
      [0035] 通過(guò)本方法的處理,可以從病理文本數(shù)據(jù)的"肉眼所見(jiàn)"字段中提取出若干樣本分 別對(duì)應(yīng)的模板信息。仍以表1中的病理文本數(shù)據(jù)為例,部分樣本的模板樣例如表2所示。
      [0036]
      [0037] 表2樣本的模板樣例
      [0038] 模板提取主要包括3個(gè)關(guān)鍵步驟,具體有:
      [0039] 第一步為短句切分和指標(biāo)名提取。首先根據(jù)總結(jié)的規(guī)則,將一句病理文本切分成 若干句語(yǔ)義上獨(dú)立的短句。這里采用正則匹配的方法,當(dāng)病理文本中檢測(cè)到符合正則表達(dá) 式時(shí)進(jìn)行斷句,從而將病理文本切分成若干短句。正則表達(dá)式為:
      [0040]。另送,|,另送|另送|N[0|o]. {0,10}:|,找到I找到I。I.另送I ;|,另見(jiàn)I另 見(jiàn)I見(jiàn)
      [0041] 指標(biāo)名提取可以細(xì)分為兩個(gè)階段:
      [0042] 第一階段為樣本名的提取,如圖2所示,由于醫(yī)學(xué)病理報(bào)告的書(shū)寫規(guī)范要求,樣本 名一般出現(xiàn)在短句的第一個(gè)文本片段中。根據(jù)這個(gè)特性,再利用開(kāi)源的分詞工具,結(jié)合人體 組織器官詞庫(kù)以及總結(jié)的規(guī)律,對(duì)無(wú)關(guān)文本進(jìn)行過(guò)濾篩選,可以提取出每個(gè)短句對(duì)應(yīng)的樣 本名。
      [0043] 第二階段為指標(biāo)名的提取,如圖3所示,結(jié)合醫(yī)學(xué)病理報(bào)告的書(shū)寫特點(diǎn),可以整理 出4個(gè)特殊的詞庫(kù):顏色庫(kù)、質(zhì)地庫(kù)、形狀庫(kù)、狀態(tài)庫(kù)。將短句按標(biāo)點(diǎn)符號(hào)(這里主要為冒號(hào) 和逗號(hào))切分成若干語(yǔ)義上獨(dú)立的文本片段(每個(gè)文本片段包含一個(gè)"〈指標(biāo)名,指標(biāo)值 >"鍵值對(duì)或"〈null,指標(biāo)值 >"(指標(biāo)名缺省)鍵值對(duì)),將每個(gè)文本片段先用特殊詞庫(kù)匹 配和數(shù)量詞匹配進(jìn)行篩選,再對(duì)匹配失敗的文本片段用統(tǒng)計(jì)方法進(jìn)行處理。最后,通過(guò)將經(jīng) 過(guò)上述操作得到的鍵值對(duì)中的指標(biāo)名去重合并,可以得到每個(gè)短句對(duì)應(yīng)的若干指標(biāo)名。 [0044] 同時(shí),為了后期處理方便,此處給每個(gè)短句添加一個(gè)唯一的編號(hào)。
      [0045] 經(jīng)過(guò)以上兩個(gè)階段,每個(gè)短句從純文本描述表示轉(zhuǎn)變?yōu)?〈唯一短句編號(hào)c#,樣本 名sn,指標(biāo)名列表list〉"表示。圖4為短句切分和指標(biāo)名提取的頂層數(shù)據(jù)流圖。
      [0046] 第二步為短句分類。為使樣本的模板盡可能全面地覆蓋可能會(huì)出現(xiàn)的描述內(nèi)容, 需要先對(duì)短句進(jìn)行分類,將描述同一樣本的短句放到同一個(gè)分類中。短句分類算法的基本 思想是盡可能地將每個(gè)短句歸類到跟它有關(guān)聯(lián)的人體組織器官詞庫(kù)中的某一組織器官詞 下。同時(shí),該算法有個(gè)"副產(chǎn)品",就是最后被匹配上的組織器官詞都會(huì)有一個(gè)指標(biāo)名列表, 未匹配上詞庫(kù)的樣本名也會(huì)匯總為相應(yīng)的指標(biāo)名列表。
      [0047] 算法具體步驟如下:
      [0048] 1)先
      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1