一種基于知識庫的醫(yī)院信息搜索引擎及系統(tǒng)的制作方法

文檔序號：6613852閱讀：218來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：：一種基于知識庫的醫(yī)院信息搜索引擎及系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
：本發(fā)明涉及信息檢索和搜索引擎
技術(shù)領(lǐng)域：
，是一種基于知識庫的醫(yī)院垂直搜索引擎的實(shí)現(xiàn)。
背景技術(shù)：
：2007年7月，中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)在北京發(fā)布《第二十次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》，調(diào)查結(jié)果顯示，瀏覽新聞、搜索引擎、即時通信是網(wǎng)民經(jīng)常使用的三大網(wǎng)絡(luò)服務(wù)，三者的選擇比例分別為瀏覽新聞77.3%,搜索引擎74.8%，收發(fā)郵件69.8%，這三大網(wǎng)絡(luò)服務(wù)的選擇比例領(lǐng)先其后的第二陣營20個百分點(diǎn)以上。該中心2007年9月份發(fā)布了2007年中國搜索引擎市場調(diào)査報告，報告顯示搜索引擎用戶對搜索引擎的依賴性很高，每次上網(wǎng)都要用到多次搜索的用戶數(shù)接近一半。搜索引擎服務(wù)能成為最受歡迎的服務(wù)是因為它解決了用戶在浩瀚的互聯(lián)網(wǎng)海量信息中快速定位信息的瓶頸問題。但是，互聯(lián)網(wǎng)的信息量呈爆炸趨勢增長，幾年前全球式搜索引擎收錄的網(wǎng)頁量只有幾千萬頁，而現(xiàn)在已經(jīng)達(dá)到幾十億頁。數(shù)量增加帶來的是搜索服務(wù)的火熱。另一方面，也使傳統(tǒng)的綜合性搜索，如百度和Google的品質(zhì)下降，搜索引擎在搜集網(wǎng)絡(luò)信息上遠(yuǎn)趕不上網(wǎng)絡(luò)信息的增長速度，同時査詢的結(jié)果集是海量的，經(jīng)常是幾十萬筆的資料，看上去很好，想找到合適的結(jié)果，卻比較難，搜索結(jié)果里存在大量的重復(fù)信息和垃圾信息，用戶很難在短時間內(nèi)準(zhǔn)確地篩選出需要的內(nèi)容。國內(nèi)領(lǐng)先的IT服務(wù)集成商——賽迪網(wǎng)(ccidnet.com)，曾就搜索引擎使用習(xí)慣及IT搜索引擎市場前景進(jìn)行了調(diào)查，其分析顯示:網(wǎng)民在使用搜索引擎時，考慮的主要因素是"搜索速度快，其次是搜索信息準(zhǔn)確，第三是信息量大"。但"搜索速度慢，死鏈接太多、重復(fù)信息或不相關(guān)信息較多"是目前網(wǎng)民對搜索引擎最不滿意的地方。傳統(tǒng)的搜索引擎多屬于橫向的水平型搜索，在現(xiàn)有的技術(shù)水平基礎(chǔ)上，它在滿足搜索信息量大的同時卻難以兼顧搜索的準(zhǔn)確度與相關(guān)度。針對以上問題，專為搜索某一學(xué)科或主題的信息而產(chǎn)生的搜索工具，專門收錄某一方面、某一行業(yè)或某一主題的信息，對解決實(shí)際査詢問題要比搜索引擎門戶有效得多。如果用戶想獲得某一專業(yè)的信息，就可使用專業(yè)搜索引擎，如NorthCarolina大學(xué)計算機(jī)科學(xué)系和法學(xué)院聯(lián)合開發(fā)研制的LIBClient-IRISWeb系統(tǒng)可以用自然語言對網(wǎng)上的法律信息進(jìn)行全文檢索，使得用戶獲得全面高質(zhì)的法律專業(yè)信息的效率大大提高。目前中文專業(yè)搜索引擎有旅游搜索，數(shù)碼產(chǎn)品搜索，酒店搜索，房屋租賃搜索等，但是目前還沒有基于知識庫的醫(yī)療信息的搜索引擎。
發(fā)明內(nèi)容為了解決現(xiàn)有通用搜索引擎對于查詢醫(yī)療信息非結(jié)構(gòu)化，準(zhǔn)確率和相關(guān)性低等問題，本發(fā)明的目的是為搜索醫(yī)療信息的用戶提供一種新的搜索平臺，該平臺能夠為用戶提供高度結(jié)構(gòu)化，高度相關(guān)性和高度準(zhǔn)確性的醫(yī)療信息服務(wù)，為此本發(fā)明提供一種基于知識庫的醫(yī)療信息搜索引擎及系統(tǒng)。為了實(shí)現(xiàn)所述的目的，本發(fā)明的第一方面，提供基于知識庫的醫(yī)療信息搜索引擎系統(tǒng)，技術(shù)方案如下所述用戶端，與搜索引擎用戶端接口連接，用于將疾病名稱送入搜索引擎用戶端接口；搜索引擎用戶端接口，與査詢分解模塊連接，用于將疾病名稱信息送入查詢分解模塊；用于接收排序模塊的醫(yī)院排序結(jié)果和醫(yī)生信息；查詢分解模塊，與索引模塊連接，用于將分解后的疾病名稱信息送入索引模塊；索引模塊，分別與排序模塊和索引器連接，用于排序模塊輸入原始網(wǎng)頁庫中與疾病匹配的網(wǎng)頁內(nèi)容信息；用于接收索引器建立的索引信息；排序模塊，分別與醫(yī)療信息知識庫、索引模塊和搜索引擎用戶端接口連接，用于接收醫(yī)療信息知識庫的醫(yī)院排名信息和索引文件中與査詢詞相關(guān)的索引信息，用于輸出最后醫(yī)院排名信息和醫(yī)生信息；索引器，分別與原始醫(yī)療網(wǎng)頁庫和索引模塊連接，用于接收原始醫(yī)療網(wǎng)頁庫的網(wǎng)頁信息，用于輸出原始網(wǎng)頁庫中網(wǎng)頁的索引信息；醫(yī)療信息知識庫，分別與排序模塊和醫(yī)療評論信息庫連接，用于接收醫(yī)療評論信息庫中的評論信息，用于輸出醫(yī)院排名信息；醫(yī)療評論信息庫，分別與原始醫(yī)療網(wǎng)頁庫和醫(yī)療信息知識庫連接，用于接收原始醫(yī)療網(wǎng)頁庫的網(wǎng)頁信息，用于輸出醫(yī)療評論信息；原始醫(yī)療網(wǎng)頁庫，分別與醫(yī)療評論信息庫、爬蟲和索引器連接，用于存儲爬蟲抓取的原始醫(yī)療網(wǎng)頁，用于輸出原始醫(yī)療網(wǎng)頁信息；爬蟲，分別與萬維網(wǎng)和原始醫(yī)療網(wǎng)頁庫，用于接收需要抓取的網(wǎng)頁URL網(wǎng)址信息，用于輸出原始醫(yī)療網(wǎng)頁源代碼信息。優(yōu)選地，所述原始醫(yī)療網(wǎng)頁庫是對中文醫(yī)療健康論壇網(wǎng)站進(jìn)行目錄式抓取，構(gòu)建原始醫(yī)療網(wǎng)頁庫。優(yōu)選地，所述醫(yī)療評論信息庫基于RoadRunner算法對原始醫(yī)療網(wǎng)頁庫中的網(wǎng)頁進(jìn)行相關(guān)信息抽取，構(gòu)建醫(yī)療評論信息庫。優(yōu)選地，所述醫(yī)療知識庫是使用基于AHP的評價方法，以醫(yī)療評論屬性字段為評價標(biāo)準(zhǔn)，構(gòu)建醫(yī)療知識庫。為了實(shí)現(xiàn)所述的目的，本發(fā)明的第二方面，提供基于知識庫的醫(yī)療信息搜索引擎，步驟如下步驟S1:對中文醫(yī)療健康論壇網(wǎng)站進(jìn)行目錄式抓取，構(gòu)建原始醫(yī)療網(wǎng)頁庫；步驟S2:基于RoadRunner算法對原始醫(yī)療網(wǎng)頁庫中的網(wǎng)頁進(jìn)行相關(guān)信息抽取，主要提取對醫(yī)院、科室、醫(yī)生的評論信息，構(gòu)建醫(yī)療評論信息庫；步驟S3:使用詞頻統(tǒng)計和調(diào)查問巻的方法，對抽取的相關(guān)信息進(jìn)行醫(yī)療評論屬性字段提取，然后根據(jù)醫(yī)療評論的語義結(jié)構(gòu)特征提取觀點(diǎn)短語，最后進(jìn)行觀點(diǎn)短語傾向性分析，給出醫(yī)療評論是正面或是反面的分析結(jié)果；步驟S4:使用基于AHP的評價方法，以醫(yī)療評論屬性字段為評價標(biāo)準(zhǔn)，確定醫(yī)院、科室、醫(yī)生的排名，構(gòu)建醫(yī)療知識庫；步驟S5:根據(jù)知識庫對搜索結(jié)果進(jìn)行排序，并將高度結(jié)構(gòu)化和高度相關(guān)的最終結(jié)果信息提供給用戶。優(yōu)選地，所述信息抽取方法是基于相似頁面的中文醫(yī)療健康論壇網(wǎng)頁信息抽取算法。優(yōu)選地，所述基于相似頁面的信息抽取算法，通過比較中文醫(yī)療健康論壇網(wǎng)頁中字符串的不匹配和標(biāo)記的不匹配來歸納規(guī)則，所述規(guī)則用正則表達(dá)式的形式表示匹配醫(yī)療網(wǎng)頁中醫(yī)院名稱，科室名稱，疾病名稱，匹配醫(yī)療網(wǎng)頁中URL網(wǎng)址信息。優(yōu)選地，所述詞頻統(tǒng)計和調(diào)查問巻的方法，從醫(yī)療評論信息中抽取醫(yī)療評論屬性字段。優(yōu)選地，所述觀點(diǎn)短語的提取是基于醫(yī)療評論的語義結(jié)構(gòu)特征，利用知網(wǎng)對觀點(diǎn)短語進(jìn)行分析，從而判斷觀點(diǎn)短語的傾向性。優(yōu)選地，所述的對搜索結(jié)果進(jìn)行排序，根據(jù)知識庫中醫(yī)院、科室、醫(yī)生的排名結(jié)合基于相似度的排序結(jié)果，給出最終的排序結(jié)果。本發(fā)明的整體設(shè)計中有效的利用了醫(yī)療健康論壇中豐富的用戶對醫(yī)院、科室、醫(yī)生的評論信息，通過對這些評論信息的搜集、抽取、分析建立醫(yī)療信息知識庫，以醫(yī)療知識庫為指導(dǎo)，對搜索引擎基于相似度的排序結(jié)果進(jìn)行重排序，最后對最終的高度準(zhǔn)確和相關(guān)的排序結(jié)果以高度結(jié)構(gòu)化的形式提供給用戶，克服了通用搜索引擎的搜索結(jié)果非結(jié)構(gòu)化，相關(guān)度低，準(zhǔn)確度低的缺點(diǎn)。本發(fā)明巧妙的利用了用戶醫(yī)療評論信息，為用戶提供高度結(jié)構(gòu)化的醫(yī)療信息，提高了用戶查詢醫(yī)療信息相關(guān)度和準(zhǔn)確率。利用實(shí)驗表明這一方法能有效的提高搜索結(jié)果的準(zhǔn)確率和相關(guān)性。圖1是本發(fā)明基于知識庫的醫(yī)療信息搜索引擎總體流程圖2是本發(fā)明醫(yī)療信息抽取步驟流程圖3是本發(fā)明醫(yī)療知識庫構(gòu)建步驟流程圖4本發(fā)明基于知識庫的醫(yī)療信息搜索引擎總體框架具體實(shí)施例方式下面將結(jié)合附圖對本發(fā)明加以詳細(xì)說明，應(yīng)指出的是，所描述的實(shí)施例僅旨在便于對本發(fā)明的理解，而對其不起任何限定作用。為了實(shí)現(xiàn)本發(fā)明的方法，如果在單機(jī)實(shí)現(xiàn)，最好保證處理器主頻不小于2GHz，內(nèi)存不小于1G，可采用任何常用編程語言編寫。如圖1本發(fā)明基于知識庫的醫(yī)療信息搜索引擎系統(tǒng)總體框架圖所示用戶端l、搜索引擎用戶端接口2、查詢分解模塊3、索引模塊4、排序模塊5、索引器6、醫(yī)療信息知識庫7、醫(yī)療評論信息庫8、原始醫(yī)療網(wǎng)頁庫9、爬蟲IO、萬維網(wǎng)ll，其中用戶端l，與搜索引擎用戶端接口2連接，用于將疾病名稱送入搜索引擎用戶端接口2;搜索引擎用戶端接口2，與査詢分解模塊連3接，用于將疾病名稱信息送入查詢分解模塊3;用于接收排序模塊5的醫(yī)院排序結(jié)果和醫(yī)生伶自.I口'K、，査詢分解模塊3，與索引模塊4連接，用于將分解后的疾病名稱信息送入索引模塊4;索引模塊4，分別與排序模塊5和索引器6連接，用于對排序模塊5輸入原始醫(yī)療網(wǎng)頁庫9中與疾病匹配的網(wǎng)頁內(nèi)容信息；用于接收索引器6建立的索引信息；排序模塊5，分別與醫(yī)療信息知識庫7、索引模塊4和搜索引擎用戶端接口2連接，用于接收醫(yī)療信息知識庫7的醫(yī)院排名信息和索引模塊4文件中與查詢詞相關(guān)的索引信息，用于輸出最后醫(yī)院排名信息和醫(yī)生信息；索引器6，分別與原始醫(yī)療網(wǎng)頁庫9和索引模塊4連接，用于接收原始醫(yī)療網(wǎng)頁庫9的網(wǎng)頁信息，用于輸出原始醫(yī)療網(wǎng)頁庫9中網(wǎng)頁的索引信息；醫(yī)療信息知識庫7，分別與排序模塊5和醫(yī)療評論信息庫8連接，用于接收醫(yī)療評論信息庫8中的評論信息，用于輸出醫(yī)院排名信息；所述醫(yī)療信息知識庫7是使用基于AHP的評價方法，以醫(yī)療評論屬性字段為評價標(biāo)準(zhǔn)，構(gòu)建醫(yī)療知識庫。醫(yī)療評論信息庫8，分別與原始醫(yī)療網(wǎng)頁庫9和醫(yī)療信息知識庫8連接，用于接收原始醫(yī)療網(wǎng)頁庫9的網(wǎng)頁信息，用于輸出醫(yī)療評論信息信息；所述醫(yī)療評論信息庫8基于RoadRunner算法對原始醫(yī)療網(wǎng)頁庫中的網(wǎng)頁進(jìn)行相關(guān)信息抽取，構(gòu)建醫(yī)療評論信息庫。原始醫(yī)療網(wǎng)頁庫9，分別與醫(yī)療評論信息庫8、爬蟲10和索引器6連接，用于存儲爬蟲10抓取的原始醫(yī)療網(wǎng)頁，用于輸出原始醫(yī)療網(wǎng)頁信息；所述原始醫(yī)療網(wǎng)頁庫9是對中文醫(yī)療健康論壇網(wǎng)站進(jìn)行目錄式抓取，構(gòu)建原始醫(yī)療網(wǎng)頁庫。爬蟲10，分別與萬維網(wǎng)11和原始醫(yī)療網(wǎng)頁庫9，用于接收需要抓取的網(wǎng)頁URL網(wǎng)址信息，用于輸出原始醫(yī)療網(wǎng)頁源代碼信息。本發(fā)明提出的基于知識庫的醫(yī)療搜索引擎，總體流程如圖2所示，具體各步驟流程如圖3、4給出。K對中文醫(yī)療健康論壇網(wǎng)站進(jìn)行目錄式抓取，構(gòu)建原始醫(yī)療網(wǎng)頁庫9，因為本發(fā)明是針對醫(yī)療信息的搜索引擎，所以要抓取的目標(biāo)網(wǎng)頁主要來自醫(yī)療健康論壇，比如三九健康社區(qū)、好大夫在線等等。首先人為獲得這些網(wǎng)站的URL網(wǎng)址，用自己編寫的抓取工具對這些醫(yī)療健康論壇進(jìn)行抓取，將抓取的網(wǎng)頁存儲到原始醫(yī)療網(wǎng)頁9信息庫中。由于這些網(wǎng)站絕大多數(shù)都是醫(yī)療健康主題的信息，而且層次較少，所以采用寬度優(yōu)先抓取的策略。見圖3中步驟S1。由于網(wǎng)頁抓取已經(jīng)有許多成熟的方法，所以不屬于本發(fā)明強(qiáng)調(diào)的內(nèi)容。2、基于RoadRunner算法對原始醫(yī)療網(wǎng)頁庫9中的網(wǎng)頁進(jìn)行相關(guān)信息抽取，主要提取對醫(yī)院、科室、醫(yī)生的評論信息，構(gòu)建醫(yī)療評論信息庫8。我們發(fā)現(xiàn)對于同一個醫(yī)療健康論壇的不同網(wǎng)頁的結(jié)構(gòu)信息和網(wǎng)頁內(nèi)部標(biāo)記有很多相似之處，所以我們采用RoadRunner算法對原始網(wǎng)頁進(jìn)行信息抽取。如圖3中本發(fā)明醫(yī)療信息抽取步驟流程圖所示，具體的方法是步驟S21:首先從原始醫(yī)療網(wǎng)頁庫9中選擇同一論壇中有代表性的兩個網(wǎng)頁；請將下面內(nèi)容調(diào)整正確，因為我將字號放大為四號網(wǎng)頁源代碼l<tdwidth="8%"align一'center"〉內(nèi)科〈/td〉<tdwidth="23%"><aref="/faculty/DE4roiYGYZwOGIaCFVHDuJVht.htm"class="blue">風(fēng)濕免疫科〈/a〉〈spanclass="gmy"title^'共有29位大夫">(29)</span></td><tdwidth="23%"><ahre卜"/faculty/DE4roiYGYZwOGao國DwIIFQwlR.htm"class="blue">內(nèi)分泌科〈/aXspanclass="gmy"title二"共有45位大夫">(45)</span></td></tr〉網(wǎng)頁源代碼2<tdwidth="8%"align="center">內(nèi)科〈/td〉<tdwidth="23%"><ahre，7faculty/DE4roiYGYZw0imOyZJ9SvRJb8.htm"class="blue">腎病內(nèi)科〈/aXspanclass="gray"title二"共有22位大夫">(22)</span></td><tdwidth="23%"><3href="/faculty/DE4r08xQdKSLPwWxb52Duj49TpEn.htm"class="blue'>風(fēng)濕科〈/aXspanclass="gray"title^'共有4位大夫">(4)</span〉</td></tr>步驟S22:網(wǎng)頁源代碼l作為樣本；步驟S23:網(wǎng)頁源代碼2作為頁面包裝器；步驟S24:RoadRunner先把兩個輸入的頁面符號化，然后對兩個頁面的字符串和標(biāo)記進(jìn)行比較，通過字符串和標(biāo)記的不匹配來歸納規(guī)則，因為是相似頁面，字符串不匹配將表示這個字符串對應(yīng)于數(shù)據(jù)庫的某個字段；如果標(biāo)記不匹配，則先判斷是否存在迭代項，然后再判斷是否是可選項。內(nèi)容為網(wǎng)頁源代碼1和網(wǎng)頁源代碼2中深黑色字體部分，結(jié)構(gòu)部分為網(wǎng)頁源代碼1和網(wǎng)頁源代碼2中剩余部分。基于相似頁面的信息抽取算法，通過比較中文醫(yī)療健康論壇網(wǎng)頁中字符串的不匹配和標(biāo)記的不匹配來歸納規(guī)則，所述規(guī)則用現(xiàn)有技術(shù)的正則表達(dá)式的形式表示匹配醫(yī)療網(wǎng)頁中醫(yī)院名稱，科室名稱，疾病名稱，匹配醫(yī)療網(wǎng)頁中URL網(wǎng)址信息。步驟S25:由于人工選擇的兩個有代表性的樣本作為輸入，所以最后生成的規(guī)則有較好的健壯性，規(guī)則是用正則表達(dá)式的形式表示。步驟S26:得到用正則表達(dá)式表示的規(guī)則后，對原始醫(yī)療網(wǎng)頁庫9中剩下的網(wǎng)頁進(jìn)行信息抽取。步驟S27:抽取結(jié)果構(gòu)成醫(yī)療評論信息庫8。RoadRunner算法可以參照文章RoadRunner:TowardsAutomaticDataExtractionfromLargeWebSites。3、使用詞頻統(tǒng)計和調(diào)查問巻的方法，如圖4中本發(fā)明醫(yī)療信息知識庫7構(gòu)建步驟流程圖所示步驟S31:對醫(yī)療評論信息庫8進(jìn)行預(yù)處理；主要包括停用詞去除處理，預(yù)處理后的文檔，進(jìn)行詞性標(biāo)注，標(biāo)注結(jié)果如下，醫(yī)術(shù)/n水平/n:/w8.0/m分/q(/w較/d好/a)/w服務(wù)/vn態(tài)度/n:/w1.0/m分/q(/w較/d差/a)/w價格/n滿意度/n:/w3.0/m分/q(/w較/d差/a)/w水平/n不錯/a，/w價格/n昂貴/an，/w態(tài)度/n極/q差/a，/w完全/ad沒有/v醫(yī)德/n醫(yī)風(fēng)/n(/w主/ag指/v住院部/n)/w根本/d沒有/v毛/j主席/n時代/n的/u救死扶傷/i精神/n，/w—切/r向錢看/v;其中"/n"代表名詞，"/a"代表形容詞，如"態(tài)度/n"說明"態(tài)度"是一個名詞，"好/a"說明"好"是一個形容詞。步驟S32:對抽取的相關(guān)信息進(jìn)行醫(yī)療評論屬性字段提取；評論屬性字段提取，如圖4中步驟S32，使用中科院計算所漢語詞法分析系統(tǒng)，對標(biāo)記后的名詞和名詞詞組進(jìn)行詞頻統(tǒng)計，這樣做的原因是用戶醫(yī)療評論信息庫8中醫(yī)療評論屬性字段基本上是名詞或名詞短語，而且很多人都會從醫(yī)院的治療水平、服務(wù)質(zhì)量、價格滿意度等方面進(jìn)行評論，所以使用詞頻統(tǒng)計的方法可以從醫(yī)療評論信息庫8中提取出用戶醫(yī)療評論屬性字段。對提取出的用戶醫(yī)療評論屬性字段，結(jié)合調(diào)查問巻的結(jié)果從中選取有代表性的用戶醫(yī)療評論屬性字段，這些字段是治療水平、服務(wù)質(zhì)量、價格滿意度、環(huán)境滿意度步驟S33:提取觀點(diǎn)短語；下面進(jìn)行觀點(diǎn)詞的抽取，如圖4中步驟S33，由于評論一般由醫(yī)療評論屬性字段和觀點(diǎn)詞組成，所以我們抽取的模式是Adjective+Noun/Noims，即形容詞加名詞活名詞詞組。下面是我們抽取觀點(diǎn)詞的偽代碼INPUT醫(yī)療評論信息庫FOR用戶評論庫的每條評論信息IF(評論信息包括用戶醫(yī)療評論屬性字段:i提取用戶醫(yī)療評論屬性字段附近的形容詞作為觀點(diǎn)詞OUTPUT觀點(diǎn)詞+用戶醫(yī)療評論屬性字段觀點(diǎn)詞的提取方式和MinqingHu，BingLiu觀點(diǎn)類似，具體文獻(xiàn)見MiningandSummarizingCustomerReviews.步驟S34:最后進(jìn)行觀點(diǎn)短語傾向性分析；觀點(diǎn)傾向性分析，給出評論是正面或是反面的分析結(jié)果。如圖4中步驟S34，分析的方法主要基于知網(wǎng)(HowNet),從網(wǎng)站http:〃www.keenage.com/html/cindex.html下載HowNetSystem，"[吏用這個系統(tǒng)可以確定觀點(diǎn)詞的傾向性,使用方法可以參考該系統(tǒng)自帶的幫助文檔。步驟S35:基于AHP算法的排名；對評論傾向性分析后的結(jié)果使用基于ThomasLSatty的AHP算法來確定醫(yī)院排名，如圖4中步驟S35。參考文獻(xiàn)為圖書Whatistheanalytichierarchyprocess,該書ISBN為0-387-50084-7，具體方法如下所述首先建立兩兩比較值表，見表l:表1<table>tableseeoriginaldocumentpage14</column></row><table>然后根據(jù)調(diào)查問巻對治療水平、服務(wù)質(zhì)量、價格滿意度、環(huán)境滿意度四個指標(biāo)相對重要性進(jìn)行打分得到表2:表2<table>tableseeoriginaldocumentpage15</column></row><table>接著對醫(yī)院的治療水平、服務(wù)質(zhì)量、價格滿意度、環(huán)境滿意度進(jìn)行兩兩比較得到表3到表6。為了簡化，這里取甲、乙、丙三個醫(yī)院作為例子。表3<table>tableseeoriginaldocumentpage15</column></row><table>表5<table>tableseeoriginaldocumentpage16</column></row><table>表6<table>tableseeoriginaldocumentpage16</column></row><table>最后得到甲、乙、丙三個醫(yī)院總體排名見表7。計算公式是醫(yī)院排名二a"臺療水平+M服務(wù)質(zhì)量+^價格滿意度+c^環(huán)境滿意度公式1表7<table>tableseeoriginaldocumentpage16</column></row><table>從表7中我們可以得到排名，根據(jù)綜合排名信息構(gòu)建醫(yī)療信息知識庫7，如圖4中步驟S36。最后將原始醫(yī)療網(wǎng)頁庫9的原始醫(yī)療網(wǎng)頁建立倒排序索引，設(shè)計用戶端1與搜索引擎用戶端接口2，當(dāng)用戶查詢某一種疾病時，首先把疾病映射到某一科室，根據(jù)科室信息，將科室信息提交到搜索引擎，搜索引擎會返回相關(guān)結(jié)果，該結(jié)果按相似度排序，將搜索引擎返回的結(jié)果結(jié)合醫(yī)療信息知識庫7的信息，為用戶提供高準(zhǔn)確度、高相關(guān)性、高度結(jié)構(gòu)化的醫(yī)療信息。上面描述是用于實(shí)現(xiàn)本發(fā)明的實(shí)施例，本領(lǐng)域的技術(shù)人員應(yīng)該理解，在不脫離本發(fā)明的范圍的任何修改或局部替換，均屬于本發(fā)明權(quán)利要求來限定的范圍。權(quán)利要求1、一種基于知識庫的醫(yī)療信息搜索引擎系統(tǒng)，其特征在于，包括用戶端，與搜索引擎用戶端接口連接，用于將疾病名稱送入搜索引擎用戶端接口；搜索引擎用戶端接口，與查詢分解模塊連接，用于將疾病名稱信息送入查詢分解模塊；用于接收排序模塊的醫(yī)院排序結(jié)果和醫(yī)生信息；查詢分解模塊，與索引模塊連接，用于將分解后的疾病名稱信息送入索引模塊；索引模塊，分別與排序模塊和索引器連接，用于排序模塊輸入原始網(wǎng)頁庫中與疾病匹配的網(wǎng)頁內(nèi)容信息；用于接收索引器建立的索引信息；排序模塊，分別與醫(yī)療信息知識庫、索引模塊和搜索引擎用戶端接口連接，用于接收醫(yī)療信息知識庫的醫(yī)院排名信息和索引文件中與查詢詞相關(guān)的索引信息，用于輸出最后醫(yī)院排名信息和醫(yī)生信息；索引器，分別與原始醫(yī)療網(wǎng)頁庫和索引模塊連接，用于接收原始醫(yī)療網(wǎng)頁庫的網(wǎng)頁信息，用于輸出原始網(wǎng)頁庫中網(wǎng)頁的索引信息；醫(yī)療信息知識庫，分別與排序模塊和醫(yī)療評論信息庫連接，用于接收醫(yī)療評論信息庫中的評論信息，用于輸出醫(yī)院排名信息；醫(yī)療評論信息庫，分別與原始醫(yī)療網(wǎng)頁庫和醫(yī)療信息知識庫連接，用于接收原始醫(yī)療網(wǎng)頁庫的網(wǎng)頁信息，用于輸出醫(yī)療評論信息；原始醫(yī)療網(wǎng)頁庫，分別與醫(yī)療評論信息庫、爬蟲和索引器連接，用于存儲爬蟲抓取的原始醫(yī)療網(wǎng)頁，用于輸出原始醫(yī)療網(wǎng)頁信息；爬蟲，分別與萬維網(wǎng)和原始醫(yī)療網(wǎng)頁庫，用于接收需要抓取的網(wǎng)頁URL網(wǎng)址信息，用于輸出原始醫(yī)療網(wǎng)頁源代碼信息。2、根據(jù)權(quán)利要求1所述基于知識庫的醫(yī)療信息搜索引擎系統(tǒng)，其特征在于，所述原始醫(yī)療網(wǎng)頁庫是對中文醫(yī)療健康論壇網(wǎng)站進(jìn)行目錄式抓取，構(gòu)建原始醫(yī)療網(wǎng)頁庫。3、根據(jù)權(quán)利要求1所述基于知識庫的醫(yī)療信息搜索引擎系統(tǒng)，其特征在于，所述醫(yī)療評論信息庫基于RoadRunner算法對原始醫(yī)療網(wǎng)頁庫中的網(wǎng)頁進(jìn)行相關(guān)信息抽取，構(gòu)建醫(yī)療評論信息庫。4、根據(jù)權(quán)利要求1所述基于知識庫的醫(yī)療信息搜索引擎系統(tǒng)，其特征在于，所述醫(yī)療知識庫是使用基于AHP的評價方法，以醫(yī)療評論屬性字段為評價標(biāo)準(zhǔn)，構(gòu)建醫(yī)療知識庫。5、一種基于知識庫的醫(yī)療信息搜索引擎，其特征在于，步驟如下:步驟S1:對中文醫(yī)療健康論壇網(wǎng)站進(jìn)行目錄式抓取，構(gòu)建原始醫(yī)療網(wǎng)頁庫；步驟S2:基于RoadRunner算法對原始醫(yī)療網(wǎng)頁庫中的網(wǎng)頁進(jìn)行相關(guān)信息抽取，主要提取對醫(yī)院、科室、醫(yī)生的評論信息，構(gòu)建醫(yī)療評論信息庫；步驟S3:使用詞頻統(tǒng)計和調(diào)査問巻的方法，對抽取的相關(guān)信息進(jìn)行醫(yī)療評論屬性字段提取，然后根據(jù)醫(yī)療評論的語義結(jié)構(gòu)特征提取觀點(diǎn)短語，最后進(jìn)行觀點(diǎn)短語傾向性分析，給出醫(yī)療評論是正面或是反面的分析結(jié)果；步驟S4:使用基于AHP的評價方法，以醫(yī)療評論屬性字段為評價標(biāo)準(zhǔn)，確定醫(yī)院、科室、醫(yī)生的排名，構(gòu)建醫(yī)療知識庫；步驟S5:根據(jù)知識庫對搜索結(jié)果進(jìn)行排序，并將高度結(jié)構(gòu)化和高度相關(guān)的最終結(jié)果信息提供給用戶。6、如權(quán)利要求5所述基于知識庫的醫(yī)療信息搜索引擎，其特征在于，所述信息抽取方法是基于相似頁面的中文醫(yī)療健康論壇網(wǎng)頁信息抽取算法。7、如權(quán)利要求6所述基于知識庫的醫(yī)療搜索引擎，其特征在于，所述基于相似頁面的信息抽取算法，通過比較中文醫(yī)療健康論壇網(wǎng)頁中字符串的不匹配和標(biāo)記的不匹配來歸納規(guī)則。8、如權(quán)利要求5所述基于知識庫的醫(yī)療搜索信息引擎，其特征在于，所述詞頻統(tǒng)計和調(diào)查問巻的方法，從醫(yī)療評論信息中抽取醫(yī)療評論屬性字段。9、如權(quán)利要求5所述基于知識庫的醫(yī)療信息搜索引擎，其特征在于，所述觀點(diǎn)短語的提取是基于醫(yī)療評論的語義結(jié)構(gòu)特征，利用知網(wǎng)對觀點(diǎn)短語進(jìn)行分析，從而判斷觀點(diǎn)短語的傾向性。10、如權(quán)利要求5所述基于知識庫的醫(yī)療信息搜索引擎，其特征在于，所述的對搜索結(jié)果進(jìn)行排序，根據(jù)知識庫中醫(yī)院、科室、醫(yī)生的排名結(jié)合基于相似度的排序結(jié)果，給出最終的排序結(jié)果。全文摘要本發(fā)明基于知識庫的醫(yī)療搜索引擎及系統(tǒng)，抓取中文醫(yī)療健康目錄構(gòu)建原始醫(yī)療網(wǎng)頁庫；對原始醫(yī)療網(wǎng)頁庫中的網(wǎng)頁進(jìn)行相關(guān)信息抽取，提取對醫(yī)院、科室、醫(yī)生的評論信息，構(gòu)建醫(yī)療評論信息庫；使用詞頻統(tǒng)計和調(diào)查問卷，對抽取的相關(guān)信息進(jìn)行醫(yī)療評論屬性字段提取，提取觀點(diǎn)短語，觀點(diǎn)短語傾向性分析，給出評論評論信息是正面或是反面的分析結(jié)果，確定醫(yī)院、科室、醫(yī)生的排名；根據(jù)醫(yī)療知識庫對搜索結(jié)果進(jìn)行排序，將高度結(jié)構(gòu)化和高度相關(guān)的信息提供給用戶。本發(fā)明針對通用搜索引擎結(jié)果信息是非結(jié)構(gòu)化、相關(guān)度和準(zhǔn)確度低等缺點(diǎn)，構(gòu)建醫(yī)療知識庫，為用戶提供高度結(jié)構(gòu)化的醫(yī)療信息，提高用戶查詢醫(yī)療信息相關(guān)度和準(zhǔn)確率，能有效提高搜索結(jié)果的準(zhǔn)確率和召回率。文檔編號G06F19/00GK101441636SQ200710177798公開日2009年5月27日申請日期2007年11月21日優(yōu)先權(quán)日2007年11月21日發(fā)明者戴汝為,李秋丹,王春恒,繆慶亮,耿光剛申請人:中國科學(xué)院自動化研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：戴汝為;繆慶亮;李秋丹;耿光剛;王春恒
技術(shù)所有人：中國科學(xué)院自動化研究所
我是此專利的發(fā)明人

上一篇：一種網(wǎng)址導(dǎo)航的方法和系統(tǒng)的制作方法
上一篇：一種文摘方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

搜索引擎系統(tǒng)相關(guān)技術(shù)

搜索引擎系統(tǒng)源碼相關(guān)技術(shù)

搜索引擎系統(tǒng)架構(gòu)相關(guān)技術(shù)

搜索引擎和推薦系統(tǒng)相關(guān)技術(shù)

商品搜索引擎系統(tǒng)相關(guān)技術(shù)

搜索引擎競價排名系統(tǒng)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于知識庫的醫(yī)院信息搜索引擎及系統(tǒng)的制作方法