国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于Hadoop的智慧醫(yī)療數(shù)據(jù)管理方法

      文檔序號:6399695閱讀:229來源:國知局
      專利名稱:基于Hadoop的智慧醫(yī)療數(shù)據(jù)管理方法
      技術領域
      本發(fā)明涉及一種數(shù)據(jù)管理存儲和查詢方法,尤其是一種基于Hadoop的智慧醫(yī)療數(shù)據(jù)管理方法。
      背景技術
      近年來物聯(lián)網(wǎng)的興起帶來了信息產(chǎn)業(yè)的第三次浪潮,在智能交通、智能物流、食品溯源、公共安全、城市智能化建設等領域得到了應用發(fā)展,其中智慧醫(yī)療是也一個重要的應用領域。智慧醫(yī)療利用先進的物聯(lián)網(wǎng)、云計算技術,實現(xiàn)患者與醫(yī)務人員、醫(yī)療機構、醫(yī)療設備之間的互動,實現(xiàn)“小病在社區(qū),大病進醫(yī)院,康復回社區(qū)”的居民就診就醫(yī)模式。隨著醫(yī)療信息化的發(fā)展以及數(shù)字化醫(yī)療設備的廣泛使用,醫(yī)療數(shù)據(jù)呈海量增長,醫(yī)療數(shù)據(jù)類型豐富、結構復雜,醫(yī)療數(shù)據(jù)管理面臨巨大挑戰(zhàn)。智慧醫(yī)療需要管理的數(shù)據(jù)存在如下幾類:
      1.血壓、血糖、體溫、血氧、脈搏、心率、心電圖等,以及用戶基本信息,用戶包括病人和醫(yī)生,病人基本信息包括姓名、年齡、性別、聯(lián)系方式、身份證號、病史等,醫(yī)生基本信息包括姓名、所在醫(yī)院、科室、主治專長等。2.以大文件形式存在的醫(yī)療數(shù)據(jù),包括內窺鏡視頻流、B超視頻流、CT視頻流、符合DIC0M3格式的醫(yī)學影像圖片、數(shù)字病歷、醫(yī)生開出的醫(yī)療診斷報告,以及醫(yī)生與病人在遠程診斷時生成的在線交流互動的視音頻等。目前,醫(yī)療數(shù)據(jù)的管理主要存在如下問題:
      1.醫(yī)療數(shù)據(jù)的數(shù)據(jù)量大、類型豐富,存儲成本不斷增加。隨著信息化技術的應用,醫(yī)療數(shù)據(jù)數(shù)量和種類迅速增加;同時,醫(yī)療數(shù)據(jù)還需要越來越長的保存期,患者的病歷可能要保存70至80年,甚至更長,醫(yī)療數(shù)據(jù)的存儲消費速度加快,對空間的持續(xù)需求成本不斷增加。目前,主要的存儲方式包括集中存儲方式和分布式存儲方式,集中存儲方式較易管理,但成本高、可拓展性差、性能有限;而分布式存儲方式可拓展性好、成本低、性能較好,但不易管理。2.醫(yī)療數(shù)據(jù)的安全性低。醫(yī)療數(shù)據(jù)一般保存在本地的存儲系統(tǒng)中,沒有完善的備份體系,一旦存儲系統(tǒng)的安全性出現(xiàn)問題或者本地存儲設備出現(xiàn)問題,將導致醫(yī)療數(shù)據(jù)永久丟失,無法獲取。3.醫(yī)療數(shù)據(jù)難以共享。病人去醫(yī)院就診的醫(yī)療數(shù)據(jù)、遠程醫(yī)療會診的診療信息、用戶的私有健康檔案信息不能被隨時隨地獲取并作為一種服務供有權限的用戶獲取,難以共享以致重復檢驗。醫(yī)療數(shù)據(jù)存放在醫(yī)院、社區(qū)診所或者用戶本地服務器中,從外面無法訪問,病人就診時,累積下來的醫(yī)療數(shù)據(jù)無法獲取,無法提供參考。

      發(fā)明內容
      本發(fā)明的目的是克服現(xiàn)有技術中存在的不足,提供一種基于Hadoop的智慧醫(yī)療數(shù)據(jù)管理方法,將醫(yī)療數(shù)據(jù)分為結構化數(shù)據(jù)和非結構化數(shù)據(jù)進行存取,存儲使用了 Hadoop集群,存儲容量大,存儲擴展性好,安全性高;并且存儲的醫(yī)療數(shù)據(jù)可以供用戶查詢獲取,滿足了病人用戶和醫(yī)生用戶對數(shù)據(jù)查詢、獲取、存儲等各種要求。本發(fā)明采用的技術方案是:一種基于Hadoop的智慧醫(yī)療數(shù)據(jù)管理方法,包括醫(yī)療數(shù)據(jù)的存儲方法和查詢獲取方法,所述醫(yī)療數(shù)據(jù)的存儲方法分為非結構化數(shù)據(jù)存儲方法和結構化數(shù)據(jù)存儲方法;所述醫(yī)療數(shù)據(jù)的查詢獲取方法分為非結構化數(shù)據(jù)查詢獲取方法和結構化數(shù)據(jù)查詢獲取方法;所述非結構化數(shù)據(jù)存儲方法包括以下步驟:
      步驟101,用戶將需要上傳的非結構化數(shù)據(jù)重命名,非結構化數(shù)據(jù)的文件名以用戶名_時間_醫(yī)療項目名稱的方式命名;若存在多個文件名相同的情況,則在已有的文件名基礎上加編號;
      步驟102,用戶訪問非結構化數(shù)據(jù)存取接口,向云存儲平臺提出非結構化數(shù)據(jù)存儲請
      求;
      步驟103,用戶上傳非結構化數(shù)據(jù)的文件;
      步驟104,云存儲平臺收到存儲請求,調用非結構化數(shù)據(jù)存取API,將上傳的非結構化數(shù)據(jù)存儲至中轉服務器中以該用戶名_時間命名的文件夾目錄下;
      步驟105,初始化Hadoop集群的分布式文件系統(tǒng)HDFS,查詢該HDFS系統(tǒng)中是否存在以該用戶名命名的目錄,若存在則轉往步驟107,否則轉往步驟106 ;
      步驟106,在分布式文件系統(tǒng)HDFS中創(chuàng)建以該用戶名命名的新文件夾目錄;
      步驟107,在以該用戶名命名的目錄下創(chuàng)建三個子目錄,分別為/image、/video、/file ;
      步驟108,依次讀取中轉服務器中以該用戶名_時間命名的目錄下的非結構化數(shù)據(jù)的文件,解析其文件特征,確定文件類型;若為視音頻,則轉往步驟109 ;若為圖片,則轉往步驟110,;若為文檔,則轉往步驟111 ;
      步驟109,直接調用HDFS的API接口將視音頻類型的文件上傳至HDFS中的/用戶名/video/時間的目錄下;
      步驟110,先將該圖片轉換成健值對key-value的形式,寫入一個單獨的S文件數(shù)據(jù)流中,S文件命名為用戶名_時間_醫(yī)療項目,繼續(xù)讀取下一個文件,若為圖片同樣寫入該S文件數(shù)據(jù)流中,將所有圖片采用Hadoop的SequenceFile文件格式先合并成一個S文件,調用HDFS的API接口將S文件上傳至HDFS中的/用戶名/image/時間的目錄下;
      步驟111,調用HDFS的API接口將文檔類型的文件上傳至HDFS中的/用戶名/file/時間的目錄下;
      所述結構化數(shù)據(jù)存儲方法包括以下步驟:
      步驟201,用戶將結構化數(shù)據(jù)按照事先定義好的XML格式進行保存;
      步驟202,用戶訪問結構化數(shù)據(jù)存取接口,向云存儲平臺提出結構化數(shù)據(jù)存儲請求; 步驟203,用戶上傳結構化數(shù)據(jù)的XML文檔;
      步驟204,云存儲平臺收到存儲請求,解析XML文檔,并調用結構化數(shù)據(jù)存取API,將獲取的結構化數(shù)據(jù)存儲在面向對象數(shù)據(jù)結構中;
      步驟205,對每個獲取的結構化數(shù)據(jù)進行合法性驗證,若驗證成功,轉往步驟207,則將其保存在關系型數(shù)據(jù)庫中;若驗證不成功,則轉往步驟206 ;
      步驟206,向用戶發(fā)送錯誤提醒信息,隨后結束存儲; 步驟207,將通過合法性驗證的結構化數(shù)據(jù)保存在關系型數(shù)據(jù)庫中;
      步驟208,每隔一段預設時間間隔,將關系型數(shù)據(jù)庫中的數(shù)據(jù)導出,形成導出文件,導出文件以時間_數(shù)據(jù)表名_S_D命名;
      步驟209,調用HDFS的API接口將導出文件保存至HDFS中的S_D/數(shù)據(jù)表名/時間目錄下;
      所述非結構化數(shù)據(jù)查詢獲取方法包括以下步驟:
      步驟301,用戶訪問非結構化數(shù)據(jù)存取接口,調用云存儲平臺提供的非結構化數(shù)據(jù)存取服務,向云存儲平臺發(fā)出數(shù)據(jù)讀取請求;
      步驟302,云存儲平臺提取數(shù)據(jù)讀取請求中的用戶名信息,在中轉服務器中創(chuàng)建以該用戶名命名的文件夾;
      步驟303,云存儲平臺根據(jù)數(shù)據(jù)讀取請求中的要求從HDFS中讀取相關數(shù)據(jù),將其保存在步驟302中在中轉服務器中創(chuàng)建的文件夾下,等待用戶提取;
      步驟304,用戶從步驟302中創(chuàng)建的文件夾下提取相關數(shù)據(jù);
      所述結構化數(shù)據(jù)查詢獲取方法包括以下步驟:
      步驟401,用戶訪問結構化數(shù)據(jù)存取接口,調用云存儲平臺提供的結構化數(shù)據(jù)存取服務,向云存儲平臺發(fā)出數(shù)據(jù)讀取請求;
      步驟402,云存儲平臺提取數(shù)據(jù)讀取請求中的用戶名、時間信息;
      步驟403,判斷時間的遠近,若時間在預設時間間隔內,則轉往步驟405,若時間在預設時間間隔以前,則轉往步驟404 ;
      步驟404,從Hadoop集群的HDFS中/S_D目錄下查找符合請求信息的文件數(shù)據(jù),將該文件導入到關系型數(shù)據(jù)庫中;
      步驟405,從關系型數(shù)據(jù)庫中查找符合要求的相關數(shù)據(jù),返回給用戶。本發(fā)明的優(yōu)點:醫(yī)療數(shù)據(jù)管理的成本得到很大程度的降低,醫(yī)療數(shù)據(jù)的存儲管理可靠性得到提高,醫(yī)療數(shù)據(jù)的存儲擴展性好。優(yōu)化了對圖片的存儲方式。醫(yī)療數(shù)據(jù)可以查詢共享。近期的結構化數(shù)據(jù)首先保存在關系型數(shù)據(jù)庫中,提高了訪問相關數(shù)據(jù)的實時性,而將時間長的關系型數(shù)據(jù)庫中數(shù)據(jù)定期轉換成文件保存至HDFS中,實現(xiàn)結構化數(shù)據(jù)的分布式存儲,達到高可靠性。


      圖1為本發(fā)明的智慧醫(yī)療數(shù)據(jù)管理系統(tǒng)體系結構示意圖。圖2為本發(fā)明的非結構化數(shù)據(jù)存儲方法的流程圖。圖3為本發(fā)明的結構化數(shù)據(jù)存儲方法的流程圖。圖4為本發(fā)明的非結構化數(shù)據(jù)查詢獲取方法的流程圖。圖5為本發(fā)明的結構化數(shù)據(jù)查詢獲取方法的流程圖。圖6為本發(fā)明的實施例中搭建的Hadoop集群部署圖。
      具體實施例方式下面結合具體附圖和實施例對本發(fā)明作進一步說明。本發(fā)明提出了一種基于Hadoop的智慧醫(yī)療數(shù)據(jù)的管理方法,用于管理結構化數(shù)據(jù)和包含視音頻、圖片、文檔等多種類型的非結構化數(shù)據(jù),以滿足用戶對醫(yī)療數(shù)據(jù)查詢獲取、存儲等各種要求?;贖adoop的智慧醫(yī)療數(shù)據(jù)管理方法包括醫(yī)療數(shù)據(jù)的存儲方法和查詢獲取方法,方法的實現(xiàn)依托于基于Hadoop的云存儲平臺。該云存儲平臺實現(xiàn)的功能包括非結構化數(shù)據(jù)的存取和結構化數(shù)據(jù)的存取。所述非結構化數(shù)據(jù)主要指以大文件形式存在的醫(yī)療數(shù)據(jù),包括內窺鏡視頻流、B超視頻流、CT視頻流、符合DIC0M3格式的醫(yī)學影像圖片、數(shù)字病歷、醫(yī)生開出的醫(yī)療診斷報告,以及醫(yī)生與病人在遠程診斷時生成的在線交流互動的視音頻等。非結構化數(shù)據(jù)分類為視音頻、圖片、文檔等類型。非結構化數(shù)據(jù)主要的特征是呈爆炸性增長、在最初創(chuàng)建的兩周內經(jīng)常被訪問而之后很少訪問、需要長時間保存、在多個用戶之間共享、對延遲不敏感。所述結構化數(shù)據(jù)主要指有一定結構、可以劃分固定的基本組成要素、可用二維邏輯表來表現(xiàn)的醫(yī)療數(shù)據(jù),包括血壓、血糖、體溫、血氧、脈搏、心率、心電圖等,還包括用戶基本信息,用戶包括病人和醫(yī)生,病人基本信息包括姓名、年齡、性別、聯(lián)系方式、身份證號、病史等,醫(yī)生基本信息包括姓名、所在醫(yī)院、科室、主治專長等。結構化數(shù)據(jù)主要的特征是能夠用關系型數(shù)據(jù)庫進行存儲、數(shù)據(jù)量增長較快、在多個用戶之間共享、對延遲要求較為高。如圖1所示,
      非結構化數(shù)據(jù)的存取功能利用云存儲平臺的非結構化醫(yī)療數(shù)據(jù)云存儲模塊實現(xiàn),采用Hadoop集群存儲大文件(非結構化數(shù)據(jù)),實現(xiàn)大文件的分布式存儲。通過調用Hadoop提供的API接口實現(xiàn)與Hadoop集群的分布式文件系統(tǒng)HDFS的交互,包括將數(shù)據(jù)保存至分布式文件系統(tǒng)中、從分布式文件系統(tǒng)中查詢相關數(shù)據(jù)。Hadoop集群包括一個名稱節(jié)點Namenode和多個數(shù)據(jù)節(jié)點Datanode,數(shù)據(jù)節(jié)點可以無限制擴充,名稱節(jié)點和多個數(shù)據(jù)節(jié)點之間通過網(wǎng)絡互聯(lián)。非結構化醫(yī)療數(shù)據(jù)云存儲模塊提供中轉服務器,暫時保存用戶上傳的數(shù)據(jù)和用戶需要讀取的數(shù)據(jù)。非結構化醫(yī)療數(shù)據(jù)云存儲模塊提供非結構化數(shù)據(jù)存取接口,利用Restful Webservice技術將所述非結構化數(shù)據(jù)存取接口發(fā)布成非結構化數(shù)據(jù)存取服務,實現(xiàn)跨平臺數(shù)據(jù)的交換。結構化數(shù)據(jù)的存取功能利用云存儲平臺的結構化醫(yī)療數(shù)據(jù)云存儲模塊實現(xiàn)。針對結構化數(shù)據(jù)的特征,首先采用關系型數(shù)據(jù)庫存儲,同時,隨著數(shù)據(jù)量的增長,每隔一段時間(預設時間間隔),將關系型數(shù)據(jù)庫中數(shù)據(jù)轉換成文檔,保存至Hadoop集群上,清空關系型數(shù)據(jù)庫中相關記錄。結構化醫(yī)療數(shù)據(jù)云存儲模塊提供結構化數(shù)據(jù)存取接口,利用SOAPWebservice技術將所述結構化數(shù)據(jù)存取接口發(fā)布成結構化數(shù)據(jù)存取服務。所述醫(yī)療數(shù)據(jù)的存儲方法分為非結構化數(shù)據(jù)存儲方法和結構化數(shù)據(jù)存儲方法。非結構化數(shù)據(jù)存儲方法如圖2所示,包括以下步驟:
      步驟101,用戶將需要上傳的非結構化數(shù)據(jù)重命名,非結構化數(shù)據(jù)的文件名以用戶名_時間_醫(yī)療項目名稱的方式命名;若存在多個文件名相同的情況,則在已有的文件名基礎上加編號;
      步驟102,用戶訪問非結構化數(shù)據(jù)存取接口,向云存儲平臺提出非結構化數(shù)據(jù)存儲請
      求;
      步驟103,用戶上傳非結構化數(shù)據(jù)的文件;
      步驟104,云存儲平臺收到存儲請求,調用非結構化數(shù)據(jù)存取API,將上傳的非結構化數(shù)據(jù)存儲至中轉服務器中以該用戶名_時間命名的文件夾目錄下;
      步驟105,初始化Hadoop集群的分布式文件系統(tǒng)HDFS,查詢該HDFS系統(tǒng)中是否存在以該用戶名命名的目錄,若存在則轉往步驟107,否則轉往步驟106 ;
      步驟106,在分布式文件系統(tǒng)HDFS中創(chuàng)建以該用戶名命名的新文件夾目錄;
      步驟107,在以該用戶名命名的目錄下創(chuàng)建三個子目錄,分別為/image、/video、/file ;
      步驟108,依次讀取中轉服務器中以該用戶名_時間命名的目錄下的非結構化數(shù)據(jù)的文件,解析其文件特征,確定文件類型;若為視音頻,則轉往步驟109 ;若為圖片,則轉往步驟110,;若為文檔,則轉往步驟111 ;
      步驟109,直接調用HDFS的API接口將視音頻類型的文件上傳至HDFS中的/用戶名/video/時間的目錄下;
      步驟110,先將該圖片轉換成健值對key-value的形式(key為原文件名,value為文件內容),寫入一個單獨的S文件數(shù)據(jù)流中,S文件命名為用戶名_時間_醫(yī)療項目,繼續(xù)讀取下一個文件,若為圖片同樣寫入該S文件數(shù)據(jù)流中,將所有圖片采用Hadoop的SequenceFile文件格式先合并成一個S文件,調用HDFS的API接口將S文件上傳至HDFS中的/用戶名/image/時間的目錄下;
      步驟111,調用HDFS的API接口將文檔類型的文件上傳至HDFS中的/用戶名/file/時間的目錄下。結構化數(shù)據(jù)存儲方法如圖3所示,包括以下步驟:
      步驟201,用戶將結構化數(shù)據(jù)按照事先定義好的XML格式進行保存;
      步驟202,用戶訪問結構化數(shù)據(jù)存取接口,向云存儲平臺提出結構化數(shù)據(jù)存儲請求; 步驟203,用戶上傳結構化數(shù)據(jù)的XML文檔;
      步驟204,云存儲平臺收到存儲請求,解析XML文檔,并調用結構化數(shù)據(jù)存取API,將獲取的結構化數(shù)據(jù)存儲在面向對象數(shù)據(jù)結構中;
      步驟205,對每個獲取的結構化數(shù)據(jù)進行合法性驗證,若驗證成功,轉往步驟207,則將其保存在關系型數(shù)據(jù)庫中;若驗證不成功,則轉往步驟206 ;
      步驟206,向用戶發(fā)送錯誤提醒信息,隨后結束存儲;
      步驟207,將通過合法性驗證的結構化數(shù)據(jù)保存在關系型數(shù)據(jù)庫中;
      步驟208,每隔一段預設時間間隔,將關系型數(shù)據(jù)庫中的數(shù)據(jù)導出,形成導出文件,導出文件以時間_數(shù)據(jù)表名_S_D命名;(S_D是名字的一部分,意思就是結構化數(shù)據(jù))
      步驟209,調用HDFS的API接口將導出文件保存至HDFS中的S_D/數(shù)據(jù)表名/時間目錄下。所述醫(yī)療數(shù)據(jù)的查詢獲取方法分為非結構化數(shù)據(jù)查詢獲取方法和結構化數(shù)據(jù)查詢獲取方法。非結構化數(shù)據(jù)查詢獲取方法如圖4所示,包括以下步驟:
      步驟301,用戶訪問非結構化數(shù)據(jù)存取接口,調用云存儲平臺提供的非結構化數(shù)據(jù)存取服務,向云存儲平臺發(fā)出數(shù)據(jù)讀取請求;請求參數(shù)包括用戶名、時間、醫(yī)療項目等;
      步驟302,云存儲平臺提取數(shù)據(jù)讀取請求中的用戶名信息,在中轉服務器中創(chuàng)建以該用戶名命名的文件夾; 步驟303,云存儲平臺根據(jù)數(shù)據(jù)讀取請求中的要求從HDFS中讀取相關數(shù)據(jù),將其保存在步驟302中在中轉服務器中創(chuàng)建的文件夾下,等待用戶提?。?br> 步驟304,用戶從步驟302中創(chuàng)建的文件夾下提取相關數(shù)據(jù)。結構化數(shù)據(jù)查詢獲取方法如圖5所示,包括以下步驟:
      步驟401,用戶訪問結構化數(shù)據(jù)存取接口,調用云存儲平臺提供的結構化數(shù)據(jù)存取服務,向云存儲平臺發(fā)出數(shù)據(jù)讀取請求;
      步驟402,云存儲平臺提取數(shù)據(jù)讀取請求中的用戶名、時間信息;
      步驟403,判斷時間的遠近,若時間在預設時間間隔內,則轉往步驟405,若時間在預設時間間隔以前,則轉往步驟404 ;
      步驟404,從Hadoop集群的HDFS中/S_D目錄下查找符合請求信息的文件數(shù)據(jù),將該文件導入到關系型數(shù)據(jù)庫中;
      步驟405,從關系型數(shù)據(jù)庫中查找符合要求的相關數(shù)據(jù),返回給用戶。本發(fā)明提出的基于Hadoop的智慧醫(yī)療數(shù)據(jù)的管理方法,是基于Hadoop集群所具有的優(yōu)點出發(fā)的。第一,Hadoop集群可能是由成百上千的服務器組成,構建在大規(guī)模廉價機器上的分布式文件系統(tǒng)集群,數(shù)據(jù)管理的成本得到很大程度的降低。第二,HDFS副本的存放策略也是很有講究,默認的副本個數(shù)為3,如一個副本放在本地機架的一個數(shù)據(jù)節(jié)點,第二個副本放在同一機架的另一數(shù)據(jù)節(jié)點,第三個副本放在其他機架上的數(shù)據(jù)節(jié)點,這樣可以最大限度地防止因服務器故障導致的副本的丟失;同時,HDFS具有錯誤檢查和快速自動恢復的能力,任何一個數(shù)據(jù)節(jié)點的失效,都能自動將該數(shù)據(jù)節(jié)點的數(shù)據(jù)恢復存儲在其它節(jié)點上,如此,數(shù)據(jù)的存儲管理可靠性得到提高。第三,Hadoop的設計理念是針對大文件進行優(yōu)化的,其默認的數(shù)據(jù)塊大小為64MB,而醫(yī)療數(shù)據(jù)中的很多圖片資料圖像大小較小,但一次拍攝產(chǎn)生的圖片數(shù)量較多,如果直接將這些大量的小文件存儲在HDFS文件系統(tǒng)中,過多的小文件將導致HDFS的名稱節(jié)點Namenode內存消耗過大,降低整個集群的性能,本發(fā)明提出的數(shù)據(jù)管理方法采用Hadoop的SequenceFile文件格式,先將圖片合成一個文件,再存儲到HDFS中是比較合理的。第四,本發(fā)明提出的數(shù)據(jù)管理方法中非結構化數(shù)據(jù)存取服務采用Restful Webservice實現(xiàn),而結構化數(shù)據(jù)存取服務采用SOAP Webservice實現(xiàn),相對于SOAPWebservice的成熟度、安全性較高,Restful Webservice是簡單的多的一種輕量級Web服務,在調用相應服務時需要解析的時間降低,提高其可用性。第五,針對結構化數(shù)據(jù)首先將其保存在關系型數(shù)據(jù)庫中,提高訪問相關數(shù)據(jù)的實時性,而將關系型數(shù)據(jù)庫中數(shù)據(jù)定期轉換成文件保存至HDFS中,實現(xiàn)結構化數(shù)據(jù)的分布式存儲,達到高可靠性。以下為幾個具體的實施例。實施例一:用戶username在時間time上傳100幅CT圖片,此例描述非結構化數(shù)據(jù)存儲方法,其具體步驟如下:
      (O以用戶名_時間_醫(yī)療項目名稱_[編號]的格式修改文件名名稱,各文件名分別
      為 username_time_CT_001、username_time_CT_002、username_time_CT_003......username_
      time_CT_100。用戶訪問非結構化數(shù)據(jù)存取接口,調用云存儲平臺提供的非結構化數(shù)據(jù)存取服務,向云存儲平臺提出非結構化數(shù)據(jù)存儲請求。(2)云存儲平臺將上傳的數(shù)據(jù)存儲至中轉服務器中以username_time文件夾目錄下。同時初始化Hadoop分布式文件系統(tǒng)HDFS,查詢該系統(tǒng)中是否存在/username目錄,若存在則進行(3),否則在HDFS系統(tǒng)中創(chuàng)建/username目錄。(3)在系統(tǒng)中/username目錄下創(chuàng)建/image、/video、/file三個子目錄。(4)依次讀取中轉服務器中/username_time目錄下的文件,解析其文件特征,為圖片,則先將該圖片轉換成健值對(key/value)的形式,寫入一個單獨的S文件數(shù)據(jù)流中,S文件命名為username_time_CT, key為圖片原文件名,value為文件內容,繼續(xù)讀取下一個文件,為圖片同樣寫入該S文件數(shù)據(jù)流中,即將所有圖片采用Hadoop的SequenceFile文件格式先合并成一個S文件,調用HDFS的API接口將S文件上傳至HDFS中的/username/image/time 目錄下;
      實施例二:用戶username查看時間time時檢測的CT圖片,此例描述非結構數(shù)據(jù)查詢獲取方法,其具體步驟如下:
      (I)用戶訪問非結構化數(shù)據(jù)存取接口,調用云存儲平臺提供的非結構化數(shù)據(jù)存取服務,向云存儲平臺發(fā)出數(shù)據(jù)讀取請求;請求參數(shù)為username_time_CT。(2)提取請求中用戶名等信息,在中轉服務器中創(chuàng)建以username命名的文件夾。(3)根據(jù)請求要求從HDFS中讀取相關數(shù)據(jù),將其保存在中轉服務器username文件夾下,等待用戶提取。(4)用戶從中轉服務器username文件夾下提取相關數(shù)據(jù)。實施例三:用戶username查看時間time時的結構化醫(yī)療信息,此例描述結構化數(shù)據(jù)查詢獲取方法,其具體步驟如下:
      (I)用戶訪問結構化數(shù)據(jù)存取接口,調用云存儲平臺提供的結構化數(shù)據(jù)存取服務,向云存儲平臺發(fā)出數(shù)據(jù)讀取請求;請求參數(shù)為username_time_S_D。(2)云存儲平臺提取請求中username、time等信息;
      (3)假如每隔一年會將關系型數(shù)據(jù)庫中數(shù)據(jù)導出保存至導出文件,調用HDFS API將導出文件存儲在HDFS中。那么判斷time是否為近一年內,若是,從關系型數(shù)據(jù)庫中查找符合要求的相關數(shù)據(jù),返回給用戶;若否,則首先從HDFS中/S_D目錄下查找符合請求信息的文件數(shù)據(jù),將該文件導入關系型數(shù)據(jù)庫中,再從關系型數(shù)據(jù)庫中查找出符合要求的數(shù)據(jù)返回給用戶。在實施過程中,可以開啟四臺服務器模擬一個Hadoop集群,如圖6所示。則該Hadoop集群包括一個名稱節(jié)點(Namenode)和三個數(shù)據(jù)節(jié)點(Datanode),數(shù)據(jù)節(jié)點可以擴充。Namenode負責元數(shù)據(jù)的存儲,管理文件目錄、文件和數(shù)據(jù)塊Block的對應關系以及數(shù)據(jù)塊Block和Datanode的對應關系。Datanode負責存儲,在其上實現(xiàn)容錯機制。大文件會被分割成多個數(shù)據(jù)塊Block進行存儲,每一個Block會在多個Datanode上存儲多份副本,默認是3份。
      權利要求
      1.一種基于Hadoop的智慧醫(yī)療數(shù)據(jù)管理方法,其特征在于,包括醫(yī)療數(shù)據(jù)的存儲方法和查詢獲取方法,所述醫(yī)療數(shù)據(jù)的存儲方法分為非結構化數(shù)據(jù)存儲方法和結構化數(shù)據(jù)存儲方法;所述醫(yī)療數(shù)據(jù)的查詢獲取方法分為非結構化數(shù)據(jù)查詢獲取方法和結構化數(shù)據(jù)查詢獲取方法; 所述非結構化數(shù)據(jù)存儲方法包括以下步驟: 步驟101,用戶將需要上傳的非結構化數(shù)據(jù)重命名,非結構化數(shù)據(jù)的文件名以用戶名_時間_醫(yī)療項目名稱的方式命名;若存在多個文件名相同的情況,則在已有的文件名基礎上加編號; 步驟102,用戶訪問非結構化數(shù)據(jù)存取接口,向云存儲平臺提出非結構化數(shù)據(jù)存儲請求; 步驟103,用戶上傳非結構化數(shù)據(jù)的文件; 步驟104,云存儲平臺收到存儲請求,調用非結構化數(shù)據(jù)存取API,將上傳的非結構化數(shù)據(jù)存儲至中轉服務器中以該用戶名_時間命名的文件夾目錄下; 步驟105,初始化Hadoop集群的分布式文件系統(tǒng)HDFS,查詢該HDFS系統(tǒng)中是否存在以該用戶名命名的目錄,若存在則轉往步驟107,否則轉往步驟106 ; 步驟106,在分布式文件系統(tǒng)HDFS中創(chuàng)建以該用戶名命名的新文件夾目錄; 步驟107,在以該用戶名命名的目錄下創(chuàng)建三個子目錄,分別為/image、/video、/file ; 步驟108,依次讀取中轉服務器中以該用戶名_時間命名的目錄下的非結構化數(shù)據(jù)的文件,解析其文件特征,確定文件類型;若為視音頻,則轉往步驟109 ;若為圖片,則轉往步驟110 ;若為文檔,則轉往步驟111 ; 步驟109,直接調用HDFS的API接口將視音頻類型的文件上傳至HDFS中的/用戶名/video/時間的目錄下; 步驟110,先將該圖片轉換成健值對key-value的形式,寫入一個單獨的S文件數(shù)據(jù)流中,S文件命名為用戶名_時間_醫(yī)療項目,繼續(xù)讀取下一個文件,若為圖片同樣寫入該S文件數(shù)據(jù)流中,將所有圖片采用Hadoop的SequenceFile文件格式先合并成一個S文件,調用HDFS的API接口將S文件上傳至HDFS中的/用戶名/image/時間的目錄下; 步驟111,調用HDFS的API接口將文檔類型的文件上傳至HDFS中的/用戶名/file/時間的目錄下; 所述結構化數(shù)據(jù)存儲方法包括以下步驟: 步驟201,用戶將結構化數(shù)據(jù)按照事先定義好的XML格式進行保存; 步驟202,用戶訪問結構化數(shù)據(jù)存取接口,向云存儲平臺提出結構化數(shù)據(jù)存儲請求; 步驟203,用戶上傳結構化數(shù)據(jù)的XML文檔; 步驟204,云存儲平臺收到存儲請求,解析XML文檔,并調用結構化數(shù)據(jù)存取API,將獲取的結構化數(shù)據(jù)存儲在面向對象數(shù)據(jù)結構中; 步驟205,對每個獲取的結構化數(shù)據(jù)進行合法性驗證,若驗證成功,轉往步驟207,則將其保存在關系型數(shù)據(jù)庫中;若驗證不成功,則轉往步驟206 ; 步驟206,向用戶發(fā)送錯誤提醒信息,隨后結束存儲; 步驟207,將通過合法性驗證的結構化數(shù)據(jù)保存在關系型數(shù)據(jù)庫中;步驟208,每隔一段預設時間間隔,將關系型數(shù)據(jù)庫中的數(shù)據(jù)導出,形成導出文件,導出文件以時間_數(shù)據(jù)表名_S_D命名; 步驟209,調用HDFS的API接口將導出文件保存至HDFS中的S_D/數(shù)據(jù)表名/時間目錄下; 所述非結構化數(shù)據(jù)查詢獲取方法包括以下步驟: 步驟301,用戶訪問非結構化數(shù)據(jù)存取接口,調用云存儲平臺提供的非結構化數(shù)據(jù)存取服務,向云存儲平臺發(fā)出數(shù)據(jù)讀取請求; 步驟302,云存儲平臺提取數(shù)據(jù)讀取請求中的用戶名信息,在中轉服務器中創(chuàng)建以該用戶名命名的文件夾; 步驟303,云存儲平臺根據(jù)數(shù)據(jù)讀取請求中的要求從HDFS中讀取相關數(shù)據(jù),將其保存在步驟302中在中轉服務器中創(chuàng)建的文件夾下,等待用戶提??; 步驟304,用戶從步驟302中創(chuàng)建的文件夾下提取相關數(shù)據(jù); 所述結構化數(shù)據(jù)查詢獲取方法包括以下步驟: 步驟401,用戶訪問結構化數(shù)據(jù)存取接口,調用云存儲平臺提供的結構化數(shù)據(jù)存取服務,向云存儲平臺發(fā)出數(shù)據(jù)讀取請求; 步驟402,云存儲平臺提取數(shù)據(jù)讀取請求中的用戶名、時間信息; 步驟403,判斷時間的遠近,若時間在預設時間間隔內,則轉往步驟405,若時間在預設時間間隔以前,則轉往步驟404 ; 步驟404,從Hadoop集群的HDFS中/S_D目錄下查找符合請求信息的文件數(shù)據(jù),將該文件導入到關系型數(shù)據(jù)庫中; 步驟405,從關系型數(shù)據(jù)庫中查找符合要求的相關數(shù)據(jù),返回給用戶。
      2.如權利要求1所述的基于Hadoop的智慧醫(yī)療數(shù)據(jù)管理方法,其特征在于:所述結構化數(shù)據(jù)包括血壓、血糖、體溫、血氧、脈搏、心率、心電圖、用戶基本信息;所述非結構化數(shù)據(jù)包括內窺鏡視頻流、B超視頻流、CT視頻流、符合DIC0M3格式的醫(yī)學影像圖片、數(shù)字病歷、醫(yī)生開出的醫(yī)療診斷報告、遠程診斷時生成的在線交流互動的視音頻。
      全文摘要
      本發(fā)明提供一種基于Hadoop的智慧醫(yī)療數(shù)據(jù)管理方法,包括醫(yī)療數(shù)據(jù)的存儲方法和查詢獲取方法,所述醫(yī)療數(shù)據(jù)的存儲方法分為非結構化數(shù)據(jù)存儲方法和結構化數(shù)據(jù)存儲方法;所述醫(yī)療數(shù)據(jù)的查詢獲取方法分為非結構化數(shù)據(jù)查詢獲取方法和結構化數(shù)據(jù)查詢獲取方法。醫(yī)療數(shù)據(jù)的存儲管理可靠性得到提高,醫(yī)療數(shù)據(jù)的存儲擴展性好。優(yōu)化了對圖片的存儲方式。醫(yī)療數(shù)據(jù)可以查詢共享。近期的結構化數(shù)據(jù)首先保存在關系型數(shù)據(jù)庫中,提高了訪問相關數(shù)據(jù)的實時性,而將時間長的關系型數(shù)據(jù)庫中數(shù)據(jù)定期轉換成文件保存至HDFS中,實現(xiàn)結構化數(shù)據(jù)的分布式存儲,達到高可靠性。本發(fā)明用于管理和存儲醫(yī)療數(shù)據(jù)。
      文檔編號G06F19/00GK103116643SQ20131005885
      公開日2013年5月22日 申請日期2013年2月25日 優(yōu)先權日2013年2月25日
      發(fā)明者盛芳菲, 郎寶軍, 張韌, 滿偉鵬 申請人:江蘇物聯(lián)網(wǎng)研究發(fā)展中心
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1