国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于保密搜索的方法、保密搜索設備、計算機設備的制作方法

      文檔序號:6431936閱讀:209來源:國知局
      專利名稱:用于保密搜索的方法、保密搜索設備、計算機設備的制作方法
      技術領域
      本發(fā)明總體上涉及信息處理,特別地,本發(fā)明涉及用于保密搜索的方法、保密搜索設備、計算機設備。
      背景技術
      云計算是一種服務交付模型,用于對共享的可配置計算資源池進行方便、按需的網(wǎng)絡訪問。隨著云計算概念的普及,越來越多的人們喜歡通過互聯(lián)網(wǎng)存儲并管理他們的信息。將利用云計算管理其信息的用戶稱為云消費者。例如,在醫(yī)療領域,出現(xiàn)了很多利用云計算能力的云消費者,如PatientsLikeMe、Google Health等站點?!矫妫瑥木W(wǎng)絡資源利用率的角度,希望例如PatientsLikeMe的站點能將用戶(如患者)的信息被社會公眾共享,另一方面,人們又希望保護隱私。按照2008年的調查,25%的參與者選擇在訪問站點時提供虛假信息,72%的參與者擔心其在線信息和行為被服務提供商跟蹤并使用,尤其是在醫(yī)療領域。著名的醫(yī)療站點PatientsLikeMe就曾呼吁醫(yī)療信息透明化以實現(xiàn)更好的醫(yī)療服務?,F(xiàn)有技術中解決這一問題的一種方案是信息匿名化(anonymization),其中數(shù)據(jù)被利用概括、壓縮、加擾等手段重寫,個人信息的完整性被打破,但保持整個數(shù)據(jù)集的特征。這種匿名化后的數(shù)據(jù)可以被研究機構使用,但公眾卻不能使用,因為其中的一些信息經(jīng)過這種匿名化之后不能給出任何合理的暗示?,F(xiàn)有技術中的另一種方案是保密搜索。例如,對用戶敏感數(shù)據(jù)進行加密。在搜索結果中,對用戶敏感的數(shù)據(jù)對一般搜索用戶來說不可見。一般搜索用戶只能看到對用戶不敏感的數(shù)據(jù)。信息共享可以由可搜索加密和索引實現(xiàn),這樣,經(jīng)用戶同意,其它搜索用戶就可以看到其全部信息。但是,此方案中,搜索結果中的數(shù)據(jù)要么可見,要么未經(jīng)用戶本人同意不可見,仍然防礙了信息共享。現(xiàn)有技術中需要一種能在保密用戶隱私的同時在更大程度上共享用戶信息的技術。

      發(fā)明內容
      本發(fā)明的一個實施例解決的一個問題是,在保密用戶隱私的同時在更大程度上共
      享用戶信息。本發(fā)明的一個實施例提供了一種用于保密搜索的方法,包括接收來自搜索用戶的搜索請求;基于保密策略確定返回給搜索用戶的搜索結果;及向搜索用戶返回搜索結果O本發(fā)明的一個實施例提供了一種保密搜索設備,包括搜索引擎,被配置為接收來自搜索用戶的搜索請求;以及搜索結果確定器,被配置為基于保密策略確定返回給搜索用戶的搜索結果,其中搜索引擎還被配置為將搜索結果確定器確定的搜索結果返回搜索用戶。
      本發(fā)明的一個實施例提供了一種計算機設備,包括上述保密搜索設備。本發(fā)明的一個實施例帶來的一個有益效果是,在保密用戶隱私的同時在更大程度上共享了用戶信息。


      本申請中所參考的附圖只用于示例本發(fā)明的典型實施例,不應該認為是對本發(fā)明范圍的限制。圖I表示根據(jù)本發(fā)明一實施例的云計算節(jié)點。圖2表示根據(jù)本發(fā)明一實施例的云計算環(huán)境。圖3表示根據(jù)本發(fā)明一實施例的抽象模型層。圖4示出了通用搜索設備的框圖。圖5示出了本發(fā)明第一實施例的保密搜索設備的框圖。圖6示出了本發(fā)明第二實施例的保密搜索設備的框圖。圖7示出了根據(jù)本發(fā)明的一個實施例的方法的框圖。
      具體實施例方式下列討論中,提供大量具體的細節(jié)以幫助徹底了解本發(fā)明。然而,很顯然對于本領域技術人員來說,即使沒有這些具體細節(jié),并不影響對本發(fā)明的理解。并且應該認識到,使用如下的任何具體術語僅僅是為了方便描述,因此,本發(fā)明不應當局限于只用在這樣的術語所表示和/或暗示的任何特定應用中。首先應當明白,盡管本公開包括關于云計算的詳細描述,本公開所記載的技術方案的實現(xiàn)卻不限于云計算環(huán)境。本發(fā)明的實施例能夠結合現(xiàn)在已知的或以后開發(fā)的任何其它類型的計算環(huán)境而實現(xiàn)。云計算是一種服務交付模型,用于對共享的可配置計算資源池進行方便、按需的網(wǎng)絡訪問??膳渲糜嬎阗Y源例如是網(wǎng)絡、網(wǎng)絡帶寬、服務器、處理、內存、存儲、應用、虛擬機和服務,是以最小的管理成本或者最少的與服務提供者的交互就能快速提供和釋放的資源。這種云模型可以包括至少五個特征,至少三個服務模型和至少四個部署模型。特征如下按需自助式服務云消費者能單方面自動地按需提供計算能力,諸如服務器時間和網(wǎng)絡存儲,而無需與服務提供者進行人工交互。廣泛的網(wǎng)絡接入云計算能力可在網(wǎng)絡上獲取,并且是通過標準機制獲取的,標準機制促進通過不同種類瘦客戶機平臺或厚客戶機平臺(例如移動電話、膝上型電腦、個人數(shù)字助理PDA)對云的使用。資源池將提供者的計算資源歸入資源池,通過多租戶(munti-tenant)模式服務于多重消費者,不同的實體資源和虛擬資源按照需要被動態(tài)地分配和再分配。因為消費者一般不控制甚至不知道所提供的資源的確切位置,但是可能在較高的抽象程度上指定位置(例如國家、州或數(shù)據(jù)中心),所以有一種位置獨立感。迅速的彈性能迅速和有彈性地(有時是自動地)提供計算資源,以實現(xiàn)快速地擴展并且能快速地釋放。對于消費者來說,可用的計算資源常常顯得是無限的,在任何時候都能獲取任何數(shù)量的計算資源??蓽y量的服務云系統(tǒng)通過利用適于服務(例如存儲、處理、帶寬和活動用戶帳號)類型的某種抽象程度的計量能力,自動地控制和優(yōu)化資源效用??梢员O(jiān)測、控制和報告資源使用情況,為服務提供者和消費者雙方提供透明度。服務模型如下軟件即服務(SaaS):給予消費者使用提供者在云基礎架構上運行的應用的能力。應用是可通過諸如網(wǎng)絡瀏覽器的瘦客戶機接口從各種客戶機設備訪問的(例如基于網(wǎng)絡的電子郵件)??赡艹耸怯邢薜奶囟ㄓ谟脩舻膽门渲迷O置外,消費者既不管理也不控制底層的云基礎架構,包括網(wǎng)絡、服務器、操作系統(tǒng)、存儲、乃至單個應用能力。平臺即服務(PaaS):向消費者提供的能力是在云基礎架構上部署消費者創(chuàng)建的或獲得的應用,這些應用是用提供者所支持的程序設計語言和工具創(chuàng)建的。消費者不管理或控制基礎的云基礎架構,包括網(wǎng)絡、服務器、操作系統(tǒng)或存儲,但是對所部署的應用具有控制權,對托管環(huán)境配置的應用也可能有控制權?;A架構即服務(IaaS):給予消費者提供處理、存儲、網(wǎng)絡和消費者能在其中部署和運行任意軟件的基礎計算資源的能力,其中軟件可包括操作系統(tǒng)和應用程序。消費者既不管理也不控制底層的云基礎架構,但是對操作系統(tǒng)、存儲和所部署的應用具有控制權,對選擇的網(wǎng)絡部件(例如主機防火墻)也可能擁有有限的控制權。部署模型如下私有云云基礎架構是單獨為某個組織運行的。云基礎架構可以由該組織管理,也可以由第三方管理,可以存在于組織內,也可以存在于組織外。共同體云云基礎架構被若干個組織共享,支持有共同利害關系(例如使命、安全要求、政策和合規(guī)考慮)的特定共同體。共同體云可以由共同體內的多個組織或第三方管理,可以存在于組織內,也可以存在于組織外。公共云云基礎架構向公眾或大型產(chǎn)業(yè)群提供,并由出售云服務的組織擁有?;旌显圃苹A架構是兩個或更多的云(私有云、共同體云或公共云)的合成,這些云依然是獨特的實體,但是通過使數(shù)據(jù)和應用能夠移植的標準化技術或私有技術(例如用于云之間的負載平衡的云突發(fā)流量分擔技術)綁定在一起。云計算環(huán)境是面向服務的,特點集中在無狀態(tài)性、低耦合性、模塊性和語意的互操作性。云計算的核心是包含互連節(jié)點網(wǎng)絡的基礎結構。現(xiàn)在參考圖1,圖中顯示了一個云計算節(jié)點的例子。云計算節(jié)點10僅僅是合適的云計算節(jié)點的一個示例,而并不意味著對本發(fā)明的實施例的功能和使用的范圍的任何限制??傊?,云計算節(jié)點10能夠被實現(xiàn)和/或執(zhí)行以上所述的任何功能。在云計算節(jié)點10中有一個計算機系統(tǒng)/服務器12,其可與眾多其它通用或專用計算系統(tǒng)環(huán)境或配置一起操作。適于與計算機系統(tǒng)/服務器12 —起使用的眾所周知的計算系統(tǒng)、環(huán)境和/或配置的例子包括但不限于個人計算機系統(tǒng)、服務器計算機系統(tǒng)、瘦客戶機、厚客戶機、手持或膝上設備、基于微處理器的系統(tǒng)、機頂盒、可編程消費電子產(chǎn)品、網(wǎng)絡個人電腦、小型計算機系統(tǒng)、大型計算機系統(tǒng)和包括上述任何系統(tǒng)的分布式云計算技術環(huán)境,等
      坐寸ο計算機系統(tǒng)/服務器12可以在由計算機系統(tǒng)執(zhí)行的計算機系統(tǒng)可執(zhí)行指令(諸如程序模塊)的一般語境下描述。通常,程序模塊可以包括例程、程序、目標程序、組件、邏輯、數(shù)據(jù)結構等等,它們執(zhí)行特定的任務或者實現(xiàn)特定的抽象數(shù)據(jù)類型。計算機系統(tǒng)/服務器12可以在分布式云計算環(huán)境中實施,分布式云計算環(huán)境中,任務是由通過通信網(wǎng)絡鏈接的遠程處理設備執(zhí)行的。在分布式云計算環(huán)境中,程序模塊可以位于包括存儲設備的本地或遠程計算系統(tǒng)存儲介質上。如圖I所示,云計算節(jié)點10中的計算機系統(tǒng)/服務器12是以通用計算設備的形式表現(xiàn)的。計算機系統(tǒng)/服務器12的部件可以包括但不限于一個或者多個處理器或者處理單元16,系統(tǒng)存儲器28,連接不同系統(tǒng)部件(包括系統(tǒng)存儲器28和處理單元16)的總線18??偩€18表示幾種類型的總線結構中的一種或多種,包括存儲器總線或者存儲器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結構中的任何總線結構的局域總線。舉例(但不限于這些示例)來說,這些體系結構包括工業(yè)標準體系結構(ISA)總線,微通道體系結構(MAC)總線,增強型ISA總線、視頻電子標準協(xié)會(VESA)局域總線以及外圍部件互連(PCI)總線。計算機系統(tǒng)/服務器12典型地包括多種計算機系統(tǒng)可讀介質。這些介質可以為可被計算機系統(tǒng)/服務器12訪問的任何可獲得的介質,包括易失性和非易失性介質,可移動的和不可移動的介質。系統(tǒng)存儲器28可以包括易失性存儲器形式的計算機系統(tǒng)可讀介質,例如隨機存取存儲器(RAM) 30和/或高速緩存存儲器32。計算機系統(tǒng)/服務器12可以進一步包括其它可以移動的/不可移動的,易失性/非易失性計算機系統(tǒng)存儲介質。僅作為舉例,存儲系統(tǒng)34可以被提供用于讀出和寫入不可移動的、非易失性磁介質(未示出,通常稱為“硬盤驅動器”)。盡管圖中未示出,可以提供用于對可移動的非易失性磁盤(錄入“軟盤”)讀寫的磁盤驅動器,以及對可移動的非易失性光盤——諸如CD-ROM,DVD-ROM或者其它光介質——讀寫的光盤驅動器。在這些情況下,每個驅動器可以通過一個或者多個數(shù)據(jù)介質接口與總線18相連。如以下將進一步表示和描述的那樣,存儲器28可以包括至少一個程序產(chǎn)品,該程序產(chǎn)品有一組(例如至少一個)程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實施例的功能。有一組(至少一個)程序模塊42的程序/實用工具40,可以被存儲在存儲器28中,這樣的程序模塊42例如(但不限于)操作系統(tǒng)、一個或者多個應用程序、其它程序模塊以及程序數(shù)據(jù)。操作系統(tǒng)、一個或者多個應用程序、其它程序模塊、程序數(shù)據(jù)中的每一個或它們的某種組合中可能包括網(wǎng)絡環(huán)境的實現(xiàn)。程序模塊42通常執(zhí)行這里描述的本發(fā)明的實施例中的功能和/或方法。計算機系統(tǒng)/服務器12也可以與一個或多個外部設備14—諸如鍵盤、指向設備、顯示器24等等——通信,與一個或者多個使用戶能與計算機系統(tǒng)/服務器12交互的設備通信,和/或與使計算機系統(tǒng)/服務器12能與一個或多個其它計算設備通信的任何設備(例如網(wǎng)卡,調制解調器等等)通信。這種通信可以通過輸入/輸出(I/O)接口 22進行。并且,計算機系統(tǒng)/服務器12還可以通過網(wǎng)絡適配器20與一個或者多個網(wǎng)絡一諸如局域網(wǎng)(LAN),廣域網(wǎng)(WAN)和/或公共網(wǎng)絡(例如因特網(wǎng))一通信。如圖所示,網(wǎng)絡適配器20通過總線18與計算機系統(tǒng)/服務器12的其它模塊通信。應當明白,盡管圖中未示出,其它硬件和/或軟件模塊可以與計算機系統(tǒng)/服務器12—起使用。例子包括但不限于微代碼、設備驅動器、冗余處理單元、外部磁盤驅動陣列、RAID系統(tǒng)、磁帶驅動器以及數(shù)據(jù)備份存儲系統(tǒng),等等。
      現(xiàn)在參考圖2,該圖描述了示例性的云計算環(huán)境50。如圖所示,云計算環(huán)境50包括云計算消費者使用的本地計算設備可以與其相通信的一個或者多個云計算節(jié)點10,本地計算設備諸如個人數(shù)字輔助設備(PDA)或者是移動電話54A,臺式電腦54B,筆記本電腦54C,和/或汽車計算機系統(tǒng)54N。節(jié)點10之間可以相互通信??梢栽谠谝粋€或者多個網(wǎng)絡一
      諸如如上所述的私有云、共同體云、公共云或混合云或者它們的組合-中,將節(jié)點10進行
      物理或者虛擬分組(圖中未示出)。這允許云計算環(huán)境50提供云消費者無需在本地計算設備上維護資源就能請求的基礎架構即服務、平臺即服務和/或軟件即服務。應當明白,圖2示出的各類計算設備54A-N僅僅是示意性的,計算節(jié)點10以及云計算環(huán)境50可以與任何類型的網(wǎng)絡上的和/或網(wǎng)絡可尋址的連接上的任何類型的計算設備(例如使用網(wǎng)絡瀏覽器)通信。現(xiàn)在參考圖3,該圖示出了云計算環(huán)境50(圖2)提供的一組功能抽象層。首先應當明白,圖3所示的部件、層以及功能都僅僅是示意性的,本發(fā)明的實施例不限于此。如圖所示,提供了下列層和對應功能硬件和軟件層60包括硬件和軟件部件。硬件部件的例子包括主機——例如IBM zSeries 系統(tǒng);基于Risc(精簡指令集計算機)體系結構的服務器一例如iBMpSeries 系統(tǒng);iBMXSeries 系統(tǒng);iBMBladeCenter 系統(tǒng);存儲設備;網(wǎng)絡和網(wǎng)絡部件。軟件部件的例子包括網(wǎng)絡應用服務器軟件一例如IBM WebSphere
      應用服務器軟件;數(shù)據(jù)庫軟件-例如IBMDB2 數(shù)據(jù)庫軟件。(IBM, zSeries, pSeries,
      xSeries, BladeCenter, WebSphere以及DB2是國際商業(yè)機器公司在全世界各地注冊的商標)。虛擬層62提供一個抽象層,該層可以提供下列虛擬實體的例子虛擬服務器、虛擬存儲、虛擬網(wǎng)絡(包括虛擬私有網(wǎng)絡)、虛擬應用和操作系統(tǒng),以及虛擬客戶端。在一個示例中,管理層64可以提供下述功能資源供應功能提供用于在云計算環(huán)境中執(zhí)行任務的計算資源和其它資源的動態(tài)獲?。挥嬃亢投▋r功能在云計算環(huán)境內資源被使用時進行成本跟蹤,并為這些資源的消費提供帳單和發(fā)票。在一個例子中,這些資源可以包括應用軟件許可。安全功能為云消費者和任務提供身份認證,為數(shù)據(jù)和其它資源提供保護。用戶門戶為消費者和系統(tǒng)管理員提供對云計算環(huán)境的訪問。服務水平管理功能提供云計算資源的分配和管理,以滿足必需的服務水平。服務水平協(xié)議(SLA)計劃和履行功能為根據(jù)SLA的預測了未來需求的云計算資源提供預先安排和供應。工作負載層66提供了云計算環(huán)境可能實現(xiàn)的功能的示例。在該層中,可提供的工作負載或功能的示例包括地圖繪制與導航;軟件開發(fā)及生命周期管理;虛擬教室的教學他提供;數(shù)據(jù)分析處理;交易處理;以及如本發(fā)明所進行的保密搜索。本發(fā)明的主要構思是,與現(xiàn)有技術中將敏感信息全部隱藏從而是搜索用戶在未經(jīng)敏感信息的所有者授權的情況下完全無法從中得到任何信息相比,可以根據(jù)保密策略將敏感信息變換成一個更加概括的概念。例如,每一信息所有者可以對其信息指定一個私密度比率,即私密度水平。敏感信息按照該私密度水平變換成一個更加概括的概念。再例如,可
      8以采用規(guī)定的私密度等級,即對某些用戶采用特定的私密度等級,對另一些用戶采用另外的私密度等級,并按照私密度等級將敏感信息變換成一個更加概括的概念。這樣敏感信息可以在概括的條件下被其它用戶共享,同時又不會防礙該敏感數(shù)據(jù)的私密性。例如,某患者得了 I型肺炎,但根據(jù)該患者希望的私密度水平,該信息可以變換成“肺炎”、“肺病”,甚至“疾病”,這種變換被稱為概括。這樣,既能讓搜索用戶獲得一定的信息又保證了患者的隱私不被泄漏。也就是說,用戶看到的是其它信息擁有者的敏感數(shù)據(jù)在不同私密度要求之下呈現(xiàn)的“視圖”。信息擁有者可以改變針對任何敏感數(shù)據(jù)的私密度水平,數(shù)據(jù)集也可以變化,這樣,導致對同一敏感數(shù)據(jù)的不同視圖。這樣,既能最大化信息共享,又能滿足信息擁有者的私密度要求。也就是說,在接收到來自搜索用戶的搜索請求后,不是直接查詢到搜索結果返回給搜索用戶,而是基于保密策略確定返回給搜索用戶的搜索結果,以便向搜索用戶返回。在一個實施例中,基于保密策略確定返回給搜索用戶的搜索結果包括對搜索結果中元組的屬性的值進行概括,作為返回給搜索用戶的搜索結果。在結構化數(shù)據(jù)存儲結構中,即在關系數(shù)據(jù)庫中,通常以二維表的形式存儲數(shù)據(jù),其中表中的每一橫行是關系的一個元組,每一縱行是關系的一個屬性。例如患者性別年齡病癥
      張三男25I型肺炎
      李四女45肺氣腫
      “張三:男25歲I型肺炎”構成了一個元組,張三和李四的年齡構成了關系的一個屬性。對搜索結果中元組的屬性的值進行概括的一種方式是基于私密度比率將搜索結果中的元組的屬性的值改變?yōu)楦爬ㄖ?,其中該屬性的值是該概括值的子類,且根?jù)該概括值發(fā)現(xiàn)原始元組的概率與根據(jù)該屬性的值發(fā)現(xiàn)原始元組的概率之比小于或等于該私密度比率。仍以上例為例。假設“張三男25 I型肺炎”、“李四女45肺氣腫”是原始元組。另外,假設在數(shù)據(jù)庫中,得I型肺炎的只有2個人。因此,如果在知道某個人得了 I型肺炎的情況下想在數(shù)據(jù)庫中找到這個人是張三的可能是50%。也就是說,根據(jù)“I型肺炎”發(fā)現(xiàn)張三的概率是50%。但是,如果在數(shù)據(jù)庫中,得“肺炎”的人有20人,則根據(jù)“肺炎”發(fā)現(xiàn)“張三”的概率是5%。如果張三指定自己的私密度比率為10%,用“肺炎”替代“I型肺炎”,就會導致根據(jù)概括數(shù)據(jù)“肺炎”發(fā)現(xiàn)該原始數(shù)據(jù)“I型肺炎”所屬的特定元組的概率5%與根據(jù)原始數(shù)據(jù)“I型肺炎”發(fā)現(xiàn)該特定元組的概率50%之比10%小于或等于該私密度比率,這樣,就滿足了張三的私密度要求。但是,如果張三指定的私密度比率為8%,則這樣計算出的比率10%大于該私密度比率。這樣,需要將“I型肺炎”概括成“肺病”、“呼吸道疾病”等,從而使該比率降低到小于或等于私密度比率。當然,也可以通過本領域技術人員受益于上述教導所想到的其它方式來將原始數(shù)據(jù)概括成概括數(shù)據(jù)。例如,可以不使用私密度比率,而采用規(guī)定好的私密度等級,并且對每一私密度等級需要概括到何種程度作出詳細的規(guī)定。例如,假設有A、B、C、D四個私密度等級。如果張三選擇D私密度等級,則意味著不概括,即不需保密。這樣,其元組中的屬性“病癥”的值仍為“ I型肺炎”。如果張三選擇C私密度等級,則向上概括一級,即將“ I型肺炎”概括成“肺炎”。如果張三選擇B私密度等級,則向上概括兩級,即將“ I型肺炎”概括成“肺病”。如果張三選擇A私密度等級,則向上概括三級,即將“I型肺炎”概括成“呼吸道疾病”。由于上述概括的存在,使得在返回搜索用戶的查詢結果時,不但要返回完全符合搜索用戶的搜索條件的結果,可能還要返回雖與搜索條件不完全符合但卻相關的結果。例如,當搜索條件為“病癥=I型肺炎”時,不僅要給出確實出現(xiàn)了“I型肺炎”的搜索結果,還要給出包含“肺炎”、“肺病”等的搜索結果,因為這些結果可能是由于“I型肺炎”的概括產(chǎn)生的。當然,包含“肺炎”、“肺病”等的搜索結果可能是由于“2型肺炎”、“肺氣腫”的概括產(chǎn)生的。這樣產(chǎn)生的搜索結果可能并不是搜索用戶想要的真實結果。由此,產(chǎn)生了如下相似度的概念。搜索用戶可根據(jù)相似度來判斷搜索結果反映自己的真實意愿的程度??蛇x地,在向搜索用戶返回搜索結果時,將該搜索結果的平均相似度返回給搜索用戶,其中平均相似度為對于每一查詢條件該搜索結果與該查詢條件的相似度的平均值。在結構化數(shù)據(jù)用樹型結構表示的情況下,當兩個屬性的值(如“病癥=I型肺炎”和“病癥=肺炎”)具有祖孫關系時,這兩個屬性的值的相似度為這兩個屬性的值的覆蓋范圍之比。覆蓋范圍即數(shù)據(jù)庫中屬性的值為該值或該值的子類的元組有多少個。假設肺炎包括I型肺炎和2型肺炎,則“I型肺炎”和“2型肺炎”是“肺炎”的子類。例如,在數(shù)據(jù)庫中,有2個人得了 I型肺炎,18個人得了 2型肺炎,則“肺炎”的覆蓋范圍為20個,“I型肺炎”的覆蓋范圍為2個,“2型肺炎”的覆蓋范圍為18個。對于某一查詢條件,可以根據(jù)搜索結果中的相應屬性的值和該查詢條件的屬性的值,計算其覆蓋范圍之比,即對于該查詢條件的相似度。如果對于查詢條件“病癥=I型肺炎”,返回的一個搜索結果是“肺炎”,則對于查詢條件“病癥=I型肺炎”,該搜索結果與查詢條件的相似度為2/20 = 10%。當兩個屬性的值不具有祖孫關系時,也可能具有一些相似度,如“病癥=內分泌失調”和“病癥=腎病”,因為有些腎病也是由于內分泌失調引起的。此時,計算這兩個屬性的值與它們的最近共同祖先之間的相似度,再對這些相似度求調諧平均數(shù)。這樣,就得到了這兩個屬性的值的相似度。在計算出了對于每一查詢條件該搜索結果與該查詢條件的相似度之后,對對于每一查詢條件該搜索結果與該查詢條件的相似度求平均值,就得到了平均相似度。例如,搜索用戶查詢時輸入了兩個搜索條件病癥=I型肺炎,年齡=25歲。返回的搜索結果A中,病癥=肺炎,對于查詢條件“病癥=I型肺炎”該搜索結果與該查詢條件的相似度為10%;年齡=21-30歲,對于查詢條件“年齡=25歲”該搜索結果與該查詢條件的相似度為20%。因此,平均相似度為(10% +20% )/2 = 15%0這樣,搜索用戶就可以通過返回的平均相似度,判斷搜索結果在多大程度上滿足了客戶的期望。搜索用戶可以根據(jù)該平均相似度結合其它條件判斷該搜索結果是否就是自己想要的??蛇x地,在向搜索用戶返回搜索結果時,將所述搜索結果按平均相似度排序。這樣,搜索用戶就可以首先檢查最相似的搜索結果從而提高檢查的效率。作為另一種替代方式,在向搜索用戶返回搜索結果時,將該搜索結果的加權平均相似度返回給搜索用戶,其中加權平均相似度為對于每一查詢條件該搜索結果與該查詢條件的相似度的按與該查詢條件對應的權重的加權平均值。
      仍以上面的例子舉例。如果搜索用戶給“病癥=I型肺炎”這個查詢條件指定了權重60%,給“年齡=25歲”整個查詢條件指定了權重40%,加權平均相似度為10% X60%+20% X40%= 14%??蛇x地,可以在向搜索用戶返回搜索結果時,將所述搜索結果按加權平均相似度排序。圖4示出了通用搜索設備的框圖。如背景技術所述,通用搜索設備采用如加密等的保密操作來進行保密搜索。搜索設備4包括加密環(huán)境402和搜索引擎401。加密環(huán)境402包括敏感信息存貯器403。搜索引擎401包括Top-k框架402、查詢編譯器413、集合運算器404。例如,某種類型的Top-k框架402接收搜索用戶的包含若干查詢條件的查詢,并將查詢條件送至查詢編譯器413以編譯成SQL語句。查詢編譯器413以SQL語句向敏感信息存貯器403查詢。由于搜索用戶的查詢中可能包含多個查詢條件,因此需要集合運算器404把查詢編譯器413根據(jù)每個查詢條件查得的搜索結果進行整合,并返回該種類型的Top-k框架402為搜索結果計算得分,并設置得分閾值。當?shù)梅殖^該閾值的搜索結果不超過k個時,該種類型的Top-k框架402調整該閾值,直至得分超過該閾值的搜索結果超過k個,k是自然數(shù)。圖5示出了本發(fā)明第一實施例的保密搜索設備的框圖。保密搜索設備5包括搜索引擎401,被配置為接收來自搜索用戶的搜索請求;以及搜索結果確定器501,被配置為基于保密策略確定返回給搜索用戶的搜索結果。搜索引擎401還被配置為將搜索結果確定器確定的搜索結果返回搜索用戶??蛇x地,搜索結果確定器501被配置為對搜索結果中元組的屬性的值進行概括,作為返回給搜索用戶的搜索結果。可選地,搜索結果確定器501被配置為基于私密度比率將搜索結果中的元組的屬性的值改變?yōu)楦爬ㄖ?,其中該屬性的值是該概括值的子類,且根?jù)該概括值發(fā)現(xiàn)原始元組的概率與根據(jù)該屬性的值發(fā)現(xiàn)原始元組的概率之比小于或等于該私密度比率。搜索結果確定器501包括保密環(huán)境502。保密環(huán)境502包括敏感信息存貯器403、個性化隱私存貯器504、保密按屬性分層統(tǒng)計管理器506、保密索引507、個性化概括處理器508。此外,搜索結果確定器501還包括非敏感概括數(shù)據(jù)存貯器505和按屬性分層統(tǒng)計管理器 509。搜索引擎401包括查詢編譯器413、集合運算器404、按屬性枚舉器405和Top_k框架402。個性化隱私存貯器504、保密按屬性分層統(tǒng)計管理器506、保密索引507、個性化概括處理器508、非敏感概括數(shù)據(jù)存貯器505、按屬性分層統(tǒng)計管理器509、按屬性枚舉器405是實施例I特有的模塊,其余的模塊的功能基本上與現(xiàn)有技術的圖4類似。個性化隱私存貯器504被配置為存儲與敏感信息存貯器中的每一敏感數(shù)據(jù)對應的私密度比率。它可以遵循與敏感信息存貯器403相似的存儲格式。例如,敏感信息存貯器403存儲著以下內容
      姓名性別年齡病癥
      張三男25I型肺炎李四女45肺氣腫王五男472型肺炎趙六女67感冒相應地,個性化隱私存貯器504存儲著每一項相應的私密度比率姓名性別私密度比率年齡私密度比率病癥私密度比率
      張三100%100%50%李四100%50%100%王五100%100%34%趙六100%34%100%保密按屬性分層統(tǒng)計管理器506被配置為按屬性的值統(tǒng)計該屬性的值的覆蓋范圍,覆蓋范圍指敏感信息存貯器中有多少元組的該屬性為該值或該值的子類。例如,對于“病癥=肺炎”,統(tǒng)計出其覆蓋范圍為2。對于“病癥=肺病”,統(tǒng)計出其覆蓋范圍為3。個性化概括處理器508被配置為預先按照敏感信息存貯器403中存儲的敏感信息、個性化隱私存貯器504中存儲的私密度比率、以及保密按屬性分層統(tǒng)計管理器506統(tǒng)計出的各屬性的值的覆蓋范圍,對敏感信息存貯器中的敏感信息進行概括,以使其符合個性化隱私存貯器存儲的私密度比率,并將概括數(shù)據(jù)存儲到非敏感概括數(shù)據(jù)存貯器505中。對于私密度比率為100%的數(shù)據(jù),數(shù)據(jù)所有者是不要求保密的,因此可以直接拷貝到非敏感概括數(shù)據(jù)存貯器505中。對于私密度比率不是100%的敏感數(shù)據(jù),要概括成概括數(shù)據(jù)。概括的方法如前所述。例如,對于張三的病癥“I型肺炎”,張三希望的私密度比率是50%。因此,將其概括成“肺炎”。這樣,根據(jù)概括數(shù)據(jù)“肺炎”發(fā)現(xiàn)該原始數(shù)據(jù)“I型肺炎”所屬的特定元組的概率50%與根據(jù)原始數(shù)據(jù)“I型肺炎”發(fā)現(xiàn)該特定元組的概率100%之比50%小于或等于該私密度比率50%。這樣,非敏感概括數(shù)據(jù)存貯器505存儲的內容為
      姓名性別年齡病癥
      張三男 25 肺炎李四女 41-50肺氣腫王五男 47 肺病趙六女 41以上感冒保密索引507是可選部件,它可以加速個性化概括處理器508的概括的實現(xiàn)。有很多技術可實現(xiàn)保密索引,且由于它不是實現(xiàn)本發(fā)明必需的,故不贅述。按屬性枚舉器405根據(jù)按照非敏感概括數(shù)據(jù)存貯器存儲的概括后的信息建立的屬性樹,枚舉分層屬性的值。例如,對于屬性“年齡”,年齡的值“47”——“41-50”- “41以上”構成分層的樹結構。按屬性枚舉器405就將“年齡=47”、“年齡=41-50”、“年齡=41以上”分別發(fā)至按屬性分層統(tǒng)計管理器509。按屬性分層統(tǒng)計管理器509被配置為統(tǒng)計按屬性枚舉器枚舉的屬性的值的覆蓋范圍,覆蓋范圍指非敏感概括數(shù)據(jù)存貯器中有多少元組的該屬性為該值或該值的子類。在上面的例子中,響應于按屬性枚舉器405枚舉的“年齡=47”、“年齡=41-50”、“年齡=41以上”,分別統(tǒng)計出覆蓋范圍為1、2、3。按屬性枚舉器405按照所述按屬性分層統(tǒng)計管理器統(tǒng)計出的覆蓋范圍,計算搜索結果的平均相似度或加權平均相似度,并將其與搜索結果一同返回搜索用戶。平均相似度和加權平均相似度的計算方法如前所述??蛇x地,將平均相似度或加權平均相似度與搜索結果一同返回搜索用戶時將所述搜索結果按平均相似度或加權平均相似度排序。圖5的其它部分與圖4類似。上述第一實施例是一種靜態(tài)方案,它適合于不經(jīng)常更新的穩(wěn)定數(shù)據(jù)集,因為該方案中的更新成本較大。具體地說,更新一條原始元組可能導致如下四方面的更新在敏感信息存貯器403中更新敏感元組;在保密按屬性分層統(tǒng)計管理器506中更新統(tǒng)計結果;在非敏感概括數(shù)據(jù)存貯器505中更新非敏感數(shù)據(jù),其中不僅需要更新與敏感信息存貯器403中更新的元組相應的元組,還要考慮由于保密按屬性分層統(tǒng)計管理器506中的統(tǒng)計結果的變化導致非敏感概括數(shù)據(jù)存貯器505中的一些概括數(shù)據(jù)不能滿足指定的私密度而必須進行的更新;按屬性分層統(tǒng)計管理器509中的統(tǒng)計結果的更新。以插入一條原始元組為例。首先,要在敏感信息存貯器403中插入該原始元組。由于敏感信息存貯器403中存儲的原始元組有變化,在保密按屬性分層統(tǒng)計管理器506按屬性統(tǒng)計出的覆蓋范圍也必然有變化。因此,保密按屬性分層統(tǒng)計管理器506需要重新統(tǒng)計各相關屬性的值的覆蓋范圍。然而,需要在非敏感概括數(shù)據(jù)存貯器505中更新非敏感數(shù)據(jù)。此時,需要在非敏感概括數(shù)據(jù)存貯器505中增加與敏感信息存貯器403中增加的元組相應的元組,其中在非敏感概括數(shù)據(jù)存貯器505中增加的元組中根據(jù)私密度比率用概括數(shù)據(jù)替代了原始敏感數(shù)據(jù)。另外,由于保密按屬性分層統(tǒng)計管理器506統(tǒng)計出的各屬性的值的覆蓋范圍已經(jīng)發(fā)生了變化,非敏感概括數(shù)據(jù)存貯器505中的一些概括數(shù)據(jù)按照各屬性的值的原來的覆蓋范圍能夠滿足私密度比率但按照各屬性的值的新的覆蓋范圍已經(jīng)不能滿足私密度比率而需要被重新概括。此時,非敏感概括數(shù)據(jù)存貯器505中的大量概括數(shù)據(jù)都需重新更新。最后,由于非敏感概括數(shù)據(jù)存貯器505中的大量概括數(shù)據(jù)都需重新更新,導致按屬性分層統(tǒng)計管理器509中也必須重新統(tǒng)計各屬性的值的覆蓋范圍。因此,第一實施例的靜態(tài)方案的更新成本較高。通常,可以采取階段性更新,即當原始元組的更新積累到一定數(shù)目時進行一次上述的更新過程。保密索引507可用于保持更新狀態(tài)。圖6示出了本發(fā)明第二實施例的保密搜索設備的框圖。與第一實施例不同,第二實施例是動態(tài)方案的實施例,它適用于經(jīng)常變化的數(shù)據(jù)。與第一實施例維護數(shù)據(jù)的保密版本不同,在第二實施例中,查詢是直接針對原始數(shù)據(jù)的,并且概括是同時作出的。圖6的第二實施例與圖5的第一實施例的不同之處在于,它取消了非敏感概括數(shù)據(jù)存貯器505,并用帶有概括功能的保密元組訪問器701代替了個性化概括處理器508。查詢編譯器413將搜索用戶的查詢編譯成SQL語句后,直接發(fā)給帶有概括功能的保密元組訪問器701。帶有概括功能的保密元組訪問器701響應于每次查詢,直接向敏感信息存貯器403查詢原始敏感信息,然后按照敏感信息存貯器中存儲的敏感信息、個性化隱私存貯器中存儲的私密度比率、以及保密按屬性分層統(tǒng)計管理器統(tǒng)計出的各屬性的值的覆蓋范圍,將查詢所對應的原始元組中的屬性的值概括為概括值。概括的方法與圖5中個性化概括處理器508所用的方法相同??梢钥闯觯诙嵤├?,概括不是事先作出的,而是由帶有概括功能的保密元組訪問器701響應于每次查詢作出的。因此,對于更新來說,只存在在敏感信息存貯器403中更新敏感元組、在保密按屬性分層統(tǒng)計管理器506中更新統(tǒng)計結果兩方面的問題,不存在更新概括數(shù)據(jù)和在概括數(shù)據(jù)大量變化的情況下重新統(tǒng)計各屬性的值的覆蓋范圍的問題,大大降低了更新的成本。它的問題是,對每次查詢的響應較慢。它犧牲了搜索的效率以換取更新的成本,適用于快速變化的數(shù)據(jù)。因為對于經(jīng)常變化的數(shù)據(jù),如果象第一實施例那樣間隔一段時間更新一次,為了避免統(tǒng)計數(shù)據(jù)的不準確性就需要以很短的時間間隔進行更新,更新的成本問題就顯得尤為突出;對于不經(jīng)常變化的數(shù)據(jù),由于可以以很長的時間間隔來更新,更新的成本問題就不是一個突出的問題。圖6中的按屬性枚舉器405根據(jù)搜索結果,枚舉分層屬性的值。例如,搜索用戶查詢“病癥=I型肺炎”,搜索結果是“張三男25肺炎”,則按屬性枚舉器405枚舉出“病癥=肺炎”,發(fā)至按屬性分層統(tǒng)計管理器509。按屬性分層統(tǒng)計管理器509統(tǒng)計按屬性枚舉器枚舉的屬性的值的覆蓋范圍,覆蓋范圍指帶有概括功能的保密元組訪問器概括出的概括值的歷史中有多少元組的該屬性為該值或該值的子類??梢酝ㄟ^查詢保密索引507來獲得帶有概括功能的保密元組訪問器概括出的概括數(shù)據(jù)的歷史。目前有多種已有技術能實現(xiàn)保密索引507。按屬性枚舉器405按照按屬性分層統(tǒng)計管理器509統(tǒng)計出的覆蓋范圍,計算搜索結果的平均相似度或加權平均相似度,并將其與搜索結果一同返回搜索用戶。可選地,將平均相似度或加權平均相似度與搜索結果一同返回搜索用戶時將所述搜索結果按平均相似度或加權平均相似度排序。圖6的其它部分與圖5類似。在本發(fā)明的一個實施例中,還提供了一種計算機設備,包括如圖5或圖6所示的保密搜索設備。圖7示出了根據(jù)本發(fā)明的一個實施例的方法的框圖。在該實施例中,用于保密搜索的方法,包括在步驟S701中,接收來自搜索用戶的搜索請求。在步驟S702中,基于保密策略確定返回給搜索用戶的搜索結果。在步驟S703中,向搜索用戶返回搜索結果。所屬技術領域的技術人員知道,本發(fā)明可以體現(xiàn)為系統(tǒng)、方法或計算機程序產(chǎn)品。因此,本發(fā)明可以具體實現(xiàn)為以下形式,即,可以是完全的硬件、完全的軟件(包括固件、駐留軟件、微代碼等)、或者本文一般稱為“電路”、“模塊”或“系統(tǒng)”的軟件部分與硬件部分的組合。此外,本發(fā)明還可以采取體現(xiàn)在任何有形的表達介質(medium of expression)中的計算機程序產(chǎn)品的形式,該介質中包含計算機可用的程序碼。可以使用一個或多個計算機可用的或計算機可讀的介質的任何組合。計算機可用的或計算機可讀的介質例如可以是——但不限于——電的、磁的、光的、電磁的、紅外線的、或半導體的系統(tǒng)、裝置、器件或傳播介質。計算機可讀介質的更具體的例子(非窮舉的列表)包括以下有一個或多個導線的電連接、便攜式計算機磁盤、硬盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(EPR0M或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(CD-ROM)、光存儲器件、諸如支持因特網(wǎng)或內部網(wǎng)的傳輸介質、或者磁存儲器件。注意計算機可用的或計算機可讀的介質甚至可以是上面印有程序的紙張或者其它合適的介質,這是因為,例如可以通過電掃描這種紙張或其它介質,以電子方式獲得程序,然后以適當?shù)姆绞郊右跃幾g、解釋或處理,并且必要的話在計算機存儲器中存儲。在本文件的語境中,計算機可用的或計算機可讀的介質可以是任何含有、存儲、傳達、傳播、或傳輸供指令執(zhí)行系統(tǒng)、裝置或器件使用的或與指令執(zhí)行系統(tǒng)、裝置或器件相聯(lián)系的程序的介質。計算機可用的介質可包括在基帶中或者作為載波一部分傳播的、由其體現(xiàn)計算機可用的程序碼的數(shù)據(jù)信號。計算機可用的程序碼可以用任何適當?shù)慕橘|傳輸,包括-但不限于-無線、電線、光纜、RF等等。用于執(zhí)行本發(fā)明的操作的計算機程序碼,可以以一種或多種程序設計語言的任何組合來編寫,所述程序設計語言包括面向對象的程序設計語言-諸如Java、Smalltalk、C++之類,還包括常規(guī)的過程式程序設計語言-諸如”C”程序設計語言或類似的程序設計語言。程序碼可以完全地在用戶的計算上執(zhí)行、部分地在用戶的計算機上執(zhí)行、作為一個獨立的軟件包執(zhí)行、部分在用戶的計算機上部分在遠程計算機上執(zhí)行、或者完全在遠程計算機或服務器上執(zhí)行。在后一種情形中,遠程計算機可以通過任何種類的網(wǎng)絡一包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN)-連接到用戶的計算機,或者,可以(例如利用因特網(wǎng)服務提供商來通過因特網(wǎng))連接到外部計算機。以下參照按照本發(fā)明實施例的方法、裝置(系統(tǒng))和計算機程序產(chǎn)品的流程圖和/或框圖描述本發(fā)明。要明白的是,流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合,都可以由計算機程序指令實現(xiàn)。這些計算機程序指令可以提供給通用計算機、專用計算機或其它可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出一種機器,使得通過計算機或其它可編程數(shù)據(jù)處理裝置執(zhí)行的這些指令,產(chǎn)生實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的裝置。也可以把這些計算機程序指令存儲在能指令計算機或其它可編程數(shù)據(jù)處理裝置以特定方式工作的計算機可讀介質中,這樣,存儲在計算機可讀介質中的指令產(chǎn)生一個包括實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令裝置(instruction means)的制造品。也可以把計算機程序指令加載到計算機或其它可編程數(shù)據(jù)處理裝置上,使得在計算機或其它可編程數(shù)據(jù)處理裝置上執(zhí)行一系列操作步驟,以產(chǎn)生計算機實現(xiàn)的過程,從而在計算機或其它可編程裝置上執(zhí)行的指令就提供實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的過程。附圖中的流程圖和框圖,圖示了按照本發(fā)明各種實施例的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應當注意,在有些作為替換的實現(xiàn)中,方框中所標注的功能也可以以不同于附圖中所標注的順序發(fā)生。例如,兩個接連地表示的方框實際上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。本文中所用的術語,僅僅是為了描述特定的實施例,而不意圖限定本發(fā)明。本文中所用的單數(shù)形式的“一”和“該”,旨在也包括復數(shù)形式,除非上下文中明確地另外指出。還要知道,“包含”一詞在本說明書中使用時,說明存在所指出的特征、整體、步驟、操作、單元和/或組件,但是并不排除存在或增加一個或多個其它特征、整體、步驟、操作、單元和/或組件,以及/或者它們的組合。權利要求中的對應結構、材料、操作以及所有功能性限定的裝置(means)或步驟的等同替換,旨在包括任何用于與在權利要求中具體指出的其它單元相組合地執(zhí)行該功能的結構、材料或操作。所給出的對本發(fā)明的描述其目的在于示意和描述,并非是窮盡性的,也并非是要把本發(fā)明限定到所表述的形式。對于所屬技術領域的普通技術人員來說,在不偏離本發(fā)明范圍和精神的情況下,顯然可以作出許多修改和變型。對實施例的選擇和說明,是為了最好地解釋本發(fā)明的原理和實際應用,使所屬技術領域的普通技術人員能夠明了,本發(fā)明可以有適合所要的特定用途的具有各種改變的各種實施方式。
      1權利要求
      1.一種用于保密搜索的方法,包括接收來自搜索用戶的搜索請求;基于保密策略確定返回給搜索用戶的搜索結果;及向搜索用戶返回搜索結果。
      2.根據(jù)權利要求I的方法,其中基于保密策略確定返回給搜索用戶的搜索結果包括對搜索結果中元組的屬性的值進行概括,作為返回給搜索用戶的搜索結果。
      3.根據(jù)權利要求2的方法,其中基于私密度比率對搜索結果中元組的屬性的值進行概括。
      4.根據(jù)權利要求3的方法,其中基于私密度比率將搜索結果中的元組的屬性的值改變 >為概括值,其中該屬性的值是該概括值的子類,且根據(jù)該概括值發(fā)現(xiàn)原始元組的概率與根據(jù)該屬性的值發(fā)現(xiàn)原始元組的概率之比小于或等于該私密度比率。
      5.根據(jù)權利要求1-4中任一個的方法,其中向搜索用戶返回搜索結果的步驟包括將該搜索結果的平均相似度返回給搜索用戶,其中平均相似度為對于每一查詢條件該搜索結果與該查詢條件的相似度的平均值。
      6.根據(jù)權利要求5的方法,其中向搜索用戶返回搜索結果的步驟包括將所述搜索結果按平均相似度排序。
      7.根據(jù)權利要求1-4中任一個的方法,其中向搜索用戶返回搜索結果的步驟包括將該搜索結果的加權平均相似度返回給搜索用戶,其中加權平均相似度為對于每一查詢條件該搜索結果與該查詢條件的相似度的按與該查詢條件對應的權重的加權平均值。
      8.根據(jù)權利要求7的方法,其中向搜索用戶返回搜索結果的步驟包括將所述搜索結果按加權平均相似度排序。
      9.一種保密搜索設備,包括搜索引擎,被配置為接收來自搜索用戶的搜索請求;以及搜索結果確定器,被配置為基于保密策略確定返回給搜索用戶的搜索結果,其中搜索引擎還被配置為將搜索結果確定器確定的搜索結果返回搜索用戶。
      10.根據(jù)權利要求9的保密搜索設備,其中搜索結果確定器被配置為對搜索結果中元組的屬性的值進行概括,作為返回給搜索用戶的搜索結果。
      11.根據(jù)權利要求10的保密搜索設備,其中搜索結果確定器被配置為基于私密度比率將搜索結果中的元組的屬性的值改變?yōu)楦爬ㄖ?,其中該屬性的值是該概括值的子類,且根?jù)該概括值發(fā)現(xiàn)原始元組的概率與根據(jù)該屬性的值發(fā)現(xiàn)原始元組的概率之比小于或等于該私密度比率。
      12.根據(jù)權利要求9-11中的任一個的保密搜索設備,其中搜索結果確定器包括個性化隱私存貯器,被配置為存儲與敏感信息存貯器中的每一敏感數(shù)據(jù)對應的私密度比率;保密按屬性分層統(tǒng)計管理器,被配置為按屬性的值統(tǒng)計該屬性的值的覆蓋范圍,覆蓋范圍指敏感信息存貯器中有多少元組的該屬性為該值或該值的子類;個性化概括處理器,被配置為預先按照敏感信息存貯器中存儲的敏感信息、個性化隱私存貯器中存儲的私密度比率、以及保密按屬性分層統(tǒng)計管理器統(tǒng)計出的各屬性的值的覆蓋范圍,對敏感信息存貯器中的敏感信息進行概括,以使其符合個性化隱私存貯器存儲的私密度比率;以及非敏感概括數(shù)據(jù)存貯器,被配置為存儲個性化概括處理器概括成的信息。
      13.根據(jù)權利要求12的保密搜索設備,其中所述搜索引擎包括按屬性枚舉器,被配置為根據(jù)按照非敏感概括數(shù)據(jù)存貯器存儲的概括后的信息建立的屬性樹,枚舉分層屬性的值;所述搜索結果確定器包括按屬性分層統(tǒng)計管理器,被配置為統(tǒng)計按屬性枚舉器枚舉的屬性的值的覆蓋范圍,覆蓋范圍指非敏感概括數(shù)據(jù)存貯器中有多少元組的該屬性為該值或該值的子類,其中所述按屬性枚舉器按照所述按屬性分層統(tǒng)計管理器統(tǒng)計出的覆蓋范圍,計算搜索結果的平均相似度或加權平均相似度,并將其與搜索結果一同返回搜索用戶,其中平均相似度為對于每一查詢條件該搜索結果與該查詢條件的相似度的平均值;加權平均相似度為對于每一查詢條件該搜索結果與該查詢條件的相似度的按與該查詢條件對應的權重的加權平均值。
      14.根據(jù)權利要求9-11中任一個的保密搜索設備,其中搜索結果確定器包括個性化隱私存貯器,被配置為存儲與敏感信息存貯器中的每一敏感數(shù)據(jù)對應的私密度比率;保密按屬性分層統(tǒng)計管理器,被配置為按屬性的值統(tǒng)計該屬性的值的覆蓋范圍,覆蓋范圍指敏感信息存貯器中有多少元組的該屬性為該值或該值的子類;帶有概括功能的保密元組訪問器,被配置為響應于每次查詢,按照敏感信息存貯器中存儲的敏感信息、個性化隱私存貯器中存儲的私密度比率、以及保密按屬性分層統(tǒng)計管理器統(tǒng)計出的各屬性的值的覆蓋范圍,將查詢所對應的原始元組中的屬性的值概括為概括值。
      15.根據(jù)權利要求14的保密搜索設備,其中所述搜索引擎包括按屬性枚舉器,被配置為根據(jù)搜索結果,枚舉分層屬性的值;所述搜索結果確定器包括按屬性分層統(tǒng)計管理器,被配置為統(tǒng)計按屬性枚舉器枚舉的屬性的值的覆蓋范圍,覆蓋范圍指帶有概括功能的保密元組訪問器概括出的概括值的歷史中有多少元組的該屬性為該值或該值的子類,其中所述按屬性枚舉器按照所述按屬性分層統(tǒng)計管理器統(tǒng)計出的覆蓋范圍,計算搜索結果的平均相似度或加權平均相似度,并將其與搜索結果一同返回搜索用戶。
      16.根據(jù)權利要求13或15的保密搜索設備,其中將平均相似度或加權平均相似度與搜索結果一同返回搜索用戶時將所述搜索結果按平均相似度或加權平均相似度排序。
      17.一種計算機設備,包括根據(jù)權利要求9-16中的任一個的保密搜索設備。
      全文摘要
      本發(fā)明提供了用于保密搜索的方法、保密搜索設備、計算機設備。在一個實施例中,一種用于保密搜索的方法包括接收來自搜索用戶的搜索請求;基于保密策略確定返回給搜索用戶的搜索結果;及向搜索用戶返回搜索結果。本發(fā)明的一個實施例解決的一個問題是,在保密用戶隱私的同時在更大程度上共享用戶信息。
      文檔編號G06F17/30GK102955824SQ20111025346
      公開日2013年3月6日 申請日期2011年8月31日 優(yōu)先權日2011年8月31日
      發(fā)明者烏辰洋, 曹鋒 申請人:國際商業(yè)機器公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1