国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種計算web信息相關(guān)性的算法的制作方法

      文檔序號:6613080閱讀:179來源:國知局
      專利名稱:一種計算web信息相關(guān)性的算法的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種語義網(wǎng)絡(luò)中WEB信息相關(guān)性的一種計算方法,尤其是 用于互聯(lián)網(wǎng)樹狀結(jié)構(gòu)連接的計算WEB信息相關(guān)性的方法。
      背景技術(shù)
      首先介紹一下時間和狀態(tài)都離散的馬爾科夫過程稱為馬爾科夫鏈,記作 {Xn = X(n),n = 0,l,2,...},在時間集T1 = {0,1,2,...}上對離散狀態(tài)的過程相繼 觀察的結(jié)果,鏈的狀態(tài)空間記做I = {al, a2,...}, aiGR.條件概率Pij (m ,m+n)=P{Xm+n = aj|Xm = ai}為馬氏鏈在時刻m處于狀態(tài)ai條件下,在 時刻m+n轉(zhuǎn)移到狀態(tài)aj的轉(zhuǎn)移概率。
      PageRank(網(wǎng)頁級別),這是由Google創(chuàng)始人Larry Page和Sergey Brin 在斯坦福大學(xué)開發(fā)出的一套用于網(wǎng)頁評級的系統(tǒng),網(wǎng)頁級別是所有Google 網(wǎng)絡(luò)搜索工具的基礎(chǔ)。作為組織管理工具,網(wǎng)頁級別利用了互聯(lián)網(wǎng)獨特的民 主特性及其巨大的鏈接結(jié)構(gòu)。實質(zhì)上,當(dāng)從網(wǎng)頁A鏈接到網(wǎng)頁B時,Google 就認為"網(wǎng)頁A投了網(wǎng)頁B —票"。Google根據(jù)網(wǎng)頁的得票數(shù)評定其重要 性。然而,除了考慮網(wǎng)頁得票數(shù)(即鏈接)的純數(shù)量之外,Google還要分 析投票的網(wǎng)頁。"重要"的網(wǎng)頁所投出的票就會有更高的權(quán)重,并且有助于提 高其它網(wǎng)頁的"重要性"。
      重要的、高質(zhì)量的網(wǎng)頁會獲得較高的網(wǎng)頁級別。Google在排列其搜索 結(jié)果時,都會考慮每個網(wǎng)頁的級別。當(dāng)然,如果不能滿足您的查詢要求,網(wǎng) 頁級別再高對您來說也毫無意義。因此,Google將網(wǎng)頁級別與完善的文本匹 配技術(shù)結(jié)合在一起,為您找到最重要、最有用的網(wǎng)頁。Google所關(guān)注的遠 不只是關(guān)鍵詞在網(wǎng)頁上出現(xiàn)的次數(shù),它還對該網(wǎng)頁的內(nèi)容(以及該網(wǎng)頁所鏈 接的內(nèi)容)進行全面檢查,從而確定該網(wǎng)頁是否滿足您的查詢要求。
      Google以其復(fù)雜而全自動的搜索方法排除了任何人為因素對搜索結(jié)果 的影響。雖然Google也在搜索結(jié)果旁刊登相關(guān)廣告,但沒人能花錢買到更 高的網(wǎng)頁級別,從而保證了網(wǎng)頁排名的客觀公正。
      但是目前互聯(lián)網(wǎng)傳統(tǒng)應(yīng)用,信息基本上是樹狀的,且僅有有限的層級關(guān) 系(<5)。這種互聯(lián)網(wǎng)應(yīng)用的模型,不適合計算信息之間的關(guān)系,其計算量 會隨著信息點的數(shù)量的增加,而成指數(shù)增長,在數(shù)據(jù)量達到近百萬量級時,就有些力不從心了。

      發(fā)明內(nèi)容
      本發(fā)明是為了解決上述存在的問題的一種計算WEB信息相關(guān)性的算法, 本發(fā)明提供一種用于互聯(lián)網(wǎng)樹狀結(jié)構(gòu)連接的計算WEB信息相關(guān)性的方法, 該方法包括節(jié)點等級的計算和關(guān)系的權(quán)值計算,其中
      1) 節(jié)點等級nP節(jié)點的訪問次數(shù)Aml+n21節(jié)點的訪問次數(shù)/(節(jié)點的 被引用個數(shù)+b)"m2 + n3 *節(jié)點的被引用個數(shù)Am3 ,
      其中nl,n2,n3為系數(shù)參數(shù)常量,b為調(diào)整參數(shù)常量,ml,m2,m3為指數(shù)參 數(shù)常量,系數(shù)參數(shù)常量用來確定所對應(yīng)的因素的重要性,調(diào)整參數(shù)常量用來 調(diào)整相應(yīng)因素的影響,指數(shù)參數(shù)常量用來保證節(jié)點等級的計算的增長率是收 斂的;
      2) W-W"衰減系數(shù)入+( U- U'),其中U為當(dāng)天的計算權(quán)值,其與過去 權(quán)值無關(guān),其計算公式如下-
      LNn"經(jīng)A訪問B的次數(shù)Aml + n2*((B的訪問次數(shù)-經(jīng)A訪問B的次 數(shù))/(B的被引用個數(shù)+b)"m2 + n4* B的等級Am4,
      A和B是網(wǎng)狀結(jié)構(gòu)中的兩個節(jié)點,U'為上一回的計算權(quán)值,W為當(dāng)前有 效權(quán)值,W'為上回的有效權(quán)值,W的公式表明了當(dāng)前有效權(quán)值等于計算權(quán)值 的凈值加上對過去有效權(quán)值的部分繼承,而當(dāng)天計算權(quán)值則和經(jīng)A訪問B的 次數(shù)、B的訪問次數(shù)、B的被引用個數(shù)和B的等級相關(guān),公式2)的參數(shù)含 義和公式l)的相同。
      參數(shù)的確定
      衰減系數(shù)入
      衰減系數(shù)入主要用來對過去累積的有效權(quán)值的部分繼承,用來弱化過去 數(shù)據(jù)的影響,大小在(0,1)范圍內(nèi),經(jīng)驗值為0.998(此值一年衰減近一半)。
      B的訪問次數(shù)
      在經(jīng)A訪問B的次數(shù)和B的被引用個數(shù)不變的情況下,其當(dāng)天計算權(quán) 值的大小跟B的訪問次數(shù)呈指數(shù)小于1的關(guān)系。
      經(jīng)A訪問B的次數(shù)在經(jīng)過非A訪問B的訪問次數(shù)和B的被引用個數(shù)不變的情況下,其當(dāng)天 計算權(quán)值的大小跟經(jīng)A訪問B的次數(shù)呈指數(shù)小于1的關(guān)系。
      B的被引用個數(shù)
      .在經(jīng)A訪問B的次數(shù)和B的訪問次數(shù)不變的情況下,其當(dāng)天計算權(quán)值的 大小跟B的被引用個數(shù)呈指數(shù)小于1的關(guān)系。
      綜合因素(B訪問次數(shù)的影響、經(jīng)A訪問B的次數(shù)和B的被引用個數(shù))
      在上面三個因素影響下,其當(dāng)天計算權(quán)值的大小跟這三個因素呈指數(shù)小 于1的關(guān)系,這樣隨著關(guān)系權(quán)值的不斷增大,權(quán)值的增長率會降低,繼續(xù)增 加權(quán)值的難度變大。
      經(jīng)上述結(jié)論,對于系數(shù)參數(shù),根據(jù)所對應(yīng)的因素影響的重要性來確定, 如果所對應(yīng)的因素越重要,則系數(shù)相應(yīng)越大;對于指數(shù)參數(shù)常量,則必須滿 足(0,1)的范圍(m4除外,可以為l),如果大于l,則權(quán)值會呈現(xiàn)指數(shù)級增長。
      圖l是前端系統(tǒng)構(gòu)架原理圖2是總的關(guān)系計算流程;
      圖3是單個日志文件分析過程圖;
      圖4是多個日志文件分析過程圖;
      圖5是關(guān)系計算總圖6是關(guān)系計算過程圖7是節(jié)點全息信息輸出過程圖;
      圖8是合并更新時序圖9是計算框架

      圖10是分布式架構(gòu)圖。
      具體實施方式
      本發(fā)明使用如下一種用于互聯(lián)網(wǎng)樹狀結(jié)構(gòu)連接的計算WEB信息相關(guān)性 的算法,該算法包括節(jié)點等級的計算和關(guān)系的權(quán)值計算,其中
      1) 節(jié)點等級=111*節(jié)點的訪問次數(shù)八1111+112*(節(jié)點的訪問次數(shù)/(節(jié)點的 被引用個數(shù)+b)) Am2 + n3 *節(jié)點的被引用個數(shù)Am3 ,
      其中nl,n2,n3為系數(shù)參數(shù)常量,b為調(diào)整參數(shù)常量,ml,m2,m3為指數(shù)參 數(shù)常量,系數(shù)參數(shù)常量用來確定所對應(yīng)的因素的重要性,調(diào)整參數(shù)常量用來 調(diào)整相應(yīng)因素的影響,指數(shù)參數(shù)常量用來保證節(jié)點等級的計算的增長率是收 斂的;
      2) W-W^衰減系數(shù)A+( U- U'),其中U為當(dāng)天的計算權(quán)值,其與過去 權(quán)值無關(guān),其計算公式如下
      1>111*經(jīng)A訪問B的次數(shù)Aml + n2*((B的訪問次數(shù)-經(jīng)A訪問B的次 數(shù))/(B的被引用個數(shù)+b))Am2 + n4* B的等級Am4,
      A和B是網(wǎng)狀結(jié)構(gòu)中的兩個節(jié)點,U'為上一回的計算權(quán)值,W為當(dāng)前有 效權(quán)值,W'為上回的有效權(quán)值,W的公式表明了當(dāng)前有效權(quán)值等于計算權(quán)值 的凈值加上對過去有效權(quán)值的部分繼承,而當(dāng)天計算權(quán)值則和經(jīng)A訪問B的 次數(shù)、B的訪問次數(shù)、B的被引用個數(shù)和B的等級相關(guān),公式2)的參數(shù)含 義和公式l)的相同。
      參數(shù)的確定
      衰減系數(shù)入
      衰減系數(shù)入主要用來對過去累積的有效權(quán)值的部分繼承,用來弱化過去 數(shù)據(jù)的影響,大小在(0,1)范圍內(nèi),經(jīng)驗值為0.998(此值一年衰減近一半)。
      B的訪問次數(shù)
      在經(jīng)A訪問B的次數(shù)和B的被引用個數(shù)不變的情況下,其當(dāng)天計算權(quán) 值的大小跟B的訪問次數(shù)呈指數(shù)小于1的關(guān)系。
      經(jīng)A訪問B的次數(shù)
      在經(jīng)過非A訪問B的訪問次數(shù)和B的被引用個數(shù)不變的情況下,其當(dāng) 天計算權(quán)值的大小跟經(jīng)A訪問B的次數(shù)呈指數(shù)小于1的關(guān)系。
      B的被引用個數(shù)
      在經(jīng)A訪問B的次數(shù)和B的訪問次數(shù)不變的情況下,其當(dāng)天計算權(quán)值 的大小跟B的被引用個數(shù)呈指數(shù)小于1的關(guān)系。綜合因素(B訪問次數(shù)的影響、經(jīng)A訪問B的次數(shù)和B的被引用個數(shù))
      在上面三個因素影響下,其當(dāng)天計算權(quán)值的大小跟這三個因素呈指數(shù)小 于1的關(guān)系,這樣隨著關(guān)系權(quán)值的不斷增大,權(quán)值的增長率會降低,繼續(xù)增 加權(quán)值的難度變大。
      其中,實現(xiàn)本發(fā)明的方法的是一個前端系統(tǒng)構(gòu)架,其中該前端系統(tǒng)構(gòu)架 包括,頁面顯示模塊(web),權(quán)限管理模塊(authorization),用戶管理模塊
      (user),內(nèi)容呈現(xiàn)模塊(content),內(nèi)容編輯模塊(editing),臨時數(shù)據(jù)收集模 塊(tempdata),嵌入式內(nèi)容(插件)模塊(embedded),站內(nèi)搜索(search), 數(shù)據(jù)訪問層(persistence), MySQL JDBC封裝模塊(persistence.JDBC), XML 文件讀寫模塊(persistence.xml ),日志模塊(logging),文件上傳模塊
      (uploading),頁面抓取模塊(robot), MySQL內(nèi)容數(shù)據(jù)庫,MySQL臨時數(shù) 據(jù)庫以及文件系統(tǒng),其結(jié)構(gòu)如附圖1。具體關(guān)系計算過程的完成由數(shù)據(jù)訪問層 (persistence)下部的MySQL JDBC封裝模塊(persistence.JDBC), XML文件讀 寫模塊(persistence.xml),日志模塊(logging),文件上傳模塊(uploading), 頁面抓取模塊(robot), MySQL內(nèi)容數(shù)據(jù)庫,MySQL臨時數(shù)據(jù)庫以及文件系 統(tǒng)幾個部分來完成。
      后臺計算主要要完成以下功能
      1) 得到每個節(jié)點的前n個二元關(guān)系排名與前m個三元關(guān)系排名,以及所 有二元關(guān)系排名。排名依賴于關(guān)系的權(quán)值和特殊處理文件(文件中規(guī)定了某 些關(guān)系的排名)。
      2) 根據(jù)每天的刪除文件,刪除節(jié)點和關(guān)系。
      總的關(guān)系處理流程見圖2,整個過程包括三個步驟,分別是日志分析、關(guān) 系計算和節(jié)點全息信息(節(jié)點的所有相關(guān)信息,包括節(jié)點自身的信息,節(jié)點 所擁有的二元關(guān)系,三元關(guān)系等)輸出。
      日志分析
      日志分析是關(guān)系計算的準備工作,日志分析又分為單Log文件分析(針 對一天的log分析)和多Log文件分析(多天的log分析,主要用來類似于 DB的日志恢復(fù))。
      單Log文件分析過程見圖3,經(jīng)過日志分析,得到節(jié)點文件、二元關(guān)系 文件、三元關(guān)系文件這三個文件。
      多Log文件分析過程見圖4,首先對每個Log文件進行單Log文件分析,
      7得到一系列文件,然后進行外部歸并排序過程,產(chǎn)生所需的節(jié)點文件、二元 關(guān)系文件、三元關(guān)系文件這三個文件。
      關(guān)系計算
      關(guān)系計算是整個流程的核心,其過程也最復(fù)雜。圖5展示了關(guān)系計算的 總圖。將原有的文件與新的文件進行合并,并在合并二元關(guān)系的過程中計算 關(guān)系的新的權(quán)值,并更新節(jié)點的信息。合并更新過程如圖6,在整個處理過程
      中,所有文件只需被遍歷一次,這減少了i/o訪問量。
      節(jié)點全息信息輸出'
      如圖7所示,將更新后的節(jié)點信息,與每個節(jié)點的二元關(guān)系全排序的信 息輸出到xml文件中。
      關(guān)系計算及輸出時序圖
      關(guān)系計算及輸出時序圖如圖8,此圖展示了關(guān)系計算和輸出的時序關(guān)系。 計算框架
      計算框架如圖9,考慮到為了支持更大的節(jié)點數(shù)(超過1000萬時),架構(gòu) 應(yīng)采用分布式架構(gòu)(圖IO)。如果節(jié)點數(shù)在1000萬以內(nèi),采用集中式架構(gòu)。
      其中計算框架包括
      1) 磁盤I/0特別是尋道直接影響了計算的性能,所以采用多個磁盤的方 式有利于提高I/0性能。
      2) 計算線程的個數(shù)取決于CPU的個數(shù)和計算量的大小。
      3) 有幾個要待寫的文件,就應(yīng)該有幾個寫線程,相應(yīng)的有幾個寫磁盤。
      4) 對每個文件讀或者寫,應(yīng)該有一條相應(yīng)的循環(huán)鏈表或者隊列來緩存數(shù)據(jù)。
      5) 輸出節(jié)點全息信息這個過程是最大的瓶頸,因為每輸出一個節(jié)點xml 文件,就需flush—次??煽紤]用多磁盤來解決此問題,或者用磁盤陣列。
      6) 節(jié)點信息必須在同一內(nèi)存空間,關(guān)系權(quán)值計算可以分布計算,也可以 集中計算。如果支持的節(jié)點數(shù)大于1000萬個,則應(yīng)該采用共享內(nèi)存的并行計 算模式(多臺計算機,共享內(nèi)存,光纜相連)。如果小于此數(shù),可以采用集中 式計算模式(一臺性能良好的計算機,多cpu,多磁盤或者磁盤陣列)。7)對于分布式計算模式(如圖10),由主服務(wù)器進行l(wèi)og分析得到新的 數(shù)據(jù)文件(包括節(jié)點文件,二元關(guān)系文件,三元關(guān)系文件),節(jié)點信息在共享內(nèi) 存中,將二元關(guān)系和三元關(guān)系信息分發(fā)到各個服務(wù)器中,每個服務(wù)器存放著
      相應(yīng)的舊的二元關(guān)系文件和三元關(guān)系文件,分別進行關(guān)系的合并與關(guān)系權(quán)值 計算,并將得到的節(jié)點信息輸入到相應(yīng)的xml文件中。
      通過運用本方法,解決了目前互聯(lián)網(wǎng)傳統(tǒng)應(yīng)用的樹狀信息結(jié)構(gòu)不適合計算 信息之間的關(guān)系的問題。當(dāng)數(shù)據(jù)量達到近百萬量級時,也可以快速的進行計 算。
      權(quán)利要求
      1、一種用于互聯(lián)網(wǎng)樹狀結(jié)構(gòu)連接的計算WEB信息相關(guān)性的方法,該方法包括節(jié)點等級的計算和關(guān)系的權(quán)值計算,其中1)節(jié)點等級=n1*節(jié)點的訪問次數(shù)^m1+n2*(節(jié)點的訪問次數(shù)/(節(jié)點的被引用個數(shù)+b))^m2+n3*節(jié)點的被引用個數(shù)^m3,其中n1,n2,n3為系數(shù)參數(shù)常量,b為調(diào)整參數(shù)常量,m1,m2,m3為指數(shù)參數(shù)常量,系數(shù)參數(shù)常量用來確定所對應(yīng)的因素的重要性,調(diào)整參數(shù)常量用來調(diào)整相應(yīng)因素的影響,指數(shù)參數(shù)常量用來保證節(jié)點等級的計算的增長率是收斂的;2)W=W′*衰減系數(shù)λ+(U-U′),其中U為當(dāng)天的計算權(quán)值,其與過去權(quán)值無關(guān),其計算公式如下U=n1*經(jīng)A訪問B的次數(shù)^m1+n2*((B的訪問次數(shù)-經(jīng)A訪問B的次數(shù))/(B的被引用個數(shù)+b))^m2+n4*B的等級^m4,A和B是網(wǎng)狀結(jié)構(gòu)中的兩個節(jié)點,U′為上一回的計算權(quán)值,W為當(dāng)前有效權(quán)值,W′為上回的有效權(quán)值,W的公式表明了當(dāng)前有效權(quán)值等于計算權(quán)值的凈值加上對過去有效權(quán)值的部分繼承,而當(dāng)天計算權(quán)值則和經(jīng)A訪問B的次數(shù)、B的訪問次數(shù)、B的被引用個數(shù)和B的等級相關(guān),公式2)的參數(shù)含義和公式1)的相同。
      2、 如權(quán)利要求1所述的方法,其中所述衰減系數(shù)入用于對過去累積的有 效權(quán)值的部分繼承,用來弱化過去數(shù)據(jù)的影響,大小在(0,1)范圍內(nèi),經(jīng)驗值為 0駕。
      3、 如權(quán)利要求2所述的方法,其中在經(jīng)A訪問B的次數(shù)和B的被引用 個數(shù)不變的情況下,其當(dāng)天計算權(quán)值的大小跟B的訪問次數(shù)呈指數(shù)小于1的關(guān) 系。
      4、 如權(quán)利要求2所述的方法,其中在經(jīng)過非A訪問B的訪問次數(shù)和B 的被引用個數(shù)不變的情況下,其當(dāng)天計算權(quán)值的大小跟經(jīng)A訪問B的次數(shù)呈指 數(shù)小于l的關(guān)系。
      5、 如權(quán)利要求2所述的方法,其中在經(jīng)A訪問B的次數(shù)和B的訪問次 數(shù)不變的情況下,其當(dāng)天計算權(quán)值的大小跟B的被引用個數(shù)呈指數(shù)小于1的關(guān) 系。
      全文摘要
      一種用于互聯(lián)網(wǎng)樹狀結(jié)構(gòu)連接的計算WEB信息相關(guān)性的方法,該方法包括節(jié)點等級的計算和關(guān)系的權(quán)值計算,其中1)節(jié)點等級=n1*節(jié)點的訪問次數(shù)^m1+n2*(節(jié)點的訪問次數(shù)/(節(jié)點的被引用個數(shù)+b))^m2+n3*節(jié)點的被引用個數(shù)^m3;2)W=W′*衰減系數(shù)λ+(U-U′),其中U為當(dāng)天的計算權(quán)值,其與過去權(quán)值無關(guān),其計算公式如下U=n1*經(jīng)A訪問B的次數(shù)^m1+n2*((B的訪問次數(shù)-經(jīng)A訪問B的次數(shù))/(B的被引用個數(shù)+b))^m2+n4*B的等級^m4,A和B是網(wǎng)狀結(jié)構(gòu)中的兩個節(jié)點,U′為上一回的計算權(quán)值,W為當(dāng)前有效權(quán)值,W′為上回的有效權(quán)值,W的公式表明了當(dāng)前有效權(quán)值等于計算權(quán)值的凈值加上對過去有效權(quán)值的部分繼承,而當(dāng)天計算權(quán)值則和經(jīng)A訪問B的次數(shù)、B的訪問次數(shù)、B的被引用個數(shù)和B的等級相關(guān)。
      文檔編號G06Q10/00GK101309255SQ20071016633
      公開日2008年11月19日 申請日期2007年11月7日 優(yōu)先權(quán)日2007年11月7日
      發(fā)明者李亞歐 申請人:李亞歐
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1