一種計算web信息相關(guān)性的算法的制作方法

文檔序號：6613080閱讀：179來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種計算web信息相關(guān)性的算法的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種語義網(wǎng)絡(luò)中WEB信息相關(guān)性的一種計算方法，尤其是用于互聯(lián)網(wǎng)樹狀結(jié)構(gòu)連接的計算WEB信息相關(guān)性的方法。
背景技術(shù)：
首先介紹一下時間和狀態(tài)都離散的馬爾科夫過程稱為馬爾科夫鏈，記作 {Xn = X(n),n = 0，l，2,...}，在時間集T1 = {0,1，2，...}上對離散狀態(tài)的過程相繼觀察的結(jié)果，鏈的狀態(tài)空間記做I = {al, a2,...}， aiGR.條件概率Pij (m ，m+n)=P{Xm+n = aj|Xm = ai}為馬氏鏈在時刻m處于狀態(tài)ai條件下，在時刻m+n轉(zhuǎn)移到狀態(tài)aj的轉(zhuǎn)移概率。
PageRank(網(wǎng)頁級別)，這是由Google創(chuàng)始人Larry Page和Sergey Brin 在斯坦福大學(xué)開發(fā)出的一套用于網(wǎng)頁評級的系統(tǒng)，網(wǎng)頁級別是所有Google 網(wǎng)絡(luò)搜索工具的基礎(chǔ)。作為組織管理工具，網(wǎng)頁級別利用了互聯(lián)網(wǎng)獨特的民主特性及其巨大的鏈接結(jié)構(gòu)。實質(zhì)上，當(dāng)從網(wǎng)頁A鏈接到網(wǎng)頁B時，Google 就認為"網(wǎng)頁A投了網(wǎng)頁B —票"。Google根據(jù)網(wǎng)頁的得票數(shù)評定其重要性。然而，除了考慮網(wǎng)頁得票數(shù)(即鏈接)的純數(shù)量之外，Google還要分析投票的網(wǎng)頁。"重要"的網(wǎng)頁所投出的票就會有更高的權(quán)重，并且有助于提高其它網(wǎng)頁的"重要性"。
重要的、高質(zhì)量的網(wǎng)頁會獲得較高的網(wǎng)頁級別。Google在排列其搜索結(jié)果時，都會考慮每個網(wǎng)頁的級別。當(dāng)然，如果不能滿足您的查詢要求，網(wǎng) 頁級別再高對您來說也毫無意義。因此，Google將網(wǎng)頁級別與完善的文本匹配技術(shù)結(jié)合在一起，為您找到最重要、最有用的網(wǎng)頁。Google所關(guān)注的遠不只是關(guān)鍵詞在網(wǎng)頁上出現(xiàn)的次數(shù)，它還對該網(wǎng)頁的內(nèi)容(以及該網(wǎng)頁所鏈接的內(nèi)容)進行全面檢查，從而確定該網(wǎng)頁是否滿足您的查詢要求。
Google以其復(fù)雜而全自動的搜索方法排除了任何人為因素對搜索結(jié)果的影響。雖然Google也在搜索結(jié)果旁刊登相關(guān)廣告，但沒人能花錢買到更高的網(wǎng)頁級別，從而保證了網(wǎng)頁排名的客觀公正。
但是目前互聯(lián)網(wǎng)傳統(tǒng)應(yīng)用，信息基本上是樹狀的，且僅有有限的層級關(guān) 系(<5)。這種互聯(lián)網(wǎng)應(yīng)用的模型，不適合計算信息之間的關(guān)系，其計算量會隨著信息點的數(shù)量的增加，而成指數(shù)增長，在數(shù)據(jù)量達到近百萬量級時，就有些力不從心了。

發(fā)明內(nèi)容
本發(fā)明是為了解決上述存在的問題的一種計算WEB信息相關(guān)性的算法，本發(fā)明提供一種用于互聯(lián)網(wǎng)樹狀結(jié)構(gòu)連接的計算WEB信息相關(guān)性的方法，該方法包括節(jié)點等級的計算和關(guān)系的權(quán)值計算，其中
1) 節(jié)點等級nP節(jié)點的訪問次數(shù)Aml+n21節(jié)點的訪問次數(shù)/(節(jié)點的被引用個數(shù)+b)"m2 + n3 *節(jié)點的被引用個數(shù)Am3 ，
其中nl,n2,n3為系數(shù)參數(shù)常量，b為調(diào)整參數(shù)常量，ml,m2，m3為指數(shù)參數(shù)常量，系數(shù)參數(shù)常量用來確定所對應(yīng)的因素的重要性，調(diào)整參數(shù)常量用來調(diào)整相應(yīng)因素的影響，指數(shù)參數(shù)常量用來保證節(jié)點等級的計算的增長率是收斂的；
2) W-W"衰減系數(shù)入+( U- U')，其中U為當(dāng)天的計算權(quán)值，其與過去權(quán)值無關(guān)，其計算公式如下-
LNn"經(jīng)A訪問B的次數(shù)Aml + n2*((B的訪問次數(shù)-經(jīng)A訪問B的次數(shù))/(B的被引用個數(shù)+b)"m2 + n4* B的等級Am4，
A和B是網(wǎng)狀結(jié)構(gòu)中的兩個節(jié)點，U'為上一回的計算權(quán)值，W為當(dāng)前有效權(quán)值，W'為上回的有效權(quán)值，W的公式表明了當(dāng)前有效權(quán)值等于計算權(quán)值的凈值加上對過去有效權(quán)值的部分繼承，而當(dāng)天計算權(quán)值則和經(jīng)A訪問B的次數(shù)、B的訪問次數(shù)、B的被引用個數(shù)和B的等級相關(guān)，公式2)的參數(shù)含義和公式l)的相同。
參數(shù)的確定
衰減系數(shù)入
衰減系數(shù)入主要用來對過去累積的有效權(quán)值的部分繼承，用來弱化過去數(shù)據(jù)的影響，大小在(0,1)范圍內(nèi)，經(jīng)驗值為0.998(此值一年衰減近一半)。
B的訪問次數(shù)
在經(jīng)A訪問B的次數(shù)和B的被引用個數(shù)不變的情況下，其當(dāng)天計算權(quán) 值的大小跟B的訪問次數(shù)呈指數(shù)小于1的關(guān)系。
經(jīng)A訪問B的次數(shù)在經(jīng)過非A訪問B的訪問次數(shù)和B的被引用個數(shù)不變的情況下，其當(dāng)天計算權(quán)值的大小跟經(jīng)A訪問B的次數(shù)呈指數(shù)小于1的關(guān)系。
B的被引用個數(shù)
.在經(jīng)A訪問B的次數(shù)和B的訪問次數(shù)不變的情況下，其當(dāng)天計算權(quán)值的大小跟B的被引用個數(shù)呈指數(shù)小于1的關(guān)系。
綜合因素(B訪問次數(shù)的影響、經(jīng)A訪問B的次數(shù)和B的被引用個數(shù))
在上面三個因素影響下，其當(dāng)天計算權(quán)值的大小跟這三個因素呈指數(shù)小于1的關(guān)系，這樣隨著關(guān)系權(quán)值的不斷增大，權(quán)值的增長率會降低，繼續(xù)增加權(quán)值的難度變大。
經(jīng)上述結(jié)論，對于系數(shù)參數(shù)，根據(jù)所對應(yīng)的因素影響的重要性來確定，如果所對應(yīng)的因素越重要，則系數(shù)相應(yīng)越大；對于指數(shù)參數(shù)常量，則必須滿足(0，1)的范圍(m4除外，可以為l),如果大于l，則權(quán)值會呈現(xiàn)指數(shù)級增長。
圖l是前端系統(tǒng)構(gòu)架原理圖2是總的關(guān)系計算流程；
圖3是單個日志文件分析過程圖;
圖4是多個日志文件分析過程圖;
圖5是關(guān)系計算總圖6是關(guān)系計算過程圖7是節(jié)點全息信息輸出過程圖;
圖8是合并更新時序圖9是計算框架

圖10是分布式架構(gòu)圖。
具體實施方式
本發(fā)明使用如下一種用于互聯(lián)網(wǎng)樹狀結(jié)構(gòu)連接的計算WEB信息相關(guān)性的算法，該算法包括節(jié)點等級的計算和關(guān)系的權(quán)值計算，其中
1) 節(jié)點等級=111*節(jié)點的訪問次數(shù)八1111+112*(節(jié)點的訪問次數(shù)/(節(jié)點的被引用個數(shù)+b)) Am2 + n3 *節(jié)點的被引用個數(shù)Am3 ，
其中nl,n2，n3為系數(shù)參數(shù)常量，b為調(diào)整參數(shù)常量，ml,m2，m3為指數(shù)參數(shù)常量，系數(shù)參數(shù)常量用來確定所對應(yīng)的因素的重要性，調(diào)整參數(shù)常量用來調(diào)整相應(yīng)因素的影響，指數(shù)參數(shù)常量用來保證節(jié)點等級的計算的增長率是收斂的；
2) W-W^衰減系數(shù)A+( U- U')，其中U為當(dāng)天的計算權(quán)值，其與過去權(quán)值無關(guān)，其計算公式如下
1>111*經(jīng)A訪問B的次數(shù)Aml + n2*((B的訪問次數(shù)-經(jīng)A訪問B的次數(shù))/(B的被引用個數(shù)+b))Am2 + n4* B的等級Am4，
A和B是網(wǎng)狀結(jié)構(gòu)中的兩個節(jié)點，U'為上一回的計算權(quán)值，W為當(dāng)前有效權(quán)值，W'為上回的有效權(quán)值，W的公式表明了當(dāng)前有效權(quán)值等于計算權(quán)值的凈值加上對過去有效權(quán)值的部分繼承，而當(dāng)天計算權(quán)值則和經(jīng)A訪問B的次數(shù)、B的訪問次數(shù)、B的被引用個數(shù)和B的等級相關(guān)，公式2)的參數(shù)含義和公式l)的相同。
參數(shù)的確定
衰減系數(shù)入
衰減系數(shù)入主要用來對過去累積的有效權(quán)值的部分繼承，用來弱化過去數(shù)據(jù)的影響，大小在(0,1)范圍內(nèi)，經(jīng)驗值為0.998(此值一年衰減近一半)。
B的訪問次數(shù)
在經(jīng)A訪問B的次數(shù)和B的被引用個數(shù)不變的情況下，其當(dāng)天計算權(quán) 值的大小跟B的訪問次數(shù)呈指數(shù)小于1的關(guān)系。
經(jīng)A訪問B的次數(shù)
在經(jīng)過非A訪問B的訪問次數(shù)和B的被引用個數(shù)不變的情況下，其當(dāng) 天計算權(quán)值的大小跟經(jīng)A訪問B的次數(shù)呈指數(shù)小于1的關(guān)系。
B的被引用個數(shù)
在經(jīng)A訪問B的次數(shù)和B的訪問次數(shù)不變的情況下，其當(dāng)天計算權(quán)值的大小跟B的被引用個數(shù)呈指數(shù)小于1的關(guān)系。綜合因素(B訪問次數(shù)的影響、經(jīng)A訪問B的次數(shù)和B的被引用個數(shù))
在上面三個因素影響下，其當(dāng)天計算權(quán)值的大小跟這三個因素呈指數(shù)小于1的關(guān)系，這樣隨著關(guān)系權(quán)值的不斷增大，權(quán)值的增長率會降低，繼續(xù)增加權(quán)值的難度變大。
其中，實現(xiàn)本發(fā)明的方法的是一個前端系統(tǒng)構(gòu)架，其中該前端系統(tǒng)構(gòu)架包括，頁面顯示模塊(web)，權(quán)限管理模塊(authorization),用戶管理模塊
(user),內(nèi)容呈現(xiàn)模塊(content),內(nèi)容編輯模塊(editing),臨時數(shù)據(jù)收集模塊(tempdata)，嵌入式內(nèi)容(插件)模塊(embedded),站內(nèi)搜索(search), 數(shù)據(jù)訪問層(persistence), MySQL JDBC封裝模塊(persistence.JDBC), XML 文件讀寫模塊(persistence.xml )，日志模塊(logging),文件上傳模塊
(uploading),頁面抓取模塊(robot), MySQL內(nèi)容數(shù)據(jù)庫，MySQL臨時數(shù) 據(jù)庫以及文件系統(tǒng)，其結(jié)構(gòu)如附圖1。具體關(guān)系計算過程的完成由數(shù)據(jù)訪問層 (persistence)下部的MySQL JDBC封裝模塊(persistence.JDBC), XML文件讀寫模塊(persistence.xml),日志模塊(logging),文件上傳模塊(uploading), 頁面抓取模塊(robot), MySQL內(nèi)容數(shù)據(jù)庫，MySQL臨時數(shù)據(jù)庫以及文件系統(tǒng)幾個部分來完成。
后臺計算主要要完成以下功能
1) 得到每個節(jié)點的前n個二元關(guān)系排名與前m個三元關(guān)系排名，以及所有二元關(guān)系排名。排名依賴于關(guān)系的權(quán)值和特殊處理文件(文件中規(guī)定了某些關(guān)系的排名)。
2) 根據(jù)每天的刪除文件，刪除節(jié)點和關(guān)系。
總的關(guān)系處理流程見圖2，整個過程包括三個步驟，分別是日志分析、關(guān) 系計算和節(jié)點全息信息(節(jié)點的所有相關(guān)信息，包括節(jié)點自身的信息，節(jié)點所擁有的二元關(guān)系，三元關(guān)系等)輸出。
日志分析
日志分析是關(guān)系計算的準備工作，日志分析又分為單Log文件分析(針對一天的log分析)和多Log文件分析(多天的log分析，主要用來類似于 DB的日志恢復(fù))。
單Log文件分析過程見圖3,經(jīng)過日志分析，得到節(jié)點文件、二元關(guān)系文件、三元關(guān)系文件這三個文件。
多Log文件分析過程見圖4,首先對每個Log文件進行單Log文件分析,
7得到一系列文件，然后進行外部歸并排序過程，產(chǎn)生所需的節(jié)點文件、二元關(guān)系文件、三元關(guān)系文件這三個文件。
關(guān)系計算
關(guān)系計算是整個流程的核心，其過程也最復(fù)雜。圖5展示了關(guān)系計算的總圖。將原有的文件與新的文件進行合并，并在合并二元關(guān)系的過程中計算關(guān)系的新的權(quán)值，并更新節(jié)點的信息。合并更新過程如圖6，在整個處理過程
中，所有文件只需被遍歷一次，這減少了i/o訪問量。
節(jié)點全息信息輸出'
如圖7所示，將更新后的節(jié)點信息，與每個節(jié)點的二元關(guān)系全排序的信息輸出到xml文件中。
關(guān)系計算及輸出時序圖
關(guān)系計算及輸出時序圖如圖8，此圖展示了關(guān)系計算和輸出的時序關(guān)系。計算框架
計算框架如圖9，考慮到為了支持更大的節(jié)點數(shù)(超過1000萬時)，架構(gòu) 應(yīng)采用分布式架構(gòu)(圖IO)。如果節(jié)點數(shù)在1000萬以內(nèi)，采用集中式架構(gòu)。
其中計算框架包括
1) 磁盤I/0特別是尋道直接影響了計算的性能，所以采用多個磁盤的方式有利于提高I/0性能。
2) 計算線程的個數(shù)取決于CPU的個數(shù)和計算量的大小。
3) 有幾個要待寫的文件，就應(yīng)該有幾個寫線程，相應(yīng)的有幾個寫磁盤。
4) 對每個文件讀或者寫，應(yīng)該有一條相應(yīng)的循環(huán)鏈表或者隊列來緩存數(shù)據(jù)。
5) 輸出節(jié)點全息信息這個過程是最大的瓶頸，因為每輸出一個節(jié)點xml 文件，就需flush—次?？煽紤]用多磁盤來解決此問題，或者用磁盤陣列。
6) 節(jié)點信息必須在同一內(nèi)存空間，關(guān)系權(quán)值計算可以分布計算，也可以集中計算。如果支持的節(jié)點數(shù)大于1000萬個，則應(yīng)該采用共享內(nèi)存的并行計算模式(多臺計算機，共享內(nèi)存，光纜相連)。如果小于此數(shù)，可以采用集中式計算模式(一臺性能良好的計算機，多cpu，多磁盤或者磁盤陣列)。7)對于分布式計算模式(如圖10),由主服務(wù)器進行l(wèi)og分析得到新的數(shù)據(jù)文件(包括節(jié)點文件，二元關(guān)系文件，三元關(guān)系文件)，節(jié)點信息在共享內(nèi) 存中，將二元關(guān)系和三元關(guān)系信息分發(fā)到各個服務(wù)器中，每個服務(wù)器存放著
相應(yīng)的舊的二元關(guān)系文件和三元關(guān)系文件，分別進行關(guān)系的合并與關(guān)系權(quán)值計算，并將得到的節(jié)點信息輸入到相應(yīng)的xml文件中。
通過運用本方法,解決了目前互聯(lián)網(wǎng)傳統(tǒng)應(yīng)用的樹狀信息結(jié)構(gòu)不適合計算信息之間的關(guān)系的問題。當(dāng)數(shù)據(jù)量達到近百萬量級時，也可以快速的進行計算。
權(quán)利要求
1、一種用于互聯(lián)網(wǎng)樹狀結(jié)構(gòu)連接的計算WEB信息相關(guān)性的方法，該方法包括節(jié)點等級的計算和關(guān)系的權(quán)值計算，其中1)節(jié)點等級＝n1*節(jié)點的訪問次數(shù)^m1+n2*(節(jié)點的訪問次數(shù)/(節(jié)點的被引用個數(shù)+b))^m2+n3*節(jié)點的被引用個數(shù)^m3，其中n1，n2，n3為系數(shù)參數(shù)常量，b為調(diào)整參數(shù)常量，m1，m2，m3為指數(shù)參數(shù)常量，系數(shù)參數(shù)常量用來確定所對應(yīng)的因素的重要性，調(diào)整參數(shù)常量用來調(diào)整相應(yīng)因素的影響，指數(shù)參數(shù)常量用來保證節(jié)點等級的計算的增長率是收斂的；2)W＝W′*衰減系數(shù)λ+(U-U′)，其中U為當(dāng)天的計算權(quán)值，其與過去權(quán)值無關(guān)，其計算公式如下U＝n1*經(jīng)A訪問B的次數(shù)^m1+n2*((B的訪問次數(shù)-經(jīng)A訪問B的次數(shù))/(B的被引用個數(shù)+b))^m2+n4*B的等級^m4，A和B是網(wǎng)狀結(jié)構(gòu)中的兩個節(jié)點，U′為上一回的計算權(quán)值，W為當(dāng)前有效權(quán)值，W′為上回的有效權(quán)值，W的公式表明了當(dāng)前有效權(quán)值等于計算權(quán)值的凈值加上對過去有效權(quán)值的部分繼承，而當(dāng)天計算權(quán)值則和經(jīng)A訪問B的次數(shù)、B的訪問次數(shù)、B的被引用個數(shù)和B的等級相關(guān)，公式2)的參數(shù)含義和公式1)的相同。
2、如權(quán)利要求1所述的方法，其中所述衰減系數(shù)入用于對過去累積的有效權(quán)值的部分繼承，用來弱化過去數(shù)據(jù)的影響，大小在(0，1)范圍內(nèi)，經(jīng)驗值為 0駕。
3、如權(quán)利要求2所述的方法，其中在經(jīng)A訪問B的次數(shù)和B的被引用個數(shù)不變的情況下，其當(dāng)天計算權(quán)值的大小跟B的訪問次數(shù)呈指數(shù)小于1的關(guān) 系。
4、如權(quán)利要求2所述的方法，其中在經(jīng)過非A訪問B的訪問次數(shù)和B 的被引用個數(shù)不變的情況下，其當(dāng)天計算權(quán)值的大小跟經(jīng)A訪問B的次數(shù)呈指數(shù)小于l的關(guān)系。
5、如權(quán)利要求2所述的方法，其中在經(jīng)A訪問B的次數(shù)和B的訪問次數(shù)不變的情況下，其當(dāng)天計算權(quán)值的大小跟B的被引用個數(shù)呈指數(shù)小于1的關(guān) 系。
全文摘要
一種用于互聯(lián)網(wǎng)樹狀結(jié)構(gòu)連接的計算WEB信息相關(guān)性的方法，該方法包括節(jié)點等級的計算和關(guān)系的權(quán)值計算，其中1)節(jié)點等級＝n1*節(jié)點的訪問次數(shù)^m1+n2*(節(jié)點的訪問次數(shù)/(節(jié)點的被引用個數(shù)+b))^m2+n3*節(jié)點的被引用個數(shù)^m3；2)W＝W′*衰減系數(shù)λ+(U-U′)，其中U為當(dāng)天的計算權(quán)值，其與過去權(quán)值無關(guān)，其計算公式如下U＝n1*經(jīng)A訪問B的次數(shù)^m1+n2*((B的訪問次數(shù)-經(jīng)A訪問B的次數(shù))/(B的被引用個數(shù)+b))^m2+n4*B的等級^m4，A和B是網(wǎng)狀結(jié)構(gòu)中的兩個節(jié)點，U′為上一回的計算權(quán)值，W為當(dāng)前有效權(quán)值，W′為上回的有效權(quán)值，W的公式表明了當(dāng)前有效權(quán)值等于計算權(quán)值的凈值加上對過去有效權(quán)值的部分繼承，而當(dāng)天計算權(quán)值則和經(jīng)A訪問B的次數(shù)、B的訪問次數(shù)、B的被引用個數(shù)和B的等級相關(guān)。
文檔編號G06Q10/00GK101309255SQ20071016633
公開日2008年11月19日申請日期2007年11月7日優(yōu)先權(quán)日2007年11月7日
發(fā)明者李亞歐申請人:李亞歐

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李亞歐
技術(shù)所有人：李亞歐
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

相關(guān)性算法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種計算web信息相關(guān)性的算法的制作方法