国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于社群分析的學(xué)術(shù)搜索引擎排序方法

      文檔序號(hào):10655196閱讀:228來源:國知局
      一種基于社群分析的學(xué)術(shù)搜索引擎排序方法
      【專利摘要】本發(fā)明公開了一種基于社群分析的學(xué)術(shù)搜索引擎排序方法,在學(xué)術(shù)搜索引擎中,基于學(xué)術(shù)圈內(nèi)部的著作引用關(guān)系和作者合作關(guān)系建立二維復(fù)雜圖模型,將其轉(zhuǎn)化為一維圖模型,運(yùn)用帶權(quán)重的標(biāo)記傳播方式進(jìn)行社群分析,將著作信息劃分成不同的社群,然后在用戶輸入所要搜索內(nèi)容基礎(chǔ)上進(jìn)行社群關(guān)系的映射,然后通過基于隨機(jī)游走過程的排序策略,參考文本相似性和圖節(jié)點(diǎn)的游走次數(shù)對(duì)社群內(nèi)部的內(nèi)容進(jìn)行排序,最后得到用戶需要的著作集合。本發(fā)明方法可以找出學(xué)術(shù)搜索引擎?zhèn)鹘y(tǒng)排序方法不能找出的隱藏相關(guān)內(nèi)容,克服傳統(tǒng)方法過于依賴文本相似性的缺點(diǎn),同時(shí)該方法的運(yùn)算需要較少的時(shí)間,適用于大型學(xué)術(shù)搜索引擎排序的場景。
      【專利說明】
      -種基于社群分析的學(xué)術(shù)搜索引擎排序方法
      技術(shù)領(lǐng)域
      [0001] 本發(fā)明設(shè)及信息檢索和復(fù)雜網(wǎng)絡(luò),尤其設(shè)及捜索引擎對(duì)內(nèi)容進(jìn)行排序W及在學(xué)術(shù) 圈形成的復(fù)雜網(wǎng)絡(luò)中進(jìn)行社群分析的方法,具體設(shè)及一種基于社群分析的學(xué)術(shù)捜索引擎排 序方法。
      【背景技術(shù)】
      [0002] 隨著互聯(lián)網(wǎng)的迅速發(fā)展,基于HTTP協(xié)議的Web服務(wù)越來越普及,互聯(lián)網(wǎng)上的資源和 信息量劇增,用戶產(chǎn)生了根據(jù)自己的個(gè)性化信息來尋找分布在互聯(lián)網(wǎng)上各個(gè)位置的資源的 需求。1994年7月,Lycos推出基于robot協(xié)議的數(shù)據(jù)挖掘技術(shù),支持對(duì)捜索結(jié)果進(jìn)行排序,是 捜索引擎歷史上一個(gè)重要進(jìn)步。1995年,元捜索引擎誕生。用戶提交一次捜索請(qǐng)求之后,元 捜索引擎將其轉(zhuǎn)換處理,并提交給多個(gè)預(yù)先設(shè)定的獨(dú)立捜索引擎,并對(duì)各個(gè)獨(dú)立的捜索引 擎返回的結(jié)果進(jìn)行整理,然后返回給用戶。
      [0003] 隨著信息量的爆炸性增長,個(gè)性化是捜索引擎當(dāng)下發(fā)展的一個(gè)重要趨勢。同時(shí),出 現(xiàn)了專注于不同領(lǐng)域的各種各樣的垂直捜索引擎系統(tǒng),學(xué)術(shù)捜索引擎就是其中一種。學(xué)術(shù) 捜索引擎就是捜索學(xué)術(shù)資源的引擎系統(tǒng),資源W著作著作、學(xué)術(shù)會(huì)議、期刊、研究人員為主, 并且,隨著學(xué)術(shù)捜索引擎的快速發(fā)展,其應(yīng)具備數(shù)據(jù)分析、學(xué)術(shù)圈分析、智能化等特色,W滿 足人們的各種個(gè)性化捜索需求。
      [0004] 傳統(tǒng)捜索引擎技術(shù)包括W下幾個(gè)部分:網(wǎng)絡(luò)爬蟲、索引器、檢索器W及用戶接口。 網(wǎng)絡(luò)爬蟲的功能是通過深度遍歷或者廣度遍歷的方式將互聯(lián)網(wǎng)上的資源下載下來,供檢索 使用。索引器的功能是針對(duì)下載下來的文本文件建立索引,使得檢索系統(tǒng)可W根據(jù)內(nèi)容快 速查找相應(yīng)的內(nèi)容。檢索器是利用用戶的輸入,在索引庫中進(jìn)行檢索,找到相關(guān)內(nèi)容之后, 通過對(duì)查詢的相關(guān)性進(jìn)行排序,最終得到一個(gè)輸出結(jié)果。用戶接口的作用則是用戶查詢的 輸入,查詢結(jié)果輸出的界面,同時(shí)也具有供用戶反饋機(jī)制。
      [0005] 盡管傳統(tǒng)的學(xué)術(shù)捜索引擎例如Google ScholaiNMicrosoft Academic Search、百 度學(xué)術(shù)捜索等具有較完備的根據(jù)文本內(nèi)容在文檔索引庫中進(jìn)行匹配并查找相關(guān)內(nèi)容的功 能,但是,由于索引主要根據(jù)檢索內(nèi)容的文本相似性來建立,因此,對(duì)于一些與檢索內(nèi)容緊 密相關(guān),但是并不直接具有較高文本相似度的文檔,在運(yùn)種機(jī)制中在很大概率上被忽略,造 成捜索結(jié)果的不完備,不準(zhǔn)確。
      [0006] 正是基于W上的情形,本發(fā)明提出了一種新的學(xué)術(shù)捜索引擎排序方法,除了考慮 文檔內(nèi)容之外,也考慮到了文檔之間的結(jié)構(gòu)關(guān)系,通過使用社群分析的辦法,將結(jié)構(gòu)關(guān)系和 文本相似度作為兩個(gè)度量標(biāo)準(zhǔn),最終得到的排序結(jié)果更加準(zhǔn)確,完備,也更加符合用戶的個(gè) 性化捜索需求。

      【發(fā)明內(nèi)容】

      [0007] 發(fā)明目的:為了克服現(xiàn)有技術(shù)中存在的不足,本發(fā)明提供一種基于社群分析的學(xué) 術(shù)捜索引擎排序方法,能夠提高學(xué)術(shù)捜索引擎的排序結(jié)果的完備性和準(zhǔn)確性,同時(shí)更符合 用戶個(gè)性化查詢的需求。
      [000引技術(shù)方案:為實(shí)現(xiàn)上述目的,本發(fā)明中基于社群分析的學(xué)術(shù)捜索引擎排序方法,包 括W下步驟:
      [0009] (1)根據(jù)著作信息和作者信息確定著作引用關(guān)系、著作與作者之間的對(duì)應(yīng)關(guān)系W 及作者合作關(guān)系,并建立二維復(fù)雜圖模型;
      [0010] (2)將二維復(fù)雜圖模型轉(zhuǎn)化為W著作信息為圖節(jié)點(diǎn),著作引用關(guān)系和著作的作者 合作關(guān)系為權(quán)重的一維圖模型;
      [0011] (3)在一維圖模型的基礎(chǔ)上使用帶權(quán)重的標(biāo)記傳播方式進(jìn)行社群分析,將圖節(jié)點(diǎn) 劃分到規(guī)模不同的各個(gè)社群中;
      [0012] (4)根據(jù)捜索內(nèi)容進(jìn)行社群關(guān)系的映射,將捜索內(nèi)容按照文本相似度將所有著作 信息進(jìn)行排序,取前k個(gè)圖節(jié)點(diǎn),選取運(yùn)k個(gè)圖節(jié)點(diǎn)所對(duì)應(yīng)的社群中所有圖節(jié)點(diǎn),形成圖節(jié)點(diǎn) 集合S;
      [0013] (5)對(duì)于所述圖節(jié)點(diǎn)集合S中的所有圖節(jié)點(diǎn),分別W所述k個(gè)圖節(jié)點(diǎn)作為起始節(jié)點(diǎn) 通過基于隨機(jī)游走過程的排序策略確定每個(gè)圖節(jié)點(diǎn)的游走次數(shù),W文本相似性和圖節(jié)點(diǎn)的 游走次數(shù)作為著作信息的最終權(quán)重對(duì)社群內(nèi)部的著作信息進(jìn)行排序;
      [0014] (6)選擇最終權(quán)重排名靠前的若干個(gè)著作信息作為捜索結(jié)果。
      [0015] 其中,所述二維復(fù)雜圖模型分為兩層,一層為引用層,所述引用層的圖節(jié)點(diǎn)集為著 作信息,圖節(jié)點(diǎn)之間的權(quán)重為著作信息引用關(guān)系;一層為合作層,所述合作層的圖節(jié)點(diǎn)集為 作者信息,圖節(jié)點(diǎn)之間的權(quán)重為作者合作關(guān)系;兩層之間為著作與作者之間的對(duì)應(yīng)關(guān)系。
      [0016] 其中,步驟(2)中將所述二維復(fù)雜圖模型轉(zhuǎn)化為所述一維圖模型包括W下步驟:
      [0017] W著作信息為圖節(jié)點(diǎn),所述二維復(fù)雜圖模型的引用層保持不變,著作信息的引用 關(guān)系作為第一權(quán)重;
      [0018] 利用著作與作者之間的對(duì)應(yīng)關(guān)系將著作間的作者合作關(guān)系作為第二權(quán)重。
      [0019] 其中,步驟(3)中使用帶權(quán)重的標(biāo)記傳播方式進(jìn)行社群分析包括W下步驟:
      [0020] 1)對(duì)于任意兩個(gè)圖節(jié)點(diǎn),將其之間的所述第一權(quán)重和第二權(quán)重按照預(yù)設(shè)的加權(quán)比 進(jìn)行疊加得到兩圖節(jié)點(diǎn)之間的總權(quán)重;
      [0021] 2)將所有的圖節(jié)點(diǎn)通過隨機(jī)方法初始化為各不相同的隨機(jī)整數(shù),作為各圖節(jié)點(diǎn)的 社群標(biāo)記的初始值;
      [0022] 3)對(duì)于所述一維圖模型中每一個(gè)圖節(jié)點(diǎn),統(tǒng)計(jì)其鄰居節(jié)點(diǎn)的社群標(biāo)記所占的權(quán) 重,選取權(quán)重最大的社群標(biāo)記作為更新后的社群標(biāo)記;對(duì)于每一圖節(jié)點(diǎn),不同鄰居節(jié)點(diǎn)的社 群標(biāo)記有不同的權(quán)重,權(quán)重值等于該圖節(jié)點(diǎn)到相應(yīng)鄰居節(jié)點(diǎn)之間的總權(quán)重;
      [0023] 4)在對(duì)所有的圖節(jié)點(diǎn)依次進(jìn)行步驟3)所述的社群標(biāo)記更新的過程之后,判斷圖中 所有的圖節(jié)點(diǎn)的社群標(biāo)記是否發(fā)生了變化,若發(fā)生變化的圖節(jié)點(diǎn)的比例小于一個(gè)給定闊值 a,方法結(jié)束;否則,返回第步驟3)繼續(xù)進(jìn)行更新。
      [0024] 5)在標(biāo)記傳播方式結(jié)束后,所有的圖節(jié)點(diǎn)的社群標(biāo)記最終確定下來,社群標(biāo)記相 同的圖節(jié)點(diǎn)屬于同一個(gè)社群。
      [0025] 其中,步驟(5)中所述基于隨機(jī)游走過程的排序策略包括W下步驟:
      [0026] 2)從起始節(jié)點(diǎn)開始出發(fā),W-定概率向其鄰居節(jié)點(diǎn)游走,該概率值為從該起點(diǎn)到 其鄰居節(jié)點(diǎn)的權(quán)重,游走長度加1;
      [0027] 2)若游走長度大于給定闊值L,則游走停止,否則將游走到的鄰居節(jié)點(diǎn)作為起點(diǎn), 返回步驟1);
      [0028] 按照步驟1)和步驟2)的游走方式游走N次,統(tǒng)計(jì)N次游走循環(huán)中每個(gè)圖節(jié)點(diǎn)總共被 游走到的次數(shù)。
      [0029] 有益效果:本發(fā)明中基于社群分析的學(xué)術(shù)捜索引擎排序方法通過對(duì)著作、作者信 息建立復(fù)雜圖模型,然后轉(zhuǎn)化成一維圖模型,并在此基礎(chǔ)上進(jìn)行基于權(quán)重的標(biāo)記傳播方式 的分析,將圖節(jié)點(diǎn)分為不同社群,然后取文本相似度最高的k個(gè)圖節(jié)點(diǎn)W及相對(duì)應(yīng)的社群的 所有圖節(jié)點(diǎn)集合,進(jìn)行基于隨機(jī)游走的排序,得到圖節(jié)點(diǎn)集合中所有圖節(jié)點(diǎn)的訪問次數(shù)之 后,結(jié)合文本相似度進(jìn)行排序,取最終權(quán)重最高的若干個(gè)著作作為排序方法的結(jié)果集合。本 發(fā)明方法可W找出學(xué)術(shù)捜索引擎?zhèn)鹘y(tǒng)排序方法不能找出的隱藏相關(guān)內(nèi)容,克服傳統(tǒng)方法過 于依賴文本相似性的缺點(diǎn),既能夠考慮到文本相似度對(duì)于最終排序結(jié)果的影響,也能夠考 慮到圖結(jié)構(gòu)的影響,最終得到的排序結(jié)果更加準(zhǔn)確、完備,也更加符合用戶的個(gè)性化捜索需 求;同時(shí)該方法的運(yùn)算需要較少的時(shí)間,適用于大型學(xué)術(shù)捜索引擎排序的場景。
      【附圖說明】
      [0030] 圖1是本發(fā)明中基于社群分析的學(xué)術(shù)捜索引擎排序方法的流程圖;
      [0031 ]圖2是二維復(fù)雜圖模型的示例圖;
      [0032] 圖3是圖2中二維復(fù)雜圖轉(zhuǎn)化之后的單層圖模型示例圖;
      [0033] 圖4是標(biāo)記傳播方式流程圖;
      [0034] 圖5是將單層圖模型的二維邊轉(zhuǎn)化為一維邊的示例圖;
      [0035] 圖6是圖5中二維邊轉(zhuǎn)化為一維邊的加權(quán)權(quán)重結(jié)果示例圖;
      [0036] 圖7是社群標(biāo)記更新示例圖;
      [0037] 圖8是圖7中圖節(jié)點(diǎn)a的社群標(biāo)記更新結(jié)果示例圖;
      [0038] 圖9是基于隨機(jī)游走的排序策略的流程圖。
      【具體實(shí)施方式】
      [0039] 下面結(jié)合實(shí)例對(duì)本發(fā)明作更進(jìn)一步的說明。
      [0040] 圖1中基于社群分析的學(xué)術(shù)捜索引擎排序方法,從兩個(gè)角度確定捜索結(jié)果,首先基 于著作信息和作者信息創(chuàng)建社群,然后再利用文本的相關(guān)度在社群中確定捜索結(jié)果,該方 法具體包括W下步驟:
      [0041] (1)根據(jù)著作信息和作者信息確定著作引用關(guān)系、著作與作者之間的對(duì)應(yīng)關(guān)系W 及作者合作關(guān)系,并建立二維復(fù)雜圖模型;
      [0042] (2)將二維復(fù)雜圖模型轉(zhuǎn)化為W著作信息為圖節(jié)點(diǎn),著作引用關(guān)系和作者合作關(guān) 系為權(quán)重的一維圖模型;
      [0043] (3)在一維圖模型的基礎(chǔ)上使用帶權(quán)重的標(biāo)記傳播方式進(jìn)行社群分析,將圖節(jié)點(diǎn) 劃分到規(guī)模不同的各個(gè)社群中;
      [0044] (4)在用戶輸入所要捜索的文章標(biāo)題或者關(guān)鍵詞的基礎(chǔ)上,進(jìn)行社群關(guān)系的映射, 將所有的圖節(jié)點(diǎn)按照與用戶輸入的文本相似度的高低排序,根據(jù)文本相似度的排序關(guān)系取 前k個(gè)文本相似度最高的圖節(jié)點(diǎn),然后取它們所對(duì)應(yīng)的社群內(nèi)部的所有圖節(jié)點(diǎn),W此映射到 k個(gè)圖節(jié)點(diǎn)W及相應(yīng)的社群;
      [0045] (5)通過基于隨機(jī)游走過程的排序策略,將文本相似性,圖節(jié)點(diǎn)的游走次數(shù)作為權(quán) 重不同的兩個(gè)變量,計(jì)算之前得到的k個(gè)圖節(jié)點(diǎn)所對(duì)應(yīng)的社群中所有圖節(jié)點(diǎn)的最終權(quán)重,按 照最終權(quán)重的高低對(duì)社群內(nèi)部的內(nèi)容進(jìn)行排序;
      [0046] (6)根據(jù)排序結(jié)果取最終權(quán)重靠前的著作圖節(jié)點(diǎn)的對(duì)應(yīng)著作信息,W此得到用戶 需要的著作集合。
      [0047] 上述步驟(1)中將著作信息、作者信息、著作引用關(guān)系、作者合作關(guān)系等表示為二 維復(fù)雜圖模型,二維復(fù)雜圖由兩層圖結(jié)構(gòu)組成:引用圖和合作圖。引用圖由代表學(xué)術(shù)著作的 著作圖節(jié)點(diǎn)和由于著作間引用關(guān)系形成的有向邊組成。有向邊的方向是從著作圖節(jié)點(diǎn)指向 它的引用著作。合作圖由代表作者的作者圖節(jié)點(diǎn)和由于作者之間的合作關(guān)系形成的無向帶 權(quán)邊組成。無向邊的權(quán)重等于作者之間合作的著作數(shù)量。在運(yùn)兩層網(wǎng)絡(luò)之間存在作者圖節(jié) 點(diǎn)到著作圖節(jié)點(diǎn)的映射關(guān)系。一個(gè)作者存在到他發(fā)表的所有著作的映射,反映到復(fù)雜圖模 型上就是由作者圖節(jié)點(diǎn)到與它有關(guān)的著作圖節(jié)點(diǎn)的映射關(guān)系。
      [004引如圖2中示例所示,該二維復(fù)雜圖模型為0=<¥1,¥261瓜>,引用層上的圖節(jié)點(diǎn)集 為VI,邊集為Ei,合作層上的圖節(jié)點(diǎn)集V2,邊集為E2;引用層上的圖節(jié)點(diǎn)集Vi有a,b,c,d四個(gè)圖 節(jié)點(diǎn),分別代表四篇著作文獻(xiàn),其中,文獻(xiàn)a引用b和d,文獻(xiàn)b引用C和d,因此存在由a分別到b 和d的有向邊,W及從b到C和d的有向邊。在合作層上圖節(jié)點(diǎn)集V2有e,f,g =個(gè)作者圖節(jié)點(diǎn),e 和f,巧Pg之間有合作發(fā)表著作,因此邊集E2包括ef,fg兩條無向邊,其中,作者e發(fā)表了著作 a和b,作者f發(fā)表了著作b和c,e和f之間共享一篇著作b,因此ef的權(quán)重等于1;作者g發(fā)表了 著作b、c和d,f和g共享著作b和C,因此,fg的權(quán)重等于2。在具體操作時(shí),運(yùn)個(gè)二維圖模型可 W存儲(chǔ)在兩個(gè)鄰接鏈表的數(shù)據(jù)結(jié)構(gòu)中,鄰接鏈表的頭節(jié)點(diǎn)表示圖節(jié)點(diǎn),鄰接節(jié)點(diǎn)則是與運(yùn) 個(gè)頭節(jié)點(diǎn)有邊的圖節(jié)點(diǎn)。
      [0049] 將二維復(fù)雜圖向單層圖結(jié)構(gòu)的轉(zhuǎn)化,是因?yàn)槎S復(fù)雜圖模型含有兩層異構(gòu)的圖結(jié) 構(gòu),因此,需要首先將兩層圖結(jié)構(gòu)轉(zhuǎn)化成單層圖結(jié)構(gòu),W便于進(jìn)行后續(xù)處理。上述步驟(2)中 從二維復(fù)雜圖到單層圖模型的轉(zhuǎn)化過程如下:著作之間的引用關(guān)系不變,作者之間的合作 關(guān)系轉(zhuǎn)換成著作之間的共享作者關(guān)系,即W二維復(fù)雜圖模型中的著作信息為圖節(jié)點(diǎn),將作 者之間的合作關(guān)系W及由作者到著作的映射關(guān)系轉(zhuǎn)化成著作之間的邊,形成一個(gè)單層圖結(jié) 構(gòu)。由于學(xué)術(shù)捜索引擎的捜索內(nèi)容主要是著作標(biāo)題、關(guān)鍵詞等內(nèi)容,因此,轉(zhuǎn)換之后的單層 圖結(jié)構(gòu)的圖節(jié)點(diǎn)是著作信息。復(fù)雜圖中的作者合作關(guān)系W及由作者到著作的映射被轉(zhuǎn)化成 為著作信息之間的兩種邊。一種邊是原有的著作之間的由于引用關(guān)系形成的有向邊,另一 種邊是由于兩個(gè)著作之間有共同作者形成的帶權(quán)無向邊。無向邊的權(quán)重等于運(yùn)兩個(gè)著作圖 節(jié)點(diǎn)之間的共同作者的數(shù)量。
      [0050] 如圖3中示例所示,將圖帥的二維復(fù)雜圖模型0=<¥1,¥261瓜>轉(zhuǎn)換為單層圖模 型6' = <¥1瓜瓜'>,可^看到,圖節(jié)點(diǎn)集¥1包括的著作圖節(jié)點(diǎn)曰,6心(1保持不變;著作圖 節(jié)點(diǎn)之間的引用關(guān)系不變,邊集Ei包含的引用有向邊。"I,品,A:.,品的權(quán)重相同,都是 1;而邊集E2'表示著作之間的共享作者關(guān)系,包括權(quán)重為1的無向邊ab,權(quán)重為2的無向邊 be,和權(quán)重為1的無向邊bd,權(quán)重為1的無向邊cd。邊集E2'中運(yùn)些帶權(quán)的無向邊的形成是因 為圖節(jié)點(diǎn)之間共享作者,其權(quán)重等于共享的作者個(gè)數(shù)。例如著作a的作者是e,著作b的作者 是e,f,g"a和b之間的共同作者是e,因此其無向邊ab的權(quán)重為1。同理,其他無向邊的權(quán)重也 是W相同方式得到的。
      [0051]上述步驟(3)中,在一維圖模型的基礎(chǔ)上使用帶權(quán)重的標(biāo)記傳播方式進(jìn)行社群分 析,所有的圖節(jié)點(diǎn)初始時(shí)將被賦予不同的社群標(biāo)記,社群標(biāo)記在所有的圖節(jié)點(diǎn)之間傳播,每 個(gè)圖節(jié)點(diǎn)選擇鄰居節(jié)點(diǎn)中權(quán)重最大的那個(gè)標(biāo)記作為自己的社群標(biāo)記,經(jīng)過有限的常數(shù)次迭 代之后,每個(gè)圖節(jié)點(diǎn)有一個(gè)最終的社群標(biāo)記。經(jīng)過運(yùn)個(gè)過程,圖節(jié)點(diǎn)被分到規(guī)模不同的各個(gè) 社群中,W圖4為例,標(biāo)記傳播方式的過程如下:
      [00對(duì) 1 )將單層圖模型G ' = CVl ,El,E2' >的每一對(duì)圖節(jié)點(diǎn)Vi、Vj之間的二維邊61、62'按 照權(quán)重加權(quán)轉(zhuǎn)為一維邊,得到6'=<¥1,6'>。其中,引用邊61的權(quán)重為1,62'權(quán)重則為共同 作者的個(gè)數(shù)。運(yùn)兩種邊的加權(quán)比設(shè)定為2:1,即引用邊ei相對(duì)于62'的加權(quán)比為2;如圖5中示 例所示,圖節(jié)點(diǎn)a有b,c,d,e,f共5個(gè)鄰居節(jié)點(diǎn),圖節(jié)點(diǎn)對(duì)ab、ac、ad、ae、af之間存在引用關(guān) 系,其權(quán)重均為1;而acUaf之間還存在共同作者的關(guān)系,運(yùn)里,ad之間共同作者的個(gè)數(shù)為1, 而af之間共同作者的個(gè)數(shù)為4,則ad之間作者合作邊的權(quán)重為l,af之間作者合作邊的權(quán)重 為4,因此,根據(jù)加權(quán)比的設(shè)定,記ad之間引用邊的加權(quán)比為1,則ad之間一維邊的總權(quán)重為1 + 1*1/2 = 1.5;同理,af之間一維邊的總權(quán)重為1+4*1/2 = 3.0;而ab,ac,ae之間的總權(quán)重均 為1,得到圖6所示的合并邊的權(quán)重之后得到的圖例。
      [0053] 2)首先將所有的圖節(jié)點(diǎn)通過隨機(jī)方法初始化為各不相同的隨機(jī)整數(shù),作為各自圖 節(jié)點(diǎn)的社群標(biāo)記的初始值;
      [0054] 3)對(duì)于圖中每一個(gè)圖節(jié)點(diǎn),統(tǒng)計(jì)其鄰居節(jié)點(diǎn)的不同社群標(biāo)記所占的比例。不同的 鄰居節(jié)點(diǎn)的社群標(biāo)記有不同的權(quán)重,其值等于該圖節(jié)點(diǎn)到該鄰居節(jié)點(diǎn)之間的邊的權(quán)重。
      [0055] 如圖7中所示,設(shè)著作圖節(jié)點(diǎn)a當(dāng)前的社群標(biāo)記為1〇,其五個(gè)鄰居節(jié)點(diǎn)6、(3、(1、6、巧勺 社群標(biāo)記為化:11,。12,(1:11,6:11山12};11和12均為正整數(shù)。社群標(biāo)記11的權(quán)重為1.0+1.5+ 1.0 = 3.5,而社群標(biāo)記b的權(quán)重為1.0+3.0 = 4.0。因?yàn)?.0〉3.5,因此圖節(jié)點(diǎn)a選擇其鄰居節(jié) 點(diǎn)中社群標(biāo)記權(quán)重所占比例最大的那個(gè),更新為自己的社群標(biāo)記,即12。更新后的結(jié)果如圖 8中所示的圖節(jié)點(diǎn)a的社群標(biāo)記更新為12。
      [0056] 4)在對(duì)所有的圖節(jié)點(diǎn)依次進(jìn)行3)所述的社群更新的過程之后,判斷圖中所有的圖 節(jié)點(diǎn)的社群標(biāo)記是否發(fā)生了變化,若發(fā)生變化的圖節(jié)點(diǎn)的比例小于一個(gè)給定闊值〇,方法結(jié) 束。否則,返回第步驟3)繼續(xù)進(jìn)行更新。運(yùn)里的a為一個(gè)收斂的闊值,由于經(jīng)過幾次對(duì)所有圖 節(jié)點(diǎn)的更新過程之后,大部分圖節(jié)點(diǎn)的社群標(biāo)記將保持穩(wěn)定不變,因此運(yùn)里的a可W預(yù)先設(shè) 定為一個(gè)近似為0的小數(shù)值,默認(rèn)設(shè)置為0.000001,如果發(fā)生變化的圖節(jié)點(diǎn)的比例大于〇,則 說明圖節(jié)點(diǎn)的社群標(biāo)記還沒有穩(wěn)定,需要繼續(xù)進(jìn)行更新。
      [0057] 在標(biāo)記傳播方式結(jié)束后,所有的圖節(jié)點(diǎn)的社群標(biāo)記最終確定下來,社群標(biāo)記一樣 的圖節(jié)點(diǎn)被分到同一個(gè)社群里。
      [0058] 上述步驟(4)中,按照文本相似度將所有的圖節(jié)點(diǎn),即著作信息進(jìn)行排序,取前k個(gè) 圖節(jié)點(diǎn),W及運(yùn)k個(gè)圖節(jié)點(diǎn)對(duì)應(yīng)的社群的所有圖節(jié)點(diǎn),形成一個(gè)圖節(jié)點(diǎn)集合S。只取前k個(gè)文 本相似度最高的圖節(jié)點(diǎn)W及它們所在的社群,W此限制后續(xù)隨機(jī)游走的范圍在給定的有限 的圖節(jié)點(diǎn)數(shù)目上,降低方法的時(shí)間消耗。
      [0059] 對(duì)于圖節(jié)點(diǎn)集合S中的所有圖節(jié)點(diǎn),按照基于隨機(jī)游走的排序策略得到所有的圖 節(jié)點(diǎn)的游走次數(shù),運(yùn)個(gè)隨機(jī)游走的排序過程W該k個(gè)圖節(jié)點(diǎn)為起始節(jié)點(diǎn)。W該k個(gè)文本相似 度最高的圖節(jié)點(diǎn)作為起始節(jié)點(diǎn),各個(gè)圖節(jié)點(diǎn)的訪問次數(shù)的高低代表了該圖節(jié)點(diǎn)在結(jié)構(gòu)上與 起始節(jié)點(diǎn)的距離遠(yuǎn)近。
      [0060] 隨機(jī)游走的排序策略如圖9所示,其具體過程如下:
      [0061] 3)從圖中的起點(diǎn)節(jié)點(diǎn)開始出發(fā),W-定概率向其鄰居節(jié)點(diǎn)游走,該概率反映的是 兩個(gè)圖節(jié)點(diǎn)之間從相互引用角度來講的相關(guān)性,因此將概率值定義為從該起點(diǎn)到其鄰居節(jié) 點(diǎn)的邊的權(quán)重,游走長度加1;
      [0062] 2)若游走長度大于一個(gè)給定的闊值L,則游走停止,否則將游走到的鄰居節(jié)點(diǎn)作為 起點(diǎn),返回步驟1);
      [0063] 按照步驟1)和步驟2)的游走方式游走N次,統(tǒng)計(jì)N次游走循環(huán)中每個(gè)圖節(jié)點(diǎn)總共被 游走到的次數(shù)。
      [0064] 游走過程之后,在圖節(jié)點(diǎn)集合S中,將每個(gè)圖節(jié)點(diǎn)的游走次數(shù)和文本相似度的值作 為權(quán)重不同的變量,計(jì)算每個(gè)圖節(jié)點(diǎn)最終權(quán)重,將最終權(quán)重由高到低排序,取有限數(shù)目的著 作信息作為結(jié)果集合返回給用戶,W滿足時(shí)間耗費(fèi)不能太高的要求,例如返回最終權(quán)重排 名前5的著作信息。
      [0065] W上詳細(xì)描述了本發(fā)明的優(yōu)選實(shí)施方式,但是,本發(fā)明并不限于上述實(shí)施方式中 的具體細(xì)節(jié),在本發(fā)明的技術(shù)構(gòu)思范圍內(nèi),可W對(duì)本發(fā)明的技術(shù)方案進(jìn)行多種等同變換,運(yùn) 些等同變換均屬于本發(fā)明的保護(hù)范圍。
      【主權(quán)項(xiàng)】
      1. 一種基于社群分析的學(xué)術(shù)搜索引擎排序方法,其特征在于,該方法包括以下步驟: (1) 根據(jù)著作信息和作者信息確定著作引用關(guān)系、著作與作者之間的對(duì)應(yīng)關(guān)系以及作 者合作關(guān)系,并建立二維復(fù)雜圖模型; (2) 將二維復(fù)雜圖模型轉(zhuǎn)化為以著作信息為圖節(jié)點(diǎn),著作引用關(guān)系和著作的作者合作 關(guān)系為權(quán)重的一維圖模型; (3) 在一維圖模型的基礎(chǔ)上使用帶權(quán)重的標(biāo)記傳播方式進(jìn)行社群分析,將圖節(jié)點(diǎn)劃分 到規(guī)模不同的各個(gè)社群中; (4) 根據(jù)搜索內(nèi)容進(jìn)行社群關(guān)系的映射,將搜索內(nèi)容按照文本相似度將所有著作信息 進(jìn)行排序,取前k個(gè)圖節(jié)點(diǎn),選取這k個(gè)圖節(jié)點(diǎn)所對(duì)應(yīng)的社群中所有圖節(jié)點(diǎn),形成圖節(jié)點(diǎn)集 合; (5) 對(duì)于所述圖節(jié)點(diǎn)集合中的所有圖節(jié)點(diǎn),分別以所述k個(gè)圖節(jié)點(diǎn)作為起始節(jié)點(diǎn)通過基 于隨機(jī)游走過程的排序策略確定每個(gè)圖節(jié)點(diǎn)的游走次數(shù),以文本相似性和圖節(jié)點(diǎn)的游走次 數(shù)作為著作信息的最終權(quán)重對(duì)社群內(nèi)部的著作信息進(jìn)行排序; (6) 選擇最終權(quán)重排名靠前的若干個(gè)著作信息作為搜索結(jié)果。2. 根據(jù)權(quán)利要求1所述的基于社群分析的學(xué)術(shù)搜索引擎排序方法,其特征在于,所述二 維復(fù)雜圖模型分為兩層,一層為引用層,所述引用層的圖節(jié)點(diǎn)集為著作信息,圖節(jié)點(diǎn)之間的 權(quán)重為著作信息引用關(guān)系;一層為合作層,所述合作層的圖節(jié)點(diǎn)集為作者信息,圖節(jié)點(diǎn)之間 的權(quán)重為作者合作關(guān)系;兩層之間為著作與作者之間的對(duì)應(yīng)關(guān)系。3. 根據(jù)權(quán)利要求2所述的基于社群分析的學(xué)術(shù)搜索引擎排序方法,其特征在于,步驟 (2) 中將所述二維復(fù)雜圖模型轉(zhuǎn)化為所述一維圖模型包括以下步驟: 以著作信息為圖節(jié)點(diǎn),所述二維復(fù)雜圖模型的引用層保持不變,著作信息的引用關(guān)系 作為第一權(quán)重; 利用著作與作者之間的對(duì)應(yīng)關(guān)系將著作間的作者合作關(guān)系作為第二權(quán)重。4. 根據(jù)權(quán)利要求3所述的基于社群分析的學(xué)術(shù)搜索引擎排序方法,其特征在于,步驟 (3) 中使用帶權(quán)重的標(biāo)記傳播方式進(jìn)行社群分析包括以下步驟: 1) 對(duì)于任意兩個(gè)圖節(jié)點(diǎn),將其之間的所述第一權(quán)重和第二權(quán)重按照預(yù)設(shè)的加權(quán)比進(jìn)行 疊加得到兩圖節(jié)點(diǎn)之間的總權(quán)重; 2) 將所有的圖節(jié)點(diǎn)通過隨機(jī)方法初始化為各不相同的隨機(jī)整數(shù),作為各圖節(jié)點(diǎn)的社群 標(biāo)記的初始值; 3) 對(duì)于所述一維圖模型中每一個(gè)圖節(jié)點(diǎn),統(tǒng)計(jì)其鄰居節(jié)點(diǎn)的社群標(biāo)記所占的權(quán)重,選 取權(quán)重最大的社群標(biāo)記作為更新后的社群標(biāo)記;對(duì)于每一圖節(jié)點(diǎn),不同鄰居節(jié)點(diǎn)的社群標(biāo) 記有不同的權(quán)重,權(quán)重值等于該圖節(jié)點(diǎn)到相應(yīng)鄰居節(jié)點(diǎn)之間的總權(quán)重; 4) 在對(duì)所有的圖節(jié)點(diǎn)依次進(jìn)行步驟3)所述的社群標(biāo)記更新的過程之后,判斷圖中所有 的圖節(jié)點(diǎn)的社群標(biāo)記是否發(fā)生了變化,若發(fā)生變化的圖節(jié)點(diǎn)的比例小于一個(gè)給定閾值,方 法結(jié)束;否則,返回第步驟3)繼續(xù)進(jìn)行更新; 在標(biāo)記傳播方式結(jié)束后,所有的圖節(jié)點(diǎn)的社群標(biāo)記最終確定下來,社群標(biāo)記相同的圖 節(jié)點(diǎn)屬于同一個(gè)社群。5. 根據(jù)權(quán)利要求1所述的基于社群分析的學(xué)術(shù)搜索引擎排序方法,其特征在于,步驟 (5)中所述基于隨機(jī)游走過程的排序策略包括以下步驟: 從起始節(jié)點(diǎn)開始出發(fā),以一定概率向其鄰居節(jié)點(diǎn)游走,該概率值為從該起點(diǎn)到其鄰居 節(jié)點(diǎn)的權(quán)重,游走長度加1; 2)若游走長度大于給定閾值L,則游走停止,否則將游走到的鄰居節(jié)點(diǎn)作為起點(diǎn),返回 步驟1); 按照步驟1)和步驟2)的游走方式游走N次,統(tǒng)計(jì)N次游走循環(huán)中每個(gè)圖節(jié)點(diǎn)總共被游走 到的次數(shù)。
      【文檔編號(hào)】G06K9/62GK106021352SQ201610304112
      【公開日】2016年10月12日
      【申請(qǐng)日】2016年5月10日
      【發(fā)明人】王琦森, 李文中, 陸桑璐
      【申請(qǐng)人】南京大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1