專利名稱:互聯(lián)網(wǎng)中關(guān)聯(lián)詞條組相關(guān)度的測量方法、排序方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息識別領(lǐng)域,尤其涉及一種互聯(lián)網(wǎng)中關(guān)聯(lián)詞條組相關(guān)度的測量方 法、排序方法和裝置。
背景技術(shù):
在實(shí)際生活中,人們常需要在網(wǎng)絡(luò)中查找一些具有關(guān)聯(lián)性的兩個(gè)或兩個(gè)以上的詞 條,各詞條包括一個(gè)或多個(gè)字(后文稱為關(guān)聯(lián)詞條組),比如搜索一種型號的產(chǎn)品及其參 數(shù),搜索一個(gè)作家及其作品等。再比如在閱讀、翻譯及寫作中,人們經(jīng)常會遇到一些通用詞典中未收錄的詞或詞 組(如新詞、專業(yè)詞、人名、地名、機(jī)構(gòu)名、名詞術(shù)語、固定短語、俚語等)。隨著互聯(lián)網(wǎng)的普 及與發(fā)展,往往在互聯(lián)網(wǎng)上已經(jīng)存在這些詞或詞組對應(yīng)的中文(或英文)釋義。目前常用的方法是用關(guān)聯(lián)詞條組(兩個(gè)或兩個(gè)以上具有關(guān)聯(lián)性的詞條)在互聯(lián) 網(wǎng)上出現(xiàn)的次數(shù)作為評分,次數(shù)越高評分越高。但是,該方法存在以下缺陷(1)不能合理處理關(guān)聯(lián)詞條組在單個(gè)網(wǎng)頁中的詞頻問題。當(dāng)某個(gè)關(guān)聯(lián)詞條組在某 網(wǎng)頁中出現(xiàn)N(N>1)次時(shí),現(xiàn)有方法是將其簡單記為1次或者N次。若記為N次,會導(dǎo)致 重復(fù)次數(shù)較多的垃圾關(guān)聯(lián)詞條組的評分虛高(如一些作弊網(wǎng)站);若記為1次,則可能導(dǎo)致 一些優(yōu)秀關(guān)聯(lián)詞條組的評分較低(如在同一網(wǎng)頁中被多次引用的準(zhǔn)確關(guān)聯(lián)詞條組)。(2)不能合理處理關(guān)聯(lián)詞條組在某個(gè)站點(diǎn)(如iciba. com)的詞頻問題。當(dāng)某個(gè)關(guān) 聯(lián)詞條組在某個(gè)網(wǎng)站中出現(xiàn)多次時(shí),假設(shè)它來源于該網(wǎng)站的多個(gè)(M個(gè))網(wǎng)頁,現(xiàn)在技術(shù)沒 有考慮到這M個(gè)網(wǎng)頁之間的相似性問題和關(guān)聯(lián)詞條組在網(wǎng)頁中的位置問題,而直接將其記 為M次。這會導(dǎo)致如下結(jié)果(a)如果這些網(wǎng)頁中部分或全部網(wǎng)頁內(nèi)容基本相似,而關(guān)聯(lián)詞 條組恰好來源于這些相似部分(如BBS的主題貼部分),則變相重復(fù)計(jì)算了詞頻;(b)如果 關(guān)聯(lián)詞條組來源于網(wǎng)頁的非正文部分(因?yàn)檎某槿〔豢赡?00%正確),而該部分在多個(gè) 網(wǎng)頁中出現(xiàn),亦會重復(fù)計(jì)算詞頻。(3)未考慮站點(diǎn)可靠性對于關(guān)聯(lián)詞條組質(zhì)量的影響。對于那些貢獻(xiàn)了更多不重復(fù) 的關(guān)聯(lián)詞條的站點(diǎn),它們的可靠性應(yīng)該更高,而貢獻(xiàn)度低(如只貢獻(xiàn)了幾個(gè)不重復(fù)的關(guān)聯(lián) 詞條)的站點(diǎn),其可靠性更低。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種互聯(lián)網(wǎng)中關(guān)聯(lián)詞條組相關(guān)度的測量方法、排 序方法和裝置,可以對互聯(lián)網(wǎng)網(wǎng)頁中出現(xiàn)的關(guān)聯(lián)詞條進(jìn)行更合理的測量、排序。為了解決上述問題,本發(fā)明提供了一種互聯(lián)網(wǎng)中關(guān)聯(lián)詞條組相關(guān)度的測量方法, 包括A、對于各個(gè)包含待測量關(guān)聯(lián)詞條組的站點(diǎn),分別測量所述待測量關(guān)聯(lián)詞條組在該 站點(diǎn)中的相關(guān)度;
B、對于各所述站點(diǎn),分別將所述待測量關(guān)聯(lián)詞條組在該站點(diǎn)中的相關(guān)度乘以該站 點(diǎn)的權(quán)重,得到所述待測量關(guān)聯(lián)詞條組在該站點(diǎn)中的相關(guān)度修正值;C、將所述待測量關(guān)聯(lián)詞條組在各所述站點(diǎn)中的相關(guān)度修正值相加,得到所述待測 量關(guān)聯(lián)詞條組的相關(guān)度。進(jìn)一步地,所述的測量方法還包括分別由各站點(diǎn)所包含的不重復(fù)的關(guān)聯(lián)詞條組的數(shù)量freq_i得到該站點(diǎn)的所述權(quán)重。進(jìn)一步地,分別由各站點(diǎn)所包含的不重復(fù)的關(guān)聯(lián)詞條組的數(shù)量freq_i得到該站 點(diǎn)的所述權(quán)重具體包括分別確定各站點(diǎn)所包含的不重復(fù)的關(guān)聯(lián)詞條組的數(shù)量freq_i ;對于各站點(diǎn),采用對數(shù)函數(shù)處理所述freq_i得到第一函數(shù)值,作為該站點(diǎn)的所述權(quán)重。進(jìn)一步地,采用對數(shù)函數(shù)處理所述freq_i得到的第一函數(shù)值具體是指將所述freq_i加上一常數(shù)β,求出所得到的和對于10的對數(shù),得到第一函數(shù)值 lg(freq_i+^ )。進(jìn)一步地,所述步驟A具體包括對于各個(gè)包含待測量關(guān)聯(lián)詞條組的站點(diǎn),分別進(jìn)行以下步驟確定該站點(diǎn)中包含所述待測量關(guān)聯(lián)詞條組的個(gè)數(shù)WordCnt_i,以及該站點(diǎn)中包含 任意關(guān)聯(lián)詞條組的不重復(fù)的url數(shù)量urlcnt」;采用對數(shù)函數(shù)對所述wordcntj處理得到第二函數(shù)值,所述對數(shù)函數(shù)的底數(shù)大于 1 ;采用冪函數(shù)對urlcnt」除以wordcnt」的商urlcnt_i/wordcnt_i處理得到第三函數(shù) 值,所述冪函數(shù)的指數(shù)大于0小于1 ;由第二函數(shù)值和第三函數(shù)值的乘積得到所述待測量關(guān)聯(lián)詞條組在該站點(diǎn)中的相關(guān)度。進(jìn)一步地,所述對數(shù)函數(shù)的底數(shù)為10,所述冪函數(shù)的指數(shù)為0. 5。進(jìn)一步地,采用對數(shù)函數(shù)對所述wordcnt」處理得到第二函數(shù)值是指將所述wordcnt」加上一常數(shù)α,求出所得到的和對于10的對數(shù),得到第二函數(shù) 值 Ig (wordcnt」+ α )。本發(fā)明還提供了一種互聯(lián)網(wǎng)中關(guān)聯(lián)詞條組相關(guān)度的排序方法,包括a、按照上所述的測量方法,測量各關(guān)聯(lián)詞條組的相關(guān)度;b、按照相關(guān)度的大小進(jìn)行排序。本發(fā)明還提供了一種互聯(lián)網(wǎng)中關(guān)聯(lián)詞條組相關(guān)度的測量裝置,包括站點(diǎn)相關(guān)度測量模塊,用于對于各個(gè)包含待測量關(guān)聯(lián)詞條組的站點(diǎn),分別測量所 述待測量關(guān)聯(lián)詞條組在該站點(diǎn)中的相關(guān)度;加權(quán)模塊,用于對于各所述站點(diǎn),分別將所述待測量關(guān)聯(lián)詞條組在該站點(diǎn)中的相 關(guān)度乘以該站點(diǎn)的權(quán)重,得到所述待測量關(guān)聯(lián)詞條組在該站點(diǎn)中的相關(guān)度修正值;求和模塊,用于將所述待測量關(guān)聯(lián)詞條組在各所述站點(diǎn)中的相關(guān)度修正值相加, 得到所述待測量關(guān)聯(lián)詞條組的相關(guān)度。進(jìn)一步地,所述的測量裝置還包括
權(quán)重模塊,用于分別由各站點(diǎn)所包含的不重復(fù)的關(guān)聯(lián)詞條組的數(shù)量freq_i得到 該站點(diǎn)的所述權(quán)重。進(jìn)一步地,所述權(quán)重模塊具體包括第一統(tǒng)計(jì)模塊,用于分別確定各站點(diǎn)所包含的不重復(fù)的關(guān)聯(lián)詞條組的數(shù)量freq_ i ;第一處理模塊,用于對于各站點(diǎn),采用對數(shù)函數(shù)處理所述freq_i得到第一函數(shù) 值,作為該站點(diǎn)的所述權(quán)重;所述對數(shù)函數(shù)的底數(shù)大于1。進(jìn)一步地,所述第一處理模塊采用對數(shù)函數(shù)處理所述freq_i得到的第一函數(shù)值 具體是指所述第一處理模塊將所述freq_i加上一常數(shù)β,求出所得到的和對于10的對數(shù), 得到第一函數(shù)值lg(freq_i+i3)。進(jìn)一步地,所述站點(diǎn)相關(guān)度測量模塊具體包括第二統(tǒng)計(jì)模塊,用于分別確定各所述站點(diǎn)中包含關(guān)聯(lián)詞條組的不重復(fù)的url數(shù) 量;其中,一站點(diǎn)i中包含關(guān)聯(lián)詞條組的不重復(fù)的url數(shù)量為urlcnt」;第三統(tǒng)計(jì)模塊,用于分別確定各所述站點(diǎn)中包含所述待測量關(guān)聯(lián)詞條組的個(gè)數(shù); 其中,一站點(diǎn)i中包含所述待測量關(guān)聯(lián)詞條組的個(gè)數(shù)為wordcntj ;第二處理模塊,用于采用對數(shù)函數(shù)對所述wordcnt」處理得到站點(diǎn)i的第二函數(shù) 值,所述對數(shù)函數(shù)的底數(shù)大于1 ;第三處理模塊,用于采用冪函數(shù)對urlcnt_i除以wordcnt_i的商urlcnt_i/ wordcnt_i處理得到站點(diǎn)i的第三函數(shù)值,所述冪函數(shù)的指數(shù)大于0小于1 ;相關(guān)度測量模塊,由站點(diǎn)i的第二函數(shù)值和第三函數(shù)值的乘積得到所述待測量關(guān) 聯(lián)詞條組在站點(diǎn)i中的相關(guān)度;求和模塊,將所述待測量關(guān)聯(lián)詞條組在各所述站點(diǎn)中的相關(guān)度相加,得到所述待 測量關(guān)聯(lián)詞條組的相關(guān)度。進(jìn)一步地,所述第二處理模塊采用的所述對數(shù)函數(shù)的底數(shù)為10 ; 所述第三處理模塊采用的所述冪函數(shù)的指數(shù)為0. 5。進(jìn)一步地,所述第二處理模塊采用對數(shù)函數(shù)對所述wordcnt」處理得到第二函數(shù)
值是指所述第二處理模塊將所述wordcntj加上一常數(shù)α,求出所得到的和對于10的對 數(shù),得到第二函數(shù)值lg(wordCnt_i+a )。本發(fā)明提供了一種互聯(lián)網(wǎng)中關(guān)聯(lián)詞條組相關(guān)度的排序裝置,包括上述的測量裝置,用于測量各關(guān)聯(lián)詞條組的相關(guān)度;存儲單元,用于保存各關(guān)聯(lián)詞條組的相關(guān)度;排序單元,用于按照相關(guān)度的大小對各關(guān)聯(lián)詞條組進(jìn)行排序。本發(fā)明的技術(shù)方案更精確合理地對網(wǎng)頁中的出現(xiàn)的關(guān)聯(lián)詞條組進(jìn)行測量、排序, 消除從網(wǎng)頁中抽取的關(guān)鍵詞條組所包含的大量噪聲,將準(zhǔn)確性較低、相關(guān)度較差的關(guān)聯(lián)詞 條組排列順序后置,將準(zhǔn)確性較高、相關(guān)度較好的關(guān)聯(lián)詞條組相關(guān)度的排列順序盡量提前; 當(dāng)后續(xù)檢索或翻譯時(shí)按照本發(fā)明的技術(shù)方案所排順序,選用排序靠前的關(guān)聯(lián)詞條組,可以 提高檢索或翻譯的準(zhǔn)確性和可靠性。
圖1為實(shí)施例四的互聯(lián)網(wǎng)中關(guān)聯(lián)詞條組相關(guān)度的測量方法的流程示意圖;圖2為實(shí)施例六的互聯(lián)網(wǎng)中關(guān)聯(lián)詞條組相關(guān)度的測量裝置的示意框圖。
具體實(shí)施例方式下面將結(jié)合附圖及實(shí)施例對本發(fā)明的技術(shù)方案進(jìn)行更詳細(xì)的說明。需要說明的是,如果不沖突,本發(fā)明實(shí)施例以及實(shí)施例中的各個(gè)特征可以相互結(jié) 合,均在本發(fā)明的保護(hù)范圍之內(nèi)。另外,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī) 可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況 下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。實(shí)施例一,一種互聯(lián)網(wǎng)中關(guān)聯(lián)詞條組相關(guān)度的測量方法,包括A、對于各個(gè)包含待測量關(guān)聯(lián)詞條組的站點(diǎn),分別測量所述待測量關(guān)聯(lián)詞條組在該 站點(diǎn)中的相關(guān)度;B、對于各所述站點(diǎn),分別將所述待測量關(guān)聯(lián)詞條組在該站點(diǎn)中的相關(guān)度乘以該站 點(diǎn)的權(quán)重,得到所述待測量關(guān)聯(lián)詞條組在該站點(diǎn)中的相關(guān)度修正值;C、將所述待測量關(guān)聯(lián)詞條組在各所述站點(diǎn)中的相關(guān)度修正值相加,得到所述待測 量關(guān)聯(lián)詞條組的相關(guān)度。乘以權(quán)重的意義是將站點(diǎn)的可靠性或權(quán)威性等考慮進(jìn)相關(guān)度的測量中。求和的意義是所述待測量關(guān)聯(lián)詞條組來源站點(diǎn)數(shù)越多,說明它得到了更多站點(diǎn) 的認(rèn)可,其相關(guān)度越高。在測量中,不一定是對所有包含待測量關(guān)聯(lián)詞條組的站點(diǎn),都測量待測量關(guān)聯(lián)詞 條組在該站點(diǎn)中的相關(guān)度;可以將一些站點(diǎn)(比如開辦時(shí)間短、信用度低的)排除在外;后 面的實(shí)施例中也一樣。實(shí)施例二、一種互聯(lián)網(wǎng)中關(guān)聯(lián)詞條組相關(guān)度的測量方法,包括實(shí)施例一中的步驟 A、B 禾口 C。本實(shí)施例中,所述方法還包括分別由各站點(diǎn)所包含的不重復(fù)的關(guān)聯(lián)詞條組的數(shù)量freq_i得到該站點(diǎn)的所述權(quán) 重;本實(shí)施例中采用freq_i求權(quán)重,表示包含了更多不重復(fù)關(guān)聯(lián)詞條組的站點(diǎn)可靠度更 高,它們包含的關(guān)聯(lián)詞條組的可靠性亦相對較高。實(shí)際應(yīng)用中,也可以由站點(diǎn)的其它有關(guān)其可靠性或權(quán)威性的因素得到其權(quán)重,比 如站點(diǎn)的開辦時(shí)間,知名度等。本實(shí)施例的一種實(shí)施方式中,可以但不限于采用對數(shù)函數(shù)處理所述freq_i得到 第一函數(shù)值,作為該站點(diǎn)的所述權(quán)重;所述對數(shù)函數(shù)的底數(shù)大于1。其它實(shí)施方式中,也可 采用其它函數(shù)。該實(shí)施方式中,所述底數(shù)可以但不限于為10。該實(shí)施方式中,采用對數(shù)函數(shù)處理所述freq_i得到第一函數(shù)值具體是指將所述 freq_i加上一常數(shù)β,求出所得到的和對于10的對數(shù),得到第一函數(shù)值lg(freq_i+i3)。該實(shí)施方式中,所述β可以但不限于為1 ;在其它實(shí)施方式中,所述底數(shù)/β可以有其它取值。其它細(xì)節(jié)同實(shí)施例一。實(shí)施例三、一種互聯(lián)網(wǎng)中關(guān)聯(lián)詞條組相關(guān)度的測量方法,包括實(shí)施例一或二中的 步驟A、B和C。本實(shí)施例中,所述步驟A具體包括對于各個(gè)包含待測量關(guān)聯(lián)詞條組的站點(diǎn),分別進(jìn)行以下步驟確定該站點(diǎn)中包含所述待測量關(guān)聯(lián)詞條組的個(gè)數(shù)WordCnt_i,以及該站點(diǎn)中包含 任意關(guān)聯(lián)詞條組的不重復(fù)的url數(shù)量urlcnt」;采用對數(shù)函數(shù)對所述wordcntj處理得到第二函數(shù)值,所述對數(shù)函數(shù)的底數(shù)大于 1 ;采用冪函數(shù)對urlcnt」除以wordcnt」的商urlcnt_i/wordcnt_i處理得到第三函數(shù) 值,所述冪函數(shù)的指數(shù)大于0小于1 ;由第二函數(shù)值和第三函數(shù)值的乘積得到所述待測量關(guān)聯(lián)詞條組在該站點(diǎn)中的相關(guān)度。實(shí)際應(yīng)用中,也可采用其它方式得到待測量關(guān)聯(lián)詞條組在各站點(diǎn)中的相關(guān)度;也 可以采用其它函數(shù)處理所述wordcnt_i除以wordcnt_i的商,或是其它參數(shù)。在本實(shí)施例的一種實(shí)施方式中,所述對數(shù)函數(shù)的底數(shù)為10,即為Ig函數(shù);所述冪 函數(shù)的指數(shù)為0. 5,即為sqrt函數(shù)。該實(shí)施方式中,采用Ig函數(shù)表示所述待測量關(guān)聯(lián)詞條組在某站點(diǎn)出現(xiàn)的次數(shù)越 多,說明其被認(rèn)可度越高,故相關(guān)度越高;采用sqrt函數(shù)表示該待測量關(guān)聯(lián)詞條組在某站 點(diǎn)大量網(wǎng)頁中出現(xiàn),它很有可能來自非正文區(qū)域或者來自作弊網(wǎng)站,應(yīng)相對降低其相關(guān)度。在傳統(tǒng)搜索引擎中,一般tf = sqrt(freq_i),idf = log(D/Dw_i),其中 freq_i* 關(guān)聯(lián)詞條組的總頻次,D代表總的網(wǎng)頁數(shù),Dw_i表示出現(xiàn)關(guān)聯(lián)詞條組的網(wǎng)頁數(shù),而該實(shí)施方 式中用log函數(shù)計(jì)算tf值,用sqrt函數(shù)計(jì)算idf值,以加重關(guān)聯(lián)詞條組在某站點(diǎn)大量網(wǎng)頁 中出現(xiàn)的重要性,出現(xiàn)得越頻繁,相關(guān)度越低,以達(dá)到降低可靠性低的關(guān)聯(lián)詞條組的排序的 目的。根據(jù)實(shí)驗(yàn)結(jié)果,改進(jìn)(用log函數(shù)計(jì)算tf值、用sqrt函數(shù)計(jì)算idf值)后的效果比 改進(jìn)前的效果要好。該實(shí)施方式中,采用對數(shù)函數(shù)對所述wordcntj處理得到第二函數(shù)值可以但不限 于是指,將所述wordcntj加上一常數(shù)α,求出所得到的和對于10的對數(shù),得到第二函數(shù)值 Ig (wordcnt」+ α )。該實(shí)施方式中,所述α可以但不限于為1。在其它實(shí)施方式中,所述底數(shù)/指數(shù)/α可以有其它取值。其它細(xì)節(jié)同實(shí)施例一或二。實(shí)施例四、一種互聯(lián)網(wǎng)中關(guān)聯(lián)詞條組相關(guān)度的測量方法;該實(shí)施例中,所述關(guān)聯(lián)詞 條組為中英互譯對;該測量方法如圖1所示,包括以下步驟101、系統(tǒng)輸入為形如id+en+cn+url的互譯對記錄,其中erucn分別代表互譯對的 英文域及中文域,url代表互譯對的來源網(wǎng)址,id是記錄的唯一標(biāo)識,由en+cn+url排重生 成??偟挠涗洍l數(shù)可達(dá)10億條左右。單條記錄示例如下3215</seg>campus</seg> 校園
</seg>http://sl. iciba. com/viewthread-42-611087-1. shtml102、把url作為key值進(jìn)行哈希表排重,得到每個(gè)網(wǎng)頁貢獻(xiàn)的互譯對信息,記錄形 式為url+idl id2. . . idn,同時(shí)得到包含互譯對的url總數(shù),數(shù)量可達(dá)上億。103、把en+cn作為key值進(jìn)行哈希表排重,得到每個(gè)互譯對來源的url信息,記錄 形式為en+cn+urll url2. . . urln,同時(shí)得到所有互譯對的總數(shù),數(shù)量有幾千萬之多。104、根據(jù)步驟102的結(jié)果,即形如url+idl id2. . . idn的上億記錄,把主站相同的 url信息合到一起,得到形如domain+idl id2. . . idm的記錄,它表示某個(gè)站點(diǎn)貢獻(xiàn)了哪些 互譯對,同時(shí)得到站點(diǎn)總數(shù)(可達(dá)上百萬之多)。105、根據(jù)步驟104的結(jié)果,再結(jié)合步驟101中的互譯對記錄信息,用en+cn信息代 替步驟104結(jié)果中的id信息,并對domain下的en+cn信息進(jìn)行排重,得到站點(diǎn)里貢獻(xiàn)的互 譯對總數(shù)及每個(gè)互譯對在該站內(nèi)出現(xiàn)的次數(shù)。記錄形式如下domain+total_cnt+enl cnl cntl+en2 cn2 cnt2+...如iciba. com</seg>3</seg>hello</mul> 你好 </mul>2</seg>get</mul>得到</mul>l 表示站點(diǎn)iciba. com總共貢獻(xiàn)了 3個(gè)互譯對,其中‘‘hello你好" 出現(xiàn)了 2次,丨'get得到〃出現(xiàn)了 1次。106、對步驟103結(jié)果的每條記錄,把主站相同的url合并在一起,并用主站名代替 url,得到所有互譯對來源的主站總數(shù)及來源于各個(gè)主站的頻次。記錄形式如下:en+cn+word_cnt+domainl cntl+domain2 cnt2. +…,如 hello</seg> 你好 </seg>3</seg>iciba. com</mul>2</seg>baidu. com</mul>l 表示互譯對〃 hello你好〃在互聯(lián)網(wǎng)出現(xiàn)了三次,其中在站點(diǎn)iciba. com上出現(xiàn)兩次,在站
baidu. com上出現(xiàn)一次。107、根據(jù)步驟105的結(jié)果,以及公式weight = log(freq)+l,得到所有站點(diǎn)貢獻(xiàn)互 譯對的權(quán)重。注此處的freq即步驟105結(jié)果中的total_Cnt。108、根據(jù)步驟102的結(jié)果,把主站相同的url信息合到一起,得到形如 domain+url_cnt+urll url2...的記錄,它表示某個(gè)站點(diǎn)有哪些url貢獻(xiàn)了互譯對。109、根據(jù)以上步驟的結(jié)果,及評分公式score = sum_i (log (wordcnt_ i+l)*sqrt(urlcnt_i/wordcnt_i)*weight_i),得到所有互譯對的評分結(jié)果。其中,urlcnt_ i即步驟108的結(jié)果中的url_cnt, wordcnt_i即步驟106的結(jié)果中的word_cnt, weight」 即步驟107的結(jié)果中的weight。實(shí)施例五,一種互聯(lián)網(wǎng)中關(guān)聯(lián)詞條組相關(guān)度的排序方法,包括a、測量各關(guān)聯(lián)詞條組的相關(guān)度;對于每個(gè)關(guān)聯(lián)詞條組,按照實(shí)施例一到四中任一 個(gè)的方法測量其相關(guān)度。b、按照相關(guān)度的大小進(jìn)行排序。在后續(xù)的搜索、翻譯或其它工作中,當(dāng)需要選擇一關(guān)聯(lián)詞條組時(shí),可以按照該排 序,選擇相關(guān)度最高的一個(gè)或多個(gè)關(guān)聯(lián)詞條組。比如當(dāng)需要從網(wǎng)頁中查找一中文詞匯的英文釋義時(shí),在各網(wǎng)頁中找到包含該中文 詞匯的關(guān)聯(lián)詞條組(表現(xiàn)形式為中英互譯對),并得到所找到的中英互譯對的相關(guān)度排序, 根據(jù)該排序選擇相關(guān)度最高的中英互譯對中的英文釋義,作為該中文詞匯的解釋;或根據(jù)該排序選擇相關(guān)度最高的多個(gè)中英互譯對中的英文釋義,供用戶選擇。實(shí)施例六,一種互聯(lián)網(wǎng)中關(guān)聯(lián)詞條組相關(guān)度的測量裝置,如圖2所示,包括站點(diǎn)相關(guān)度測量模塊,用于對于各個(gè)包含待測量關(guān)聯(lián)詞條組的站點(diǎn),分別測量所 述待測量關(guān)聯(lián)詞條組在該站點(diǎn)中的相關(guān)度;加權(quán)模塊,用于對于各所述站點(diǎn),分別將所述待測量關(guān)聯(lián)詞條組在該站點(diǎn)中的相 關(guān)度乘以該站點(diǎn)的權(quán)重,得到所述待測量關(guān)聯(lián)詞條組在該站點(diǎn)中的相關(guān)度修正值;求和模塊,用于將所述待測量關(guān)聯(lián)詞條組在各所述站點(diǎn)中的相關(guān)度修正值相加, 得到所述待測量關(guān)聯(lián)詞條組的相關(guān)度。實(shí)施例七,一種互聯(lián)網(wǎng)中關(guān)聯(lián)詞條組相關(guān)度的測量裝置,包括實(shí)施例六中的各模 塊。本實(shí)施例中,所述測量裝置還可以包括權(quán)重模塊,用于分別由各站點(diǎn)所包含的不重復(fù)的關(guān)聯(lián)詞條組的數(shù)量freq_i得到 該站點(diǎn)的所述權(quán)重。本實(shí)施例的一種實(shí)施方式中,所述權(quán)重模塊具體可以包括第一統(tǒng)計(jì)模塊,用于分別確定各站點(diǎn)所包含的不重復(fù)的關(guān)聯(lián)詞條組的數(shù)量freq_ i ;第一處理模塊,用于對于各站點(diǎn),采用對數(shù)函數(shù)處理所述freq_i得到第一函數(shù) 值,作為該站點(diǎn)的所述權(quán)重;所述對數(shù)函數(shù)的底數(shù)大于1 ;其它實(shí)施方式中,也可采用其它 函數(shù)處理所述freq_i,底數(shù)也可以有其它取值。該實(shí)施方式中,所述第一處理模塊采用所述對數(shù)函數(shù)處理所述freq_i得到第一 函數(shù)值具體可以但不限于是指所述第一處理模塊將所述freq_i加上一常數(shù)β,求出所得 到的和對于10的對數(shù),得到第一函數(shù)值lg(freq_i+i3)。該實(shí)施方式中,所述β可以但不限于為1 ;在其它實(shí)施方式中,所述β可以有其 它取值。實(shí)際應(yīng)用中,也可以由站點(diǎn)的其它有關(guān)其可靠性或權(quán)威性的因素得到其權(quán)重預(yù)設(shè) 在所述求和模塊中。其它細(xì)節(jié)同實(shí)施例六。實(shí)施例八,一種互聯(lián)網(wǎng)中關(guān)聯(lián)詞條組相關(guān)度的測量裝置,包括實(shí)施例六中的各模 塊。本實(shí)施例中,所述站點(diǎn)相關(guān)度測量模塊具體可以包括第二統(tǒng)計(jì)模塊,用于分別確定各所述站點(diǎn)中包含關(guān)聯(lián)詞條組的不重復(fù)的url數(shù) 量;其中,一站點(diǎn)i中包含關(guān)聯(lián)詞條組的不重復(fù)的url數(shù)量為urlcnt」;第三統(tǒng)計(jì)模塊,用于分別確定各所述站點(diǎn)中包含所述待測量關(guān)聯(lián)詞條組的個(gè)數(shù); 其中,一站點(diǎn)i中包含所述待測量關(guān)聯(lián)詞條組的個(gè)數(shù)為wordcntj ;第二處理模塊,用于采用對數(shù)函數(shù)對所述wordcntj處理得到站點(diǎn)i的第二函數(shù) 值,所述對數(shù)函數(shù)的底數(shù)大于1 ;第三處理模塊,用于采用冪函數(shù)對urlcnt_i除以wordcnt_i的商urlcnt_i/ wordcnt_i處理得到站點(diǎn)i的第三函數(shù)值,所述冪函數(shù)的指數(shù)大于0小于1 ;相關(guān)度測量模塊,由站點(diǎn)i的第二函數(shù)值和第三函數(shù)值的乘積得到所述待測量關(guān)聯(lián)詞條組在站點(diǎn)i中的相關(guān)度;求和模塊,將所述待測量關(guān)聯(lián)詞條組在各所述站點(diǎn)中的相關(guān)度相加,得到所述待 測量關(guān)聯(lián)詞條組的相關(guān)度。還可以包括一搜索模塊,用于在互聯(lián)網(wǎng)中找到包含待測量關(guān)聯(lián)詞條組的站點(diǎn)。實(shí)際應(yīng)用中,第二、第三處理模塊也可采用其它函數(shù)。在本實(shí)施例的一種實(shí)施方式中,所述第二處理模塊采用的所述對數(shù)函數(shù)的底數(shù)為 10,即為Ig函數(shù);所述第三處理模塊采用的所述冪函數(shù)的指數(shù)為0. 5,即為sqrt函數(shù)。該實(shí)施方式中,所述第二處理模塊采用對數(shù)函數(shù)對所述wordcntj處理得到第二 函數(shù)值可以但不限于是指,所述第二處理模塊將所述wordcntj加上一常數(shù)α,求出所得 到的和對于10的對數(shù),得到第二函數(shù)值lg(wordCnt_i+a )。該實(shí)施方式中,所述α可以但不限于為1。在其它實(shí)施方式中,所述底數(shù)/指數(shù)/ α可以有其它取值。其它細(xì)節(jié)同實(shí)施例六或七。實(shí)施例九,一種互聯(lián)網(wǎng)中關(guān)聯(lián)詞條組相關(guān)度的排序裝置,包括如實(shí)施例六到八中任一實(shí)施例所述的測量裝置,用于測量各關(guān)聯(lián)詞條組的相關(guān) 度;存儲單元,用于保存各關(guān)聯(lián)詞條組的相關(guān)度;排序單元,用于按照相關(guān)度的大小對各關(guān)聯(lián)詞條組進(jìn)行排序。顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用 的計(jì)算裝置來實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成 的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來實(shí)現(xiàn),從而,可以將它們存儲 在存儲裝置中由計(jì)算裝置來執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們 中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的 硬件和軟件結(jié)合。當(dāng)然,本發(fā)明還可有其他多種實(shí)施例,在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下,熟 悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變 形都應(yīng)屬于本發(fā)明的權(quán)利要求的保護(hù)范圍。
1權(quán)利要求
1.一種互聯(lián)網(wǎng)中關(guān)聯(lián)詞條組相關(guān)度的測量方法,包括A、對于各個(gè)包含待測量關(guān)聯(lián)詞條組的站點(diǎn),分別測量所述待測量關(guān)聯(lián)詞條組在該站點(diǎn) 中的相關(guān)度;B、對于各所述站點(diǎn),分別將所述待測量關(guān)聯(lián)詞條組在該站點(diǎn)中的相關(guān)度乘以該站點(diǎn)的 權(quán)重,得到所述待測量關(guān)聯(lián)詞條組在該站點(diǎn)中的相關(guān)度修正值;C、將所述待測量關(guān)聯(lián)詞條組在各所述站點(diǎn)中的相關(guān)度修正值相加,得到所述待測量關(guān) 聯(lián)詞條組的相關(guān)度。
2.如權(quán)利要求1所述的測量方法,其特征在于,還包括分別由各站點(diǎn)所包含的不重復(fù)的關(guān)聯(lián)詞條組的數(shù)量freq_i得到該站點(diǎn)的所述權(quán)重。
3.如權(quán)利要求2所述的測量方法,其特征在于,分別由各站點(diǎn)所包含的不重復(fù)的關(guān)聯(lián) 詞條組的數(shù)量freq_i得到該站點(diǎn)的所述權(quán)重具體包括分別確定各站點(diǎn)所包含的不重復(fù)的關(guān)聯(lián)詞條組的數(shù)量freq_i ; 對于各站點(diǎn),采用對數(shù)函數(shù)處理所述freq_i得到第一函數(shù)值,作為該站點(diǎn)的所述權(quán)重。
4.如權(quán)利要求3所述的測量方法,其特征在于,采用對數(shù)函數(shù)處理所述freq_i得到的 第一函數(shù)值具體是指將所述freq_i加上一常數(shù)β,求出所得到的和對于10的對數(shù),得到第一函數(shù)值 lg(freq_i+^ )。
5.如權(quán)利要求1所述的測量方法,其特征在于,所述步驟A具體包括 對于各個(gè)包含待測量關(guān)聯(lián)詞條組的站點(diǎn),分別進(jìn)行以下步驟確定該站點(diǎn)中包含所述待測量關(guān)聯(lián)詞條組的個(gè)數(shù)wordcnt」,以及該站點(diǎn)中包含任意 關(guān)聯(lián)詞條組的不重復(fù)的url數(shù)量urlcnt」;采用對數(shù)函數(shù)對所述wordcntj處理得到第二函數(shù)值,所述對數(shù)函數(shù)的底數(shù)大于1 ;采 用冪函數(shù)對urlcnt_i除以wordcnt_i的商urlcnt_i/wordcnt_i處理得到第三函數(shù)值,所 述冪函數(shù)的指數(shù)大于0小于1 ;由第二函數(shù)值和第三函數(shù)值的乘積得到所述待測量關(guān)聯(lián)詞條組在該站點(diǎn)中的相關(guān)度。
6.如權(quán)利要求5所述的測量方法,其特征在于所述對數(shù)函數(shù)的底數(shù)為10,所述冪函數(shù)的指數(shù)為0. 5。
7.如權(quán)利要求6所述的測量方法,其特征在于,采用對數(shù)函數(shù)對所述wordcntj處理得 到第二函數(shù)值是指將所述wordcntj加上一常數(shù)α,求出所得到的和對于10的對數(shù),得到第二函數(shù)值Ig (wordcnt_i+α )。
8.—種互聯(lián)網(wǎng)中關(guān)聯(lián)詞條組相關(guān)度的排序方法,包括a、按照權(quán)利要求1到7中任一項(xiàng)所述的測量方法,測量各關(guān)聯(lián)詞條組的相關(guān)度;b、按照相關(guān)度的大小進(jìn)行排序。
9.一種互聯(lián)網(wǎng)中關(guān)聯(lián)詞條組相關(guān)度的測量裝置,其特征在于,包括站點(diǎn)相關(guān)度測量模塊,用于對于各個(gè)包含待測量關(guān)聯(lián)詞條組的站點(diǎn),分別測量所述待 測量關(guān)聯(lián)詞條組在該站點(diǎn)中的相關(guān)度;加權(quán)模塊,用于對于各所述站點(diǎn),分別將所述待測量關(guān)聯(lián)詞條組在該站點(diǎn)中的相關(guān)度乘以該站點(diǎn)的權(quán)重,得到所述待測量關(guān)聯(lián)詞條組在該站點(diǎn)中的相關(guān)度修正值;求和模塊,用于將所述待測量關(guān)聯(lián)詞條組在各所述站點(diǎn)中的相關(guān)度修正值相加,得到 所述待測量關(guān)聯(lián)詞條組的相關(guān)度。
10.如權(quán)利要求9所述的測量裝置,其特征在于,還包括權(quán)重模塊,用于分別由各站點(diǎn)所包含的不重復(fù)的關(guān)聯(lián)詞條組的數(shù)量freq_i得到該站 點(diǎn)的所述權(quán)重。
11.如權(quán)利要求10所述的測量裝置,其特征在于,所述權(quán)重模塊具體包括第一統(tǒng)計(jì)模塊,用于分別確定各站點(diǎn)所包含的不重復(fù)的關(guān)聯(lián)詞條組的數(shù)量freq_i ; 第一處理模塊,用于對于各站點(diǎn),采用對數(shù)函數(shù)處理所述freq_i得到第一函數(shù)值,作 為該站點(diǎn)的所述權(quán)重;所述對數(shù)函數(shù)的底數(shù)大于1。
12.如權(quán)利要求11所述的測量裝置,其特征在于,所述第一處理模塊采用對數(shù)函數(shù)處 理所述freq_i得到的第一函數(shù)值具體是指所述第一處理模塊將所述freq_i加上一常數(shù)β,求出所得到的和對于10的對數(shù),得到 第一函數(shù)值 lg(freq_i+i3)。
13.如權(quán)利要求9所述的測量裝置,其特征在于,所述站點(diǎn)相關(guān)度測量模塊具體包括 第二統(tǒng)計(jì)模塊,用于分別確定各所述站點(diǎn)中包含關(guān)聯(lián)詞條組的不重復(fù)的url數(shù)量;其中,一站點(diǎn)i中包含關(guān)聯(lián)詞條組的不重復(fù)的url數(shù)量為urlcnt」;第三統(tǒng)計(jì)模塊,用于分別確定各所述站點(diǎn)中包含所述待測量關(guān)聯(lián)詞條組的個(gè)數(shù);其中, 一站點(diǎn)i中包含所述待測量關(guān)聯(lián)詞條組的個(gè)數(shù)為wordcntj ;第二處理模塊,用于采用對數(shù)函數(shù)對所述wordcntj處理得到站點(diǎn)i的第二函數(shù)值,所 述對數(shù)函數(shù)的底數(shù)大于1 ;第三處理模塊,用于采用冪函數(shù)對urlcnt_i除以wordcnt_i的商urlcnt_i/wordcnt_ i處理得到站點(diǎn)i的第三函數(shù)值,所述冪函數(shù)的指數(shù)大于0小于1 ;相關(guān)度測量模塊,由站點(diǎn)i的第二函數(shù)值和第三函數(shù)值的乘積得到所述待測量關(guān)聯(lián)詞 條組在站點(diǎn)i中的相關(guān)度;求和模塊,將所述待測量關(guān)聯(lián)詞條組在各所述站點(diǎn)中的相關(guān)度相加,得到所述待測量 關(guān)聯(lián)詞條組的相關(guān)度。
14.如權(quán)利要求13所述的測量裝置,其特征在于 所述第二處理模塊采用的所述對數(shù)函數(shù)的底數(shù)為10 ; 所述第三處理模塊采用的所述冪函數(shù)的指數(shù)為0. 5。
15.如權(quán)利要求14所述的測量裝置,其特征在于,所述第二處理模塊采用對數(shù)函數(shù)對 所述wordcnt」處理得到第二函數(shù)值是指所述第二處理模塊將所述wordcntj加上一常數(shù)α,求出所得到的和對于10的對數(shù), 得到第二函數(shù)值lg(wordcnt_i+a )。
16.一種互聯(lián)網(wǎng)中關(guān)聯(lián)詞條組相關(guān)度的排序裝置,其特征在于,包括如權(quán)利要求9到15中任一項(xiàng)所述的測量裝置,用于測量各關(guān)聯(lián)詞條組的相關(guān)度;存儲單元,用于保存各關(guān)聯(lián)詞條組的相關(guān)度;排序單元,用于按照相關(guān)度的大小對各關(guān)聯(lián)詞條組進(jìn)行排序。
全文摘要
互聯(lián)網(wǎng)中關(guān)聯(lián)詞條組相關(guān)度的測量方法、排序方法和裝置;測量方法包括對于各個(gè)包含待測量關(guān)聯(lián)詞條組的站點(diǎn),分別測量所述待測量關(guān)聯(lián)詞條組在該站點(diǎn)中的相關(guān)度;對于各所述站點(diǎn),分別將所述待測量關(guān)聯(lián)詞條組在該站點(diǎn)中的相關(guān)度乘以該站點(diǎn)的權(quán)重,得到所述待測量關(guān)聯(lián)詞條組在該站點(diǎn)中的相關(guān)度修正值;將所述待測量關(guān)聯(lián)詞條組在各所述站點(diǎn)中的相關(guān)度修正值相加,得到所述待測量關(guān)聯(lián)詞條組的相關(guān)度。本發(fā)明可以對互聯(lián)網(wǎng)網(wǎng)頁中出現(xiàn)的關(guān)聯(lián)詞條進(jìn)行更合理的測量、排序。
文檔編號G06F17/30GK102117280SQ20091024319
公開日2011年7月6日 申請日期2009年12月31日 優(yōu)先權(quán)日2009年12月31日
發(fā)明者于亮, 彭錦臻 申請人:北京金山數(shù)字娛樂科技有限公司, 北京金山軟件有限公司