国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于主成分分析的詞語權(quán)重組合方法

      文檔序號:6582172閱讀:1525來源:國知局
      專利名稱:基于主成分分析的詞語權(quán)重組合方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種自然語言的處理方法,具體涉及一種詞語權(quán)重的計(jì)算方法。
      背景技術(shù)
      近年來,自然語言處理新模型不斷涌現(xiàn),而這些模型都以詞語權(quán)重算法為基礎(chǔ),它 直接影響模型的處理結(jié)果。 總結(jié)起來,權(quán)重計(jì)算方法主要包括三大類詞語全局權(quán)重、詞語局部權(quán)重和文檔規(guī) 范化因子。而詞語的最終權(quán)重,就是這三類權(quán)重的乘積。然而這些權(quán)重之間有許多重復(fù)的 冗余信息,即存在著信息上的重疊。簡單的相乘會重復(fù)記錄這些重疊信息,從而使得某些詞 語權(quán)重過高,造成最終權(quán)重不準(zhǔn)確。

      發(fā)明內(nèi)容
      本發(fā)明針對現(xiàn)有權(quán)重之間有許多重復(fù)的冗余信息,導(dǎo)致這些權(quán)重相乘會重復(fù)記錄
      這些重疊信息,從而使得某些詞語權(quán)重過高,造成最終權(quán)重不準(zhǔn)確的問題;而提供一種采用
      主成分分析方法計(jì)算組合權(quán)重的方法,該方法能夠在不改變原始權(quán)重數(shù)據(jù)信息量的情況下
      消除各權(quán)重間的相關(guān)性,從而給詞語一個客觀準(zhǔn)確的權(quán)重。 為了達(dá)到上述目的,本發(fā)明采用如下的技術(shù)方案 基于主成分分析的詞語權(quán)重組合方法,該方案包括如下的步驟 (1)正態(tài)性檢驗(yàn),將所有待組合的詞語權(quán)重的序列進(jìn)行正態(tài)性檢驗(yàn)。這是使用本專
      利計(jì)算方法的前提。主成分分析模型要求待處理的所有數(shù)據(jù),即各權(quán)重計(jì)算方法計(jì)算出的
      詞語權(quán)重,也就是所有待組合的詞語權(quán)重,必須符合正態(tài)性檢驗(yàn)。 (2)將各種權(quán)重計(jì)算方法計(jì)算得到的詞語權(quán)重值標(biāo)準(zhǔn)化。不同的權(quán)重計(jì)算方法的 出的權(quán)重區(qū)間可能有較大的差別,這會造成本專利組合方法結(jié)果的不準(zhǔn)確。因而需要把不 同區(qū)間的權(quán)重進(jìn)行標(biāo)準(zhǔn)化,使其在單一區(qū)間中。 (3)計(jì)算相關(guān)矩陣。本專利基于主成分分析模型改進(jìn)權(quán)重組合方法,其優(yōu)勢在于能 夠消除不同權(quán)重算法計(jì)算出的權(quán)重序列的相關(guān)性,從而提升權(quán)重組合結(jié)果的準(zhǔn)確性。而相 關(guān)矩陣就是衡量不同權(quán)重算法的計(jì)算結(jié)果間的相關(guān)程度。 (4)求相關(guān)矩陣的特征根和特征向量,得出主成分。解相關(guān)矩陣R的特征方程,可 得R的P個特征根,其大小描述了各個主成分在描述被評價對象上所起作用的大小。由特 征方程式,每一個特征根對應(yīng)一個特征向量。進(jìn)而使用特征向量作為系數(shù)可直接寫出主成 分。 (5)求方差貢獻(xiàn)率,確定主成分。主成分分析是一種降維的方法,找出幾個綜合因 子,即主成分,來代表原來眾多的變量,使這些綜合因子能盡可能地反映原來變量的信息量 且彼此之間不相關(guān)。因此,需要確定哪些主成分蘊(yùn)含的信息量高,從而采用這些主成分作為 綜合評價因子。跟據(jù)特征根從大到小,計(jì)算其對應(yīng)的主成分的方差貢獻(xiàn)率,并累計(jì),如果累 計(jì)方差貢獻(xiàn)率>85%,則已計(jì)算的主成分將作為用于綜合評價的主成分。
      (6)綜合評價。主成分進(jìn)行加權(quán)求和,即得最終評價值,權(quán)數(shù)為每個主成分得方差 貢獻(xiàn)率。 所述步驟(1)之前利用各權(quán)重計(jì)算方法計(jì)算得到相應(yīng)的詞語權(quán)重,且每個權(quán)重算 法得到的詞語權(quán)重序列符合正態(tài)性檢驗(yàn)。 根據(jù)上述技術(shù)方案得到的本發(fā)明采用多元統(tǒng)計(jì)分析中的主成分分析方法,能夠在 不改變原始數(shù)據(jù)信息量的情況下消除各指標(biāo)間的相關(guān)性,可以根據(jù)各項(xiàng)詞語權(quán)重的值,給 其一個準(zhǔn)確的綜合評價值。 基于上述特點(diǎn)本發(fā)明將有效優(yōu)化目前詞語權(quán)重計(jì)算方法,提高其準(zhǔn)確率,勢必有 力推動信息檢索、文本分類、自動文摘、問答系統(tǒng)等自然語言處理技術(shù)的研究和應(yīng)用。


      以下結(jié)合附圖和具體實(shí)施方式
      來進(jìn)一步說明本發(fā)明。
      圖1為本發(fā)明的流程圖。
      具體實(shí)施例方式
      為了使本發(fā)明實(shí)現(xiàn)的技術(shù)手段、創(chuàng)作特征、達(dá)成目的與功效易于明白了解,下面結(jié) 合具體圖示,進(jìn)一步闡述本發(fā)明。 為了消除重疊信息,本發(fā)明利用主成分分析方法計(jì)算組合權(quán)重的原理。本發(fā)明采 用多元統(tǒng)計(jì)分析中的主成分分析方法,給各種權(quán)重算法得出的詞語權(quán)重一個綜合評價值。
      主成分分析方法,就是把分量相關(guān)的原始變量通過正交變換得到一組分量不相關(guān) 且具有良好方差性質(zhì)的新變量,再從中選取前幾個變量來代替原變量。它一方面能夠在不 改變原始數(shù)據(jù)信息量的情況下消除各指標(biāo)間的相關(guān)性;另一方面它還可以采取一種降維的 方法,找出幾個蘊(yùn)含信息量最高的綜合因子來代表原來眾多的變量,并用這些綜合因子給 出綜合評價。 從而基于該理論設(shè)計(jì)的權(quán)重組合方法,能夠達(dá)到消除各權(quán)重間重疊信息的目的, 從而得出客觀準(zhǔn)確的組合權(quán)重。 本發(fā)明提供的詞語權(quán)重組合方法,能夠在不改變原始權(quán)重數(shù)據(jù)信息量的情況下消 除各權(quán)重間的相關(guān)性,從而給詞語一個客觀準(zhǔn)確的權(quán)重。其具體步驟如下
      (1)總體的正態(tài)性檢驗(yàn) 各權(quán)重計(jì)算方法計(jì)算出的詞語權(quán)重中,即所有待組合的詞語權(quán)重中,每個權(quán)重算 法得出的詞語權(quán)重序列必須符合正態(tài)性檢驗(yàn)。這是使用本專利計(jì)算方法的前提。正態(tài) 性檢驗(yàn)的方法有許多,可采用Shapiro. S.S和Wilk.M.B的正態(tài)性W檢驗(yàn)法。先將詞語
      的權(quán)重序列",A, Xn)按由大到小排為(X(D, X(2), A, X(n))。記 其中
      ,=1
      /
      Z = ^>t 。ak為該檢驗(yàn)算法的參數(shù),可查Sh即iro-Wilk檢驗(yàn)的&i的系數(shù)表
      Ar=l得到。 可以證明對任何分布,W G
      ,而且分布越接近正態(tài),W的值就越接近于1。因
      4此,根據(jù)n值查Sh即iro-Wilk檢驗(yàn)的正態(tài)性W檢驗(yàn)臨界值表找到W的下臨界值Wa。若計(jì)算 出的W值滿足Wa《W《l,則接受正態(tài)性假設(shè)。
      (2)將各種權(quán)重計(jì)算方法的計(jì)算結(jié)果標(biāo)準(zhǔn)化 在詞語權(quán)重計(jì)算中,不同的權(quán)重算法得出的值的區(qū)間很可能存在較大差異,這會 造成本專利組合方法結(jié)果的不準(zhǔn)確。因而需要把不同區(qū)間的權(quán)重進(jìn)行標(biāo)準(zhǔn)化,使其在單一 區(qū)間中。具體方法為 設(shè)由m個權(quán)重算法計(jì)算出的待組合的權(quán)重共有n個,記這n個權(quán)重值組成的樣本 陣為X二 (Xij) = (X"L,XJ',令 A _ ~/ ,, 其中,E(X》和varXi分別為第i個權(quán)重算法計(jì)算出的權(quán)重值的平均值和標(biāo)準(zhǔn)差。 [OO31] (3)計(jì)算相關(guān)矩陣 本專利基于主成分分析模型改進(jìn)權(quán)重組合方法,其優(yōu)勢在于能夠消除不同權(quán)重算 法計(jì)算出的權(quán)重序列的相關(guān)性,從而提升權(quán)重組合結(jié)果的準(zhǔn)確性。而相關(guān)矩陣就是衡量不 同權(quán)重算法的計(jì)算結(jié)果間的相關(guān)程度。 f =(《,A ,;C)'的協(xié)差矩陣就是樣本陣X的相關(guān)矩陣R。計(jì)算公式為
      爿=( )=S〗=1 (~ —幻Oj - X)', i =( ), = / (4)求相關(guān)矩陣的特征根和特征向量,得出主成分 解相關(guān)矩陣R的特征方程即得其m個特征根,用A工^A2^A^Am^0表示, 其大小描述了每一個主成分所蘊(yùn)含的信息量。 由特征方程式,得每一個特征根所唯一對應(yīng)的特征向量,表示為
      ej = (lu, l2j, A , lmj) ' , j = 1, 2, A , m 使用特征向量作為系數(shù)可直接寫出主成分,求出其前p個主成分
      A = e乂'x,* = 、4 + /2,:2 +L + ;x二,_/ = 1,2,L ,/ 2w (1) 特征根的大小描述了各個主成分在描述被評價對象上所起作用的大小,本專利的 方法僅僅需要計(jì)算出較大的特征根對應(yīng)的主成分即可, 一般不超過3個??稍O(shè)定一個閾值, 比如保守起見計(jì)算出前5個主成分。
      (5)求方差貢獻(xiàn)率,確定主成分 主成分分析法要求在確保信息量損失盡可能少的前提下,用盡量少的主成分來進(jìn) 行綜合評價。其一種降維的方法,找出幾個綜合因子,即主成分,來代表原來眾多的變量,使 這些綜合因子能盡可能地反映原來變量的信息量且彼此之間不相關(guān)。因此,需要確定哪些 主成分蘊(yùn)含的信息量高,從而采用這些主成分作為綜合評價因子。實(shí)現(xiàn)方法為根據(jù)上步計(jì)
      算出的主成分的值,從第一個主成分開始逐個計(jì)算其方差貢獻(xiàn)率",.,當(dāng)累計(jì)貢
      獻(xiàn)率E J a j達(dá)到或超過85%時,已經(jīng)計(jì)算的p個主成分就能夠體現(xiàn)原數(shù)據(jù)的信息量,從而
      用于綜合評價。
      (6)綜合評價
      為了進(jìn)一步綜合形成一個最終評價值,以a j為權(quán)數(shù)對Zj求和的綜合評價函數(shù)為
      <formula>formula see original document page 6</formula> 以第i個詞語的權(quán)重數(shù)據(jù)代入(1)式,再代入到計(jì)算(2)式,就得第i個詞語的權(quán) 重的綜合得分,即組合權(quán)重值。 把所有詞語權(quán)重的數(shù)據(jù)按照步驟(6)中的方法進(jìn)行計(jì)算,可得所有詞語的權(quán)重綜 合得分,即為組合權(quán)重的值。 以上顯示和描述了本發(fā)明的基本原理和主要特征和本發(fā)明的優(yōu)點(diǎn)。本行業(yè)的技術(shù) 人員應(yīng)該了解,本發(fā)明不受上述實(shí)施例的限制,上述實(shí)施例和說明書中描述的只是說明本 發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下,本發(fā)明還會有各種變化和改進(jìn),這些變 化和改進(jìn)都落入要求保護(hù)的本發(fā)明范圍內(nèi)。本發(fā)明要求保護(hù)范圍由所附的權(quán)利要求書及其 等效物界定。
      權(quán)利要求
      基于主成分分析的詞語權(quán)重組合方法,其特征在于,所述方法包括如下的步驟(1)正態(tài)性檢驗(yàn),將所有待組合的詞語權(quán)重的序列進(jìn)行正態(tài)性檢驗(yàn);(2)將各種權(quán)重計(jì)算方法計(jì)算得到的詞語權(quán)重值標(biāo)準(zhǔn)化,使所有的詞語權(quán)重值在單一區(qū)間中;(3)計(jì)算相關(guān)矩陣,計(jì)算由各種權(quán)重計(jì)算方法計(jì)算得到的詞語權(quán)重值形成的樣本陣的相關(guān)矩陣;(4)求相關(guān)矩陣的特征根和特征向量,得出主成分;(5)求方差貢獻(xiàn)率,確定主成分;(6)綜合評價,通過上述確定的主成分進(jìn)行加權(quán)求和,即得最終評價值。
      2. 根據(jù)權(quán)利要求1所述的基于主成分分析的詞語權(quán)重組合方法,其特征在于,所述步 驟(1)之前利用各權(quán)重計(jì)算方法計(jì)算得到相應(yīng)的詞語權(quán)重,且每個權(quán)重算法得到的詞語權(quán) 重序列符合正態(tài)性檢驗(yàn)。
      全文摘要
      本發(fā)明公開了基于主成分分析的詞語權(quán)重組合方法,該方法包括如下的步驟(1)正態(tài)性檢驗(yàn);(2)將各種權(quán)重計(jì)算方法計(jì)算得到的詞語權(quán)重值標(biāo)準(zhǔn)化;(3)計(jì)算相關(guān)矩陣;(4)求相關(guān)矩陣的特征根和特征向量,得出主成分;(5)求方差貢獻(xiàn)率,確定主成分;(6)綜合評價。本發(fā)明將有效優(yōu)化目前詞語權(quán)重計(jì)算方法,提高其準(zhǔn)確率,勢必有力推動信息檢索、文本分類、自動文摘、問答系統(tǒng)等自然語言處理技術(shù)的研究和應(yīng)用。
      文檔編號G06F17/27GK101719121SQ200910199019
      公開日2010年6月2日 申請日期2009年11月19日 優(yōu)先權(quán)日2009年11月19日
      發(fā)明者夏天 申請人:上海第二工業(yè)大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1