国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種確定相關對象的方法和裝置的制造方法_4

      文檔序號:9750946閱讀:來源:國知局
      助信息而附加到類型關鍵詞集合的相應類型關鍵詞的后面。
      [0151] 在從原始語料文檔中提取出針對一個對象的類型關鍵詞集合、主題關鍵詞集合 后,可以將上述關鍵詞集合保存在對象管理數(shù)據(jù)庫中,并且,從大量原始語料文檔中篩選出 包含以上類型關鍵詞集合、主題關鍵詞集合的原始語料文檔,將上述篩選出的原始語料文 檔也與關鍵詞集合相對應地保存在對象管理數(shù)據(jù)庫中,以便為隨后的數(shù)據(jù)處理和分析提供 原始語料的依據(jù)。
      [0152] 其中,可以對所有的原始語料文檔進行處理以獲得涉及每個對象的關鍵詞集合, 也就是說將原始語料文檔中涉及的每個對象分別作為待分析對象,以確定每個對象之間是 否存在相應關系。
      [0153] 當然,還可以采用其他方式從原始語料文檔中提取關鍵詞集合,例如將用戶輸入 的對象作為待分析對象,確定該待分析對象的對象類型及該對象包含的所有對象主題。當 對原始語料文檔進行分詞處理得到關鍵詞集合后,利用待分析對象的對象類型或對象主題 的語義來匹配該關鍵詞集合,以使用待分析對象的類型或主題幫助從關鍵詞集合中提取到 其他對象的對象類型集合或對象主題集合。
      [0154] 并且,在按照語義得到關鍵詞集合后,可以確定各個關鍵詞集合的權重,將權重靠 前的關鍵詞集合進行處理以確定類型關鍵詞集合和主題關鍵詞集合并進行維護。
      [0155] 匹配單元303,用于將類型關鍵詞集合所匹配到的標準對象類型作為對象類型,以 及將主題關鍵詞集合所匹配到的標準對象主題作為對象主題。
      [0156] 由于從原始語料文檔提取出來的類型關鍵詞集合和主題關鍵詞集合代表的是用 自然語言描述的對象類型和對象主題,而在用自然語言描述類型和主題時,由于自然語言 的表述形式多種多樣,因此有可能不能反映對象的真實類型和主題,或者表述的不夠準確 或規(guī)范,在這種情況下利用對象類型和主題來分析對象之間的關系就有可能不夠準確,也 可能漏掉一些重要的信息而導致不能全方面的獲得分析結果。因此為了使自然語言描述的 對象類型和對象主題能夠用于大規(guī)模的數(shù)據(jù)分析,需要將自然語言描述的對象信息轉換成 標準化的對象信息。匹配單元303就是用于將由自然語言描述的類型關鍵詞集合和主題關 鍵詞集合進行標準化,即以國家、行業(yè)標準等標準的方式來表示對象類型和對象主題。
      [0157] 匹配單元303可以執(zhí)行如下具體操作:將所述類型關鍵詞集合和主題關鍵詞集合 分別與預先建立的標準類型分類知識庫和標準主題分類知識庫進行匹配;確定所述標準類 型分類知識庫中與類型關鍵詞集合相匹配的標準對象類型分類,以及所述標準主題分類知 識庫中與主題關鍵詞集合相匹配的標準對象主題分類;依據(jù)匹配的標準對象類型分類和標 準對象主題分類確定對象類型和對象主題。
      [0158] 具體地,該標準類型分類知識庫和標準主題分類知識庫各自維護有標準的類型分 類和標準的主題分類。
      [0159] 以公司行業(yè)作為類型,以公司產品服務作為主題為例,現(xiàn)有的標準的行業(yè)分類可 以包括國家行業(yè)分類標準、全球行業(yè)分類標準、新工業(yè)行業(yè)分類標準、以及電子信息產業(yè)行 業(yè)標準等多種標準的行業(yè)分類,該建立的標準類型分類知識庫就是將上述多種標準的行業(yè) 分類進行聚合和統(tǒng)一形成的。
      [0160] 本實施例使用了與實施例一相同的標準行業(yè)類型分類方式,也同樣適用于圖2示 出的在標準類型分類知識庫中一種以樹形結構來維護的標準行業(yè)類型分類,對于圖2的具 體描述參見實施例一。
      [0161 ]其中,標準化的匹配過程可以在建立對象管理數(shù)據(jù)庫以后執(zhí)行,也可以在建立對 象管理數(shù)據(jù)庫的同時,或者提取到關鍵詞集合時直接執(zhí)行。
      [0162] 上述是對對象類型進行的標準化處理,而對于對象主題的標準化處理,可以采用 與對象類型標準化相同的方式,即通過建立標準主題分類知識庫,利用標準主題分類知識 庫中的主題分類標準將主題關鍵詞集合以標準化的方式進行表述,由于將主題關鍵詞集合 所匹配到的標準對象主題作為對象主題的各個步驟與將類型關鍵詞集合所匹配到的標準 對象類型作為對象類型的步驟相同,因此不再贅述。
      [0163] 主題分類知識庫中的主題分類不僅可以采用與類型分類知識庫中相同的樹形結 構來表示。而且,主題分類知識庫中的主題分類也可以不以樹形結構表示,而是通過將對象 主題以及對象主題別名分為一組的方式將標準主題分成多個組。
      [0164] 另外,以上所舉的一組相同含義的產品服務僅代表了一種可能的形式,其他任何 按照分類標準對標準主題進行分組的方式均在本發(fā)明保護的范圍內。
      [0165] 在將標準主題分成多個組后,則一個對象的主題關鍵詞集合就可能對應到一組標 準主題;由于一組標準主題中可以包括一個或多個標準主題,因此一個對象能夠根據(jù)標準 主題分類知識庫擴展出多個標準的對象主題。
      [0166] 進一步地,在將主題關鍵詞集合匹配到標準對象主題以得到一個或多個對象主題 后,可以對對象的一個或多個主題進行分析和篩選,以準確確定對象的對象主題,從而能夠 幫助準確識別對象之間主題的相關性。
      [0167] 而對對象的一個或多個主題進行分析和篩選可以利用文檔主題生成模型來實現(xiàn)。
      [0168] 具體地,可以利用文檔主題生成模型對對象管理數(shù)據(jù)庫中保存的包含主題關鍵詞 集合的原始語料文檔進行主題提取,以從原始語料文檔中獲得同一對象的主要的對象主 題。
      [0169] 該文檔主題生成模型可以采用三層貝葉斯概率模型(LDA)、概率潛在語義分析 (PLSA)等來實現(xiàn)。
      [0170] 通過原始語料文檔中關鍵詞的出現(xiàn)概率等形式確定文檔中的主要主題,可以糾正 初始對主題關鍵詞進行提取可能帶來的提取不準確的結果。
      [0171] 當然,該文檔主題生成模型也可以在進行主題關鍵詞集合提取的時候就使用,但 是考慮到原始的語料文檔數(shù)量巨大,利用文檔主題生成模型對每個原始語料文檔進行主題 提取會影響處理速度。因此,優(yōu)選地是在將主題關鍵詞集合所匹配到的標準對象主題作為 對象主題之后執(zhí)行該操作,從而只對包含可能的對象主題的關鍵詞集合所在的原始語料文 檔進行主題判斷,從而減小了數(shù)據(jù)處理量,增加了處理速度。
      [0172] 聚合單元304,用于按照對象類型聚合對象,得到一個以上的對象簇。
      [0173] 當對對象類型和對象主題進行標準化后,可以利用聚合單元304按照對象的類型 之間的共通性來聚合對象,所謂共通性就是對象類型之間的相關程度。
      [0174] 按照對象類型聚合對象,得到一個以上的對象簇包括:查找標準對象類型樹形結 構,確定各對象類型在所述標準對象類型樹形結構的位置;若各對象的對象類型之間具有 相同的上級節(jié)點,且對象類型之間的層級差符合預設的要求,則確定該各對象屬于同一對 象簇。
      [0175] 當然,還可以根據(jù)兩對象分別與相同的上級節(jié)點之間的層級差來確定兩個對象是 否能聚合到一個對象簇。例如規(guī)定兩對象各自與相同的上級節(jié)點的層級差不能大于2或者 其他情況,以約束聚合為一個對象簇的兩個對象之間的類型關系。
      [0176] 優(yōu)選地,也可以根據(jù)一個對象簇中對象簇的數(shù)量來調整所聚合的對象簇。其中,如 果一個對象簇中對象的數(shù)量小于一個預設的值,極限情況下,例如一個對象簇中只有兩個 對象,則對這兩個對象進行相關性判斷意義不大,因此可以將該對象簇中的兩個對象移入 兩對象所具有的相同上級節(jié)點的對象類型中,即基于該相同上級節(jié)點為基礎來聚合對象, 以此增加一個對象簇中對象的數(shù)目。另外,如果一個對象簇中對象的數(shù)量大于一個預設的 值,則可以考慮將對象向其下一級對象類型進行聚合,以使對象減少到合適的數(shù)量。
      [0177] 相關對象獲得單元305,用于依據(jù)同一對象簇中對象之間的主題相似度,確定待分 析對象的相關對象。
      [0178] 當確定了對象類型以及對象主題,并對對象類型進行聚合而找到一類對象后,則 可以通過相關對象獲得單元305對該一類對象中的對象主題進行分析,以確定在該一類對 象中是否包含相同或相似主題的對象,其就是對對象主題相似度的判斷。
      [0179] 相關對象獲得單元305可以先獲取同一對象簇中的待分析對象的每個對象主題和 另一對象的每個對象主題;然后確定由對象的每個對象主題構成的主題向量。
      [0180] 具體地,由于在確定對象的對象主題時發(fā)現(xiàn),一個對象可以包括多個對象主題,而 每個主題在一個對象中的詞頻是不一樣的,因此可以從詞頻入手,確定一個對象的多個對 象主題的出現(xiàn)概率。
      [0181] 當確定對象的每個對象主題的詞頻后,則可以依據(jù)由待分析對象的每個對象主題 構成的主題向量與由另一對象的每個對象主題構成的主題向量之間的余弦相似度,得到兩 兩對象的對象主題之間的相似度。
      [0182] 例如,假設待分析對象的產品服務包括手機、互聯(lián)網(wǎng)電視盒、計算機等,可以從每 一個產品的詞頻入手確定詞頻向量,例如上述每一個產品的詞頻分別為a、b、c,則可以根據(jù) 上述詞頻確定待分析對象的詞頻向量為(a,b,c),詞頻向量即為待分析對象的主題向量。類 似地,也可以確定出另一對象的主題向量。
      [0183] 在確定了各個對象的主題向量后,可以通過計算主題向量的向量余弦值來確定兩 個對象主題的相似程度。
      [0184] 然后,可以根據(jù)得到的相似度,確定兩個對象之間是否相似。
      [0185] 其中通常認為余弦值越大則越相似,因此可以設置一個相似度的預設值,當余弦 值超過預設值時,則認為兩個對象是相關對象。
      [0186]輸入單元306,用于獲取用戶輸入的對象;以及輸出單元307,用于輸出所述輸入的 對象對應的相關對象。
      [0187] 以對象類型為公司行業(yè)、對象主題為公司提供的產品服務、相關對象為存在競爭 關系的公司為例,則經(jīng)過上述一系列處
      當前第4頁1 2 3 4 5 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1