、"半導(dǎo)體電路"的原始語料文檔"公司D所生產(chǎn)的半導(dǎo)體 電路已在智能手機(jī)中得到了廣泛的應(yīng)用……。公司D主要生產(chǎn)智能手機(jī),但也逐漸涉及半導(dǎo) 體電路領(lǐng)域的半導(dǎo)體電路制造"進(jìn)行主題提取,通過原始語料文檔中關(guān)鍵詞的出現(xiàn)概率等 規(guī)則確定文檔中的主要主題,例如假設(shè)"手機(jī)"的出現(xiàn)概率遠(yuǎn)遠(yuǎn)大于"半導(dǎo)體電路"的出現(xiàn)概 率,從而僅將"手機(jī)"作為該公司的產(chǎn)品服務(wù),即對象主題,因此糾正了初始對主題關(guān)鍵詞進(jìn) 行提取可能帶來的提取不準(zhǔn)確的結(jié)果。
[0113] 當(dāng)然,該文檔主題生成模型也可以在進(jìn)行主題關(guān)鍵詞集合提取的時候就使用,但 是考慮到原始的語料文檔數(shù)量巨大,利用文檔主題生成模型對每個原始語料文檔進(jìn)行主題 提取會影響處理速度。因此,優(yōu)選地是在將主題關(guān)鍵詞集合所匹配到的標(biāo)準(zhǔn)對象主題作為 對象主題之后執(zhí)行該步驟,從而只對包含可能的對象主題的關(guān)鍵詞集合所在的原始語料文 檔進(jìn)行主題判斷,從而減小了數(shù)據(jù)處理量,增加了處理速度。
[0114] 104、按照對象類型聚合對象,得到一個以上的對象簇。
[0115] 當(dāng)對對象類型和對象主題進(jìn)行標(biāo)準(zhǔn)化后,可以按照對象的類型之間的共通性來聚 合對象,所謂共通性就是對象類型之間的相關(guān)程度。
[0116] 按照對象類型聚合對象,得到一個以上的對象簇包括:
[0117]查找標(biāo)準(zhǔn)對象類型樹形結(jié)構(gòu),確定各對象類型在所述標(biāo)準(zhǔn)對象類型樹形結(jié)構(gòu)的位 置;若各對象的對象類型之間具有相同的上級節(jié)點,且對象類型之間的層級差符合預(yù)設(shè)的 要求,則確定該各對象屬于同一對象簇。
[0118] 舉個例子,公司A的行業(yè)類型是電子計算機(jī)外部設(shè)備制造204,公司B的行業(yè)類型是 移動通信及終端設(shè)備制造203,他們在圖2中屬于相同的上級節(jié)點通信設(shè)備、計算機(jī)及其他 電子設(shè)備制造業(yè)202,即他們有可能屬于同一個對象簇。并且假設(shè)認(rèn)為層級差小于1的兩對 象類型才能夠聚成一簇,則由于公司A和公司B的行業(yè)類型的層級均為四級,其層級差為0, 兩對象之間的層級差也符合預(yù)設(shè)的要求,因此認(rèn)為公司A和B屬于同一對象簇,該對象簇的 類型可以是通信設(shè)備、計算機(jī)及其他電子設(shè)備制造業(yè)202。
[0119] 當(dāng)然,這僅是舉了一個聚合對象簇的最簡單的聚合標(biāo)準(zhǔn),還可以根據(jù)兩對象分別 與相同的上級節(jié)點之間的層級差來確定兩個對象是否能聚合到一個對象簇。例如規(guī)定兩對 象各自與相同的上級節(jié)點的層級差不能大于2或者其他情況,以約束聚合為一個對象簇的 兩個對象之間的類型關(guān)系。
[0120] 優(yōu)選地,也可以根據(jù)一個對象簇中對象簇的數(shù)量來調(diào)整所聚合的對象簇。其中,如 果一個對象簇中對象的數(shù)量小于一個預(yù)設(shè)的值,極限情況下,例如一個對象簇中只有兩個 對象,則對這兩個對象進(jìn)行相關(guān)性判斷意義不大,因此可以將該對象簇中的兩個對象移入 兩對象所具有的相同上級節(jié)點的對象類型中,即基于該相同上級節(jié)點為基礎(chǔ)來聚合對象, 以此增加一個對象簇中對象的數(shù)目。另外,如果一個對象簇中對象的數(shù)量大于一個預(yù)設(shè)的 值,則可以考慮將對象向其下一級對象類型進(jìn)行聚合,以使對象減少到合適的數(shù)量。
[0121] 例如,一個類型是電子計算機(jī)外部設(shè)備制造204的對象簇,其僅包含公司W(wǎng)和公司Q 兩個對象,由于該類型的對象過少,則可以將公司W(wǎng)和公司Q移動到該類型節(jié)點的上一層節(jié) 點,即電子計算機(jī)制造207的節(jié)點中,使這兩個對象參與到電子計算機(jī)制造207的其他對象 的類型聚合。
[0122] 105、依據(jù)同一對象簇中對象之間的主題相似度,確定待分析對象的相關(guān)對象。
[0123] 當(dāng)確定了對象類型以及對象主題,并對對象類型進(jìn)行聚合而找到一類對象后,則 可以對該一類對象中的對象主題進(jìn)行分析,以確定在該一類對象中是否包含相同或相似主 題的對象,其就是對對象主題相似度的判斷。
[0124] 該步驟可以先獲取同一對象簇中的待分析對象的每個對象主題和另一對象的每 個對象主題;然后確定由對象的每個對象主題構(gòu)成的主題向量。
[0125] 具體地,由于在確定對象的對象主題時發(fā)現(xiàn),一個對象可以包括多個對象主題,而 每個主題在一個對象中的詞頻是不一樣的,因此可以從詞頻入手,確定一個對象的多個對 象主題的出現(xiàn)概率。
[0126] 當(dāng)確定對象的每個對象主題的詞頻后,則可以依據(jù)由待分析對象的每個對象主題 構(gòu)成的主題向量與由另一對象的每個對象主題構(gòu)成的主題向量之間的余弦相似度,得到兩 兩對象的對象主題之間的相似度。
[0127] 例如,假設(shè)待分析對象的產(chǎn)品服務(wù)包括手機(jī)、互聯(lián)網(wǎng)電視盒、計算機(jī)等,可以從每 一個產(chǎn)品的詞頻入手確定詞頻向量,例如上述每一個產(chǎn)品的詞頻分別為a、b、c,則可以根據(jù) 上述詞頻確定待分析對象的詞頻向量為(a,b,c),詞頻向量即為待分析對象的主題向量。類 似地,也可以確定出另一對象的主題向量。
[0128] 在確定了各個對象的主題向量后,可以通過計算主題向量的向量余弦值來確定兩 個對象主題的相似程度。
[0129] 然后,可以根據(jù)得到的相似度,確定兩個對象之間是否相似。
[0130] 其中通常認(rèn)為余弦值越大則越相似,因此可以設(shè)置一個相似度的預(yù)設(shè)值,當(dāng)余弦 值超過預(yù)設(shè)值時,則認(rèn)為兩個對象是相關(guān)對象。
[0131] 以公司A和公司B為例,如果確定這兩個公司的相似度超過預(yù)設(shè)的值,則認(rèn)為公司A 和公司B屬于同一行業(yè)下的公司,并且能夠提供相似的產(chǎn)品服務(wù),因此公司A和公司B存在競 爭關(guān)系。
[0132] 106、將各對象分別作為待分析對象,或者將用戶輸入的對象作為待分析對象,執(zhí) 行所述方法。
[0133] 該步驟中,可以將各對象分別作為待分析對象,或者將用戶輸入的對象作為待分 析對象,從而在執(zhí)行完步驟101至105之后,可以確定出待分析對象的相關(guān)對象。
[0134] 當(dāng)將各對象分別作為待分析對象時,可以對所有的原始語料文檔進(jìn)行處理以獲得 涉及每個對象的關(guān)鍵詞集合,也就是說將原始語料文檔中涉及的每個對象分別作為待分析 對象,以確定每個對象之間是否存在相應(yīng)關(guān)系。
[0135] 并且,在將各對象分別作為待分析對象的情況下,可以周期性地或者受事件觸發(fā) 時執(zhí)行步驟101至105,將各對象對應(yīng)的相關(guān)對象存儲在結(jié)果數(shù)據(jù)庫中。當(dāng)用戶輸入一特定 對象以查詢該特定對象的相關(guān)對象時,可以獲取用戶輸入的對象并且查詢該結(jié)果數(shù)據(jù)庫, 以便確定并輸出所述輸入的對象對應(yīng)的相關(guān)對象。
[0136] 另外,也可以將用戶輸入的對象作為待分析對象,當(dāng)接收到用戶輸入時則執(zhí)行步 驟101至105,從而實時輸出待分析對象的相關(guān)對象。進(jìn)一步地,可以先確定該待分析對象的 對象類型及該待分析對象包含的所有對象主題。當(dāng)對原始語料文檔進(jìn)行分詞處理得到各對 象的關(guān)鍵詞集合后,可以利用待分析對象的對象類型或?qū)ο笾黝}的語義來匹配各對象的關(guān) 鍵詞集合,以使用待分析對象的類型或主題幫助從各對象的關(guān)鍵詞集合中提取到各對象的 對象類型集合或?qū)ο笾黝}集合。因此對于將用戶輸入的對象作為待分析對象來說,可以增 加利用待分析對象的類型或主題來幫助提取其他各對象的對象類型集合或?qū)ο笾黝}集合 的步驟,除此之外,其他步驟均與將各對象分別作為待分析對象類似。
[0137] 以對象類型為公司行業(yè)、對象主題為公司提供的產(chǎn)品服務(wù)、相關(guān)對象為存在競爭 關(guān)系的公司為例,則經(jīng)過上述一系列步驟可以確定,和待分析公司A具有競爭關(guān)系的公司是 公司D,兩個公司屬于在同一對象簇中具有相同或相似主題的對象。
[0138] 實施例二、
[0139] 圖3為本發(fā)明實施例二提供的一種確定相關(guān)對象的裝置的結(jié)構(gòu)示意圖,如圖3所 示,該裝置可以包括:確定單元300、聚合單元304、相關(guān)對象獲得單元305、輸入單元306和輸 出單元307。
[0140]其中,確定單元300還可以進(jìn)一步劃分為原始語料文檔獲取單元301、關(guān)鍵詞集合 提取單元302以及匹配單元303。
[0141] 具體地:
[0142] 原始語料文檔獲取單元301,用于從外部數(shù)據(jù)源獲取對象的原始語料文檔。
[0143] 原始語料文檔獲取單元301可以從提供特定信息的互聯(lián)網(wǎng)網(wǎng)頁、企業(yè)網(wǎng)站、或者專 用數(shù)據(jù)庫等外部數(shù)據(jù)源中獲取與想要確定相互關(guān)系的對象相關(guān)的原始語料文檔。其中所提 供的特定信息可以包括對確定對象的類型和主題有幫助的信息。
[0144] 該原始語料文檔可以通過從互聯(lián)網(wǎng)抓取網(wǎng)頁的方式,或者通過企業(yè)或特定數(shù)據(jù)庫 直接提供等方式來獲得。
[0145] 并且,所獲取的原始語料文檔可以包括公司新聞?wù)Z料、行業(yè)描述、產(chǎn)品服務(wù)描述及 廣品服務(wù)之間的關(guān)系等。
[0146] 關(guān)鍵詞集合提取單元302,用于從對象原始語料文檔中提取類型關(guān)鍵詞集合和主 題關(guān)鍵詞集合。
[0147] 當(dāng)從外部數(shù)據(jù)源獲得了大量的原始語料文檔后,可以通過關(guān)鍵詞集合提取單元 302對該原始語料文檔進(jìn)行預(yù)處理,以從對象原始語料文檔中提取對象的類型關(guān)鍵詞集合 和主題關(guān)鍵詞集合,其中提取出來的類型關(guān)鍵詞集合和主題關(guān)鍵詞集合可以代表用自然語 言描述的對象類型和對象主題。
[0148] 并且,關(guān)鍵詞集合提取單元302在提取出關(guān)鍵詞集合后,可以將相應(yīng)的類型關(guān)鍵詞 集合和主題關(guān)鍵詞集合以對象管理列表的形式保存在對象管理數(shù)據(jù)庫中,以便為對象信息 的處理提供原始語料的依據(jù)。
[0149] 具體地,可以通過關(guān)鍵詞集合提取單元302將原始語料文檔進(jìn)行分詞,利用語義相 似度的判斷方式將分詞得到的關(guān)鍵詞分成多個語義相似的關(guān)鍵詞集合。
[0150] 在得到關(guān)鍵詞集合后,可以按照關(guān)鍵詞詞義大致確定出其是類型關(guān)鍵詞還是主題 關(guān)鍵詞。并且,由于主題關(guān)鍵詞有時也能輔助的反映出關(guān)鍵詞的類型,因此在確定類型關(guān)鍵 詞集合時,還可以將能夠幫助確定關(guān)鍵詞類型的輔助信息,包括與類型關(guān)鍵詞相鄰的主題 關(guān)鍵詞作為輔