国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種電子商務中文本評論質(zhì)量的評價方法與系統(tǒng)的制作方法

      文檔序號:10534808閱讀:184來源:國知局
      一種電子商務中文本評論質(zhì)量的評價方法與系統(tǒng)的制作方法
      【專利摘要】本發(fā)明公開了一種電子商務中商品評論質(zhì)量的評估方法。首先通過抓取評論數(shù)據(jù)構(gòu)建產(chǎn)品評論文檔;然后使用主題分析模型建立商品類別、主題與主題包含特征詞之間的關聯(lián)關系;使用形式概念分析模型構(gòu)造以商品類別為對象和主題為屬性的虛擬概念格;從而構(gòu)建評論質(zhì)量評估模型;最后獲取評論數(shù)據(jù)并對評論數(shù)據(jù)進行分詞操作;將分詞輸入到評論質(zhì)量評估模型進行評論數(shù)據(jù)的質(zhì)量評估;輸出質(zhì)量評估結(jié)果。該方法可將商品評論質(zhì)量的評估結(jié)果按從大到小排序推薦給用戶,能更加客觀的輔助用戶的購物決定。通過四個量化指標來評估評論與商品的相關性、全面性、細節(jié)性和專業(yè)性,即可得出評論的質(zhì)量評估結(jié)果,然后便可以此結(jié)果提供給用戶參照。
      【專利說明】
      一種電子商務中文本評論質(zhì)量的評價方法與系統(tǒng)
      技術領域
      [0001] 本發(fā)明涉及電子商務領域,特別是一種電子商務中文本評論質(zhì)量的評價方法與系 統(tǒng)。
      【背景技術】
      [0002] 伴隨著社會信息化發(fā)展的加快,特別是互聯(lián)網(wǎng)的高速發(fā)展,電子商務作為較先進 的商業(yè)模式在國內(nèi)快速興起,但是假貨、質(zhì)量較差商品的盛行也在持續(xù)的困擾著在網(wǎng)上購 物的人們。用戶需要一種更加客觀的方法來評價商品評論的質(zhì)量,從而從商品的評論中選 出質(zhì)量較高的評論為用戶在網(wǎng)上購物提供參考。評論質(zhì)量這一概念指的是在排除了評論發(fā) 起人感情色彩的因素后,根據(jù)評論內(nèi)容與評論所屬商品的相關性、評論內(nèi)容的全面性、細節(jié) 性等指標對評論進行評估進而得出的評估結(jié)果。
      [0003] 目前還沒有一種有效的對評論質(zhì)量進行評價的方法或者系統(tǒng),傳統(tǒng)的處理用評論 數(shù)據(jù)的方法有以下幾種:
      [0004] (1)基于評論發(fā)生時間排序的方式:這種評論數(shù)據(jù)的展示方式是根據(jù)評論發(fā)生的 時間來進行排序的,后發(fā)生的評論排在最前面,好處是可以讓用戶直觀的知道商品評論發(fā) 生的時間,但是對評論的質(zhì)量及有效性沒有進行評估。
      [0005] (2)基于好評等級的篩選方式:通常情況,對商品的評論一般為好評、中評和差評 的分級形式。這種評論數(shù)據(jù)的篩選方式可以方便用戶查看對應好評等級的評論,在用戶購 物過程中能起到一定的參考作用。但這種方式展示的評論實質(zhì)仍然還是對商品本身的評 論,它并沒有對評論的質(zhì)量進行評價。
      [0006] 因此,需要一種用于評價評論數(shù)據(jù)質(zhì)量的方法和系統(tǒng),給用戶提供一種更加客觀 的方法去評價商品評論的質(zhì)量,從而從商品的評論中選出質(zhì)量較高的評論為用戶在網(wǎng)上購 物提供參考。

      【發(fā)明內(nèi)容】

      [0007] 本發(fā)明的目的就是提供一種電子商務中文本評論質(zhì)量的評價方法與系統(tǒng)。
      [0008] 本發(fā)明的目的是通過這樣的技術方案實現(xiàn)的:
      [0009] 本發(fā)明提供的一種電子商務中文本評論質(zhì)量的評價方法,包括以下步驟:
      [0010] 抓取評論數(shù)據(jù),同時將評論數(shù)據(jù)按商品類別來進行分類構(gòu)建產(chǎn)品評論文檔;
      [0011] 使用主題分析模型建立商品類別、主題與主題包含特征詞之間的關聯(lián)關系;
      [0012] 使用形式概念分析模型構(gòu)造以商品類別為對象和主題為屬性的虛擬概念格;
      [0013] 構(gòu)建評論質(zhì)量評估模型;
      [0014] 獲取評論數(shù)據(jù)并對評論數(shù)據(jù)進行分詞操作;
      [0015] 將分詞輸入到評論質(zhì)量評估模型進行評論數(shù)據(jù)的質(zhì)量評估;
      [0016] 輸出質(zhì)量評估結(jié)果。
      [0017] 進一步,所述產(chǎn)品評論文檔是通過以下步驟來構(gòu)建的:
      [0018] 按產(chǎn)品類型將評論數(shù)據(jù)進行分類;
      [0019] 判斷評論數(shù)據(jù)是否與產(chǎn)品滿足預設對應關系,如果滿足,則將評論數(shù)據(jù)存放于評 論文檔;
      [0020] 所述主題分析模型是通過以下表達式來進行的:
      [0021 ] p(wlf)? ;
      [0022] 其中,p(w| ti)是特征詞對應主題ti的概率,p(ti I d)是主題ti在文檔d中的概率;
      [0023] 所述主題及特征詞的篩選按照以下公式進行約束:
      [0024] T = TUti,其中i = l,2,3,;
      [0025] W=WU wj,其中.| ?*. 1.爲策….*.- ;
      [0026] 其中,T是選出的主題的集合,co是用于篩選主題數(shù)的閾值;W是從對應每個主題中 選出的特征詞的集合,f是從對應主題篩選特征詞數(shù)目的閾值。
      [0027] 進一步,所述虛擬概念格是基于FCA形式概念分析模型來構(gòu)建的,具體步驟如下:
      [0028] 按照以下公式構(gòu)造以主題為屬性和商品類別為對象的形式背景:
      [0029] k=(G,M,I);
      [0030]其中,G是對象集合,M是屬性集合;若對象g具有屬性m則可表示為:
      [0031] (g,m)Gl;
      [0032] 而形式背景I上的任意一個二元組(g,m)稱為一個形式概念,簡稱概念;同時再對 形式背景上的偏序關系形式化描述如下:
      [0033] ) € /,,,%) € I ;
      [0034] 滿足瑪:S i備.則;
      [0035] (Gi,Mi)<(Gj,Mj);
      [0036] 構(gòu)造出形式背景I;在形式背景I基礎上構(gòu)造出具有父子關系及層次結(jié)構(gòu)的虛擬概 念格;
      [0037] 再采用FCA形式概念分析模型下的相關約簡算法,得到約簡后的虛擬概念格。
      [0038] 進一步,所述評論數(shù)據(jù)的分詞過程按照以下公式來進行:
      [0039] 瑪令#詞I ;
      [0040] ei表示待評估質(zhì)量的任意一條評論/表示評論分詞后提取的所有特征詞的集 合。
      [0041] 接著將與虛擬概念格中同類商品包含主題下的特征詞進行匹配,存在匹配的 詞,則將對應主題的標志位置為1;
      [0042]評論ei對應的產(chǎn)品pi滿足:
      [0043] ^ ;
      [0044] 類別Cj包含的所有主題表示為Tj,Tj包含的任意主題t對應的詞的集合為Wt,若:
      [0045] YWS 滿足嫩 C _ .
      [0046] 則/!歸_ = I 勞' ; ;
      [0047]其中,flag(t)將滿足條件的主題所在的概念標志置為1,同時將評論&匹配的主 題表不為》
      [0048] 進一步,所述評論質(zhì)量評估模型按照以下內(nèi)容來構(gòu)建的:
      [0049] 構(gòu)建評論質(zhì)量評估模型的相關性,所述相關性為評論與被評論商品之間的相關 性;所述評論與商品的相關性通過兩個指標判斷:
      [0050] 評論分詞后的結(jié)果與商品信息是否匹配;
      [0051] 評論分詞后的結(jié)果在虛擬概念格中是否匹配;
      [0052]滿足上述任一標準,則認為評論與商品是相關的,將相關性指標置為1:
      [0053] 則relation(ei)=1;
      [0054] 構(gòu)建評論質(zhì)量評估模型的全面性,所述全面性為評論內(nèi)容涉及的廣度;全面性的 量化標準定義如下:
      [0055] 權(quán)麵逆|%》雜減;
      [0056] 其中,評論&所屬類別Cj包含的所有主題表示為乃,定義C〇unt(L)表示L的總數(shù) 目;表示評論出匹配主題的數(shù)目;
      [0057] 構(gòu)建評論質(zhì)量評估模型的細節(jié)性,所述細節(jié)性為評論匹配概念的細節(jié)性;所述細 節(jié)性指標描述如下:
      [0058] = (1^:
      [0059]式中,deep(tk)指的是主題tk在虛擬概念格中的深度,deepmax(Cj)指的是評論ei所 屬類別Q包含主題的最大深度;
      [0060] 構(gòu)建評論質(zhì)量評估模型的專業(yè)性,所述專業(yè)性為用戶對被評論商品所在領域的專 業(yè)度,所述專業(yè)度從兩個方面來量化:
      [0061] 通過用戶購買該類商品的次數(shù),與用戶購物的總次數(shù)的比值;
      [0062] 所述專業(yè)性按照以下公式來進行表示:
      [0063] profi = scount(ei)/ scount ;
      [0064] prof2 = deepmax(ei)/deepmax;
      [0065] profess (ei) =a*profi+( l-a)prof 2 ;
      [0066] 其中,scount (ei)指的是用戶購買評論ei所屬類別商品的次數(shù),scount表示用戶總 的購物次數(shù);deep max(ei)表示評論ei匹配的概念在概念格中的最大深度,deepmax表示虛擬概 念格的最大深度;a是用于調(diào)整兩種指標所占比重的參數(shù);
      [0067] 所述評論質(zhì)量評估模型按照以下公式來建立:
      [0068] q(ei)=0*relation(ei)+ y *Wide(ei)+5*detail(ei)+9*profess(ei);
      [0069] {3+ y +8+9 = 1 ;
      [0070] 其中,0、y、s、0為用于調(diào)整四個評估標準所占權(quán)重的因子。
      [0071] 本發(fā)明還提供了一種電子商務中文本評論質(zhì)量的評價系統(tǒng),包括:
      [0072] 產(chǎn)品評論文檔構(gòu)建模塊,用于抓取評論數(shù)據(jù),同時將評論數(shù)據(jù)按商品類別來進行 分類構(gòu)建產(chǎn)品評論文檔;
      [0073] 主題分析模塊,用于使用主題分析模型建立商品類別、主題與主題包含特征詞之 間的關聯(lián)關系;
      [0074] 虛擬概念格構(gòu)造模塊,用于使用形式概念分析模型構(gòu)造以商品類別為對象和主題 為屬性的虛擬概念格;
      [0075] 評論質(zhì)量評估模塊,用于構(gòu)建評論質(zhì)量評估模型;
      [0076] 分詞模塊,用于獲取評論數(shù)據(jù)并對評論數(shù)據(jù)進行分詞操作;
      [0077] 輸入模塊,用于將分詞輸入到評論質(zhì)量評估模型進行評論數(shù)據(jù)的質(zhì)量評估;
      [0078] 輸出模塊,用于輸出質(zhì)量評估結(jié)果。
      [0079] 進一步,所述產(chǎn)品評論文檔構(gòu)建模塊中的產(chǎn)品評論文檔是通過以下步驟來構(gòu)建 的:
      [0080] 按產(chǎn)品類型將評論數(shù)據(jù)進行分類;
      [0081] 判斷評論數(shù)據(jù)是否與產(chǎn)品滿足預設對應關系,如果滿足,則將評論數(shù)據(jù)存放于評 論文檔;
      [0082] 所述主題分析模塊中的主題分析模型是通過以下表達式來進行的:
      [0083] |Hw|〇 ** ^ |>(^|^.} ;
      [0084] 其中,p(w| ti)是特征詞對應主題ti的概率,p(ti I d)是主題ti在文檔d中的概率;
      [0085] 所述主題及特征詞的篩選按照以下公式進行約束:
      [0086] T = TUti,其中i = l,2,3, ???,???《 ;
      [0087] W=W U wf,其中!雜!爲象叫:變 ;
      [0088] 其中,T是選出的主題的集合,co是用于篩選主題數(shù)的閾值;W是從對應每個主題中 選出的特征詞的集合,夢是從對應主題篩選特征詞數(shù)目的閾值。
      [0089] 進一步,所述虛擬概念格構(gòu)造模塊中的虛擬概念格是基于FCA形式概念分析模型 來構(gòu)建的,
      [0090] 具體步驟如下:
      [0091] 按照以下公式構(gòu)造以主題為屬性和商品類別為對象的形式背景:
      [0092] k=(G,M,I);
      [0093] 其中,G是對象集合,M是屬性集合;若對象g具有屬性m則可表示為:
      [0094] (g,m)Gl;
      [0095] 而形式背景I上的任意一個二元組(g,m)稱為一個形式概念,簡稱概念;同時再對 形式背景上的偏序關系形式化描述如下:
      [0096] 機)S I、# Y(巧、科} € / ;
      [0097] 滿足緣L %則;
      [0098] (Gi,Mi)<(GjMj);
      [0099] 構(gòu)造出形式背景I;在形式背景I基礎上構(gòu)造出具有父子關系及層次結(jié)構(gòu)的虛擬概 念格;
      [0100] 再采用FCA形式概念分析模型下的相關約簡算法,得到約簡后的虛擬概念格。
      [0101] 進一步,所述分詞模塊中的評論數(shù)據(jù)的分詞過程按照以下公式來進行:
      [0102] '終^ ;
      [0103] &表示待評估質(zhì)量的任意一條評論,表示評論分詞后提取的所有特征詞的集 合。
      [0104] 接著將與虛擬概念格中同類商品包含主題下的特征詞進行匹配,存在匹配的 詞,則將對應主題的標志位置為1;
      [0105] 評論ei對應的產(chǎn)品Pi滿足:
      [0106] ^ % ;
      [0107]類別Cj包含的所有主題表示為Tj,Tj包含的任意主題t對應的詞的集合為Wt,若:
      [0108] WS 終"、滿足ITS I% ;
      [0109] 則/'I傅(tj I 鱗 f衡 ;
      [0110] 其中,flag(t)將滿足條件的主題所在的概念標志置為1,同時將評論&匹配的主 題表示為
      [0111] 進一步,所述評論質(zhì)量評估模塊中的評論質(zhì)量評估模型按照以下內(nèi)容來構(gòu)建的:
      [0112] 構(gòu)建評論質(zhì)量評估模型的相關性,所述相關性為評論與被評論商品之間的相關 性;所述評論與商品的相關性通過兩個指標判斷:
      [0113]評論分詞后的結(jié)果與商品信息是否匹配;
      [0114] 評論分詞后的結(jié)果在虛擬概念格中是否匹配;
      [0115] 滿足上述任一標準,則認為評論與商品是相關的,將相關性指標置為1:
      [0116] 則relation(ei)=1;
      [0117] 構(gòu)建評論質(zhì)量評估模型的全面性,所述全面性為評論內(nèi)容涉及的廣度;全面性的 量化標準定義如下:
      [0118] ;
      [0119] 其中,評論ei所屬類別Cj包含的所有主題表示為Tj,定義C〇unt(Tj)表示Tj的總數(shù) 目;表示評論&匹配主題的數(shù)目;
      [0120] 構(gòu)建評論質(zhì)量評估模型的細節(jié)性,所述細節(jié)性為評論匹配概念的細節(jié)性;所述細 節(jié)性指標描述如下: 的購物次數(shù);deepmax(ei)表示評論ei匹配的概念在概念格中的最大深度,deep max表示虛擬概 念格的最大深度;a是用于調(diào)整兩種指標所占比重的參數(shù);
      [0130]所述評論質(zhì)量評估模型按照以下公式來建立:
      [0131 ] q(ei) = 0*relation(ei) + y *wide(ei)+5*detail(ei)+9*profess(Si);
      [0132] {3+ y +8+0-1 ;
      [0133] 其中,0、y、S、0為用于調(diào)整四個評估標準所占權(quán)重的因子。
      [0134] 由于采用了上述技術方案,本發(fā)明具有如下的優(yōu)點:
      [0135] 本發(fā)明提供的電子商務中商品評論質(zhì)量的評估方法,與目前的基于時間排序或者 好評等級劃分的評論系統(tǒng)不同,本發(fā)明提出的方法是基于對評論自身的質(zhì)量進行評估的方 法。該方法可以將商品評論質(zhì)量的評估結(jié)果按從大到小排序推薦給用戶,能更加客觀的輔 助用戶的購物決定。本發(fā)明采用主題分析模型對同一商品類別下的評論進行主題分析,建 立起商品類別、產(chǎn)品、主題的關聯(lián)關系。接著對主題分析提取的主題采用FCA形式概念分析 模型構(gòu)造出對應虛擬概念格。然后即可利用構(gòu)造的虛擬概念格進行評論的質(zhì)量評估。對于 評論質(zhì)量的評估模型,本發(fā)明提出了四個指標予以量化,一是評論與商品的相關性;另一是 評論在虛擬概念格中匹配概念的全面性;三是評論內(nèi)容的細節(jié)性;四是專業(yè)性指標,指的是 評論用戶的專業(yè)性和評論自身的專業(yè)性。最后對上述四個指標賦予一定的權(quán)重因子,即可 得出評論的質(zhì)量評估結(jié)果,然后便可以此結(jié)果提供給用戶參照。
      [0136] 本評價方法用于評價評論數(shù)據(jù)質(zhì)量,給用戶提供一種更加客觀的方法去評價商品 評論的質(zhì)量,從而從商品的評論中選出質(zhì)量較高的評論為用戶在網(wǎng)上購物提供參考。這里 提出的評論質(zhì)量這一概念指的是在排除了評論發(fā)起人感情色彩的因素后,根據(jù)評論內(nèi)容與 評論所屬商品的相關性、評論內(nèi)容的全面性、細節(jié)性等指標對評論進行評估進而得出的評 估結(jié)果。
      【附圖說明】
      [0137] 本發(fā)明的【附圖說明】如下。
      [0138] 圖1是評論質(zhì)量評估方法的處理流程。
      [0139] 圖2是商品類別、主題與詞的關聯(lián)關系。
      [0140] 圖3是實施案例商品類別、主題、特征詞的關聯(lián)關系。
      [0141] 圖4是實施案例部分商品類別與主題構(gòu)造的虛擬概念格。
      [0142] 圖5是電子商務中文本評論質(zhì)量的評價系統(tǒng)原理框圖。
      【具體實施方式】
      [0143] 下面結(jié)合附圖和實施例對本發(fā)明作進一步說明。
      [0144] 實施例1
      [0145] 如圖所示,本實施例提供的一種電子商務中文本評論質(zhì)量的評價方法,包括以下 步驟:
      [0146] 抓取評論數(shù)據(jù),同時將評論數(shù)據(jù)按商品類別來進行分類構(gòu)建產(chǎn)品評論文檔;
      [0147] 使用主題分析模型建立商品類別、主題與主題包含特征詞之間的關聯(lián)關系;
      [0148] 使用形式概念分析模型構(gòu)造以商品類別為對象和主題為屬性的虛擬概念格;
      [0149] 構(gòu)建評論質(zhì)量評估模型;
      [0150] 獲取評論數(shù)據(jù)并對評論數(shù)據(jù)進行分詞操作;
      [0151 ]將分詞輸入到評論質(zhì)量評估模型進行評論數(shù)據(jù)的質(zhì)量評估;
      [0152] 輸出質(zhì)量評估結(jié)果。
      [0153] 所述產(chǎn)品評論文檔是通過以下步驟來構(gòu)建的:
      [0154] 按產(chǎn)品類型將評論數(shù)據(jù)進行分類;
      [0155] 判斷評論數(shù)據(jù)是否與產(chǎn)品滿足預設對應關系,如果滿足,則將評論數(shù)據(jù)存放于評 論文檔;
      [0156] 所述主題分析模型是通過以下表達式來進行的:
      [0157] pC終S:1 * 幽 _ ;
      [0158] 其中,p(w| ti)是特征詞對應主題ti的概率,p(ti I d)是主題ti在文檔d中的概率;
      [0159] 所述主題及特征詞的篩選按照以下公式進行約束:
      [0160] T = TUti,其中i = l,2,3, ? ? ?,《 ;
      [0161 ] W=W U wj,其中 J 遲 1H_ ;:
      [0162] 其中,T是選出的主題的集合,co是用于篩選主題數(shù)的閾值;W是從對應每個主題中 選出的特征詞的集合,變是從對應主題篩選特征詞數(shù)目的閾值。
      [0163] 所述虛擬概念格是基于FCA形式概念分析模型來構(gòu)建的,具體步驟如下:
      [0164] 按照以下公式構(gòu)造以主題為屬性和商品類別為對象的形式背景:
      [0165] K_(G,M,I);
      [0166] 其中,G是對象集合,M是屬性集合;若對象g具有屬性m則可表示為:
      [0167] (g,m)Gl;
      [0168] 而形式背景I上的任意一個二元組(g,m)稱為一個形式概念,簡稱概念;同時再對 形式背景上的偏序關系形式化描述如下:
      [0169] ¥C^ ;
      [0170] 滿足爲.G %則;
      [0171] (Gi,MiK(GjMj);
      [0172] 利用K=(G,M,I)式、(g,m)Gl式構(gòu)造出形式背景I;
      [0173] 在形式背景I基礎上繼續(xù)利用¥(CK1 € € I、g S %和(仏, MOS%為)式,就能構(gòu)造出具有父子關系及層次結(jié)構(gòu)的虛擬概念格;
      [0174] 再采用FCA形式概念分析模型下的相關約簡算法,得到約簡后的虛擬概念格。
      [0175] 所述評論數(shù)據(jù)的分詞過程按照以下公式來進行:
      [0176] ,鱗 ;
      [0177] ei表示待評估質(zhì)量的任意一條評論,表示評論分詞后提取的所有特征詞的集 合。
      [0178] 接著將胃^與虛擬概念格中同類商品包含主題下的特征詞進行匹配,存在匹配的 詞,則將對應主題的標志位置為1;
      [0179] 評論ei對應的產(chǎn)品Pi滿足:
      [0180] ;
      [0181] 類別Cj包含的所有主題表示為Tj,Tj包含的任意主題t對應的詞的集合為Wt,若:
      [0182] S 滿足獬 S _ ;
      [0183] 則f!.輝C:tj.獻 1 鱗 T崎 ;
      [0184] flag(t)將滿足終篇今、%滿足書S:爾的主題所在的概念標志置為 1,同時將評論ei匹配的主題表示為
      [0185] 所述評論質(zhì)量評估模型按照以下內(nèi)容來構(gòu)建的:
      [0186] 構(gòu)建評論質(zhì)量評估模型的相關性,所述相關性為評論與被評論商品之間的相關 性;所述評論與商品的相關性通過兩個指標判斷:
      [0187] 評論分詞后的結(jié)果與商品信息是否匹配;
      [0188] 評論分詞后的結(jié)果在虛擬概念格中是否匹配;
      [0189] 滿足上述任一標準,則認為評論與商品是相關的,將相關性指標置為1:
      [0190] 貝!Jrelation(ei)_l;
      [0191] 構(gòu)建評論質(zhì)量評估模型的全面性,所述全面性為評論內(nèi)容涉及的廣度;全面性的 量化標準定義如下:
      [0192] ;
      [0193] 其中,評論ei所屬類別Cj包含的所有主題表示為Tj,定義C〇unt(Tj)表示Tj的總數(shù) 目;表示評論&匹配主題的數(shù)目;
      [0194] 構(gòu)建評論質(zhì)量評估模型的細節(jié)性,所述細節(jié)性為評論匹配概念的細節(jié)性;所述細 節(jié)性指標描述如下:
      [0206] y +8+9 = 1 ;
      [0207] 其中,0、y、S、0為用于調(diào)整四個評估標準所占權(quán)重的因子。
      [0208] 本實施例還提供了一種電子商務中文本評論質(zhì)量的評價系統(tǒng),包括產(chǎn)品評論文檔 構(gòu)建模塊、主題分析模塊、虛擬概念格構(gòu)造模塊、評論質(zhì)量評估模塊、分詞模塊、輸入模塊、 輸出模塊;產(chǎn)品評論文檔構(gòu)建模塊,用于抓取評論數(shù)據(jù),同時將評論數(shù)據(jù)按商品類別來進行 分類構(gòu)建產(chǎn)品評論文檔;
      [0209] 主題分析模塊,用于使用主題分析模型建立商品類別、主題與主題包含特征詞之 間的關聯(lián)關系;
      [0210] 虛擬概念格構(gòu)造模塊,用于使用形式概念分析模型構(gòu)造以商品類別為對象和主題 為屬性的虛擬概念格;
      [0211] 評論質(zhì)量評估模塊,用于構(gòu)建評論質(zhì)量評估模型;
      [0212] 分詞模塊,用于獲取評論數(shù)據(jù)并對評論數(shù)據(jù)進行分詞操作;
      [0213] 輸入模塊,用于將分詞輸入到評論質(zhì)量評估模型進行評論數(shù)據(jù)的質(zhì)量評估;
      [0214] 輸出模塊,用于輸出質(zhì)量評估結(jié)果。
      [0215] 所述產(chǎn)品評論文檔構(gòu)建模塊中的產(chǎn)品評論文檔是通過以下步驟來構(gòu)建的:
      [0216] 按產(chǎn)品類型將評論數(shù)據(jù)進行分類;
      [0217] 判斷評論數(shù)據(jù)是否與產(chǎn)品滿足預設對應關系,如果滿足,則將評論數(shù)據(jù)存放于評 論文檔;
      [0218] 所述主題分析模塊中的主題分析模型是通過以下表達式來進行的:
      [0219] ;
      [0220] 其中,p(w| ti)是特征詞對應主題ti的概率,p(ti | d)是主題ti在文檔d中的概率;
      [0221] 所述主題及特征詞的篩選按照以下公式進行約束:
      [0222] T = TUti,其中i = l,2,3, ? ? ?,《 ;
      [0223] W=W U wj,其中| :*8*: l.j念爲…;
      [0224] 其中,T是選出的主題的集合,co是用于篩選主題數(shù)的閾值;W是從對應每個主題中 選出的特征詞的集合,-是從對應主題篩選特征詞數(shù)目的閾值。
      [0225] 所述虛擬概念格構(gòu)造模塊中的虛擬概念格是基于FCA形式概念分析模型來構(gòu)建 的,具體步驟如下:
      [0226] 按照以下公式構(gòu)造以主題為屬性和商品類別為對象的形式背景:
      [0227] k=(G,M,I);
      [0228] 其中,G是對象集合,M是屬性集合;若對象g具有屬性m則可表示為:
      [0229] (g,m)Gl;
      [0230] 而形式背景I上的任意一個二元組(g,m)稱為一個形式概念,簡稱概念;同時再對 形式背景上的偏序關系形式化描述如下:
      [0231] ¥'C^ ?,%) € / ;
      [0232] 滿足爲S務貝IJ;
      [0233] (Gi,Mi)^(Gj,Mj);
      [0234] 利用1(=(6,1,1)、&,111)£1構(gòu)造出形式背景1;
      [0235]在形式背景I基礎上繼續(xù)利用¥(%鱗)€ 咚)€: i、q C: 3、%, Mi) < (Gj,Mj ),就能構(gòu)造出具有父子關系及層次結(jié)構(gòu)的虛擬概念格;
      [0236] 再采用FCA形式概念分析模型下的相關約簡算法,得到約簡后的虛擬概念格。
      [0237] 所述分詞模塊中的評論數(shù)據(jù)的分詞過程按照以下公式來進行:
      [0238] % ^ S
      [0239] ei表示待評估質(zhì)量的任意一條評論,表示評論分詞后提取的所有特征詞的集 合。
      [0240] 接著將胃^.與虛擬概念格中同類商品包含主題下的特征詞進行匹配,存在匹配的 詞,則將對應主題的標志位置為1;
      [0241] 評論ei對應的產(chǎn)品pi滿足:
      [0242] 忘 % ;
      [0243]類別Cj包含的所有主題表示為Tj,Tj包含的任意主題t對應的詞的集合為Wt,若:
      [0244] 滿足W S 1| ;
      [0245] 則發(fā)的雜t鎊:?蹲 ;
      [0246] flag(t)將滿足黔S:%、滿足嫌S 1|的主題所在的概念標志置為 1,同時將評論ei匹配的主題表示為r_。
      [0247] 所述評論質(zhì)量評估模塊中的評論質(zhì)量評估模型按照以下內(nèi)容來構(gòu)建的:
      [0248] 構(gòu)建評論質(zhì)量評估模型的相關性,所述相關性為評論與被評論商品之間的相關 性;所述評論與商品的相關性通過兩個指標判斷:
      [0249] 評論分詞后的結(jié)果與商品信息是否匹配;
      [0250] 評論分詞后的結(jié)果在虛擬概念格中是否匹配;
      [0251 ]滿足上述任一標準,則認為評論與商品是相關的,將相關性指標置為1:
      [0252] 則relation(ei)=1;
      [0253] 構(gòu)建評論質(zhì)量評估模型的全面性,所述全面性為評論內(nèi)容涉及的廣度;全面性的 量化標準定義如下:
      [0254] 綱^;)/e纖滅⑦) ;;
      [0255] 其中,評論&所屬類別Q包含的所有主題表示為乃,定義c〇unt(L)表示L的總數(shù) 目;£^縱雄0^)表示評論ei匹配主題的數(shù)目;
      [0256] 構(gòu)建評論質(zhì)量評估模型的細節(jié)性,所述細節(jié)性為評論匹配概念的細節(jié)性;所述細 節(jié)性指標描述如下:
      [0257] -t滅叫論p#纖/_?C5綱轉(zhuǎn)麵頓;
      [0258] 式中,deep(tk)指的是主題tk在虛擬概念格中的深度,deepmax(Cj)指的是評論ci所 屬類別Q包含主題的最大深度;
      [0259] 構(gòu)建評論質(zhì)量評估模型的專業(yè)性,所述專業(yè)性為用戶對被評論商品所在領域的專 業(yè)度,所述專業(yè)度從兩個方面來量化:
      [0260]通過用戶購買該類商品的次數(shù),與用戶購物的總次數(shù)的比值;
      [0261 ]所述專業(yè)性按照以下公式來進行表示:
      [0262] profi = scouunt(ei)/ scount ;
      [0263] prof2 = deepmax(ei)/deepmax;
      [0264] profess (ei) =a*profi+( l-a)prof 2 ;
      [0265] 其中,scount (ei)指的是用戶購買評論ei所屬類別商品的次數(shù),scount表示用戶總 的購物次數(shù);deep max(ei)表示評論ei匹配的概念在概念格中的最大深度,deepmax表示虛擬概 念格的最大深度;a是用于調(diào)整兩種指標所占比重的參數(shù);
      [0266] 所述評論質(zhì)量評估模型按照以下公式來建立:
      [0267] q(ei)=0*relatian(ei)+ Y *wide(ei)+5*detail(ei)+9*profess(ei);
      [0268] 0+y+8+0 = 1;
      [0269] 其中,0、y、S、0為用于調(diào)整四個評估標準所占權(quán)重的因子。
      [0270] 實施例2
      [0271] 本實施例提供的交易評論質(zhì)量的評估系統(tǒng)可以實現(xiàn)對交易評論質(zhì)量客觀性評價。 并可以將評估質(zhì)量較高的評論推薦給交易用戶,以便用戶在交易是進行參考。
      [0272] 系統(tǒng)包含產(chǎn)品評論文檔構(gòu)建模塊,通過該模塊,完成對從網(wǎng)絡抓取的評論數(shù)據(jù)預 處理的工作,即實現(xiàn)評論數(shù)據(jù)按產(chǎn)品類別來進行分類。
      [0273] 系統(tǒng)包含基于評論文檔的主題分析模塊,該模塊通過使用主題分析模型實現(xiàn)對產(chǎn) 品評論主題的提取,并以這些主題建立起商品類別、主題、主題包含詞語之間的關聯(lián)關系。
      [0274] 系統(tǒng)包含基于商品類別與主題的虛擬概念格構(gòu)造模塊,該模塊用于構(gòu)造以商品類 別為對象,主題為屬性的虛擬概念格。
      [0275] 系統(tǒng)包含基于虛擬概念格的評論質(zhì)量評估模塊,該模塊以權(quán)利要求4中所述模塊 構(gòu)造的虛擬概念格為基礎,定義了一個評估評論質(zhì)量的模型。該模型從評論與產(chǎn)品的相關 性、評論涉及主題的全面性、評論內(nèi)容行細節(jié)性以及評論的專業(yè)性四個方面予以評價。
      [0276] 實施例3
      [0277] 本實施例提供的電子商務中文本評論質(zhì)量的評價方法,是針對評論本身的質(zhì)量進 行評價的方法。該方法將在評論與商品的相關性,評論自身的全面性以及評論人員在商品 所涉及領域的專業(yè)度等方面對評論的質(zhì)量進行評價。最后評論質(zhì)量評價的值越大說明評論 質(zhì)量越高,對用戶越具有參考性。
      [0278] 本實施例提供的評論質(zhì)量評價系統(tǒng),處理流程如圖1所示,其中主要包含四個模 塊:產(chǎn)品評論文檔構(gòu)建模塊;基于評論文檔的主題分析模塊;基于商品類別與主題的虛擬概 念格構(gòu)造模塊;基于虛擬概念格的評論質(zhì)量評估模塊。
      [0279] 1)產(chǎn)品評論文檔構(gòu)建模塊,實現(xiàn)評論數(shù)據(jù)按產(chǎn)品的分類。定義:P表示產(chǎn)品,m表示 產(chǎn)品類別總數(shù);E表示所有評論數(shù)據(jù)的集合,e表示具體的一條評論,n表示評論數(shù)據(jù)總數(shù);d 表示存放評論的文檔;函數(shù)y = f(x)表示評論x與產(chǎn)品y的對應關系。將該模塊的處理過程可 形式化描述如下:
      [0280] 若 pi = f(ej)貝|J (1)
      [0281] di = di U ej (2)
      [0282] j-j+1 (3)
      [0283] 因為任意一條評論必然是與某種產(chǎn)品關聯(lián)的,所有當(1)式滿足時,就能將滿足條 件的評論添加到對應的評論文檔中。重復上述(1)_(3)式直到遍歷完所有的評論,實現(xiàn)評論 按產(chǎn)品分類的處理過程。其中,i = l,2,3,…,m;j = l,;,3"",n。
      [0284] 2)基于評論文檔的主題分析模塊,該模塊使用主題分析模型來得到不同產(chǎn)品評論 涉及的主題,從而以此為基礎建立起商品類別與評論包含主題之間的關聯(lián)關系。由于用戶 在發(fā)起一條評論的時候,用戶會從與產(chǎn)品相關的至少一個或多個主題,如產(chǎn)品的尺寸、質(zhì)量 以及使用體驗等方面出發(fā)對產(chǎn)品進行評論,所以該模塊才可以使用主題分析模型來對產(chǎn)品 評論進行主題分析。該模塊使用主題分析模型的一種,即LDA(Latent Dirichlet Allocation)主題模型來進行主題分析,LDA主題模型的核心表達式是:
      [0285] ^ I# 0)
      [0286] 其中,p(w | ti)是詞對應主題ti的概率,p(ti | d)是主題ti在文檔d中的概率。通過使 用主題模型分析后,就能建立文檔、主題、詞之間的關聯(lián)關系。由上一模塊知,文檔與產(chǎn)品類 別是一一對應的,而每種產(chǎn)品都是屬于某種商品類別的,因此最終就能建立起商品類別、主 題、詞之間的關聯(lián)關系。它們的關系如圖2所示。其中c表示商品類別,r表示商品類別總數(shù)。 另外,在主題分析時對主題及特征詞(待選主題及特征詞按概率倒序排序)的篩選存在以下 約束:
      [0287] T = TUti,其中i = l,2,3, ? ? ?,《 (5)
      [0288] W=W U wj,其中 j 撕 H象 *摩(6)
      [0289] 其中,T是選出的主題的集合,co是用于篩選主題數(shù)的閾值;W是從對應每個主題中 選出的特征詞的集合,夢是從對應主題篩選特征詞數(shù)目的閾值。
      [0290] 3)基于商品類別與主題的虛擬概念格構(gòu)造模塊,用于構(gòu)造以商品類別為對象,主 題為屬性的虛擬概念格。概念格是基于FCA(formula concept analysis)形式概念分析模 型構(gòu)造的。構(gòu)建概念格之前,首先需要構(gòu)造一個主題為屬性,商品類別為對象的形式背景。 形式背景可以形式化描述如下:
      [0291] k=(G,M,I) (7)
      [0292] 其中,G是對象集合,M是屬性集合。同時,若對象g具有屬性m則可表示為:
      [0293] (g,m)Gl (8)
      [0294] 而形式背景I上的任意一個二元組(g,m)稱為一個形式概念(簡稱概念)。同時再對 形式背景上的偏序關系形式化描述如下:
      [0295] Yf g S Y(兔 s } S: I(9)
      [0296] 滿足錢 S 則(1〇)
      [0297] (Gi,Mi)^(Gj,Mj) (11)
      [0298] 利用(7)式、(8)式即可構(gòu)造出形式背景I,在形式背景I基礎上繼續(xù)利用(9)_(11) 式,就能構(gòu)造出具有父子關系及層次結(jié)構(gòu)的虛擬概念格,再采用FCA形式概念分析模型下的 相關約簡算法,即可得出約簡后的虛擬概念格。
      [0299] 4)基于虛擬概念格的評論質(zhì)量評估模塊,用于對一條新的評論的質(zhì)量進行評估。 評估標準是評論包含特征詞在概念格中匹配的主題或者概念在概念格中的深度,以及通過 評論本身與商品之間的相關性、匹配主題的面性和評論發(fā)起用戶在該商品領域的專業(yè)性等 標準進行評估。評估之前,先將需要評估質(zhì)量的某一條評論進行分詞,假設分詞后的評論能 完整表達評論本身的含義,則可將評論分詞過程表達如下:
      [0300] % ^ ^ (12)
      [0301] Cl表示待評估質(zhì)量的任意一條評論,表示評論分詞后提取的所有特征詞的集 合。接著將_^與上一模塊構(gòu)造的虛擬概念格中同類商品包含主題下的特征詞進行匹配, 存在匹配的詞,則將對應主題的標志位置為1。評論&對應的產(chǎn)品Pl滿足:
      [0302] (13)
      [0303]類別Cj包含的所有主題表示為Tj,Tj包含的任意主題t對應的詞的集合為Wt,若:
      [0304] 11^.滿足微忘 _ (14)
      [0305] 則 fl轉(zhuǎn).雄 1 轉(zhuǎn)(15)
      [0306] (15)式的flag(t)將滿足(13)、(14)式的主題所在的概念標志置為1,同時將評論 ei匹配的主題表示為
      [0307] 現(xiàn)對評論質(zhì)量的評估模型描述如下:
      [0308] 相關性,指的是評論與被評論商品之間的相關性。評論與商品的相關性通過兩個 指標判斷:
      [0309] 評論分詞后的結(jié)果與商品信息是否匹配;
      [0310] 評論分詞后的結(jié)果在虛擬概念格中是否匹配。
      [0311]滿足上述任一標準,則認為評論與商品是相關的,將相關性指標置為1:
      [0312] 則 relation(ei) = 1 (16)
      [0313] 全面性,指的是評論內(nèi)容涉及的廣度。由(15)式可知評論&所屬類別Q包含的所有 主題表示為乃,定義county)表示乃的總數(shù)目;表示評論的匹配主題的數(shù)目, 則可將全面性的量化標準定義如下:
      [0314] 酬:纖磁{|^)細鍾賴 (17)
      [0315] 細節(jié)性,指的是評論匹配概念的細節(jié)性。由模塊(3)虛擬概念格的構(gòu)造模塊可知, 其構(gòu)造的概念格包含節(jié)點之間具有父子關系及層級結(jié)構(gòu)。概念在概念格中的深度越深,其 描述的概念越具體,反之越抽象。層次較深的概念高層次較淺概念的抽象過程,就如具體某 一種商品,到商品類別,再到商品大類抽象的過程。因此,在評估評論的細節(jié)性時,是通過計 算匹配概念的平均深度與評論所屬商品類別包含概念的最大深度的比值來進行量化的,計 算出的結(jié)果越大,評論的內(nèi)容更細致??蓪⒓毠?jié)性指標描述如下:
      [0316] 歡:獨釋y縱《_(18)
      [0317] 式中deep(tk)指的是主題tk在虛擬概念格中的深度,deepmax(Cj)指的是評論ei所 屬類別Q包含主題的最大深度。
      [0318] 專業(yè)性,指的是用戶對被評論商品所在領域的專業(yè)度,以及評論本身的專業(yè)度。因 此該指標可以從兩個方面來量化:
      [0319] 通過用戶購買該類商品的次數(shù),與用戶購物的總次數(shù)的比值;
      [0320] 以(15)式匹配的概念的最大深度來表示,其所在層次越深,概念越具體,即評論本 身越專業(yè)。
      [0321] 將上述評估方法形式化,可表示如下:
      [0322] profi = scouunt(ei)/ scount( 19)
      [0323] prof2 = deepmax(ei)/deepmax(20)
      [0324] prof ess (ei) =a*profi+( l-a)prof 2(21)
      [0325] (18)式的scount(ei)指的是用戶購買評論ei所屬類別商品的次數(shù),scount表示用 戶總的購物次數(shù);(19)式deep max(ei)表示評論ei匹配的概念在概念格中的最大深度,deepmax 表示虛擬概念格的最大深度;(20)式中的a是用于調(diào)整兩種指標所占比重的參數(shù)。
      [0326] 現(xiàn)將(16)、(17)、(18)、(21)式合并,即可得出評論質(zhì)量(1(61)的評估辦法,(21)式 中的0、T、S、0是用于調(diào)整四個評估標準所占權(quán)重的因子:
      [0327] q(ei) = 0|relation(ei) + y *wide(ei) +
      [0328] 5*detail(ei)+9*profess(ei)(22)
      [0329] 0+y+8+0 = l(23)
      [0330] 實施例4
      [0331] 本發(fā)明實施案例的評論數(shù)據(jù)分析樣本來自某電商平臺,共抓取了電腦辦公、禮品 箱包和手機數(shù)碼等八個大類共1837569條商品評論。其中,一級大類8種,二級分類31鐘,三 級分類共有116類。本發(fā)明的實施案例將按前述的四個模塊進行實施:
      [0332] 步驟S01,將抓取的評論數(shù)據(jù)按產(chǎn)品進行分類,按照(1)_(3)式所述的步驟,完成同 一產(chǎn)品的評論放入同一文檔中的工作,同時文檔名也以產(chǎn)品名稱來命名。
      [0333]步驟S02,將步驟S01分類的評論文檔作為輸入,進行主題分析。主題分析算法采用 LDA主題分析模型。通過(4)式,LDA主題分析模型的核心式子建立起評論文檔、主題、特征詞 之間的關聯(lián)關系。如如所述,每類商品與每種商品的評論文檔是一對多的關系,因此在LDA 主題分析之后就建立起了商品類別、主題、特征詞之間關聯(lián)關系。本發(fā)明實施案例所建立的 關聯(lián)關系如圖3所示。這里將(5)、(6)式中的co和哭取值如下:
      [0334] 磁雄H 夢縱 (24)
      [0335] 表示提取概率最大的前80主題,每個主題分別以概率最大的前50詞為特征詞。
      [0336] 步驟S03,在步驟S02處理之后,以圖3所示關聯(lián)關系中的商品類別為對象、主題為 屬性并根據(jù)(7)式構(gòu)建形式背景I。由于商品類別之間本身是存在包含于被包含關系的,所 有形式背景I包含的概念之間是存在偏序關系的。根據(jù)(9)-(11)式描述的概念之間的偏序 關系,構(gòu)造出具有父子關系與層次結(jié)構(gòu)的虛擬概念格。由于數(shù)據(jù)量較大,這里選取20種商品 類別、10個主題構(gòu)造出如圖4所示的虛擬概念格(圖4并非完整的虛擬概念格)。
      [0337] 步驟S04,該步驟實現(xiàn)任意待評估評價在虛擬概念格中的匹配過程。根據(jù)(12)式, 對待評估的評價進行分詞并獲取等價的特征詞的集合然后將獲取的特征詞在概念格 中進行匹配,滿足(13)-(15)式的概念,即認為是匹配成功的概念,進而即可獲取對應匹配 成功的主題
      [0338] 步驟S05,該步驟將利用本發(fā)明提出的評論質(zhì)量評估模型,以步驟S04匹配的主題 為輸入,實現(xiàn)對任意評論質(zhì)量的評估過程。
      [0339] 首先根據(jù)(16)式,只要滿足評論與商品相關性指標中任意一條標準,即可將評論 的相關性指標置為1,否則置為0。
      [0340] 接著是全面性指標,根據(jù)(17)式可知是通過計算匹配主題的總數(shù)與評論所屬商品 類別包含主題的總數(shù)來表示,這里的商品類別指的是共116種三級商品類別中的一種。
      [0341] 然后根據(jù)(18)式描述的方法,即通過計算匹配概念的平均深度與評論所屬商品類 別包含概念的最大深度的比值來實現(xiàn)評論細節(jié)性指標的評估。
      [0342] 第四是專業(yè)性指標,專業(yè)性指標自身也有兩個評估標準。(19)式計算的用戶購買 待評估評論所在類別商品的次數(shù)與其購物總次數(shù)是其中之一;另一個根據(jù)(20)式,通過計 算匹配概念的最大深度與虛擬概念格的最大深度的比值來表示。在計算專業(yè)性指標值的時 候,(20)表示的因素更能反映評價本身的專業(yè)性,因此將(21)式中的a取值如下:
      [0343] a = 〇.2 (25);
      [0344] 上述四個指標計算得出之后,分別賦予一定的權(quán)重并求和,即可得出評論質(zhì)量的 評估結(jié)果??紤]到評論本身與商品的相關度對一條評論的重要性,所以相關性指標的權(quán)重 的值取為〇. 45,各評估指標權(quán)重取值如下:
      [0345] 0-0.45, 7-0.15,8-0.2,0-0.2(26)
      [0346] 將(26)式代入(22)即得出了本實施案例評論質(zhì)量評估模型的計算公式。該表達式 計算出的值是一個小于1,大于〇的數(shù),其值越接近1,表示評論質(zhì)量的評估結(jié)果越好,反之越 差。
      [0347] 最后說明的是,以上實施例僅用以說明本發(fā)明的技術方案而非限制,盡管參照較 佳實施例對本發(fā)明進行了詳細說明,本領域的普通技術人員應當理解,可以對本發(fā)明的技 術方案進行修改或者等同替換,而不脫離本技術方案的宗旨和范圍,其均應涵蓋在本發(fā)明 的權(quán)利要求范圍當中。
      【主權(quán)項】
      1. 一種電子商務中文本評論質(zhì)量的評價方法,其特征在于:包括以下步驟: 抓取評論數(shù)據(jù),同時將評論數(shù)據(jù)按商品類別來進行分類構(gòu)建產(chǎn)品評論文檔; 使用主題分析模型建立商品類別、主題與主題包含特征詞之間的關聯(lián)關系; 使用形式概念分析模型構(gòu)造以商品類別為對象和主題為屬性的虛擬概念格; 構(gòu)建評論質(zhì)量評估模型; 獲取評論數(shù)據(jù)并對評論數(shù)據(jù)進行分詞操作; 將分詞輸入到評論質(zhì)量評估模型進行評論數(shù)據(jù)的質(zhì)量評估; 輸出質(zhì)量評估結(jié)果。2. 如權(quán)利要求1所述的電子商務中文本評論質(zhì)量的評價方法,其特征在于:所述產(chǎn)品評 論文檔是通過以下步驟來構(gòu)建的: 按產(chǎn)品類型將評論數(shù)據(jù)進行分類; 判斷評論數(shù)據(jù)是否與產(chǎn)品滿足預設對應關系,如果滿足,則將評論數(shù)據(jù)存放于評論文 檔; 所述主題分析模型是誦忖以下衷伏式夾講行的:其中,p(w| ti)是特征詞對應主題ti的概率,p(ti I d)是主題ti在文檔d中的概率; 所述主題及特征詞的篩選按照以下公式進行約束: 丁 = 1^1^,其中1 = 1,2,3,...,〇; W=WUwj其中,T是選出的主題的集合,ω是用于篩選主題數(shù)的閾值;W是從對應每個主題中選出 的特征詞的集合,f:是從對應主題篩選特征詞數(shù)目的閾值。3. 如權(quán)利要求1所述的電子商務中文本評論質(zhì)量的評價方法,其特征在于:所述虛擬概 念格是基于FCA形式概念分析模型來構(gòu)建的,具體步驟如下: 按照以下公式構(gòu)造以主題為屬性和商品類別為對象的形式背景: K=(G,M,I); 其中,G是對象集合,M是屬性集合;若對象g具有屬性m則可表示為: (g,m)ei; 而形式背景I上的任意一個二元組(g,m)稱為一個形式概念,簡稱概念;同時再對形式 背景上的偏序關系形式化描述如下:(Gi,Mi)^(Gj,Mj); 構(gòu)造出形式背景I;在形式背景I基礎上構(gòu)造出具有父子關系及層次結(jié)構(gòu)的虛擬概念 格; 再采用FCA形式概念分析模型下的相關約簡算法,得到約簡后的虛擬概念格。4. 如權(quán)利要求1所述的電子商務中文本評論質(zhì)量的評價方法,其特征在于:所述評論數(shù) 據(jù)的分詞過程按照以下公式來進行:Ci表示待評估質(zhì)量的任意一條評論,表示評論分詞后提取的所有特征詞的集合。 接著將%與虛擬概念格中同類商品包含主題下的特征詞進行匹配,存在匹配的詞,則 將對應主題的標志位置為1; 評論ei對應的產(chǎn)品Pi滿足:類別Cj包含的所有主題表示為Tj,Tj包含的任意主題t對應的詞的集合為W t,若:其中,flag(t)將滿足條件的主題所在的概念標志置為1,同時將評論&匹配的主題表示 為^5.如權(quán)利要求1所述的電子商務中文本評論質(zhì)量的評價方法,其特征在于:所述評論質(zhì) 量評估模型按照以下內(nèi)容來構(gòu)建的: 構(gòu)建評論質(zhì)量評估模型的相關性,所述相關性為評論與被評論商品之間的相關性;所 述評論與商品的相關性通過兩個指標判斷: 評論分詞后的結(jié)果與商品信息是否匹配; 評論分詞后的結(jié)果在虛擬概念格中是否匹配; 滿足上述任一標準,則認為評論與商品是相關的,將相關性指標置為1: 貝 ijrelation(ei) = 1; 構(gòu)建評論質(zhì)量評估模型的全面性,所述全面性為評論內(nèi)容涉及的廣度;全面性的量化 標準定義如下:其中,評論^所屬類別Cj包含的所有主題表示為Tp定義Count(Tj)表示Tj的總數(shù)目; ◎ 微齡表示評論出匹配主題的數(shù)目; 構(gòu)建評論質(zhì)量評估模型的細節(jié)性,所述細節(jié)性為評論匹配概念的細節(jié)性;所述細節(jié)性 指標描述式中,deep(tk)指的是主題tk在虛擬概念格中的深度,deepmax(cj)指的是評論ei所屬類 別W包含主題的最大深度; 構(gòu)建評論質(zhì)量評估模型的專業(yè)性,所述專業(yè)性為用戶對被評論商品所在領域的專業(yè) 度,所述專業(yè)度從兩個方面來量化: 通過用戶購買該類商品的次數(shù),與用戶購物的總次數(shù)的比值; 所述專業(yè)性按照以下公式來進行表示: profI = scount(ei)/scount; prof 2 - deepmax (ei) /deepmax; profess(ei)=α氺profi+(I-α)prof2; 其中,SC〇unt(ei)指的是用戶購買評論&所屬類別商品的次數(shù),scount表示用戶總的購 物次數(shù);deepmax(ei)表示評論ei匹配的概念在概念格中的最大深度,de印 max表示虛擬概念格 的最大深度;α是用于調(diào)整兩種指標所占比重的參數(shù); 所述評論質(zhì)量評估模型按照以下公式來建立: q(ei) = 0*relation(ei) + γ *wide(ei)+3*detail(ei)+9*profess(ei); β+ γ +δ+θ = I ; 其中,β、γ、δ、θ為用于調(diào)整四個評估標準所占權(quán)重的因子。6. -種電子商務中文本評論質(zhì)量的評價系統(tǒng),其特征在于:包括產(chǎn)品評論文檔構(gòu)建模 塊、主題分析模塊、虛擬概念格構(gòu)造模塊、評論質(zhì)量評估模塊、分詞模塊、輸入模塊和輸出模 塊; 所述產(chǎn)品評論文檔構(gòu)建模塊,用于抓取評論數(shù)據(jù),同時將評論數(shù)據(jù)按商品類別來進行 分類構(gòu)建產(chǎn)品評論文檔; 所述主題分析模塊,用于使用主題分析模型建立商品類別、主題與主題包含特征詞之 間的關聯(lián)關系; 所述虛擬概念格構(gòu)造模塊,用于使用形式概念分析模型構(gòu)造以商品類別為對象和主題 為屬性的虛擬概念格; 所述評論質(zhì)量評估模塊,用于構(gòu)建評論質(zhì)量評估模型; 所述分詞模塊,用于獲取評論數(shù)據(jù)并對評論數(shù)據(jù)進行分詞操作; 所述輸入模塊,用于將分詞輸入到評論質(zhì)量評估模型進行評論數(shù)據(jù)的質(zhì)量評估; 所述輸出模塊,用于輸出質(zhì)量評估結(jié)果。7. 如權(quán)利要求6所述的電子商務中文本評論質(zhì)量的評價系統(tǒng),其特征在于:所述產(chǎn)品評 論文檔構(gòu)建模塊中的產(chǎn)品評論文檔是通過以下步驟來構(gòu)建的: 按產(chǎn)品類型將評論數(shù)據(jù)進行分類; 判斷評論數(shù)據(jù)是否與產(chǎn)品滿足預設對應關系,如果滿足,則將評論數(shù)據(jù)存放于評論文 檔; 所述主題分析模塊中的主題分析模型是通過以下表達式來進行的:其中,P(Wlt1)是特征詞對應主題。的概率,PU1 |d)是主題t在文檔d中的概率; 所述主題及特征詞的篩選按照以下公式進行約束: 丁 = 1^1^,其中1 = 1,2,3,...,〇; w=w u w j,其中 i ? 2爲擎.; 其中,T是選出的主題的集合,ω是用于篩選主題數(shù)的閾值;W是從對應每個主題中選出 的特征詞的集合,f是從對應主題篩選特征詞數(shù)目的閾值。8. 如權(quán)利要求6所述的電子商務中文本評論質(zhì)量的評價系統(tǒng),其特征在于:所述虛擬概 念格構(gòu)造模塊中的虛擬概念格是基于FCA形式概念分析模型來構(gòu)建的,具體步驟如下: 按照以下公式構(gòu)造以主題為屬性和商品類別為對象的形式背景: K-(G,M,I); 其中,G是對象集合,M是屬性集合;若對象g具有屬性m則可表示為: (g,m)ei;而形式背景I上的任意一個二元組(g,m)稱為一個形式概念,簡稱概念;同時再對形式 背景上的偏序關系形式化描沭如下: ? 滿足貧巧.:則; (Gi,Mi)^(GjMj); 構(gòu)造出形式背景I;在形式背景I基礎上構(gòu)造出具有父子關系及層次結(jié)構(gòu)的虛擬概念 格; 再采用FCA形式概念分析模型下的相關約簡算法,得到約簡后的虛擬概念格。9. 如權(quán)利要求6所述的電子商務中文本評論質(zhì)量的評價系統(tǒng),其特征在于:所述分詞模 塊中的評論數(shù)據(jù)的分詞過程按照以下公式來進行:? ei表示待評估質(zhì)量的任意一條評論,表示評論分詞后提取的所有特征詞的集合。 接著將1?.與虛擬概念格中同類商品包含主題下的特征詞進行匹配,存在匹配的詞,則 將對應主題的標志位置為1; 評論ei對應的產(chǎn)品Pi滿足:類別Ci包含的所有主題表示為TiJj包含的任意主題t對應的詞的集合為W t,若: 其中,flag(t)將滿足條件的主題所在的概念標志置為1,同時將評論&匹配的主題表示 為10. 如權(quán)利要求6所述的電子商務中文本評論質(zhì)量的評價系統(tǒng),其特征在于:所述評論 質(zhì)量評估模塊中的評論質(zhì)量評估模型按照以下內(nèi)容來構(gòu)建的: 構(gòu)建評論質(zhì)量評估模型的相關性,所述相關性為評論與被評論商品之間的相關性;所 述評論與商品的相關性通過兩個指標判斷: 評論分詞后的結(jié)果與商品信息是否匹配; 評論分詞后的結(jié)果在虛擬概念格中是否匹配; 滿足上述任一標準,則認為評論與商品是相關的,將相關性指標置為1: 貝 ijrelation(ei) = 1; 構(gòu)建評論質(zhì)量評估模型的全面性,所述全面性為評論內(nèi)容涉及的廣度;全面性的量化 標準定義如下:其中,評論^所屬類別Cj包含的所有主題表示為Tp定義Count(Tj)表示Tj的總數(shù)目;I _示評論el匹配主題的數(shù)目; 構(gòu)建評論質(zhì)量評估模型的細節(jié)性,所述細節(jié)性為評論匹配概念的細節(jié)性;所述細節(jié)性 指標描述如下:式中,deep(tk)指的是主題tk在虛擬概念格中的深度,deepmax(cj)指的是評論ei所屬類 別W包含主題的最大深度; 構(gòu)建評論質(zhì)量評估模型的專業(yè)性,所述專業(yè)性為用戶對被評論商品所在領域的專業(yè) 度,所述專業(yè)度從兩個方面來量化: 通過用戶購買該類商品的次數(shù),與用戶購物的總次數(shù)的比值; 所述專業(yè)性按照以下公式來進行表示: profI = scount(ei)/scount; prof 2 - deepmax (ei) /deepmax; profess(ei)=α氺profi+(I-α)prof2; 其中,SC〇unt(ei)指的是用戶購買評論&所屬類別商品的次數(shù),scount表示用戶總的購 物次數(shù);deepmax(ei)表示評論ei匹配的概念在概念格中的最大深度,de印 max表示虛擬概念格 的最大深度;α是用于調(diào)整兩種指標所占比重的參數(shù); 所述評論質(zhì)量評估模型按照以下公式來建立: q(ei) = 0*relation(ei) + γ *wide(ei)+3*detail(ei)+9*profess(ei); β+ γ +δ+θ = I ; 其中,β、γ、δ、θ為用于調(diào)整四個評估標準所占權(quán)重的因子。
      【文檔編號】G06F17/27GK105893350SQ201610199813
      【公開日】2016年8月24日
      【申請日】2016年3月31日
      【發(fā)明人】鐘將, 鄧忠, 郭衛(wèi)麗
      【申請人】重慶大學
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1