本申請涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種信息分析方法和裝置。
背景技術(shù):
商家在銷售出產(chǎn)品之后,需要知道用戶的反饋(例如評價(jià)信息)是好是壞,是積極正面的反饋多,還是消極負(fù)面的反饋多,通過分析用戶的反饋信息,可以知道產(chǎn)品在消費(fèi)者中的口碑好壞,也可以根據(jù)用戶的反饋有針對性地改進(jìn)產(chǎn)品。目前,在對用戶的反饋信息進(jìn)行分析時(shí),將所有用戶的反饋信息視為一個(gè)整體,通過統(tǒng)計(jì)反饋信息中能夠表明情感的關(guān)鍵詞出現(xiàn)的頻率,來判斷用戶對該產(chǎn)品的評價(jià)是好還是壞。
然而,不同類別的用戶對同一產(chǎn)品的評價(jià)和好感度往往相差很大,將所有用戶的反饋信息視為一個(gè)整體進(jìn)行分析計(jì)算,只能籠統(tǒng)地反映出用戶的整體情況,掩蓋了不同類別用戶的反饋信息的差異性。
針對上述的問題,目前尚未提出有效的解決方案。
技術(shù)實(shí)現(xiàn)要素:
本申請實(shí)施例提供了一種信息分析方法和裝置,以至少解決現(xiàn)有技術(shù)中不能分析用戶的反饋信息的差異性的技術(shù)問題。
根據(jù)本申請實(shí)施例的一個(gè)方面,提供了一種信息分析方法,包括:獲取多個(gè)用戶的信息;將所述多個(gè)用戶進(jìn)行分組,得到m組用戶,其中,m為大于1的自然數(shù);計(jì)算Li組用戶的信息中每類關(guān)鍵詞占所述Li組用戶的信息中全部關(guān)鍵詞的比重,其中,i依次取1至m,所述Li組用戶的信息中不同類關(guān)鍵詞為表示所述Li組用戶不同情緒的關(guān)鍵詞;以及根據(jù)所述Li組用戶的信息中每類關(guān)鍵詞占所述Li組用戶的信息中全部關(guān)鍵詞的比重,確定所述Li組用戶的情感傾向。
進(jìn)一步地,每組用戶的信息中均包括S類關(guān)鍵詞,計(jì)算Li組用戶的信息中每類關(guān)鍵詞占所述Li組用戶的信息中全部關(guān)鍵詞的比重包括:計(jì)算所述Li組用戶的信息中關(guān)鍵詞類Zij的數(shù)值,其中,j依次取1至S,S為正整數(shù);計(jì)算關(guān)鍵詞類Zi1的數(shù)值至關(guān)鍵詞類ZiS的數(shù)值之和,得到所述Li組用戶的信息中全部關(guān)鍵詞的數(shù)值;以及計(jì) 算所述關(guān)鍵詞類Zij的數(shù)值與所述Li組用戶的信息中全部關(guān)鍵詞的數(shù)值的比值,得到所述關(guān)鍵詞類Zij占所述Li組用戶的信息中全部關(guān)鍵詞的比重。
進(jìn)一步地,計(jì)算所述Li組用戶的信息中關(guān)鍵詞類Zij的數(shù)值包括:查找所述關(guān)鍵詞類Zij中每個(gè)關(guān)鍵詞在所述Li組用戶的信息中出現(xiàn)的次數(shù);在預(yù)設(shè)數(shù)據(jù)庫中查詢所述關(guān)鍵詞類Zij中每個(gè)關(guān)鍵詞的權(quán)重;以及根據(jù)所述關(guān)鍵詞類Zij中每個(gè)關(guān)鍵詞的次數(shù)和所述關(guān)鍵詞類Zij中每個(gè)關(guān)鍵詞的權(quán)重,計(jì)算所述Li組用戶的信息中關(guān)鍵詞類Zij的數(shù)值。
進(jìn)一步地,根據(jù)所述關(guān)鍵詞類Zij中每個(gè)關(guān)鍵詞的次數(shù)和所述關(guān)鍵詞類Zij中每個(gè)關(guān)鍵詞的權(quán)重,計(jì)算所述Li組用戶的信息中關(guān)鍵詞類Zij的數(shù)值包括:根據(jù)計(jì)算所述Li組用戶的信息中所述關(guān)鍵詞類Zij的數(shù)值N(Zij),其中,nij表示所述Li組用戶的信息中所述關(guān)鍵詞類Zij中的關(guān)鍵詞個(gè)數(shù),tij(k)表示所述關(guān)鍵詞類Zij中第k個(gè)關(guān)鍵詞出現(xiàn)的次數(shù),wij(k)表示所述關(guān)鍵詞類Zij中所述第k個(gè)關(guān)鍵詞的權(quán)重。
進(jìn)一步地,根據(jù)所述Li組用戶的信息中每類關(guān)鍵詞占所述Li組用戶的信息中全部關(guān)鍵詞的比重,確定所述Li組用戶的情感傾向包括:為所述Li組用戶設(shè)置第i閾值;將所述Li組用戶的信息中Zi1類關(guān)鍵詞占所述Li組用戶的信息中全部關(guān)鍵詞的比重與所述第i閾值進(jìn)行比較;在所述Li組用戶的信息中Zi1類關(guān)鍵詞占所述Li組用戶的信息中全部關(guān)鍵詞的比重大于或等于所述第i閾值的情況下,確定所述Li組用戶的情感傾向?yàn)榉e極,其中,i依次取1至m。
根據(jù)本申請實(shí)施例的一個(gè)方面,提供了一種信息分析裝置,包括:獲取單元,用于獲取多個(gè)用戶的信息;分組單元,用于將所述多個(gè)用戶進(jìn)行分組,得到m組用戶,其中,m為大于1的自然數(shù);計(jì)算單元,用于計(jì)算Li組用戶的信息中每類關(guān)鍵詞占所述Li組用戶的信息中全部關(guān)鍵詞的比重,其中,i依次取1至m,所述Li組用戶的信息中不同類關(guān)鍵詞為表示所述Li組用戶不同情緒的關(guān)鍵詞;以及確定單元,用于根據(jù)所述Li組用戶的信息中每類關(guān)鍵詞占所述Li組用戶的信息中全部關(guān)鍵詞的比重,確定所述Li組用戶的情感傾向。
進(jìn)一步地,每組用戶的信息中均包括S類關(guān)鍵詞,所述計(jì)算單元包括:第一計(jì)算子單元,用于計(jì)算所述Li組用戶的信息中關(guān)鍵詞類Zij的數(shù)值,其中,j依次取1至S,S為正整數(shù);第二計(jì)算子單元,用于計(jì)算關(guān)鍵詞類Zi1的數(shù)值至關(guān)鍵詞類ZiS的數(shù) 值之和,得到所述Li組用戶的信息中全部關(guān)鍵詞的數(shù)值;以及第三計(jì)算子單元,用于計(jì)算所述關(guān)鍵詞類Zij的數(shù)值與所述Li組用戶的信息中全部關(guān)鍵詞的數(shù)值的比值,得到所述關(guān)鍵詞類Zij占所述Li組用戶的信息中全部關(guān)鍵詞的比重。
進(jìn)一步地,所述第一計(jì)算子單元包括:查找模塊,用于查找所述關(guān)鍵詞類Zij中每個(gè)關(guān)鍵詞在所述Li組用戶的信息中出現(xiàn)的次數(shù);查詢模塊,用于在預(yù)設(shè)數(shù)據(jù)庫中查詢所述關(guān)鍵詞類Zij中每個(gè)關(guān)鍵詞的權(quán)重;以及計(jì)算模塊,用于根據(jù)所述關(guān)鍵詞類Zij中每個(gè)關(guān)鍵詞的次數(shù)和所述關(guān)鍵詞類Zij中每個(gè)關(guān)鍵詞的權(quán)重,計(jì)算所述Li組用戶的信息中關(guān)鍵詞類Zij的數(shù)值。
進(jìn)一步地,所述計(jì)算模塊包括:計(jì)算子模塊,用于根據(jù)計(jì)算所述Li組用戶的信息中所述關(guān)鍵詞類Zij的數(shù)值N(Zij),其中,nij表示所述Li組用戶的信息中所述關(guān)鍵詞類Zij中的關(guān)鍵詞個(gè)數(shù),tij(k)表示所述關(guān)鍵詞類Zij中第k個(gè)關(guān)鍵詞出現(xiàn)的次數(shù),wij(k)表示所述關(guān)鍵詞類Zij中所述第k個(gè)關(guān)鍵詞的權(quán)重。
進(jìn)一步地,所述確定單元包括:設(shè)置子單元,用于為所述Li組用戶設(shè)置第i閾值;比較子單元,用于將所述Li組用戶的信息中Zi1類關(guān)鍵詞占所述Li組用戶的信息中全部關(guān)鍵詞的比重與所述第i閾值進(jìn)行比較;確定子單元,用于在所述Li組用戶的信息中Zi1類關(guān)鍵詞占所述Li組用戶的信息中全部關(guān)鍵詞的比重大于或等于所述第i閾值的情況下,確定所述Li組用戶的情感傾向?yàn)榉e極,其中,i依次取1至m。
在本申請實(shí)施例中,采用獲取多個(gè)用戶的信息,將多個(gè)用戶進(jìn)行分組,得到m組用戶,其中,m為大于1的自然數(shù),計(jì)算Li組用戶的信息中每類關(guān)鍵詞占Li組用戶的信息中全部關(guān)鍵詞的比重,其中,i依次取1至m,Li組用戶的信息中不同類關(guān)鍵詞為表示Li組用戶不同情緒的關(guān)鍵詞,根據(jù)Li組用戶的信息中每類關(guān)鍵詞占Li組用戶的信息中全部關(guān)鍵詞的比重,確定Li組用戶的情感傾向。通過將用戶進(jìn)行分組,分別計(jì)算每一組用戶的評價(jià)中每類表示情緒的關(guān)鍵詞占所有表示情緒的關(guān)鍵詞的比重,通過計(jì)算出的比重,確定每一組用戶的情感傾向是正面的,還是負(fù)面的,實(shí)現(xiàn)了分析不同類別的用戶的反饋信息的技術(shù)效果,進(jìn)而解決了現(xiàn)有技術(shù)中不能分析用戶的反饋信息的差異性的技術(shù)問題。
附圖說明
此處所說明的附圖用來提供對本申請的進(jìn)一步理解,構(gòu)成本申請的一部分,本申 請的示意性實(shí)施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當(dāng)限定。在附圖中:
圖1是根據(jù)本申請實(shí)施例的信息分析方法的流程圖;以及
圖2是根據(jù)本申請實(shí)施例的信息分析裝置的示意圖。
具體實(shí)施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本申請方案,下面將結(jié)合本申請實(shí)施例中的附圖,對本申請實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請一部分的實(shí)施例,而不是全部的實(shí)施例?;诒旧暾堉械膶?shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本申請保護(hù)的范圍。
需要說明的是,本申請的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本申請的實(shí)施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
根據(jù)本申請實(shí)施例,提供了一種信息分析方法的實(shí)施例,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
圖1是根據(jù)本申請實(shí)施例的信息分析方法的流程圖,如圖1所示,該方法包括如下步驟:
步驟S102,獲取多個(gè)用戶的信息。
步驟S104,將多個(gè)用戶進(jìn)行分組,得到m組用戶,其中,m為大于1的自然數(shù)。
步驟S106,計(jì)算Li組用戶的信息中每類關(guān)鍵詞占Li組用戶的信息中全部關(guān)鍵詞的比重,其中,i依次取1至m,Li組用戶的信息中不同類關(guān)鍵詞為表示Li組用戶不同情緒的關(guān)鍵詞。
步驟S108,根據(jù)Li組用戶的信息中每類關(guān)鍵詞占Li組用戶的信息中全部關(guān)鍵詞 的比重,確定Li組用戶的情感傾向。
其中,對用戶進(jìn)行分組可以有多種方法??梢愿鶕?jù)獲取的用戶的信息中包含的級別、經(jīng)驗(yàn)值、活躍度等對用戶進(jìn)行分組。也可以根據(jù)用戶的消費(fèi)額對用戶進(jìn)行分組,按照消費(fèi)額從高到低對用戶進(jìn)行分組,例如,將消費(fèi)額占前5%的用戶分為資深用戶組,將消費(fèi)額占前5%至前20%的用戶分為高級用戶組,將其余用戶分為普通用戶組。
用戶在使用或購買了某種產(chǎn)品后會有反饋信息,也就是評論或評價(jià)。例如,在淘寶網(wǎng),用戶在購買產(chǎn)品可以對購買的產(chǎn)品進(jìn)行評價(jià)。這些評價(jià)中,既有正面評價(jià)的,例如“東西很好”、“棒”、“還行”、“質(zhì)量不錯(cuò)”,也有負(fù)面評價(jià),例如“不好”、“壞”、“太爛了”,也有中性評價(jià),例如“湊合”“一般”。
不同用戶組的用戶對統(tǒng)一產(chǎn)品的關(guān)注點(diǎn)不同,從而對產(chǎn)品的評價(jià)好壞和評價(jià)用語也有很大的差異。例如,上述資深用戶組的評價(jià)可能為“很時(shí)尚”、“款式好”、“新潮”,普通用戶組的評價(jià)可能為“貴”、“不實(shí)惠”。將用戶按照一定特征分組后,根據(jù)每組用戶的評價(jià)中正面關(guān)鍵詞在全部關(guān)鍵詞中所占的比重,判斷每一組用戶對產(chǎn)品的評價(jià),從而能夠得知產(chǎn)品在每一組用戶中的口碑好壞,從而可以針對特定組的用戶對產(chǎn)品進(jìn)行改進(jìn)或者營銷。
通過將用戶分組,并分別計(jì)算每一組用戶的評價(jià)中每類表示情緒的關(guān)鍵詞占所有表示情緒的關(guān)鍵詞的比重,通過計(jì)算出的比重,確定每一組用戶的情感傾向是正面的,還是負(fù)面的,實(shí)現(xiàn)了分析不同類別的用戶的反饋信息的技術(shù)效果,進(jìn)而解決了現(xiàn)有技術(shù)中不能分析用戶的反饋信息的差異性的技術(shù)問題。
可選地,每組用戶的信息中均包括S類關(guān)鍵詞,計(jì)算Li組用戶的信息中每類關(guān)鍵詞占Li組用戶的信息中全部關(guān)鍵詞的比重包括:計(jì)算Li組用戶的信息中關(guān)鍵詞類Zij的數(shù)值,其中,j依次取1至S,S為正整數(shù);計(jì)算關(guān)鍵詞類Zi1的數(shù)值至關(guān)鍵詞類ZiS的數(shù)值之和,得到Li組用戶的信息中全部關(guān)鍵詞的數(shù)值;以及計(jì)算關(guān)鍵詞類Zij的數(shù)值與Li組用戶的信息中全部關(guān)鍵詞的數(shù)值的比值,得到關(guān)鍵詞類Zij占Li組用戶的信息中全部關(guān)鍵詞的比重。
每一組用戶的評論中都包含S類關(guān)鍵詞,以S=3為例進(jìn)行說明,即用戶的評論中有表達(dá)正面、積極的情感的一類關(guān)鍵詞,表達(dá)負(fù)面、消極的情感的一類關(guān)鍵詞,表達(dá)既不積極,也不消極的中性的情感的一類關(guān)鍵詞,那么關(guān)鍵詞類Zi1即為Li組用戶表達(dá)正面、積極的情感的一類關(guān)鍵詞,關(guān)鍵詞類Zi2即為Li組用戶表達(dá)負(fù)面、消極的情感的一類關(guān)鍵詞,關(guān)鍵詞類Zi3即為Li組用戶表達(dá)既不積極,也不消極的中性的情感的一類關(guān)鍵詞。計(jì)算出關(guān)鍵詞類Zi1的數(shù)值、關(guān)鍵詞類Zi2的數(shù)值、關(guān)鍵詞類Zi3的 數(shù)值,將關(guān)鍵詞類Zi1的數(shù)值、關(guān)鍵詞類Zi2的數(shù)值、關(guān)鍵詞類Zi3的數(shù)值這三者相加得到Li組用戶的信息中全部關(guān)鍵詞的數(shù)值,將關(guān)鍵詞類Zi1的數(shù)值與Li組用戶的信息中全部關(guān)鍵詞的數(shù)值相除,得到Li組用戶表示正面情感的關(guān)鍵詞在表示情感的全部關(guān)鍵詞中的比重。需要注意的是,S=3僅僅為S的一種取值。對于S取其他值的情況,計(jì)算關(guān)鍵詞類Zij與Li組用戶的信息中全部關(guān)鍵詞的數(shù)值的比值的方法以此類推,不再贅述。
可選地,計(jì)算Li組用戶的信息中關(guān)鍵詞類Zij的數(shù)值包括:查找關(guān)鍵詞類Zij中每個(gè)關(guān)鍵詞在Li組用戶的信息中出現(xiàn)的次數(shù);在預(yù)設(shè)數(shù)據(jù)庫中查詢關(guān)鍵詞類Zij中每個(gè)關(guān)鍵詞的權(quán)重;以及根據(jù)關(guān)鍵詞類Zij中每個(gè)關(guān)鍵詞的次數(shù)和關(guān)鍵詞類Zij中每個(gè)關(guān)鍵詞的權(quán)重,計(jì)算Li組用戶的信息中關(guān)鍵詞類Zij的數(shù)值。
可選地,根據(jù)關(guān)鍵詞類Zij中每個(gè)關(guān)鍵詞的次數(shù)和關(guān)鍵詞類Zij中每個(gè)關(guān)鍵詞的權(quán)重,計(jì)算Li組用戶的信息中關(guān)鍵詞類Zij的數(shù)值包括:根據(jù)計(jì)算Li組用戶的信息中關(guān)鍵詞類Zij的數(shù)值N(Zij),其中,nij表示Li組用戶的信息中關(guān)鍵詞類Zij中的關(guān)鍵詞個(gè)數(shù),tij(k)表示關(guān)鍵詞類Zij中第k個(gè)關(guān)鍵詞出現(xiàn)的次數(shù),wij(k)表示關(guān)鍵詞類Zij中第k個(gè)關(guān)鍵詞的權(quán)重。
每個(gè)關(guān)鍵詞類Zij包括若干個(gè)關(guān)鍵詞,這些關(guān)鍵詞的權(quán)重不同,通過預(yù)先設(shè)置的數(shù)據(jù)庫可以查詢出這些關(guān)鍵詞的權(quán)重。同樣是正面評價(jià),“特別好”和“不錯(cuò)”所傳達(dá)的情感的強(qiáng)烈程度是不同的,評論“不錯(cuò)”的用戶對產(chǎn)品或服務(wù)是基本滿意的,而評論“特別好”的用戶對產(chǎn)品或服務(wù)是非常滿意的。同樣是負(fù)面評價(jià),“不太好”和“太差了”所傳達(dá)的情感的強(qiáng)烈程度也是不同,評論“不太好”的用戶對產(chǎn)品或服務(wù)不滿意,評論“太差了”的用戶對產(chǎn)品或服務(wù)非常不滿意?;诒硎厩楦械年P(guān)鍵詞所傳達(dá)的情感的強(qiáng)烈程度,預(yù)先對這些表示情感的關(guān)鍵詞設(shè)置了權(quán)重。關(guān)鍵詞的權(quán)重與關(guān)鍵詞所傳達(dá)的感情的強(qiáng)烈程度呈正相關(guān)。
例如,用戶組為一組的用戶中,一共有21條評論,分別為“很好”、“產(chǎn)品很好”、“質(zhì)量不好”、“東西特別好”、“還湊合吧”、“什么爛玩意”、“差”、“對這次購物特別滿意”、“好”、“挺實(shí)惠的”、“質(zhì)量一般”、“促銷的時(shí)候買的,挺劃算的”、“快遞給力”、“快遞挺快的”、“好”、“質(zhì)量一般”、“湊合”、“東西很好”、“產(chǎn)品特別好”、“特別滿意”、“快遞給力”,提取出這些評論中表示情感/情緒的關(guān)鍵詞,有“很好”、“不好”、“特別好”、“湊合”、“爛”、“差”、“特別滿意”、“好”、“實(shí)惠”、“一般”、“劃算”、“給 力”、“挺快”。
提取出評論中表示正面情感的關(guān)鍵詞,有“很好”、“特別好”、“特別滿意”、“好”、“實(shí)惠”、“劃算”、“給力”、“挺快”。其中,“很好”出現(xiàn)了3次,“特別好”出現(xiàn)了2次,“好”出現(xiàn)了2次,“特別滿意”出現(xiàn)了2次,“給力”出現(xiàn)了2次,其余關(guān)鍵詞各出現(xiàn)1次。
提取出評論中表示負(fù)面情感的關(guān)鍵詞,有“不好”、“爛”、“差”。其中,“不好”、“爛”、“差”均出現(xiàn)了1次。
提取出評論中表示中性情感的關(guān)鍵詞,有“湊合”、“一般”。其中,“湊合”、“一般”各出現(xiàn)了2次。
表1
表2
表3
表1是表示正面情感的關(guān)鍵詞的與其權(quán)重的對應(yīng)關(guān)系,表2是表示負(fù)面情感的關(guān)鍵詞的與其權(quán)重的對應(yīng)關(guān)系,表3是表示中性情感的關(guān)鍵詞的與其權(quán)重的對應(yīng)關(guān)系,由于篇幅關(guān)系,表1、表2和表3均只列出一部分關(guān)鍵詞與其權(quán)重的對應(yīng)關(guān)系。
將表示正面情感的8個(gè)關(guān)鍵詞“很好”、“特別好”、“特別滿意”、“好”、“實(shí)惠”、“劃算”、“給力”、“挺快”每個(gè)關(guān)鍵詞出現(xiàn)的次數(shù)與該關(guān)鍵詞的權(quán)重相乘,將求得的結(jié)果相加,就得到了表示正面情感的關(guān)鍵詞類的數(shù)值,為67。
將表示負(fù)面情感的3個(gè)關(guān)鍵詞“不好”、“爛”、“差”每個(gè)詞出現(xiàn)的次數(shù)與該關(guān)鍵詞的權(quán)重相乘,將求得的結(jié)果相加,就得到了表示負(fù)面情感的關(guān)鍵詞類的數(shù)值,為12。
將表示中性情感的2個(gè)關(guān)鍵詞“湊合”、“一般”每個(gè)詞出現(xiàn)的次數(shù)與該關(guān)鍵詞的權(quán)重相乘,將求得的結(jié)果相加,就得到了表示中性情感的關(guān)鍵詞類的數(shù)值,為8。
每個(gè)關(guān)鍵詞的權(quán)重為預(yù)先設(shè)置,權(quán)重代表各個(gè)關(guān)鍵詞所傳達(dá)情感信息的強(qiáng)弱的相對值,故權(quán)重的取值可以為自然數(shù),也可以為(0,1)之間的小數(shù),等等,只需要所有關(guān)鍵詞使用同一度量方法即可。
需要說明的是,在本申請實(shí)施例中,不僅同一組用戶內(nèi)各個(gè)關(guān)鍵詞的權(quán)重不同,而且同一個(gè)關(guān)鍵詞在不同組用戶中所占的權(quán)重也可以不相同。
可選地,根據(jù)Li組用戶的信息中每類關(guān)鍵詞占Li組用戶的信息中全部關(guān)鍵詞的比重,確定Li組用戶的情感傾向包括:為Li組用戶設(shè)置第i閾值;將Li組用戶的信息中Zi1類關(guān)鍵詞占Li組用戶的信息中全部關(guān)鍵詞的比重與第i閾值進(jìn)行比較;在Li組用戶的信息中Zi1類關(guān)鍵詞占Li組用戶的信息中全部關(guān)鍵詞的比重大于或等于第i閾值的情況下,確定Li組用戶的情感傾向?yàn)榉e極,其中,i依次取1至m。
即,為每一個(gè)用戶組設(shè)置一個(gè)閾值,計(jì)算每一組用戶的第1類關(guān)鍵詞的數(shù)值與該組所有關(guān)鍵詞的比值,將每一組的比值與該組的閾值相比,如果比值大于或等于閾值,則確定該組用戶的情感傾向?yàn)榉e極的。
例如,第一組用戶的評論中,表示正面情感的關(guān)鍵詞類的數(shù)值為67,表示負(fù)面情感的關(guān)鍵詞類的數(shù)值為12,表示中性情感的關(guān)鍵詞類的數(shù)值為8。表示情感的全部關(guān)鍵詞的數(shù)值為87(即,67+12+8=87)。為第一組用戶設(shè)置第1閾值為0.6,即當(dāng)表示正面情感的關(guān)鍵詞類的數(shù)值與表示情感的全部關(guān)鍵詞的數(shù)值之比只要大于或等于0.6,即認(rèn)為該產(chǎn)品或服務(wù)在第一組用戶中得到了積極的評價(jià)。經(jīng)過計(jì)算,得到表示正面情感的關(guān)鍵詞類的數(shù)值與表示情感的全部關(guān)鍵詞的數(shù)值之比為0.77,大于第1閾值0.6,因此,可以認(rèn)為該產(chǎn)品或服務(wù)在第一組用戶中得到了積極的評價(jià)。
根據(jù)本發(fā)明實(shí)施例,還提供了一種信息分析裝置。該信息分析裝置可以執(zhí)行上述信息分析方法,上述信息分析方法也可以通過該信息分析裝置實(shí)施。
圖2是根據(jù)本申請實(shí)施例的信息分析裝置的示意圖。如圖2所示,該信息分析裝置主要包括獲取單元10、分組單元20、計(jì)算單元30和確定單元40,其中:
獲取單元10用于獲取多個(gè)用戶的信息。
分組單元20用于將多個(gè)用戶進(jìn)行分組,得到m組用戶,其中,m為大于1的自然數(shù)。
計(jì)算單元30用于計(jì)算Li組用戶的信息中每類關(guān)鍵詞占Li組用戶的信息中全部關(guān)鍵詞的比重,其中,i依次取1至m,Li組用戶的信息中不同類關(guān)鍵詞為表示Li組用戶不同情緒的關(guān)鍵詞。
確定單元40用于根據(jù)Li組用戶的信息中每類關(guān)鍵詞占Li組用戶的信息中全部關(guān)鍵詞的比重,確定Li組用戶的情感傾向。
其中,對用戶進(jìn)行分組可以有多種方法。可以根據(jù)獲取的用戶的信息中包含的級別、經(jīng)驗(yàn)值、活躍度等對用戶進(jìn)行分組。也可以根據(jù)用戶的消費(fèi)額對用戶進(jìn)行分組,按照消費(fèi)額從高到低對用戶進(jìn)行分組,例如,將消費(fèi)額占前5%的用戶分為資深用戶組,將消費(fèi)額占前5%至前20%的用戶分為高級用戶組,將其余用戶分為普通用戶組。
用戶在使用或購買了某種產(chǎn)品后會有反饋信息,也就是評論或評價(jià)。例如,在淘寶網(wǎng),用戶在購買產(chǎn)品可以對購買的產(chǎn)品進(jìn)行評價(jià)。這些評價(jià)中,既有正面評價(jià)的,例如“東西很好”、“棒”、“還行”、“質(zhì)量不錯(cuò)”,也有負(fù)面評價(jià),例如“不好”、“壞”、“太爛了”,也有中性評價(jià),例如“湊合”“一般”。
不同用戶組的用戶對統(tǒng)一產(chǎn)品的關(guān)注點(diǎn)不同,從而對產(chǎn)品的評價(jià)好壞和評價(jià)用語也有很大的差異。例如,上述資深用戶組的評價(jià)可能為“很時(shí)尚”、“款式好”、“新潮”,普通用戶組的評價(jià)可能為“貴”、“不實(shí)惠”。將用戶按照一定特征分組后,根據(jù)每組用戶的評價(jià)中正面關(guān)鍵詞在全部關(guān)鍵詞中所占的比重,判斷每一組用戶對產(chǎn)品的評價(jià),從而能夠得知產(chǎn)品在每一組用戶中的口碑好壞,從而可以針對特定組的用戶對產(chǎn)品進(jìn)行改進(jìn)或者營銷。
通過將用戶分組,并分別計(jì)算每一組用戶的評價(jià)中每類表示情緒的關(guān)鍵詞占所有表示情緒的關(guān)鍵詞的比重,通過計(jì)算出的比重,確定每一組用戶的情感傾向是正面的,還是負(fù)面的,實(shí)現(xiàn)了分析不同類別的用戶的反饋信息的技術(shù)效果,進(jìn)而解決了現(xiàn)有技術(shù)中不能分析用戶的反饋信息的差異性的技術(shù)問題。
可選地,每組用戶的信息中均包括S類關(guān)鍵詞,計(jì)算單元30主要包括第一計(jì)算子單元、第二計(jì)算子單元和第三計(jì)算子單元,其中,第一計(jì)算子單元用于計(jì)算Li組用戶的信息中關(guān)鍵詞類Zij的數(shù)值,其中,j依次取1至S,S為正整數(shù);第二計(jì)算子單元用于計(jì)算關(guān)鍵詞類Zi1的數(shù)值至關(guān)鍵詞類ZiS的數(shù)值之和,得到Li組用戶的信息中全部關(guān)鍵詞的數(shù)值;第三計(jì)算子單元用于計(jì)算關(guān)鍵詞類Zij的數(shù)值與Li組用戶的信息中全部關(guān)鍵詞的數(shù)值的比值,得到關(guān)鍵詞類Zij占Li組用戶的信息中全部關(guān)鍵詞的比重。
每一組用戶的評論中都包含S類關(guān)鍵詞,以S=3為例進(jìn)行說明,即用戶的評論中有表達(dá)正面、積極的情感的一類關(guān)鍵詞,表達(dá)負(fù)面、消極的情感的一類關(guān)鍵詞,表達(dá)既不積極,也不消極的中性的情感的一類關(guān)鍵詞,那么關(guān)鍵詞類Zi1即為Li組用戶表達(dá)正面、積極的情感的一類關(guān)鍵詞,關(guān)鍵詞類Zi2即為Li組用戶表達(dá)負(fù)面、消極的情感的一類關(guān)鍵詞,關(guān)鍵詞類Zi3即為Li組用戶表達(dá)既不積極,也不消極的中性的情感的一類關(guān)鍵詞。計(jì)算出關(guān)鍵詞類Zi1的數(shù)值、關(guān)鍵詞類Zi2的數(shù)值、關(guān)鍵詞類Zi3的數(shù)值,將關(guān)鍵詞類Zi1的數(shù)值、關(guān)鍵詞類Zi2的數(shù)值、關(guān)鍵詞類Zi3的數(shù)值這三者相加得到Li組用戶的信息中全部關(guān)鍵詞的數(shù)值,將關(guān)鍵詞類Zi1的數(shù)值與Li組用戶的信息中全部關(guān)鍵詞的數(shù)值相除,得到Li組用戶表示正面情感的關(guān)鍵詞在表示情感的全部關(guān)鍵詞中的比重。需要注意的是,S=3僅僅為S的一種取值。對于S取其他值的情況,計(jì)算關(guān)鍵詞類Zij與Li組用戶的信息中全部關(guān)鍵詞的數(shù)值的比值的方法以此類推,不再贅述。
可選地,第一計(jì)算子單元包括查找模塊、查詢模塊和計(jì)算模塊,其中,查找模塊用于查找關(guān)鍵詞類Zij中每個(gè)關(guān)鍵詞在Li組用戶的信息中出現(xiàn)的次數(shù);查詢模塊用于在預(yù)設(shè)數(shù)據(jù)庫中查詢關(guān)鍵詞類Zij中每個(gè)關(guān)鍵詞的權(quán)重;計(jì)算模塊用于根據(jù)關(guān)鍵詞類Zij中每個(gè)關(guān)鍵詞的次數(shù)和關(guān)鍵詞類Zij中每個(gè)關(guān)鍵詞的權(quán)重,計(jì)算Li組用戶的信息 中關(guān)鍵詞類Zij的數(shù)值。
可選地,計(jì)算模塊包括計(jì)算子模塊,該計(jì)算子模塊用于按照公式計(jì)算Li組用戶的信息中關(guān)鍵詞類Zij的數(shù)值N(Zij),其中,nij表示Li組用戶的信息中關(guān)鍵詞類Zij中的關(guān)鍵詞個(gè)數(shù),tij(k)表示關(guān)鍵詞類Zij中第k個(gè)關(guān)鍵詞出現(xiàn)的次數(shù),wij(k)表示關(guān)鍵詞類Zij中第k個(gè)關(guān)鍵詞的權(quán)重。
每個(gè)關(guān)鍵詞類Zij包括若干個(gè)關(guān)鍵詞,這些關(guān)鍵詞的權(quán)重不同,通過預(yù)先設(shè)置的數(shù)據(jù)庫可以查詢出這些關(guān)鍵詞的權(quán)重。同樣是正面評價(jià),“特別好”和“不錯(cuò)”所傳達(dá)的情感的強(qiáng)烈程度是不同的,評論“不錯(cuò)”的用戶對產(chǎn)品或服務(wù)是基本滿意的,而評論“特別好”的用戶對產(chǎn)品或服務(wù)是非常滿意的。同樣是負(fù)面評價(jià),“不太好”和“太差了”所傳達(dá)的情感的強(qiáng)烈程度也是不同,評論“不太好”的用戶對產(chǎn)品或服務(wù)不滿意,評論“太差了”的用戶對產(chǎn)品或服務(wù)非常不滿意?;诒硎厩楦械年P(guān)鍵詞所傳達(dá)的情感的強(qiáng)烈程度,預(yù)先對這些表示情感的關(guān)鍵詞設(shè)置了權(quán)重。關(guān)鍵詞的權(quán)重與關(guān)鍵詞所傳達(dá)的感情的強(qiáng)烈程度呈正相關(guān)。
例如,用戶組為一組的用戶中,一共有21條評論,分別為“很好”、“產(chǎn)品很好”、“質(zhì)量不好”、“東西特別好”、“還湊合吧”、“什么爛玩意”、“差”、“對這次購物特別滿意”、“好”、“挺實(shí)惠的”、“質(zhì)量一般”、“促銷的時(shí)候買的,挺劃算的”、“快遞給力”、“快遞挺快的”、“好”、“質(zhì)量一般”、“湊合”、“東西很好”、“產(chǎn)品特別好”、“特別滿意”、“快遞給力”,提取出這些評論中表示情感/情緒的關(guān)鍵詞,有“很好”、“不好”、“特別好”、“湊合”、“爛”、“差”、“特別滿意”、“好”、“實(shí)惠”、“一般”、“劃算”、“給力”、“挺快”。
提取出評論中表示正面情感的關(guān)鍵詞,有“很好”、“特別好”、“特別滿意”、“好”、“實(shí)惠”、“劃算”、“給力”、“挺快”。其中,“很好”出現(xiàn)了3次,“特別好”出現(xiàn)了2次,“好”出現(xiàn)了2次,“特別滿意”出現(xiàn)了2次,“給力”出現(xiàn)了2次,其余關(guān)鍵詞各出現(xiàn)1次。
提取出評論中表示負(fù)面情感的關(guān)鍵詞,有“不好”、“爛”、“差”。其中,“不好”、“爛”、“差”均出現(xiàn)了1次。
提取出評論中表示中性情感的關(guān)鍵詞,有“湊合”、“一般”。其中,“湊合”、“一般”各出現(xiàn)了2次。
上表1是表示正面情感的關(guān)鍵詞的與其權(quán)重的對應(yīng)關(guān)系,上表2是表示負(fù)面情感 的關(guān)鍵詞的與其權(quán)重的對應(yīng)關(guān)系,上表3是表示中性情感的關(guān)鍵詞的與其權(quán)重的對應(yīng)關(guān)系,由于篇幅關(guān)系,表1、表2和表3均只列出一部分關(guān)鍵詞與其權(quán)重的對應(yīng)關(guān)系。
將表示正面情感的8個(gè)關(guān)鍵詞“很好”、“特別好”、“特別滿意”、“好”、“實(shí)惠”、“劃算”、“給力”、“挺快”每個(gè)關(guān)鍵詞出現(xiàn)的次數(shù)與該關(guān)鍵詞的權(quán)重相乘,將求得的結(jié)果相加,就得到了表示正面情感的關(guān)鍵詞類的數(shù)值,為67。
將表示負(fù)面情感的3個(gè)關(guān)鍵詞“不好”、“爛”、“差”每個(gè)詞出現(xiàn)的次數(shù)與該關(guān)鍵詞的權(quán)重相乘,將求得的結(jié)果相加,就得到了表示負(fù)面情感的關(guān)鍵詞類的數(shù)值,為12。
將表示中性情感的2個(gè)關(guān)鍵詞“湊合”、“一般”每個(gè)詞出現(xiàn)的次數(shù)與該關(guān)鍵詞的權(quán)重相乘,將求得的結(jié)果相加,就得到了表示中性情感的關(guān)鍵詞類的數(shù)值,為8。
每個(gè)關(guān)鍵詞的權(quán)重為預(yù)先設(shè)置,權(quán)重代表各個(gè)關(guān)鍵詞所傳達(dá)情感信息的強(qiáng)弱的相對值,故權(quán)重的取值可以為自然數(shù),也可以為(0,1)之間的小數(shù),等等,只需要所有關(guān)鍵詞使用同一度量方法即可。
可選地,確定單元40主要包括設(shè)置子單元、比較子單元和確定子單元,其中,設(shè)置子單元用于為Li組用戶設(shè)置第i閾值;比較子單元用于將Li組用戶的信息中Zi1類關(guān)鍵詞占Li組用戶的信息中全部關(guān)鍵詞的比重與第i閾值進(jìn)行比較;確定子單元用于在Li組用戶的信息中Zi1類關(guān)鍵詞占Li組用戶的信息中全部關(guān)鍵詞的比重大于或等于第i閾值的情況下,確定Li組用戶的情感傾向?yàn)榉e極,其中,i依次取1至m。
即,為每一個(gè)用戶組設(shè)置一個(gè)閾值,計(jì)算每一組用戶的第1類關(guān)鍵詞的數(shù)值與該組所有關(guān)鍵詞的比值,將每一組的比值與該組的閾值相比,如果比值大于或等于閾值,則確定該組用戶的情感傾向?yàn)榉e極的。
例如,第一組用戶的評論中,表示正面情感的關(guān)鍵詞類的數(shù)值為67,表示負(fù)面情感的關(guān)鍵詞類的數(shù)值為12,表示中性情感的關(guān)鍵詞類的數(shù)值為8。表示情感的全部關(guān)鍵詞的數(shù)值為87(即,67+12+8=87)。為第一組用戶設(shè)置第1閾值為0.6,即當(dāng)表示正面情感的關(guān)鍵詞類的數(shù)值與表示情感的全部關(guān)鍵詞的數(shù)值之比只要大于或等于0.6,即認(rèn)為該產(chǎn)品或服務(wù)在第一組用戶中得到了積極的評價(jià)。經(jīng)過計(jì)算,得到表示正面情感的關(guān)鍵詞類的數(shù)值與表示情感的全部關(guān)鍵詞的數(shù)值之比為0.77,大于第1閾值0.6,因此,可以認(rèn)為該產(chǎn)品或服務(wù)在第一組用戶中得到了積極的評價(jià)。
所述信息分析裝置包括處理器和存儲器,上述獲取單元10、分組單元20、計(jì)算單元30和確定單元40等均作為程序單元存儲在存儲器中,由處理器執(zhí)行存儲在存儲器中的上述程序單元來實(shí)現(xiàn)相應(yīng)的功能。
處理器中包含內(nèi)核,由內(nèi)核去存儲器中調(diào)取相應(yīng)的程序單元。內(nèi)核可以設(shè)置一個(gè)或以上,通過調(diào)整內(nèi)核參數(shù)來分析不同類別的用戶的反饋信息。
存儲器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲器,隨機(jī)存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flash RAM),存儲器包括至少一個(gè)存儲芯片。
本申請還提供了一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行時(shí),適于執(zhí)行初始化有如下方法步驟的程序代碼:獲取多個(gè)用戶的信息。將多個(gè)用戶進(jìn)行分組,得到m組用戶,其中,m為大于1的自然數(shù)。計(jì)算Li組用戶的信息中每類關(guān)鍵詞占Li組用戶的信息中全部關(guān)鍵詞的比重,其中,i依次取1至m,Li組用戶的信息中不同類關(guān)鍵詞為表示Li組用戶不同情緒的關(guān)鍵詞。根據(jù)Li組用戶的信息中每類關(guān)鍵詞占Li組用戶的信息中全部關(guān)鍵詞的比重,確定Li組用戶的情感傾向。
上述本申請實(shí)施例序號僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
在本申請的上述實(shí)施例中,對各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒有詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。
在本申請所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的技術(shù)內(nèi)容,可通過其它的方式實(shí)現(xiàn)。其中,以上所描述的裝置實(shí)施例僅僅是示意性的,例如所述單元的劃分,可以為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。
另外,在本申請各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。
所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲在一個(gè)計(jì)算機(jī)可讀取存儲介質(zhì)中。基于這樣的理解,本申請的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲在一個(gè)存儲介質(zhì)中,包括若干指令用以使得一 臺計(jì)算機(jī)設(shè)備(可為個(gè)人計(jì)算機(jī)、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、只讀存儲器(ROM,Read-Only Memory)、隨機(jī)存取存儲器(RAM,Random Access Memory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
以上所述僅是本申請的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本申請?jiān)淼那疤嵯拢€可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本申請的保護(hù)范圍。