興趣識(shí)別方法及系統(tǒng)與流程

文檔序號(hào)：12364347閱讀：419來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及一種興趣識(shí)別方法及系統(tǒng)。

背景技術(shù)：

隨著互聯(lián)網(wǎng)的迅猛發(fā)展及普及，互聯(lián)網(wǎng)用戶的使用習(xí)慣已從最初的自己尋找內(nèi)容轉(zhuǎn)變?yōu)橐蕾嚪?wù)方給予的內(nèi)容推送，因此精確地了解每個(gè)用戶興趣點(diǎn)，能有效幫助服務(wù)方提供個(gè)性化的服務(wù)，提高用戶的使用體驗(yàn)。

現(xiàn)有的用戶興趣識(shí)別主要有以下幾種方式：

1. 通過用戶及其他用戶的描述；

2. 通過用戶的瀏覽交互行為，人為定義；

3. 通過對(duì)用戶訪問內(nèi)容預(yù)設(shè)標(biāo)簽，統(tǒng)計(jì)得出。

上述幾種方式存在以下的缺陷：

1. 興趣標(biāo)簽的不規(guī)范，當(dāng)將設(shè)定興趣的權(quán)利給予用戶時(shí)，用戶對(duì)于同一件事物的描述往往不盡相同，導(dǎo)致大量相同的標(biāo)簽被異化，加大識(shí)別難度并影響精度；

2. 同語義或相近語義標(biāo)簽無法歸并，降低了興趣識(shí)別的精準(zhǔn)度；

3. 網(wǎng)絡(luò)爬蟲、水軍等非正常訪問用戶會(huì)對(duì)識(shí)別造成干擾；

4. 用戶的興趣是變化的，系統(tǒng)對(duì)于陳舊數(shù)據(jù)無法做到合理濾除，導(dǎo)致識(shí)別精度下降；

5. 隨著各年齡段的用戶涌入，同樣的內(nèi)容對(duì)于不同年齡段的用戶的意義是不同的，系統(tǒng)無法結(jié)合人口基本屬性進(jìn)行識(shí)別。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的在于提供一種興趣識(shí)別方法及系統(tǒng)，能夠幫助提升對(duì)于內(nèi)容的搜索及推薦的精準(zhǔn)度。

為解決上述問題，本發(fā)明提供一種興趣識(shí)別方法，包括：

收集文本內(nèi)容和結(jié)構(gòu)化數(shù)據(jù)，對(duì)所述文本內(nèi)容進(jìn)行處理，得到非結(jié)構(gòu)化的帶順序的詞組集合；

對(duì)所述非結(jié)構(gòu)化的帶順序的詞組集合和/或結(jié)構(gòu)化數(shù)據(jù)進(jìn)行語義實(shí)體的抽取、文本實(shí)體的抽取、語義實(shí)體間關(guān)系的抽取、及文本實(shí)體與語義實(shí)體間關(guān)系的抽??；

對(duì)抽取到的語義實(shí)體、語義實(shí)體間關(guān)系、及文本實(shí)體與語義實(shí)體間關(guān)系進(jìn)行語義實(shí)體的歸并；

將歸并后的抽取到的語義實(shí)體、語義實(shí)體間關(guān)系、及文本實(shí)體與語義實(shí)體間關(guān)系形成知識(shí)圖譜；

根據(jù)所述知識(shí)圖譜，將每個(gè)用戶的一定時(shí)間范圍內(nèi)的訪問行為數(shù)據(jù)和互動(dòng)行為數(shù)據(jù)中的文本實(shí)體關(guān)聯(lián)到對(duì)應(yīng)的語義實(shí)體，通過統(tǒng)計(jì)學(xué)判斷每個(gè)用戶訪問時(shí)是否有側(cè)重的語義實(shí)體；

若有，將所述側(cè)重的語義實(shí)體作為該用戶的興趣標(biāo)簽。

進(jìn)一步的，在上述方法中，將所述側(cè)重的語義實(shí)體作為該用戶的興趣標(biāo)簽，包括：

獲取用戶的基本標(biāo)簽，將所述基本標(biāo)簽歸入到對(duì)應(yīng)預(yù)設(shè)類別的分組標(biāo)簽；

將所述側(cè)重的語義實(shí)體和分組標(biāo)簽進(jìn)行組合作為該用戶的興趣標(biāo)簽。

進(jìn)一步的，在上述方法中，所述一定時(shí)間范圍內(nèi)為最近一定時(shí)間范圍內(nèi)。

進(jìn)一步的，在上述方法中，通過統(tǒng)計(jì)學(xué)判斷每個(gè)用戶訪問時(shí)是否有側(cè)重的語義實(shí)體之后，還包括：

若無，判斷用戶是否訪問量過高，若是，判斷該用戶可能是爬蟲。

進(jìn)一步的，在上述方法中，通過統(tǒng)計(jì)學(xué)判斷每個(gè)用戶訪問時(shí)是否有側(cè)重的語義實(shí)體之后，還包括：

判斷用戶訪問的語義實(shí)體是否相悖，且互動(dòng)量較高，若是，則判斷該用戶是水軍。

進(jìn)一步的，在上述方法中，將所述側(cè)重的語義實(shí)體作為該用戶的興趣標(biāo)簽之后，還包括根據(jù)用戶的興趣標(biāo)簽向用戶推薦內(nèi)容。

進(jìn)一步的，在上述方法中，對(duì)所述文本內(nèi)容進(jìn)行處理，包括：

對(duì)所述文本內(nèi)容依次進(jìn)行分詞、歧義詞處理、詞性識(shí)別、去除停用詞、消除臟數(shù)據(jù)的處理。

進(jìn)一步的，在上述方法中，對(duì)所述文本內(nèi)容進(jìn)行分詞包括：

對(duì)所述文本內(nèi)容依次進(jìn)行原子切分、根據(jù)分詞詞典和歧義詞詞典并采用預(yù)設(shè)的多種算法進(jìn)行分詞、未登錄詞識(shí)別、嵌套未登錄詞識(shí)別、基于類的隱馬分詞。

進(jìn)一步的，在上述方法中，所述預(yù)設(shè)的多種算法包括正向最大匹配法、逆向最大匹配法和統(tǒng)計(jì)分詞。

進(jìn)一步的，在上述方法中，所述基于類的隱馬分詞之后還包括進(jìn)行詞性標(biāo)注。

進(jìn)一步的，在上述方法中，未登錄詞識(shí)別之后，還包括將識(shí)別到的未登錄詞更新補(bǔ)充入所述分詞詞典和歧義詞詞典。

進(jìn)一步的，在上述方法中，嵌套未登錄詞識(shí)別之后，還包括將識(shí)別到的嵌套未登錄詞更新補(bǔ)充入所述分詞詞典和歧義詞詞典。

根據(jù)本發(fā)明的另一面，提供一種興趣識(shí)別系統(tǒng)，包括：

收集處理模塊，用于收集文本內(nèi)容和結(jié)構(gòu)化數(shù)據(jù)，對(duì)所述文本內(nèi)容進(jìn)行處理，得到非結(jié)構(gòu)化的帶順序的詞組集合；

抽取模塊，用于對(duì)所述非結(jié)構(gòu)化的帶順序的詞組集合和/或結(jié)構(gòu)化數(shù)據(jù)進(jìn)行語義實(shí)體的抽取、文本實(shí)體的抽取、語義實(shí)體間關(guān)系的抽取、及文本實(shí)體與語義實(shí)體間關(guān)系的抽??；

歸并模塊，用于對(duì)抽取到的語義實(shí)體、語義實(shí)體間關(guān)系、及文本實(shí)體與語義實(shí)體間關(guān)系進(jìn)行語義實(shí)體的歸并；

知識(shí)圖譜形成模塊，用于將歸并后的抽取到的語義實(shí)體、語義實(shí)體間關(guān)系、及文本實(shí)體與語義實(shí)體間關(guān)系形成知識(shí)圖譜；

第一判斷模塊，用于根據(jù)所述知識(shí)圖譜，將每個(gè)用戶的一定時(shí)間范圍內(nèi)的訪問行為數(shù)據(jù)和互動(dòng)行為數(shù)據(jù)中的文本實(shí)體關(guān)聯(lián)到對(duì)應(yīng)的語義實(shí)體，通過統(tǒng)計(jì)學(xué)判斷每個(gè)用戶訪問時(shí)是否有側(cè)重的語義實(shí)體；

興趣標(biāo)簽?zāi)K，用于若有所述側(cè)重的語義實(shí)體，將所述側(cè)重的語義實(shí)體作為該用戶的興趣標(biāo)簽。

進(jìn)一步的，在上述系統(tǒng)中，所述興趣標(biāo)簽?zāi)K，用于獲取用戶的基本標(biāo)簽，將所述基本標(biāo)簽歸入到對(duì)應(yīng)預(yù)設(shè)類別的分組標(biāo)簽；將所述側(cè)重的語義實(shí)體和分組標(biāo)簽進(jìn)行組合作為該用戶的興趣標(biāo)簽。

進(jìn)一步的，在上述系統(tǒng)中，所述一定時(shí)間范圍內(nèi)為最近一定時(shí)間范圍內(nèi)。

進(jìn)一步的，在上述系統(tǒng)中，還包括：

第二判斷模塊，用于若無側(cè)重的語義實(shí)體，判斷用戶是否訪問量過高，若是，判斷該用戶可能是爬蟲。

進(jìn)一步的，在上述系統(tǒng)中，還包括：

第三判斷模塊，用于若無側(cè)重的語義實(shí)體，判斷用戶訪問的語義實(shí)體是否相悖，且互動(dòng)量較高，若是，則判斷該用戶是水軍。

進(jìn)一步的，在上述系統(tǒng)中，還包括推薦模塊，用于根據(jù)用戶的興趣標(biāo)簽向用戶推薦內(nèi)容。

進(jìn)一步的，在上述系統(tǒng)中，所述收集處理模塊，用于對(duì)所述文本內(nèi)容依次進(jìn)行分詞、歧義詞處理、詞性識(shí)別、去除停用詞、消除臟數(shù)據(jù)的處理。

進(jìn)一步的，在上述系統(tǒng)中，所述收集處理模塊，用于對(duì)所述文本內(nèi)容依次進(jìn)行原子切分、根據(jù)分詞詞典和歧義詞詞典并采用預(yù)設(shè)的多種算法進(jìn)行分詞、未登錄詞識(shí)別、嵌套未登錄詞識(shí)別、基于類的隱馬分詞。

進(jìn)一步的，在上述系統(tǒng)中，所述預(yù)設(shè)的多種算法包括正向最大匹配法、逆向最大匹配法和統(tǒng)計(jì)分詞。

進(jìn)一步的，在上述系統(tǒng)中，所述收集處理模塊，用于在所述基于類的隱馬分詞之后進(jìn)行詞性標(biāo)注。

進(jìn)一步的，在上述系統(tǒng)中，所述收集處理模塊，用于在未登錄詞識(shí)別之后，將識(shí)別到的未登錄詞更新補(bǔ)充入所述分詞詞典和歧義詞詞典。

進(jìn)一步的，在上述系統(tǒng)中，所述收集處理模塊，用于在嵌套未登錄詞識(shí)別之后，將識(shí)別到的嵌套未登錄詞更新補(bǔ)充入所述分詞詞典和歧義詞詞典。

與現(xiàn)有技術(shù)相比，本發(fā)明使用用戶瀏覽的文本內(nèi)容構(gòu)建知識(shí)圖譜，并從中抽取用戶興趣點(diǎn)，能夠幫助提升對(duì)于內(nèi)容的搜索及推薦的精準(zhǔn)度。

附圖說明

圖1是本發(fā)明一實(shí)施例的興趣識(shí)別方法的原理示意圖；

圖2是本發(fā)明一實(shí)施例的知識(shí)圖譜構(gòu)建的原理圖；

圖3是本發(fā)明一實(shí)施例的對(duì)文本內(nèi)容進(jìn)行分詞的原理圖。

具體實(shí)施方式

為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂，下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。

實(shí)施例一

如圖1和2所示，本發(fā)明提供一種興趣識(shí)別方法，包括：

步驟S1，收集文本內(nèi)容和結(jié)構(gòu)化數(shù)據(jù)，對(duì)所述文本內(nèi)容進(jìn)行處理，得到非結(jié)構(gòu)化的帶順序的詞組集合；具體的，所述文本內(nèi)容為用戶瀏覽的文本內(nèi)容；

步驟S2，對(duì)所述非結(jié)構(gòu)化的帶順序的詞組集合和/或結(jié)構(gòu)化數(shù)據(jù)進(jìn)行語義實(shí)體的抽取、文本實(shí)體的抽取、語義實(shí)體間關(guān)系的抽取、及文本實(shí)體與語義實(shí)體間關(guān)系的抽??；具體的，名詞、人名、機(jī)構(gòu)名是天然的語義實(shí)體，每一篇新聞、每一個(gè)帖子則是一個(gè)文本實(shí)體，如果對(duì)非結(jié)構(gòu)化的帶順序的詞組集合進(jìn)行語義實(shí)體間的關(guān)系抽取，比如：在大量的文本中，科比/nr 和瓦妮莎/nr 這兩個(gè)人名同時(shí)出現(xiàn)，并且另外兩個(gè)詞丈夫/n和妻子/n共現(xiàn)的概率也較高，因此可以判斷“科比”這個(gè)實(shí)體和“瓦妮莎”這個(gè)實(shí)體的關(guān)系是夫妻關(guān)系；如果對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行語義實(shí)體間的關(guān)系抽取，比如：已知湖人/nt 這個(gè)實(shí)體在NBA球隊(duì)表中，因此這個(gè)詞的其中一個(gè)屬性為“NBA球隊(duì)”，科比/nr 這個(gè)詞在NBA球員表中，因此這個(gè)詞其中一個(gè)屬性為“NBA球員”。而在業(yè)務(wù)數(shù)據(jù)庫中兩個(gè)詞在關(guān)系型數(shù)據(jù)庫中是關(guān)聯(lián)的（“科比”這條記錄的球隊(duì)ID對(duì)應(yīng)是“湖人”），因此可以知道科比/nr 和湖人/nt 之前的關(guān)系是“效力于”，即：“科比”->“效力于”->“湖人”；詳細(xì)的，文本實(shí)體與語義實(shí)體間的關(guān)系抽取，具體如下：

先將每個(gè)文本實(shí)體與它內(nèi)容中的每個(gè)語義實(shí)體建立關(guān)系，再根據(jù)每個(gè)語義實(shí)體與文本實(shí)體間的關(guān)系數(shù)，確定每個(gè)語義實(shí)體的重要程度；

根據(jù)上一步得到的每個(gè)語義實(shí)體的重要程度，對(duì)每個(gè)文本實(shí)體內(nèi)所包含的文本實(shí)體排序，每個(gè)文本實(shí)體保留3-5個(gè)與最重要的語義實(shí)體間的關(guān)系，將其他關(guān)系剔除；

步驟S3，對(duì)抽取到的語義實(shí)體、語義實(shí)體間關(guān)系、及文本實(shí)體與語義實(shí)體間關(guān)系進(jìn)行語義實(shí)體的歸并；具體的，在此計(jì)算每個(gè)文本實(shí)體與其他文本實(shí)體以及同屬性語義實(shí)體間關(guān)系的重合度，將重合度高的語義實(shí)體歸并，從而避免了現(xiàn)有技術(shù)中興趣標(biāo)簽的不規(guī)范，當(dāng)將設(shè)定興趣的權(quán)利給予用戶時(shí)，用戶對(duì)于同一件事物的描述往往不盡相同，導(dǎo)致大量相同的標(biāo)簽被異化，加大識(shí)別難度并影響精度的問題，同時(shí)，也解決了現(xiàn)有技術(shù)中同語義或相近語義標(biāo)簽無法歸并，降低了興趣識(shí)別的精準(zhǔn)度的問題；

步驟S4，如圖2所示，將歸并后的抽取到的語義實(shí)體、語義實(shí)體間關(guān)系、及文本實(shí)體與語義實(shí)體間關(guān)系形成知識(shí)圖譜；具體的，在此形成一個(gè)基于語義實(shí)體、語義實(shí)體間關(guān)系、語義實(shí)體與文本實(shí)體間關(guān)系組成的一個(gè)知識(shí)圖譜；

步驟S5，根據(jù)所述知識(shí)圖譜，將每個(gè)用戶的一定時(shí)間范圍內(nèi)的訪問行為數(shù)據(jù)和互動(dòng)行為數(shù)據(jù)中的文本實(shí)體關(guān)聯(lián)到對(duì)應(yīng)的語義實(shí)體，通過統(tǒng)計(jì)學(xué)判斷每個(gè)用戶訪問時(shí)是否有側(cè)重的語義實(shí)體；具體的，網(wǎng)頁端可通過JS代碼、APP端可通過采集SDK，收集用戶的瀏覽行為數(shù)據(jù)，例如用戶A在時(shí)間x訪問了一個(gè)新聞，新聞ID為100，并且點(diǎn)了贊；通過業(yè)務(wù)數(shù)據(jù)庫中發(fā)帖、回復(fù)表，來收集訪問行為數(shù)據(jù)，例如用戶B在時(shí)間y發(fā)布了一個(gè)帖子，帖子ID是200；

步驟S6，若有，將所述側(cè)重的語義實(shí)體作為該用戶的興趣標(biāo)簽。

優(yōu)選的，將所述側(cè)重的語義實(shí)體作為該用戶的興趣標(biāo)簽，包括：

獲取用戶的基本標(biāo)簽，將所述基本標(biāo)簽歸入到對(duì)應(yīng)預(yù)設(shè)類別的分組標(biāo)簽；

將所述側(cè)重的語義實(shí)體和分組標(biāo)簽進(jìn)行組合作為該用戶的興趣標(biāo)簽。具體的，所述基本標(biāo)簽可以來自一用戶圖譜系統(tǒng)中現(xiàn)有的標(biāo)簽，在此，可對(duì)用戶根據(jù)用戶的基本標(biāo)簽進(jìn)行分組，比如按照年齡段或者性別進(jìn)行分組，以便于后續(xù)分析區(qū)別不同年齡段或者性別的用戶對(duì)于同一語義實(shí)體的不同理解。舉例來說“王朝”這個(gè)名詞的語義實(shí)體，對(duì)于年齡較大的球迷，他們訪問和互動(dòng)的新聞、帖子在包含“王朝”這個(gè)語義實(shí)體的同時(shí)，大部分還包含“公?！边@個(gè)語義實(shí)體；而對(duì)于年齡稍輕一些的球迷，他們訪問和互動(dòng)新聞、帖子在包含“王朝”這個(gè)語義實(shí)體的同時(shí)，大部分還包含“湖人”這個(gè)語義實(shí)體。說明對(duì)于兩個(gè)不同年齡段的用戶來說“王朝”分別代表了“公?！薄巴醭焙汀昂恕薄巴醭?。

優(yōu)選的，所述一定時(shí)間范圍內(nèi)為最近一定時(shí)間范圍內(nèi)，由于每次計(jì)算都是使用最近一定時(shí)間范圍內(nèi)的用戶訪問行為數(shù)據(jù)和互動(dòng)行為數(shù)據(jù)，因此能避免歷史數(shù)據(jù)造成的誤差。

優(yōu)選的，步驟S7，若無，判斷用戶是否訪問量過高，若是，判斷該用戶可能是爬蟲。

優(yōu)選的，步驟S8，若無，判斷用戶訪問的語義實(shí)體是否相悖，且互動(dòng)量較高，若是，則判斷該用戶是水軍。

優(yōu)選的，將所述側(cè)重的語義實(shí)體作為該用戶的興趣標(biāo)簽之后，還包括根據(jù)用戶的興趣標(biāo)簽向用戶推薦內(nèi)容。具體如：

1.內(nèi)容推薦：一篇新的新聞或者新的帖子，推送給興趣點(diǎn)為與其相關(guān)聯(lián)的語義實(shí)體一致的用戶。

2.商品推薦：如果一個(gè)用戶對(duì)于“籃球鞋”和“科比”這兩個(gè)語義實(shí)體感興趣，那么當(dāng)電商平臺(tái)上出現(xiàn)一件商品同樣與“籃球鞋”和“科比”這兩個(gè)語義實(shí)體存在關(guān)聯(lián)時(shí)，將這件商品推薦給這個(gè)用戶。

3.智能搜索：如果用戶搜索“科比的妻子”，則根據(jù)知識(shí)圖譜“科比”語義實(shí)體以及“妻子”這個(gè)關(guān)系實(shí)體，關(guān)聯(lián)到“瓦妮莎”這個(gè)語義實(shí)體，并將于這個(gè)語義實(shí)體相關(guān)的文本實(shí)體作為結(jié)果返回給用戶。

詳細(xì)的，例如將每個(gè)用戶的一定時(shí)間范圍內(nèi)的訪問行為數(shù)據(jù)和互動(dòng)行為數(shù)據(jù)中的文本實(shí)體（如文本實(shí)體ID）關(guān)聯(lián)到對(duì)應(yīng)的語義實(shí)體，通過統(tǒng)計(jì)學(xué)獲得每個(gè)用戶訪問時(shí)側(cè)重的語義實(shí)體，作為其興趣標(biāo)簽。若用戶無明顯訪問重點(diǎn)，且訪問量較高，則說明這個(gè)用戶可能是爬蟲，若用戶訪問重點(diǎn)通常相悖，且互動(dòng)量較高，則說明其可能是水軍。

優(yōu)選的，對(duì)所述文本內(nèi)容進(jìn)行處理，包括：

對(duì)所述文本內(nèi)容依次進(jìn)行分詞、歧義詞處理、詞性識(shí)別、去除停用詞、消除臟數(shù)據(jù)的處理。例如，輸入的文本內(nèi)容為“學(xué)校的學(xué)費(fèi)要一次性交一千元”，經(jīng)過本步驟后，輸出的處理結(jié)果為“學(xué)校/n, 學(xué)費(fèi)/n, 要/v, 一次性/d, 交/v, 一千元/m”。

詳細(xì)的，歧義詞處理如下：

對(duì)于一些特殊的句式比如“林書豪比薩克雷強(qiáng)”，正向匹配結(jié)果為：林書豪/比薩/克雷/強(qiáng)，逆向匹配結(jié)果為：林書豪/比/薩克雷/強(qiáng)。

實(shí)際上薩克雷是一個(gè)人名，但是由于正常情況下“比薩”這個(gè)詞比“薩克雷”這個(gè)詞出現(xiàn)的概率大，導(dǎo)致正向分詞結(jié)果從統(tǒng)計(jì)學(xué)上比逆向分詞更好，但實(shí)際這是一個(gè)錯(cuò)誤的分詞結(jié)果。

因此會(huì)通過歧義詞處理來糾正這個(gè)錯(cuò)誤，即存在一個(gè)歧義詞詞典，當(dāng)出現(xiàn)“比薩克雷”這樣的組合是系統(tǒng)強(qiáng)制分詞為“比/薩克雷”結(jié)果。

歧義詞由人工在日常對(duì)分詞結(jié)果的隨機(jī)抽檢中發(fā)現(xiàn)分詞錯(cuò)誤后添加進(jìn)詞典。

詳細(xì)的，詞性識(shí)別如下：

中文中同一個(gè)詞會(huì)有不同的詞性，比如“統(tǒng)計(jì)”即是一個(gè)名詞又是一個(gè)動(dòng)詞。

系統(tǒng)在識(shí)別詞性時(shí)，會(huì)根據(jù)多詞性詞的前后詞的詞性來判斷這個(gè)詞屬于什么詞性。

比如：我是一個(gè)學(xué)統(tǒng)計(jì)的學(xué)生。系統(tǒng)發(fā)現(xiàn)“統(tǒng)計(jì)”前面的詞“學(xué)”是一個(gè)動(dòng)詞，因此“統(tǒng)計(jì)”這個(gè)詞再這邊屬于名詞的概率更大。

又如：領(lǐng)導(dǎo)叫我統(tǒng)計(jì)總數(shù)。這邊的“統(tǒng)計(jì)”前面是一個(gè)主語，且是一個(gè)人稱代詞，后面是一個(gè)名詞，因此這邊的“統(tǒng)計(jì)”是一個(gè)動(dòng)詞的概率更大。

詳細(xì)的，去除停用詞如下：

根據(jù)停用詞典，將分詞結(jié)果中的無用的停用詞濾除，停用詞如：“的”、“了”、“地”等。

詳細(xì)的，消除臟數(shù)據(jù)如下：

臟數(shù)據(jù)主要是水軍發(fā)布的包含敏感詞的分詞結(jié)果、整個(gè)句子中存在較少詞，較多單字的分詞結(jié)果。

優(yōu)選的，如圖3所示，對(duì)所述文本內(nèi)容進(jìn)行分詞包括：

對(duì)所述文本內(nèi)容依次進(jìn)行原子切分、根據(jù)分詞詞典和歧義詞詞典并采用預(yù)設(shè)的多種算法進(jìn)行分詞、未登錄詞識(shí)別、嵌套未登錄詞識(shí)別、基于類的隱馬分詞。具體的，基于類的隱馬科夫分詞是對(duì)于多個(gè)分詞結(jié)果選擇最優(yōu)分詞結(jié)果的一個(gè)過程，通過對(duì)每個(gè)分詞結(jié)果，計(jì)算其整個(gè)結(jié)果出現(xiàn)的概率值，取其概率值最大的分詞結(jié)果作為輸出結(jié)果，該模型已被證明在語音識(shí)別、行為識(shí)別等領(lǐng)域非常適用。

較佳的，所述預(yù)設(shè)的多種算法包括正向最大匹配法、逆向最大匹配法和統(tǒng)計(jì)分詞。

詳細(xì)的，正向最大匹配法如下：

例句:中華民族從此站起來了

算法邏輯：

1.取出第一個(gè)字“中”，去詞典匹配發(fā)現(xiàn)這不是一個(gè)詞，但存在一些詞以“中”字開頭，因此需要繼續(xù)匹配；

2.取出前兩個(gè)字“中華”，去詞典匹配發(fā)現(xiàn)這是一個(gè)詞，但同樣存在詞以“中華”開頭，因此繼續(xù)匹配；

3.取出前三個(gè)字“中華民”，去詞典匹配發(fā)現(xiàn)這不是一個(gè)詞，但同樣存在詞以“中華民”開頭，因此繼續(xù)匹配；

4.取出前四個(gè)字“中華民族”，去詞典匹配發(fā)現(xiàn)是一個(gè)詞，并且沒有其他詞以“中華民族”開頭，因此將“中華民族”切分出來；

5.將整個(gè)句子中去除“中華民族”，繼續(xù)按照邏輯從第1點(diǎn)開始同樣的匹配，直至整個(gè)句子匹配完畢。

最后得到結(jié)果:中華民族/從此/站起來/了

詳細(xì)的，逆向最大匹配法如下：

例句：我們在野生動(dòng)物園玩

算法邏輯：

1.整個(gè)句子去詞典匹配，發(fā)現(xiàn)不是一個(gè)詞；

2.去掉第一個(gè)字，即用“們在野生動(dòng)物園玩”去詞典匹配，發(fā)現(xiàn)不是一個(gè)詞；

3.再去掉第一個(gè)字，用“在野生動(dòng)物園玩”去詞典匹配，發(fā)現(xiàn)不是一個(gè)詞；

最后得到第一個(gè)分詞結(jié)果“玩”；

整個(gè)句子去掉“玩”字，繼續(xù)按照邏輯從第1點(diǎn)開始匹配，直至整個(gè)句子匹配完畢。

最后得到結(jié)果:我們/在/野生動(dòng)物園/玩

由于字典在匹配時(shí)會(huì)動(dòng)態(tài)的計(jì)數(shù)，沒當(dāng)1個(gè)詞出現(xiàn)1次，就會(huì)在其權(quán)重上加1，當(dāng)文本正向和逆向匹配完成后，計(jì)算哪種分詞結(jié)果出現(xiàn)的概率更大。

兩種分詞結(jié)果中，每個(gè)詞出現(xiàn)的概率相乘，計(jì)算得到的概率更大的分詞結(jié)果作為實(shí)際的輸出結(jié)果。

詳細(xì)的，統(tǒng)計(jì)分詞如下：

將整個(gè)文本以每個(gè)字為單位切分，計(jì)算所有文本中每個(gè)字出現(xiàn)的次數(shù)n，以及整個(gè)文本的總字?jǐn)?shù)N。

每個(gè)字出現(xiàn)的概率為p=n/N。

將整個(gè)文本以2個(gè)字為單位切分，計(jì)算這兩個(gè)字連續(xù)情況下在整個(gè)文本中出現(xiàn)的次數(shù)n1,以及整個(gè)文本中2個(gè)字的總次數(shù)N1，

這兩個(gè)字在整個(gè)文本中出現(xiàn)的概率為p1=n1/N1。

比如一個(gè)詞：“統(tǒng)計(jì)”，如果“統(tǒng)”字出現(xiàn)的概率為1%，“計(jì)”字出現(xiàn)的概率為2%，則如果“統(tǒng)計(jì)”這兩個(gè)字連續(xù)出現(xiàn)的概率為1%*2%。

若實(shí)際在文本中計(jì)算得到“統(tǒng)計(jì)”這個(gè)詞組實(shí)際出現(xiàn)的概率遠(yuǎn)大于1%*2%（一般為50到100倍），則說明實(shí)際上“統(tǒng)計(jì)”這是一個(gè)詞，而非是兩個(gè)無關(guān)的字。

統(tǒng)計(jì)分詞主要用來發(fā)現(xiàn)新詞，即字典中沒有的詞，但是通過統(tǒng)計(jì)后發(fā)現(xiàn)其應(yīng)該是一個(gè)詞，之后在后臺(tái)上列出，由人工審核后決定是否添加入詞典。

較佳的，所述基于類的隱馬分詞之后還包括進(jìn)行詞性標(biāo)注。具體的，詞性標(biāo)注主要用以在構(gòu)建知識(shí)圖譜時(shí)能很快找出名詞、人名等語義實(shí)體。

較佳的，未登錄詞識(shí)別之后，還包括將識(shí)別到的未登錄詞更新補(bǔ)充入所述分詞詞典和歧義詞詞典。相應(yīng)的，嵌套未登錄詞識(shí)別之后，還包括將識(shí)別到的嵌套未登錄詞更新補(bǔ)充入所述分詞詞典和歧義詞詞典。具體的，將未登陸詞及嵌套未登錄詞更新入分詞詞典以及歧義詞詞典，是為了下一次分詞時(shí)能直接識(shí)別出這些詞，而不是再一次去識(shí)別未登錄詞，以提高分詞效率。

實(shí)施例二

本發(fā)明還提供另一種興趣識(shí)別系統(tǒng)，包括：

興趣標(biāo)簽?zāi)K，用于若有所述側(cè)重的語義實(shí)體，將所述側(cè)重的語義實(shí)體作為該用戶的興趣標(biāo)簽。

優(yōu)選的，所述興趣標(biāo)簽?zāi)K，用于獲取用戶的基本標(biāo)簽，將所述基本標(biāo)簽歸入到對(duì)應(yīng)預(yù)設(shè)類別的分組標(biāo)簽；將所述側(cè)重的語義實(shí)體和分組標(biāo)簽進(jìn)行組合作為該用戶的興趣標(biāo)簽。

優(yōu)選的，所述一定時(shí)間范圍內(nèi)為最近一定時(shí)間范圍內(nèi)。

優(yōu)選的，所述系統(tǒng)還包括：

第二判斷模塊，用于若無側(cè)重的語義實(shí)體，判斷用戶是否訪問量過高，若是，判斷該用戶可能是爬蟲。

優(yōu)選的，所述系統(tǒng)，還包括：

第三判斷模塊，用于若無側(cè)重的語義實(shí)體，判斷用戶訪問的語義實(shí)體是否相悖，且互動(dòng)量較高，若是，則判斷該用戶是水軍。

優(yōu)選的，所述系統(tǒng)還包括推薦模塊，用于根據(jù)用戶的興趣標(biāo)簽向用戶推薦內(nèi)容。

優(yōu)選的，所述收集處理模塊，用于對(duì)所述文本內(nèi)容依次進(jìn)行分詞、歧義詞處理、詞性識(shí)別、去除停用詞、消除臟數(shù)據(jù)的處理。

優(yōu)選的，所述收集處理模塊，用于對(duì)所述文本內(nèi)容依次進(jìn)行原子切分、根據(jù)分詞詞典和歧義詞詞典并采用預(yù)設(shè)的多種算法進(jìn)行分詞、未登錄詞識(shí)別、嵌套未登錄詞識(shí)別、基于類的隱馬分詞。

優(yōu)選的，所述預(yù)設(shè)的多種算法包括正向最大匹配法、逆向最大匹配法和統(tǒng)計(jì)分詞。

優(yōu)選的，所述收集處理模塊，用于在所述基于類的隱馬分詞之后進(jìn)行詞性標(biāo)注。

優(yōu)選的，所述收集處理模塊，用于在未登錄詞識(shí)別之后，將識(shí)別到的未登錄詞更新補(bǔ)充入所述分詞詞典和歧義詞詞典。

優(yōu)選的，所述收集處理模塊，用于在嵌套未登錄詞識(shí)別之后，將識(shí)別到的嵌套未登錄詞更新補(bǔ)充入所述分詞詞典和歧義詞詞典。

實(shí)施例二的其它詳細(xì)內(nèi)容，具體可參見實(shí)施例一的對(duì)應(yīng)部分，在此不再贅述。

綜上所述，本發(fā)明使用用戶瀏覽的文本內(nèi)容構(gòu)建知識(shí)圖譜，并從中抽取用戶興趣點(diǎn)，能夠幫助提升對(duì)于內(nèi)容的搜索及推薦的精準(zhǔn)度。

本說明書中各個(gè)實(shí)施例采用遞進(jìn)的方式描述，每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處，各個(gè)實(shí)施例之間相同相似部分互相參見即可。

專業(yè)人員還可以進(jìn)一步意識(shí)到，結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及算法步驟，能夠以電子硬件、計(jì)算機(jī)軟件或者二者的結(jié)合來實(shí)現(xiàn)，為了清楚地說明硬件和軟件的可互換性，在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行，取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能，但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。

顯然，本領(lǐng)域的技術(shù)人員可以對(duì)發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣，倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi)，則本發(fā)明也意圖包括這些改動(dòng)和變型在內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：萬頃;
技術(shù)所有人：上海動(dòng)云信息科技有限公司;
我是此專利的發(fā)明人

上一篇：一種交流牽引電機(jī)轉(zhuǎn)子翻轉(zhuǎn)裝置的制作方法
上一篇：應(yīng)用功能的推薦方法及裝置與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

職業(yè)興趣測評(píng)系統(tǒng)相關(guān)技術(shù)

職業(yè)興趣測評(píng)系統(tǒng)免費(fèi)相關(guān)技術(shù)

興趣部落申訴系統(tǒng)相關(guān)技術(shù)

提高英語興趣的方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

興趣識(shí)別方法及系統(tǒng)與流程