国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      興趣識(shí)別方法及系統(tǒng)與流程

      文檔序號(hào):12364347閱讀:419來源:國知局
      興趣識(shí)別方法及系統(tǒng)與流程

      本發(fā)明涉及一種興趣識(shí)別方法及系統(tǒng)。



      背景技術(shù):

      隨著互聯(lián)網(wǎng)的迅猛發(fā)展及普及,互聯(lián)網(wǎng)用戶的使用習(xí)慣已從最初的自己尋找內(nèi)容轉(zhuǎn)變?yōu)橐蕾嚪?wù)方給予的內(nèi)容推送,因此精確地了解每個(gè)用戶興趣點(diǎn),能有效幫助服務(wù)方提供個(gè)性化的服務(wù),提高用戶的使用體驗(yàn)。

      現(xiàn)有的用戶興趣識(shí)別主要有以下幾種方式:

      1. 通過用戶及其他用戶的描述;

      2. 通過用戶的瀏覽交互行為,人為定義;

      3. 通過對(duì)用戶訪問內(nèi)容預(yù)設(shè)標(biāo)簽,統(tǒng)計(jì)得出。

      上述幾種方式存在以下的缺陷:

      1. 興趣標(biāo)簽的不規(guī)范,當(dāng)將設(shè)定興趣的權(quán)利給予用戶時(shí),用戶對(duì)于同一件事物的描述往往不盡相同,導(dǎo)致大量相同的標(biāo)簽被異化,加大識(shí)別難度并影響精度;

      2. 同語義或相近語義標(biāo)簽無法歸并,降低了興趣識(shí)別的精準(zhǔn)度;

      3. 網(wǎng)絡(luò)爬蟲、水軍等非正常訪問用戶會(huì)對(duì)識(shí)別造成干擾;

      4. 用戶的興趣是變化的,系統(tǒng)對(duì)于陳舊數(shù)據(jù)無法做到合理濾除,導(dǎo)致識(shí)別精度下降;

      5. 隨著各年齡段的用戶涌入,同樣的內(nèi)容對(duì)于不同年齡段的用戶的意義是不同的,系統(tǒng)無法結(jié)合人口基本屬性進(jìn)行識(shí)別。



      技術(shù)實(shí)現(xiàn)要素:

      本發(fā)明的目的在于提供一種興趣識(shí)別方法及系統(tǒng),能夠幫助提升對(duì)于內(nèi)容的搜索及推薦的精準(zhǔn)度。

      為解決上述問題,本發(fā)明提供一種興趣識(shí)別方法,包括:

      收集文本內(nèi)容和結(jié)構(gòu)化數(shù)據(jù),對(duì)所述文本內(nèi)容進(jìn)行處理,得到非結(jié)構(gòu)化的帶順序的詞組集合;

      對(duì)所述非結(jié)構(gòu)化的帶順序的詞組集合和/或結(jié)構(gòu)化數(shù)據(jù)進(jìn)行語義實(shí)體的抽取、文本實(shí)體的抽取、語義實(shí)體間關(guān)系的抽取、及文本實(shí)體與語義實(shí)體間關(guān)系的抽??;

      對(duì)抽取到的語義實(shí)體、語義實(shí)體間關(guān)系、及文本實(shí)體與語義實(shí)體間關(guān)系進(jìn)行語義實(shí)體的歸并;

      將歸并后的抽取到的語義實(shí)體、語義實(shí)體間關(guān)系、及文本實(shí)體與語義實(shí)體間關(guān)系形成知識(shí)圖譜;

      根據(jù)所述知識(shí)圖譜,將每個(gè)用戶的一定時(shí)間范圍內(nèi)的訪問行為數(shù)據(jù)和互動(dòng)行為數(shù)據(jù)中的文本實(shí)體關(guān)聯(lián)到對(duì)應(yīng)的語義實(shí)體,通過統(tǒng)計(jì)學(xué)判斷每個(gè)用戶訪問時(shí)是否有側(cè)重的語義實(shí)體;

      若有,將所述側(cè)重的語義實(shí)體作為該用戶的興趣標(biāo)簽。

      進(jìn)一步的,在上述方法中,將所述側(cè)重的語義實(shí)體作為該用戶的興趣標(biāo)簽,包括:

      獲取用戶的基本標(biāo)簽,將所述基本標(biāo)簽歸入到對(duì)應(yīng)預(yù)設(shè)類別的分組標(biāo)簽;

      將所述側(cè)重的語義實(shí)體和分組標(biāo)簽進(jìn)行組合作為該用戶的興趣標(biāo)簽。

      進(jìn)一步的,在上述方法中,所述一定時(shí)間范圍內(nèi)為最近一定時(shí)間范圍內(nèi)。

      進(jìn)一步的,在上述方法中,通過統(tǒng)計(jì)學(xué)判斷每個(gè)用戶訪問時(shí)是否有側(cè)重的語義實(shí)體之后,還包括:

      若無,判斷用戶是否訪問量過高,若是,判斷該用戶可能是爬蟲。

      進(jìn)一步的,在上述方法中,通過統(tǒng)計(jì)學(xué)判斷每個(gè)用戶訪問時(shí)是否有側(cè)重的語義實(shí)體之后,還包括:

      判斷用戶訪問的語義實(shí)體是否相悖,且互動(dòng)量較高,若是,則判斷該用戶是水軍。

      進(jìn)一步的,在上述方法中,將所述側(cè)重的語義實(shí)體作為該用戶的興趣標(biāo)簽之后,還包括根據(jù)用戶的興趣標(biāo)簽向用戶推薦內(nèi)容。

      進(jìn)一步的,在上述方法中,對(duì)所述文本內(nèi)容進(jìn)行處理,包括:

      對(duì)所述文本內(nèi)容依次進(jìn)行分詞、歧義詞處理、詞性識(shí)別、去除停用詞、消除臟數(shù)據(jù)的處理。

      進(jìn)一步的,在上述方法中,對(duì)所述文本內(nèi)容進(jìn)行分詞包括:

      對(duì)所述文本內(nèi)容依次進(jìn)行原子切分、根據(jù)分詞詞典和歧義詞詞典并采用預(yù)設(shè)的多種算法進(jìn)行分詞、未登錄詞識(shí)別、嵌套未登錄詞識(shí)別、基于類的隱馬分詞。

      進(jìn)一步的,在上述方法中,所述預(yù)設(shè)的多種算法包括正向最大匹配法、逆向最大匹配法和統(tǒng)計(jì)分詞。

      進(jìn)一步的,在上述方法中,所述基于類的隱馬分詞之后還包括進(jìn)行詞性標(biāo)注。

      進(jìn)一步的,在上述方法中,未登錄詞識(shí)別之后,還包括將識(shí)別到的未登錄詞更新補(bǔ)充入所述分詞詞典和歧義詞詞典。

      進(jìn)一步的,在上述方法中,嵌套未登錄詞識(shí)別之后,還包括將識(shí)別到的嵌套未登錄詞更新補(bǔ)充入所述分詞詞典和歧義詞詞典。

      根據(jù)本發(fā)明的另一面,提供一種興趣識(shí)別系統(tǒng),包括:

      收集處理模塊,用于收集文本內(nèi)容和結(jié)構(gòu)化數(shù)據(jù),對(duì)所述文本內(nèi)容進(jìn)行處理,得到非結(jié)構(gòu)化的帶順序的詞組集合;

      抽取模塊,用于對(duì)所述非結(jié)構(gòu)化的帶順序的詞組集合和/或結(jié)構(gòu)化數(shù)據(jù)進(jìn)行語義實(shí)體的抽取、文本實(shí)體的抽取、語義實(shí)體間關(guān)系的抽取、及文本實(shí)體與語義實(shí)體間關(guān)系的抽??;

      歸并模塊,用于對(duì)抽取到的語義實(shí)體、語義實(shí)體間關(guān)系、及文本實(shí)體與語義實(shí)體間關(guān)系進(jìn)行語義實(shí)體的歸并;

      知識(shí)圖譜形成模塊,用于將歸并后的抽取到的語義實(shí)體、語義實(shí)體間關(guān)系、及文本實(shí)體與語義實(shí)體間關(guān)系形成知識(shí)圖譜;

      第一判斷模塊,用于根據(jù)所述知識(shí)圖譜,將每個(gè)用戶的一定時(shí)間范圍內(nèi)的訪問行為數(shù)據(jù)和互動(dòng)行為數(shù)據(jù)中的文本實(shí)體關(guān)聯(lián)到對(duì)應(yīng)的語義實(shí)體,通過統(tǒng)計(jì)學(xué)判斷每個(gè)用戶訪問時(shí)是否有側(cè)重的語義實(shí)體;

      興趣標(biāo)簽?zāi)K,用于若有所述側(cè)重的語義實(shí)體,將所述側(cè)重的語義實(shí)體作為該用戶的興趣標(biāo)簽。

      進(jìn)一步的,在上述系統(tǒng)中,所述興趣標(biāo)簽?zāi)K,用于獲取用戶的基本標(biāo)簽,將所述基本標(biāo)簽歸入到對(duì)應(yīng)預(yù)設(shè)類別的分組標(biāo)簽;將所述側(cè)重的語義實(shí)體和分組標(biāo)簽進(jìn)行組合作為該用戶的興趣標(biāo)簽。

      進(jìn)一步的,在上述系統(tǒng)中,所述一定時(shí)間范圍內(nèi)為最近一定時(shí)間范圍內(nèi)。

      進(jìn)一步的,在上述系統(tǒng)中,還包括:

      第二判斷模塊,用于若無側(cè)重的語義實(shí)體,判斷用戶是否訪問量過高,若是,判斷該用戶可能是爬蟲。

      進(jìn)一步的,在上述系統(tǒng)中,還包括:

      第三判斷模塊,用于若無側(cè)重的語義實(shí)體,判斷用戶訪問的語義實(shí)體是否相悖,且互動(dòng)量較高,若是,則判斷該用戶是水軍。

      進(jìn)一步的,在上述系統(tǒng)中,還包括推薦模塊,用于根據(jù)用戶的興趣標(biāo)簽向用戶推薦內(nèi)容。

      進(jìn)一步的,在上述系統(tǒng)中,所述收集處理模塊,用于對(duì)所述文本內(nèi)容依次進(jìn)行分詞、歧義詞處理、詞性識(shí)別、去除停用詞、消除臟數(shù)據(jù)的處理。

      進(jìn)一步的,在上述系統(tǒng)中,所述收集處理模塊,用于對(duì)所述文本內(nèi)容依次進(jìn)行原子切分、根據(jù)分詞詞典和歧義詞詞典并采用預(yù)設(shè)的多種算法進(jìn)行分詞、未登錄詞識(shí)別、嵌套未登錄詞識(shí)別、基于類的隱馬分詞。

      進(jìn)一步的,在上述系統(tǒng)中,所述預(yù)設(shè)的多種算法包括正向最大匹配法、逆向最大匹配法和統(tǒng)計(jì)分詞。

      進(jìn)一步的,在上述系統(tǒng)中,所述收集處理模塊,用于在所述基于類的隱馬分詞之后進(jìn)行詞性標(biāo)注。

      進(jìn)一步的,在上述系統(tǒng)中,所述收集處理模塊,用于在未登錄詞識(shí)別之后,將識(shí)別到的未登錄詞更新補(bǔ)充入所述分詞詞典和歧義詞詞典。

      進(jìn)一步的,在上述系統(tǒng)中,所述收集處理模塊,用于在嵌套未登錄詞識(shí)別之后,將識(shí)別到的嵌套未登錄詞更新補(bǔ)充入所述分詞詞典和歧義詞詞典。

      與現(xiàn)有技術(shù)相比,本發(fā)明使用用戶瀏覽的文本內(nèi)容構(gòu)建知識(shí)圖譜,并從中抽取用戶興趣點(diǎn),能夠幫助提升對(duì)于內(nèi)容的搜索及推薦的精準(zhǔn)度。

      附圖說明

      圖1是本發(fā)明一實(shí)施例的興趣識(shí)別方法的原理示意圖;

      圖2是本發(fā)明一實(shí)施例的知識(shí)圖譜構(gòu)建的原理圖;

      圖3是本發(fā)明一實(shí)施例的對(duì)文本內(nèi)容進(jìn)行分詞的原理圖。

      具體實(shí)施方式

      為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。

      實(shí)施例一

      如圖1和2所示,本發(fā)明提供一種興趣識(shí)別方法,包括:

      步驟S1,收集文本內(nèi)容和結(jié)構(gòu)化數(shù)據(jù),對(duì)所述文本內(nèi)容進(jìn)行處理,得到非結(jié)構(gòu)化的帶順序的詞組集合;具體的,所述文本內(nèi)容為用戶瀏覽的文本內(nèi)容;

      步驟S2,對(duì)所述非結(jié)構(gòu)化的帶順序的詞組集合和/或結(jié)構(gòu)化數(shù)據(jù)進(jìn)行語義實(shí)體的抽取、文本實(shí)體的抽取、語義實(shí)體間關(guān)系的抽取、及文本實(shí)體與語義實(shí)體間關(guān)系的抽??;具體的,名詞、人名、機(jī)構(gòu)名是天然的語義實(shí)體,每一篇新聞、每一個(gè)帖子則是一個(gè)文本實(shí)體,如果對(duì)非結(jié)構(gòu)化的帶順序的詞組集合進(jìn)行語義實(shí)體間的關(guān)系抽取,比如:在大量的文本中,科比/nr 和 瓦妮莎/nr 這兩個(gè)人名同時(shí)出現(xiàn),并且另外兩個(gè)詞 丈夫/n和妻子/n共現(xiàn)的概率也較高,因此可以判斷“科比”這個(gè)實(shí)體和“瓦妮莎”這個(gè)實(shí)體的關(guān)系是夫妻關(guān)系;如果對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行語義實(shí)體間的關(guān)系抽取,比如:已知 湖人/nt 這個(gè)實(shí)體在NBA球隊(duì)表中,因此這個(gè)詞的其中一個(gè)屬性為“NBA球隊(duì)”,科比/nr 這個(gè)詞在NBA球員表中,因此這個(gè)詞其中一個(gè)屬性為“NBA球員”。而在業(yè)務(wù)數(shù)據(jù)庫中兩個(gè)詞在關(guān)系型數(shù)據(jù)庫中是關(guān)聯(lián)的(“科比”這條記錄的球隊(duì)ID對(duì)應(yīng)是“湖人”),因此可以知道 科比/nr 和 湖人/nt 之前的關(guān)系是“效力于”,即:“科比”->“效力于”->“湖人”;詳細(xì)的,文本實(shí)體與語義實(shí)體間的關(guān)系抽取,具體如下:

      先將每個(gè)文本實(shí)體與它內(nèi)容中的每個(gè)語義實(shí)體建立關(guān)系,再根據(jù)每個(gè)語義實(shí)體與文本實(shí)體間的關(guān)系數(shù),確定每個(gè)語義實(shí)體的重要程度;

      根據(jù)上一步得到的每個(gè)語義實(shí)體的重要程度,對(duì)每個(gè)文本實(shí)體內(nèi)所包含的文本實(shí)體排序,每個(gè)文本實(shí)體保留3-5個(gè)與最重要的語義實(shí)體間的關(guān)系,將其他關(guān)系剔除;

      步驟S3,對(duì)抽取到的語義實(shí)體、語義實(shí)體間關(guān)系、及文本實(shí)體與語義實(shí)體間關(guān)系進(jìn)行語義實(shí)體的歸并;具體的,在此計(jì)算每個(gè)文本實(shí)體與其他文本實(shí)體以及同屬性語義實(shí)體間關(guān)系的重合度,將重合度高的語義實(shí)體歸并,從而避免了現(xiàn)有技術(shù)中興趣標(biāo)簽的不規(guī)范,當(dāng)將設(shè)定興趣的權(quán)利給予用戶時(shí),用戶對(duì)于同一件事物的描述往往不盡相同,導(dǎo)致大量相同的標(biāo)簽被異化,加大識(shí)別難度并影響精度的問題,同時(shí),也解決了現(xiàn)有技術(shù)中同語義或相近語義標(biāo)簽無法歸并,降低了興趣識(shí)別的精準(zhǔn)度的問題;

      步驟S4,如圖2所示,將歸并后的抽取到的語義實(shí)體、語義實(shí)體間關(guān)系、及文本實(shí)體與語義實(shí)體間關(guān)系形成知識(shí)圖譜;具體的,在此形成一個(gè)基于語義實(shí)體、語義實(shí)體間關(guān)系、語義實(shí)體與文本實(shí)體間關(guān)系組成的一個(gè)知識(shí)圖譜;

      步驟S5,根據(jù)所述知識(shí)圖譜,將每個(gè)用戶的一定時(shí)間范圍內(nèi)的訪問行為數(shù)據(jù)和互動(dòng)行為數(shù)據(jù)中的文本實(shí)體關(guān)聯(lián)到對(duì)應(yīng)的語義實(shí)體,通過統(tǒng)計(jì)學(xué)判斷每個(gè)用戶訪問時(shí)是否有側(cè)重的語義實(shí)體;具體的,網(wǎng)頁端可通過JS代碼、APP端可通過采集SDK,收集用戶的瀏覽行為數(shù)據(jù),例如用戶A在時(shí)間x訪問了一個(gè)新聞,新聞ID為100,并且點(diǎn)了贊;通過業(yè)務(wù)數(shù)據(jù)庫中發(fā)帖、回復(fù)表,來收集訪問行為數(shù)據(jù),例如用戶B在時(shí)間y發(fā)布了一個(gè)帖子,帖子ID是200;

      步驟S6, 若有,將所述側(cè)重的語義實(shí)體作為該用戶的興趣標(biāo)簽。

      優(yōu)選的,將所述側(cè)重的語義實(shí)體作為該用戶的興趣標(biāo)簽,包括:

      獲取用戶的基本標(biāo)簽,將所述基本標(biāo)簽歸入到對(duì)應(yīng)預(yù)設(shè)類別的分組標(biāo)簽;

      將所述側(cè)重的語義實(shí)體和分組標(biāo)簽進(jìn)行組合作為該用戶的興趣標(biāo)簽。具體的,所述基本標(biāo)簽可以來自一用戶圖譜系統(tǒng)中現(xiàn)有的標(biāo)簽,在此,可對(duì)用戶根據(jù)用戶的基本標(biāo)簽進(jìn)行分組,比如按照年齡段或者性別進(jìn)行分組,以便于后續(xù)分析區(qū)別不同年齡段或者性別的用戶對(duì)于同一語義實(shí)體的不同理解。舉例來說“王朝”這個(gè)名詞的語義實(shí)體,對(duì)于年齡較大的球迷,他們訪問和互動(dòng)的新聞、帖子在包含“王朝”這個(gè)語義實(shí)體的同時(shí),大部分還包含“公?!边@個(gè)語義實(shí)體;而對(duì)于年齡稍輕一些的球迷,他們訪問和互動(dòng)新聞、帖子在包含“王朝”這個(gè)語義實(shí)體的同時(shí),大部分還包含“湖人”這個(gè)語義實(shí)體。說明對(duì)于兩個(gè)不同年齡段的用戶來說“王朝”分別代表了“公?!薄巴醭焙汀昂恕薄巴醭?。

      優(yōu)選的,所述一定時(shí)間范圍內(nèi)為最近一定時(shí)間范圍內(nèi),由于每次計(jì)算都是使用最近一定時(shí)間范圍內(nèi)的用戶訪問行為數(shù)據(jù)和互動(dòng)行為數(shù)據(jù),因此能避免歷史數(shù)據(jù)造成的誤差。

      優(yōu)選的,步驟S7,若無,判斷用戶是否訪問量過高,若是,判斷該用戶可能是爬蟲。

      優(yōu)選的,步驟S8,若無,判斷用戶訪問的語義實(shí)體是否相悖,且互動(dòng)量較高,若是,則判斷該用戶是水軍。

      優(yōu)選的,將所述側(cè)重的語義實(shí)體作為該用戶的興趣標(biāo)簽之后,還包括根據(jù)用戶的興趣標(biāo)簽向用戶推薦內(nèi)容。具體如:

      1.內(nèi)容推薦:一篇新的新聞或者新的帖子,推送給興趣點(diǎn)為與其相關(guān)聯(lián)的語義實(shí)體一致的用戶。

      2.商品推薦:如果一個(gè)用戶對(duì)于“籃球鞋”和“科比”這兩個(gè)語義實(shí)體感興趣,那么當(dāng)電商平臺(tái)上出現(xiàn)一件商品同樣與“籃球鞋”和“科比”這兩個(gè)語義實(shí)體存在關(guān)聯(lián)時(shí),將這件商品推薦給這個(gè)用戶。

      3.智能搜索:如果用戶搜索“科比的妻子”,則根據(jù)知識(shí)圖譜“科比”語義實(shí)體以及“妻子”這個(gè)關(guān)系實(shí)體,關(guān)聯(lián)到“瓦妮莎”這個(gè)語義實(shí)體,并將于這個(gè)語義實(shí)體相關(guān)的文本實(shí)體作為結(jié)果返回給用戶。

      詳細(xì)的,例如將每個(gè)用戶的一定時(shí)間范圍內(nèi)的訪問行為數(shù)據(jù)和互動(dòng)行為數(shù)據(jù)中的文本實(shí)體(如文本實(shí)體ID)關(guān)聯(lián)到對(duì)應(yīng)的語義實(shí)體,通過統(tǒng)計(jì)學(xué)獲得每個(gè)用戶訪問時(shí)側(cè)重的語義實(shí)體,作為其興趣標(biāo)簽。若用戶無明顯訪問重點(diǎn),且訪問量較高,則說明這個(gè)用戶可能是爬蟲,若用戶訪問重點(diǎn)通常相悖,且互動(dòng)量較高,則說明其可能是水軍。

      優(yōu)選的,對(duì)所述文本內(nèi)容進(jìn)行處理,包括:

      對(duì)所述文本內(nèi)容依次進(jìn)行分詞、歧義詞處理、詞性識(shí)別、去除停用詞、消除臟數(shù)據(jù)的處理。例如,輸入的文本內(nèi)容為“學(xué)校的學(xué)費(fèi)要一次性交一千元”,經(jīng)過本步驟后,輸出的處理結(jié)果為“學(xué)校/n, 學(xué)費(fèi)/n, 要/v, 一次性/d, 交/v, 一千元/m”。

      詳細(xì)的,歧義詞處理如下:

      對(duì)于一些特殊的句式比如“林書豪比薩克雷強(qiáng)”,正向匹配結(jié)果為:林書豪/比薩/克雷/強(qiáng),逆向匹配結(jié)果為:林書豪/比/薩克雷/強(qiáng)。

      實(shí)際上薩克雷是一個(gè)人名,但是由于正常情況下“比薩”這個(gè)詞比“薩克雷”這個(gè)詞出現(xiàn)的概率大,導(dǎo)致正向分詞結(jié)果從統(tǒng)計(jì)學(xué)上比逆向分詞更好,但實(shí)際這是一個(gè)錯(cuò)誤的分詞結(jié)果。

      因此會(huì)通過歧義詞處理來糾正這個(gè)錯(cuò)誤,即存在一個(gè)歧義詞詞典,當(dāng)出現(xiàn)“比薩克雷”這樣的組合是系統(tǒng)強(qiáng)制分詞為“比/薩克雷”結(jié)果。

      歧義詞由人工在日常對(duì)分詞結(jié)果的隨機(jī)抽檢中發(fā)現(xiàn)分詞錯(cuò)誤后添加進(jìn)詞典。

      詳細(xì)的,詞性識(shí)別如下:

      中文中同一個(gè)詞會(huì)有不同的詞性,比如“統(tǒng)計(jì)”即是一個(gè)名詞又是一個(gè)動(dòng)詞。

      系統(tǒng)在識(shí)別詞性時(shí),會(huì)根據(jù)多詞性詞的前后詞的詞性來判斷這個(gè)詞屬于什么詞性。

      比如:我是一個(gè)學(xué)統(tǒng)計(jì)的學(xué)生。系統(tǒng)發(fā)現(xiàn)“統(tǒng)計(jì)”前面的詞“學(xué)”是一個(gè)動(dòng)詞,因此“統(tǒng)計(jì)”這個(gè)詞再這邊屬于名詞的概率更大。

      又如:領(lǐng)導(dǎo)叫我統(tǒng)計(jì)總數(shù)。這邊的“統(tǒng)計(jì)”前面是一個(gè)主語,且是一個(gè)人稱代詞,后面是一個(gè)名詞,因此這邊的“統(tǒng)計(jì)”是一個(gè)動(dòng)詞的概率更大。

      詳細(xì)的,去除停用詞如下:

      根據(jù)停用詞典,將分詞結(jié)果中的無用的停用詞濾除,停用詞如:“的”、“了”、“地”等。

      詳細(xì)的,消除臟數(shù)據(jù)如下:

      臟數(shù)據(jù)主要是水軍發(fā)布的包含敏感詞的分詞結(jié)果、整個(gè)句子中存在較少詞,較多單字的分詞結(jié)果。

      優(yōu)選的,如圖3所示,對(duì)所述文本內(nèi)容進(jìn)行分詞包括:

      對(duì)所述文本內(nèi)容依次進(jìn)行原子切分、根據(jù)分詞詞典和歧義詞詞典并采用預(yù)設(shè)的多種算法進(jìn)行分詞、未登錄詞識(shí)別、嵌套未登錄詞識(shí)別、基于類的隱馬分詞。具體的,基于類的隱馬科夫分詞是對(duì)于多個(gè)分詞結(jié)果選擇最優(yōu)分詞結(jié)果的一個(gè)過程,通過對(duì)每個(gè)分詞結(jié)果,計(jì)算其整個(gè)結(jié)果出現(xiàn)的概率值,取其概率值最大的分詞結(jié)果作為輸出結(jié)果,該模型已被證明在語音識(shí)別、行為識(shí)別等領(lǐng)域非常適用。

      較佳的,所述預(yù)設(shè)的多種算法包括正向最大匹配法、逆向最大匹配法和統(tǒng)計(jì)分詞。

      詳細(xì)的,正向最大匹配法如下:

      例句:中華民族從此站起來了

      算法邏輯:

      1.取出第一個(gè)字“中”,去詞典匹配發(fā)現(xiàn)這不是一個(gè)詞,但存在一些詞以“中”字開頭,因此需要繼續(xù)匹配;

      2.取出前兩個(gè)字“中華”,去詞典匹配發(fā)現(xiàn)這是一個(gè)詞,但同樣存在詞以“中華”開頭,因此繼續(xù)匹配;

      3.取出前三個(gè)字“中華民”,去詞典匹配發(fā)現(xiàn)這不是一個(gè)詞,但同樣存在詞以“中華民”開頭,因此繼續(xù)匹配;

      4.取出前四個(gè)字“中華民族”,去詞典匹配發(fā)現(xiàn)是一個(gè)詞,并且沒有其他詞以“中華民族”開頭,因此將“中華民族”切分出來;

      5.將整個(gè)句子中去除“中華民族”,繼續(xù)按照邏輯從第1點(diǎn)開始同樣的匹配,直至整個(gè)句子匹配完畢。

      最后得到結(jié)果:中華民族/從此/站起來/了

      詳細(xì)的,逆向最大匹配法如下:

      例句:我們在野生動(dòng)物園玩

      算法邏輯:

      1.整個(gè)句子去詞典匹配,發(fā)現(xiàn)不是一個(gè)詞;

      2.去掉第一個(gè)字,即用“們在野生動(dòng)物園玩”去詞典匹配,發(fā)現(xiàn)不是一個(gè)詞;

      3.再去掉第一個(gè)字,用“在野生動(dòng)物園玩”去詞典匹配,發(fā)現(xiàn)不是一個(gè)詞;

      最后得到第一個(gè)分詞結(jié)果“玩”;

      整個(gè)句子去掉“玩”字,繼續(xù)按照邏輯從第1點(diǎn)開始匹配,直至整個(gè)句子匹配完畢。

      最后得到結(jié)果:我們/在/野生動(dòng)物園/玩

      由于字典在匹配時(shí)會(huì)動(dòng)態(tài)的計(jì)數(shù),沒當(dāng)1個(gè)詞出現(xiàn)1次,就會(huì)在其權(quán)重上加1,當(dāng)文本正向和逆向匹配完成后,計(jì)算哪種分詞結(jié)果出現(xiàn)的概率更大。

      兩種分詞結(jié)果中,每個(gè)詞出現(xiàn)的概率相乘,計(jì)算得到的概率更大的分詞結(jié)果作為實(shí)際的輸出結(jié)果。

      詳細(xì)的,統(tǒng)計(jì)分詞如下:

      將整個(gè)文本以每個(gè)字為單位切分,計(jì)算所有文本中每個(gè)字出現(xiàn)的次數(shù)n,以及整個(gè)文本的總字?jǐn)?shù)N。

      每個(gè)字出現(xiàn)的概率為p=n/N。

      將整個(gè)文本以2個(gè)字為單位切分,計(jì)算這兩個(gè)字連續(xù)情況下在整個(gè)文本中出現(xiàn)的次數(shù)n1,以及整個(gè)文本中2個(gè)字的總次數(shù)N1,

      這兩個(gè)字在整個(gè)文本中出現(xiàn)的概率為p1=n1/N1。

      比如一個(gè)詞:“統(tǒng)計(jì)”,如果“統(tǒng)”字出現(xiàn)的概率為1%,“計(jì)”字出現(xiàn)的概率為2%,則如果“統(tǒng)計(jì)”這兩個(gè)字連續(xù)出現(xiàn)的概率為1%*2%。

      若實(shí)際在文本中計(jì)算得到“統(tǒng)計(jì)”這個(gè)詞組實(shí)際出現(xiàn)的概率遠(yuǎn)大于1%*2%(一般為50到100倍),則說明實(shí)際上“統(tǒng)計(jì)”這是一個(gè)詞,而非是兩個(gè)無關(guān)的字。

      統(tǒng)計(jì)分詞主要用來發(fā)現(xiàn)新詞,即字典中沒有的詞,但是通過統(tǒng)計(jì)后發(fā)現(xiàn)其應(yīng)該是一個(gè)詞,之后在后臺(tái)上列出,由人工審核后決定是否添加入詞典。

      較佳的,所述基于類的隱馬分詞之后還包括進(jìn)行詞性標(biāo)注。具體的,詞性標(biāo)注主要用以在構(gòu)建知識(shí)圖譜時(shí)能很快找出名詞、人名等語義實(shí)體。

      較佳的,未登錄詞識(shí)別之后,還包括將識(shí)別到的未登錄詞更新補(bǔ)充入所述分詞詞典和歧義詞詞典。相應(yīng)的,嵌套未登錄詞識(shí)別之后,還包括將識(shí)別到的嵌套未登錄詞更新補(bǔ)充入所述分詞詞典和歧義詞詞典。具體的,將未登陸詞及嵌套未登錄詞更新入分詞詞典以及歧義詞詞典,是為了下一次分詞時(shí)能直接識(shí)別出這些詞,而不是再一次去識(shí)別未登錄詞,以提高分詞效率。

      實(shí)施例二

      本發(fā)明還提供另一種興趣識(shí)別系統(tǒng),包括:

      收集處理模塊,用于收集文本內(nèi)容和結(jié)構(gòu)化數(shù)據(jù),對(duì)所述文本內(nèi)容進(jìn)行處理,得到非結(jié)構(gòu)化的帶順序的詞組集合;

      抽取模塊,用于對(duì)所述非結(jié)構(gòu)化的帶順序的詞組集合和/或結(jié)構(gòu)化數(shù)據(jù)進(jìn)行語義實(shí)體的抽取、文本實(shí)體的抽取、語義實(shí)體間關(guān)系的抽取、及文本實(shí)體與語義實(shí)體間關(guān)系的抽取;

      歸并模塊,用于對(duì)抽取到的語義實(shí)體、語義實(shí)體間關(guān)系、及文本實(shí)體與語義實(shí)體間關(guān)系進(jìn)行語義實(shí)體的歸并;

      知識(shí)圖譜形成模塊,用于將歸并后的抽取到的語義實(shí)體、語義實(shí)體間關(guān)系、及文本實(shí)體與語義實(shí)體間關(guān)系形成知識(shí)圖譜;

      第一判斷模塊,用于根據(jù)所述知識(shí)圖譜,將每個(gè)用戶的一定時(shí)間范圍內(nèi)的訪問行為數(shù)據(jù)和互動(dòng)行為數(shù)據(jù)中的文本實(shí)體關(guān)聯(lián)到對(duì)應(yīng)的語義實(shí)體,通過統(tǒng)計(jì)學(xué)判斷每個(gè)用戶訪問時(shí)是否有側(cè)重的語義實(shí)體;

      興趣標(biāo)簽?zāi)K,用于若有所述側(cè)重的語義實(shí)體,將所述側(cè)重的語義實(shí)體作為該用戶的興趣標(biāo)簽。

      優(yōu)選的,所述興趣標(biāo)簽?zāi)K,用于獲取用戶的基本標(biāo)簽,將所述基本標(biāo)簽歸入到對(duì)應(yīng)預(yù)設(shè)類別的分組標(biāo)簽;將所述側(cè)重的語義實(shí)體和分組標(biāo)簽進(jìn)行組合作為該用戶的興趣標(biāo)簽。

      優(yōu)選的,所述一定時(shí)間范圍內(nèi)為最近一定時(shí)間范圍內(nèi)。

      優(yōu)選的,所述系統(tǒng)還包括:

      第二判斷模塊,用于若無側(cè)重的語義實(shí)體,判斷用戶是否訪問量過高,若是,判斷該用戶可能是爬蟲。

      優(yōu)選的,所述系統(tǒng),還包括:

      第三判斷模塊,用于若無側(cè)重的語義實(shí)體,判斷用戶訪問的語義實(shí)體是否相悖,且互動(dòng)量較高,若是,則判斷該用戶是水軍。

      優(yōu)選的,所述系統(tǒng)還包括推薦模塊,用于根據(jù)用戶的興趣標(biāo)簽向用戶推薦內(nèi)容。

      優(yōu)選的,所述收集處理模塊,用于對(duì)所述文本內(nèi)容依次進(jìn)行分詞、歧義詞處理、詞性識(shí)別、去除停用詞、消除臟數(shù)據(jù)的處理。

      優(yōu)選的,所述收集處理模塊,用于對(duì)所述文本內(nèi)容依次進(jìn)行原子切分、根據(jù)分詞詞典和歧義詞詞典并采用預(yù)設(shè)的多種算法進(jìn)行分詞、未登錄詞識(shí)別、嵌套未登錄詞識(shí)別、基于類的隱馬分詞。

      優(yōu)選的,所述預(yù)設(shè)的多種算法包括正向最大匹配法、逆向最大匹配法和統(tǒng)計(jì)分詞。

      優(yōu)選的,所述收集處理模塊,用于在所述基于類的隱馬分詞之后進(jìn)行詞性標(biāo)注。

      優(yōu)選的,所述收集處理模塊,用于在未登錄詞識(shí)別之后,將識(shí)別到的未登錄詞更新補(bǔ)充入所述分詞詞典和歧義詞詞典。

      優(yōu)選的,所述收集處理模塊,用于在嵌套未登錄詞識(shí)別之后,將識(shí)別到的嵌套未登錄詞更新補(bǔ)充入所述分詞詞典和歧義詞詞典。

      實(shí)施例二的其它詳細(xì)內(nèi)容,具體可參見實(shí)施例一的對(duì)應(yīng)部分,在此不再贅述。

      綜上所述,本發(fā)明使用用戶瀏覽的文本內(nèi)容構(gòu)建知識(shí)圖譜,并從中抽取用戶興趣點(diǎn),能夠幫助提升對(duì)于內(nèi)容的搜索及推薦的精準(zhǔn)度。

      本說明書中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似部分互相參見即可。

      專業(yè)人員還可以進(jìn)一步意識(shí)到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、計(jì)算機(jī)軟件或者二者的結(jié)合來實(shí)現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。

      顯然,本領(lǐng)域的技術(shù)人員可以對(duì)發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包括這些改動(dòng)和變型在內(nèi)。

      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1