專利名稱:文本文件推薦方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,尤其涉及一種文本文件推薦方法及系統(tǒng)。
背景技術(shù):
互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展,網(wǎng)上信息爆炸式增長,用戶為了找到自己需要的信息,可能需要花費(fèi)大量的時(shí)間瀏覽并過濾大量無關(guān)信息。為解決這種因信息過載而導(dǎo)致的信息利用率下降的問題,推薦系統(tǒng)在互聯(lián)網(wǎng)領(lǐng)域得到廣泛應(yīng)用。推薦系統(tǒng)就是,通過建立用戶與信息產(chǎn)品之間的二元關(guān)系,利用已有的選擇過程或相似性關(guān)系挖掘每位用戶潛在感興趣的對(duì)象,進(jìn)而進(jìn)行個(gè)性化的推薦,其本質(zhì)就是信息過濾。目前互聯(lián)網(wǎng)上基于文本文件內(nèi)容的推薦系統(tǒng),是根據(jù)用戶當(dāng)前搜索瀏覽的文本文件,得出當(dāng)前文本文件的詞語特征向量,并與系統(tǒng)中其它待推薦文本文件的詞語特征向量計(jì)算兩者間的相似度,按照計(jì)算出的相似度將若干個(gè)待推薦文本文件推薦給用戶;具體過程如
圖1所示,通常包括以下步驟:SlOl:對(duì)當(dāng)前文本文件進(jìn)行預(yù)處理。具體地,在用戶搜索、并瀏覽一個(gè)文本文件時(shí),推薦系統(tǒng)將該文本文件作為當(dāng)前文本文件進(jìn)行預(yù)處理,為后續(xù)提取該當(dāng)前文本文件的詞語特征向量做準(zhǔn)備。對(duì)當(dāng)前文本文件進(jìn)行預(yù)處理的過程中,包括:對(duì)該當(dāng)前文本文件進(jìn)行分詞、去除停用詞后得到當(dāng)前文本文件的詞語集合。分詞就是將文本文件中連續(xù)的字序列劃分為一個(gè)個(gè)詞語的過程;經(jīng)分詞后劃分出的詞語,再去除停用詞,刪除如“的”、“呀”等對(duì)于文件沒有實(shí)際意義的詞,從而構(gòu)成該文本文件的詞語集合。S102:提取當(dāng)前文本文件的詞語特征向量。具體地,對(duì)文本文件預(yù)處理后得到的是詞語集合;詞語集合還不能簡潔準(zhǔn)確地表示該文本文件的內(nèi)容信息,還需要通過一定的算法來提取該文本文件的內(nèi)容特征;當(dāng)前的文本文件推薦系統(tǒng),通常采用向量空間模型表征文本文件的內(nèi)容特征,即詞語特征向量。計(jì)算文本文件的詞語特征向量主要采用的方法可以有TF-1DF (termfrequency-1nverse document frequency,詞步頁-逆向文件步頁率),TextRank 等方法。以下以TF-1DF方法為例,簡介相關(guān)算法。TF-1DF是一種統(tǒng)計(jì)方法,用以評(píng)估一個(gè)詞語對(duì)于一個(gè)文件集或一個(gè)語料庫中的一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的頻數(shù),即TF (Term Frequency,詞頻)值,成正比增加,但同時(shí)會(huì)隨著它在語料庫中出現(xiàn)的頻率,即IDF (Inverse DocumentFrequency,逆向文件頻率)值,成反比下降。比如,對(duì)于某一文本文件R的詞語集合中的詞語ti;它在該文本文件中重要性可表示為如下公式1: tfl = max{m|k = (L2,...,T)}(公式 1)其中,分子Iii是文本文件R中的第i個(gè)詞語\出現(xiàn)的頻數(shù);
分母maX{nk,j|k= (1,2,…,T) }是文本文件R中所有詞語出現(xiàn)的最大次數(shù),T是文本文件R的總詞語數(shù)。某一特定詞語\的IDF值,可以由語料庫中總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對(duì)數(shù)得到,即如下公式2:
權(quán)利要求
1.一種文本文件推薦方法,包括: 確定出當(dāng)前文本文件的詞語集合后,確定該詞語集合中的每個(gè)詞語的詞頻TF值或詞頻-逆向文件頻率TF-1DF值; 根據(jù)所述詞語集合中的每個(gè)詞語的TF值或TF-1DF值,確定出所述當(dāng)前文本文件的隱含主題特征向量,該隱含主題特征向量中的各元素分別為隱含主題集合中各隱含主題在所述當(dāng)前文本文件中的出現(xiàn)概率; 分別計(jì)算所述當(dāng)前文本文件的隱含主題特征向量與各待推薦文本文件的隱含主題特征向量之間的相似度; 選擇隱含主題特征向量與所述當(dāng)前文本文件的隱含主題特征向量的相似度符合預(yù)設(shè)的篩選條件的待推薦文本文件進(jìn)行推薦。
2.如權(quán)利要求1所述的方法,其中,所述根據(jù)所述詞語集合中的每個(gè)詞語的TF值或TF-1DF值,確定出所述當(dāng)前文本文件的隱含主題特征向量,具體包括: 將所述詞語集合中的各詞語的TF值分別作為向量P中的各元素,或者將所述詞語集合中的各詞語的TF-1DF值分別作為向量P中的各元素后,根據(jù)如下公式6確定所述當(dāng)前文本文件的隱含主題特征向量: Q=PXff (公式 6) 其中,Q為所述當(dāng)前文本文件的隱含主題特征向量,W是由所述語料庫的詞語集合中各詞語對(duì)所述隱含主題集合中各隱含主題變量的出現(xiàn)概率作為元素所構(gòu)成的矩陣,是預(yù)先根據(jù)所述語料庫中各文本文件進(jìn)行訓(xùn)練后得到的。
3.如權(quán)利要求1所述的方法,其中,所述根據(jù)所述詞語集合中的每個(gè)詞語的TF值或TF-1DF值,確定出所述當(dāng)前文本文件的隱含主題特征向量,具體包括: 在原語料庫的基礎(chǔ)上,增加所述當(dāng)前文本文件,形成包括所述當(dāng)前文本文件、以及各待推薦文本文件的新語料庫; 根據(jù)所述新語料庫中各文本文件的詞語集合中的每個(gè)詞語的TF值或TF-1DF值,運(yùn)用概率潛在語義分析PLSA模型進(jìn)行訓(xùn)練,得到Z矩陣;所述Z矩陣是由所述新語料庫的各文本文件中各隱含主題變量的出現(xiàn)概率作為元素所構(gòu)成的矩陣; 根據(jù)所述Z矩陣中,所述當(dāng)前文本文件中各隱含主題變量的出現(xiàn)概率,得到所述當(dāng)前文本文件的隱含主題特征向量;并根據(jù)所述Z矩陣中,各待推薦文本文件中各隱含主題變量的出現(xiàn)概率,分別得到各待推薦文本文件的隱含主題特征向量。
4.如權(quán)利要求1-3任一所述的方法,其中,所述分別計(jì)算所述當(dāng)前文本文件的隱含主題特征向量,與各待推薦文本文件的隱含主題特征向量之間的相似度,具體包括: 對(duì)于各待推薦文本文件中的一個(gè)待推薦文本文件,根據(jù)所述當(dāng)前文本文件的隱含主題特征向量與該待推薦文本文件的隱含主題特征向量之間的夾角,確定所述當(dāng)前文本文件的隱含主題特征向量與該待推薦文本文件的隱含主題特征向量之間相似度。
5.如權(quán)利要4所述的方法,其中,所述根據(jù)所述當(dāng)前文本文件的隱含主題特征向量與該待推薦文本文件的隱含主題特征向量之間的夾角,確定所述當(dāng)前文本文件的隱含主題特征向量與該待推薦文本文件的隱含主題特征向量之間相似度,具體包括: 根據(jù)如下公式5確定所述當(dāng)前文本文件的隱含主題特征向量與該待推薦文本文件的隱含主題特征向量之間相似度:
6.如權(quán)利要求1-3任一所述的方法,其中,所述選擇隱含主題特征向量與所述當(dāng)前文本文件的隱含主題特征向量的相似度符合預(yù)設(shè)的篩選條件的待推薦文本文件進(jìn)行推薦,具體為: 將計(jì)算出的相似度進(jìn)行大小排序,選擇出排序在前的設(shè)定個(gè)數(shù)的相似度作為符合所述篩選條件的相似度,將符合所述篩選條件的相似度所對(duì)應(yīng)的待推薦文本文件進(jìn)行推薦;或者 選擇出大于或等于設(shè)定閾值的相似度作為符合所述篩選條件的相似度,將符合所述篩選條件的相似度所對(duì)應(yīng)的待推薦文本文件進(jìn)行推薦。
7.一種文本文件推薦系統(tǒng),包括: 詞語集合確定模塊,用于確定當(dāng)前文本文件的詞語集合; 特征值確定模塊,用于確定所述詞語集合中的每個(gè)詞語的TF值或TF-1DF值; 隱含主題特征向量確定模塊,用于根據(jù)所述特征值確定模塊確定的TF值或TF-1DF值,確定出所述當(dāng)前文本文件的隱含主題特征向量,該隱含主題特征向量中的各元素分別為隱含主題集合中各隱含主題在所述當(dāng)前文本文件中的出現(xiàn)概率; 相似度計(jì)算模塊,用于分別計(jì)算所述當(dāng)前文本文件的隱含主題特征向量與各待推薦文本文件的隱含主題特征向量之間的相似度; 推薦模塊,用于選擇隱含主題特征向量與所述當(dāng)前文本文件的隱含主題特征向量的相似度符合預(yù)設(shè)的篩選條件的待推薦文本文件進(jìn)行推薦。
8.如權(quán)利要求7所述的系統(tǒng),其中,所述隱含主題特征向量確定模塊具體包括: 賦值單元,用于將所述詞語集合中的各詞語的TF值分別作為向量P中的各元素,或者將所述詞語集合中的各詞語的TF-1DF值分別作為向量P中的各元素; 隱含主題特征向量計(jì)算單元,用于根據(jù)所述向量P以及如下公式確定所述當(dāng)前文本文件的隱含主題特征向量:Q=PXW;其中,Q為所述當(dāng)前文本文件的隱含主題特征向量,W是由所述語料庫的詞語集合中各詞語對(duì)所述隱含主題集合中各隱含主題變量的出現(xiàn)概率作為元素所構(gòu)成的矩陣,是預(yù)先根據(jù)所述語料庫中各文本文件進(jìn)行訓(xùn)練后得到的。
9.如權(quán)利要求7所述的系統(tǒng),其中,所述隱含主題特征向量確定模塊具體包括: 語料庫更新單元,用于在原語料庫的基礎(chǔ)上,增加所述當(dāng)前文本文件,形成包括所述當(dāng)前文本文件、以及各待推薦文本文件的更新后的新語料庫; 訓(xùn)練單元,用于根據(jù)所述新語料庫中各文本文件的詞語集合中的每個(gè)詞語的TF值或TF-1DF值,運(yùn)用PLSA模型進(jìn)行訓(xùn)練,得到Z矩陣;其中,所述Z矩陣是由所述新語料庫的各文本文件中各隱含主題變量的出現(xiàn)概率作為元素所構(gòu)成的矩陣;隱含主題特征向量確定單元,用于根據(jù)所述Z矩陣中,所述當(dāng)前文本文件中各隱含主題變量的出現(xiàn)概率,得到所述當(dāng)前文本文件的隱含主題特征向量;并根據(jù)所述Z矩陣中,各待推薦文本文件中各隱含主題變量在的出現(xiàn)概率,分別得到各待推薦文本文件的隱含主題特征向量。
10.如權(quán)利要求7所述的系統(tǒng),其中,所述推薦模塊具體包括: 排序單元,用于將計(jì)算出的相似度進(jìn)行大小排序; 選擇單元,用于選擇出排序在前的設(shè)定個(gè)數(shù)的相似度作為符合所述篩選條件的相似度,將符合所述篩選條件的相似度所對(duì)應(yīng)的待推薦文本文件進(jìn)行推薦;或者選擇出大于設(shè)定閾值的相似度作為符合所述篩選條件的相似度,將符合所述篩選條件的相似度所對(duì)應(yīng)的待推薦文本文件進(jìn)行推薦。
全文摘要
本發(fā)明公開了一種文本文件推薦方法及系統(tǒng),所述方法包括確定出當(dāng)前文本文件的詞語集合后,確定該詞語集合中的每個(gè)詞語的TF值或TF-IDF值,確定出當(dāng)前文本文件的隱含主題特征向量,分別計(jì)算所述當(dāng)前文本文件的隱含主題特征向量與各待推薦文本文件的隱含主題特征向量之間的相似度,選擇隱含主題特征向量與所述當(dāng)前文本文件的隱含主題特征向量的相似度符合預(yù)設(shè)的篩選條件的待推薦文本文件進(jìn)行推薦。由于隱含主題特征向量來計(jì)算文本文件之間相似度,從而使得文本文件推薦系統(tǒng)的推薦方法更加準(zhǔn)確。
文檔編號(hào)G06F17/27GK103207899SQ20131008857
公開日2013年7月17日 申請(qǐng)日期2013年3月19日 優(yōu)先權(quán)日2013年3月19日
發(fā)明者劉洋 申請(qǐng)人:新浪網(wǎng)技術(shù)(中國)有限公司