本發(fā)明涉及互聯(lián)個性化推薦技術領域,尤其涉及一種基于文本流網(wǎng)絡的實時個性化視頻推薦方法。
背景技術:隨著互聯(lián)網(wǎng)技術的發(fā)展,特別是WEB2.0時代的到來,在線視頻的傳播已經(jīng)達到了前所未有的水平。雖然如此海量的視頻數(shù)據(jù)能滿足幾乎所有用戶的需求,但同時也使得搜尋和查找到用戶真正感興趣的視頻成為了一件非常煩瑣的事情。因此,個性化視頻推薦對于信息過載的當今是非常必要的。傳統(tǒng)的個性化視頻推薦方法是基于靜態(tài)用戶模型,該模型利用用戶注冊信息,歷史行為來理解用戶的長期興趣。然而,當今信息的更新越來越頻繁。用戶每天都面對著大量新信息,導致用戶的短期興趣隨著當前熱點事件在不斷的飄移。例如,當一名用戶讀到美國總統(tǒng)就職典禮的新聞時,他很可能會去搜索相關視頻去進一步了解該事件。也許從長期興趣的角度來看,這名用戶對政治并不是非常感興趣,但是他的短期興趣卻被當前熱點事件影響了。在這種情況下,傳統(tǒng)的個性化視頻推薦方法無法應對的,因為他們無法捕捉用戶興趣的漂移。圖1為現(xiàn)有技術進行個性化視頻推薦的流程圖。如圖1所示,現(xiàn)有技術進行個性化視頻推薦的流程包括:步驟S101,利用用戶在某一個網(wǎng)絡平臺的信息(如注冊信息,歷史行為)建立用戶長期興趣模型,通常為特征向量,每一維表示用戶的某一偏好;步驟S102,利用視頻信息(如視頻標注,上下文信息以及視頻內容)為每個視頻建立特征向量;步驟S103,利用用戶特例向量與視頻特征向量的內積對視頻進行排序,將得分高(如前10)的視頻推薦給用戶。發(fā)明人發(fā)現(xiàn)上述個性化視頻推薦的方法存在如下技術缺陷:1)注重用戶的長期興趣,無法實時捕捉用戶的短期興趣偏好;2)只利用單一網(wǎng)絡平臺信息學習用戶興趣,往往存在冷啟動(cold-start)和數(shù)據(jù)稀疏性(datasparsity)問題。
技術實現(xiàn)要素:(一)要解決的技術問題為解決上述的問題,本發(fā)明提供了一種基于文本流網(wǎng)絡的實時個性化視頻推薦方法,以提高個性化視頻推薦的準確性。(二)技術方案本發(fā)明提供基于文本流網(wǎng)絡的實時個性化視頻推薦方法,所述個性化視頻推薦的步驟包括:步驟S1:利用用戶在文本流網(wǎng)絡上當前所發(fā)布和轉發(fā)的推文建立實時用戶文檔,利用推特潛在狄利克利分布模型對多個實時用戶文檔建立熱點事件空間,并得到多個用戶分別在該熱點事件空間的分布向量,即得到用戶當前所關注的多個熱點事件;步驟S2:利用用戶在文本流網(wǎng)絡上的注冊信息及發(fā)布和轉發(fā)的所有推文建立用戶文檔,利用主題模型對多個用戶文檔建立一個長期興趣主題空間,并得到多個用戶分別在該長期興趣主題空間各自的長期興趣分布向量;步驟S3:利用用戶在文本流網(wǎng)絡長期興趣主題空間上的長期興趣分布向量對用戶當前關注的多個熱點事件進行排序,獲得用戶當前最感興趣的熱點事件;步驟S4:在視頻應用平臺檢索與用戶當前最感興趣熱點事件相關的多個視頻;步驟S5:利用用戶在視頻應用平臺的注冊信息及與視頻的交互信息,建立用戶在視頻應用平臺的長期興趣向量空間模型,得到用戶在視頻應用平臺的長期興趣特征向量;步驟S6:利用用戶在視頻應用平臺的長期興趣特征向量對步驟S4所述的多個視頻進行重排序,并把前N個視頻推薦給該用戶。(三)有益效果從上述技術方案可以看出,本發(fā)明基于文本流網(wǎng)絡的實時個性化視頻推薦方法具有以下有益效果:(1)利用文本流網(wǎng)絡熱點事件出現(xiàn)和傳播的快速性,實時檢測用戶所關注的熱點事件,有效地捕捉了用戶的短期興趣,從而提高了個性化視頻推薦的準確性;(2)利用了用戶在不同平臺的信息學習用戶興趣,有效地緩解了冷啟動和數(shù)據(jù)稀疏性問題。附圖說明圖1為現(xiàn)有技術利用傳統(tǒng)方法進行個性化視頻推薦的流程圖;圖2為本發(fā)明實施例基于文本流網(wǎng)絡的實時個性化視頻推薦方法的流程圖。具體實施方式需要說明的是,在附圖或說明書描述中,相似或相同的部分都使用相同的圖號。且在附圖中,以簡化或是方便標示。再者,附圖中未繪示或描述的實現(xiàn)方式,為所屬技術領域中普通技術人員所知的形式。另外,雖然本文可提供包含特定值的參數(shù)的示范,但應了解,參數(shù)無需確切等于相應的值,而是可在可接受的誤差容限或設計約束內近似于相應的值。本發(fā)明的目的是實現(xiàn)實時個性化視頻推薦。該問題存在如下挑戰(zhàn)。首先,我們很難準確捕獲用戶的短期興趣;另外,用戶在單一平臺的可用信息往往有限,難以準確把握用戶的長期興趣;最后,如何融合用戶的短期興趣和長期興趣也是一個難點。需要說明的是,本領域技術人員應當了解,上述的視頻也可以是音頻、圖片等,在下文中主要以視頻為例進行說明,但本發(fā)明并不局限于此。另外,上述文本流網(wǎng)絡在下文中以推特(Twitter)為例進行說明,視頻應用平臺以優(yōu)突博(YouTube)為例進行說明,但本發(fā)明并不局限于此。在本發(fā)明的一個示例性實施例中,提出了一種基于文本流網(wǎng)絡的實時個性化視頻推薦的方法。如圖2所示,本實施例基于文本流網(wǎng)絡的實時個性化視頻推薦方法包括:步驟S1:利用用戶在文本流網(wǎng)絡上當前所發(fā)布或轉發(fā)的推文建立實時用戶文檔,利用推特潛在狄利克利分布模型對多個實時用戶文檔建立熱點事件空間,并得到多個用戶分別在該熱點事件空間的分布向量,即得到用戶當前所關注的多個熱點事件;用戶在推特平臺發(fā)布或轉發(fā)推文(tweet),而這些行為是受當前熱點事件,用戶好友及用戶本身興趣共同作用的結果,是用戶短期興趣的一種體現(xiàn)。由于推文的短文本特性,每篇推文都主要表達一個事件,因此,我們采用推特潛在狄利克利分布模型(TwitterLDA)從多個用戶當前發(fā)布或轉發(fā)的多個推文建立熱點事件空間,每個熱點事件是由一些語義詞匯構成的向量,向量的每一維表示某一語義詞匯在該事件中出現(xiàn)的概率。但是由于推文和注冊信息中含有大量噪聲,如無意義的詞匯及誤輸入。因此我們采用詞網(wǎng)進行過濾?;谏鲜雒枋觯襟ES1中所述利用用戶在文本流網(wǎng)絡上當前所發(fā)布或轉發(fā)的推文建立實時用戶文檔的具體步驟如下:步驟S1a:從網(wǎng)絡中收集多個用戶當前分別發(fā)布和轉發(fā)的推文;步驟S1b:利用詞網(wǎng)過濾上述推文中的噪聲,得到過濾后的推文;步驟S1c:對于多個用戶中的每一個,利用其過濾后的推文分別建立實時用戶文檔。步驟S1中所述每個用戶的分布向量中具有非零元素,所述非零元素對應的熱點事件即為用戶當前所關注的熱點事件,因此我們得到了用戶當前所關注的多個熱點事件。上述“當前”可以為“一小時內”,“一天內”,任意能體現(xiàn)實時性的時間范圍均可。步驟S2:利用用戶在文本流網(wǎng)絡上的注冊信息及發(fā)布和轉發(fā)的所有推文建立用戶文檔,利用主題模型對多個用戶文檔建立一個長期興趣主題空間,并得到多個用戶分別在該長期興趣主題空間各自的長期興趣分布向量;用戶在推特上的注冊信息反應了用戶的長期興趣;同時,用戶所發(fā)布和轉發(fā)的所有推文可以反應用戶的長期興趣。因此我們利用用戶的注冊信息及用戶發(fā)布和轉發(fā)的推文來建立用戶文檔。但是該文檔含有大量噪聲,如無意義的詞匯及誤輸入。這里我們同樣采用詞網(wǎng)進行過濾?;谏鲜雒枋觯襟ES2利用用戶在文本流網(wǎng)絡上的信息建立用戶文檔的步驟如下:步驟S2a:從網(wǎng)絡中收集多個用戶分別發(fā)布和轉發(fā)的推文及其注冊信息;步驟S2b:利用詞網(wǎng)過濾上述推文和注冊信息中的噪聲,濾掉除推文和注冊信息中的名詞成分之外的成分,得到過濾后的推文及注冊信息;步驟S2c:對于多個用戶中的每一個用戶,利用每一個用戶發(fā)布和轉發(fā)的推文及注冊信息中的名詞成分分別建立每一個用戶文檔。步驟S2:中所述主題模型可以選擇潛在狄利克利分布模型(LDA),當然也可以選擇本領域公知的其他模型,例如:概率潛在主義分析模型(PLSA)或渦輪主題模型(TurboTopic)。步驟S3:利用用戶在文本流網(wǎng)絡長期興趣主題空間上的長期興趣分布向量對用戶當前關注的多個熱點事件進行排序,獲得用戶當前最感興趣的熱點事件;用戶當前可能關注了多個熱點事件,我們通過用戶的長期興趣分布向量來推測用戶最感興趣的熱點事件。對所述多個熱點事件進行排序,首先,我們通過相對熵(RelativeEntropy)計算用戶當前所關注的每個熱點事件與用戶長期興趣主題空間中各主題的相似度,然后再結合用戶在長期興趣主題空間的長期興趣分布向量計算用戶在當前所關注的每個事件上的興趣分值,分值最大的事件即為用戶當前最感興趣的熱點事件;所述用戶當前所關注的每個熱點事件與用戶長期興趣主題空間中各主題的相似度,所述所述平均相對熵D(z||x)表示如下:其中z為長期興趣主題空間中的主題向量,x為當前熱點事件空間熱點事件向量,D(z||x)表示主題向量z和熱點事件向量x之間的平均相對熵,z(i)和x(i)表示主題向量z和熱點事件向量x在第i個語義詞匯上的概率值,K為詞匯空間的維度,i=1,2,...K。平均相對熵的倒數(shù)即為主題向量z和熱點事件向量x的相似度。所述用戶在當前所關注的每個事件上的興趣分值p(x|u,λ)表示如下:其中x為用戶u當前所關注的某一熱點事件向量;λ為用戶u在長期興趣主題空間上的分布向量;Φ為長期興趣主題空間;λZ表示用戶u在長期興趣主題空間Φ中主題向量z上的概率值;p(x|u,λ)表示在給定用戶u及其在長期興趣主題空間Φ上的分布向量λ下,熱點事件向量x的得分;為用戶u分別計算當前所關注的多個熱點事件的得分后,我們再把得分最高的熱點事件作為用戶當前最感興趣的熱點事件。經(jīng)過步驟S3,我們實現(xiàn)了利用文本流網(wǎng)絡熱點事件出現(xiàn)和傳播的快速性,實時檢測用戶當前最感興趣的熱點事件,有效地捕捉了用戶的短期興趣。步驟S4:在視頻應用平臺檢索與用戶當前最感興趣熱點事件相關的多個視頻;如步驟S2所述,熱點事件由一些語義詞匯構成的向量,向量的每一位表示某一語義詞匯在該事件出現(xiàn)的概率。因此,我們選擇用戶當前最感興趣的熱點事件中出現(xiàn)概率最大的三個語義詞匯作為查詢詞,在視頻應用平臺檢索相關視頻,并選擇前20到前100個視頻,實施例中選取前20或前50或前100個視頻。步驟S5:利用用戶在視頻應用平臺的注冊信息及與視頻的交互信息,建立用戶在視頻應用平臺的長期興趣向量空間模型,得到用戶在視頻應用平臺的長期興趣特征向量;用戶在視頻應用平臺的注冊信息反應了用戶的長期興趣,同時,用戶對視頻的主動行為(如上傳或收藏)反映了用戶的長期興趣愛好。因此我們利用用戶的注冊信息,以及用戶上傳或收藏視頻的語義標簽,類別及描述來建立用戶在視頻應用平臺的長期興趣向量空間模型。步驟S5中所述利用用戶在視頻應用平臺的注冊信息及與視頻的交互信息的具體步驟如下:步驟S5a:收集用戶注冊信息及上傳或收藏的視頻的語義標簽、類別和描述;步驟S5b:利用詞網(wǎng)過濾上述注冊信息及語義標簽、類別和描述中的噪聲,濾除所述注冊信息及語義標簽、類別和描述中除名詞成分之外的成分;步驟S5中所述建立用戶在視頻應用平臺的長期興趣向量空間模型是:利用所述注冊信息及語義標簽、類別和描述中的名詞成分建立每個用戶長期興趣向量空間模型,得到用戶在視頻應用平臺的長期興趣特征向量。步驟S6:利用用戶在視頻應用平臺的長期興趣特征向量對步驟S4所述的多個視頻進行重排序,并把前N個視頻推薦給該用戶。首先,我們利用視頻的語義標簽、類別和描述為每個視頻建立特征向量,然后我們根據(jù)該特征向量與用戶在該視頻應用平臺的長期興趣特征向量的匹配程度對視頻進行排序,具體包括,給定一個視頻υ,用戶在視頻應用平臺的長期興趣特征向量θ,該視頻υ的得分表示為:其中M表示向量空間的維度,i=1,2,…M;p(υ|θ)表示在給定用戶在視頻應用平臺的長期興趣特征向量θ下,視頻υ的得分;υi表示是視頻特征向量在第i維上的權重,θi表示用戶長期興趣特征向量在第i維上的權重。為每個視頻計算得分后,我們再根據(jù)這些得分對與用戶當前最感興趣的熱點事件相關的前20至前100個視頻進行重排序,然后把前5至前20個最相關視頻推薦給用戶。實施例中并選取前20或前50或前100個視頻進行重排序,然后把前5或前10或前20個最相關視頻推薦給用戶。上述N個視頻中的N可以為任意合理數(shù),例如5到20,只需小于步驟S4中所選取的多個視頻的數(shù)目。所述視頻應用平臺是優(yōu)酷(YouKu)、優(yōu)突博(YouTube)等視頻應用平臺,實施例中以優(yōu)突博(YouTube)為例進行說明。所述相關視頻是前10個或任意合理數(shù)最相關視頻推薦給該用戶。以上所述的具體實施例,對本發(fā)明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發(fā)明的具體實施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。