專利名稱:預(yù)測給定話題的未來發(fā)展趨勢的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及話題發(fā)展趨勢的預(yù)測,具體涉及預(yù)測給定話題的未來發(fā)展趨勢的方法和裝置。
背景技術(shù):
近年來,博客作為一種傳播媒體(例如,微博)已得到快速發(fā)展。成千上萬的人對各種各樣的話題在微博中提出他們的想法和觀點。例如,截止至2011年3月28日,推特(Twitter)擁有約20,000萬有效用戶,每天有約6,500個評論,每天處理約800,000個搜索查詢。顯然,博客已經(jīng)成為傳播迅速的媒體。另一方面,對于實時搜索、建議和許多其他任務(wù)來說,熱門話題的發(fā)掘和趨勢預(yù)測
非常重要。鑒于上述原因,期望可以提出一種利用博客(例如,微博)的各種特征來發(fā)掘熱門話題和預(yù)測話題的發(fā)展趨勢的技術(shù)。
發(fā)明內(nèi)容
在下文中給出關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當理解,這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。本發(fā)明的一個主要目的在于,提供預(yù)測給定話題的未來發(fā)展趨勢的方法和裝置。根據(jù)本發(fā)明的一個方面,提供了一種預(yù)測給定話題的未來發(fā)展趨勢的方法,包括確定給定話題在多個過去時間段中的每個過去時間段被一個或多個博文提及的次數(shù),即提及次數(shù);根據(jù)提及給定話題的博文的博主到多個過去時間段中的每個過去時間段為止發(fā)表的博文中所提及的話題,確定博主到多個過去時間段中的每個過去時間段為止的興趣;估計給定話題與博主到多個過去時間段中的每個過去時間段為止的興趣之間的相似度;確定博主到多個過去時間段中的每個過去時間段為止的粉絲數(shù)量;根據(jù)到多個過去時間段中的每個過去時間段為止的相似度和粉絲數(shù)量,確定到多個過去時間段中的每個過去時間段為止的粉絲指數(shù);以及根據(jù)多個過去時間段中的每個過去時間段的提及次數(shù)和到多個過去時間段中的每個過去時間段為止的粉絲指數(shù),預(yù)測給定話題的未來發(fā)展趨勢。根據(jù)本發(fā)明的另一個方面,提供了一種預(yù)測給定話題的未來發(fā)展趨勢的裝置,包括提及次數(shù)確定單元,其被配置為確定給定話題在多個過去時間段中的每個過去時間段被一個或多個博文提及的次數(shù),即提及次數(shù);興趣確定單元,其被配置為根據(jù)提及給定話題的博文的博主到多個過去時間段中的每個過去時間段為止發(fā)表的博文中所提及的話題,確定博主到多個過去時間段中的每個過去時間段為止的興趣;相似度估計單元,其被配置為估計給定話題與博主到多個過去時間段中的每個過去時間段為止的興趣之間的相似度;粉絲數(shù)量確定單元,其被配置為確定博主到多個過去時間段中的每個過去時間段為止的粉絲數(shù)量;粉絲指數(shù)確定單元,其被配置為根據(jù)到多個過去時間段中的每個過去時間段為止的相似度和粉絲數(shù)量,確定到多個過去時間段中的每個過去時間段為止的粉絲指數(shù);以及發(fā)展趨勢預(yù)測單元,其被配置為根據(jù)多個過去時間段中的每個過去時間段的提及次數(shù)和到多個過去時間段中的每個過去時間段為止的粉絲指數(shù),預(yù)測給定話題的未來發(fā)展趨勢。另外,本發(fā)明的實施例還提供了用于實現(xiàn)上述方法的計算機程序。此外,本發(fā)明的實施例還提供了至少計算機可讀介質(zhì)形式的計算機程序產(chǎn)品,其上記錄有用于實現(xiàn)上述方法的計算機程序代碼。通過以下結(jié)合附圖對本發(fā)明的最佳實施例的詳細說明,本發(fā)明的這些以及其他優(yōu)點將更加明顯。
參照下面結(jié)合附圖對本發(fā)明實施例的說明,會更加容易地理解本發(fā)明的以上和其它目的、特點和優(yōu)點。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似的技術(shù)特征或部件將采用相同或類似的附圖標記來表示。圖1是示出根據(jù)本發(fā)明的實施例的預(yù)測給定話題的未來發(fā)展趨勢的方法的流程圖;圖2是示出根據(jù)本發(fā)明的一個例子的預(yù)測給定話題的未來發(fā)展趨勢的過程的流程圖;圖3是示出根據(jù)本發(fā)明的另一個例子的預(yù)測給定話題的未來發(fā)展趨勢的過程的流程圖;圖4是示出根據(jù)本發(fā)明的實施例的預(yù)測給定話題的未來發(fā)展趨勢的裝置的配置的框圖;圖5是示出根據(jù)本發(fā)明的一個實施例的發(fā)展趨勢預(yù)測單元的配置的框圖;圖6是示出根據(jù)本發(fā)明的另一個實施例的發(fā)展趨勢預(yù)測單元的配置的框圖;圖7是示出根據(jù)本發(fā)明的一個實施例的預(yù)測給定話題的未來發(fā)展趨勢的裝置的配置的框圖;圖8是示出根據(jù)本發(fā)明的另一個實施例的預(yù)測給定話題的未來發(fā)展趨勢的裝置的配置的框圖;圖9是示出根據(jù)本發(fā)明的一個實施例的熱門話題確定單元的配置的框圖;圖10是示出根據(jù)本發(fā)明的另一個實施例的熱門話題確定單元的配置的框圖;圖11是示出根據(jù)本發(fā)明的又一個實施例的熱門話題確定單元的配置的框圖;圖12是示出根據(jù)本發(fā)明的再一個實施例的熱門話題確定單元的配置的框圖;以及圖13是示出可以用于實施本發(fā)明的預(yù)測給定話題的未來發(fā)展趨勢的方法和裝置的計算設(shè)備的舉例的結(jié)構(gòu)圖。
具體實施例方式下面參照附圖來說明本發(fā)明的實施例。在本發(fā)明的一個附圖或一種實施方式中描述的元素和特征可以與一個或更多個其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。應(yīng)當注意,為了清楚的目的,附圖和說明中省略了與本發(fā)明無關(guān)的、本領(lǐng)域普通技術(shù)人員已知的部件和處理的表示和描述。以下參考圖1來描述根據(jù)本發(fā)明的實施例的預(yù)測給定話題的未來發(fā)展趨勢的方法 100。圖1是示出根據(jù)本發(fā)明的實施例的預(yù)測給定話題的未來發(fā)展趨勢的方法100的流程圖。如圖1所示,在步驟S102,可以確定給定話題在多個過去時間段中的每個過去時間段被一個或多個博文提及的次數(shù),即提及次數(shù)。例如,可以確定給定話題在過去一個月中的每天被博文提及的次數(shù)。應(yīng)當理解,這里提到的月和天時間單位僅是示例性的,可以根據(jù)需要來設(shè)定更大或更小的時間單位。例如,可以確定給定話題在過去一天中的每個小時被博文提及的次數(shù),或者可以確定給定話題在過去一年中的每個月被博文提及的次數(shù)。在步驟S104,可以根據(jù)提及給定話題的博文的博主到多個過去時間段中的每個過去時間段為止發(fā)表的博文中所提及的話題,確定博主到多個過去時間段中的每個過去時間段為止的興趣。例如,可以根據(jù)發(fā)表提及給定話題的博文的博主到過去一個月中的每天為止所發(fā)表的博文所提及的話題,來確定該博主到過去一個月中的每天為止的興趣。在步驟S106,可以估計給定話題與博主到多個過去時間段中的每個過去時間段為止的興趣之間的相似度。例如,假設(shè)給定話題為畫展,當博主在過去一個月中的第一天為止發(fā)表的博文所提及的話題包括畫展、油畫和素描等時,給定話題與博主到過去一個月中的第一天為止的興趣之間的相似度高。當博主到過去一個月中的第一天為止發(fā)表的博文所提及的話題包括電子器件、機械和發(fā)動機等時,給定話題與博主到過去一個月中的第一天為止的興趣之間的相似度低。當博主到過去一個月中的第一天為止發(fā)表的博文所提及的話題包括油畫、電子器件和畫展等時,則所計算出的該相似度的大小則介于上述兩個相似度的大小之間。這里提到的畫展、油畫、素描、機械、發(fā)動機和電子器件等僅是示例性的,可能出現(xiàn)的給定話題和興趣并不局限于此。此外,以上為了簡化起見,僅以詞匯為例來闡述給定話題和興趣。實際上,給定話題和興趣可能不像一個或幾個詞匯那么簡單。例如,在相似度的計算過程中,例如可以將給定話題和興趣表示成詞匯矢量,稍后將進行詳細描述。在步驟S108,可以確定博主到多個過去時間段中的每個過去時間段為止的粉絲數(shù)量。例如,可以確定博主到過去一個月中的每天為止的粉絲數(shù)量。容易理解,博主的粉絲數(shù)量可能隨著時間而不斷變化。例如,可以簡單地從博客主頁中提取粉絲數(shù)量。在步驟S110,可以根據(jù)到多個過去時間段中的每個過去時間段為止的相似度和粉絲數(shù)量,確定到多個過去時間段中的每個過去時間段為止的粉絲指數(shù)。換句話說,粉絲指數(shù)是相似度和粉絲數(shù)量的函數(shù)。粉絲指數(shù)可以隨著相似度的變化而變化,并可以隨著粉絲數(shù)量的變化而變化。例如,粉絲指數(shù)可以隨著相似度的增大而增大,并可以隨著粉絲數(shù)量的增大而增大??梢愿鶕?jù)各種方式來構(gòu)建粉絲指數(shù)相對于相似度和粉絲數(shù)量的關(guān)系,只要這種方式可以反映相似度和粉絲數(shù)量對粉絲指數(shù)的貢獻就可以。例如,可以通過下述公式(I)來計算粉絲指數(shù)。
權(quán)利要求
1.一種預(yù)測給定話題的未來發(fā)展趨勢的方法,包括 確定所述給定話題在多個過去時間段中的每個過去時間段被一個或多個博文提及的次數(shù),即提及次數(shù); 根據(jù)提及所述給定話題的博文的博主到所述多個過去時間段中的每個過去時間段為止發(fā)表的博文中所提及的話題,確定所述博主到所述多個過去時間段中的每個過去時間段為止的興趣; 估計所述給定話題與所述博主到所述多個過去時間段中的每個過去時間段為止的所述興趣之間的相似度; 確定所述博主到所述多個過去時間段中的每個過去時間段為止的粉絲數(shù)量; 根據(jù)到所述多個過去時間段中的每個過去時間段為止的所述相似度和所述粉絲數(shù)量,確定到所述多個過去時間段中的每個過去時間段為止的粉絲指數(shù);以及 根據(jù)所述多個過去時間段中的每個過去時間段的所述提及次數(shù)和到所述多個過去時間段中的每個過去時間段為止的所述粉絲指數(shù),預(yù)測所述給定話題的未來發(fā)展趨勢。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述預(yù)測所述給定話題的未來發(fā)展趨勢的步驟包括 根據(jù)所述提及次數(shù)的歷史數(shù)據(jù)和所述粉絲指數(shù)的歷史數(shù)據(jù)訓(xùn)練第一預(yù)測模型;以及根據(jù)所述提及次數(shù)和所述粉絲指數(shù),利用訓(xùn)練好的第一預(yù)測模型來預(yù)測所述給定話題在未來特定時間段內(nèi)被提及的次數(shù)。
3.根據(jù)權(quán)利要求1所述的方法,其中,所述預(yù)測所述給定話題的未來發(fā)展趨勢的步驟包括 根據(jù)所述提及次數(shù)的歷史數(shù)據(jù),利用第二預(yù)測模型來預(yù)測第一過去提及次數(shù); 根據(jù)所述粉絲指數(shù)的歷史數(shù)據(jù),利用第三預(yù)測模型來預(yù)測第二過去提及次數(shù); 根據(jù)所述第一過去提及次數(shù)、所述第二過去提及次數(shù)和所述提及次數(shù)的歷史數(shù)據(jù)來調(diào)諧預(yù)測式的參數(shù),其中所述預(yù)測式表達所述第一過去提及次數(shù)和所述第二過去提及次數(shù)相對于所述提及次數(shù)的歷史數(shù)據(jù)的關(guān)系;以及 根據(jù)所述提及次數(shù),利用所述第二預(yù)測模型來預(yù)測第一未來提及次數(shù); 根據(jù)所述粉絲指數(shù),利用所述第三預(yù)測模型來預(yù)測第二未來提及次數(shù); 根據(jù)所述第一未來提及次數(shù)和所述第二未來提及次數(shù),利用具有調(diào)諧好的參數(shù)的預(yù)測式來預(yù)測所述給定話題在未來特定時間段內(nèi)被提及的次數(shù)。
4.根據(jù)權(quán)利要求1所述的方法,在所述確定所述給定話題在多個過去時間段中的每個過去時間段被一個或多個博文提及的次數(shù)的步驟之前還包括以下步驟中的至少一個 將關(guān)于博文的信息結(jié)構(gòu)化為博文標識、博主標識、話題標識和發(fā)布時間中的至少一個; 將關(guān)于博主的信息結(jié)構(gòu)化為博主標識、時間、粉絲數(shù)量和博主興趣中的至少一個;以及 將關(guān)于話題的信息結(jié)構(gòu)化為話題標識、時間間隔和提及次數(shù)中的至少一個。
5.根據(jù)權(quán)利要求1至4中任一項所述的方法,在所述確定所述給定話題在多個過去時間段中的每個過去時間段被一個或多個博文提及的次數(shù)的步驟之前還包括 確定多個話題中的每個話題是否為熱門話題;以及 將所述熱門話題確定為所述給定話題。
6.根據(jù)權(quán)利要求5所述的方法,其中,所述確定多個話題中的每個話題是否為熱門話題的步驟包括 確定所述多個話題中的每個話題被提及的持續(xù)時間是否超過預(yù)定持續(xù)時間閾值;以及 將所述持續(xù)時間超過所述預(yù)定持續(xù)時間閾值的話題確定為所述熱門話題。
7.根據(jù)權(quán)利要求5所述的方法,其中,所述確定多個話題中的每個話題是否為熱門話題的步驟包括 確定所述多個話題中的每個話題被提及的頻繁程度是否超過預(yù)定頻繁程度閾值;以及 將所述頻繁程度超過所述預(yù)定頻繁程度閾值的話題確定為所述熱門話題。
8.根據(jù)權(quán)利要求5所述的方法,其中,所述確定多個話題中的每個話題是否為熱門話題的步驟包括 確定所述多個話題中的每個話題被提及的持續(xù)時間是否超過預(yù)定持續(xù)時間閾值; 確定所述多個話題中的每個話題被提及的頻繁程度是否超過預(yù)定頻繁程度閾值;以及將所述持續(xù)時間超過所述預(yù)定持續(xù)時間閾值并且所述頻繁程度超過所述預(yù)定頻繁程度閾值的話題確定為所述熱門話題。
9.根據(jù)權(quán)利要求5所述的方法,其中,所述確定多個話題中的每個話題是否為熱門話題的步驟包括 確定所述多個話題中的每個話題在短時間內(nèi)被提及的次數(shù)是否超過預(yù)定次數(shù)閾值;以及 將在短時間內(nèi)被提及的次數(shù)超過預(yù)定次數(shù)閾值的話題確定為所述熱門話題。
10.一種預(yù)測給定話題的未來發(fā)展趨勢的裝置,包括 提及次數(shù)確定單元,其被配置為確定所述給定話題在多個過去時間段中的每個過去時間段被一個或多個博文提及的次數(shù),即提及次數(shù); 興趣確定單元,其被配置為根據(jù)提及所述給定話題的博文的博主到所述多個過去時間段中的每個過去時間段為止發(fā)表的博文中所提及的話題,確定所述博主到所述多個過去時間段中的每個過去時間段為止的興趣; 相似度估計單元,其被配置為估計所述給定話題與所述博主到所述多個過去時間段中的每個過去時間段為止的所述興趣之間的相似度; 粉絲數(shù)量確定單元,其被配置為確定所述博主到所述多個過去時間段中的每個過去時間段為止的粉絲數(shù)量; 粉絲指數(shù)確定單元,其被配置為根據(jù)到所述多個過去時間段中的每個過去時間段為止的所述相似度和所述粉絲數(shù)量,確定到所述多個過去時間段中的每個過去時間段為止的粉絲指數(shù);以及 發(fā)展趨勢預(yù)測單元,其被配置為根據(jù)所述多個過去時間段中的每個過去時間段的所述提及次數(shù)和到所述多個過去時間段中的每個過去時間段為止的所述粉絲指數(shù),預(yù)測所述給定話題的未來發(fā)展趨勢。
全文摘要
本發(fā)明涉及預(yù)測給定話題的未來發(fā)展趨勢的方法和裝置。該方法包括確定給定話題在多個過去時間段中的每個過去時間段被一個或多個博文提及的次數(shù);根據(jù)提及給定話題的博文的博主到多個過去時間段中的每個過去時間段為止發(fā)表的博文中所提及的話題,確定博主到多個過去時間段中的每個過去時間段為止的興趣;估計給定話題與博主到多個過去時間段中的每個過去時間段為止的興趣之間的相似度;確定博主到多個過去時間段中的每個過去時間段為止的粉絲數(shù)量;根據(jù)到多個過去時間段中的每個過去時間段為止的相似度和粉絲數(shù)量,確定到多個過去時間段中的每個過去時間段為止的粉絲指數(shù);以及根據(jù)提及次數(shù)和粉絲指數(shù),預(yù)測給定話題的未來發(fā)展趨勢。
文檔編號G06F17/30GK102999539SQ20111027987
公開日2013年3月27日 申請日期2011年9月13日 優(yōu)先權(quán)日2011年9月13日
發(fā)明者楊宇航, 夏迎炬, 孟遙, 于浩 申請人:富士通株式會社