專利名稱:用于用戶興趣建模的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明的實施方式總體上涉及目標內(nèi)容(targeted content)的提供,以及更具體地,涉及用于用戶興趣建模的方法和設(shè)備。
背景技術(shù):
當今通信時代已經(jīng)使有線網(wǎng)絡(luò)和無線網(wǎng)絡(luò)得以巨大擴張。計算機網(wǎng)絡(luò)、電視網(wǎng)絡(luò)和電話網(wǎng)絡(luò)正經(jīng)歷由消費者需求驅(qū)動的空前技術(shù)擴張。無線和移動聯(lián)網(wǎng)技術(shù)已經(jīng)解決了相關(guān)的消費者需求,同時提供了信息傳輸?shù)母箪`活性和即時性。目前的和未來的聯(lián)網(wǎng)技術(shù)以及利用聯(lián)網(wǎng)技術(shù)的已演進計算設(shè)備繼續(xù)向用戶促進 信息傳輸?shù)囊子眯院捅憷?。已演進聯(lián)網(wǎng)技術(shù)和計算設(shè)備促進從遠程內(nèi)容提供方訪問大量內(nèi)容,以用于在用戶本地計算設(shè)備處進行消費以及與其他用戶交換數(shù)據(jù)。內(nèi)容提供方和網(wǎng)絡(luò)服務(wù)提供方通常通過廣告來支付促進在用戶之間交換數(shù)據(jù)以及提供內(nèi)容的開銷。為了使廣告對于廣告者而言具有最大價值以及由此使得內(nèi)容提供方為廣告空間支付溢價金,廣告需要吸引被提供該廣告的用戶的興趣,以便使得用戶購買所廣告的產(chǎn)品和服務(wù)。因此,廣告者試圖使廣告以特定用戶為“目標”。此外,某些內(nèi)容提供方試圖向用戶提供以用戶興趣作為目標的內(nèi)容,以此作為服務(wù)。為了令目標內(nèi)容提供方提供的目標內(nèi)容被用戶認為是有價值的,目標內(nèi)容應(yīng)當以用戶興趣為目標,以便準確地反應(yīng)用戶興趣。另外,內(nèi)容和/或服務(wù)提供方可以嘗試著促進由具有類似興趣的用戶形成興趣組或社交網(wǎng)絡(luò)。
發(fā)明內(nèi)容
此處提供了用于用戶興趣建模的方法、設(shè)備和計算機程序產(chǎn)品。在此方面,提供了系統(tǒng)、方法、設(shè)備和計算機程序產(chǎn)品,其可以向服務(wù)提供方、內(nèi)容提供方、計算設(shè)備和計算設(shè)備用戶提供若干優(yōu)勢。本發(fā)明的實施方式提供了針對定義用戶興趣的用戶興趣主題的確定。本發(fā)明的實施方式促進利用確定的用戶興趣主題來向用戶提供目標內(nèi)容,諸如,例如,目標廣告。在此方面,本發(fā)明的實施方式對已錄入日志的交互用戶歷史數(shù)據(jù)進行挖掘,以確定用于用戶的用戶興趣主題。根據(jù)本發(fā)明的某些實施方式,已錄入日志的交互用戶歷史數(shù)據(jù)包括由用戶在日常使用計算設(shè)備的過程中所產(chǎn)生的、接收的和/或訪問的數(shù)據(jù)。由于用戶使用設(shè)備的模式可能反映用戶的興趣,所以本發(fā)明的實施方式借助于全新的主題模型提供了對已錄入日志的交互用戶歷史數(shù)據(jù)的統(tǒng)計建模,其中該主題模型配置用于在生成自主題特征源的一個或多個種子文檔上起作用。本發(fā)明的一個實施方式所提供的一個這種主題模型是帶有主題特征的、已加標簽的隱含狄利克雷分配(LLDA-TF)算法。根據(jù)本發(fā)明的實施方式,包括人類可讀和可理解名稱的預定義主題類別標簽通過針對已錄入日志的交互用戶歷史數(shù)據(jù)的統(tǒng)計建模得以確定。這些預定義主題類別標簽較之于之前的模型,能夠提供關(guān)于用戶興趣主題的更有意義的信息,而之前的模型僅僅提供了代表隱含主題的關(guān)鍵字列表。
在第一示例性實施方式中,提供了一種方法,其包括訪問用于用戶的已錄入日志的交互用戶歷史數(shù)據(jù)。此實施方式的該方法進一步包括利用在已錄入日志的交互用戶歷史數(shù)據(jù)和生成自主題特征源的一個或多個種子文檔的至少部分上起作用的主題模型,確定用于用戶的至少一個用戶興趣主題。在另一示例性實施方式中,提供了一種設(shè)備。此實施方式的該設(shè)備包括至少一個處理器和存儲有計算機程序代碼的至少一個存儲器,其中所述至少一個存儲器和存儲的計算機程序代碼配置用于與所述至少一個處理器一起使得所述設(shè)備至少訪問用于用戶的已錄入日志的交互用戶歷史數(shù)據(jù)。該至少一個存儲器和存儲的計算機程序代碼配置用于與至少一個處理器一起使得此實施方式的設(shè)備利用在已錄入日志的交互用戶歷史數(shù)據(jù)和生成自主題特征源的一個或多個種子文檔的至少部分上起作用的主題模型,確定用于用戶的至少一個用戶興趣主題。
程序產(chǎn)品包括至少一個計算機可讀存儲介質(zhì),其中存儲有計算機可讀程序指令。此實施方式的程序指令包括配置用于訪問用于用戶的已錄入日志的交互用戶歷史數(shù)據(jù)的程序指令。此實施方式的程序指令進一步包括配置用于利用在已錄入日志的交互用戶歷史數(shù)據(jù)和生成自主題特征源的一個或多個種子文檔的至少部分上起作用的主題模型,確定用于用戶的至少一個用戶興趣主題的程序指令。在另一示例性實施方式中,提供了一種設(shè)備,包括用于訪問用于用戶的已錄入日志的交互用戶歷史數(shù)據(jù)的裝置。此實施方式的設(shè)備進一步包括用于利用在已錄入日志的交互用戶歷史數(shù)據(jù)和生成自主題特征源的一個或多個種子文檔的至少部分上起作用的主題模型,確定用于用戶的至少一個用戶興趣主題的裝置。在另一示例性實施方式中,提供了一種計算機可讀存儲介質(zhì),其攜帶計算機可讀程序指令。計算機可讀程序指令包括配置用于訪問用于用戶的已錄入日志的交互用戶歷史數(shù)據(jù)的程序指令。該計算機可讀程序指令進一步包括配置用于利用在已錄入日志的交互用戶歷史數(shù)據(jù)和生成自主題特征源的一個或多個種子文檔的至少部分上起作用的主題模型,確定用于用戶的至少一個用戶興趣主題的程序指令。提供上述發(fā)明內(nèi)容僅為了總結(jié)本發(fā)明某些示例性實施方式的目的,以便提供本發(fā)明某些方面的基礎(chǔ)理解。因此,應(yīng)當理解,上面描述的示例性實施方式僅是示例,而不應(yīng)當構(gòu)建為以任何方式縮小本發(fā)明的范圍或精神。應(yīng)當理解,除了在此總結(jié)的以外,本發(fā)明的范圍涵蓋眾多潛在實施方式,其中的某一些將在下文進一步描述。
由此,已經(jīng)在整體方面描述了本發(fā)明的實施方式,現(xiàn)在將參考不是必須按比例繪制的附圖,以及其中圖I示出了隱含狄利克雷分配模型的圖形表征;圖2示出了根據(jù)本發(fā)明一個示例性實施方式的、用于用戶興趣建模的設(shè)備框圖;圖3是根據(jù)本發(fā)明一個示例性實施方式的、移動終端的示意框圖;圖4示出了根據(jù)本發(fā)明一個示例性實施方式的、用于提供目標內(nèi)容的系統(tǒng);圖5示出了根據(jù)本發(fā)明一個示例性實施方式的、帶有主題特征模型的、已加標簽的隱含狄利克雷分配的圖形表征;圖6示出了根據(jù)本發(fā)明一個示例性實施方式的、帶有主題特征模型的、已加標簽的隱含狄利克雷分配的輸入和輸出的圖形表征;圖7示出了條形圖,該條形圖示意了利用本發(fā)明示例性實施方式的、向用戶興趣主題指派輸入文檔;以及圖8示出了根據(jù)本發(fā)明一個示例性實施方式的、根據(jù)用于用戶興趣建模的示例性方法的流程圖。
具體實施例方式現(xiàn)在,將在下文更全面地參考附圖來描述本發(fā)明的某些實施方式,其中示出了本發(fā)明的某些但不是全部實施方式。事實上,本發(fā)明可以在很多不同形式中實現(xiàn),并且不應(yīng)當 構(gòu)建為在此示出的實施方式;相反,提供這些實施方式是為了使本公開滿足可申請的法律要求。貫穿全文,類似的附圖標記涉及類似的元素。如在此使用的,術(shù)語“電路”涉及(a)僅硬件電路實現(xiàn)(例如,以模擬電路和/或數(shù)字電路實現(xiàn));(b)電路和包括存儲在一個或多個計算機可讀存儲器上的軟件和/或固件指令的計算機程序產(chǎn)品的組合,其中這些組合一起工作以使得設(shè)備執(zhí)行此處描述的一個或多個功能;以及(C)電路,諸如,例如,即使在軟件或固件并未物理存在的情況下,仍需要用于操作的軟件或固件的微處理器或微處理器的一部分。‘電路’的這一定義適用于這一術(shù)語在本文中的所有使用,包括在任何權(quán)利要求中。作為另一示例,如在此所使用的,術(shù)語‘電路’還包括包含一個或多個處理器的實現(xiàn)和/或其部分以及隨附的軟件和/或固件。作為另一示例,此處使用的術(shù)語‘電路’還包括例如用于移動電話的基帶集成電路或應(yīng)用處理器集成電路或服務(wù)器、蜂窩網(wǎng)絡(luò)設(shè)備、其他網(wǎng)絡(luò)設(shè)備,和/或其他計算設(shè)備中的類似集成電路。隱含狄利克雷分配(LDA)是具有數(shù)學建模能力的全概率性生成模型。LDA算法的計算復雜度并未直接受到輸入到模型的訓練文檔輸入數(shù)量的影響,從而使得其適合于大型的語料庫并可針對其進行縮放。圖I示出了隱含狄利克雷分配模型的圖形表征。在圖I的模型中,D是文檔的數(shù)量,以及Nd是每個文檔d中的詞匯數(shù)量。以及T是主題的數(shù)量。a和0是0和Cj5的相應(yīng)狄利克雷參數(shù)。9代表針對文檔的主題比例。z是針對每個詞匯的主題指派的代表,以及V包括主題分布。參考圖1,針對語料庫D中每個文檔d的生成性處理可以表示為I)選擇 0 Dir (a)2)針對d中的每個詞匯a)選擇主題 Zn Multinomial ( 0 )b)從p(wn|zmP)中選擇詞匯Wn,其中p(wn|zmP)是以主題Zn為條件的多項式概率。吉布斯(Gibbs)采樣是用于估計LDA模型參數(shù)的一種方式。針對每個吉布斯采樣進行迭代,每個文檔中每個詞匯的主題根據(jù)Zdi的后驗(posterior)來進行采樣,即,p(zdi|w, a , P)。此外,對于每次迭代,算法更新p(zdi|w, a , 0 ),其作為先驗分布用于下一次迭代。在吉布斯采樣中,后驗P (Zdi I w,a,¢)僅涉及詞匯和主題的同時出現(xiàn)以及文檔和主題的同時出現(xiàn)。P (Zdi|w, α , β )的函數(shù)是
權(quán)利要求
1.一種方法,包括 訪問用于用戶的已錄入日志的交互用戶歷史數(shù)據(jù);以及 利用在所述已錄入日志的交互用戶歷史數(shù)據(jù)和生成自主題特征源的一個或多個種子文檔的至少部分上起作用的主題模型,確定用于所述用戶的至少一個用戶興趣主題。
2.如權(quán)利要求I的方法,其中確定至少一個用戶興趣主題包括確定至少一個預定義的主題類別標簽。
3.如權(quán)利要求1-2中任一的方法,其中所述主題模型包括帶有主題特征模型的、已加標簽的隱含狄利克雷分配。
4.如權(quán)利要求1-3中任一的方法,其中所述主題特征源包括在線百科全書,以及其中用戶興趣主題的名稱至少部分由所述百科全書內(nèi)的文章題目所定義。
5.如權(quán)利要求1-4中任一的方法,進一步包括 從所述主題特征源訪問與預定義的用戶興趣主題對應(yīng)的內(nèi)容文檔; 從所述訪問的內(nèi)容文檔提取關(guān)鍵字;以及 生成種子文檔,其包括與所述提取的關(guān)鍵字對應(yīng)的主題特征關(guān)鍵字并且具有由所述內(nèi)容文檔的題目至少部分定義的用戶興趣主題;以及其中 所述主題模型在其上起作用的所述一個或多個種子文檔包括所述生成的種子文檔。
6.如權(quán)利要求1-5中任一的方法,其中確定用于所述用戶的至少一個用戶興趣主題包括 向預定義的用戶興趣主題指派種子頁面的主題特征關(guān)鍵字,其中每個主題關(guān)鍵字以值小于100%的概率百分比被指派給第一預定義用戶興趣主題,以及以由100%與剩余預定義的用戶興趣主題中的所述概率百分比之間的差值的均等分布所定義的百分比被指派給每個剩余的預定義用戶興趣主題; 將所述種子頁面與所述已錄入日志的交互用戶歷史數(shù)據(jù)相混合; 執(zhí)行采樣以評估所述預定義的用戶興趣主題的后驗分布;以及至少部分基于所述預定義的用戶興趣主題的所述評估的后驗分布,確定用于所述用戶的至少一個用戶興趣主題。
7.如權(quán)利要求1-6中任一的方法,進一步包括 從所述已錄入日志的交互用戶歷史數(shù)據(jù)提取相關(guān)數(shù)據(jù);以及其中在所述已錄入日志的交互用戶歷史數(shù)據(jù)的至少部分上起作用包括在所述提取的相關(guān)數(shù)據(jù)上起作用。
8.如權(quán)利要求7的方法,其中從所述已錄入日志的交互用戶歷史數(shù)據(jù)提取相關(guān)數(shù)據(jù)包括,對于所述已錄入日志的交互用戶歷史數(shù)據(jù)內(nèi)的用戶歷史文檔 計算所述用戶歷史文檔的區(qū)域的文字密度;以及 在所述文字密度滿足預定義的閾值密度要求時,從所述區(qū)域提取文字。
9.如權(quán)利要求1-8任一的方法,進一步包括 至少部分基于所述確定的至少一個用戶興趣主題,選擇以所述用戶的興趣為目標的目標內(nèi)容;以及 向所述用戶提供所述目標內(nèi)容。
10.如權(quán)利要求9的方法,其中所述目標內(nèi)容包括廣告內(nèi)容。
11.如權(quán)利要求1-10中任一的方法,其中所述已錄入日志的交互用戶歷史數(shù)據(jù)包括下述一個或多個由所述用戶訪問的Web頁面,由所述用戶發(fā)送的電子郵件,由所述用戶接收的電子郵件,由所述用戶發(fā)送的文本消息,由所述用戶接收的文本消息,由所述用戶查看的文檔,由所述用戶編輯的文檔,由所述用戶發(fā)送的即時消息,或由所述用戶接收的即時消肩、O
12.—種設(shè)備,包括至少一個處理器和存儲有計算機程序代碼的至少一個存儲器,其中所述至少一個存儲器和存儲的計算機程序代碼配置用于與所述至少一個處理器一起使得所述設(shè)備至少 訪問用于用戶的已錄入日志的交互用戶歷史數(shù)據(jù);以及 利用在所述已錄入日志的交互用戶歷史數(shù)據(jù)和生成自主題特征源的一個或多個種子文檔的至少部分上起作用的主題模型,確定用于所述用戶的至少一個用戶興趣主題。
13.如權(quán)利要求12的設(shè)備,其中所述至少一個存儲器和存儲的計算機程序代碼配置用于與所述至少一個處理器一起使得所述設(shè)備通過確定至少一個預定義的主題類別標簽來確定至少一個用戶興趣主題。
14.如權(quán)利要求12-13中任一的設(shè)備,其中所述主題模型包括帶有主題特征模型的、已加標簽的隱含狄利克雷分配。
15.如權(quán)利要求12-14中任一的設(shè)備,其中所述主題特征源包括在線百科全書,以及其中用戶興趣主題的名稱至少部分由所述百科全書內(nèi)的文章題目所定義。
16.如權(quán)利要求12-15中任一的設(shè)備,其中所述至少一個存儲器和存儲的計算機程序代碼配置用于與所述至少一個處理器一起進一步使得所述設(shè)備 從所述主題特征源訪問與預定義的用戶興趣主題對應(yīng)的內(nèi)容文檔; 從所述訪問的內(nèi)容文檔提取關(guān)鍵字;以及 生成種子文檔,其包括與所述提取的關(guān)鍵字對應(yīng)的主題特征關(guān)鍵字并且具有由所述內(nèi)容文檔的題目至少部分定義的用戶興趣主題;以及其中 所述主題模型在其上起作用的所述一個或多個種子文檔包括所述生成的種子文檔。
17.如權(quán)利要求12-16中任一的設(shè)備,其中所述至少一個存儲器和存儲的計算機程序代碼配置用于與所述至少一個處理器一起使得所述設(shè)備確定用于所述用戶的至少一個用戶興趣主題至少部分通過下述實現(xiàn) 向預定義的用戶興趣主題指派種子頁面的主題特征關(guān)鍵字,其中每個主題關(guān)鍵字以值小于100%的概率百分比被指派給第一預定義用戶興趣主題,以及以由100%與剩余預定義的用戶興趣主題中的所述概率百分比之間的差值的均等分布所定義的百分比被指派給每個剩余預定義的用戶興趣主題; 將所述種子頁面與所述已錄入日志的交互用戶歷史數(shù)據(jù)相混合; 執(zhí)行采樣以評估所述預定義的用戶興趣主題的后驗分布;以及 至少部分基于所述預定義的用戶興趣主題的所述評估的后驗分布,確定用于所述用戶的至少一個用戶興趣主題。
18.如權(quán)利要求12-17中任一的設(shè)備,其中所述至少一個存儲器和存儲的計算機程序代碼配置用于與所述至少一個處理器一起進一步使得所述設(shè)備 從所述已錄入日志的交互用戶歷史數(shù)據(jù)提取相關(guān)數(shù)據(jù);以及其中在所述已錄入日志的交互用戶歷史數(shù)據(jù)的至少部分上起作用包括在所述提取的相關(guān)數(shù)據(jù)上起作用。
19.如權(quán)利要求18的設(shè)備,其中所述至少一個存儲器和存儲的計算機程序代碼配置用于與所述至少一個處理器一起使得所述設(shè)備從所述已錄入日志的交互用戶歷史數(shù)據(jù)提取相關(guān)數(shù)據(jù)至少部分通過下述實現(xiàn)對于所述已錄入日志的交互用戶歷史數(shù)據(jù)內(nèi)的用戶歷史文檔 計算所述用戶歷史文檔的區(qū)域的文字密度;以及 在所述文字密度滿足預定義的閾值密度要求時,從所述區(qū)域提取文字。
20.如權(quán)利要求12-19任一的設(shè)備,其中所述至少一個存儲器和存儲的計算機程序代碼配置用于與所述至少一個處理器一起進一步使得所述設(shè)備 至少部分基于所述確定的至少一個用戶興趣主題,選擇以所述用戶的興趣為目標的目標內(nèi)容;以及 向所述用戶提供所述目標內(nèi)容。
21.如權(quán)利要求20的設(shè)備,其中所述目標內(nèi)容包括廣告內(nèi)容。
22.如權(quán)利要求12-21中任一的設(shè)備,其中所述已錄入日志的交互用戶歷史數(shù)據(jù)包括下述一個或多個由所述用戶訪問的web頁面,由所述用戶發(fā)送的電子郵件,由所述用戶接收的電子郵件,由所述用戶發(fā)送的文本消息,由所述用戶接收的文本消息,由所述用戶查看的文檔,由所述用戶編輯的文檔,由所述用戶發(fā)送的即時消息,或由所述用戶接收的即時消息。
23.如權(quán)利要求12-22中任一的設(shè)備,其中所述設(shè)備包括或者實現(xiàn)在移動電話上,所述移動電話包括用戶接口電路和存儲在所述至少一個存儲器的一個或多個存儲器上的用戶接口軟件;其中所述用戶接口電路和用戶接口軟件配置用于 通過使用顯示器來促進用戶對所述移動電話的至少某些功能的控制;以及 使得所述移動電話的用戶接口的至少部分顯示在所述顯示器上,以促進用戶對所述移動電話的至少某些功能的控制。
24.一種計算機程序產(chǎn)品,包括至少一個計算機可讀存儲介質(zhì),其中存儲有計算機可讀程序指令,所述計算機可讀程序指令包括 配置用于訪問用于用戶的已錄入日志的交互用戶歷史數(shù)據(jù)的程序指令;以及 配置用于利用在所述已錄入日志的交互用戶歷史數(shù)據(jù)和生成自主題特征源的一個或多個種子文檔的至少部分上起作用的主題模型,確定用于所述用戶的至少一個用戶興趣主題的程序指令。
25.如權(quán)利要求24的計算機程序產(chǎn)品,其中所述配置用于確定至少一個用戶興趣主題的程序指令包括配置用于確定至少一個預定義的主題類別標簽的程序指令。
26.如權(quán)利要求24-25中任一的計算機程序產(chǎn)品,其中所述主題模型包括帶有主題特征模型的、已加標簽的隱含狄利克雷分配。
27.如權(quán)利要求24-26中任一的計算機程序產(chǎn)品,其中所述主題特征源包括在線百科全書,以及其中用戶興趣主題的名稱至少部分由所述百科全書內(nèi)的文章題目所定義。
28.如權(quán)利要求24-27中任一的計算機程序產(chǎn)品,進一步包括 配置用于從所述主題特征源訪問與預定義的用戶興趣主題對應(yīng)的內(nèi)容文檔的程序指令; 配置用于從所述訪問的內(nèi)容文檔提取關(guān)鍵字的程序指令;以及配置用于生成種子文檔的程序指令,該種子文檔包括與所述提取的關(guān)鍵字對應(yīng)的主題特征關(guān)鍵字并且具有由所述內(nèi)容文檔的題目至少部分定義的用戶興趣主題;以及其中所述主題模型在其上起作用的所述一個或多個種子文檔包括所述生成的種子文檔。
29.如權(quán)利要求24-28中任一的計算機程序產(chǎn)品,其中配置用于確定用于所述用戶的至少一個用戶興趣主題的程序指令包括 配置用于向預定義的用戶興趣主題指派種子頁面的主題特征關(guān)鍵字的程序指令,其中每個主題關(guān)鍵字以值小于100%的概率百分比被指派給第一預定義用戶興趣主題,以及以由100%與剩余預定義的用戶興趣主題中的所述概率百分比之間的差值的均等分布所定義的百分比被指派給每個剩余預定義的用戶興趣主題; 配置用于將所述種子頁面與所述已錄入日志的交互用戶歷史數(shù)據(jù)相混合的程序指令; 配置用于執(zhí)行采樣以評估所述預定義的用戶興趣主題的后驗分布的程序指令;以及配置用于至少部分基于所述預定義的用戶興趣主題的所述評估的后驗分布,確定用于所述用戶的至少一個用戶興趣主題的程序指令。
30.如權(quán)利要求24-29中任一的計算機程序產(chǎn)品,進一步包括 配置用于從所述已錄入日志的交互用戶歷史數(shù)據(jù)提取相關(guān)數(shù)據(jù)的程序指令;以及其中在所述已錄入日志的交互用戶歷史數(shù)據(jù)的至少部分上起作用包括在所述提取的相關(guān)數(shù)據(jù)上起作用。
31.如權(quán)利要求30的計算機程序產(chǎn)品,其中所述配置用于從所述已錄入日志的交互用戶歷史數(shù)據(jù)提取相關(guān)數(shù)據(jù)的程序指令包括,配置用于,對于所述已錄入日志的交互用戶歷史數(shù)據(jù)內(nèi)的用戶歷史文檔,執(zhí)行下述操作的程序指令 計算所述用戶歷史文檔的區(qū)域的文字密度;以及 在所述文字密度滿足預定義的閾值密度要求時,從所述區(qū)域提取文字。
32.如權(quán)利要求24-31任一的計算機程序產(chǎn)品,進一步包括 配置用于至少部分基于所述確定的至少一個用戶興趣主題,選擇以所述用戶的興趣為目標的目標內(nèi)容的程序指令;以及 配置用于向所述用戶提供所述目標內(nèi)容的程序指令。
33.如權(quán)利要求32的計算機程序產(chǎn)品,其中所述目標內(nèi)容包括廣告內(nèi)容。
34.如權(quán)利要求24-33中任一的計算機程序產(chǎn)品,其中所述已錄入日志的交互用戶歷史數(shù)據(jù)包括下述一個或多個由所述用戶訪問的web頁面,由所述用戶發(fā)送的電子郵件,由所述用戶接收的電子郵件,由所述用戶發(fā)送的文本消息,由所述用戶接收的文本消息,由所述用戶查看的文檔,由所述用戶編輯的文檔,由所述用戶發(fā)送的即時消息,或由所述用戶接收的即時消息。
35.一種設(shè)備,包括 用于訪問用于用戶的已錄入日志的交互用戶歷史數(shù)據(jù)的裝置;以及用于利用在所述已錄入日志的交互用戶歷史數(shù)據(jù)和生成自主題特征源的一個或多個種子文檔的至少部分上起作用的主題模型,確定用于所述用戶的至少一個用戶興趣主題的裝置。
36.如權(quán)利要求35的設(shè)備,其中所述用于確定至少一個用戶興趣主題的裝置包括用于確定至少一個預定義的主題類別標簽的裝置。
37.如權(quán)利要求35-36中任一的設(shè)備,其中所述主題模型包括帶有主題特征模型的、已加標簽的隱含狄利克雷分配。
38.如權(quán)利要求35-37中任一的設(shè)備,其中所述主題特征源包括在線百科全書,以及其中用戶興趣主題的名稱至少部分由所述百科全書內(nèi)的文章題目所定義。
39.如權(quán)利要求35-38中任一的設(shè)備,進一步包括 用于從所述主題特征源訪問與預定義的用戶興趣主題對應(yīng)的內(nèi)容文檔的裝置; 用于從所述訪問的內(nèi)容文檔提取關(guān)鍵字的裝置;以及 用于生成種子文檔的裝置,該種子文檔包括與所述提取的關(guān)鍵字對應(yīng)的主題特征關(guān)鍵字并且具有由所述內(nèi)容文檔的題目至少部分定義的用戶興趣主題;以及其中 所述主題模型在其上起作用的所述一個或多個種子文檔包括所述生成的種子文檔。
40.如權(quán)利要求35-39中任一的設(shè)備,其中所述用于確定用于所述用戶的至少一個用戶興趣主題的裝置包括 用于向預定義的用戶興趣主題指派種子頁面的主題特征關(guān)鍵字的裝置,其中每個主題關(guān)鍵字以值小于100%的概率百分比被指派給第一預定義用戶興趣主題,以及以由100%與剩余預定義的用戶興趣主題中的所述概率百分比之間的差值的均等分布所定義的百分比被指派給每個剩余預定義的用戶興趣主題; 用于將所述種子頁面與所述已錄入日志的交互用戶歷史數(shù)據(jù)相混合的裝置; 用于執(zhí)行采樣以評估所述預定義的用戶興趣主題的后驗分布的裝置;以及用于至少部分基于所述預定義的用戶興趣主題的所述評估的后驗分布,確定用于所述用戶的至少一個用戶興趣主題的裝置。
41.如權(quán)利要求35-40中任一的設(shè)備,進一步包括 用于從所述已錄入日志的交互用戶歷史數(shù)據(jù)提取相關(guān)數(shù)據(jù)的裝置;以及其中在所述已錄入日志的交互用戶歷史數(shù)據(jù)的至少部分上起作用包括在所述提取的相關(guān)數(shù)據(jù)上起作用。
42.如權(quán)利要求41的設(shè)備,其中所述用于從所述已錄入日志的交互用戶歷史數(shù)據(jù)提取相關(guān)數(shù)據(jù)的裝置包括,對于所述已錄入日志的交互用戶歷史數(shù)據(jù)內(nèi)的用戶歷史文檔 用于計算所述用戶歷史文檔的區(qū)域的文字密度的裝置;以及 用于在所述文字密度滿足預定義的閾值密度要求時,從所述區(qū)域提取文字的裝置。
43.如權(quán)利要求35-42任一的設(shè)備,進一步包括 用于至少部分基于所述確定的至少一個用戶興趣主題,選擇以所述用戶的興趣為目標的目標內(nèi)容的裝置;以及 用于向所述用戶提供所述目標內(nèi)容的裝置。
44.如權(quán)利要求43的設(shè)備,其中所述目標內(nèi)容包括廣告內(nèi)容。
45.如權(quán)利要求35-44中任一的設(shè)備,其中所述已錄入日志的交互用戶歷史數(shù)據(jù)包括下述一個或多個由所述用戶訪問的web頁面,由所述用戶發(fā)送的電子郵件,由所述用戶接收的電子郵件,由所述用戶發(fā)送的文本消息,由所述用戶接收的文本消息,由所述用戶查看的文檔,由所述用戶編輯的文檔,由所述用戶發(fā)送的即時消息,或由所述用戶接收的即時消肩、O
46.一種計算機可讀存儲介質(zhì),其攜帶計算機可讀程序指令,所述計算機可讀程序指令包括 配置用于訪問用于用戶的已錄入日志的交互用戶歷史數(shù)據(jù)的程序指令;以及配置用于利用在所述已錄入日志的交互用戶歷史數(shù)據(jù)和生成自主題特征源的一個或多個種子文檔的至少部分上起作用的主題模型,確定用于所述用戶的至少一個用戶興趣主題的程序指令。
47.如權(quán)利要求46的計算機可讀存儲介質(zhì),其中所述配置用于確定至少一個用戶興趣主題的程序指令包括配置用于確定至少一個預定義的主題類別標簽的程序指令。
48.如權(quán)利要求46-47中任一的計算機可讀存儲介質(zhì),其中所述主題模型包括帶有主題特征模型的、已加標簽的隱含狄利克雷分配。
49.如權(quán)利要求46-48中任一的計算機可讀存儲介質(zhì),其中所述主題特征源包括在線百科全書,以及其中用戶興趣主題的名稱至少部分由所述百科全書內(nèi)的文章題目所定義。
50.如權(quán)利要求46-48中任一的計算機可讀存儲介質(zhì),進一步包括 配置用于從所述主題特征源訪問與預定義的用戶興趣主題對應(yīng)的內(nèi)容文檔的程序指令; 配置用于從所述訪問的內(nèi)容文檔提取關(guān)鍵字的程序指令;以及配置用于生成種子文檔的程序指令,該種子文檔包括與所述提取的關(guān)鍵字對應(yīng)的主題特征關(guān)鍵字并且具有由所述內(nèi)容文檔的題目至少部分定義的用戶興趣主題;以及其中所述主題模型在其上起作用的所述一個或多個種子文檔包括所述生成的種子文檔。
51.如權(quán)利要求46-51中任一的計算機可讀存儲介質(zhì),其中配置用于確定用于所述用戶的至少一個用戶興趣主題的程序指令包括 配置用于向預定義的用戶興趣主題指派種子頁面的主題特征關(guān)鍵字的程序指令,其中每個主題關(guān)鍵字以值小于100%的概率百分比被指派給第一預定義用戶興趣主題,以及以由100%與剩余預定義的用戶興趣主題中的所述概率百分比之間的差值的均等分布所定義的百分比被指派給每個剩余預定義的用戶興趣主題; 配置用于將所述種子頁面與所述已錄入日志的交互用戶歷史數(shù)據(jù)相混合的程序指令; 配置用于執(zhí)行采樣以評估所述預定義的用戶興趣主題的后驗分布的程序指令;以及配置用于至少部分基于所述預定義的用戶興趣主題的所述評估的后驗分布,確定用于所述用戶的至少一個用戶興趣主題的程序指令。
全文摘要
提供了用于用戶興趣建模的方法和設(shè)備。方法可以包括訪問用于用戶的已錄入日志的交互用戶歷史數(shù)據(jù)。該方法可以附加地包括利用在所述已錄入日志的交互用戶歷史數(shù)據(jù)和生成自主題特征源的一個或多個種子文檔的至少部分上起作用的主題模型,確定用于所述用戶的至少一個用戶興趣主題。還提供了對應(yīng)的設(shè)備。
文檔編號G06Q30/00GK102687166SQ200980163229
公開日2012年9月19日 申請日期2009年12月31日 優(yōu)先權(quán)日2009年12月31日
發(fā)明者李文峰, 王小捷, 田繼雷, 胡日勒 申請人:諾基亞公司