每個(gè)目錄 節(jié)點(diǎn)相關(guān)聯(lián)的網(wǎng)頁學(xué)習(xí)主題。
[0145] 可選地,主題空間構(gòu)建模塊可以采用最直接的方式學(xué)習(xí)和構(gòu)建主題空間,S卩:對相 應(yīng)每個(gè)目錄節(jié)點(diǎn)網(wǎng)頁以向量空間模型表示(例如通過TF-IDF權(quán)重模型),平均屬于這個(gè)目 錄的所有網(wǎng)頁權(quán)重向量,得到均值向量,由此產(chǎn)生的特征向量,定義為一個(gè)主題,最終定義 多個(gè)主題,構(gòu)成層次主題空間。
[0146] 可選地,主題空間構(gòu)建模塊可以采用塊主題識別方法來構(gòu)建層次主題空間,具體 為:根據(jù)代表相應(yīng)0DP目錄的主題的句子的重要性來權(quán)重句子,根據(jù)句子的權(quán)重將主題相 關(guān)句子與主題無關(guān)句子分開,并從主題相關(guān)句子中學(xué)習(xí)特定主題,構(gòu)建出層次主題空間。
[0147] 進(jìn)一步地,主題空間構(gòu)建模塊還可以建立有效的主題空間索引,具體為:視層次主 題空間中的每一個(gè)主題為一個(gè)文檔,基于0DP樹建立倒排索引,以此來索引所有主題。后續(xù) 就快速查詢和匹配主題空間。
[0148] 圖像聚類分組模塊:用于對移動(dòng)終端的圖庫中的圖像進(jìn)行聚類分組。
[0149] 具體的,圖像聚類分組模塊可以根據(jù)圖像的顏色特征、形狀特征或/和紋理特征 對圖庫中的圖像進(jìn)行聚類分組,每一組圖像代表一個(gè)類別,例如運(yùn)動(dòng)類、風(fēng)景類、服飾類、聚 會類等等??梢岳肒-means等聚類算法對圖像進(jìn)行聚類分組。
[0150] 本實(shí)施例中,用戶興趣挖掘之所以基于一組圖像而非一個(gè)單一的圖像,是因?yàn)閺?一組語義相關(guān)的圖像中可以更可靠地發(fā)現(xiàn)用戶興趣。舉例而言:如果只有一張白色的貓的 圖像,它是很難告訴我們用戶是對白色的貓、貓、還是寵物感興趣。然而,如果有關(guān)白貓和小 狗的圖像同時(shí)出現(xiàn)的話,我們可以更確定的得出結(jié)論:用戶對寵物感興趣。
[0151] 由此可見,對圖像進(jìn)行聚類分組,不僅能夠有助于發(fā)現(xiàn)或挖掘出用戶的不同興趣, 而且能夠更精確的定位。
[0152] 圖像標(biāo)簽標(biāo)注模塊:用于根據(jù)圖庫中圖像的內(nèi)容,對圖像標(biāo)注標(biāo)簽。
[0153] 具體的,圖像標(biāo)簽標(biāo)注模塊理解圖庫中每一張圖像的內(nèi)容,根據(jù)圖像的內(nèi)容自動(dòng) 對每一張圖像標(biāo)注標(biāo)簽,再綜合分析每一組圖像的內(nèi)容和標(biāo)簽獲得概括性或延伸性標(biāo)簽。 例如,某一組圖像包括貓、狗、鸚鵡等動(dòng)物標(biāo)簽,則可以推斷用戶喜歡寵物,則獲得寵物標(biāo) 簽。
[0154] 具體實(shí)現(xiàn)上,圖像標(biāo)簽標(biāo)注模塊可以從圖像-標(biāo)簽庫中檢索與圖庫中待標(biāo)注圖像 的內(nèi)容相似的圖像,獲取檢索出的圖像的標(biāo)簽,再從獲取的標(biāo)簽中選擇顯著詞語作為待標(biāo) 注圖像的標(biāo)簽,標(biāo)注于該圖像。
[0155] 進(jìn)一步地,當(dāng)圖庫中的圖像已被用戶標(biāo)注了標(biāo)簽時(shí),圖像標(biāo)簽標(biāo)注模塊可以綜合 用戶標(biāo)注的標(biāo)簽和該圖像的內(nèi)容對該圖像標(biāo)注標(biāo)簽。具體的,圖像標(biāo)簽標(biāo)注模塊將圖像和 用戶標(biāo)注的標(biāo)簽一起作為查詢條件,首先對給定的標(biāo)簽執(zhí)行基于文本的圖像搜索,然后在 搜索結(jié)構(gòu)基礎(chǔ)上用基于視覺的重新排序找到語義和視覺相關(guān)圖像,最后獲取相關(guān)圖像的標(biāo) 簽,再從獲取的標(biāo)簽中選擇顯著詞語作為待標(biāo)注圖像的標(biāo)簽,標(biāo)注于該圖像。
[0156] 用戶興趣獲取模塊:用于將標(biāo)注的標(biāo)簽與層次主題空間進(jìn)行匹配,生成用戶興趣 列表。
[0157] 用戶興趣獲取模炔基于層次主題空間和圖像標(biāo)簽學(xué)習(xí)挖掘出用戶興趣。基于0DP 的層次主題空間,圖像可從屬于多個(gè)主題,這樣用戶興趣就可以以主題分布形式表示。具體 為:用戶興趣獲取模塊將標(biāo)注的每一個(gè)標(biāo)簽作為查詢詞語檢索層次主題空間,獲取與標(biāo)簽 匹配的主題,生成排序的主題列表(即主題分布模型)作為用戶興趣列表。前述標(biāo)簽不但 包括移動(dòng)終端自動(dòng)標(biāo)注的標(biāo)簽,還可以包括用戶自己標(biāo)注的標(biāo)簽。
[0158] 上述實(shí)施例提供的基于用戶興趣挖掘的移動(dòng)終端與用戶興趣挖掘方法實(shí)施例屬 于同一構(gòu)思,其具體實(shí)現(xiàn)過程詳見方法實(shí)施例,且方法實(shí)施例中的技術(shù)特征在移動(dòng)終端實(shí) 施例中均對應(yīng)適用,這里不再贅述。
[0159] 如圖7所示,提出本發(fā)明基于用戶興趣挖掘的移動(dòng)終端第二實(shí)施例,所述裝置包 括主題空間構(gòu)建模塊、圖像標(biāo)簽標(biāo)注模塊和用戶興趣獲取模塊。本實(shí)施例與第一實(shí)施例的 區(qū)別是,省略了圖像聚類分組模塊,不對圖庫中的圖像進(jìn)行聚類分組,直接對每一張圖像標(biāo) 注標(biāo)簽,基于每一張圖像對用戶興趣進(jìn)行挖掘。但相對于實(shí)施例一中基于每一組圖像挖掘 用戶興趣而言,本實(shí)施例對用戶興趣定位的精確性要略遜于實(shí)施例一。
[0160] 本發(fā)明基于用戶興趣挖掘的移動(dòng)終端,區(qū)別于移動(dòng)終端被動(dòng)發(fā)送搜索數(shù)據(jù),服務(wù) 器端分析并反饋結(jié)果的傳統(tǒng)模式,而是直接由移動(dòng)終端基于圖庫中的圖片或照片獲取用戶 喜歡的景物、動(dòng)物、人物等第一手資料,分析挖掘出用戶興趣,從而能夠更全面準(zhǔn)確的了解 到用戶的喜好,精準(zhǔn)定位用戶的興趣愛好。挖掘出的用戶興趣可以應(yīng)用于推斷用戶消費(fèi)水 平、對產(chǎn)品的偏好等,為用戶提供更貼心、可靠的產(chǎn)品和服務(wù)。
[0161] 需要說明的是,在本文中,術(shù)語"包括"、"包含"或者其任何其他變體意在涵蓋非排 他性的包含,從而使得包括一系列要素的過程、方法、物品或者裝置不僅包括那些要素,而 且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者裝置所固有 的要素。在沒有更多限制的情況下,由語句"包括一個(gè)……"限定的要素,并不排除在包括 該要素的過程、方法、物品或者裝置中還存在另外的相同要素。
[0162] 上述本發(fā)明實(shí)施例序號僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
[0163] 通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實(shí)施例方 法可借助軟件加必需的通用硬件平臺的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件,但很多情況下 前者是更佳的實(shí)施方式。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做 出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲在一個(gè)存儲介質(zhì) (如R0M/RAM、磁碟、光盤)中,包括若干指令用以使得一臺終端設(shè)備(可以是手機(jī),計(jì)算機(jī), 服務(wù)器,空調(diào)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。
[0164] 以上僅為本發(fā)明的優(yōu)選實(shí)施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā) 明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的技 術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于用戶興趣挖掘的移動(dòng)終端,其特征在于,包括: 主題空間構(gòu)建模塊,用于基于開發(fā)目錄項(xiàng)目構(gòu)建層次主題空間; 圖像標(biāo)簽標(biāo)注模塊,用于根據(jù)所述移動(dòng)終端的圖庫中圖像的內(nèi)容,對所述圖像標(biāo)注標(biāo) 簽; 用戶興趣獲取模塊,用于將所述標(biāo)簽與所述層次主題空間進(jìn)行匹配,生成用戶興趣列 表。2. 根據(jù)權(quán)利要求1所述的基于用戶興趣挖掘的移動(dòng)終端,其特征在于, 還包括圖像聚類分組模塊,所述圖像聚類分組模塊用于:對所述圖庫中的圖像進(jìn)行聚 類分組。3. 根據(jù)權(quán)利要求2所述的基于用戶興趣挖掘的移動(dòng)終端,其特征在于,所述圖像聚類 分組模塊用于: 根據(jù)圖像的顏色特征、形狀特征或/和紋理特征對所述圖庫中的圖像進(jìn)行聚類分組。4. 根據(jù)權(quán)利要求1所述的基于用戶興趣挖掘的移動(dòng)終端,其特征在于,所述圖像標(biāo)簽 標(biāo)注模塊用于: 從圖像標(biāo)簽庫中檢索與所述圖庫中待標(biāo)注圖像的內(nèi)容相似的圖像,獲取檢索出的圖像 的標(biāo)簽,從中選擇顯著詞語作為所述待標(biāo)注圖像的標(biāo)簽予以標(biāo)注。5. 根據(jù)權(quán)利要求1-4任一項(xiàng)所述的基于用戶興趣挖掘的移動(dòng)終端,其特征在于,所述 用戶興趣獲取模塊用于: 將每一所述標(biāo)簽作為查詢詞語檢索層次主題空間,獲取與所述標(biāo)簽匹配的主題,生成 排序的主題列表作為用戶興趣列表。6. -種用戶興趣挖掘方法,應(yīng)用于移動(dòng)終端,其特征在于,包括步驟: 基于開發(fā)目錄項(xiàng)目構(gòu)建層次主題空間; 根據(jù)所述移動(dòng)終端的圖庫中圖像的內(nèi)容,對所述圖像標(biāo)注標(biāo)簽; 將所述標(biāo)簽與所述層次主題空間進(jìn)行匹配,生成用戶興趣列表。7. 根據(jù)權(quán)利要求6所述的用戶興趣挖掘方法,其特征在于,所述根據(jù)所述移動(dòng)終端的 圖庫中圖像的內(nèi)容對所述圖像標(biāo)注標(biāo)簽的步驟之前還包括: 對所述圖庫中的圖像進(jìn)行聚類分組。8. 根據(jù)權(quán)利要求7所述的用戶興趣挖掘方法,其特征在于,所述對所述圖庫中的圖像 進(jìn)行聚類分組包括: 根據(jù)圖像的顏色特征、形狀特征或/和紋理特征對所述圖庫中的圖像進(jìn)行聚類分組。9. 根據(jù)權(quán)利要求6所述的用戶興趣挖掘方法,其特征在于,所述根據(jù)所述移動(dòng)終端的 圖庫中圖像的內(nèi)容,對所述圖像標(biāo)注標(biāo)簽,包括: 從圖像-標(biāo)簽庫中檢索與所述圖庫中待標(biāo)注圖像的內(nèi)容相似的圖像,獲取檢索出的圖 像的標(biāo)簽,從中選擇顯著詞語作為所述待標(biāo)注圖像的標(biāo)簽予以標(biāo)注。10. 根據(jù)權(quán)利要求6-9任一項(xiàng)所述的用戶興趣挖掘方法,其特征在于,所述將所述標(biāo)簽 與所述層次主題空間進(jìn)行匹配,生成用戶興趣列表,包括: 將每一所述標(biāo)簽作為查詢詞語檢索層次主題空間,獲取與所述標(biāo)簽匹配的主題,生成 排序的主題列表作為用戶興趣列表。
【專利摘要】本發(fā)明公開了一種基于用戶興趣挖掘的移動(dòng)終端和用戶興趣挖掘方法,所述移動(dòng)終端包括:主題空間構(gòu)建模塊,用于基于開發(fā)目錄項(xiàng)目構(gòu)建層次主題空間;圖像標(biāo)簽標(biāo)注模塊,用于根據(jù)所述移動(dòng)終端的圖庫中圖像的內(nèi)容,對所述圖像標(biāo)注標(biāo)簽;用戶興趣獲取模塊,用于將所述標(biāo)簽與所述層次主題空間進(jìn)行匹配,生成用戶興趣列表。本發(fā)明直接由移動(dòng)終端基于圖庫中的圖片或照片獲取用戶喜歡的景物、動(dòng)物、人物等第一手資料,分析挖掘出更加全面和準(zhǔn)確的用戶興趣。挖掘出的用戶興趣可以應(yīng)用于推斷用戶消費(fèi)水平、對產(chǎn)品的偏好等,為用戶提供更貼心、可靠的產(chǎn)品和服務(wù)。
【IPC分類】G06F17/30
【公開號】CN105373596
【申請?zhí)枴緾N201510703833
【發(fā)明人】張立健
【申請人】努比亞技術(shù)有限公司
【公開日】2016年3月2日
【申請日】2015年10月27日