一種從用戶url訪問記錄中提取用戶興趣話題的系統(tǒng)的制作方法

文檔序號：6522129閱讀：286來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種從用戶url訪問記錄中提取用戶興趣話題的系統(tǒng)的制作方法
【專利摘要】一種從用戶url訪問記錄中提取用戶興趣話題的系統(tǒng)，所述系統(tǒng)包括搜索詞獲取模塊、數(shù)據(jù)過濾和整理模塊、用戶興趣話題和話題搜索詞提取模塊、用戶搜索詞預(yù)測模塊、搜索網(wǎng)址數(shù)據(jù)庫、用戶-話題數(shù)據(jù)庫和話題-搜索詞數(shù)據(jù)庫，其基于用戶-搜索詞列表數(shù)據(jù)，得到用戶對所有興趣話題中的搜索詞的權(quán)重，確定用戶可能會喜歡的搜索詞。本系統(tǒng)將用戶、話題與搜索詞相互關(guān)聯(lián)，針對性強、個性化程度高、用戶體驗好。
【專利說明】—種從用戶url訪問記錄中提取用戶興趣話題的系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種從用戶url訪問記錄中提取用戶興趣話題的系統(tǒng)。
【背景技術(shù)】
[0002]現(xiàn)有的搜索詞預(yù)測，大多是基于對多數(shù)人的搜索行為和習(xí)慣進行統(tǒng)計分析或數(shù)據(jù)挖掘，得到的是大多數(shù)人的搜索偏好，其預(yù)測的結(jié)論立足于大數(shù)據(jù)，預(yù)測結(jié)果準確度高，能得出用戶的一般行為。
[0003]但同時，現(xiàn)有的搜索詞預(yù)測缺乏一定的靈話性，用戶得到的是與其他用戶相同的預(yù)測結(jié)果，個性化程度低，用戶體驗差。

【發(fā)明內(nèi)容】

[0004]為解決上述問題，本發(fā)明提供了一種從用戶url訪問記錄中提取用戶興趣話題的系統(tǒng)，所述系統(tǒng)包括搜索詞獲取模塊、數(shù)據(jù)過濾和整理模塊、用戶興趣話題和話題搜索詞提取模塊、用戶搜索詞預(yù)測模塊、搜索網(wǎng)址數(shù)據(jù)庫、用戶-話題數(shù)據(jù)庫和話題-搜索詞數(shù)據(jù)庫，
[0005]其中，搜索網(wǎng)址數(shù)據(jù)庫保存網(wǎng)址數(shù)據(jù)，包括已知的搜索引擎的域名、名稱、搜索詞在url中的字段位置、收錄日期、上次更新日期以及本條目被匹配次數(shù)等；搜索詞獲取模塊包括搜索詞識別子模塊，搜索詞識別子模塊根據(jù)搜索網(wǎng)址數(shù)據(jù)庫中的已有數(shù)據(jù)，識別出用戶訪問的用戶url訪問記錄中的搜索詞并進行提取；數(shù)據(jù)過濾和整理模塊對識別到的用戶搜索詞進行數(shù)據(jù)預(yù)處理，得到并輸出用戶-搜索詞列表數(shù)據(jù)；用戶興趣話題和話題搜索詞提取模塊根據(jù)數(shù)據(jù)過濾和整理模塊輸出的用戶-搜索詞列表數(shù)據(jù)提取用戶感興趣的話題以及屬于同一話題的搜索詞列表數(shù)據(jù)，提取的結(jié)果分別保存到用戶-話題數(shù)據(jù)庫和話題-搜索詞數(shù)據(jù)庫中，并計算用戶在興趣話題上的權(quán)重和此話題內(nèi)的所有搜索詞的占比權(quán)重；用戶搜索詞預(yù)測模塊將用戶在興趣話題上的權(quán)重乘以此話題內(nèi)的所有搜索詞的占比權(quán)重，得到用戶對所有興趣話題中的搜索詞的權(quán)重，然后，將用戶對搜索詞的權(quán)重按照大小排序，取排名靠前的搜索詞作為用戶可能會喜歡的搜索詞。
[0006]特別的，搜索詞識別子模塊首先從用戶url訪問記錄中取出網(wǎng)址記錄，根據(jù)標準網(wǎng)址格式解析將其解析成多級域名和多級目錄兩部分；然后，在搜索網(wǎng)址數(shù)據(jù)庫中檢索域名，如正確識別，就得到此域名下搜索詞字段位置，進而在多級目錄中將該搜索詞字段對應(yīng)的搜索詞取出，得到用戶訪問url中的搜索詞內(nèi)容，并保存。
[0007]進一步，搜索詞獲取模塊還包括搜索網(wǎng)址數(shù)據(jù)庫更新子模塊，其用于維護網(wǎng)址數(shù)據(jù)庫，包括增加新的搜索網(wǎng)址和去除無效的搜索網(wǎng)址子模塊，若在搜索網(wǎng)址數(shù)據(jù)庫中沒有正確識別出用戶訪問的用戶url訪問記錄中的搜索詞，則將此url網(wǎng)頁地址計入匹配失敗日志文件；搜索網(wǎng)址數(shù)據(jù)庫更新子模塊定期掃描匹配失敗日志文件，判斷失敗網(wǎng)址是否為滿足OpenSearch標準的搜索網(wǎng)址，若滿足，則將其將此網(wǎng)頁的名稱、多級域名、搜索詞在url網(wǎng)頁地址的字段位置、收錄日期等信息作為一條新紀錄自動加入搜索網(wǎng)址數(shù)據(jù)庫；定期檢索搜索詞網(wǎng)址數(shù)據(jù)庫中的匹配次數(shù)和修改次數(shù)兩列，將匹配次數(shù)為O以及修改次數(shù)為O的記錄去除。
[0008]此外，本系統(tǒng)還包括用戶編號與搜索詞編號還原模塊，數(shù)據(jù)過濾和整理模塊還輸出用戶列表數(shù)據(jù)和搜索詞列表數(shù)據(jù)，其中，用戶-搜索詞列表數(shù)據(jù)包括三列，分別是用戶id編號，搜索詞id編號和搜索頻次，用戶列表數(shù)據(jù)為兩列，分別是用戶代號IMSI和用戶id編號，搜索詞列表數(shù)據(jù)包括兩列，分別是搜索詞和搜索詞id編號，用戶編號與搜索詞編號還原模塊將用戶列表數(shù)據(jù)和搜索詞列表數(shù)據(jù)中的用戶id編號和搜索詞id編號還原為用戶號IMSI和搜索詞。
[0009]其中，用戶興趣話題和話題搜索詞提取模塊首先根據(jù)數(shù)據(jù)過濾和整理模塊輸出的用戶-搜索詞列表數(shù)據(jù)，構(gòu)建一個m行η列的用戶-搜索詞矩陣V，其中m，η分別為用戶的數(shù)量和搜索詞數(shù)量；矩陣V的每一行表示一個用戶的搜索記錄，行中的數(shù)值為用戶對搜索詞的搜索頻次，對于用戶未搜索的關(guān)鍵詞，用數(shù)值O填充，然后，采用非負矩陣分解的方法將用戶-搜索詞矩陣V分解為兩個非負矩陣W和H的乘積，分解用戶-搜索詞矩陣的方法是求取最優(yōu)的Wia和hw，使得求解后的最小二乘差值與原矩陣V最小，即求解以下帶有約束項的優(yōu)化目標函數(shù)，得到最優(yōu)的Wia和hbj，
[0010]
【權(quán)利要求】
1.一種從用戶url訪問記錄中提取用戶興趣話題的系統(tǒng)，所述系統(tǒng)包括搜索詞獲取模塊、數(shù)據(jù)過濾和整理模塊、用戶興趣話題和話題搜索詞提取模塊、用戶搜索詞預(yù)測模塊、搜索網(wǎng)址數(shù)據(jù)庫、用戶-話題數(shù)據(jù)庫和話題-搜索詞數(shù)據(jù)庫，其特征在于: 搜索網(wǎng)址數(shù)據(jù)庫，保存網(wǎng)址數(shù)據(jù)，包括已知的搜索引擎的域名、名稱、搜索詞在url中的字段位置、收錄日期、上次更新日期以及本條目被匹配次數(shù)等；搜索詞獲取模塊，包括搜索詞識別子模塊，搜索詞識別子模塊根據(jù)搜索網(wǎng)址數(shù)據(jù)庫中的已有數(shù)據(jù)，識別出用戶訪問的用戶url訪問記錄中的搜索詞并進行提?。? 數(shù)據(jù)過濾和整理模塊，對識別到的用戶搜索詞進行數(shù)據(jù)預(yù)處理，得到并輸出用戶-搜索詞列表數(shù)據(jù)；用戶興趣話題和話題搜索詞提取模塊，根據(jù)數(shù)據(jù)過濾和整理模塊輸出的用戶-搜索詞列表數(shù)據(jù)提取用戶感興趣的話題以及屬于同一話題的搜索詞列表數(shù)據(jù)，提取的結(jié)果分別保存到用戶-話題數(shù)據(jù)庫和話題-搜索詞數(shù)據(jù)庫中，并計算用戶在興趣話題上的權(quán)重和此話題內(nèi)的所行搜索詞的占比權(quán)重；用戶搜索詞預(yù)測模塊，其將用戶在興趣話題上的權(quán)重乘以此話題內(nèi)的所有搜索詞的占比權(quán)重，得到用戶對所行興趣話題中的搜索詞的權(quán)重，然后，將用戶對搜索詞的權(quán)重按照大小排序，取排名靠前的搜索詞作為用戶可能會喜歡的搜索詞。
2.如權(quán)利要求1所述的系統(tǒng)，其特征在于:搜索詞識別子模塊首先從用戶url訪問記錄中取出網(wǎng)址記錄，根據(jù)標準網(wǎng)址格式解析將其解析成多級域名和多級目錄兩部分；然后，在搜索網(wǎng)址數(shù)據(jù)庫中檢索域名，如正確識別，就得到此域名下搜索詞字段位置，進而在多級目錄中將該搜索詞字段對應(yīng)的搜索詞取出，得到用戶訪問url中的搜索詞內(nèi)容，并保存。
3.如權(quán)利要求2所述的系統(tǒng)，其特征在于:搜索詞獲取模塊還包括搜索網(wǎng)址數(shù)據(jù)庫更新子模塊，其用于維護網(wǎng)址數(shù)據(jù)庫，包括增加新的搜索網(wǎng)址和去除無效的搜索網(wǎng)址子模塊，若在搜索網(wǎng)址數(shù)據(jù)庫中沒有正確識別出用戶訪問的用戶url訪問記錄中的搜索詞，則將此url網(wǎng)頁地址計入匹配失敗日志文件；搜索網(wǎng)址數(shù)據(jù)庫更新子模塊定期掃描匹配失敗日志文件，判斷失敗網(wǎng)址是否為滿足Open Search標準的搜索網(wǎng)址，若滿足，則將其將此網(wǎng)頁的名稱、多級域名、搜索詞在url網(wǎng)頁地址的字段位置、收錄日期等信息作為一條新紀錄自動加入搜索網(wǎng)址數(shù)據(jù)庫；定期檢索搜索詞網(wǎng)址數(shù)據(jù)庫中的匹配次數(shù)和修改次數(shù)兩列，將匹配次數(shù)為O以及修改次數(shù)為O的記錄去除。
4.如權(quán)利要求1所述的系統(tǒng)，其特征在于: 本系統(tǒng)還包括用戶編號與搜索詞編號還原模塊，數(shù)據(jù)過濾和整理模塊還輸出用戶列表數(shù)據(jù)和搜索詞列表數(shù)據(jù)，其中用戶-搜索詞列表數(shù)據(jù)包括三列，分別是用戶id編號，搜索詞id編號和搜索頻次，用戶列表數(shù)據(jù)為兩列，分別是用戶代號IMSI和用戶id編號，搜索詞列表數(shù)據(jù)包括兩列，分別是搜索詞和搜索詞id編號，用戶編號與搜索詞編號還原模塊將用戶列表數(shù)據(jù)和搜索詞列表數(shù)據(jù)中的用戶id編號和搜索詞id編號還原為用戶號IMSI和搜索詞。
5.如權(quán)利要求1所述的系統(tǒng)，其特征在于:用戶興趣話題和話題搜索詞提取模塊首先根據(jù)數(shù)據(jù)過濾和整理模塊輸出的用戶-搜索詞列表數(shù)據(jù)，構(gòu)建一個m行η列的用戶-搜索詞矩陣V，其中m，η分別為用戶的數(shù)量和搜索詞數(shù)量；矩陣V的每一行表示一個用戶的搜索記錄，行中的數(shù)值為用戶對搜索詞的搜索頻次，對于用戶未搜索的關(guān)鍵詞，用數(shù)值O填充，然后，采用非負矩陣分解的方法將用戶-搜索詞矩陣V分解為兩個非負矩陣W和H的乘積，分解用戶-搜索詞矩陣的方法是求取最優(yōu)的Wia和hw，使得求解后的最小二乘差值與原矩陣V最小，即求解以下帶有約束項的優(yōu)化目標函數(shù)，得到最優(yōu)的Wia和hbj，

6.如權(quán)利要求1所述的系統(tǒng)，其特征在于:本系統(tǒng)還包括用戶興趣更新模塊，其利用過濾和整理模塊處理輸出的用戶-搜索詞列表數(shù)據(jù)更新用戶的興趣話題，對系統(tǒng)中已有記錄用戶，更新用戶興趣話題；對于不存在記錄的用戶，直接利用新數(shù)據(jù)計算得到的話題作為用戶的興趣話題。
7.如權(quán)利要求6所述的系統(tǒng)，其特征在于:用戶-話題更新模塊的更新方法如下: 對于系統(tǒng)中出現(xiàn)的新用戶，將其搜索記錄構(gòu)建為一個長度為η的向量u，η是系統(tǒng)已識別的搜索詞數(shù)量，向量的每個維度的數(shù)值用新用戶搜索對于詞匯的頻次，對于用戶沒有搜索的詞匯，用O進行填充，利用非負最小二乘法求解方程
HTX=U, 其中，Ht為話題-搜索詞矩陣的轉(zhuǎn)置，每一列表示一個話題下的高頻關(guān)鍵詞的權(quán)重，求解得到的長度為r的向量X就是用戶對r個興趣話題的權(quán)重；對于系統(tǒng)已有的用戶，將其新產(chǎn)生的搜索記錄視作一個新用戶產(chǎn)生的記錄，然后對其使用上述針對新用戶的興趣話題提取方法對其提取話題得到長度為r的話題向量unOT，然后用一個更新參數(shù)α對用戶的興趣話題進行更新，

8.如權(quán)利要求1所述的系統(tǒng)，其特征在于:話題搜索詞更新模塊利用數(shù)據(jù)過濾和整理模塊處理輸出的用戶-搜索詞列表數(shù)據(jù)來更新話題-搜索詞數(shù)據(jù)庫，首先利用新數(shù)據(jù)計算新的話題，然后將計算結(jié)果與原有話題進行比較，并進行合并和更新。
9.如權(quán)利要求1所述的系統(tǒng)，其特征在于:話題-搜索詞更新模塊更新話題的方法包括: 定期積累一定量的用戶-搜索詞數(shù)據(jù)后，進行一次非負的矩陣分解，分解得到WnOT和Hnew矩陣，Hnew為新的話題-搜索詞矩陣，矩陣大小為mn?*rn?，原有的話題-搜索詞矩陣為H-，對Hmw中的每一個話題hnOT (—行)，計算其與原行Htjld中的每一個話題Iitjld的余弦相似度:
【文檔編號】G06F17/30GK103714120SQ201310643379
【公開日】2014年4月9日申請日期:2013年12月3日優(yōu)先權(quán)日:2013年12月3日
【發(fā)明者】劉臻, 彭正超, 徐錫榮, 楊愉存申請人:上海河廣信息科技有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉臻;彭正超;徐錫榮;楊愉存
技術(shù)所有人：上海河廣信息科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種從用戶url訪問記錄中提取用戶興趣話題的系統(tǒng)的制作方法