一種多媒體熱點(diǎn)分析方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種信息管理的方法,特別是一種多媒體熱點(diǎn)分析方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的不斷成熟,我們?nèi)缃裆钤谝粋€信息爆炸的時代,媒體每天需 要面對的信息量成幾何數(shù)的增長,如何處理這些信息,將其分門別類并從中確定熱點(diǎn)信息 一直困擾著各大媒體,若采取人工分類的方法過于依賴操作人員的經(jīng)驗且工作量大,若使 用軟件自動分類則準(zhǔn)確率低,且無法從中篩選出熱點(diǎn)。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的在于提供一種多媒體熱點(diǎn)分析方法,運(yùn)用該方法可以將搜集到的媒 體信息,按照相似度進(jìn)行自動聚類,并將達(dá)到關(guān)注次數(shù)的媒體信息設(shè)定為熱點(diǎn)。
[0004]實(shí)現(xiàn)本發(fā)明目的的技術(shù)方案是:一種多媒體熱點(diǎn)分析方法,包括一個數(shù)據(jù)庫,收 集到的每個稿件都會附加一個消息頭,根據(jù)該消息頭將稿件進(jìn)行分類,并以16進(jìn)制的形式 將稿件分門別類的存入該數(shù)據(jù)庫中,其特征在于包括以下步驟: 1. 1.通過消息頭,按不同類型隨機(jī)從數(shù)據(jù)庫中抽出文件,形成文本文檔群; 1.2.將16進(jìn)制的文本文檔群,隨機(jī)分散到二維網(wǎng)絡(luò)空間中,來對其實(shí)行并發(fā)掃描。
[0005] 1. 3.每次并發(fā)掃描,都將計算每次掃描過的文檔與其他的文檔相似的程度,來判 斷是否納入熱點(diǎn)范圍; 1. 4.如果其中的線程掃描文檔為空時,會隨機(jī)的去掃描其中一個與相鄰的相似度較低 的文檔,如果其線程處于閑置狀態(tài)時,并且其處理的文檔與附近的線程的處理文檔相似度 較高,該線程會放下其處理的文檔; 1. 5.通過循環(huán)操作步驟1. 3、1. 4,相似或者相關(guān)的文檔,將通過不斷的群體相似度被 聚集在同一個區(qū)域,一次篩選完成; 1.6.初始化連接權(quán)值w,學(xué)習(xí)率a,鄰域半徑Nbo,將需要掃描的文本文檔設(shè)定一個范 圍,連接權(quán)值w代表每個線程; 1. 7.對所有范圍內(nèi)的文本取樣; 1. 8.將文檔分詞,并構(gòu)建向量空間模型,將文檔表示成可計算的矩陣; 1.9.將取樣的文本文檔進(jìn)行分詞區(qū)別分類,分別分入到構(gòu)建的向量空間模型中; 1. 10.將每個向量空間模型中的文本文檔,通過歐氏距離來比較,計算連接權(quán)向量與 輸入文檔之間的距離,值最小的神經(jīng)元便是獲勝神經(jīng)元; 1. 11.更新獲勝神經(jīng)元及其鄰域內(nèi)所有神經(jīng)元的連接權(quán)值,而鄰域外的神經(jīng)元的連接 權(quán)值保持不變; 1. 12.調(diào)整學(xué)習(xí)率a和鄰域半徑Nbo,為了保證算法的收斂,學(xué)習(xí)率的取值一般在0到 1之間,且隨著學(xué)習(xí)代數(shù)的增加而遞減;鄰域半徑也隨著學(xué)習(xí)代數(shù)的增加而遞減,最后只有 獲勝結(jié)點(diǎn)在學(xué)習(xí); 1. 13.重復(fù)步驟1. 7~1. 12,直至算法收斂或達(dá)到最大迭代次數(shù)為止,以得到熱點(diǎn)數(shù) 據(jù); 1.14.通過得出的熱點(diǎn)數(shù)據(jù),與其他媒體的版面進(jìn)行對比,比較其重復(fù)度,重復(fù)度最高 的便是最終的熱點(diǎn)數(shù)據(jù); 1. 15.通過得出的最終熱點(diǎn)數(shù)據(jù),將其排序,并分色顯示,通過每個消息頭中的不同ip數(shù)據(jù),生成信息地圖,將已經(jīng)分好色的熱點(diǎn),顯示在地圖上,讓用戶清楚、明朗的了解到現(xiàn)今 的熱點(diǎn)。
[0006]而且步驟1. 2~1. 5采用的是基于蟻群文檔聚類算法,具體計算步驟如下: 2.1. 算法初始化階段,文本集中的文檔隨機(jī)的被映射到一個二維平面的網(wǎng)格空間中, 所遵循的映射規(guī)則是每一個網(wǎng)格中只能容納唯一一個文檔,也就是說,不可以重疊的將不 同文檔映射到同一個網(wǎng)格中,同時一定數(shù)量的螞蟻被散布到該二維平面上; 2.2. 計算群體相似度密度,每個單一的螞蟻隨機(jī)的在二維網(wǎng)格空間中移動,選擇一 個文檔,然后拾起這篇文檔,并攜帶著它在二維網(wǎng)格空間中隨機(jī)的移動,每移動一次,每只 螞蟻都要計算它所攜帶的文檔或者它所在網(wǎng)格中的文檔與周圍環(huán)境的群體相似度,用以決 定是否拾起或者放下該文檔,若一只螞蟻所在的位置為r,它所在環(huán)境的群體相似度密度 f(〇i)定義如下:
【主權(quán)項】
1. 一種多媒體熱點(diǎn)分析方法,包括一個數(shù)據(jù)庫,收集到的每個稿件都會附加一個消息 頭,根據(jù)該消息頭將稿件進(jìn)行分類,并以16進(jìn)制的形式將稿件分門別類的存入該數(shù)據(jù)庫 中,其特征在于包括以下步驟: I. 1.通過消息頭,按不同類型隨機(jī)從數(shù)據(jù)庫中抽出文件,形成文本文檔群; 1. 2.將16進(jìn)制的文本文檔群,隨機(jī)分散到二維網(wǎng)絡(luò)空間中,來對其實(shí)行并發(fā)掃描; 1. 3.每次并發(fā)掃描,都將計算每次掃描過的文檔與其他的文檔相似的程度,來判斷是 否納入熱點(diǎn)范圍; 1. 4.如果其中的線程掃描文檔為空時,會隨機(jī)的去掃描其中一個與相鄰的相似度較低 的文檔,如果其線程處于閑置狀態(tài)時,并且其處理的文檔與附近的線程的處理文檔相似度 較高,該線程會放下其處理的文檔; 1. 5.通過循環(huán)操作步驟1. 3、1. 4,相似或者相關(guān)的文檔,將通過不斷的群體相似度被 聚集在同一個區(qū)域,一次篩選完成; 1.6.初始化連接權(quán)值w,學(xué)習(xí)率a,鄰域半徑Nbo,將需要掃描的文本文檔設(shè)定一個范 圍,連接權(quán)值w代表每個線程; 1. 7.對所有范圍內(nèi)的文本取樣; 1. 8.將文檔分詞,并構(gòu)建向量空間模型,將文檔表示成可計算的矩陣; 1.9.將取樣的文本文檔進(jìn)行分詞區(qū)別分類,分別分入到構(gòu)建的向量空間模型中; 1. 10.將每個向量空間模型中的文本文檔,通過歐氏距離來比較,計算連接權(quán)向量與輸 入文檔之間的距離,值最小的神經(jīng)元便是獲勝神經(jīng)元; 1. 11.更新獲勝神經(jīng)元及其鄰域內(nèi)所有神經(jīng)元的連接權(quán)值,而鄰域外的神經(jīng)元的連接 權(quán)值保持不變; 1. 12.調(diào)整學(xué)習(xí)率a和鄰域半徑Nbo,為了保證算法的收斂,學(xué)習(xí)率的取值一般在0到 1之間,且隨著學(xué)習(xí)代數(shù)的增加而遞減;鄰域半徑也隨著學(xué)習(xí)代數(shù)的增加而遞減,最后只有 獲勝結(jié)點(diǎn)在學(xué)習(xí); 1. 13.重復(fù)步驟1. 7~1. 12,直至算法收斂或達(dá)到最大迭代次數(shù)為止,以得到熱點(diǎn)數(shù) 據(jù); 1.14.通過得出的熱點(diǎn)數(shù)據(jù),與其他媒體的版面進(jìn)行對比,比較其重復(fù)度,重復(fù)度最高 的便是最終的熱點(diǎn)數(shù)據(jù); 1. 15.通過得出的最終熱點(diǎn)數(shù)據(jù),將其排序,并分色顯示,通過每個消息頭中的不同ip 數(shù)據(jù),生成信息地圖,將已經(jīng)分好色的熱點(diǎn),顯示在地圖上,讓用戶清楚、明朗的了解到現(xiàn)今 的熱點(diǎn)。
2. 根據(jù)權(quán)利要求1所述的一種多媒體熱點(diǎn)分析方法,其特征在于:步驟1. 2~1. 5采 用的是基于蟻群文檔聚類算法,具體計算步驟如下: 2.1. 算法初始化階段,文本集中的文檔隨機(jī)的被映射到一個二維平面的網(wǎng)格空間中, 所遵循的映射規(guī)則是每一個網(wǎng)格中只能容納唯一一個文檔,也就是說,不可以重疊的將不 同文檔映射到同一個網(wǎng)格中,同時一定數(shù)量的螞蟻被散布到該二維平面上; 2.2. 計算群體相似度密度,每個單一的螞蟻隨機(jī)的在二維網(wǎng)格空間中移動,選擇一 個文檔,然后拾起這篇文檔,并攜帶著它在二維網(wǎng)格空間中隨機(jī)的移動,每移動一次,每只 螞蟻都要計算它所攜帶的文檔或者它所在網(wǎng)格中的文檔與周圍環(huán)境的群體相似度,用以決 定是否拾起或者放下該文檔,若一只螞蟻所在的位置為r,它所在環(huán)境的群體相似度密度f(〇i)定義如下:
其中〇iGNerighsXs(r)表示的是文檔在位置r的sXs邊長的鄰域,d(oi,oj)表 示兩篇文檔〇i與〇j之間的文本距離,a是群體相似度系數(shù),也叫做相異度因子,它的大 小不僅會影響最終的蟻群聚類的簇數(shù),還會影響到算法的收斂速度,采用余弦相似度公式 作為文檔間的相似度計量:
2.3.拾起和放下,如果一只螞蟻沒有攜帶任何文檔移動,那么它將拾起與周圍環(huán)境的 群體相似度較低的文檔,如果一只螞蟻正在攜帶一篇文檔移動,那么當(dāng)螞蟻處于空網(wǎng)格,并 且這篇文檔與周圍環(huán)境的群體相似度較高時,它將放下這篇文檔,閾值概率Pr將作為判斷 依據(jù),拾起概率Pp(〇i)和放下概率Pd(oi)定義如下:
【專利摘要】一種信息管理的方法,特別是一種多媒體熱點(diǎn)分析方法,通過運(yùn)用基于蟻群文檔聚類算法以及SOM(自組織映射)聚類算法將集到的媒體信息,按照相似度進(jìn)行自動聚類,以達(dá)到多媒體熱點(diǎn)分析的目的。本發(fā)明的優(yōu)點(diǎn)在于:運(yùn)用該方法可以將搜集到的媒體信息,按照相似度進(jìn)行自動聚類,并將達(dá)到關(guān)注次數(shù)的媒體信息設(shè)定為熱點(diǎn)。
【IPC分類】G06F17-30
【公開號】CN104715024
【申請?zhí)枴緾N201510094167
【發(fā)明人】蔣大可, 何俊, 莫燕峰
【申請人】湖北光谷天下傳媒股份有限公司
【公開日】2015年6月17日
【申請日】2015年3月3日