基于網(wǎng)絡(luò)化運(yùn)營的產(chǎn)品布局分析系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
:
[0001]本發(fā)明涉及產(chǎn)品網(wǎng)絡(luò)化運(yùn)營技術(shù)領(lǐng)域,具體地說是一種能夠有效提取現(xiàn)有信息,并根據(jù)現(xiàn)有信息給出相對精確的預(yù)測結(jié)果的基于網(wǎng)絡(luò)化運(yùn)營的產(chǎn)品布局分析系統(tǒng)。
【背景技術(shù)】
:
[0002]復(fù)雜產(chǎn)品的運(yùn)營過程中,前期需要對產(chǎn)品進(jìn)行投資規(guī)劃,投資規(guī)劃的設(shè)定需要根據(jù)市場占有率以及用戶偏好制定,現(xiàn)有的市場可行性報告通過工作人員人工統(tǒng)計后,推算獲得,隨著科技的發(fā)展,互聯(lián)網(wǎng)得到了大規(guī)模應(yīng)用,Web網(wǎng)頁在存在大量有價值的信息的同時也存在大量諸如導(dǎo)航、版權(quán)、廣告等與正文無關(guān)的噪聲信息。噪聲信息的存在使得后續(xù)信息服務(wù)的數(shù)據(jù)質(zhì)量無法保證。從網(wǎng)頁中提取有價值的內(nèi)容來保證數(shù)據(jù)質(zhì)量無疑可以為后續(xù)的網(wǎng)頁信息處理應(yīng)用奠定基礎(chǔ)。在信息搜索、信息過濾、文本分類、文本聚類、文摘等應(yīng)用中,去除掉網(wǎng)頁中的噪聲信息,提取網(wǎng)頁的內(nèi)容是非常重要的一步。比如在信息搜索中,在去除掉噪聲信息的網(wǎng)頁內(nèi)容基礎(chǔ)上建立索引可以有效地提高搜索的準(zhǔn)確率;而在信息過濾、文本分類、文本聚類和網(wǎng)頁自動摘要等應(yīng)用中,準(zhǔn)確的網(wǎng)頁內(nèi)容對系統(tǒng)的性能有很大的提升作用。
【發(fā)明內(nèi)容】
:
[0003]本發(fā)明針對現(xiàn)有技術(shù)中存在的缺點(diǎn)和不足,提出了一種能夠有效提取現(xiàn)有信息,并根據(jù)現(xiàn)有信息給出相對精確的預(yù)測結(jié)果的基于網(wǎng)絡(luò)化運(yùn)營的產(chǎn)品布局分析系統(tǒng)。
[0004]本發(fā)明可以通過以下措施達(dá)到:
[0005]—種基于網(wǎng)絡(luò)化運(yùn)營的產(chǎn)品布局分析系統(tǒng),其特征在于設(shè)有信息處理中心服務(wù)器,所述信息處理中心服務(wù)器中設(shè)有數(shù)據(jù)提取單元、數(shù)據(jù)預(yù)處理單元、數(shù)據(jù)挖掘單元以及數(shù)據(jù)輸出單元,其中所述數(shù)據(jù)提取單元包括用于獲取現(xiàn)有用戶數(shù)以及用戶指標(biāo)特征的現(xiàn)有用戶數(shù)據(jù)提取單元、用于獲取某一區(qū)域用戶偏好的潛在用戶數(shù)據(jù)提取單元,所述潛在用戶數(shù)據(jù)提取單元設(shè)有文本類數(shù)據(jù)處理單元以及圖像類數(shù)據(jù)處理單元,所述圖像類數(shù)據(jù)處理單元設(shè)有對圖片進(jìn)行視覺布局分析的布局塊生成單元、對每個布局塊進(jìn)行光學(xué)字符識別,以生成所述布局塊的識別文本的文本生成模塊、對所述網(wǎng)頁進(jìn)行分析,以建立所述網(wǎng)頁的文檔對象模型樹的文檔對象模型樹模塊、利用所述文檔對象模型樹中的文本節(jié)點(diǎn)的真實文本與所述布局塊的識別文本之間的對應(yīng)關(guān)系,將所述文檔對象模型樹中的每個文本節(jié)點(diǎn)映射到所述布局塊之一中的文本映射模塊。
[0006]本發(fā)明所述現(xiàn)有用戶數(shù)據(jù)提取單元包括數(shù)據(jù)獲取模塊、數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)挖掘模塊以及數(shù)據(jù)輸出模塊,所述數(shù)據(jù)獲取模塊用于獲取某地區(qū)一段時間內(nèi)的用戶數(shù),以及業(yè)務(wù)中對于用戶數(shù)有影響的5個指標(biāo),包括:市場占有率、產(chǎn)品普及率、每月節(jié)假日天數(shù)、居民可支配收入及常駐人口數(shù);所述數(shù)據(jù)預(yù)處理模塊用于對數(shù)據(jù)獲取模塊采集的數(shù)據(jù)進(jìn)行歸一化處理。
[0007]本發(fā)明所述潛在用戶數(shù)據(jù)提取單元中的文本類數(shù)據(jù)處理單元包括字符串接收單元、相關(guān)性特征值計算單元和相關(guān)性特征值擬合單元,其中:字符串接收單元,用于接收第一字符串和第二字符串;相關(guān)性特征值計算單元,用于計算第一字符串與第二字符串的文本相關(guān)性特征值以及第一字符串與第二字符串的語義相關(guān)性特征值;相關(guān)性特征值擬合單元,用于基于邏輯回歸模型將所述文本相關(guān)性特征值與語義相關(guān)性特征值擬合成第一字符串與第二字符串的相關(guān)性特征值。
[0008]本發(fā)明所述潛在用戶數(shù)據(jù)提取單元中的圖像類數(shù)據(jù)處理單元也包括字符串接收單元、相關(guān)性特征值計算單元和相關(guān)性特征值擬合單元,其中:字符串接收單元,用于接收第一字符串和第二字符串;相關(guān)性特征值計算單元,用于計算第一字符串與第二字符串的文本相關(guān)性特征值以及第一字符串與第二字符串的語義相關(guān)性特征值;相關(guān)性特征值擬合單元,用于基于邏輯回歸模型將所述文本相關(guān)性特征值與語義相關(guān)性特征值擬合成第一字符串與第二字符串的相關(guān)性特征值。
[0009]本發(fā)明所述數(shù)據(jù)挖掘單元中設(shè)有神經(jīng)網(wǎng)絡(luò)模型,包括四層,第一層有I個神經(jīng)元,第二層有I個神經(jīng)元,第三層有6個神經(jīng)元,第四層有I個神經(jīng)元;第一層的神經(jīng)元為時間序列,第二層的神經(jīng)元為網(wǎng)絡(luò)參數(shù)初始值,第三層6個神經(jīng)元為第一層時間序列中對應(yīng)時間的用戶數(shù)以及對應(yīng)5個指標(biāo),第四層為輸出的預(yù)測的用戶數(shù);其中第一層次中,對時間序列進(jìn)行建模,將時間序列數(shù)據(jù)轉(zhuǎn)化為微分方程。
[0010]本發(fā)明與現(xiàn)有技術(shù)相比,能夠?qū)Υ罅康默F(xiàn)有數(shù)據(jù)進(jìn)行抓取、分析,進(jìn)而給出某一復(fù)雜產(chǎn)品的市場預(yù)估結(jié)果,具有估算準(zhǔn)確、效率高等顯著的優(yōu)點(diǎn)。
【附圖說明】
:
[0011]附圖1是本發(fā)明的系統(tǒng)框圖。
[0012]附圖標(biāo)記:信息處理中心服務(wù)器1、數(shù)據(jù)提取單元2、數(shù)據(jù)預(yù)處理單元3、數(shù)據(jù)挖掘單元4、數(shù)據(jù)輸出單元5。
【具體實施方式】
:
[0013]下面結(jié)合附圖對本法明作進(jìn)一步的說明。
[0014]如附圖所示,本發(fā)明提出了一種基于網(wǎng)絡(luò)化運(yùn)營的產(chǎn)品布局分析系統(tǒng),其特征在于設(shè)有信息處理中心服務(wù)器I,所述信息處理中心服務(wù)器中設(shè)有數(shù)據(jù)提取單元2、數(shù)據(jù)預(yù)處理單元3、數(shù)據(jù)挖掘單元4以及數(shù)據(jù)輸出單元5,其中所述數(shù)據(jù)提取單元2包括用于獲取現(xiàn)有用戶數(shù)以及用戶指標(biāo)特征的現(xiàn)有用戶數(shù)據(jù)提取單元、用于獲取某一區(qū)域用戶偏好的潛在用戶數(shù)據(jù)提取單元,所述潛在用戶數(shù)據(jù)提取單元設(shè)有文本類數(shù)據(jù)處理單元以及圖像類數(shù)據(jù)處理單元,所述圖像類數(shù)據(jù)處理單元設(shè)有對圖片進(jìn)行視覺布局分析的布局塊生成單元、對每個布局塊進(jìn)行光學(xué)字符識別,以生成所述布局塊的識別文本的文本生成模塊、對所述網(wǎng)頁進(jìn)行分析,以建立所述網(wǎng)頁的文檔對象模型樹的文檔對象模型樹模塊、利用所述文檔對象模型樹中的文本節(jié)點(diǎn)的真實文本與所述布局塊的識別文本之間的對應(yīng)關(guān)系,將所述文檔對象模型樹中的每個文本節(jié)點(diǎn)映射到所述布局塊之一中的文本映射模塊。
[0015]本發(fā)明所述現(xiàn)有用戶數(shù)據(jù)提取單元包括數(shù)據(jù)獲取模塊、數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)挖掘模塊以及數(shù)據(jù)輸出模塊,所述數(shù)據(jù)獲取模塊用于獲