一種網(wǎng)絡(luò)數(shù)據(jù)處理方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通訊領(lǐng)域,特別涉及一種網(wǎng)絡(luò)數(shù)據(jù)處理方法和裝置。
【背景技術(shù)】
[0002]隨著計算機技術(shù)和網(wǎng)絡(luò)的不斷發(fā)展,現(xiàn)如今已越來越多的需要對網(wǎng)絡(luò)上的各種數(shù)據(jù)進(jìn)行處理。
[0003]相關(guān)技術(shù)中,往往利用數(shù)據(jù)爬取技術(shù)從網(wǎng)絡(luò)獲取數(shù)據(jù),然后基于獲取到的數(shù)據(jù)進(jìn)行手動分析處理,但是這種分析處理數(shù)據(jù)的方式往往效率不高。因而,需要一種對數(shù)據(jù)高效處理的方式。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實施例提供一種網(wǎng)絡(luò)數(shù)據(jù)處理方法和裝置,以提高網(wǎng)絡(luò)數(shù)據(jù)處理的效率。
[0005]第一方面,提供一種網(wǎng)絡(luò)數(shù)據(jù)處理的方法,所述方法包括:
[0006]獲取網(wǎng)絡(luò)上的數(shù)據(jù);
[0007]根據(jù)獲取的所述數(shù)據(jù),采用自學(xué)習(xí)的方式生成數(shù)據(jù)處理模型;
[0008]利用所述數(shù)據(jù)處理模型對數(shù)據(jù)進(jìn)行處理。
[0009]可選地,在一個實施例中,所述數(shù)據(jù)包括項目代碼和/或項目名稱,
[0010]所述獲取網(wǎng)絡(luò)上的數(shù)據(jù)包括:獲取網(wǎng)絡(luò)上與項目代碼和/或項目名稱有關(guān)的所有記錄,所述記錄包含所述項目代碼和/或所述項目名稱;
[0011]所述根據(jù)獲取的數(shù)據(jù),采用自學(xué)習(xí)的方式生成數(shù)據(jù)處理模型包括:從獲取的所有記錄中選取預(yù)定數(shù)目的記錄形成訓(xùn)練集,根據(jù)所述訓(xùn)練集中的記錄,采用自學(xué)習(xí)的方式生成數(shù)據(jù)處理模型;
[0012]所述利用所述數(shù)據(jù)處理模型對數(shù)據(jù)進(jìn)行處理包括:利用所述數(shù)據(jù)處理模型對獲取的記錄進(jìn)行處理。
[0013]可選地,所述根據(jù)所述訓(xùn)練集中的記錄,采用自學(xué)習(xí)的方式生成數(shù)據(jù)處理模型可包括:
[0014]將所述訓(xùn)練集中的每一條記錄轉(zhuǎn)換成向量表示;
[0015]利用所述向量表示通過卷積神經(jīng)網(wǎng)絡(luò)生成數(shù)據(jù)處理模型。
[0016]可選地,在本發(fā)明的一個實施例中,所述項目為股票,所述利用所述數(shù)據(jù)處理模型對后續(xù)獲取的記錄進(jìn)行處理包括:
[0017]利用所述數(shù)據(jù)處理模型對獲取的記錄進(jìn)行處理,以得到每一條記錄的預(yù)測值;
[0018]對得到的所有預(yù)測值計算平均值,以得到股票的平均預(yù)測值;
[0019]基于所述平均預(yù)測值,確定所述股票的漲跌。
[0020]可選地,所述預(yù)測值的范圍為-1到1,所述基于所述平均預(yù)測值,確定所述股票的漲跌包括:
[0021]如果所述平均預(yù)測值大于0,則確定所述股票的趨勢為漲;
[0022]如果所述平均預(yù)測值小于0,則確定所述股票的趨勢為跌。
[0023]第二方面,提供一種網(wǎng)絡(luò)數(shù)據(jù)處理的裝置,所述裝置包括:
[0024]獲取模塊,用于獲取網(wǎng)絡(luò)上的數(shù)據(jù);
[0025]生成模塊,用于根據(jù)所述獲取模塊獲取的所述數(shù)據(jù),采用自學(xué)習(xí)的方式生成數(shù)據(jù)處理模型;
[0026]處理模塊,用于利用生成模塊生成的所述數(shù)據(jù)處理模型對數(shù)據(jù)進(jìn)行處理。
[0027]可選地,在本發(fā)明的一個實施例中,所述數(shù)據(jù)包括項目代碼和/或項目名稱,
[0028]所述獲取模塊具體用于:獲取網(wǎng)絡(luò)上預(yù)定數(shù)目的記錄,以形成訓(xùn)練集,所述記錄包含所述項目代碼和/或所述項目名稱;
[0029]所述生成模塊具體用于:根據(jù)所述訓(xùn)練集中的記錄,采用自學(xué)習(xí)的方式生成數(shù)據(jù)處理模型;
[0030]所述處理模塊具體用于:利用所述數(shù)據(jù)處理模型對后續(xù)獲取的記錄進(jìn)行處理。
[0031]可選地,所述生成模塊具體用于:
[0032]將所述訓(xùn)練集中的每一條記錄轉(zhuǎn)換成向量表示;
[0033]利用所述向量表示通過卷積神經(jīng)網(wǎng)絡(luò)生成數(shù)據(jù)處理模型。
[0034]可選地,在本發(fā)明的一個實施例中,所述項目為股票,所述處理模塊具體用于:
[0035]利用所述數(shù)據(jù)處理模型對后續(xù)獲取的記錄進(jìn)行處理,以得到每一條記錄的預(yù)測值;
[0036]對得到的所有預(yù)測值計算平均值,以得到股票的平均預(yù)測值;
[0037]基于所述平均預(yù)測值,確定所述股票的漲跌。
[0038]可選地,所述預(yù)測值的范圍為-1到1,所述處理模塊具體用于:
[0039]如果所述平均預(yù)測值大于0,則確定所述股票的趨勢為漲;
[0040]如果所述平均預(yù)測值小于0,則確定所述股票的趨勢為跌。
[0041]本發(fā)明實施例提供的網(wǎng)絡(luò)數(shù)據(jù)處理的方法和裝置,在得到網(wǎng)絡(luò)數(shù)據(jù)后,基于獲取得到的數(shù)據(jù),采用自學(xué)習(xí)的方式來生成數(shù)據(jù)處理模型,這樣一來,后續(xù)即可生成的數(shù)據(jù)處理模型來對數(shù)據(jù)進(jìn)行處理,實現(xiàn)了數(shù)據(jù)處理的自動化,提高了數(shù)據(jù)處理的效率。
【附圖說明】
[0042]為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0043]圖1是本發(fā)明實施例提供的網(wǎng)絡(luò)數(shù)據(jù)處理的方法的流程圖;
[0044]圖2是本發(fā)明實施例提供的網(wǎng)絡(luò)數(shù)據(jù)處理的裝置的結(jié)構(gòu)框圖。
【具體實施方式】
[0045]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施方式作進(jìn)一步地詳細(xì)描述。
[0046]圖1是本發(fā)明實施例提供的一種網(wǎng)絡(luò)數(shù)據(jù)處理的方法。參照圖1,本發(fā)明實施例提供的網(wǎng)絡(luò)數(shù)據(jù)處理的方法可包括:
[0047]11、獲取網(wǎng)絡(luò)上的數(shù)據(jù)。
[0048]其中,所述數(shù)據(jù)可以為用戶需要進(jìn)行處理分析的任何類型的數(shù)據(jù),例如像股票名稱、股票代碼之類的與股票有關(guān)的數(shù)據(jù),與商品價格有關(guān)的數(shù)據(jù)等等。需要了解的是,下文說明在針對與股票有關(guān)的數(shù)據(jù)描述時,該說明也可以適用于與商品價格有關(guān)的數(shù)據(jù),或視使用情況而定,也可以適用于其他類型的數(shù)據(jù)。
[0049]本發(fā)明實施例中的所述數(shù)據(jù)可以為存在于網(wǎng)絡(luò)社區(qū)的文字?jǐn)?shù)據(jù),例如,網(wǎng)友的評論和發(fā)帖等等。
[0050]所述獲取網(wǎng)絡(luò)上的數(shù)據(jù)可以利用爬取技術(shù)來完成。一種具體的獲取數(shù)據(jù)的方式為:內(nèi)存中維持一個隊列來存放URL,同時新建線程池,線程池中的線程不斷讀取隊列中的URL,并利用HTTP請求拉取該URL下的頁面內(nèi)容,在得到頁面內(nèi)容后,解析該頁面內(nèi)容,并將該頁面內(nèi)容的URL添加到所述隊列中,之后繼續(xù)對該頁面內(nèi)容中的文字進(jìn)行解析,并存入數(shù)據(jù)庫。
[0051]12、根據(jù)獲取的所述數(shù)據(jù),采用自學(xué)習(xí)的方式生成數(shù)據(jù)處理模型。
[0052]13、利用所述數(shù)據(jù)處理模型對數(shù)據(jù)進(jìn)行處理。
[0053]本發(fā)明實施例提供的網(wǎng)絡(luò)數(shù)據(jù)處理的方法,在得到網(wǎng)絡(luò)數(shù)據(jù)后,基于獲取得到的數(shù)據(jù),采用自學(xué)習(xí)的方式來生成數(shù)據(jù)處理模型,這樣一來,后續(xù)即可生成的數(shù)據(jù)處理模型來對數(shù)據(jù)進(jìn)行處理,實現(xiàn)了數(shù)據(jù)處理的自動化,提高了數(shù)據(jù)處理的效率。
[0054]可選地,在本發(fā)明的一個實施例中,所述數(shù)據(jù)可包括項目代碼和/或項目名稱,所述項目可以為股票,也可以為商品等。即在獲取數(shù)據(jù)時可以獲取包含股票代碼和/或股票名稱的記錄,也可以獲取包含商品名稱和/或商品代碼的記錄。其中,記錄的數(shù)目可以預(yù)先進(jìn)行設(shè)置。步驟11中所述獲取網(wǎng)絡(luò)上的數(shù)據(jù)可包括:獲取網(wǎng)絡(luò)上與項目代碼和/或項目名稱有關(guān)的所有記錄,所述記錄包含所述項目代碼和/或所述項目名稱。
[0055]相應(yīng)地,步驟12中,所述根據(jù)獲取的數(shù)據(jù),采用自學(xué)習(xí)的方式生成數(shù)據(jù)處理模型包括:從獲取的所有記錄中選取預(yù)定數(shù)目的記錄形成訓(xùn)練集,根據(jù)所述訓(xùn)練集中的記錄,采用自學(xué)習(xí)的方式生成數(shù)據(jù)處理模型。
[0056]相應(yīng)地,步驟13中,所述利用所述數(shù)據(jù)處理模型對數(shù)據(jù)進(jìn)行處理包括:利用所述數(shù)據(jù)處理模型對獲取的記錄進(jìn)行處理。
[0057]在本發(fā)明實施例中可以選取一定數(shù)目的記錄組成訓(xùn)練集,該數(shù)目可以視情況來選定,而當(dāng)記錄較少時,可以選取較少數(shù)目的記錄組成訓(xùn)練集;當(dāng)記錄較多時,可選取相對較多數(shù)目的記錄組成訓(xùn)練集。一旦訓(xùn)練集選取好后,即可根據(jù)這個訓(xùn)練集采用自學(xué)習(xí)的方式來生成數(shù)據(jù)處理模型。如此一來,用相對較少的記錄即可形成數(shù)據(jù)處理模型,而一旦數(shù)據(jù)處理模型形成后,即可對后續(xù)得到的記錄進(jìn)行自動處理,提高了數(shù)據(jù)處理的效率。
[0058]可選地,在本發(fā)明實施例中,根據(jù)所述訓(xùn)練集中的記錄,采用自學(xué)習(xí)的方式生成數(shù)據(jù)處理模型可包括:
[0059]將所述訓(xùn)練集中的每一條記錄轉(zhuǎn)換成向量表示;
[0060]利用所述向量表示通過卷積神經(jīng)網(wǎng)絡(luò)生成數(shù)據(jù)處理模型。
[0061]本發(fā)明實施例利用特征提取和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的方式來生成數(shù)據(jù)處理模型,能夠保證生成的數(shù)據(jù)處理模型能以較高準(zhǔn)確性的數(shù)據(jù)進(jìn)行處理。
[0062]可選地,在獲取的數(shù)據(jù)為股票代碼和/或股票名稱時,所述利用所述數(shù)據(jù)處理模型對獲取的記錄進(jìn)行處理可包括:
[0063]利用所述數(shù)據(jù)處理模型對獲取的記錄進(jìn)行處理,以得到每一條記錄的預(yù)測值;
[0064]對得到的所有預(yù)測值計算平均值,以得到股票的平均預(yù)測值;
[0065]基于所述平均預(yù)測值,確定所述股票的漲跌。
[0066]由于平均值能夠更好地反映預(yù)測值的整體情況,本發(fā)明實施例采用對預(yù)測值求平均值的方式可以保證對股票的預(yù)測更精準(zhǔn)。
[0067]可選地,在本發(fā)明實施例中夠可以對預(yù)測值設(shè)置一個范圍,該范圍可根據(jù)需要來設(shè)置。一種常見的方式是將所述預(yù)測值的范圍設(shè)置為-1到I。此時,所述基于所述平均預(yù)測值,確定所述股票的漲跌可包括:
[0068]如果所述平均預(yù)測值大于0,則確定所述股票的趨勢為漲;
[0069]如果所述平均預(yù)測值小于0,則確定所述股票的趨勢為跌。
[0070]本發(fā)明實施例以非常直觀的方式來對股票的趨勢進(jìn)行顯示,可以方便用戶判斷股票的走勢,提高用戶體驗。
[0071]為更好地理解本發(fā)明的技術(shù)方案,下面以獲取的數(shù)據(jù)