一種惡意賬號的識別方法,及裝置的制造方法
【技術(shù)領域】
[0001]本發(fā)明涉及通信技術(shù)領域,特別涉及一種惡意賬號識別方法,及裝置。
【背景技術(shù)】
[0002]網(wǎng)絡文學,指新近產(chǎn)生的,以互聯(lián)網(wǎng)為展示平臺和傳播媒介的,借助超文本連接和多媒體演繹等手段來表現(xiàn)的文學作品、類文學文本及含有一部分文學成分的網(wǎng)絡藝術(shù)品。其中,以網(wǎng)絡原創(chuàng)作品為主。
[0003]網(wǎng)絡文學是隨著互聯(lián)網(wǎng)的普及而產(chǎn)生的?;ヂ?lián)網(wǎng)絡為上億網(wǎng)民提供了多如恒沙的各類文學資料信息,與此同時,一種以這種新興媒體為載體、依托、手段,以網(wǎng)民為接受對象,具有不同于傳統(tǒng)文學特點的網(wǎng)絡文學悄然勃興。
[0004]網(wǎng)絡文學與傳統(tǒng)文學不是對立的兩極,而是互相滲透的有機體系。不少傳統(tǒng)文學通過電子化成為了網(wǎng)絡文學的一部分,網(wǎng)絡文學的作者也都接受過傳統(tǒng)文學的熏陶。同時,網(wǎng)絡文學通過出版進入了傳統(tǒng)文學領域;并依靠網(wǎng)絡巨大的影響力,成為流行文化的重要組成部分,進而影響到傳統(tǒng)文學。
[0005]由于借助強大的網(wǎng)絡媒介,網(wǎng)絡文學具有多樣性、互動性和知識產(chǎn)權(quán)保護困難的特點。其形式可以類似傳統(tǒng)文學,也可以是博文、帖子等非傳統(tǒng)文體。實時回復、實時評論和投票是網(wǎng)絡文學的重要特征。由于網(wǎng)絡文學傳播的便捷,導致知識產(chǎn)權(quán)不易受到保護。
[0006]為讀者提供優(yōu)秀的暢銷圖書電子、最熱的網(wǎng)絡原創(chuàng)小說在線閱讀,為熱愛文學寫作的網(wǎng)友提供在線創(chuàng)作、在線宣傳和在線銷售的綜合原創(chuàng)文學平臺;目前已經(jīng)出現(xiàn)了大量的網(wǎng)絡文學平臺。
[0007]原創(chuàng)作者或者CP (content provide,內(nèi)容提供商)在網(wǎng)絡文學平臺上發(fā)布自己的作品,作為回報,網(wǎng)絡文學平臺會根據(jù)文學作品的有效閱讀用戶數(shù)、閱讀字數(shù)、收藏訂閱等數(shù)據(jù)確定支付給發(fā)布文學作品的一方,使知識產(chǎn)權(quán)的所有者能夠得到相應的報酬,從而形成良性的創(chuàng)作環(huán)境,促進文學的發(fā)展。
[0008]但是,發(fā)布文學作品的一方存在“刷書”現(xiàn)象。刷書是指:作者或者CP為了自己的書能獲得更多收入、更好的排行榜位置和推薦位置,通過不正當手段閱讀書籍,使其有效閱讀用戶數(shù)、閱讀字數(shù)、收藏訂閱等數(shù)據(jù)異常增長的行為。因此,刷書行為不僅擾亂了網(wǎng)絡文學平臺的正常運營秩序,也極大的損害了未作弊作者或CP的利益,使他們不能獲得應用的報酬。因此如何識別那些用來刷書的惡意賬號,成為了必要的技術(shù)需求。
[0009]目前,識別惡意賬號的方式如下:人工設定一個最大字數(shù)閥值,如果某一賬號閱讀的字數(shù)超過了這個閾值,則確定為惡意賬號。上述最大字數(shù)閥值通常來說,是根據(jù)經(jīng)驗確定的一個固定值,為了減少誤判通常是一個較大的值。
[0010]以上方案中,最高閱讀字數(shù)的閥值由人工設定,不僅沒有理論依據(jù),而且極容易被CP或者作者發(fā)現(xiàn)找出其中的規(guī)律,調(diào)整刷書策略,限定每天刷書字數(shù)在閥值以下。所以手工設定閱讀字數(shù)來區(qū)別刷書用戶,效果不明顯,區(qū)分度不高。因此以上方案并不能準確識別惡意賬號。
【發(fā)明內(nèi)容】
[0011]本發(fā)明實施例提供了一種惡意賬號的識別方法,及裝置,用于準確識別刷書的惡意賬號。
[0012]一種惡意賬號的識別方法,包括:
[0013]以已知的正常賬號集的有效閱讀速度為訓練樣本,確定所述正常賬號集的有效閱讀速度的分布數(shù)據(jù);
[0014]依據(jù)所述分布數(shù)據(jù)確定正常賬號上限的閱讀速度閾值;
[0015]獲取待確認賬號的閱讀速度,若所述待確認賬號的閱讀速度超過所述閱讀速度閾值,則確定所述待確認賬號為惡意賬號。
[0016]一種惡意賬號的識別裝置,包括:
[0017]訓練單元,用于以已知的正常賬號集的有效閱讀速度為訓練樣本,確定所述正常賬號集的有效閱讀速度的分布數(shù)據(jù);
[0018]閾值確定單元,用于依據(jù)所述訓練單元確定的分布數(shù)據(jù)確定正常賬號上限的閱讀速度閾值;
[0019]判決單元,用于獲取待確認賬號的閱讀速度,若所述待確認賬號的閱讀速度超過所述閱讀速度閾值,則確定所述待確認賬號為惡意賬號。
[0020]從以上技術(shù)方案可以看出,本發(fā)明實施例具有以下優(yōu)點:已知的正常賬號集的有效閱讀速度為訓練樣本,確定所述正常賬號集的有效閱讀速度的分布數(shù)據(jù);并依據(jù)所述分布數(shù)據(jù)確定正常賬號上限的閱讀速度閾值。不再使用人工設定的固定閾值,閾值的設定具有基于統(tǒng)計的理論依據(jù)不再由人工任意設定,從而能夠準確識別刷書的惡意賬號。
【附圖說明】
[0021]為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡要介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域的普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0022]圖1為本發(fā)明實施例方法流程示意圖;
[0023]圖2為本發(fā)明實施例有效閱讀字數(shù)的用戶理論和實際分布示意圖;
[0024]圖3為本發(fā)明實施例方法流程示意圖;
[0025]圖4為本發(fā)明實施例裝置結(jié)構(gòu)示意圖;
[0026]圖5為本發(fā)明實施例裝置結(jié)構(gòu)示意圖;
[0027]圖6為本發(fā)明實施例惡意賬號的識別裝置結(jié)構(gòu)示意圖;
[0028]圖7為本發(fā)明實施例服務器結(jié)構(gòu)示意圖。
【具體實施方式】
[0029]為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明作進一步地詳細描述,顯然,所描述的實施例僅僅是本發(fā)明一部份實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護的范圍。
[0030]本發(fā)明實施例提供了一種惡意賬號的識別方法,如圖1所示,包括:
[0031]101:以已知的正常賬號集的有效閱讀速度為訓練樣本,確定上述正常賬號集的有效閱讀速度的分布數(shù)據(jù);
[0032]在本發(fā)明實施例中,正常賬號集是包含正常賬戶的一個集合,該集合中的樣本數(shù)量可以任意設定,通常來說可以設置得較大一些以增加數(shù)據(jù)的準確性。有效閱讀速度可以是字數(shù)與時間的比值;其表現(xiàn)形式可以是計算得出的一個值,也可以是以一個時間段為依據(jù)獲取的有效閱讀字數(shù),例如:一天的有效閱讀字數(shù)。在本發(fā)明實施例中“有效”是相對于“無效”而言的,例如:一個賬號對同一段文字的重復點擊,只應當統(tǒng)計一次字數(shù);那么第一次點擊為有效的,除第一次點擊以外的重復點擊則為無效的,這樣可以更準確的統(tǒng)計真實的閱讀量。
[0033]102:依據(jù)上述分布數(shù)據(jù)確定正常賬號上限的閱讀速度閾值;
[0034]根據(jù)實際統(tǒng)計,用戶的正常閱讀速度具有高斯分布的特征,也即是閱讀速度集中在一個中間區(qū)域,遠大于這個區(qū)域的人會很少,遠小于這個區(qū)域的人也會很少。那么可以依據(jù)這個分布特征來數(shù)據(jù)來確定一個閾值,超過這個閾值則可以認為較大可能性為惡意賬號。
[0035]103:獲取待確認賬號的閱讀速度,若上述待確認賬號的閱讀速度超過上述閱讀速度閾值,則確定上述待確認賬號為惡意賬號。
[0036]本發(fā)明實施例,已知的正常賬號集的有效閱讀速度為訓練樣本,確定上述正常賬號集的有效閱讀速度的分布數(shù)據(jù);并依據(jù)上述分布數(shù)據(jù)確定正常賬號上限的閱讀速度閾值。不再使用人工設定的固定閾值,閾值的設定具有基于統(tǒng)計的理論依據(jù)不再由人工任意設定,從而能夠準確識別刷書的惡意賬號。
[0037]本發(fā)明實施例還提供了具體如何確定分布數(shù)據(jù),以及如何依據(jù)分布數(shù)據(jù)確定閱讀速度閾值的具體實現(xiàn)方案,具體如下:上述確定上述正常賬號集的有效閱讀速度的分布數(shù)據(jù)包括:
[0038]確定上述正常賬號集的有效閱讀速度符合高斯分布的分布模型;
[0039]上述依據(jù)上述分布數(shù)據(jù)確定正常賬號上限的閱讀速度閾值包括:
[0040]使用高斯分布的累積分布函數(shù),確定上述分布模型中正常賬號上限的閱讀速度閾值。
[0041]可選地,上述有