基于優(yōu)先序列的分布式社交網(wǎng)絡(luò)信息采集方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及社交網(wǎng)絡(luò)信息采集領(lǐng)域,尤其涉及一種基于優(yōu)先序列的分布式社交網(wǎng) 絡(luò)f目息米集方法及系統(tǒng)。
【背景技術(shù)】
[0002] 社交網(wǎng)絡(luò)的興起,導(dǎo)致越來越多的用戶參與進(jìn)來。隨著社交網(wǎng)絡(luò)的蓬勃發(fā)展,用戶 在信息發(fā)布和傳播的過程中起到越來越重要的作用,用戶不再只是信息的被動接受者,同 時也是信息資源的主動提供者和傳播者。無論是國內(nèi)還是國外,隨著社交網(wǎng)絡(luò)的日益普及, 使用社交網(wǎng)絡(luò)的用戶也在逐漸增多。由于用戶的積極參與,每天都會產(chǎn)生數(shù)以千萬計的社 交信息,這些信息具有重要的價值,比如它可以幫助我們分析熱點(diǎn)事件,分析公共輿論的形 成和發(fā)展過程等。而如何及時全面地獲取這些信息,是我們進(jìn)行社交網(wǎng)絡(luò)分析的重要前提。
[0003] 目前的社交網(wǎng)絡(luò)信息獲取過程主要分為兩種:一種是通過網(wǎng)頁模擬登錄到社交網(wǎng) 絡(luò)平臺,通過頁面解析的方式獲得社交網(wǎng)絡(luò)信息;另一種方式是利用社交網(wǎng)絡(luò)開放的API, 獲取社交網(wǎng)絡(luò)信息。盡管通過上述手段都能對社交網(wǎng)絡(luò)信息進(jìn)行采集,但是,由于社交網(wǎng)絡(luò) 在不同的時間段可能有顯著不同的發(fā)布量,比如在白天發(fā)布的信息量明顯要比夜間發(fā)布的 信息量要高得多,這樣就有可能出現(xiàn)單次獲取到的信息較少,甚至沒有任何信息,導(dǎo)致資源 的浪費(fèi)。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明提供一種基于優(yōu)先序列的分布式社交網(wǎng)絡(luò)信息采集方法及系統(tǒng),用于解決 現(xiàn)有的信息獲取方案容易導(dǎo)致資源浪費(fèi)的問題。
[0005] 本發(fā)明的第一個方面是提供一種基于優(yōu)先序列的分布式社交網(wǎng)絡(luò)信息采集方法, 包括:
[0006] 獲取本次任務(wù)分配的任務(wù)列表,所述任務(wù)列表中包括各社交網(wǎng)絡(luò)信息;
[0007] 根據(jù)所述各社交網(wǎng)絡(luò)信息的發(fā)布時間,對所述各社交網(wǎng)絡(luò)信息進(jìn)行優(yōu)先級排序, 其中,發(fā)布時間越早則優(yōu)先級越高;
[0008] 按照第一周期,根據(jù)當(dāng)前所述各社交網(wǎng)絡(luò)信息的優(yōu)先級,周期性地進(jìn)行任務(wù)分配。
[0009] 本發(fā)明的另一個方面是提供一種基于優(yōu)先序列的分布式社交網(wǎng)絡(luò)信息采集系統(tǒng), 包括:
[0010] 獲取模塊,用于獲取本次任務(wù)分配的任務(wù)列表,所述任務(wù)列表中包括各社交網(wǎng)絡(luò) 信息;
[0011] 優(yōu)先級排序模塊,用于根據(jù)所述各社交網(wǎng)絡(luò)信息的發(fā)布時間,對所述各社交網(wǎng)絡(luò) 信息進(jìn)行優(yōu)先級排序,其中,發(fā)布時間越早則優(yōu)先級越高;
[0012] 處理模塊,用于按照第一周期,根據(jù)當(dāng)前所述各社交網(wǎng)絡(luò)信息的優(yōu)先級,周期性地 進(jìn)行任務(wù)分配。
[0013] 本發(fā)明提供的基于優(yōu)先序列的分布式社交網(wǎng)絡(luò)信息采集方法及系統(tǒng),對任務(wù)列表 中的各社交網(wǎng)絡(luò)信息進(jìn)行優(yōu)先級排序,并根據(jù)各社交網(wǎng)絡(luò)信息的優(yōu)先級進(jìn)行任務(wù)分配,從 而能夠有效地對任務(wù)進(jìn)行分配,有效提高社交網(wǎng)絡(luò)信息采集的效率。
【附圖說明】
[0014] 圖1為本發(fā)明實施例一提供的基于優(yōu)先序列的分布式社交網(wǎng)絡(luò)信息采集方法的 流程示意圖;
[0015] 圖2為本發(fā)明實施例二提供的基于優(yōu)先序列的分布式社交網(wǎng)絡(luò)信息采集系統(tǒng)的 結(jié)構(gòu)示意圖。
【具體實施方式】
[0016] 為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實施例 中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述。
[0017] 圖1為本發(fā)明實施例一提供的基于優(yōu)先序列的分布式社交網(wǎng)絡(luò)信息采集方法的 流程示意圖,如圖1所示,所述方法包括:
[0018] 101、獲取本次任務(wù)分配的任務(wù)列表,所述任務(wù)列表中包括各社交網(wǎng)絡(luò)信息。
[0019] 目前的社交網(wǎng)絡(luò)信息獲取過程主要分為兩種:一種是通過網(wǎng)頁模擬登錄到社交網(wǎng) 絡(luò)平臺,通過頁面解析的方式獲得具體信息,但這種方式不能在短期內(nèi)頻繁地登錄社交網(wǎng) 絡(luò)平臺,否則會判定為惡意行為,導(dǎo)致IP或者賬號被封的問題;另外,當(dāng)社交網(wǎng)站的頁面發(fā) 生改動時,就必須修改相應(yīng)的程序,否則無法獲取到正確的信息;此外,因為這種方式是通 過解析頁面的方式來獲取信息,而頁面中大部分的信息是與社交網(wǎng)絡(luò)信息無關(guān)的,這樣每 次都獲取整個頁面,勢必會導(dǎo)致占用較大的網(wǎng)絡(luò)帶寬。
[0020] 優(yōu)選的,另一種是利用社交網(wǎng)絡(luò)開放的API。大多的社交媒體平臺采用OAuth授權(quán) 的方式給予用戶調(diào)用API的權(quán)利,但是在使用token時卻有著一定的限制,除了訪問次數(shù)的 限制外,對于不同的API,token也有著不同的限制條件,這就導(dǎo)致在固定的時間內(nèi),抓取的 資源有限,其中,token是每次調(diào)用API的一個必要參數(shù)。以新浪微博平臺為例,表1展示 了新浪微博平臺對token使用頻率的限制。
[0021] 表 1
[0022]
【主權(quán)項】
1. 一種基于優(yōu)先序列的分布式社交網(wǎng)絡(luò)信息采集方法,其特征在于,包括: 獲取本次任務(wù)分配的任務(wù)列表,所述任務(wù)列表中包括各社交網(wǎng)絡(luò)信息; 根據(jù)所述各社交網(wǎng)絡(luò)信息的發(fā)布時間,對所述各社交網(wǎng)絡(luò)信息進(jìn)行優(yōu)先級排序,其中, 發(fā)布時間越早則優(yōu)先級越高; 按照第一周期,根據(jù)當(dāng)前所述各社交網(wǎng)絡(luò)信息的優(yōu)先級,周期性地進(jìn)行任務(wù)分配。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述各社交網(wǎng)絡(luò)信息的發(fā)布時 間,對所述各社交網(wǎng)絡(luò)信息進(jìn)行優(yōu)先級排序之后,還包括: 按照第二周期,周期性地根據(jù)所述各社交網(wǎng)絡(luò)信息在本次周期內(nèi)被轉(zhuǎn)發(fā)的次數(shù),對所 述各社交網(wǎng)絡(luò)信息進(jìn)行優(yōu)先級排序,其中,被轉(zhuǎn)發(fā)的次數(shù)越高則優(yōu)先級越高。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述各社交網(wǎng)絡(luò)信息在本次周 期內(nèi)被轉(zhuǎn)發(fā)的次數(shù),對所述各社交網(wǎng)絡(luò)信息進(jìn)行優(yōu)先級排序之后,還包括: 針對當(dāng)前優(yōu)先級相同的第一社交網(wǎng)絡(luò)信息,根據(jù)所述第一社交網(wǎng)絡(luò)信息上次被分配的 時間,對所述第一社交網(wǎng)絡(luò)信息進(jìn)行優(yōu)先級排序,其中,上次被分配的時間越早則優(yōu)先級越 尚。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述按照第一周期,周期性地根據(jù)當(dāng)前所 述各社交網(wǎng)絡(luò)信息的優(yōu)先級,進(jìn)行任務(wù)分配之后,還包括: 結(jié)束本次任務(wù)分配,并記錄本次任務(wù)分配中,最后被分配的社交網(wǎng)絡(luò)信息的標(biāo)識; 所述獲取本次任務(wù)分配的任務(wù)列表,具體包括: 根據(jù)當(dāng)前記錄的上次任務(wù)分配中,最后被分配的社交網(wǎng)絡(luò)信息的標(biāo)識,獲取本次任務(wù) 分配的任務(wù)列表,所述任務(wù)列表包括在上次任務(wù)分配中,最后被分配的社交網(wǎng)絡(luò)信息之后 發(fā)布的社交網(wǎng)絡(luò)信息。
5. 根據(jù)權(quán)利要求1-4中任一項所述的方法,其特征在于,所述獲取本次任務(wù)分配的任 務(wù)列表之前,還包括: 采集并將當(dāng)前關(guān)注的用戶最新發(fā)布的第二社交網(wǎng)絡(luò)信息添加至所述任務(wù)列表; 獲取對所述第二社交網(wǎng)絡(luò)信息進(jìn)行轉(zhuǎn)發(fā)和評論的第一用戶; 從所述第一用戶中篩選出符合預(yù)設(shè)條件的第二用戶,關(guān)注所述第二用戶,并返回執(zhí)行 所述采集并將當(dāng)前關(guān)注的用戶發(fā)布的第二社交網(wǎng)絡(luò)信息添加至所述任務(wù)列表的步驟。
6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述采集當(dāng)前關(guān)注的用戶最新發(fā)布的第 二社交網(wǎng)絡(luò)信息之前,還包括: 根據(jù)API調(diào)用指令,檢測各token中是否存在當(dāng)前未被使用,且未處于正在被重置狀態(tài) 的第一 token ; 所述采集當(dāng)前關(guān)注的用戶最新發(fā)布的第二社交網(wǎng)絡(luò)信息,具體包括: 若存在第一 token,則利用所述第一 token調(diào)用API ; 利用所述API,采集所述第二社交網(wǎng)絡(luò)信息。
7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述利用所述第一 token調(diào)用API之后, 還包括: 將所述第一 token的當(dāng)前狀態(tài)更新為被使用狀態(tài); 根據(jù)API結(jié)束指令,結(jié)束本次API調(diào)用,將所述第一 token的當(dāng)前狀態(tài)更新為未被使用 狀態(tài),并檢測所述第一 token當(dāng)前累計被使用的次數(shù)是否達(dá)到預(yù)設(shè)的值,若是,則對所述可 分配token進(jìn)行重置。
8. -種基于優(yōu)先序列的分布式社交網(wǎng)絡(luò)信息采集系統(tǒng),其特征在于,包括: 獲取模塊,用于獲取本次任務(wù)分配的任務(wù)列表,所述任務(wù)列表中包括各社交網(wǎng)絡(luò)信 息; 優(yōu)先級排序模塊,用于根據(jù)所述各社交網(wǎng)絡(luò)信息的發(fā)布時間,對所述各社交網(wǎng)絡(luò)信息 進(jìn)行優(yōu)先級排序,其中,發(fā)布時間越早則優(yōu)先級越高; 處理模塊,用于按照第一周期,根據(jù)當(dāng)前所述各社交網(wǎng)絡(luò)信息的優(yōu)先級,周期性地進(jìn)行 任務(wù)分配。
9. 根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于, 所述優(yōu)先級排序模塊,還用于在所述根據(jù)所述各社交網(wǎng)絡(luò)信息的發(fā)布時間,對所述各 社交網(wǎng)絡(luò)信息進(jìn)行優(yōu)先級排序之后,按照第二周期,周期性地根據(jù)所述各社交網(wǎng)絡(luò)信息在 本次周期內(nèi)被轉(zhuǎn)發(fā)的次數(shù),對所述各社交網(wǎng)絡(luò)信息進(jìn)行優(yōu)先級排序,其中,被轉(zhuǎn)發(fā)的次數(shù)越 尚則優(yōu)先級越尚。
10. 根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于, 所述優(yōu)先級排序模塊,還用于在所述根據(jù)所述各社交網(wǎng)絡(luò)信息在本次周期內(nèi)被轉(zhuǎn)發(fā)的 次數(shù),對所述各社交網(wǎng)絡(luò)信息進(jìn)行優(yōu)先級排序之后,針對當(dāng)前優(yōu)先級相同的第一社交網(wǎng)絡(luò) 信息,根據(jù)所述第一社交網(wǎng)絡(luò)信息上次被分配的時間,對所述第一社交網(wǎng)絡(luò)信息進(jìn)行優(yōu)先 級排序,其中,上次被分配的時間越早則優(yōu)先級越高。
【專利摘要】本發(fā)明提供一種基于優(yōu)先序列的分布式社交網(wǎng)絡(luò)信息采集方法及系統(tǒng),包括:獲取本次任務(wù)分配的任務(wù)列表,所述任務(wù)列表中包括各社交網(wǎng)絡(luò)信息;根據(jù)所述各社交網(wǎng)絡(luò)信息的發(fā)布時間,對所述各社交網(wǎng)絡(luò)信息進(jìn)行優(yōu)先級排序,其中,發(fā)布時間越早則優(yōu)先級越高;按照第一周期,根據(jù)當(dāng)前所述各社交網(wǎng)絡(luò)信息的優(yōu)先級,周期性地進(jìn)行任務(wù)分配。通過本發(fā)明提供的方案,能夠有效地對任務(wù)進(jìn)行分配,提高社交網(wǎng)絡(luò)信息采集的效率。
【IPC分類】G06F17-30, G06Q50-00
【公開號】CN104615716
【申請?zhí)枴緾N201510061724
【發(fā)明人】張日崇, 黃海飛, 李建欣, 于偉仁
【申請人】北京航空航天大學(xué)
【公開日】2015年5月13日
【申請日】2015年2月5日