專利名稱:一種論壇回帖增量采集方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于網(wǎng)絡(luò)信息采集技術(shù)領(lǐng)域,具體涉及ー種論壇回帖增量采集方法及系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)的出現(xiàn),尤其網(wǎng)絡(luò)論壇、網(wǎng)絡(luò)社區(qū)的廣泛開設(shè),使得全世界范圍的人群都可以在一起自由地發(fā)表、交流各種觀點(diǎn)。中國的網(wǎng)絡(luò)論壇達(dá)到一百多萬個(gè),并且80%的網(wǎng)站擁有獨(dú)立的論壇,經(jīng)常瀏覽網(wǎng)絡(luò)論壇的人數(shù)已經(jīng)過億。不同于其他的形式,網(wǎng)絡(luò)論壇具有速度快、范圍廣的特點(diǎn)。ー個(gè)受人矚目的話題可能在很短的時(shí)間內(nèi)達(dá)到上萬名網(wǎng)民的回帖討論,回帖信息達(dá)到成百上千頁。此時(shí),用戶不僅僅想查看話題的發(fā)起者的言論即主帖的內(nèi)容,更想看到其他網(wǎng)民對該話題所發(fā)表的言論。然而,通過一般的搜索引擎很難查詢到翻頁的回帖信息,即使有時(shí)能夠查詢到,在時(shí)效性上也很不理想,數(shù)據(jù)延遲較大?,F(xiàn)有的論壇采集系統(tǒng)也只是采集帖子的首頁信息,而不采集帖子的回帖信息。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明所要解決的技術(shù)問題是提供一種論壇回帖增量采集方法及系統(tǒng),該方法及系統(tǒng)能夠快速、準(zhǔn)確、完整地采集ー篇帖子的所有主/回帖信息,克服了現(xiàn)有搜索引擎在搜索帖子的翻頁回帖信息時(shí)存在漏搜或者搜索不到的缺陷,以及現(xiàn)有論壇采集系統(tǒng)只采集帖子的首頁信息而不采集回帖信息的缺陷。為解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案如下一種論壇回帖增量采集方法,包括以下步驟(1)根據(jù)帖子首頁URL和帖子回復(fù)數(shù)信息,周期性判斷所有需要采集的論壇列表頁中是否存在新增帖子和/或具有新回帖的帖子;(2)如果存在新增帖子,則從新增帖子中提取出主貼和回帖信息;如果存在具有新回帖的帖子,則計(jì)算新回帖起點(diǎn)和新回帖個(gè)數(shù),根據(jù)新回帖起點(diǎn)和新回帖個(gè)數(shù)從具有新回帖的帖子中提取出新回帖信息。一種論壇回帖增量采集系統(tǒng),包括用于根據(jù)帖子首頁URL和帖子回復(fù)數(shù)信息,周期性判斷所有需要采集的論壇列表頁中是否存在新增帖子和具有新回帖的帖子的判斷裝置;用于對新增帖子,從新增帖子中提取出主貼和回帖信息;對具有新回帖的帖子,計(jì)算新回帖起點(diǎn)和新回帖個(gè)數(shù),根據(jù)新回帖起點(diǎn)和新回帖個(gè)數(shù)從具有新回帖的帖子中提取出新回帖信息的提取裝置。本發(fā)明所述的方法及系統(tǒng),通過周期性監(jiān)控列表頁的方式,能夠及時(shí)獲取列表頁中的新增回帖和具有新回帖的帖子信息;通過URL標(biāo)識和回復(fù)數(shù)信息進(jìn)行快速消重處理, 避免重復(fù)采集;通過區(qū)分不同的翻頁鏈接提取方式達(dá)到快速進(jìn)行翻頁回帖采集的目的;從而能夠快速、準(zhǔn)確、完整地采集ー篇帖子的所有主/回帖信息?;靥穆┎陕试?%以下,實(shí)時(shí)性可達(dá)分鐘級。
圖1是具體實(shí)施方式
中論壇回帖增量采集系統(tǒng)的結(jié)構(gòu)框圖;圖2是具體實(shí)施方式
中論壇回帖增量采集方法的流程圖;圖3是具體實(shí)施方式
中判斷列表頁中是否存在新增帖子和具有新回帖的帖子的方法流程圖;圖4是具體實(shí)施方式
中從新增帖子中提取出主貼和回帖信息,從具有新回帖的帖子中提取出新回帖信息的方法流程圖。
具體實(shí)施例方式下面結(jié)合附圖及具體實(shí)施方式
對本發(fā)明進(jìn)行進(jìn)一步的說明。如圖1所示,本實(shí)施方式中論壇回帖增量采集系統(tǒng)包括判斷裝置11,與判斷裝置 11連接的提取裝置12。其中,判斷裝置11包括第一隊(duì)列單元111、第一獲取單元112、列表頁提取単元113和判斷単元114。提取裝置12包括第二隊(duì)列單元121、掃描單元122、第二獲取單元123、內(nèi)容頁提取単元IM和消重単元125。判斷裝置11用于根據(jù)帖子首頁URL和帖子回復(fù)數(shù)信息,周期性判斷所有需要采集的論壇列表頁中是否存在新增帖子和具有新回帖的帖子。其中,第一隊(duì)列單元111用于將所有需要采集的論壇列表頁URL添加到列表頁采集隊(duì)列。第一獲取單元112用于從列表頁采集隊(duì)列中取出每個(gè)列表頁URL。列表頁提取単元113用于對取出的每個(gè)列表頁URL,獲取該列表頁URL對應(yīng)的網(wǎng)頁內(nèi)容,從所述網(wǎng)頁內(nèi)容中提取出每個(gè)帖子首頁URL和當(dāng)前回復(fù)數(shù)。 判斷単元113用于根據(jù)帖子首頁URL判斷每個(gè)帖子在已采集帖子信息表中是否存在;如果存在,則繼續(xù)判斷該帖子當(dāng)前回復(fù)數(shù)是否大于已采集帖子信息表中記錄的本次回復(fù)數(shù),如果大于,則該帖子有新回帖,更新已采集帖子信息表中該帖子的上次回復(fù)數(shù)和本次回復(fù)數(shù); 如果該帖子在已采集帖子信息表中不存在,則該帖子為新增帖子,將該帖子首頁URL和當(dāng)前回復(fù)數(shù)添加到已采集帖子信息表中。提取裝置12用于對新增帖子,從新增帖子中提取出主貼和回帖信息;對具有新回帖的帖子,計(jì)算新回帖起點(diǎn)和新回帖個(gè)數(shù),根據(jù)新回帖起點(diǎn)和新回帖個(gè)數(shù)從具有新回帖的帖子中提取出新回帖信息。其中,第二隊(duì)列單元121用于將新增帖子的首頁URL和具有新回帖的帖子URL添加到內(nèi)容頁采集隊(duì)列。掃描單元122用于定時(shí)掃描內(nèi)容頁采集隊(duì)列。第二獲取單元123用于從內(nèi)容頁采集隊(duì)列中取出每個(gè)URL。內(nèi)容頁提取単元IM用于獲取URL 對應(yīng)的網(wǎng)頁內(nèi)容,并從所述網(wǎng)頁內(nèi)容中提取主貼和/或回帖和/或翻頁URL。消重単元125 用于對論壇翻頁方式為下ー頁翻頁方式時(shí)從網(wǎng)頁內(nèi)容中提取的翻頁URL進(jìn)行消重處理。第 ニ隊(duì)列單元121還用于將消重后的翻頁URL添加到內(nèi)容頁采集隊(duì)列。如圖2所示,本實(shí)施方式中基于圖1所示系統(tǒng)的論壇回帖增量采集方法的流程,包括以下步驟(1)判斷裝置11周期性判斷所有需要采集的論壇列表頁中是否存在新增帖子和/ 或具有新回帖的帖子。如圖3所示,本實(shí)施方式中采用的判斷方法包括以下步驟
7
(a)第一隊(duì)列單元111將所有需要采集的論壇列表頁URL添加到列表頁采集隊(duì)列。 所述列表頁是指論壇中包含所有帖子標(biāo)題、URL(統(tǒng)ー資源定位符)、點(diǎn)擊數(shù)、回復(fù)數(shù)等信息的列表頁面,不包括帖子的具體內(nèi)容。如搜狐論壇的財(cái)經(jīng)大雜燴頻道的列表頁,其URL如下http://cluo. business, sohu. com/l-enjoy-0-0-0-0. html。再如人民網(wǎng)強(qiáng)國社區(qū)的國際論壇頻道的列表頁,其URL如下http://bbsl.people.com.cn/boardList.do ? action = postList&boardld = 6。本實(shí)施方式中,對每個(gè)需要采集的論壇列表頁均設(shè)定采集時(shí)間間隔,如每隔5分鐘采集一次;監(jiān)控每個(gè)列表頁的采集時(shí)間間隔;當(dāng)某個(gè)列表頁達(dá)到采集時(shí)間間隔吋,便將該列表頁URL添加到列表頁采集隊(duì)列。優(yōu)選的,刷新間隔根據(jù)論壇的更新頻率動(dòng)態(tài)調(diào)整;論壇的更新頻率越快,刷新間隔越短;論壇的更新頻率越慢,則刷新間隔越長。如預(yù)先設(shè)定每隔5分鐘采集一次,在后續(xù)采集過程中,如果發(fā)現(xiàn)論壇更新頻率增加,則將刷新間隔縮短為3分鐘,進(jìn)而縮短為1分鐘或更短。論壇的更新頻率的計(jì)算方法可參見中國專利申請“ー種網(wǎng)頁數(shù)據(jù)信息的定向采集方法及裝置”(申請?zhí)?01010236363. 7),此處不再贅述。(b)第一獲取單元112從列表頁采集隊(duì)列中取出每個(gè)列表頁URL。本實(shí)施方式中,從列表頁采集隊(duì)列中取出列表頁URL采用的方法為定時(shí)掃描列表頁采集隊(duì)列(掃描間隔時(shí)間可由用戶根據(jù)具體應(yīng)用情況設(shè)置),如果列表頁采集隊(duì)列不空,則按照先進(jìn)先出順序依次從列表頁采集隊(duì)列中取出列表頁URL(從隊(duì)列中取出URL后, 該URL便會自動(dòng)從隊(duì)列中刪除),并且滿足該列表頁URL所屬網(wǎng)站的友好訪問條件。如果某列表頁URL不滿足該列表頁URL所屬網(wǎng)站的友好訪問條件,則在本次掃描中忽略該列表頁 URL,繼續(xù)判斷下ー個(gè)列表頁URL,該列表頁URL留待后續(xù)掃描中處理。網(wǎng)站的友好反問條件包括當(dāng)前訪問數(shù)量限制和訪問的時(shí)間間隔限制。判斷是否滿足網(wǎng)站的友好反問條件的方法可參見中國專利申請“ー種從網(wǎng)站中多個(gè)不同IP的服務(wù)器抓取網(wǎng)頁的方法及系統(tǒng)”(申請?zhí)?201010546334. 0),此處不再贅述。(c)列表頁提取単元113對取出的每個(gè)列表頁URL,獲取該列表頁URL對應(yīng)的網(wǎng)頁內(nèi)容;再從網(wǎng)頁內(nèi)容中提取出每個(gè)帖子首頁URL和當(dāng)前回復(fù)數(shù)。根據(jù)每個(gè)列表頁的URL,向該URL所屬網(wǎng)站發(fā)送獲取該URL對應(yīng)網(wǎng)頁內(nèi)容的HTTP 請求,然后接收返回的網(wǎng)頁內(nèi)容。從網(wǎng)頁內(nèi)容中提取帖子首頁URL和當(dāng)前回復(fù)數(shù)為現(xiàn)有技木,此處不再贅述。(d)判斷単元113根據(jù)帖子首頁URL判斷該帖子在已采集帖子信息表中是否存在。 如果存在,則說明該帖子已采集過,繼續(xù)判斷該帖子當(dāng)前回復(fù)數(shù)是否大于已采集帖子信息表中記錄的本次回復(fù)數(shù)。如果大于,則說明該帖子有新回帖,在已采集帖子信息表中更新該帖子的上次回復(fù)數(shù)和本次回復(fù)數(shù),即用已采集帖子信息表中該帖子的本次回復(fù)數(shù)的數(shù)值替換上次回復(fù)數(shù)的數(shù)值,用該帖子當(dāng)前回復(fù)數(shù)的數(shù)值替換已采集帖子信息表中該帖子的本次回復(fù)數(shù)的數(shù)值。如果不大于,則說明該帖子沒有新回帖,拋棄該URL不作任何后續(xù)處理。如果該帖子在已采集帖子信息表中不存在,則說明該帖子為新增帖子,將該帖子首頁URL和當(dāng)前回復(fù)數(shù)添加到已采集帖子信息表中,該帖子的上次回復(fù)數(shù)為0,本次回復(fù)數(shù)為當(dāng)前回復(fù)數(shù)。已采集帖子信息表中存儲有已采集帖子首頁URL和已采集帖子的上次回復(fù)數(shù)和本次回復(fù)數(shù),其結(jié)構(gòu)如下表所示
權(quán)利要求
1.一種論壇回帖增量采集方法,包括以下步驟(1)根據(jù)帖子首頁URL和帖子回復(fù)數(shù)信息,周期性判斷所有需要采集的論壇列表頁中是否存在新增帖子和具有新回帖的帖子;(2)如果存在新增帖子,則從新增帖子中提取出主貼和回帖信息;如果存在具有新回帖的帖子,則計(jì)算新回帖起點(diǎn)和新回帖個(gè)數(shù),根據(jù)新回帖起點(diǎn)和新回帖個(gè)數(shù)從具有新回帖的帖子中提取出新回帖信息。
2.如權(quán)利要求1所述的論壇回帖增量采集方法,其特征在干,步驟(1)中所述周期判斷所有需要采集的論壇列表頁中是否存在新增帖子和具有新回帖的帖子的方法如下(a)獲取所有需要采集的論壇列表頁URL;(b)對每個(gè)列表頁URL,獲取該列表頁URL對應(yīng)的網(wǎng)頁內(nèi)容;再從所述網(wǎng)頁內(nèi)容中提取出每個(gè)帖子首頁URL和當(dāng)前回復(fù)數(shù);(c)根據(jù)帖子首頁URL判斷每個(gè)帖子在已采集帖子信息表中是否存在;如果存在,則繼續(xù)判斷該帖子當(dāng)前回復(fù)數(shù)是否大于已采集帖子信息表中記錄的本次回復(fù)數(shù),如果大于,則該帖子有新回帖,更新已采集帖子信息表中該帖子的上次回復(fù)數(shù)和本次回復(fù)數(shù);如果該帖子在已采集帖子信息表中不存在,則該帖子為新增帖子,將該帖子首頁URL和當(dāng)前回復(fù)數(shù)添加到已采集帖子信息表中。
3.如權(quán)利要求2所述的論壇回帖增量采集方法,其特征在干,步驟(a)中所述獲取所有需要采集的論壇列表頁URL的方法如下對每個(gè)需要采集的論壇列表頁均設(shè)定采集時(shí)間間隔;監(jiān)控每個(gè)列表頁的采集時(shí)間間隔;當(dāng)某個(gè)列表頁達(dá)到采集時(shí)間間隔吋,便將該列表頁URL添加到列表頁采集隊(duì)列;定時(shí)掃描列表頁采集隊(duì)列,如果列表頁采集隊(duì)列不空,則按照先進(jìn)先出順序依次從列表頁采集隊(duì)列中取出列表頁URL。
4.如權(quán)利要求3所述的論壇回帖增量采集方法,其特征在于所述采集時(shí)間間隔根據(jù)列表頁URL所屬論壇的更新頻率動(dòng)態(tài)調(diào)整;論壇的更新頻率越快,采集時(shí)間間隔越短;論壇的更新頻率越慢,采集時(shí)間間隔越長。
5.如權(quán)利要求3所述的論壇回帖增量采集方法,其特征在于所述從列表頁采集隊(duì)列中取出的列表頁URL需要滿足該列表頁URL所屬網(wǎng)站的友好訪問條件。
6.如權(quán)利要求2 5中任一項(xiàng)所述的論壇回帖增量采集方法,其特征在干,步驟(2)中所述從新增帖子中提取出主貼和回帖信息以及從具有新回帖的帖子中提取出新回帖信息的方法如下(i)將新增帖子的首頁URL和具有新回帖的帖子URL添加到內(nèi)容頁采集隊(duì)列;( )定時(shí)掃描內(nèi)容頁采集隊(duì)列;(iii)如果內(nèi)容頁采集隊(duì)列不空,則從內(nèi)容頁采集隊(duì)列中取出每個(gè)URL;(iv)獲取取出的URL對應(yīng)的網(wǎng)頁內(nèi)容,并從所述網(wǎng)頁內(nèi)容中提取主貼和/或回帖信息和/或翻頁URL,并將翻頁URL添加到內(nèi)容頁采集隊(duì)列。
7.如權(quán)利要求6所述的論壇回帖增量采集方法,其特征在干,步驟α)中所述將新增帖子的首頁URL和具有新回帖的帖子URL添加到內(nèi)容頁采集隊(duì)列的方法如下對于新增帖子,如果該帖子首頁URL在內(nèi)容頁采集隊(duì)列中存在,則將該帖子首頁URL取出,并將已采集帖子信息表中記錄的該帖子本次回復(fù)數(shù)修改為當(dāng)前回復(fù)數(shù),再將其插入到內(nèi)容頁采集隊(duì)列中;如果該帖子首頁URL在內(nèi)容頁采集隊(duì)列中不存在,則直接將該帖子首頁URL添加到內(nèi)容頁采集隊(duì)列;對于具有新回帖的帖子,如果該帖子所屬論壇的翻頁方式為計(jì)算翻頁方式,則直接將具有新回帖的帖子首頁URL添加到內(nèi)容頁采集隊(duì)列;如果該帖子所屬論壇的翻頁方式為下一頁翻頁方式,則查找翻頁URL信息表,將所述翻頁URL信息表中該帖子的最后ー個(gè)翻頁 URL添加到內(nèi)容頁采集隊(duì)列。
8.如權(quán)利要求6所述的論壇回帖增量采集方法,其特征在干,步驟(iii)中所述從內(nèi)容頁采集隊(duì)列中取出每個(gè)URL的方法如下按照先進(jìn)先出順序依次從內(nèi)容頁采集隊(duì)列中取出URL,并且滿足該URL所屬網(wǎng)站的友好訪問條件。
9.如權(quán)利要求6所述的論壇回帖增量采集方法,其特征在干,步驟(iv)中所述從網(wǎng)頁內(nèi)容中提取主貼和/或回帖信息的方法如下如果該URL為帖子首頁URL并且是第一次采集,則從該URL對應(yīng)的網(wǎng)頁內(nèi)容中提取主貼和回帖信息;如果該URL為帖子首頁URL但不是第一次采集,則根據(jù)如下公式確定新回帖起點(diǎn)和新回帖個(gè)數(shù),從新回帖起點(diǎn)^·_開始提取新回帖信息;
10.如權(quán)利要求9所述的論壇回帖增量采集方法,其特征在干,步驟(iv)中所述從網(wǎng)頁內(nèi)容中提取翻頁URL的方法如下1)如果論壇翻頁方式為計(jì)算翻頁方式,且URL為帖子首頁URL,則先采用如下公式計(jì)算翻頁的起始頁碼PBegin和終止頁碼PEnd
11.如權(quán)利要求10所述的論壇回帖增量采集方法,其特征在干,步驟1)中所述翻頁規(guī)則中,將翻頁URL分割成三個(gè)部分,其中第一部分和第三部分為不變部分,分別記為 StrBeforePage和StrAfterPage ;第二部分為變化部分,記為nPageUp ;翻頁URL的拼接方法如下nPageNo = i+nFirstPostPageIndex-InPageUp = (nPageNo XnPageUsBaseNum)strPostPageUrl = strBeforePage+nPageUp+strAfterPage其中,i表示翻頁頁碼,PBegin彡i彡P(guān)End,nPageNo表示新回帖所在頁碼; nFirstPostPagelndex = 0或1,表示帖子首頁頁碼;rfageUp表示填寫在待拼接URL內(nèi)的表示翻頁的頁碼值;rfag^sBaseNum表示翻頁基數(shù);strPostfagetol表示拼接后的URL。
12.如權(quán)利要求10所述的論壇回帖增量采集方法,其特征在干步驟2)中所述從網(wǎng)頁內(nèi)容中提取翻頁URL后,添加到內(nèi)容頁采集隊(duì)列之前,還包括對翻頁URL進(jìn)行消重處理的步驟。
13.如權(quán)利要求12所述的論壇回帖增量采集方法,其特征在干,所述消重處理的方法如下在翻頁URL信息中查找該翻頁URL所屬帖子是否存在翻頁URL信息表;如果不存在,將建立該翻頁URL所屬帖子的翻頁URL信息表,并將該翻頁URL插入到翻頁URL信息表和內(nèi)容頁采集隊(duì)列;如果存在,則判斷該翻頁URL的頁碼是否大于該翻頁URL所屬帖子的翻頁URL 的頁碼;如果大于,則更新該翻頁URL所屬帖子的翻頁URL信息表,并將該翻頁URL添加到內(nèi)容頁采集任務(wù)隊(duì)列中;否則直接刪除該翻頁URL。
14.一種論壇回帖增量采集系統(tǒng),包括用于根據(jù)帖子首頁URL和帖子回復(fù)數(shù)信息,周期性判斷所有需要采集的論壇列表頁中是否存在新增帖子和具有新回帖的帖子的判斷裝置 (11);用于對新增帖子,從新增帖子中提取出主貼和回帖信息;對具有新回帖的帖子,計(jì)算新回帖起點(diǎn)和新回帖個(gè)數(shù),根據(jù)新回帖起點(diǎn)和新回帖個(gè)數(shù)從具有新回帖的帖子中提取出新回帖信息的提取裝置(12)。
15.如權(quán)利要求14所述的論壇回帖增量采集系統(tǒng),其特征在干,所述判斷裝置(11)包括第一隊(duì)列單元(111),用于將所有需要采集的論壇列表頁URL添加到列表頁采集隊(duì)列; 第一獲取單元(112),用于從列表頁采集隊(duì)列中取出每個(gè)列表頁URL ; 列表頁提取単元(11 ,用于對取出的每個(gè)列表頁URL,獲取該列表頁URL對應(yīng)的網(wǎng)頁內(nèi)容,并從所述網(wǎng)頁內(nèi)容中提取出每個(gè)帖子首頁URL和當(dāng)前回復(fù)數(shù);判斷単元(114),用于根據(jù)帖子首頁URL判斷每個(gè)帖子在已采集帖子信息表中是否存在;如果存在,則繼續(xù)判斷該帖子當(dāng)前回復(fù)數(shù)是否大于已采集帖子信息表中記錄的本次回復(fù)數(shù),如果大于,則該帖子有新回帖,更新已采集帖子信息表中該帖子的上次回復(fù)數(shù)和本次回復(fù)數(shù);如果該帖子在已采集帖子信息表中不存在,則該帖子為新增帖子,將該帖子首頁 URL和當(dāng)前回復(fù)數(shù)添加到已采集帖子信息表中。
16.如權(quán)利要求14所述的論壇回帖增量采集系統(tǒng),其特征在干,所述提取裝置(12)包括第二隊(duì)列單元(121),用于將新增帖子的首頁URL和具有新回帖的帖子URL添加到內(nèi)容頁采集隊(duì)列;掃描單元(122),用于定時(shí)掃描內(nèi)容頁采集隊(duì)列; 第二獲取單元(123),用于從內(nèi)容頁采集隊(duì)列中取出每個(gè)URL; 內(nèi)容頁提取単元(1 ),用于獲取URL對應(yīng)的網(wǎng)頁內(nèi)容,并從所述網(wǎng)頁內(nèi)容中提取主貼和/或回帖和/或翻頁URL。
17.如權(quán)利要求16所述的論壇回帖增量采集系統(tǒng),其特征在于所述提取裝置(12)還包括用于對論壇翻頁方式為下ー頁翻頁方式時(shí)從網(wǎng)頁內(nèi)容中提取的翻頁URL進(jìn)行消重處理的消重単元(125);所述第二隊(duì)列單元(121)還用于將消重后的翻頁URL添加到內(nèi)容頁采集隊(duì)列。
全文摘要
本發(fā)明公開了一種論壇回帖增量采集方法及系統(tǒng),屬于網(wǎng)絡(luò)信息采集技術(shù)領(lǐng)域。本發(fā)明所述方法周期性判斷所有需要采集的論壇列表頁中是否存在新增帖子和具有新回帖的帖子;如果存在,則從所述新增帖子中提取出主貼和回帖信息,從所述具有新回帖的帖子中提取出新回帖信息。本發(fā)明所述系統(tǒng)包括用于周期性判斷所有需要采集的論壇列表頁中是否存在新增帖子和具有新回帖的帖子的判斷裝置(11);以及用于從新增帖子中提取出主貼和回帖信息,從具有新回帖的帖子中提取出新回帖信息的提取裝置(12)。本發(fā)明能夠快速、準(zhǔn)確、完整地采集一篇帖子的所有主、回帖信息,從而解決了現(xiàn)有搜索引擎在搜索帖子的翻頁回帖信息時(shí)存在漏搜或搜索不到的問題。
文檔編號G06F17/30GK102567407SQ20101061839
公開日2012年7月11日 申請日期2010年12月22日 優(yōu)先權(quán)日2010年12月22日
發(fā)明者吳新麗, 楊建武 申請人:北京北大方正電子有限公司, 北京大學(xué), 北大方正集團(tuán)有限公司