一種識別垃圾信息的方法與裝置制造方法
【專利摘要】本發(fā)明的目的是提供一種識別垃圾信息的方法與裝置。其中,本發(fā)明通過將已識別信息和待識別信息提供給用戶來進(jìn)行垃圾信息判斷,并根據(jù)其中每個(gè)用戶判斷垃圾信息的準(zhǔn)確率來確定待識別信息是否屬于垃圾信息。根據(jù)本發(fā)明的方案,其一方面可以解決采用單純的技術(shù)手段不能全面識別垃圾信息的問題,以提供更加純凈的網(wǎng)絡(luò)環(huán)境,提升用戶的使用體驗(yàn);另一方面,可以使得企業(yè)不再需要雇傭?qū)彶閷T來進(jìn)行垃圾信息識別的工作,降低了企業(yè)成本,同時(shí)提高了垃圾信息的識別效率。進(jìn)一步地,本發(fā)明通過確定用戶對已識別信息進(jìn)行垃圾信息判斷的準(zhǔn)確率,還可以解決一部分用戶誤判的問題,提升整體判斷待識別信息是否屬于垃圾信息的準(zhǔn)確度。
【專利說明】一種識別垃圾信息的方法與裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)信息【技術(shù)領(lǐng)域】,尤其涉及一種識別垃圾信息的技術(shù)。
【背景技術(shù)】
[0002]當(dāng)前,在互聯(lián)網(wǎng)社區(qū)產(chǎn)品中,如百度貼吧、新浪微博等,普遍存在垃圾信息,這些垃圾信息中包含惡意推廣、甚至欺詐的內(nèi)容,從而會傷害用戶正常使用互聯(lián)網(wǎng)社區(qū)產(chǎn)品的體驗(yàn)。
[0003]現(xiàn)有技術(shù)中,識別垃圾信息的方式主要包括以下2種:1)采用單純的技術(shù)手段來進(jìn)行識別,然而,由于垃圾信息的發(fā)布者會發(fā)布包含各種內(nèi)容的垃圾信息,因此,采用這種方式不能完全有效地識別全部垃圾信息,且具有一定的滯后性;2)人工進(jìn)行識別,然而,人工審核成本較高,且效率較低。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是提供一種識別垃圾信息的方法與裝置。
[0005]根據(jù)本發(fā)明的一個(gè)方面,提供了一種識別垃圾信息的方法,該方法包括:
[0006]-將已識別信息和待識別信息提供給一個(gè)或多個(gè)用戶來進(jìn)行垃圾信息判斷;
[0007]-獲取所述一個(gè)或多個(gè)用戶所反饋的對所述已識別信息和所述待識別信息的判斷結(jié)果;
[0008]-根據(jù)其中每個(gè)用戶對所述已識別信息的判斷結(jié)果,來確定每個(gè)用戶判斷垃圾信息的準(zhǔn)確率;
[0009]-根據(jù)所述一個(gè)或多個(gè)用戶對所述待識別信息的判斷結(jié)果,并結(jié)合所述一個(gè)或多個(gè)用戶判斷垃圾信息的準(zhǔn)確率,來確定所述待識別信息是否屬于垃圾信息。
[0010]根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種識別垃圾信息的裝置,該裝置包括:
[0011]-用于將已識別信息和待識別信息提供給一個(gè)或多個(gè)用戶來進(jìn)行垃圾信息判斷的裝置;
[0012]-用于獲取所述一個(gè)或多個(gè)用戶所反饋的對所述已識別信息和所述待識別信息的判斷結(jié)果的裝置;
[0013]-用于根據(jù)其中每個(gè)用戶對所述已識別信息的判斷結(jié)果,來確定每個(gè)用戶判斷垃圾信息的準(zhǔn)確率的裝置;
[0014]-用于根據(jù)所述一個(gè)或多個(gè)用戶對所述待識別信息的判斷結(jié)果,并結(jié)合所述一個(gè)或多個(gè)用戶判斷垃圾信息的準(zhǔn)確率,來確定所述待識別信息是否屬于垃圾信息的裝置。
[0015]與現(xiàn)有技術(shù)相比,本發(fā)明通過將已識別信息和待識別信息提供給用戶來進(jìn)行垃圾信息判斷,并根據(jù)其中每個(gè)用戶判斷垃圾信息的準(zhǔn)確率來確定待識別信息是否屬于垃圾信息。根據(jù)本發(fā)明的識別垃圾信息的方案,其一方面可以解決采用單純的技術(shù)手段不能全面識別垃圾信息的問題,以提供更加純凈的網(wǎng)絡(luò)環(huán)境,提升用戶的使用體驗(yàn);另一方面,可以使得企業(yè)不再需要雇傭?qū)彶閷T來進(jìn)行垃圾信息識別的工作,降低了企業(yè)成本,同時(shí)提高了垃圾信息的識別效率。進(jìn)一步地,本發(fā)明通過確定用戶對已識別信息進(jìn)行垃圾信息判斷的準(zhǔn)確率,還可以解決一部分用戶誤判的問題,提升整體判斷待識別信息是否屬于垃圾信息的準(zhǔn)確度。
【專利附圖】
【附圖說明】
[0016]通過閱讀參照以下附圖所作的對非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會變得更明顯:
[0017]圖1示出根據(jù)本發(fā)明一個(gè)方面的一種識別垃圾信息的方法的流程圖;
[0018]圖2示出根據(jù)本發(fā)明另一個(gè)方面的一種識別垃圾信息的裝置的示意圖。
[0019]附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件。
【具體實(shí)施方式】
[0020]下面結(jié)合附圖對本發(fā)明作進(jìn)一步詳細(xì)描述。
[0021]本發(fā)明中對垃圾信息的識別通過網(wǎng)絡(luò)設(shè)備和用戶設(shè)備的交互來實(shí)現(xiàn)。具體地,網(wǎng)絡(luò)設(shè)備將已識別信息和待識別信息提供給一個(gè)或多個(gè)用戶設(shè)備;接著,用戶設(shè)備對已識別信息和待識別信息進(jìn)行呈現(xiàn),以供用戶進(jìn)行垃圾信息判斷;隨后,用戶設(shè)備將用戶所反饋的對待識別信息和已識別信息的判斷結(jié)果提供給網(wǎng)絡(luò)設(shè)備,相應(yīng)地,網(wǎng)絡(luò)設(shè)備獲取這些判斷結(jié)果;接著,網(wǎng)絡(luò)設(shè)備根據(jù)其中每個(gè)用戶對已識別信息的判斷結(jié)果,來確定每個(gè)用戶判斷垃圾信息的準(zhǔn)確率;隨后,網(wǎng)絡(luò)設(shè)備根據(jù)用戶對待識別信息的判斷結(jié)果,并結(jié)合用戶判斷垃圾
息的準(zhǔn)確率,來確定待識別息是否屬于垃圾息。
[0022]在此,用戶設(shè)備包括但不限于任何一種可與用戶通過鍵盤、觸摸板以及聲控設(shè)備等輸入設(shè)備進(jìn)行人機(jī)交互的電子產(chǎn)品,例如計(jì)算機(jī)、手機(jī)、智能手機(jī)、PDA、平板電腦等。
[0023]在此,網(wǎng)絡(luò)設(shè)備包括但不限于網(wǎng)絡(luò)主機(jī)、單個(gè)網(wǎng)絡(luò)服務(wù)器、多個(gè)網(wǎng)絡(luò)服務(wù)器集合或多個(gè)服務(wù)器構(gòu)成的云。在此,云由基于云計(jì)算(Cloud Computing)的大量主機(jī)或網(wǎng)絡(luò)服務(wù)器構(gòu)成,其中,云計(jì)算是分布式計(jì)算的一種,由一群松散耦合的計(jì)算機(jī)集合組成的一個(gè)超級虛擬計(jì)算機(jī)。
[0024]進(jìn)一步地,本發(fā)明中,多個(gè)網(wǎng)絡(luò)設(shè)備可作為整體或由其中部分網(wǎng)絡(luò)設(shè)備,甚至裝置于一個(gè)或多個(gè)網(wǎng)絡(luò)設(shè)備中的特定裝置,如信息識別裝置,來與用戶設(shè)備進(jìn)行交互并獲取其所提供的判斷結(jié)果進(jìn)而識別垃圾信息。如無特別說明,本文中網(wǎng)絡(luò)設(shè)備與信息識別裝置等同使用。
[0025]圖1為根據(jù)本發(fā)明一個(gè)方面的方法流程圖,示出一種識別垃圾信息的過程。如圖1所示,在步驟Si中,網(wǎng)絡(luò)設(shè)備I將已識別信息和待識別信息提供給一個(gè)或多個(gè)用戶來進(jìn)行垃圾信息判斷;在步驟S2中,用戶設(shè)備2對已識別信息和待識別信息進(jìn)行呈現(xiàn)以供用戶進(jìn)行垃圾信息判斷;在步驟S3中,網(wǎng)絡(luò)設(shè)備I獲取用戶所反饋的對已識別信息和待識別信息的判斷結(jié)果;在步驟S4中,網(wǎng)絡(luò)設(shè)備I根據(jù)其中每個(gè)用戶對已識別信息的判斷結(jié)果,來確定每個(gè)用戶判斷垃圾信息的準(zhǔn)確率;在步驟S5中,網(wǎng)絡(luò)設(shè)備I根據(jù)用戶對待識別信息的判斷結(jié)果,并結(jié)合用戶判斷垃圾信息的準(zhǔn)確率,來確定待識別信息是否屬于垃圾信息。
[0026]上述各步驟之間是持續(xù)不斷工作的,在此,本領(lǐng)域技術(shù)人員應(yīng)理解“持續(xù)”是指上述各步驟分別實(shí)時(shí)地,或者按照設(shè)定的或?qū)崟r(shí)調(diào)整的工作模式要求,網(wǎng)絡(luò)設(shè)備I進(jìn)行已識別信息和待識別信息的提供、判斷結(jié)果的獲取、用戶對已識別信息判斷準(zhǔn)確率的確定以及待識別息是否屬于垃圾息的確定。
[0027]具體地,在步驟SI中,網(wǎng)絡(luò)設(shè)備I將已識別信息和待識別信息提供給一個(gè)或多個(gè)用戶來進(jìn)行垃圾信息判斷。
[0028]在此,已識別信息意指經(jīng)識別已明確可知其是否屬于垃圾信息的信息。
[0029]網(wǎng)絡(luò)設(shè)備I將已識別信息提供給一個(gè)或多個(gè)用戶來進(jìn)行垃圾信息判斷,以在后續(xù)的步驟中用于確定用戶進(jìn)行垃圾信息判斷的準(zhǔn)確率,進(jìn)而結(jié)合該準(zhǔn)確率來確定待識別信息是否屬于垃圾信息。
[0030]在此,待識別信息意指未知的需進(jìn)行識別來判斷其是否屬于垃圾信息的信息。
[0031]待識別信息和已識別信息在形式上可以沒有差別,也即,在向用戶提供時(shí)不必對這兩種信息進(jìn)行區(qū)分。這兩種信息的差別在于,通過用戶對待識別信息進(jìn)行垃圾信息判斷來確定待識別信息是否屬于垃圾信息,而已識別信息是否屬于垃圾信息是已知的,用于在后續(xù)的步驟中根據(jù)用戶反饋來確定用戶判斷垃圾信息的準(zhǔn)確率。
[0032]網(wǎng)絡(luò)設(shè)備I可將任何不確定是否屬于垃圾信息的信息作為待識別信息。優(yōu)選地,網(wǎng)絡(luò)設(shè)備I也可獲取一個(gè)或多個(gè)待處理信息,接著,網(wǎng)絡(luò)設(shè)備I通過垃圾信息的特征模型來對待處理信息進(jìn)行篩選,以獲得待識別信息。
[0033]其中,待處理信息意指,網(wǎng)絡(luò)中發(fā)布的任何需要用來確定其是否屬于垃圾信息的信息。
[0034]網(wǎng)絡(luò)設(shè)備I可從其資料庫中或從其他設(shè)備處獲得網(wǎng)絡(luò)中發(fā)布的任意信息,如各種內(nèi)容網(wǎng)頁,具體如用戶帖子、博客等,這些信息即為待處理信息;接著,網(wǎng)絡(luò)設(shè)備I通過垃圾信息的特征模型來對待處理信息進(jìn)行評估,以獲取待處理信息對應(yīng)的垃圾信息概率;隨后,網(wǎng)絡(luò)設(shè)備I根據(jù)預(yù)定的閾值來對待處理信息進(jìn)行篩選,以獲取其中垃圾信息概率介于預(yù)定的垃圾信息閾值和預(yù)定的非垃圾信息閾值之間的信息,這些信息即為待識別信息??商娲?,網(wǎng)絡(luò)設(shè)備I也可將所有非垃圾信息均作為待識別信息,也即對應(yīng)垃圾信息概率高于預(yù)定的非垃圾信息閾值的信息均為非垃圾信息,從而可作為待識別信息。
[0035]網(wǎng)絡(luò)設(shè)備I可以將已識別信息和待識別信息按照各種組合方式提供給用戶,如按照隨機(jī)數(shù)量組合后提供給用戶,或按照預(yù)定比例組合后提供給用戶。
[0036]例如,網(wǎng)絡(luò)設(shè)備I可以將任意數(shù)量的已識別信息和任意數(shù)量的待識別信息組合后提供給用戶來進(jìn)行垃圾信息判斷。
[0037]又如,網(wǎng)絡(luò)設(shè)備I可以按照預(yù)定比例將已識別信息和待識別信息組合后提供給用戶來進(jìn)行垃圾信息判斷。其中,已識別信息的比例可較低,從而待識別信息可占比較多地提供給用戶,以由用戶來盡快識別更多數(shù)量的待識別信息,提高計(jì)算處理的效率。已識別信息的比例也可較高,從而待識別信息可占比較少地提供給用戶,以在后續(xù)步驟中更精準(zhǔn)地通過較多的已識別信息來確定用戶進(jìn)行垃圾信息判斷的準(zhǔn)確率。
[0038]此外,網(wǎng)絡(luò)設(shè)備I也可將待識別信息和已識別信息提供給較少或較多的用戶來進(jìn)行垃圾信息判斷。
[0039]例如,網(wǎng)絡(luò)設(shè)備I可以將待識別信息和已識別信息提供給一個(gè)用戶來進(jìn)行垃圾信息判斷,從而可以更迅速地得到用戶反饋,進(jìn)而確定待識別信息是否屬于垃圾信息,以提高計(jì)算處理的效率。[0040]又如,網(wǎng)絡(luò)設(shè)備I可以將待識別信息和已識別信息提供給多個(gè)用戶來進(jìn)行垃圾信息判斷,從而可以在后續(xù)步驟中獲取多個(gè)用戶所反饋的對同一個(gè)待識別信息的多個(gè)判斷結(jié)果,以綜合這些判斷結(jié)果來更準(zhǔn)確地確定待識別信息是否屬于垃圾信息。
[0041]進(jìn)一步地,網(wǎng)絡(luò)設(shè)備I還可以將待識別信息進(jìn)行分組,以將不同的待識別信息組與已識別信息組合后分發(fā)給不同的用戶來進(jìn)行垃圾信息判斷。
[0042]例如,對于待識別信息A、B、C、D、E,網(wǎng)絡(luò)設(shè)備I可以按照每組中包含3個(gè)待識別信息的方式進(jìn)行分組,以獲取ABC、ABD、B⑶、BDE^DE共計(jì)5個(gè)待識別信息組。網(wǎng)絡(luò)設(shè)備I向5個(gè)用戶甲、乙、丙、丁、戊分別提供I個(gè)待識別信息組和已識別信息,如向用戶甲提供ABC,向用戶乙提供BCD,向用戶丙提供CDE、向用戶丁提供BDE、向用戶戊提供ABD,以使不同用戶對不同的待識別信息組進(jìn)行垃圾信息判斷。其中,網(wǎng)絡(luò)設(shè)備I向這些用戶提供的已識別信息也可以是相同的或不同的。
[0043]由于每個(gè)用戶判斷垃圾信息的速度可能是不同的,網(wǎng)絡(luò)設(shè)備I對待識別信息進(jìn)行分組,可以減少每個(gè)用戶判斷待識別信息的數(shù)量,從而提高計(jì)算處理的效率。當(dāng)其中任一用戶先于其他用戶完成判斷時(shí),網(wǎng)絡(luò)設(shè)備I還可繼續(xù)向該用戶提供其它待識別信息,以在后續(xù)的步驟中獲取更多的對待識別信息的判斷結(jié)果。
[0044]網(wǎng)絡(luò)設(shè)備I也可對已識別信息進(jìn)行分組,或分別對已識別信息和待識別信息進(jìn)行分組,分組的方式與上述對待識別信息分組的方式相同或基本相同,故此處不再贅述,并通過引用的方式包含于此。
[0045]本領(lǐng)域技術(shù)人員應(yīng)能理解上述網(wǎng)絡(luò)設(shè)備I將已識別信息和待識別信息提供給用戶的方式僅為舉例 ,其他現(xiàn)有的或今后可能出現(xiàn)的網(wǎng)絡(luò)設(shè)備I將已識別信息和待識別信息提供給用戶的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
[0046]在步驟S2中,用戶設(shè)備2對已識別信息和待識別信息進(jìn)行呈現(xiàn)以供用戶進(jìn)行垃圾信息判斷。
[0047]例如,用戶設(shè)備2在頁面的中間部分向用戶呈現(xiàn)待識別信息,在頁面的右側(cè)向用戶呈現(xiàn)已識別信息。本領(lǐng)域技術(shù)人員應(yīng)能理解,前述舉例僅用于解釋說明本發(fā)明之目的,而不應(yīng)被理解為對本發(fā)明的任何限制,其他現(xiàn)有或?qū)淼囊炎R別信息和待識別信息的呈現(xiàn)方式,諸如在頁面中混合呈現(xiàn)已識別信息和待識別信息、分別在頁面上部和下部呈現(xiàn)待識別信息和已識別信息等,如其可適用于本發(fā)明,則均應(yīng)被包含在本發(fā)明的專利保護(hù)范圍之內(nèi)。
[0048]在此,用戶設(shè)備2還可在每條信息的鄰近區(qū)域,諸如右側(cè)、下側(cè)等區(qū)域,呈現(xiàn)判斷結(jié)果選項(xiàng),如“A屬于垃圾信息”、“B不確定”、“C不屬于垃圾信息”,以供用戶選擇相應(yīng)判斷結(jié)果選項(xiàng)。
[0049]進(jìn)一步地,用戶設(shè)備2可一次性地呈現(xiàn)所有已識別信息和待識別信息,也可逐條地進(jìn)行呈現(xiàn)。
[0050]在步驟S3中,當(dāng)用戶提交判斷結(jié)果后,用戶設(shè)備2將該判斷結(jié)果提供給網(wǎng)絡(luò)設(shè)備
I。據(jù)此,網(wǎng)絡(luò)設(shè)備I獲取一個(gè)或多個(gè)用戶所反饋的對已識別信息和待識別信息的判斷結(jié)
果O
[0051]在此,為簡單說明起見,本發(fā)明多以判斷結(jié)果包括屬于垃圾信息、不確定、不屬于垃圾信息這3種判斷結(jié)果來進(jìn)行舉例。然而,本領(lǐng)域技術(shù)人員應(yīng)能理解,上述舉例僅用于說明本發(fā)明之目的,而不應(yīng)被理解為對本發(fā)明的任何限制,其他現(xiàn)有的或今后可能出現(xiàn)的其他判斷結(jié)果的類型和/或表現(xiàn)形式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明的專利保護(hù)范圍之內(nèi),并以引用方式包含于此。
[0052]在步驟S4中,網(wǎng)絡(luò)設(shè)備I根據(jù)其中每個(gè)用戶對已識別信息的判斷結(jié)果,來確定每個(gè)用戶判斷垃圾信息的準(zhǔn)確率。
[0053]由于網(wǎng)絡(luò)設(shè)備I已知這些已識別信息的正確判斷結(jié)果,將其與用戶對已識別信息的判斷結(jié)果進(jìn)行比較,以確定用戶對已識別信息判斷正確的數(shù)量,進(jìn)而結(jié)合相應(yīng)用戶所判斷已識別信息的總數(shù)量來確定每個(gè)用戶判斷垃圾信息的準(zhǔn)確率。
[0054]例如,第i個(gè)用戶對3個(gè)已識別信息的判斷結(jié)果為:已識別信息I屬于垃圾信息、已識別信息2不確定、已識別信息3不屬于垃圾信息;相應(yīng)的正確判斷結(jié)果為:已識別信息I屬于垃圾信息、已識別信息2不屬于垃圾信息、已識別信息3不屬于垃圾信息;在此采用m' 1來表示第i個(gè)用戶對已識別信息判斷正確的數(shù)量,即m' i=2,采用叫來表示第i個(gè)用戶所識別的已識別信息的總數(shù)量,即mi=3,采用Pi來表示第i個(gè)用戶判斷垃圾信息的準(zhǔn)確率,其具體計(jì)算方式如下:
【權(quán)利要求】
1.一種識別垃圾信息的方法,其中,該方法包括: -將已識別信息和待識別信息提供給一個(gè)或多個(gè)用戶來進(jìn)行垃圾信息判斷; -獲取所述一個(gè)或多個(gè)用戶所反饋的對所述已識別信息和所述待識別信息的判斷結(jié)果; -根據(jù)其中每個(gè)用戶對所述已識別信息的判斷結(jié)果,來確定每個(gè)用戶判斷垃圾信息的準(zhǔn)確率; -根據(jù)所述一個(gè)或多個(gè)用戶對所述待識別信息的判斷結(jié)果,并結(jié)合所述一個(gè)或多個(gè)用戶判斷垃圾信息的準(zhǔn)確率,來確定所述待識別信息是否屬于垃圾信息。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述確定所述待識別信息是否屬于垃圾信息的步驟進(jìn)一步包括: -根據(jù)其中每個(gè)用戶對所述待識別信息的判斷結(jié)果及其判斷垃圾信息的準(zhǔn)確率,以及所述一個(gè)或多個(gè)用戶對所述待識別信息的判斷結(jié)果的統(tǒng)計(jì)值,來確定所述待識別信息是否屬于垃圾信息。
3.根據(jù)權(quán)利要求1或2所述的方法,其中,該方法還包括: -獲取一個(gè)或多個(gè)待處理信息; -通過垃圾信息的特征模型來對所述待處理信息進(jìn)行篩選,以獲得所述待識別信息。
4.根據(jù)權(quán)利要求3所述的方法,其中,所述垃圾信息的特征模型基于以下至少任一項(xiàng)信息來建立: -與賬號發(fā)布行為相關(guān)的信息; -與發(fā)布信息的內(nèi)容相關(guān)的信息。
5.根據(jù)權(quán)利要求4所述的方法,其中,所述與賬號發(fā)布行為相關(guān)的信息包括以下至少任一項(xiàng): -同一賬號發(fā)布信息所對應(yīng)的地點(diǎn)數(shù)量大于預(yù)定閾值; -同一賬號發(fā)布信息的頻率大于預(yù)定閾值; -同一賬號發(fā)布信息所間隔的時(shí)間相等; -同一賬號發(fā)布的多個(gè)信息具有相同的內(nèi)容。
6.根據(jù)權(quán)利要求4或5所述的方法,其中,所述與發(fā)布信息的內(nèi)容相關(guān)的信息包括以下至少任一項(xiàng): -發(fā)布信息的內(nèi)容中包括指向低質(zhì)量網(wǎng)頁的網(wǎng)址; -發(fā)布信息的內(nèi)容中包括符合廣告特征的字符串。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述符合廣告特征的字符串進(jìn)一步包括符合預(yù)置推薦模板的字符串; 其中,所述預(yù)置推薦模板基于表達(dá)推薦語氣的關(guān)鍵詞來獲得。
8.根據(jù)權(quán)利要求1至7中任一項(xiàng)所述的方法,其中,所述將已識別信息和待識別信息提供給一個(gè)或多個(gè)用戶的步驟進(jìn)一步包括: -按照預(yù)定比例將已識別信息和待識別信息提供給一個(gè)或多個(gè)用戶來進(jìn)行垃圾信息判斷。
9.一種識別垃圾信息的裝置,其中,該裝置包括: -用于將已識別信息和待識別信息提供給一個(gè)或多個(gè)用戶來進(jìn)行垃圾信息判斷的裝置; -用于獲取所述一個(gè)或多個(gè)用戶所反饋的對所述已識別信息和所述待識別信息的判斷結(jié)果的裝置; -用于根據(jù)其中每個(gè)用戶對所述已識別信息的判斷結(jié)果,來確定每個(gè)用戶判斷垃圾信息的準(zhǔn)確率的裝置; -用于根據(jù)所述一個(gè)或多個(gè)用戶對所述待識別信息的判斷結(jié)果,并結(jié)合所述一個(gè)或多個(gè)用戶判斷垃圾信息的準(zhǔn)確率,來確定所述待識別信息是否屬于垃圾信息的裝置。
10.根據(jù)權(quán)利要求9所述的裝置,其中,所述用于確定所述待識別信息是否屬于垃圾信息的裝置進(jìn)一步用于: -根據(jù)其中每個(gè)用戶對所述待識別信息的判斷結(jié)果及其判斷垃圾信息的準(zhǔn)確率,以及所述一個(gè)或多個(gè)用戶對所述待識別信息的判斷結(jié)果的統(tǒng)計(jì)值,來確定所述待識別信息是否屬于垃圾信息。
11.根據(jù)權(quán)利要求9或10所述的裝置,其中,該裝置還包括: -用于獲取一個(gè)或多個(gè)待處理信息的裝置; -用于通過垃圾信息的特征模型來對所述待處理信息進(jìn)行篩選,以獲得所述待識別信息的裝置。
12.根據(jù)權(quán)利要求11所述的裝置,其中,所述垃圾信息的特征模型基于以下至少任一項(xiàng)信息來建立: -與賬號發(fā)布行為相關(guān)的信息; -與發(fā)布信息的內(nèi)容相關(guān)的信息。
13.根據(jù)權(quán)利要求12所述的裝置,其中,所述與賬號發(fā)布行為相關(guān)的信息包括以下至少任一項(xiàng): -同一賬號發(fā)布信息所對應(yīng)的地點(diǎn)數(shù)量大于預(yù)定閾值; -同一賬號發(fā)布信息的頻率大于預(yù)定閾值; -同一賬號發(fā)布信息所間隔的時(shí)間相等; -同一賬號發(fā)布的多個(gè)信息具有相同的內(nèi)容。
14.根據(jù)權(quán)利要求12或13所述的裝置,其中,所述與發(fā)布信息的內(nèi)容相關(guān)的信息包括以下至少任一項(xiàng): -發(fā)布信息的內(nèi)容中包括指向低質(zhì)量網(wǎng)頁的網(wǎng)址; -發(fā)布信息的內(nèi)容中包括符合廣告特征的字符串。
15.根據(jù)權(quán)利要求14所述的裝置,其中,所述符合廣告特征的字符串進(jìn)一步包括符合預(yù)置推薦模板的字符串; 其中,所述預(yù)置推薦模板基于表達(dá)推薦語氣的關(guān)鍵詞來獲得。
16.根據(jù)權(quán)利要求9至15中任一項(xiàng)所述的裝置,其中,所述用于將已識別信息和待識別信息提供給一個(gè)或多個(gè)用戶的裝置進(jìn)一步用于: -按照預(yù)定比例將已識別信息和待識別信息提供給一個(gè)或多個(gè)用戶來進(jìn)行垃圾信息判斷。
【文檔編號】G06F17/30GK103970832SQ201410128835
【公開日】2014年8月6日 申請日期:2014年4月1日 優(yōu)先權(quán)日:2014年4月1日
【發(fā)明者】劉昊, 施鵬, 張書娟, 王堅(jiān), 牛章鵬 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司