分析對(duì)象特征信息的獲取方法和裝置制造方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種分析對(duì)象特征信息的獲取方法和裝置。其中,該獲取方法包括:獲取用于獲取待分析對(duì)象的特征信息的獲取請(qǐng)求;獲取待分析對(duì)象的關(guān)鍵詞和關(guān)鍵詞的屬性信息;檢測(cè)待分析對(duì)象的第一文本信息中是否存在關(guān)鍵詞;若待分析對(duì)象的第一文本信息中存在關(guān)鍵詞,則檢測(cè)第一文本信息中是否存在屬性信息;若第一文本信息中存在屬性信息,則確定關(guān)鍵詞和屬性信息所指示的特征信息。通過(guò)本發(fā)明,解決了現(xiàn)有技術(shù)中對(duì)待分析對(duì)象的特征信息的提取不完整,導(dǎo)致對(duì)待分析對(duì)象的特征統(tǒng)計(jì)不準(zhǔn)確的問(wèn)題,實(shí)現(xiàn)了全面準(zhǔn)確獲取文本信息的特征信息的效果,從而提高了對(duì)待分析對(duì)象的特征統(tǒng)計(jì)的準(zhǔn)確性。
【專(zhuān)利說(shuō)明】分析對(duì)象特征信息的獲取方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,具體而言,涉及一種分析對(duì)象特征信息的獲取方法和 |101|裝直。
【背景技術(shù)】
[0002]當(dāng)今社會(huì)的網(wǎng)絡(luò)環(huán)境中,網(wǎng)民及各個(gè)網(wǎng)絡(luò)媒體平臺(tái)對(duì)某一事物的觀點(diǎn)和看法,已經(jīng)成為了社會(huì)輿論情況組成中非常重要的一部分。對(duì)于企業(yè)、政府部門(mén)等機(jī)構(gòu)來(lái)說(shuō),為了更好的了解其產(chǎn)品、服務(wù)、政策或某一即時(shí)事件在互聯(lián)網(wǎng)上被探討的情況,搜集、提取網(wǎng)民及網(wǎng)絡(luò)媒體對(duì)待分析對(duì)象的評(píng)價(jià)信息,也是必要的一項(xiàng)工作。
[0003]現(xiàn)有的待分析對(duì)象網(wǎng)絡(luò)評(píng)價(jià)的提取采用以下方法:針對(duì)一個(gè)待分析對(duì)象的某一評(píng)價(jià)點(diǎn),給定評(píng)價(jià)模板,該評(píng)價(jià)模板內(nèi)包含與該評(píng)價(jià)點(diǎn)相關(guān)的語(yǔ)句。在分析范圍內(nèi),對(duì)網(wǎng)絡(luò)文本進(jìn)行分析,將網(wǎng)絡(luò)文本與該評(píng)價(jià)模板內(nèi)的所有語(yǔ)句進(jìn)行匹配,根據(jù)匹配結(jié)果反映關(guān)于該評(píng)價(jià)點(diǎn)的描述在所分析的網(wǎng)絡(luò)文本內(nèi)的出現(xiàn)情況。
[0004]以針對(duì)待分析對(duì)象【吉普】的評(píng)價(jià)點(diǎn)【油耗】為例,對(duì)現(xiàn)有的提取方法進(jìn)行分步闡述:
[0005]1.確定待分析對(duì)象為【吉普】,希望在分析范圍內(nèi)提取與評(píng)價(jià)點(diǎn)【油耗】相關(guān)的內(nèi)容。
[0006]2.創(chuàng)建【油耗】評(píng)價(jià)模板,在該評(píng)價(jià)模板內(nèi)設(shè)定3類(lèi)語(yǔ)句,分別就【油耗】的高中低進(jìn)行描述,如:
[0007]1)氺#太費(fèi)油了——油耗高;
[0008]2)覺(jué)得林油耗還行-油耗一般;
[0009]3)我朋友說(shuō)挺省油的——油耗低。
[0010]其中,【林#】用以指代待分析對(duì)象,在本示例中即【吉普】。
[0011]3.針對(duì)網(wǎng)絡(luò)文本的內(nèi)容,匹配評(píng)價(jià)模板中的3條語(yǔ)句,即:
[0012]1)吉普太費(fèi)油了——油耗高;
[0013]2)覺(jué)得吉普油耗還行——油耗一般;
[0014]3)我朋友說(shuō)吉普挺省油的——油耗低。
[0015]4.對(duì)上述3條語(yǔ)句在分析范圍內(nèi)的出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì):
[0016]1)吉普太費(fèi)油了——油耗高,出現(xiàn)60次;
[0017]2)覺(jué)得吉普油耗還行——油耗一般,出現(xiàn)30次;
[0018]3)我朋友說(shuō)吉普挺省油的——油耗低,出現(xiàn)10次。
[0019]5.結(jié)論:針對(duì)【吉普】這一待分析對(duì)象,在限定的分析范圍內(nèi),網(wǎng)絡(luò)文本中對(duì)其【油耗】的評(píng)價(jià)內(nèi)容一共出現(xiàn)了 100次,其中,認(rèn)為其【油耗高】的內(nèi)容占60%,認(rèn)為其【油耗一般】的內(nèi)容占30%,認(rèn)為其【油耗低】的內(nèi)容占10%。
[0020]根據(jù)上述現(xiàn)有的評(píng)價(jià)提取方法的過(guò)程可知,其缺點(diǎn)在于,通過(guò)該方法對(duì)網(wǎng)絡(luò)文本中的評(píng)價(jià)情況進(jìn)行分析提取時(shí),僅能識(shí)別評(píng)價(jià)模板內(nèi)已有的固定語(yǔ)句,即網(wǎng)絡(luò)文本內(nèi)容需要與評(píng)價(jià)模板內(nèi)的語(yǔ)句精確匹配,否則不能被識(shí)別和提取計(jì)數(shù)。例如,以上述【吉普】示例來(lái)說(shuō),假設(shè)所分析的網(wǎng)絡(luò)文本內(nèi)存在語(yǔ)句“吉普其實(shí)還挺費(fèi)油的”,根據(jù)現(xiàn)有方法,沒(méi)有與模板內(nèi)任意一條語(yǔ)句完全匹配,則該語(yǔ)句不能被識(shí)別和提取計(jì)數(shù)。
[0021]針對(duì)現(xiàn)有技術(shù)中對(duì)待分析對(duì)象的特征信息的提取不完整,導(dǎo)致對(duì)待分析對(duì)象的特征統(tǒng)計(jì)不準(zhǔn)確的問(wèn)題,目前尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0022]針對(duì)相關(guān)技術(shù)中對(duì)待分析對(duì)象的特征信息的提取不完整,導(dǎo)致對(duì)待分析對(duì)象的特征統(tǒng)計(jì)不準(zhǔn)確的問(wèn)題,目前尚未提出有效的解決方案,為此,本發(fā)明的主要目的在于提供一種分析對(duì)象特征信息的獲取方法和裝置,以解決上述問(wèn)題。
[0023]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種分析對(duì)象特征信息的獲取方法,該獲取方法包括:獲取用于獲取待分析對(duì)象的特征信息的獲取請(qǐng)求;獲取待分析對(duì)象的關(guān)鍵詞和關(guān)鍵詞的屬性信息;檢測(cè)待分析對(duì)象的第一文本信息中是否存在關(guān)鍵詞;若待分析對(duì)象的第一文本信息中存在關(guān)鍵詞,則檢測(cè)第一文本信息中是否存在屬性信息;若第一文本信息中存在屬性信息,則確定關(guān)鍵詞和屬性信息所指示的特征信息。
[0024]進(jìn)一步地,在檢測(cè)待分析對(duì)象的第一文本信息中是否存在關(guān)鍵詞之前,獲取方法包括:獲取待分析對(duì)象的第二文本信息;按照預(yù)設(shè)的劃分方式將第二文本信息劃分為多個(gè)第一文本信息;檢測(cè)待分析對(duì)象的第一文本信息中是否存在關(guān)鍵詞包括:按順序逐個(gè)檢測(cè)第一文本信息中是否存在關(guān)鍵詞。
[0025]進(jìn)一步地,按照預(yù)設(shè)的劃分方式將第二文本信息劃分為多個(gè)第一文本信息包括:將第二文本信息中符合預(yù)設(shè)字?jǐn)?shù)的片段作為第一文本信息;或?qū)⒌诙谋拘畔凑諛?biāo)點(diǎn)符號(hào)劃分為多個(gè)第一文本信息;或?qū)⒌诙谋拘畔⒅蟹项A(yù)設(shè)詞語(yǔ)數(shù)的片段作為第一文本信肩、0
[0026]進(jìn)一步地,檢測(cè)第一文本信息中是否存在屬性信息包括:檢測(cè)第一文本信息中是否存在屬性信息中的第一詞語(yǔ),其中,屬性信息包括一個(gè)或多個(gè)第一詞語(yǔ);若第一文本信息中存在第一詞語(yǔ),則確定第一文本信息中存在屬性信息。
[0027]進(jìn)一步地,在確定關(guān)鍵詞和屬性信息所指示的特征信息之后,獲取方法還包括:統(tǒng)計(jì)各個(gè)第一詞語(yǔ)的總數(shù),及各個(gè)屬性信息對(duì)應(yīng)的第二文本信息的總數(shù)。
[0028]進(jìn)一步地,確定關(guān)鍵詞和屬性信息所指示的特征信息包括:從第一文本信息中提取關(guān)鍵詞和第一詞語(yǔ)之間的所有第二詞語(yǔ);將關(guān)鍵詞、所有第二詞語(yǔ)以及第一詞語(yǔ)作為特征信息。
[0029]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供了一種分析對(duì)象特征信息的獲取裝置,該獲取裝置包括:第一獲取模塊,用于獲取待分析對(duì)象的特征信息的獲取請(qǐng)求;第二獲取模塊,用于獲取待分析對(duì)象的關(guān)鍵詞和關(guān)鍵詞的屬性信息;第一檢測(cè)模塊,用于檢測(cè)待分析對(duì)象的第一文本信息中是否存在關(guān)鍵詞;第二檢測(cè)模塊,用于在待分析對(duì)象的第一文本信息中存在關(guān)鍵詞的情況下,檢測(cè)第一文本信息中是否存在屬性信息;第一確定模塊,用于在第一文本信息中存在屬性信息的情況下,確定關(guān)鍵詞和屬性信息所指示的特征信肩、0
[0030]進(jìn)一步地,獲取裝置包括:第三獲取模塊,用于在檢測(cè)待分析對(duì)象的第一文本信息中是否存在關(guān)鍵詞之前,獲取待分析對(duì)象的第二文本信息;劃分模塊,用于按照預(yù)設(shè)的劃分方式將第二文本信息劃分為多個(gè)第一文本信息;第一檢測(cè)模塊包括:第一檢測(cè)子模塊,用于按順序逐個(gè)檢測(cè)第一文本信息中是否存在關(guān)鍵詞。
[0031]進(jìn)一步地,劃分模塊包括:第一劃分子模塊,用于劃分第二文本信息中符合預(yù)設(shè)字?jǐn)?shù)的片段作為第一文本信息;或第二劃分子模塊,用于將第二文本信息按照標(biāo)點(diǎn)符號(hào)劃分為多個(gè)第一文本信息;或第三劃分子模塊,用于劃分第二文本信息中符合預(yù)設(shè)詞語(yǔ)數(shù)的片段作為第一文本信息。
[0032]進(jìn)一步地,第二檢測(cè)模塊包括:第二檢測(cè)子模塊,用于檢測(cè)第一文本信息中是否存在屬性信息中的第一詞語(yǔ),其中,屬性信息包括一個(gè)或多個(gè)第一詞語(yǔ);第二確定模塊,用于在第一文本信息中存在第一詞語(yǔ)的情況下,確定第一文本信息中存在屬性信息。
[0033]進(jìn)一步地,獲取裝置還包括:統(tǒng)計(jì)模塊,用于在確定關(guān)鍵詞和屬性信息所指示的特征信息之后,統(tǒng)計(jì)各個(gè)第一詞語(yǔ)的總數(shù),及各個(gè)屬性信息對(duì)應(yīng)的第二文本信息的總數(shù)。
[0034]進(jìn)一步地,第一確定模塊包括:提取模塊,用于從第一文本信息中提取關(guān)鍵詞和第一詞語(yǔ)之間的所有第二詞語(yǔ);確定子模塊,用于確定關(guān)鍵詞、所有第二詞語(yǔ)以及第一詞語(yǔ)作為特征信息。
[0035]采用本發(fā)明實(shí)施例,通過(guò)檢測(cè)第一文本信息中是否存在待分析對(duì)象的關(guān)鍵詞和關(guān)鍵詞的屬性信息,來(lái)判斷待分析對(duì)象是否具有特征信息,也即通過(guò)關(guān)鍵詞和關(guān)鍵詞的屬性信息對(duì)待分析對(duì)象的第一文本信息的模糊匹配確定特征信息,無(wú)需將待分析對(duì)象的第一文本信息與模板內(nèi)的語(yǔ)句進(jìn)行精確匹配。在上述實(shí)施例中,通過(guò)關(guān)鍵詞和關(guān)鍵詞的屬性信息對(duì)待分析對(duì)象的第一文本信息的模糊匹配,可以對(duì)同一特征信息的不同表述方式進(jìn)行識(shí)另I」,避免了現(xiàn)有技術(shù)中由于模板語(yǔ)句設(shè)置不全面,造成獲取到的待分析對(duì)象的特征信息不完整的問(wèn)題。通過(guò)本發(fā)明實(shí)施例,解決了現(xiàn)有技術(shù)中對(duì)待分析對(duì)象的特征信息的提取不完整,導(dǎo)致對(duì)待分析對(duì)象的特征統(tǒng)計(jì)不準(zhǔn)確的問(wèn)題,實(shí)現(xiàn)了全面準(zhǔn)確獲取文本信息的特征信息的效果,從而提高了對(duì)待分析對(duì)象的特征統(tǒng)計(jì)的準(zhǔn)確性。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0036]此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0037]圖1是根據(jù)本發(fā)明實(shí)施例的分析對(duì)象特征信息的獲取方法的流程圖;
[0038]圖2是根據(jù)本發(fā)明實(shí)施例的一種可選的關(guān)鍵詞和屬性信息的關(guān)系的示意圖;
[0039]圖3是根據(jù)本發(fā)明實(shí)施例的一種可選的分析對(duì)象特征信息的獲取方法的流程圖;以及
[0040]圖4是根據(jù)本發(fā)明實(shí)施例的分析對(duì)象特征信息的獲取裝置的示意圖。
【具體實(shí)施方式】
[0041]為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
[0042]需要說(shuō)明的是,本發(fā)明的說(shuō)明書(shū)和權(quán)利要求書(shū)及上述附圖中的術(shù)語(yǔ)“第一”、“第二”等是用于區(qū)別類(lèi)似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語(yǔ)“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過(guò)程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒(méi)有清楚地列出的或?qū)τ谶@些過(guò)程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
[0043]圖1是根據(jù)本發(fā)明實(shí)施例的分析對(duì)象特征信息的獲取方法的流程圖,如圖1所示該獲取方法包括如下步驟:
[0044]步驟3102,獲取用于獲取待分析對(duì)象的特征信息的獲取請(qǐng)求。
[0045]步驟3104,獲取待分析對(duì)象的關(guān)鍵詞和關(guān)鍵詞的屬性信息。
[0046]步驟3106,檢測(cè)待分析對(duì)象的第一文本信息中是否存在關(guān)鍵詞。
[0047]在待分析對(duì)象的第一文本信息中存在關(guān)鍵詞的情況下,執(zhí)行步驟3108 ;在待分析對(duì)象的第一文本信息中不存在關(guān)鍵詞的情況下,執(zhí)行步驟3112。
[0048]步驟3108,檢測(cè)第一文本信息中是否存在屬性信息。
[0049]在第一文本信息中存在屬性信息的情況下,執(zhí)行步驟3110 ;在第一文本信息中不存在屬性信息的情況下,執(zhí)行步驟3112。
[0050]步驟3110,確定關(guān)鍵詞和屬性信息所指示的特征信息。
[0051]步驟3112,確定第一文本信息中不存在特征信息。
[0052]采用本發(fā)明實(shí)施例,通過(guò)檢測(cè)第一文本信息中是否存在待分析對(duì)象的關(guān)鍵詞和關(guān)鍵詞的屬性信息,來(lái)判斷待分析對(duì)象是否具有特征信息,也即通過(guò)關(guān)鍵詞和關(guān)鍵詞的屬性信息對(duì)待分析對(duì)象的第一文本信息的模糊匹配確定特征信息,無(wú)需將待分析對(duì)象的第一文本信息與模板內(nèi)的語(yǔ)句進(jìn)行精確匹配。在上述實(shí)施例中,通過(guò)關(guān)鍵詞和關(guān)鍵詞的屬性信息對(duì)待分析對(duì)象的第一文本信息的模糊匹配,可以對(duì)同一特征信息的不同表述方式進(jìn)行識(shí)另I」,避免了現(xiàn)有技術(shù)中由于模板語(yǔ)句設(shè)置不全面,造成獲取到的待分析對(duì)象的特征信息不完整的問(wèn)題。通過(guò)本發(fā)明實(shí)施例,解決了現(xiàn)有技術(shù)中對(duì)待分析對(duì)象的特征信息的提取不完整,導(dǎo)致對(duì)待分析對(duì)象的特征統(tǒng)計(jì)不準(zhǔn)確的問(wèn)題,實(shí)現(xiàn)了全面準(zhǔn)確獲取文本信息的特征信息的效果,從而提高了對(duì)待分析對(duì)象的特征統(tǒng)計(jì)的準(zhǔn)確性。
[0053]根據(jù)本發(fā)明上述實(shí)施例,在檢測(cè)待分析對(duì)象的第一文本信息中是否存在關(guān)鍵詞之前,獲取方法可以包括:獲取待分析對(duì)象的第二文本信息;按照預(yù)設(shè)的劃分方式將第二文本信息劃分為多個(gè)第一文本信息;檢測(cè)待分析對(duì)象的第一文本信息中是否存在關(guān)鍵詞包括:按順序逐個(gè)檢測(cè)第一文本信息中是否存在關(guān)鍵詞。
[0054]具體地,在獲取待分析對(duì)象的第二文本信息之后,按照預(yù)設(shè)的劃分方式將爬取到的第二文本信息劃分為多個(gè)第一文本信息,并按順序逐個(gè)檢測(cè)該第一文本信息中是否存在關(guān)鍵詞。
[0055]上述的待分析對(duì)象的第二文本信息可以為通過(guò)爬蟲(chóng)代碼從網(wǎng)站資源上爬取到的一個(gè)或多個(gè)網(wǎng)絡(luò)文本、通過(guò)掃描紙質(zhì)文件得到的電子文本以及手動(dòng)輸入的電子文本等。
[0056]例如,若要獲取購(gòu)物網(wǎng)站上的某個(gè)商品(即上述實(shí)施例中的待分析對(duì)象)銷(xiāo)售后的用戶(hù)評(píng)價(jià)信息,可以通過(guò)爬蟲(chóng)代碼從購(gòu)物網(wǎng)站上獲取該商品的一個(gè)或多個(gè)用戶(hù)評(píng)價(jià),爬取到的用戶(hù)評(píng)價(jià)的文本內(nèi)容即為上述實(shí)施例中的第二文本信息。
[0057]進(jìn)一步地,按照預(yù)設(shè)的劃分方式將第二文本信息劃分為多個(gè)第一文本信息可以包括:將第二文本信息中符合預(yù)設(shè)字?jǐn)?shù)的片段作為第一文本信息;或?qū)⒌诙谋拘畔凑諛?biāo)點(diǎn)符號(hào)劃分為多個(gè)第一文本信息;或?qū)⒌诙谋拘畔⒅蟹项A(yù)設(shè)詞語(yǔ)數(shù)的片段作為第一文本信息。
[0058]在本發(fā)明一個(gè)可選的實(shí)施例中,可以從第二文本信息中的第一個(gè)字開(kāi)始,按順序連續(xù)獲取符合預(yù)設(shè)字?jǐn)?shù)的第一個(gè)片段,然后從第二文本信息中的第二個(gè)字開(kāi)始,按順序連續(xù)獲取符合預(yù)設(shè)字?jǐn)?shù)的第二個(gè)片段,直至獲取到的片段的最后一個(gè)字為該第二文本信息中的最后一個(gè)字為止。
[0059]例如,將第二文本信息“聽(tīng)說(shuō)進(jìn)口吉普的指南者油耗有點(diǎn)高啊共16個(gè)字)按預(yù)設(shè)字?jǐn)?shù)(如,10個(gè)字)劃分為多個(gè)(在該實(shí)施例中為7個(gè))第一文本信息,可以得到如下7個(gè)片段(即上述實(shí)施例中的第一文本信息):(1)聽(tīng)說(shuō)進(jìn)口吉普的指南者;(2)說(shuō)進(jìn)口吉普的指南者油:(3)進(jìn)口吉普的指南者油耗;(4) 口吉普的指南者油耗有;(5)吉普的指南者油耗有點(diǎn):(6)普的指南者油耗有點(diǎn)高;以及(7)的指南者油耗有點(diǎn)高啊。
[0060]在另一個(gè)可選的實(shí)施例中,可以從第二文本信息中的第一個(gè)詞語(yǔ)開(kāi)始,按照順序連續(xù)獲取符合預(yù)設(shè)詞語(yǔ)數(shù)的第一個(gè)片段,然后從第二文本信息中的第二個(gè)詞語(yǔ)開(kāi)始,按照順序連續(xù)獲取符合預(yù)設(shè)詞語(yǔ)數(shù)的第二個(gè)片段,直至獲取到的片段的最后一個(gè)詞語(yǔ)為該第二文本信息中的最后一個(gè)詞語(yǔ)為止。
[0061]例如,將第二文本信息“聽(tīng)說(shuō)進(jìn)口吉普的指南者油耗有點(diǎn)高啊”按預(yù)設(shè)詞語(yǔ)數(shù)(如,5個(gè)詞語(yǔ))劃分為多個(gè)第一文本信息,可以得到如下5個(gè)片段(即上述實(shí)施例中的第一文本信息):(1)聽(tīng)說(shuō)進(jìn)口吉普的指南者;(2)進(jìn)口吉普的指南者油耗;(3)吉普的指南者油耗有點(diǎn):(4)的指南者油耗有點(diǎn)高;以及(5)指南者油耗有點(diǎn)高啊。
[0062]上述的詞語(yǔ)是預(yù)設(shè)的,按照預(yù)設(shè)詞語(yǔ)數(shù)劃分第二文本信息時(shí),可以按照預(yù)設(shè)的詞語(yǔ)來(lái)確定詞語(yǔ)數(shù)并劃分第二文本信息,如,上述第二文本信息中的詞語(yǔ)可以包括:聽(tīng)說(shuō)、進(jìn)口、吉普、的、指南者、油耗、有點(diǎn)、高以及啊。
[0063]在上述的實(shí)施例中,對(duì)第二文本信息的劃分是以預(yù)設(shè)的劃分方式對(duì)字符串進(jìn)行劃分,取若干個(gè)連續(xù)的片段,得到第一文本信息。通過(guò)本發(fā)明上述實(shí)施例,只有在同一個(gè)第一文本信息中同時(shí)出現(xiàn)關(guān)鍵詞和屬性信息時(shí),才認(rèn)為該屬性信息是描述該關(guān)鍵詞的。通過(guò)限定關(guān)鍵詞和屬性信息之間的距離,避免了在不同第一文本信息中檢測(cè)到關(guān)鍵詞和屬性信息時(shí),錯(cuò)誤的獲取該關(guān)鍵詞和屬性信息對(duì)應(yīng)的特征信息的問(wèn)題,提高了獲取特征信息的準(zhǔn)確性。
[0064]例如,若獲取到的第二文本信息為一篇文章,該文章中包括十句話(huà),可以按照標(biāo)點(diǎn)符號(hào)劃分該文章,如將每句話(huà)作為一個(gè)第一文本信息,其中,第一句話(huà)為“最近聽(tīng)說(shuō)有些網(wǎng)友對(duì)吉普的油耗發(fā)表了一些評(píng)價(jià)”,第十句話(huà)為“網(wǎng)友們提供的評(píng)價(jià)內(nèi)容對(duì)我來(lái)說(shuō)很有用,很高興能得到大家的幫助,非常感謝”,那么可以在第一個(gè)第一文本信息中檢測(cè)到“油耗”這一關(guān)鍵詞,并在第十個(gè)第一文本信息中檢測(cè)到“高”這一屬性信息,但是很顯然第十個(gè)第一文本信息中檢測(cè)到的屬性信息不是描述第一個(gè)第一文本信息中的關(guān)鍵詞,若將該屬性信息和該關(guān)鍵詞作為獲取特征信息的依據(jù),則會(huì)獲得錯(cuò)誤的特征信息。在上述實(shí)施例中,限定了只有在同一個(gè)第一文本信息中檢測(cè)到關(guān)鍵詞和屬性信息時(shí),才獲取檢測(cè)到的關(guān)鍵詞和屬性信息對(duì)應(yīng)的特征信息,通過(guò)該實(shí)施例限定了關(guān)鍵詞和屬性信息之間的距離,提高了獲取特征信息的準(zhǔn)確性。
[0065]在本發(fā)明的上述實(shí)施例中,檢測(cè)第一文本信息中是否存在屬性信息可以包括:檢測(cè)第一文本信息中是否存在屬性信息中的第一詞語(yǔ),其中,屬性信息包括一個(gè)或多個(gè)第一詞語(yǔ);若第一文本信息中存在第一詞語(yǔ),則確定第一文本信息中存在屬性信息。
[0066]具體地,只要在第一文本信息中檢測(cè)到屬性信息中的任意一個(gè)第一詞語(yǔ),即可確定該第一文本信息中存在屬性信息。
[0067]在上述實(shí)施例中,可以從預(yù)設(shè)的詞語(yǔ)數(shù)據(jù)庫(kù)中讀取待分析對(duì)象的關(guān)鍵詞、該關(guān)鍵詞的屬性信息的一個(gè)或多個(gè)第一詞語(yǔ)。
[0068]圖2是根據(jù)本發(fā)明實(shí)施例的一種可選的關(guān)鍵詞和屬性信息的關(guān)系的示意圖。下面結(jié)合圖2詳細(xì)說(shuō)明本發(fā)明上述實(shí)施例。
[0069]如圖2所示,待分析對(duì)象可以對(duì)應(yīng)一個(gè)或多個(gè)關(guān)鍵詞,如圖2中的待分析對(duì)象可以對(duì)應(yīng)“關(guān)鍵詞1,......,關(guān)鍵詞;每個(gè)關(guān)鍵詞可以對(duì)應(yīng)一個(gè)或多個(gè)屬性信息,如圖2中的關(guān)鍵詞1可以對(duì)應(yīng)“屬性信息11、屬性信息12和屬性信息13”,和關(guān)鍵詞III可以對(duì)應(yīng)“屬性信息“和屬性信息;每個(gè)屬性信息可以包括一個(gè)或多個(gè)第一詞語(yǔ),如圖2中的屬性信息11可以包括“第一詞語(yǔ)111,……,第一詞語(yǔ)1、屬性信息12可以包括“第一詞語(yǔ)121,……,第一詞語(yǔ)12^”、屬性信息13可以包括“第一詞語(yǔ)131,……,第一詞語(yǔ)13^”,以及屬性信息“可以包括“第一詞語(yǔ)“I,……,第一詞語(yǔ)III…”和屬性信息…可以包括“第一詞語(yǔ) 11121,......,第一詞語(yǔ)
[0070]在該實(shí)施例中,若待分析對(duì)象為吉普,那么圖2中的關(guān)鍵詞1可以是“油耗”,關(guān)鍵詞~可以是與吉普有關(guān)的其他關(guān)鍵詞(如,價(jià)格或者性能);關(guān)鍵詞1對(duì)應(yīng)的屬性信息可以“高”、“一般”以及“低”三個(gè)屬性信息;每個(gè)屬性信息均可以包括一個(gè)或多個(gè)第一詞語(yǔ),如屬性信息“高”可以包括如“高”、“較高”、“很高”和“不低”等多個(gè)第一詞語(yǔ)、屬性信息“一般”可以包括“一般” “還可以”以及“還行”等多個(gè)第一詞語(yǔ),以及屬性信息“低”可以包括“不高”、“較低”、“低”以及“很低”等多個(gè)第一詞語(yǔ)。
[0071]通過(guò)本發(fā)明上述實(shí)施例,在對(duì)第一文本信息中的內(nèi)容進(jìn)行檢測(cè)時(shí),不限制關(guān)鍵詞與屬性信息的第一詞語(yǔ)之間的組合形式(如,在文本信息中出現(xiàn)的先后順序以及兩組詞之間包含的其他內(nèi)容),只要第一文本信息中同時(shí)出現(xiàn)關(guān)鍵詞與該第一詞語(yǔ)的任意組合,即可確定該第一文本信息中存在屬性信息。通過(guò)上述實(shí)施例,避免了由于模板中的語(yǔ)句設(shè)置不全面,導(dǎo)致待分析對(duì)象的特征信息獲取遺漏的問(wèn)題,提高了獲取待分析對(duì)象的特征信息的準(zhǔn)確性。
[0072]根據(jù)本發(fā)明上述實(shí)施例,在確定關(guān)鍵詞和屬性信息所指示的特征信息之后,獲取方法還可以包括:統(tǒng)計(jì)各個(gè)第一詞語(yǔ)的總數(shù),及各個(gè)屬性信息對(duì)應(yīng)的第二文本信息的總數(shù)。
[0073]具體地,在獲取到各個(gè)第一詞語(yǔ)對(duì)應(yīng)的特征信息之后,統(tǒng)計(jì)各個(gè)第一詞語(yǔ)的總數(shù)以獲得特征信息的出現(xiàn)次數(shù),并統(tǒng)計(jì)包含各個(gè)屬性信息的第二文本信息的總數(shù)以獲得各個(gè)屬性信息的出現(xiàn)次數(shù)。
[0074]例如,若第二文本信息為一篇文章,該文章為對(duì)吉普油耗(即上述實(shí)施例中的關(guān)鍵詞)的評(píng)價(jià),且文章中出現(xiàn)了 10個(gè)關(guān)于油耗高的評(píng)價(jià)信息(即上述實(shí)施例中的屬性信息為“高”,且文章中出現(xiàn)了 10個(gè)第一詞語(yǔ)),那么在統(tǒng)計(jì)各個(gè)屬性信息對(duì)應(yīng)的第二文本信息的總數(shù)時(shí),計(jì)數(shù)為1 ;在統(tǒng)計(jì)各個(gè)第一詞語(yǔ)的總數(shù)時(shí),計(jì)數(shù)為10。
[0075]在上述實(shí)施例中,通過(guò)統(tǒng)計(jì)到的第一詞語(yǔ)的總數(shù)可以得到各個(gè)特征信息出現(xiàn)的總數(shù),由于一個(gè)第二文本信息中可能出現(xiàn)一個(gè)屬性信息的多個(gè)第一詞語(yǔ),但是該第二文本信息僅表達(dá)了該屬性信息所指示的觀點(diǎn),那么通過(guò)統(tǒng)計(jì)包含各個(gè)屬性信息的第二文本信息的總數(shù)可以得到表達(dá)有不同觀點(diǎn)的各個(gè)文本的總數(shù)。
[0076]通過(guò)本發(fā)明上述實(shí)施例,可以反映待分析對(duì)象的各個(gè)特征信息的出現(xiàn)次數(shù),以及含有各個(gè)特征信息的第二文本信息的總數(shù),可以在用戶(hù)需要了解待分析對(duì)象的某個(gè)特征信息時(shí),為用戶(hù)提供準(zhǔn)確可靠的信息。
[0077]在本發(fā)明的上述實(shí)施例中,確定關(guān)鍵詞和屬性信息所指示的特征信息可以包括:從第一文本信息中提取關(guān)鍵詞和第一詞語(yǔ)之間的所有第二詞語(yǔ);將關(guān)鍵詞、所有第二詞語(yǔ)以及第一詞語(yǔ)作為特征信息。
[0078]具體地,在第一文本信息中檢測(cè)到關(guān)鍵詞和第一詞語(yǔ)之后,提取該關(guān)鍵詞和該第一詞語(yǔ)之間所有的詞語(yǔ)(或文字),將該關(guān)鍵詞、該第一詞語(yǔ)以及提取到的詞語(yǔ)(或文字)作為第一文本信息的特征信息。
[0079]例如,在第一文本信息“普的指南者油耗有點(diǎn)高”中,檢測(cè)到關(guān)鍵詞“油耗”和第一詞語(yǔ)“高”,則提取第一文本信息中的“油耗有點(diǎn)高”,并將其作為第一文本信息的特征信息。
[0080]在上述實(shí)施例中,可將關(guān)鍵詞、第一詞語(yǔ)及其二者之間的內(nèi)容全部提取出來(lái),作為第一文本信息的特征信息。通過(guò)本發(fā)明上述實(shí)施例,避免了現(xiàn)有技術(shù)中由于模板的語(yǔ)句設(shè)置不全面而造成的待分析對(duì)象特征信息的提取遺漏,提高了提取特征信息的準(zhǔn)確性及可靠性。
[0081]圖3是根據(jù)本發(fā)明實(shí)施例的一種可選的分析對(duì)象特征信息的獲取方法的流程圖。下面結(jié)合圖3詳細(xì)介紹本發(fā)明上述實(shí)施例。
[0082]如圖3所示,該獲取方法可以包括如下步驟:
[0083]步驟3302,確定待分析對(duì)象。
[0084]步驟3304,從詞語(yǔ)數(shù)據(jù)庫(kù)中讀取待分析對(duì)象的關(guān)鍵詞以及評(píng)價(jià)詞語(yǔ)。
[0085]上述的評(píng)價(jià)詞語(yǔ)即本發(fā)明上述實(shí)施例中的第一詞語(yǔ)。
[0086]在執(zhí)行步驟310之前,執(zhí)行步驟3306。
[0087]步驟3306,通過(guò)爬蟲(chóng)代碼爬取網(wǎng)站資源上的網(wǎng)絡(luò)文本。
[0088]其中,網(wǎng)絡(luò)文本即為本發(fā)明上述實(shí)施例中的第二文本信息。
[0089]步驟3308,將爬取到的網(wǎng)絡(luò)文本按預(yù)設(shè)拆分方式拆分為~個(gè)子文本。
[0090]其中,子文本即本發(fā)明上述實(shí)施例中的第一文本信息;預(yù)設(shè)拆分方式即本發(fā)明上述實(shí)施例中的預(yù)設(shè)的劃分方式。
[0091]在得到~個(gè)子文本之后,執(zhí)行步驟3310。
[0092]步驟3310,依次獲取子文本。
[0093]具體地,在首次執(zhí)行該步驟時(shí),獲取第一個(gè)子文本。
[0094]步驟3312,判斷是否在子文本中查找到關(guān)鍵詞。
[0095]在查找到關(guān)鍵詞的情況下,執(zhí)行步驟3314 ;在未查找到關(guān)鍵詞的情況下,返回執(zhí)行步驟3310,即獲取下一個(gè)子文本,若第~次執(zhí)行步驟3312,則獲取第奸1個(gè)子文本。
[0096]步驟3314,在子文本內(nèi)查找評(píng)價(jià)詞語(yǔ)。
[0097]步驟3316,判斷是否在子文本內(nèi)查找到評(píng)價(jià)詞語(yǔ)。
[0098]在查找到評(píng)價(jià)詞語(yǔ)的情況下,結(jié)束該循環(huán);在未查找到評(píng)價(jià)詞語(yǔ)的情況下,返回執(zhí)行步驟3310。
[0099]具體地,針對(duì)待分析對(duì)象,從詞語(yǔ)數(shù)據(jù)庫(kù)中讀取兩組詞語(yǔ):關(guān)鍵詞和評(píng)價(jià)詞語(yǔ),該關(guān)鍵詞和評(píng)價(jià)詞語(yǔ)相互對(duì)應(yīng);在爬取到網(wǎng)絡(luò)文本并將其拆分為~個(gè)子文本之后,按照關(guān)鍵詞和評(píng)價(jià)詞語(yǔ)按順序逐個(gè)對(duì)~個(gè)子文本執(zhí)行查找操作;在同一個(gè)子文本內(nèi)查找到關(guān)鍵詞和評(píng)價(jià)詞語(yǔ)的情況下,結(jié)束該查找操作;若在子文本內(nèi)未查找到關(guān)鍵詞或評(píng)價(jià)詞語(yǔ),則繼續(xù)查找下一個(gè)子文本,直至在同一個(gè)子文本內(nèi)查找到關(guān)鍵詞和評(píng)價(jià)詞語(yǔ),或者查找完所有子文本。
[0100]下面以待分析對(duì)象“吉普”為例,詳細(xì)介紹圖3所示的獲取方法。
[0101]從詞語(yǔ)數(shù)據(jù)庫(kù)中讀取關(guān)鍵詞為“油耗”,從詞語(yǔ)數(shù)據(jù)庫(kù)中讀取油耗的評(píng)價(jià)詞語(yǔ)“高、低和一般”,將從網(wǎng)站資源上獲取的所有包含“吉普”一詞的網(wǎng)絡(luò)文本,以句子為單位,將每個(gè)句子劃分成多個(gè)子文本,按順序逐個(gè)查找子文本中是否包含關(guān)鍵詞“油耗”以及評(píng)價(jià)詞語(yǔ)內(nèi)的詞匯(即上述的高、低和一般)。
[0102]在上述實(shí)施例中的評(píng)價(jià)詞語(yǔ)“高、低和一般”僅作示例性說(shuō)明,在實(shí)際操作中評(píng)價(jià)詞語(yǔ)還可以包括:較高、不低等詞匯。
[0103]在多個(gè)子文本內(nèi),按順序查找每個(gè)子文本是否包含“油耗” 一詞;在某個(gè)子文本內(nèi)找到“油耗”后,在該子文本“油耗” 一詞的前后查找“高,低和一般”幾個(gè)詞匯:若查找到“高”,則提取出“油耗”與“高”之間的全部詞語(yǔ),并確定該部分文本即表達(dá)了“油耗高”這一評(píng)價(jià)觀點(diǎn);若未找到“油耗”一詞,或找到“油耗”但未找到“高,低和一般”,則在下一個(gè)子文本內(nèi)重復(fù)以上查找。
[0104]對(duì)上述的步驟詳解如下:
[0105]81.確定“吉普”為待分析對(duì)象。
[0106]82.確定待分析對(duì)象的關(guān)鍵詞為“油耗”,同時(shí)確定“高,低和一般”為該關(guān)鍵詞的評(píng)價(jià)詞語(yǔ)。
[0107]83.將網(wǎng)絡(luò)文本“聽(tīng)說(shuō)進(jìn)口吉普的指南者油耗有點(diǎn)高?。?”以固定字?jǐn)?shù)(如,10個(gè)字)的拆分方式,拆分成以下7段子文本:
[0108]1)聽(tīng)說(shuō)進(jìn)口吉普的指南者;
[0109]2)說(shuō)進(jìn)口吉普的指南者油;
[0110]3)進(jìn)口吉普的指南者油耗;
[0111]4) 口吉普的指南者油耗有;
[0112]5)吉普的指南者油耗有點(diǎn);
[0113]6)普的指南者油耗有點(diǎn)高;
[0114]7)的指南者油耗有點(diǎn)高啊。
[0115]84.逐個(gè)查找步驟33中的7段子文本中是否包含“油耗”一詞,查找過(guò)程如下:
[0116]1)未查找到“油耗” 一詞,進(jìn)入下一個(gè)子文本;
[0117]2)未查找到“油耗” 一詞,進(jìn)入下一個(gè)子文本;
[0118]3)查找到“油耗”一詞,未查找到“高,低和一般”,進(jìn)入下一個(gè)子文本;
[0119]4)查找到“油耗”一詞,未查找到“高,低和一般”,進(jìn)入下一個(gè)子文本;
[0120]5)查找到“油耗”一詞,未查找到“高,低和一般”,進(jìn)入下一個(gè)子文本;
[0121]6)查找到“油耗”一詞,同時(shí)查找到“高”,提取兩個(gè)詞之間的全部?jī)?nèi)容“油耗有點(diǎn)高”,并停止查找。
[0122]85.完成對(duì)該網(wǎng)絡(luò)文本的分析,確定其對(duì)待分析對(duì)象“吉普”的內(nèi)容表述為“油耗-高”這一評(píng)價(jià)觀點(diǎn)。
[0123]通過(guò)本發(fā)明上述實(shí)施例,對(duì)包含吉普的網(wǎng)絡(luò)文本執(zhí)行查找操作,查找該網(wǎng)絡(luò)文本中是否包含關(guān)鍵詞和評(píng)價(jià)詞語(yǔ);同一子文本內(nèi)查找到關(guān)鍵詞和評(píng)價(jià)詞語(yǔ)中的一個(gè)詞語(yǔ)之后,提取關(guān)鍵詞和評(píng)價(jià)詞語(yǔ)之間的全部?jī)?nèi)容,并依此確定該網(wǎng)絡(luò)文本表述的評(píng)價(jià)觀點(diǎn)。通過(guò)上述實(shí)施例,避免了現(xiàn)有技術(shù)中由于模板的語(yǔ)句設(shè)置不全面而造成的待分析對(duì)象的評(píng)價(jià)信息的提取不完整,導(dǎo)致對(duì)待分析對(duì)象的評(píng)價(jià)信息統(tǒng)計(jì)不準(zhǔn)確的問(wèn)題,只需在網(wǎng)絡(luò)文本中查找關(guān)鍵詞和評(píng)價(jià)詞語(yǔ),即可判斷該網(wǎng)絡(luò)文本所表達(dá)的評(píng)價(jià)觀點(diǎn),提高了獲取評(píng)價(jià)信息的靈活性和準(zhǔn)確性,可以得到更加全面可靠的評(píng)價(jià)信息統(tǒng)計(jì)結(jié)果。
[0124]需要說(shuō)明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0125]圖4是根據(jù)本發(fā)明實(shí)施例的分析對(duì)象特征信息的獲取裝置的示意圖,如圖4所示,該獲取裝置可以包括:第一獲取模塊10、第二獲取模塊30、第一檢測(cè)模塊50、第二檢測(cè)模塊70以及第一確定模塊90。
[0126]其中,第一獲取模塊10用于獲取待分析對(duì)象的特征信息的獲取請(qǐng)求;第二獲取模塊30用于獲取待分析對(duì)象的關(guān)鍵詞和關(guān)鍵詞的屬性信息;第一檢測(cè)模塊50用于檢測(cè)待分析對(duì)象的第一文本信息中是否存在關(guān)鍵詞;第二檢測(cè)模塊70用于在待分析對(duì)象的第一文本信息中存在關(guān)鍵詞的情況下,檢測(cè)第一文本信息中是否存在屬性信息;第一確定模塊90用于在第一文本信息中存在屬性信息的情況下,確定關(guān)鍵詞和屬性信息所指示的特征信肩、0
[0127]采用本發(fā)明實(shí)施例,通過(guò)第一檢測(cè)模塊和第二檢測(cè)模塊檢測(cè)第一文本信息中是否存在待分析對(duì)象的關(guān)鍵詞和關(guān)鍵詞的屬性信息,來(lái)判斷待分析對(duì)象是否具有特征信息,也即通過(guò)關(guān)鍵詞和關(guān)鍵詞的屬性信息對(duì)待分析對(duì)象的第一文本信息的模糊匹配確定特征信息,無(wú)需將待分析對(duì)象的第一文本信息與模板內(nèi)的語(yǔ)句進(jìn)行精確匹配。在上述實(shí)施例中,通過(guò)關(guān)鍵詞和關(guān)鍵詞的屬性信息對(duì)待分析對(duì)象的第一文本信息的模糊匹配,可以對(duì)同一特征信息的不同表述方式進(jìn)行識(shí)別,避免了現(xiàn)有技術(shù)中由于模板語(yǔ)句設(shè)置不全面,造成獲取到的待分析對(duì)象的特征信息不完整的問(wèn)題。通過(guò)本發(fā)明實(shí)施例,解決了現(xiàn)有技術(shù)中對(duì)待分析對(duì)象的特征信息的提取不完整,導(dǎo)致對(duì)待分析對(duì)象的特征統(tǒng)計(jì)不準(zhǔn)確的問(wèn)題,實(shí)現(xiàn)了全面準(zhǔn)確獲取文本信息的特征信息的效果,從而提高了對(duì)待分析對(duì)象的特征統(tǒng)計(jì)的準(zhǔn)確性。
[0128]根據(jù)本發(fā)明上述實(shí)施例,獲取裝置可以包括:第三獲取模塊,用于在檢測(cè)待分析對(duì)象的第一文本信息中是否存在關(guān)鍵詞之前,獲取待分析對(duì)象的第二文本信息;劃分模塊,用于按照預(yù)設(shè)的劃分方式將第二文本信息劃分為多個(gè)第一文本信息;第一檢測(cè)模塊包括:第一檢測(cè)子模塊,用于按順序逐個(gè)檢測(cè)第一文本信息中是否存在關(guān)鍵詞。
[0129]具體地,在獲取待分析對(duì)象的第二文本信息之后,按照預(yù)設(shè)的劃分方式將爬取到的第二文本信息劃分為多個(gè)第一文本信息,并按順序逐個(gè)檢測(cè)該第一文本信息中是否存在關(guān)鍵詞。
[0130]上述的待分析對(duì)象的第二文本信息可以為通過(guò)爬蟲(chóng)代碼從網(wǎng)站資源上爬取到的一個(gè)或多個(gè)網(wǎng)絡(luò)文本、通過(guò)掃描紙質(zhì)文件得到的電子文本以及手動(dòng)輸入的電子文本等。
[0131]進(jìn)一步地,劃分模塊可以包括:第一劃分子模塊,用于劃分第二文本信息中符合預(yù)設(shè)字?jǐn)?shù)的片段作為第一文本信息;或第二劃分子模塊,用于將第二文本信息按照標(biāo)點(diǎn)符號(hào)劃分為多個(gè)第一文本信息;或第三劃分子模塊,用于劃分第二文本信息中符合預(yù)設(shè)詞語(yǔ)數(shù)的片段作為第一文本信息。
[0132]在本發(fā)明一個(gè)可選的實(shí)施例中,可以從第二文本信息中的第一個(gè)字開(kāi)始,按順序連續(xù)獲取符合預(yù)設(shè)字?jǐn)?shù)的第一個(gè)片段,然后從第二文本信息中的第二個(gè)字開(kāi)始,按順序連續(xù)獲取符合預(yù)設(shè)字?jǐn)?shù)的第二個(gè)片段,直至獲取到的片段的最后一個(gè)字為該第二文本信息中的最后一個(gè)字為止。
[0133]在另一個(gè)可選的實(shí)施例中,可以從第二文本信息中的第一個(gè)詞語(yǔ)開(kāi)始,按照順序連續(xù)獲取符合預(yù)設(shè)詞語(yǔ)數(shù)的第一個(gè)片段,然后從第二文本信息中的第二個(gè)詞語(yǔ)開(kāi)始,按照順序連續(xù)獲取符合預(yù)設(shè)詞語(yǔ)數(shù)的第二個(gè)片段,直至獲取到的片段的最后一個(gè)詞語(yǔ)為該第二文本信息中的最后一個(gè)詞語(yǔ)為止。
[0134]上述的詞語(yǔ)是預(yù)設(shè)的,按照預(yù)設(shè)詞語(yǔ)數(shù)劃分第二文本信息時(shí),需按照預(yù)設(shè)的詞語(yǔ)來(lái)確定詞語(yǔ)數(shù)并劃分第二文本信息,如,上述第二文本信息中的詞語(yǔ)可以包括:聽(tīng)說(shuō)、進(jìn)口、吉普、的、指南者、油耗、有點(diǎn)、高以及啊。
[0135]在上述的實(shí)施例中,對(duì)第二文本信息的劃分是以預(yù)設(shè)的劃分方式對(duì)字符串進(jìn)行劃分,取若干個(gè)連續(xù)的片段,得到第一文本信息。通過(guò)本發(fā)明上述實(shí)施例,只有在同一個(gè)第一文本信息中同時(shí)出現(xiàn)關(guān)鍵詞和屬性信息時(shí),才認(rèn)為該屬性信息是描述該關(guān)鍵詞的。通過(guò)限定關(guān)鍵詞和屬性信息之間的距離,避免了在不同第一文本信息中檢測(cè)到關(guān)鍵詞和屬性信息時(shí),錯(cuò)誤的獲取該關(guān)鍵詞和屬性信息對(duì)應(yīng)的特征信息的問(wèn)題,提高了獲取特征信息的準(zhǔn)確性。
[0136]在本發(fā)明的上述實(shí)施例中,第二檢測(cè)模塊可以包括:第二檢測(cè)子模塊,用于檢測(cè)第一文本信息中是否存在屬性信息中的第一詞語(yǔ),其中,屬性信息可以包括一個(gè)或多個(gè)第一詞語(yǔ);第二確定模塊,用于在第一文本信息中存在第一詞語(yǔ)的情況下,確定第一文本信息中存在屬性信息。
[0137]具體地,只要在第一文本信息中檢測(cè)到屬性信息中的任意一個(gè)第一詞語(yǔ),即可確定該第一文本信息中存在屬性信息。
[0138]在上述實(shí)施例中,可以從預(yù)設(shè)的詞語(yǔ)數(shù)據(jù)庫(kù)中讀取待分析對(duì)象的關(guān)鍵詞、該關(guān)鍵詞的屬性信息的一個(gè)或多個(gè)第一詞語(yǔ)。
[0139]根據(jù)本發(fā)明上述實(shí)施例,獲取裝置還可以包括:統(tǒng)計(jì)模塊,用于在確定關(guān)鍵詞和屬性信息所指示的特征信息之后,統(tǒng)計(jì)各個(gè)第一詞語(yǔ)的總數(shù),及各個(gè)屬性信息對(duì)應(yīng)的第二文本信息的總數(shù)。
[0140]具體地,在獲取到各個(gè)第一詞語(yǔ)對(duì)應(yīng)的特征信息之后,統(tǒng)計(jì)各個(gè)第一詞語(yǔ)的總數(shù)以獲得特征信息的出現(xiàn)次數(shù),并統(tǒng)計(jì)包含各個(gè)屬性信息的第二文本信息的總數(shù)以獲得各個(gè)屬性信息的出現(xiàn)次數(shù)。
[0141]在上述實(shí)施例中,通過(guò)統(tǒng)計(jì)到的第一詞語(yǔ)的總數(shù)可以得到各個(gè)特征信息出現(xiàn)的總數(shù),由于一個(gè)第二文本信息中可能出現(xiàn)一個(gè)屬性信息的多個(gè)第一詞語(yǔ),但是該第二文本信息僅表達(dá)了該屬性信息所指示的觀點(diǎn),那么通過(guò)統(tǒng)計(jì)包含各個(gè)屬性信息的第二文本信息的總數(shù)可以得到表達(dá)有不同觀點(diǎn)的各個(gè)文本的總數(shù)。
[0142]通過(guò)本發(fā)明上述實(shí)施例,可以反映待分析對(duì)象的各個(gè)特征信息的出現(xiàn)次數(shù),以及含有各個(gè)特征信息的第二文本信息的總數(shù),可以在用戶(hù)需要了解待分析對(duì)象的某個(gè)特征信息時(shí),為用戶(hù)提供準(zhǔn)確可靠的信息。
[0143]在本發(fā)明的上述實(shí)施例中,第一確定模塊可以包括:提取模塊,用于從第一文本信息中提取關(guān)鍵詞和第一詞語(yǔ)之間的所有第二詞語(yǔ);確定子模塊,用于確定關(guān)鍵詞、所有第二詞語(yǔ)以及第一詞語(yǔ)作為特征信息。
[0144]具體地,在第一文本信息中檢測(cè)到關(guān)鍵詞和第一詞語(yǔ)之后,提取該關(guān)鍵詞和該第一詞語(yǔ)之間所有的詞語(yǔ)(或文字),將該關(guān)鍵詞、該第一詞語(yǔ)以及提取到的詞語(yǔ)(或文字)作為第一文本信息的特征信息。
[0145]在上述實(shí)施例中,可將關(guān)鍵詞、第一詞語(yǔ)及其二者之間的內(nèi)容全部提取出來(lái),作為第一文本信息的特征信息。通過(guò)本發(fā)明上述實(shí)施例,避免了現(xiàn)有技術(shù)中由于模板的語(yǔ)句設(shè)置不全面而造成的待分析對(duì)象特征信息的提取遺漏,提高了提取特征信息的準(zhǔn)確性及可靠性。
[0146]本實(shí)施例中所提供的各個(gè)模塊與方法實(shí)施例對(duì)應(yīng)步驟所提供的使用方法相同、應(yīng)用場(chǎng)景也可以相同。當(dāng)然,需要注意的是,上述模塊涉及的方案可以不限于方法實(shí)施例中的內(nèi)容和場(chǎng)景,且上述模塊可以運(yùn)行在計(jì)算機(jī)終端或移動(dòng)終端,可以通過(guò)軟件或硬件實(shí)現(xiàn)。
[0147]從以上的描述中,可以看出,本發(fā)明實(shí)現(xiàn)了如下技術(shù)效果:
[0148]采用本發(fā)明實(shí)施例,通過(guò)檢測(cè)第一文本信息中是否存在待分析對(duì)象的關(guān)鍵詞和關(guān)鍵詞的屬性信息,來(lái)判斷待分析對(duì)象是否具有特征信息,也即通過(guò)關(guān)鍵詞和關(guān)鍵詞的屬性信息對(duì)待分析對(duì)象的第一文本信息的模糊匹配確定特征信息,無(wú)需將待分析對(duì)象的第一文本信息與模板內(nèi)的語(yǔ)句進(jìn)行精確匹配。在上述實(shí)施例中,通過(guò)關(guān)鍵詞和關(guān)鍵詞的屬性信息對(duì)待分析對(duì)象的第一文本信息的模糊匹配,可以對(duì)同一特征信息的不同表述方式進(jìn)行識(shí)另I」,避免了現(xiàn)有技術(shù)中由于模板語(yǔ)句設(shè)置不全面,造成獲取到的待分析對(duì)象的特征信息不完整的問(wèn)題。通過(guò)本發(fā)明實(shí)施例,解決了現(xiàn)有技術(shù)中對(duì)待分析對(duì)象的特征信息的提取不完整,導(dǎo)致對(duì)待分析對(duì)象的特征統(tǒng)計(jì)不準(zhǔn)確的問(wèn)題,實(shí)現(xiàn)了全面準(zhǔn)確獲取文本信息的特征信息的效果,從而提高了對(duì)待分析對(duì)象的特征統(tǒng)計(jì)的準(zhǔn)確性。
[0149]顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來(lái)實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來(lái)實(shí)現(xiàn),從而,可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來(lái)執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來(lái)實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
[0150]以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種分析對(duì)象特征信息的獲取方法,其特征在于,包括: 獲取用于獲取待分析對(duì)象的特征信息的獲取請(qǐng)求; 獲取所述待分析對(duì)象的關(guān)鍵詞和所述關(guān)鍵詞的屬性信息; 檢測(cè)所述待分析對(duì)象的第一文本信息中是否存在所述關(guān)鍵詞; 若所述待分析對(duì)象的第一文本信息中存在所述關(guān)鍵詞,則檢測(cè)所述第一文本信息中是否存在所述屬性信息; 若所述第一文本信息中存在所述屬性信息,則確定所述關(guān)鍵詞和所述屬性信息所指示的所述特征信息。
2.根據(jù)權(quán)利要求1所述的獲取方法,其特征在于,在檢測(cè)所述待分析對(duì)象的第一文本信息中是否存在所述關(guān)鍵詞之前,所述獲取方法包括: 獲取所述待分析對(duì)象的第二文本信息; 按照預(yù)設(shè)的劃分方式將所述第二文本信息劃分為多個(gè)所述第一文本信息; 檢測(cè)所述待分析對(duì)象的第一文本信息中是否存在所述關(guān)鍵詞包括:按順序逐個(gè)檢測(cè)所述第一文本信息中是否存在所述關(guān)鍵詞。
3.根據(jù)權(quán)利要求2中所述的獲取方法,其特征在于,按照預(yù)設(shè)的劃分方式將所述第二文本信息劃分為多個(gè)所述第一文本信息包括: 將所述第二文本信息中符合預(yù)設(shè)字?jǐn)?shù)的片段作為所述第一文本信息;或 將所述第二文本信息按照標(biāo)點(diǎn)符號(hào)劃分為多個(gè)所述第一文本信息;或 將所述第二文本信息中符合預(yù)設(shè)詞語(yǔ)數(shù)的片段作為所述第一文本信息。
4.根據(jù)權(quán)利要求1至3中任意一項(xiàng)所述的獲取方法,其特征在于,檢測(cè)所述第一文本信息中是否存在所述屬性信息包括: 檢測(cè)所述第一文本信息中是否存在所述屬性信息中的第一詞語(yǔ),其中,所述屬性信息包括一個(gè)或多個(gè)所述第一詞語(yǔ); 若所述第一文本信息中存在所述第一詞語(yǔ),則確定所述第一文本信息中存在所述屬性信息。
5.根據(jù)權(quán)利要求4所述的獲取方法,其特征在于,在確定所述關(guān)鍵詞和所述屬性信息所指示的所述特征信息之后,所述獲取方法還包括: 統(tǒng)計(jì)各個(gè)所述第一詞語(yǔ)的總數(shù),及各個(gè)所述屬性信息對(duì)應(yīng)的所述第二文本信息的總數(shù)。
6.根據(jù)權(quán)利要求4所述的獲取方法,其特征在于,確定所述關(guān)鍵詞和所述屬性信息所指示的所述特征信息包括: 從所述第一文本信息中提取所述關(guān)鍵詞和所述第一詞語(yǔ)之間的所有第二詞語(yǔ); 將所述關(guān)鍵詞、所述所有第二詞語(yǔ)以及所述第一詞語(yǔ)作為所述特征信息。
7.一種分析對(duì)象特征信息的獲取裝置,其特征在于,包括: 第一獲取模塊,用于獲取待分析對(duì)象的特征信息的獲取請(qǐng)求; 第二獲取模塊,用于獲取所述待分析對(duì)象的關(guān)鍵詞和所述關(guān)鍵詞的屬性信息; 第一檢測(cè)模塊,用于檢測(cè)所述待分析對(duì)象的第一文本信息中是否存在所述關(guān)鍵詞;第二檢測(cè)模塊,用于在所述待分析對(duì)象的第一文本信息中存在所述關(guān)鍵詞的情況下,檢測(cè)所述第一文本信息中是否存在所述屬性信息; 第一確定模塊,用于在所述第一文本信息中存在所述屬性信息的情況下,確定所述關(guān)鍵詞和所述屬性信息所指示的所述特征信息。
8.根據(jù)權(quán)利要求7所述的獲取裝置,其特征在于,所述獲取裝置包括: 第三獲取模塊,用于在檢測(cè)所述待分析對(duì)象的第一文本信息中是否存在所述關(guān)鍵詞之前,獲取所述待分析對(duì)象的第二文本信息; 劃分模塊,用于按照預(yù)設(shè)的劃分方式將所述第二文本信息劃分為多個(gè)所述第一文本信息; 所述第一檢測(cè)模塊包括:第一檢測(cè)子模塊,用于按順序逐個(gè)檢測(cè)所述第一文本信息中是否存在所述關(guān)鍵詞。
9.根據(jù)權(quán)利要求8中所述的獲取裝置,其特征在于,所述劃分模塊包括: 第一劃分子模塊,用于劃分所述第二文本信息中符合預(yù)設(shè)字?jǐn)?shù)的片段作為所述第一文本信息;或 第二劃分子模塊,用于將所述第二文本信息按照標(biāo)點(diǎn)符號(hào)劃分為多個(gè)所述第一文本信息;或 第三劃分子模塊,用于劃分所述第二文本信息中符合預(yù)設(shè)詞語(yǔ)數(shù)的片段作為所述第一文本信息。
10.根據(jù)權(quán)利要求7至9中任意一項(xiàng)所述的獲取裝置,其特征在于,所述第二檢測(cè)模塊包括: 第二檢測(cè)子模塊,用于檢測(cè)所述第一文本信息中是否存在所述屬性信息中的第一詞語(yǔ),其中,所述屬性信息包括一個(gè)或多個(gè)所述第一詞語(yǔ); 第二確定模塊,用于在所述第一文本信息中存在所述第一詞語(yǔ)的情況下,確定所述第一文本信息中存在所述屬性信息。
11.根據(jù)權(quán)利要求10所述的獲取裝置,其特征在于,所述獲取裝置還包括: 統(tǒng)計(jì)模塊,用于在確定所述關(guān)鍵詞和所述屬性信息所指示的所述特征信息之后,統(tǒng)計(jì)各個(gè)所述第一詞語(yǔ)的總數(shù),及各個(gè)所述屬性信息對(duì)應(yīng)的所述第二文本信息的總數(shù)。
12.根據(jù)權(quán)利要求10所述的獲取裝置,其特征在于,所述第一確定模塊包括: 提取模塊,用于從所述第一文本信息中提取所述關(guān)鍵詞和所述第一詞語(yǔ)之間的所有第二詞語(yǔ); 確定子模塊,用于確定所述關(guān)鍵詞、所述所有第二詞語(yǔ)以及所述第一詞語(yǔ)作為所述特征信息。
【文檔編號(hào)】G06F17/30GK104462279SQ201410693965
【公開(kāi)日】2015年3月25日 申請(qǐng)日期:2014年11月26日 優(yōu)先權(quán)日:2014年11月26日
【發(fā)明者】梁夢(mèng)溪, 楊韜, 余德樂(lè), 何鑫 申請(qǐng)人:北京國(guó)雙科技有限公司