關(guān)鍵詞提取方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息處理技術(shù)領(lǐng)域,特別是涉及一種關(guān)鍵詞提取方法及裝置。
【背景技術(shù)】
[0002] 在現(xiàn)有技術(shù)中,在對(duì)某一個(gè)領(lǐng)域內(nèi)的多篇文檔組成的語(yǔ)料提取關(guān)鍵詞時(shí),多是人 工審核該領(lǐng)域內(nèi)的語(yǔ)料,并總結(jié)文本語(yǔ)義,提取關(guān)鍵詞,從而對(duì)用戶的語(yǔ)義進(jìn)行理解。因此, 現(xiàn)有技術(shù)方案存在關(guān)鍵詞提取效率低、成本高、容易漏檢的問(wèn)題。
【發(fā)明內(nèi)容】
[0003] 鑒于上述問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上 述問(wèn)題的關(guān)鍵詞提取方法及裝置。
[0004] 本發(fā)明提供一種關(guān)鍵詞提取方法,包括:
[0005] 提供一領(lǐng)域內(nèi)的語(yǔ)料數(shù)據(jù),語(yǔ)料數(shù)據(jù)包括多個(gè)文檔;
[0006] 對(duì)語(yǔ)料數(shù)據(jù)進(jìn)行預(yù)處理,得到文本數(shù)據(jù);
[0007] 對(duì)文本數(shù)據(jù)進(jìn)行分詞處理,得到多個(gè)語(yǔ)料詞語(yǔ);
[0008] 對(duì)語(yǔ)料詞語(yǔ)進(jìn)行過(guò)濾處理,得到多個(gè)候選詞;
[0009] 為每個(gè)候選詞設(shè)置初始權(quán)重值;
[0010] 根據(jù)候選詞在每個(gè)文檔中的共現(xiàn)關(guān)系調(diào)整候選詞的初始權(quán)重值,得到候選詞在每 個(gè)文檔中的最終權(quán)重值;
[0011] 根據(jù)最終權(quán)重值確定每個(gè)文檔的關(guān)鍵詞。
[0012 ]本發(fā)明還提供了 一種關(guān)鍵詞提取裝置,包括:
[0013] 提供模塊,用于提供一領(lǐng)域內(nèi)的語(yǔ)料數(shù)據(jù),語(yǔ)料數(shù)據(jù)包括多個(gè)文檔;
[0014] 預(yù)處理模塊,用于對(duì)語(yǔ)料數(shù)據(jù)進(jìn)行預(yù)處理,得到文本數(shù)據(jù);
[0015] 分詞模塊,用于對(duì)文本數(shù)據(jù)進(jìn)行分詞處理,得到多個(gè)語(yǔ)料詞語(yǔ);
[0016]過(guò)濾模塊,用于對(duì)語(yǔ)料詞語(yǔ)進(jìn)行過(guò)濾處理,得到多個(gè)候選詞;
[0017] 設(shè)置模塊,用于為每個(gè)候選詞設(shè)置初始權(quán)重值;
[0018] 調(diào)整模塊,用于根據(jù)候選詞在每個(gè)文檔中的共現(xiàn)關(guān)系調(diào)整候選詞的初始權(quán)重值, 得到候選詞在每個(gè)文檔中的最終權(quán)重值;
[0019] 確定模塊,用于根據(jù)最終權(quán)重值確定每個(gè)文檔的關(guān)鍵詞。
[0020] 本發(fā)明有益效果如下:
[0021] 通過(guò)對(duì)某一領(lǐng)域內(nèi)所有語(yǔ)料進(jìn)行預(yù)處理、分詞和過(guò)濾后得到候選詞,根據(jù)每個(gè)候 選詞的權(quán)重最終獲取語(yǔ)料的關(guān)鍵詞,解決了現(xiàn)有技術(shù)中關(guān)鍵詞提取效率低、成本高、容易漏 檢的問(wèn)題,借助于本發(fā)明實(shí)施例的技術(shù)方案,能夠自動(dòng)提取某一領(lǐng)域中語(yǔ)料的關(guān)鍵詞,關(guān)鍵 詞提取的準(zhǔn)確率高,成本低,不會(huì)發(fā)生漏檢,從而提高了語(yǔ)義理解的執(zhí)行效率,能夠更準(zhǔn)確 的根據(jù)關(guān)鍵詞執(zhí)行后續(xù)操作。
[0022] 上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說(shuō)明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠 更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【附圖說(shuō)明】
[0023] 通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明 的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0024] 圖1是本發(fā)明實(shí)施例的關(guān)鍵詞提取方法的流程圖;
[0025] 圖2是本發(fā)明實(shí)施例的關(guān)鍵詞提取方法的詳細(xì)處理的流程圖;
[0026] 圖3是本發(fā)明實(shí)施例的關(guān)鍵詞提取裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0027] 下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi) 的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例 所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍 完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0028] 為了解決現(xiàn)有技術(shù)中關(guān)鍵詞提取效率低、成本高、容易漏檢的問(wèn)題,本發(fā)明提供了 一種關(guān)鍵詞提取方法及裝置,以下結(jié)合附圖以及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng) 當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不限定本發(fā)明。
[0029]方法實(shí)施例
[0030] 根據(jù)本發(fā)明的實(shí)施例,提供了一種關(guān)鍵詞提取方法,圖1是本發(fā)明實(shí)施例的關(guān)鍵詞 提取方法的流程圖。
[0031] 如圖1所示,根據(jù)本發(fā)明實(shí)施例的關(guān)鍵詞提取方法包括如下處理:
[0032] 步驟101,提供一領(lǐng)域內(nèi)的語(yǔ)料數(shù)據(jù),語(yǔ)料數(shù)據(jù)包括多個(gè)文檔;也就是說(shuō),語(yǔ)料數(shù)據(jù) 是由某一個(gè)領(lǐng)域內(nèi)互相獨(dú)立的多個(gè)文檔所組成的。
[0033]步驟102,對(duì)語(yǔ)料數(shù)據(jù)進(jìn)行預(yù)處理,得到文本數(shù)據(jù);在步驟102中,預(yù)處理包括:將語(yǔ) 料數(shù)據(jù)的格式統(tǒng)一為文本格式,過(guò)濾臟詞、敏感詞和停用詞中的一種或多種,并將過(guò)濾后的 文本數(shù)據(jù)按照標(biāo)點(diǎn)劃分為多行。例如,上述標(biāo)點(diǎn)可以是問(wèn)號(hào)、嘆號(hào)、分號(hào)或句號(hào),也就是說(shuō), 可以將過(guò)濾后的文本數(shù)據(jù)按照問(wèn)號(hào)、嘆號(hào)、分號(hào)或句號(hào)劃分為多行。
[0034] 步驟103,對(duì)文本數(shù)據(jù)進(jìn)行分詞處理,得到多個(gè)語(yǔ)料詞語(yǔ);在步驟103中,分詞處理 可以采用字典雙向最大匹配法、viterbi方法、HMM方法和CRF方法中的一種或多種進(jìn)行。 [0035] 步驟104,對(duì)語(yǔ)料詞語(yǔ)進(jìn)行過(guò)濾處理,得到多個(gè)候選詞;在步驟104中,過(guò)濾處理可 以采用以下任一種或兩種方式:
[0036] 方式一:根據(jù)詞性對(duì)語(yǔ)料詞語(yǔ)進(jìn)行過(guò)濾,保留名詞、動(dòng)詞以及形容詞;
[0037] 方式二:根據(jù)頻次對(duì)語(yǔ)料詞語(yǔ)進(jìn)行過(guò)濾,保留頻次大于頻次閾值的語(yǔ)料詞語(yǔ),其 中,頻次是指語(yǔ)料詞語(yǔ)在語(yǔ)料數(shù)據(jù)中出現(xiàn)的頻率或者次數(shù)。
[0038] 本實(shí)施例中,先根據(jù)詞性對(duì)語(yǔ)料詞語(yǔ)進(jìn)行過(guò)濾,僅保留名詞、動(dòng)詞以及形容詞,去 除其它詞性的語(yǔ)料詞語(yǔ);然后根據(jù)頻次對(duì)保留的名詞、動(dòng)詞以及形容詞進(jìn)行過(guò)濾,保留頻次 大于頻次閾值的語(yǔ)料詞語(yǔ),從而字典中為頻次大于頻次閾值的名詞、動(dòng)詞和形容詞。
[0039] 在本發(fā)明的其它實(shí)施例中,可以僅根據(jù)詞性進(jìn)行過(guò)濾,也可以僅根據(jù)頻次進(jìn)行過(guò) 濾,還可以先根據(jù)頻次進(jìn)行過(guò)濾再根據(jù)詞性進(jìn)行過(guò)濾,其都在本發(fā)明的保護(hù)范圍之內(nèi)。
[0040]步驟105,為每個(gè)候選詞設(shè)置初始權(quán)重值;在步驟105中,初始權(quán)重值通過(guò)以下方式 進(jìn)行設(shè)置;
[0041 ]當(dāng)候選詞在標(biāo)題中出現(xiàn)過(guò)時(shí),根據(jù)Wi= 計(jì)算候選詞的初始權(quán)重值;否則,根 據(jù)w =3計(jì)算候選詞的初始權(quán)重值;其中:wi表示初始權(quán)重值,ni表示候選詞出現(xiàn)的文檔次 數(shù),N表示語(yǔ)料的所有文檔數(shù);m為大于1的系數(shù)。
[0042] 優(yōu)選地,1.5 2。在實(shí)際應(yīng)用中m可以是定值,也可以根據(jù)候選詞在標(biāo)題中出現(xiàn) 的次數(shù)不同設(shè)置不同的值。例如,候選詞在題目中出現(xiàn)了 1次,可以將m設(shè)置為1.5,如果出現(xiàn) 了 2次,可以將m設(shè)置為2。這樣可以使候選詞的初始權(quán)重值更加精確。
[0043]步驟106,根據(jù)候選詞在每個(gè)文檔中的共現(xiàn)關(guān)系調(diào)整候選詞的初始權(quán)重值,得到候 選詞在每個(gè)文檔中的最終權(quán)重值。
[0044] 在步驟106中,具體包括如下處理:
[0045] 步驟1061,設(shè)置預(yù)定大小的滑動(dòng)窗口,將滑動(dòng)窗口在當(dāng)前文檔中進(jìn)行動(dòng)態(tài)滑動(dòng);
[0046]步驟1062,獲取滑動(dòng)窗口中出現(xiàn)的2個(gè)以上的候選詞,將2個(gè)以上的候選詞之間添 加互相指向的2個(gè)連接,并將每個(gè)候選詞作為一個(gè)節(jié)點(diǎn),構(gòu)建當(dāng)前文檔的關(guān)聯(lián)有向圖;
[0047]步驟1063,根據(jù)初始權(quán)重值,迭代計(jì)算關(guān)聯(lián)有向圖中各個(gè)節(jié)點(diǎn)的權(quán)重值,直到當(dāng)前 節(jié)點(diǎn)的相鄰兩次權(quán)重值之差小于第二閾值或達(dá)到迭代次數(shù)后停止迭代計(jì)算,并將最后一次 計(jì)算的權(quán)重值作為相應(yīng)節(jié)點(diǎn)的最終權(quán)重值。
[0048]具體地,在步驟1063中,根據(jù)以下公式迭代計(jì)算關(guān)聯(lián)有向圖中各個(gè)節(jié)點(diǎn)的權(quán)重值:
[0049]
[0050]其中,WSaO表示候選詞I調(diào)整后的權(quán)重值,d為預(yù)先設(shè)置的阻尼系數(shù)(如:0.85), In(Vi)表示當(dāng)前文檔中指向候選詞Vi的節(jié)點(diǎn),Out(Vi)表示Vi指向的節(jié)點(diǎn),WS(Vj)表示詞語(yǔ)關(guān) 聯(lián)有向圖中節(jié)點(diǎn)Vj的權(quán)重值,Nj表示Vj指向的節(jié)點(diǎn)的個(gè)數(shù)。
[0051]步驟107,根據(jù)最終權(quán)重值確定每個(gè)文檔的關(guān)鍵詞。
[0052]在步驟107中,可以將最終權(quán)重值最大的前N個(gè)候選詞作為文檔的關(guān)鍵詞,其中,N為自然數(shù);或者,將最終權(quán)重值大于預(yù)先設(shè)置的權(quán)重閾值的候選詞作為文檔的關(guān)鍵詞。 [0053]綜上所述,本發(fā)明實(shí)施例的技術(shù)方案對(duì)所有語(yǔ)料數(shù)據(jù)進(jìn)行預(yù)處理和分詞后,利用 詞頻和詞性等特征過(guò)濾候選詞,根據(jù)位置和文檔次數(shù)等特征設(shè)置初始權(quán)重值,并構(gòu)建當(dāng)前 文檔的關(guān)聯(lián)有向圖,通過(guò)迭代計(jì)算使關(guān)聯(lián)有向圖穩(wěn)定后根據(jù)候選詞的最終權(quán)重值生產(chǎn)語(yǔ)料 的關(guān)鍵詞。
[0054]以下結(jié)合附圖,對(duì)本發(fā)明實(shí)施例的上述技術(shù)方案進(jìn)行詳細(xì)說(shuō)明。
[0055]