本發(fā)明涉及計算機
技術領域:
,具體涉及一種級聯(lián)裂變查詢方法及裝置。
背景技術:
:網(wǎng)絡、通訊及計算機技術的迅猛發(fā)展也極大程度地推動了人工智能技術的進步。而隨著文本情感分析以及自然語言處理技術的日益成熟,通過計算機應用智能分析研究大數(shù)據(jù)已經(jīng)成為互聯(lián)網(wǎng)時代的一大需求和趨勢。在此背景下,語音處理及數(shù)據(jù)挖掘也受到了越來越多的關注。語音處理可識別出說話人所說的內(nèi)容,并將其轉化為文本數(shù)據(jù),進而可以將這些總量持續(xù)增長的數(shù)據(jù)持久保存下來,以為后續(xù)進行數(shù)據(jù)挖掘,進而進行數(shù)據(jù)查詢提供基礎?,F(xiàn)有技術中,采用人工制定關鍵詞及模式,通過模式匹配識別目標的數(shù)據(jù)挖掘方法擴展性低,難以大規(guī)模應用;而根據(jù)關鍵詞和句型結構制定模式,通過與模式計算相似度識別目標的數(shù)據(jù)挖掘方法則需要大量標注數(shù)據(jù),其效果很大程度上依賴樣本的覆蓋,前期投入過大。技術實現(xiàn)要素:為消除現(xiàn)有數(shù)據(jù)查詢中進行離線數(shù)據(jù)挖掘時存在的數(shù)據(jù)挖掘方法擴展性低、難以大規(guī)模應用,以及依賴樣本的覆蓋程度高、前期投入過大的弊端,本發(fā)明提出如下技術方案:一種級聯(lián)裂變查詢方法,所述方法包括:根據(jù)預設語料中的每個句子所包含的詞語的詞性生成所述每個句子的分詞模式;提取所述預設語料中包含預設裂變詞的句子,并根據(jù)所述預設裂變詞將所述句子的分詞模式轉換為裂變模式,以將該裂變模式加入到裂變模集合中;其中,所述裂變詞為用于將語句劃分成裂變模式的關鍵詞;所述裂變模式為根據(jù)所述語句包含詞語的詞性將所述語句進行劃分所得的模式;根據(jù)當前的裂變模集合,從所述預設語料中提取包含所述當前的裂變模集合中的裂變模式的句子,并提取該句子中裂變詞位置所對應的詞語,以將該詞語加入到裂變詞集合中;根據(jù)得到的所述裂變詞集合以及所述裂變模集合進行迭代裂變搜索,以根據(jù)最終得到的裂變詞集合和最終得到的裂變模集合對待查詢語句進行裂變處理,并根據(jù)處理結果獲取并返回查詢結果??蛇x地,所述提取所述預設語料中包含預設裂變詞的句子,并根據(jù)所述預設裂變詞將所述句子的分詞模式轉換為裂變模式,以將該裂變模式加入到裂變模集合中之前,所述方法還包括:初始化所述裂變詞集合,以將所述裂變詞集合設置為空集合;初始化所述裂變模集合,以將所述裂變模集合設置為空集合??蛇x地,根據(jù)預設語料中的每個句子所包含的詞語的詞性生成所述每個句子的分詞模式,包括:通過分詞程序對所述預設語料中的每個句子進行分詞,并根據(jù)分詞的結果生成所述每個句子的分詞模式??蛇x地,所述通過分詞程序對所述預設語料中的每個句子進行分詞,包括:根據(jù)所述每個句子所包含的詞語的詞性對所述每個句子進行實體標注??蛇x地,所述根據(jù)最終得到的裂變詞集合和最終得到的裂變模集合對待查詢語句進行裂變處理,并根據(jù)處理結果獲取并返回查詢結果,包括:接收根據(jù)所述最終得到的裂變詞集合和裂變模集合進行人工標注的問答目標,以根據(jù)所述問答目標獲取并返回查詢結果。一種級聯(lián)裂變查詢裝置,包括:分詞模式生成單元,用于根據(jù)預設語料中的每個句子所包含的詞語的詞性生成所述每個句子的分詞模式;裂變模式提取單元,用于提取所述預設語料中包含預設裂變詞的句子,并根據(jù)所述預設裂變詞將所述句子的分詞模式轉換為裂變模式,以將該裂變模式加入到裂變模集合中;其中,所述裂變詞為用于將語句劃分成裂變模式的關鍵詞;所述裂變模式為根據(jù)所述語句包含詞語的詞性將所述語句進行劃分所得的模式;裂變詞提取單元,用于根據(jù)當前的裂變模集合,從所述預設語料中提取包含所述當前的裂變模集合中的裂變模式的句子,并提取該句子中裂變詞位置所對應的詞語,以將該詞語加入到裂變詞集合中;裂變查詢單元,用于根據(jù)得到的所述裂變詞集合以及所述裂變模集合進行迭代裂變搜索,以根據(jù)最終得到的裂變詞集合和最終得到的裂變模集合對待查詢語句進行裂變處理,并根據(jù)處理結果獲取并返回查詢結果??蛇x地,所述裝置還包括:集合初始化單元,用于初始化所述裂變詞集合,以將所述裂變詞集合設置為空集合;以及初始化所述裂變模集合,以將所述裂變模集合設置為空集合??蛇x地,所述分詞模式生成單元進一步用于:通過分詞程序對所述預設語料中的每個句子進行分詞,并根據(jù)分詞的結果生成所述每個句子的分詞模式??蛇x地,所述分詞模式生成單元還用于:根據(jù)所述每個句子所包含的詞語的詞性對所述每個句子進行實體標注。可選地,所述裂變查詢單元進一步用于:接收根據(jù)所述最終得到的裂變詞集合和裂變模集合進行人工標注的問答目標,以根據(jù)所述問答目標獲取并返回查詢結果。本發(fā)明的級聯(lián)裂變查詢方法及裝置,基于迭代裂變搜索得到的裂變詞集合和裂變模集合,對用戶輸入的待查詢語句進行裂變處理模式匹配并返回查詢結果,消除了現(xiàn)有數(shù)據(jù)查詢中進行離線數(shù)據(jù)挖掘時存在的數(shù)據(jù)挖掘方法擴展性低、難以大規(guī)模應用,以及依賴樣本的覆蓋程度高、前期投入過大的弊端,提高了數(shù)據(jù)的離線挖掘效率,縮短了數(shù)據(jù)挖掘時間,進而提高了查詢準確度和查詢效率,提升了用戶體驗。附圖說明為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明一個實施例提供的級聯(lián)裂變查詢方法的流程示意圖;圖2為本發(fā)明另一個實施例提供的級聯(lián)裂變查詢方法的流程示意圖;圖3為本發(fā)明一個實施例提供的級聯(lián)裂變查詢裝置的結構示意圖;圖4為本發(fā)明另一個實施例提供的級聯(lián)裂變查詢裝置的結構示意圖。具體實施方式為使本發(fā)明實施例的目的、技術方案和優(yōu)點更加清楚,下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。圖1為本發(fā)明一個實施例提供的級聯(lián)裂變查詢方法的流程示意圖;如圖1所示,該方法包括:S1:根據(jù)預設語料中的每個句子所包含的詞語的詞性生成所述每個句子的分詞模式;其中,每個句子所包含的詞語的詞性包括名詞、動詞以及代詞等等,在此基礎上,根據(jù)每個句子所包含的詞語的詞性而生成的分詞模式例如為[人名]、[動詞][代詞]、[人名][動詞][代詞]等等。S2:提取所述預設語料中包含預設裂變詞的句子,并根據(jù)所述預設裂變詞將所述句子的分詞模式轉換為裂變模式,以將該裂變模式加入到裂變模集合中;其中,所述的裂變詞為用于將語句劃分成裂變模式的關鍵詞,例如“為什么”、“是什么”、“是誰”、“劉德華”等[動詞+代詞]或[名詞];所述的裂變模式為根據(jù)所述語句包含的所述關鍵詞的詞性以及包含的其他詞語的詞性將所述語句進行劃分所得的模式,例如對于語句“劉德華是誰”而言,若其裂變詞為“是誰”,則其裂變模式可確定為“[人名]+[裂變詞]”。具體地,例如在裂變詞集合中加入的“是誰”,并掃描上述語料中的包含“是誰”的原句子,得到該原句子及其模式:劉德華是誰[人名][動詞][代詞][動詞][代詞]=[裂變詞],以將得到的模式“[人名][動詞][代詞]”加入裂變模集合中。S3:根據(jù)當前的裂變模集合,從所述預設語料中提取包含所述當前的裂變模集合中的裂變模式的句子,并提取該句子中裂變詞位置所對應的詞語,以將該詞語加入到裂變詞集合中;具體地,例如在上述原句子中掃描出[人名][動詞][代詞]模式的句子:梁朝偉在哪,以將新詞“在哪”加入裂變詞集合。S4:根據(jù)得到的所述裂變詞集合以及所述裂變模集合進行迭代裂變搜索(即重復步驟S2~S3,直至所述裂變詞集合以及所述裂變模集合收斂,即不再出現(xiàn)新的裂變詞和裂變模式),以根據(jù)最終得到的裂變詞集合和最終得到的裂變模集合對待查詢語句進行裂變處理,并根據(jù)處理結果獲取并返回查詢結果。本實施例的級聯(lián)裂變查詢方法,基于迭代裂變搜索得到的裂變詞集合和裂變模集合,對用戶輸入的待查詢語句進行裂變處理模式匹配并返回查詢結果,消除了現(xiàn)有數(shù)據(jù)查詢中進行離線數(shù)據(jù)挖掘時存在的數(shù)據(jù)挖掘方法擴展性低、難以大規(guī)模應用,以及依賴樣本的覆蓋程度高、前期投入過大的弊端,提高了數(shù)據(jù)的離線挖掘效率,縮短了數(shù)據(jù)挖掘時間,進而提高了查詢準確度和查詢效率,提升了用戶體驗。圖2為本發(fā)明另一個實施例提供的級聯(lián)裂變查詢方法的流程示意圖;如圖2所示,在上一實施例的基礎上,步驟S2中提取所述預設語料中包含預設裂變詞的句子,并根據(jù)所述預設裂變詞將所述句子的分詞模式轉換為裂變模式,以將該裂變模式加入到裂變模集合中之前,該方法還可以進一步包括:S0:初始化所述裂變詞集合,以將所述裂變詞集合設置為空集合;初始化所述裂變模集合,以將所述裂變模集合設置為空集合。具體地,上述初始化用于放置查詢出的裂變詞的裂變詞集合以及用于放置查詢出的裂變模式的裂變模集合,即保留一個空的裂變詞式集合以及一個空的裂變模集合,以分別存儲后續(xù)通過迭代處理所獲取的裂變詞和裂變模式。進一步地,在上一實施例的基礎上,步驟S2中根據(jù)預設語料中的每個句子所包含的詞語的詞性生成所述每個句子的分詞模式,可進一步包括:S21:通過分詞程序對所述預設語料中的每個句子進行分詞,并根據(jù)分詞的結果生成所述每個句子的分詞模式。其中,分詞程序為預先編寫的用于根據(jù)每個句子所包含的詞語的詞性劃分該句子,以獲取對應的分詞模式的程序。在此基礎上,步驟S21中通過分詞程序對所述預設語料中的每個句子進行分詞,還可以進一步包括:根據(jù)所述每個句子所包含的詞語的詞性對所述每個句子進行實體標注。例如:利用hadoop的map/reduce調(diào)用分詞程序對所述語料中的語句進行分詞并按照詞性進行標注。作為本實施例的優(yōu)選,步驟S6中根據(jù)最終的裂變詞集合和最終得到的裂變模集合對待查詢語句進行裂變處理,并根據(jù)處理結果獲取并返回查詢結果,可以進一步包括:接收根據(jù)所述最終得到的裂變詞集合和裂變模集合進行人工標注的問答目標,以根據(jù)所述問答目標獲取并返回查詢結果。本實施例的級聯(lián)裂變查詢方法基于迭代搜索獲得的裂變詞集合和裂變模集合,可以縮短數(shù)據(jù)處理時間,提高了數(shù)據(jù)挖掘與數(shù)據(jù)查詢的效率。圖3為本發(fā)明一個實施例提供的級聯(lián)裂變查詢裝置的結構示意圖;如圖3所示,該裝置包括分詞模式生成單元10、裂變模式提取單元20、裂變詞提取單元30以及裂變查詢單元40;分詞模式生成單元10用于根據(jù)預設語料中的每個句子所包含的詞語的詞性生成所述每個句子的分詞模式;其中,每個句子所包含的詞語的詞性包括名詞、動詞以及代詞等等,在此基礎上,分詞模式生成單元10根據(jù)每個句子所包含的詞語的詞性而生成的分詞模式例如為[人名]、[動詞][代詞]、[人名][動詞][代詞]等等。裂變模式提取單元20,用于提取所述預設語料中包含預設裂變詞的句子,并根據(jù)所述預設裂變詞將所述句子的分詞模式轉換為裂變模式,以將該裂變模式加入到裂變模集合中;其中,所述的裂變詞為用于將語句劃分成裂變模式的關鍵詞,例如“為什么”、“是什么”、“是誰”、“劉德華”等[動詞+代詞]或[名詞];所述的裂變模式為根據(jù)所述語句包含的所述關鍵詞的詞性以及包含的其他詞語的詞性將所述語句進行劃分所得的模式,例如對于語句“劉德華是誰”而言,若其裂變詞為“是誰”,則其裂變模式可確定為“[人名]+[裂變詞]”。具體地,例如裂變模式提取單元20在裂變詞集合中加入的“是誰”,并掃描上述語料中的包含“是誰”的原句子,得到該原句子及其模式:劉德華是誰[人名][動詞][代詞][動詞][代詞]=[裂變詞],以將得到的模式“[人名][動詞][代詞]”加入裂變模集合中。裂變詞提取單元30用于根據(jù)當前的裂變模集合,從所述預設語料中提取包含所述當前的裂變模集合中的裂變模式的句子,并提取該句子中裂變詞位置所對應的詞語,以將該詞語加入到裂變詞集合中;具體地,例如裂變詞提取單元30在上述原句子中掃描出[人名][動詞][代詞]模式的句子:梁朝偉在哪,以將新詞“在哪”加入裂變詞集合。裂變查詢單元40用于根據(jù)得到的所述裂變詞集合以及所述裂變模集合進行迭代裂變搜索,以根據(jù)最終得到的裂變詞集合和最終得到的裂變模集合對待查詢語句進行裂變處理,并根據(jù)處理結果獲取并返回查詢結果。本實施例所述的級聯(lián)裂變查詢裝置可以用于執(zhí)行上述方法實施例,其原理和技術效果類似,此處不再贅述。圖4為本發(fā)明另一個實施例提供的級聯(lián)裂變查詢裝置的結構示意圖;如圖4所示,在上一實施例的基礎上,本實施例的裝置還可以進一步包括:集合初始化單元50,用于初始化所述裂變詞集合,以將所述裂變詞集合設置為空集合;以及初始化所述裂變模集合,以將所述裂變模集合設置為空集合。具體地,集合初始化單元50初始化用于放置查詢出的裂變詞的裂變詞集合以及用于放置查詢出的裂變模式的裂變模集合,即保留一個空的裂變詞式集合以及一個空的裂變模集合,以分別存儲后續(xù)通過迭代處理所獲取的裂變詞和裂變模式。進一步地,作為上述實施例的優(yōu)選,分詞模式生成單元10還可進一步用于:通過分詞程序對所述預設語料中的每個句子進行分詞,并根據(jù)分詞的結果生成所述每個句子的分詞模式。其中,分詞程序為預先編寫的用于根據(jù)每個句子所包含的詞語的詞性劃分該句子,以獲取對應的分詞模式的程序。在此基礎上,分詞模式生成單元還可用于:根據(jù)所述每個句子所包含的詞語的詞性對所述每個句子進行實體標注。例如:利用hadoop的map/reduce調(diào)用分詞程序對所述語料中的語句進行分詞并按照詞性進行標注。進一步地,裂變查詢單元40可進一步用于:接收根據(jù)所述最終得到的裂變詞集合和裂變模集合進行人工標注的問答目標,以根據(jù)所述問答目標獲取并返回查詢結果。下面以一具體的實施例來說明本發(fā)明,但不限定本發(fā)明的保護范圍。本實施例的級聯(lián)裂變查詢方法的步驟如下:1、預處理語料結果如下表一所示:表一語料預處理結果原句子分詞和標注后的句子裂變模式劉德華是誰劉德華[人名]是[動詞]誰[代詞][人名][動詞][代詞]梁朝偉在哪梁朝偉[人名]在[動詞]哪[代詞][人名][動詞][代詞]2、初始化裂變模集合為空,初始化裂變詞集合為空;3、在裂變詞集合中加入“是誰”;4、(1)掃描原句子中包含是誰的句子,得到原句子及其裂變模式:劉德華是誰[人名][動詞][代詞];其中[動詞][代詞]=[裂變詞];(2)將[人名][動詞][代詞]加入裂變模集合;5、(1)在原句子中掃描出[人名][動詞][代詞]模式的句子:梁朝偉在哪;(2)將新詞“在哪”加入裂變詞集合;6、結束,得到裂變詞集合:是誰、在哪;得到裂變模集合:[人名][動詞][代詞];7、標注:[人名]+“是誰”的目標是who;[人名]+“在哪”的目標是where;8、線上使用時,符合[人名]+“是誰”模式的,問題目標為who,將返回該[人名]是誰的答案。符合[人名]+“在哪”模式的,問題目標為where,將返回該[人名]在什么地方的答案。本發(fā)明的級聯(lián)裂變查詢方法及裝置,基于迭代裂變搜索得到的裂變詞集合和裂變模集合,對用戶輸入的待查詢語句進行裂變處理模式匹配并返回查詢結果,消除了現(xiàn)有數(shù)據(jù)查詢中進行離線數(shù)據(jù)挖掘時存在的數(shù)據(jù)挖掘方法擴展性低、難以大規(guī)模應用,以及依賴樣本的覆蓋程度高、前期投入過大的弊端,提高了數(shù)據(jù)的離線挖掘效率,縮短了數(shù)據(jù)挖掘時間,進而提高了查詢準確度和查詢效率,提升了用戶體驗。以上實施例僅用于說明本發(fā)明的技術方案,而非對其限制;盡管參照前述實施例對本發(fā)明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特征進行等同替換;而這些修改或替換,并不使相應技術方案的本質脫離本發(fā)明各實施例技術方案的精神和范圍。當前第1頁1 2 3