專利名稱:一種中文問題的語義分類方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計算機軟件領(lǐng)域,涉及計算機軟件、自然語言處理、機器學習、漢語言學領(lǐng)域,特別涉及一種中文問題地語義分類方法。
背景技術(shù):
中文問題的語義分類是通過建立一個語義分類體系,自動地用分類體系中的類別對問題進行標記,進而了解問題的提問意圖,為對問題的進一步處理和對問題答案的獲取提供有效的信息。問題的語義分類被廣泛的運用于問答系統(tǒng)(Question Answering System)、知識獲取等領(lǐng)域。
申請人檢索出以下相關(guān)文獻
(一)國內(nèi)相關(guān)文獻(標題、作者或機構(gòu)、出處)3篇
1)標題基于改進貝葉斯模型的問題分類
作者張宇,劉挺,文勖
機構(gòu)哈爾濱工業(yè)大學計算機學院信息檢索研究室
出處中文信息學報,第119卷第12期,100-105頁
2)標題智能答疑系統(tǒng)中基于聚類的問題分類研究
作者酆曉杰,劉亞軍
機構(gòu)東南大學計算機科學與工程系
出處微機發(fā)展,2005,第15卷第2期,69-72頁
3)標題基于特定問題類別的漢語問答系統(tǒng)查詢擴展
作者余正濤,樊孝忠,宋麗榮
機構(gòu)北京理工大學計算機科學工程系
出處北京理工大學學報,2005,第25卷第10期
(二)國外相關(guān)文獻(標題、作者、出處)6篇
TIQuestion Classification using Support Vector Machines
AUDell Zhang,Wee Sun Lee
SOSIGIR′03,p 26-32,Association for Computing Machinery
TILearning Question Classifiers
AUXin Li,Dan Roth
SOLecture Notes inArtificial Intelligence,Vol.3339,p 1069-1075
TIQuestion Answering in Webclopedia
AUEduard Hovy,Laurie Gerber,Ulf Hermjakob,Michael Junk,Chin-Yew Lin
SOhttp://trec.nist.gov/pubs/trec9/papers/
TIA Question/Answer Typology with Surface Text Patterns
AUEduard Hovy,Ulf Hermjakob,and Deepak Ravichandran
SOhttp://www.cs.brandeis.edu/~cs114/
TIQuestion Classification using HDAG Kernel
AUJun Suzuki,Hirotoshi Taira,Yutaka Sasaki,and Eisaku Maeda
SOWorkshop on Multilingual Summarization and Question Answering 2003,p 61--68,2003
TIQuestion-Answering via Enhanced Understanding of Questions
AUDan Roth,Chad Cumby,Xin Li,Paul Morie,Ramya Nagarajan,Nick Rizzolo,KevinSmall,Wen-tau Yih
SOTREC11,2002
查新結(jié)論
經(jīng)檢索,篩選出國內(nèi)相關(guān)文獻3篇,國外相關(guān)文獻6篇,分析如下
國內(nèi)相關(guān)文獻[1]采用了與TREC-QA相似的問題分類體系,包含七個大類。每個大類又進行了進一步的細分,一共形成了六十五個小的類別,這些類別都是針對簡單問題進行分類。系統(tǒng)采用貝葉斯分類方法來判斷問題所屬的類別。
文獻[2]針對基于章節(jié)目錄的簡單分類方式的問題,提出了基于關(guān)鍵詞聚類的問題模糊分類方法。方法選擇了對關(guān)鍵詞進行聚類,從而避免了對問題直接聚類可能引起的復雜的高維聚類,且因為關(guān)鍵詞的相對穩(wěn)定性,又可以避免頻繁分類。
文獻[3]根據(jù)問題中出現(xiàn)的與提問內(nèi)容相關(guān)的特征詞來判斷問題的類型。
國外相關(guān)文獻[1]使用基于TREC的問題分類體系,采用SVM算法,選用bag-of-words和bag-of-ngrams這兩種特征對問題進行分類。
文獻[2]基于TREC的問題分類體系,該體系包括六個大類,50個小類,采用SNOW學習模型的層次分類。第一層的分類結(jié)果為六大類中的一個,第二層的分類結(jié)果為50個小類中的一個類別。選用的特征為詞、詞性、文本塊、命名實體和語義相關(guān)詞(在特定問題類別中出現(xiàn)頻率比較高的詞)等特征。
文獻[3]介紹了Webclopedia中的問答系統(tǒng),并說明了該問答系統(tǒng)中的問題類別體系以及問題分類在里邊的作用。該問答采用的分類體系是從17,384個簡單問題總結(jié)得到的一個樹狀結(jié)構(gòu),總共包括94個類別節(jié)點,其中葉子節(jié)點是47個類別。
文獻[4]基于ISI(Information Sciences Institute in University of Southern California)的QA分類體系(QuestionAnswering Typology),通過將問題文本同分類體系中各類別的模板進行匹配,用匹配成功的問題類別對問題進行標記,該文章中提到的方法主要針對英文問題的分類。
文獻[5]構(gòu)造了一個擁有150個問題類型的層次問題類型體系,使用1-vs-Rest的多類分類模型對問題進行分類,所用基類分類器均為HDAG-SVM(使用Hierarchical DirectedAcyclic Graph核的支持向量機)分類器。選擇的特征包括詞、命名實體和語義特征。
文獻[6]構(gòu)造了一個擁有6大類50小類的問題類型體系,使用一個基于SNoW體系結(jié)構(gòu)的兩層層次分類器對問題進行分類,選擇的特征包括多種句法和語法特征。
從國內(nèi)、外數(shù)據(jù)庫檢索和文獻分析看,對中文問題分類的研究較少,大部分研究集中在QA系統(tǒng)中的問題分類,而目前QA系統(tǒng)所研究的問題基本上都是事實性問題,這種問題的特點是它可以用一個詞或者一個限制長度的句子進行回答。但是,現(xiàn)實中存在著大量的非事實性問題,所以這些研究中構(gòu)造的事實性問題分類體系和分類方法無法涵蓋現(xiàn)實中的所有問題。
問題分類是一個典型的多類分類問題,當前對多類分類的研究主要分為兩種典型算法。第一種算法直接將待分類問題映射到一個問題類別,例如決策樹算法,多類支持向量機算法等。第二種算法的思想是將多類分類問題退化成多個二類分類問題的組合來求解。目前常用的算法有1-vs-rest、1-vs-1(MaxWin,DAG)、DB2以及ECOC等。第一種算法所存在的主要問題是算法實現(xiàn)不直觀,訓練模型時的時空開銷大;對于第二種算法來說,由于它是將多類分類用多個二類分類器的組合來實現(xiàn),這些二類分類器之間相互獨立,學習時均優(yōu)化各自的目標函數(shù),使得分類時可能存在不可分區(qū)域,影響分類的準確率。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述技術(shù)不足,提出一種中文問題的語義分類方法,首先需要建立一個能夠覆蓋所有中文問題的中文問題語義分類體系,然后探索一種多類分類方法能夠準確有效地對中文問題進行分類,能夠覆蓋所有中文問題的語義分類。
實現(xiàn)上述發(fā)明的技術(shù)解決方案是一種中文問題的語義分類方法CQSC,基于中文問題語義類別體系和中文問題多類分類模型,實現(xiàn)對中文問題語義類別的判斷和提問焦點的識別;它由中文問題語義類別體系構(gòu)造、中文問題的特征向量表示和基于統(tǒng)一損失的中文問題多類分類三個部分組成
其中,中文問題語義類別體系構(gòu)造確定了一個問題語義類別體系,該體系包括問題所有語義類別的定義和判斷方法,CQSC對問題分類的結(jié)果即為該體系中的一個類別;
中文問題的特征向量表示通過選擇問題的一些特征,將問題文本表示成分類模型可以識別的特征向量;
基于統(tǒng)一損失的多類分類將輸入的問題特征向量映射到問題語義類別體系中的一個類別。
所構(gòu)造的中文問題語義類別體系包括28個語義類別,分別為目的類、原因類、定義類、方法類、選擇類、是非類、分類類、條件類、結(jié)構(gòu)類、關(guān)系類、區(qū)別類、屬性類、實例類、應用類、作用類、數(shù)量類、程度類、時間類、地點類、方位類、位置類、人物類、實體類、縮寫類、原理類、演化類、觀點類、描述類。
中文問題的特征向量表示選擇單詞、雙詞、詞-詞性組合和語義四類特征,用這些特征將每個問題表示成特征向量用于分類。
對問題的多類分類在基于編解碼的多類分類模型下,使用基于統(tǒng)一損失的多類分類方法,使用兩個以上的二類分類器來完成多類分類,并且使用統(tǒng)一損失的決策函數(shù)進行訓練和預測,該方法由編碼、分類和解碼三個模塊組成。
本發(fā)明通過對從各個渠道收集到的大量的中文問題進行分析和總結(jié),獲得了一個中文問題語義類別體系,該體系能夠覆蓋所有收集到中文問題,不僅僅可以覆蓋事實性問題,也可以覆蓋其他性質(zhì)的問題。我們所提出的基于統(tǒng)一損失的中文問題多類分類避免了現(xiàn)有多類分類第一種算法訓練時空開銷大和第二種算法由于分類時出現(xiàn)不可分區(qū)域而影響分類準確率的問題,兼顧了實現(xiàn)的簡單直觀和分類的高準確率。經(jīng)過實驗驗證,分類的準確率可以達到0.765。
附圖是本發(fā)明多類分類模型的統(tǒng)一框架圖。
具體實施例方式
下面結(jié)合附圖對本發(fā)明的內(nèi)容作進一步的詳細描述。
1.中文問題語義分類方法CQSC的組成
本發(fā)明提出的中文問題語義分類方法CQSC是一種基于分類的中文問題分類方法,其目的是自動的為任意一個中文問題標記一個合適的語義類別,進而了解該問題的提問焦點,為問題的后續(xù)處理和問題答案的獲取提供有用的信息。它由三個部分組成中文問題語義類別體系的構(gòu)造、中文問題的特征向量表示、基于統(tǒng)一損失的中文問題多類分類。
中文問題語義類別體系的構(gòu)造是通過分析和總結(jié)中文問題的特征和出現(xiàn)形式,獲得一個能夠覆蓋所有中文問題的類別體系的過程。構(gòu)造的類別體系中的每個類別能夠恰當?shù)谋硎驹擃悊栴}的提問意圖。本發(fā)明中構(gòu)造的中文問題分類體系包含28個問題語義類別。
中文問題的特征向量表示是通過選擇合適的特征,將一個問題表示成一個特征向量,進而用于多類分類中的訓練和預測。本發(fā)明中選擇的特征包括單詞、雙詞、詞-詞性組合和語義四類特征。
基于統(tǒng)一損失的中文問題多類分類方法是中文問題語義類別分類方法的中心,它針對現(xiàn)有多類分類方法中的不足,在基于編解碼的多類分類模型下,提出了一種基于統(tǒng)一損失的中文問題多類分類方法。該方法分為訓練和預測兩個階段,訓練階段是將帶類別標記的問題送入模型對模型中的參數(shù)進行訓練,預測階段是將訓練好的模型用于對未知類別的問題進行類別標記。在訓練和預測中都使用統(tǒng)一損失的決策函數(shù),避免了現(xiàn)有兩種多類分類方法的不足,能夠兼顧實現(xiàn)的簡單直觀和分類的準確率。
2.各部分介紹
2.1中文問題分類體系的構(gòu)造
本發(fā)明通過分析和總結(jié)中文問題的特征和出現(xiàn)形式,獲得了一個能夠覆蓋所有中文問題的類別體系。該體系包含28個問題語義類別,這些問題語義類別涵蓋了所有現(xiàn)實中的問題。為了得到問題所具有的類別,我們對疑問句的語法現(xiàn)象進行了探討,分析總結(jié)了其語法語義特點;然后,對目前國內(nèi)外現(xiàn)有的主流問題分類體系作了全面詳盡的調(diào)研,分析了各種分類體系的特點以及優(yōu)缺點。最后,我們選擇了《計算機網(wǎng)絡(luò)》課程中出現(xiàn)的問題以及從網(wǎng)上隨機抽取的各個領(lǐng)域的問題作為分析數(shù)據(jù)集,并對數(shù)據(jù)集進行了細致深入的分析總結(jié)。通過大量的統(tǒng)計分析以及綜合運用各種知識,最終我們確定了基于語義類型的問句分類體系,該分類體系明確給出了每個類別的定義、判斷方法以及正負例。具體內(nèi)容如下所示
1)目的類
定義把詢問一件事情或事物的目的或目標的一類問題歸類為目的類。
判斷方法
Step1看是否在問題中出現(xiàn)“什么目的”、“什么目標”、“目的是什么”、“目標是什么”等疑問詞和目的類特征詞組成的常見固定結(jié)構(gòu),如果有,則為目的類問題;
Step2判斷句子中是否有疑問詞,如“什么”、“哪些”等,如果有疑問詞,判斷疑問詞是否作用在目的類的特征詞上,如“目標有哪些”、“有什么主要目的”等,如果是,則為目的類問題。
正例
計算機網(wǎng)絡(luò)通信安全的目標是什么?
網(wǎng)絡(luò)安全的目的是什么?
網(wǎng)絡(luò)分為通信子網(wǎng)和資源子網(wǎng)的目標是什么?
反例
ISDN的特性是什么?(屬性類)
公平隊列算法用在什么地方?(應用類)
為什么窄帶ISDN要以電路交換為基礎(chǔ)?(原因類)
2)原因類
定義把詢問原因的一類問題歸為原因類。
判斷方法
Step1判斷問題中是否出現(xiàn)“為什么”、“為何”,如果有,則是原因類問題;Step2判斷問題中是否出現(xiàn)“原因是什么”、“什么原因”等疑問詞和原因類特征詞組成的常見固定結(jié)構(gòu),如果有,則為原因類問題;
Step3判斷問題中是否出現(xiàn)疑問詞“什么”、“哪些”等,如果有,則判斷疑問詞是否作用在原因類問題的特征詞上,如“原因有哪些”、“哪些主要原因”、“有哪三大原因”等,如果是,則為原因類問題。
正例
為什么窄帶ISDN要以電路交換為基礎(chǔ)?
請問在記錄保存的時候偶爾會報‘插入的列過大’的錯誤,一般是什么原因?
反例
網(wǎng)絡(luò)安全的目的是什么?(目的類)
什么是IP電話?(定義類)
3)定義類
定義把詢問概念如名詞,術(shù)語的定義或含義的一類問題歸為定義類
判斷方法
Step1判斷問題中是否出現(xiàn)“什么是”、“定義是什么”、“什么定義”、“含義是什么”、“什么含義”、“什么意思”、“意思是什么”、“何為”等疑問詞和定義類特征詞組成的常見搭配,如果有,則判斷問句主語是否為概念,如果是,則為定義類問題。
Step2判斷問題中是否有疑問詞“什么”、“哪些”、“哪”等,如果有,則判斷疑問詞是否作用在定義類的特征詞上,如“哪些定義”、“哪三種定義”等,如果是,則為定義類問題。
正例
什么是廣域網(wǎng)?
域名系統(tǒng)是什么?
反例
LANE如何工作?(方法類)
信元接收的過程是怎樣的?(演化類)
他的這個手勢是什么意思(描述類)。
備注
定義類的問題詢問的是一個名詞、術(shù)語的定義,如果詢問一個動作或一句話的含義則為描述類
4)方法類
定義把詢問完成一件事情的方法和操作的一類問題歸為方法類。
判斷方法
Step1判斷問題中是否含有“如何”、“怎么樣”、“怎樣”、“怎么”等表示問題類的疑問詞,如果有,則為方法類問題。
Step2判斷問題中是否含有“方法是什么”、“什么方法”等疑問詞和方法類特征詞組成的常見搭配,如果有,則為方法類問題。
Step3判斷問題中是否含有疑問詞“什么”、“哪些”、“哪”等,如果有,則判斷疑問詞是否作用在方法類特征詞上,如“哪幾種方法”,“什么好的方法”等,如果是,則為方法類問題。
正例
鏈路狀態(tài)路由選擇算法中是如何發(fā)布鏈路狀態(tài)分組的?
怎樣防止藍屏攻擊?
MPLS交換的操作步驟怎樣?
反例
云是怎樣形成的?(演化類)
5)選擇類
定義希望從一組候選項中找出正確的一項或幾項的問題歸為選擇類
判斷方法
Step1問題中含有表示選擇的詞如“......還是......”、“......或是......”等,并且在表示選擇性的詞兩端有不同的答案備選項,則是選擇類問題。
正例
洪泛算法屬于靜態(tài)還是動態(tài)算法?
地球上先有植物還是先有細菌?
反例
赤潮是紅色的嗎?(是非類)
在delphi中,有沒有延時的語句?(是非類)
備注
選擇類和是非類的區(qū)別在于選擇類問題要求從多個并列的備選項中選出正確的一個,通常這些備選項都會在問題中出現(xiàn),如“地球上現(xiàn)有植物還是現(xiàn)有細菌?”,它的兩個備選項“植物”和“細菌”都在問題中出現(xiàn),而且它們是并列關(guān)系;而是非類問題要求作出肯定或者否定的答案、即從兩個相對的概念中選出一個。
6)是非類
定義把要求做出肯定或否定回答的問題歸為是非類。
判斷方法
Step1判斷問題中是否含有“是不是”、“有沒有”、“能不能”等可以表示是非類的疑問詞,如果有,則為是非類問題。
Step2判斷問題末尾是否含有“嗎”,如果有,則可判斷為是非類問題。
正例
赤潮是紅色的嗎?
連鎖虛電路是不是幾個虛電路串連起來?
反例
洪泛算法屬于靜態(tài)還是動態(tài)算法?(選擇類)
同步通信與異步通信有何不同?(區(qū)別類)
備注
選擇類和是非類的區(qū)別在于選擇類問題要求從多個并列的備選項中選出正確的一個,通常這些備選項都會在問題中出現(xiàn),如“地球上現(xiàn)有植物還是現(xiàn)有細菌?”,它的兩個備選項“植物”和“細菌”都在問題中出現(xiàn),而且它們是并列關(guān)系;而是非類問題要求作出肯定或者否定的答案、即從兩個相對的概念中選出一個。
7)分類類
定義詢問一個概念、事物的分類的問題歸為分類類
判斷方法
Step1判斷問題中是否含有“分為哪幾種”、“分為哪幾類”等常見固定結(jié)構(gòu),如果有,則為分類類問題。
Step2判斷問題中是否含有疑問詞“什么”、“哪些”、“哪”等,如果有,則判斷疑問詞是否作用在分類類特征詞上,如“哪三種類型”、“種類有哪些”、“有什么種類”、“有哪些形式”等,如果是,則為分類類問題。
正例
防火墻可以分為哪幾類?
網(wǎng)絡(luò)安全性可以分為哪幾種?
反例
入侵檢測由哪幾部分組成?(結(jié)構(gòu)類)
MAC子層的主要功能是什么?(作用類)
備注
分類類和結(jié)構(gòu)類的區(qū)別是分類類問題詢問某一個事物所包含的類別,如問題“人可以分為哪幾類?”,它的每一個答案都應該為人的一種,分類類的問題要求按一定的分類標準對主語進行分類,不同的分類標準會產(chǎn)生不同的類別,如人可以按年齡分類,可以按性別分類;而結(jié)構(gòu)類詢問的是一個事物的組成,如問題“桌子是由哪幾部分組成的?”,它的每一個答案都為桌子的一部分,結(jié)構(gòu)類問題要求事物的內(nèi)部組成。
8)結(jié)構(gòu)類
定義詢問一件事物的組成部分或一件事物的內(nèi)部結(jié)構(gòu)的問題歸為結(jié)構(gòu)類
判斷方法
Step1判斷問題中是否含有“什么結(jié)構(gòu)”、“怎么組成”等疑問詞何結(jié)構(gòu)類特征詞的常見搭配,如果有,則為結(jié)構(gòu)類問題。
Step2判斷問題中是否含有疑問詞“什么”、“哪些”等,如果有,則判斷是否含有結(jié)構(gòu)類特征詞“結(jié)構(gòu)”、“組成”等,如果有,再判斷疑問詞是否作用在結(jié)構(gòu)類特征詞上,如“怎么組成的”“由哪幾部分組成”等,如果是,則為結(jié)構(gòu)類問題。
正例
ATM適配層采用什么樣的結(jié)構(gòu)?
分組交換的網(wǎng)絡(luò)結(jié)構(gòu)是怎么樣的?
反例
防火墻可以分為哪幾類?(分類類)
計算機網(wǎng)絡(luò)一般分為哪幾類?(分類類)
備注
分類類和結(jié)構(gòu)類的區(qū)別是分類類問題詢問某一個事物所包含的類別,如問題“人可以分為哪幾類?”,它的每一個答案都應該為人的一種,分類類的問題要求按一定的分類標準對主語進行分類,不同的分類標準會產(chǎn)生不同的類別,如人可以按年齡分類,可以按性別分類;而結(jié)構(gòu)類詢問的是一個事物的組成,如問題“桌子是由哪幾部分組成的?”,它的每一個答案都為桌子的一部分,結(jié)構(gòu)類問題要求事物的內(nèi)部組成。
9)條件類
定義
(1)詢問一件事情成立的前提或條件的一類問題歸為條件類
(2)詢問做一件事情所要遵循的原則、準則或標準的一類問題歸為條件類
(3)詢問做一件事情的依據(jù)的一類問題歸為條件類
(4)詢問做一件事情需要注意和考慮的因素的一類問題歸為條件類。
判斷方法
Step1判斷問題中是否含有“在什么情況下”、“有什么要求”、“具備什么條件”、“具備什么素質(zhì)”等疑問詞和條件類特征詞的常見搭配,如果有,則為條件類問題。
Step2判斷問題中是否含有疑問詞,如果有,則判斷疑問詞是否作用在條件類特征詞上,如“哪些重要條件”、“要求有哪些”等,如果是,則為條件類問題。
正例
夫妻共同居住的公房,在什么情況下,離婚后雙方均可承租?
印制公文有什么要求?
負責公文處理的文秘人員應當具備什么素質(zhì)?
防火墻的基本準則是什么?
ATM提供A類到D類四種服務類型,請說出劃分的依據(jù)是什么?
計算機網(wǎng)絡(luò)一般按什么標準分類?
登記公文應注意什么問題?
反例
網(wǎng)絡(luò)掃描器的功能是什么?(作用類)
IP地址具有什么樣的特點?(屬性類)
10)關(guān)系類
定義詢問幾件事情、事物之間關(guān)系、聯(lián)系或相互影響的問題歸為關(guān)系類
判斷方法
Step1判斷問題中是否含有“什么關(guān)系”、“關(guān)系是什么”、“什么聯(lián)系”、“聯(lián)系是什么”等疑問詞和聯(lián)系類特征詞組成的常見結(jié)構(gòu),如果有,則為聯(lián)系類問題。
Step2判斷問題中是否含有疑問詞“什么”、“哪些”、“哪”、“何”等,如果有,則判斷疑問詞是否作用在聯(lián)系類特征詞上,如“哪些主要聯(lián)系”等,如果是,則為聯(lián)系類問題。
正例
子網(wǎng)和通信子網(wǎng)有什么聯(lián)系?
udp協(xié)議和tcp協(xié)議有什么關(guān)系?
天氣和人的健康有什么關(guān)系?
網(wǎng)絡(luò)的吞吐量與通信子網(wǎng)負荷有什么關(guān)系?
八國聯(lián)軍侵華戰(zhàn)爭和辛丑條約的簽訂對中國有什么影響?
理解“三個代表”對于研究和解決執(zhí)政黨建設(shè)問題的重要意義?
反例
數(shù)據(jù)報和虛電路的差錯處理和流量控制有什么不同的地方?(區(qū)別類)
SMTP通信的三個階段的過程是什么?(演化類)
備注
關(guān)系類和區(qū)別類的區(qū)別是區(qū)別類問題詢問的是兩個事物、概念之間的相同和不同之處,關(guān)系類問題詢問的是兩個事物內(nèi)部所具有的某種關(guān)聯(lián),如“父子關(guān)系”,“兄弟關(guān)系”等。詢問事物的影響、意義的問題歸為關(guān)系類問題。
11)區(qū)別類
定義詢問兩個或多個事物之間相同或不同之處的問題歸為區(qū)別類
判斷方法
Step1判斷問題中是否含有“什么區(qū)別”、“區(qū)別是什么”、“什么不同”、“不同是什么”等疑問詞和區(qū)別類特征詞組成的常見結(jié)構(gòu),如果有,則為區(qū)別類問題。
Step2判斷問題中是否含有疑問詞“什么”、“哪些”、“哪”、“何”等,如果有,則判斷疑問詞是否作用在特征類疑問詞上,如“哪些區(qū)別”、“哪些不同”、“哪些異同”等,如果是,則為區(qū)別類問題。
正例
從層次上看,廣域網(wǎng)和局域網(wǎng)的區(qū)別是什么?
試比較信息網(wǎng)絡(luò)與計算機網(wǎng)絡(luò)有何異同?
同步通信與異步通信有何不同?
反例
LANE的優(yōu)點和局限分別是什么?(屬性類)
12)屬性類
定義詢問事物所具有的特點、屬性、優(yōu)缺點、顏色等自身性質(zhì)的一類問題歸為屬性類。
判斷方法
Step1判斷問題中是否含有“什么特點”、“特點是什么”、“什么特征”、“特征是什么”等疑問詞何屬性類特征詞組成的固定結(jié)構(gòu),如果有,則為屬性類問題。
Step2判斷問題中是否含有疑問詞“什么”、“哪些”、“哪”、“何”等疑問詞,如果有,則判斷疑問詞是否作用在屬性類特征詞上,如“哪些好處”、“什么優(yōu)點和缺點”,“什么不足”。
正例
虛通路標識符VCI指派和轉(zhuǎn)換方法有什么好處?
集中式路由選擇好處和缺點各有哪些?
赤潮是什么顏色的?
反例
傳遞有密級的公文有什么要求?(條件類)
TFTP與FTP的主要區(qū)別是什么?(區(qū)別類)
黃河有多長?(數(shù)量類)
備注
為了使問題分類體系的類型定義更加明確,使分類變得根據(jù)容易,規(guī)定把詢問尺寸、重量等關(guān)于數(shù)量的屬性歸為數(shù)量類。
13)實例類
定義詢問滿足一定的條件的實際例子或一個實體的問題歸為實例類。
判斷方法
Step1判斷問題中是否有“舉例說明”、“哪些實例”、“什么實例”等常見搭配,如果有,則是實例類問題。
Step2判斷句子中是否有疑問詞,如果有,則判斷疑問詞是否作用在實例類的特征詞上,如果是,則為實例類問句。如“有什么現(xiàn)實的例子”。
正例
請舉出一些分布式、集中式和混合式路由選擇策略的應用實例?(這個問題屬于實例類而不是應用類,原因是問題詢問的是關(guān)于路由選擇策略應用的一個實例,而不是應用本身,應用的實例與應用本身相比更加具體,范圍更窄)
反例
草擬公文應遵循哪些基本原則?(條件類)
藻毒素有哪幾種?(分類類)
14)應用類
定義詢問事物適用的場合或范圍的問題歸為應用類。
判斷方法
Step1判斷問題中是否出現(xiàn)“用在什么地方”等疑問詞和應用類特征詞組成的常見固定結(jié)構(gòu),如果有,則為應用類問題。
Step2判斷問題中是否出現(xiàn)應用類特征詞如“應用”、“適用”、“用于”等,再判斷問題中是否出現(xiàn)“領(lǐng)域”、“場合”等代表范圍的詞,如果有,則判斷疑問詞是否作用再這些代表范圍的詞,如“應用在什么場合”、“適用于什么范圍”等,如果是,則為應用類問題。
正例
列舉說明ATM五個服務類型分別適用于什么場合?
IGMP協(xié)議有哪些應用?
超導技術(shù)用于社會哪些領(lǐng)域?
公平隊列算法用在什么地方?
反例
網(wǎng)橋有哪些用途?(作用類)
備注
應用類問題和作用類問題的區(qū)別作用類問題要求的答案是事物的作用,它是事物自身所具有的特點,強調(diào)事物產(chǎn)生的影響。而應用類問題要求的答案為一個領(lǐng)域或概念、事物適合的場所。
15)作用類
定義詢問一個概念,事物的用途,作用,功能的問題歸為作用類。
判斷方法
Step1判斷問題中是否含有“什么用途”、“用途是什么”、“什么作用”、“作用是什么”、“什么功能”、“功能是什么”等疑問詞和用途類特征詞的組合,如果有,則為作用類問題。
Step2判斷問題中是否含有疑問詞“什么”、“哪些”、“何”等,如果有,則判斷疑問詞是否作用在用途類特征詞上,如“有哪兩個作用”、“三個作用分別是什么”等,如果是,則為作用類問題。
正例
傳送語法的用途是什么?
郵件分發(fā)器的用途是什么?
傳輸層的任務是什么?
運輸層要實現(xiàn)哪些功能?
反例
超導技術(shù)用于社會哪些領(lǐng)域。(應用類)
TCP的重發(fā)機制的實現(xiàn)步驟是怎樣?(演化類)
你這周的工作任務是什么?(實體類)
備注
應用類問題和作用類問題的區(qū)別作用類問題要求的答案是事物的作用它是事物自身所具有的特點,而應用類問題要求的答案為一個領(lǐng)域或概念、事物適合的場所。
16)數(shù)量類
定義詢問具體數(shù)字的問題歸為數(shù)量類
判斷方法
Step1判斷問題中是否出現(xiàn)表示數(shù)字的疑問詞,如“幾”、“多少”等,如果有,則判斷疑問詞是否作用在可數(shù)名詞上,即是否詢問可數(shù)名詞的數(shù)量,如果是,則為數(shù)量類問題。
正例
ATM網(wǎng)有幾種通信類型?
內(nèi)部網(wǎng)關(guān)協(xié)議可以分為幾類?
反例
你對森林的破壞了解多少?(程度類)
三峽水庫淹沒的范圍有多大?(程度類)
這個程序運行了多少個時鐘周期?(時間類)
備注
數(shù)量類問題和程度類問題的區(qū)別在于數(shù)量類的問題可以用具體的數(shù)字回答,而程度類的問題無法用具體數(shù)字回答。
數(shù)量類的答案為一個數(shù)字,它只能用來表示量的多少,這個數(shù)字沒有具體的含義,如詢問電話號碼的問題為實體類問題,而不是數(shù)量類問題。
把詢問尺寸、重量等關(guān)于數(shù)量的屬性歸為數(shù)量類。
詢問關(guān)于時間的量,定義為時間類。
17)程度類
定義詢問深淺,大小,多少等表示程度的問題,但又無法定量描述時,把它歸為程度類。
判斷方法
Step1判斷問題中是否含有詢問程度的疑問詞,如“多少”、“多大”等,如果有,則繼續(xù)判斷問題能否用具體的數(shù)字回答,如果不能用數(shù)字回答,則判斷為程度類問題。
正例
你對森林的破壞了解多少?
海資源被破壞有多嚴重?
反例
套接字編程處理模型把應用分為幾類?(數(shù)量類)
引起赤潮的生物有多少種?(數(shù)量類)
備注
數(shù)量類問題和程度類問題的區(qū)別在于數(shù)量類的問題可以用具體的數(shù)字回答,也就是說數(shù)量類問題提問的主體是一個可數(shù)的名詞;而程度類的問題無法用具體數(shù)字回答,程度類問題。如果既可以用數(shù)字來描述,也可以用程度來描述,則可以同時分到數(shù)量類和程度類中。
18)時間類
定義詢問一件事情發(fā)生或持續(xù)的時間的問題歸為時間類。
判斷方法
Step1判斷問題中是否含有“什么時間”、“什么時候”、“何時”、“幾點”等疑問詞何時間類特征詞組成的常見搭配,如果有,則為時間類問題。
Step2判斷問題中是否含有疑問詞“什么”、“哪些”、“何”、“幾”等,如果有,則判斷疑問詞是否作用在時間類特征詞上,如果是,則為時間類問題。
正例
“西沙之戰(zhàn)”是什么時間發(fā)生的?
抗美援朝戰(zhàn)爭中,中朝軍隊連續(xù)舉行了五次戰(zhàn)役,請說出每次戰(zhàn)役的殲敵人數(shù)及戰(zhàn)爭結(jié)束時間(數(shù)量類/時間類)
這件事情你用幾天時間完成?(時間類)
反例
電話是誰發(fā)明的?(人物類)
什么是雷暴?(定義類)
備注
詢問關(guān)于時間的量定義為時間類,而不是數(shù)量類。
19)地點類
定義詢問事情發(fā)生的地點,位置的問題歸為地點類
判斷方法
Step1判斷問題中是否有疑問詞“哪里”,如果有,則為地點類。
Step2判斷問題中是否含有“什么地點”、“哪些地方”、“哪些地點”等常見的疑問詞何地點類特征詞的搭配,如果有,則為地點類問題。
Step3判斷問題中是否含有疑問詞“哪些”、“什么”、“何”等,如果有,則判斷疑問詞是否作用在地點類特征詞上(即疑問詞是否對地點提問),如“哪些涼快的地方”等,如果是,則為地點類問題。
正例
我國赤潮的高發(fā)區(qū)在哪里?
你現(xiàn)在在哪里?
反例
地球最初的生命是誰給予的?(人物類)
計算機網(wǎng)絡(luò)通信安全的目標是什么?(目的類)
這個程序的錯誤發(fā)生在什么地方?(位置類)
優(yōu)點在哪里?(屬性類)
備注
地點類和應用類的區(qū)別在于地點類問題要求的答案為地點或一個地理范圍;應用類問題中雖然也會出現(xiàn)“什么地方”,但它要求的答案不是一個地點,而是一個領(lǐng)域或應用范圍。
20)方位類
定義詢問方向的問題歸為方位類
判斷方法
Step1判斷問題中是否有“什么方位”、“什么方向”等疑問詞和方位類特征詞組成的常見結(jié)構(gòu),如果有則為方位類問題。
Step2判斷問題中是否含有疑問詞“什么”、“哪些”等,如果有,則判斷疑問詞是否作用在方位類特征詞上,如果是,則為方位類問題。
正例
咸陽在西安的什么方向?
反例
盧溝橋事變發(fā)生在什么地方?(地點類)
據(jù)悉,李增智老師有個學生投國際會議的論文是抄襲的,已經(jīng)被發(fā)現(xiàn),估計要被勒令退學了。定義如果問句詢問在某個事物中所處的位置則歸為位置類,它和地點類的區(qū)別在于地點類問題詢問的是地理上的位置或范圍,而位置類問題詢問的是在某個事物中所處的位置。
判斷方法
Step1判斷問句中是否含有疑問詞和位置類特征詞的組合,如“什么位置”、“什么地點”、“哪一部分”等,如果有,則判斷詢問的位置是否為一個地理位置,如果不是物理位置,則歸為位置類問題。
正例
這個程序的錯誤發(fā)生在什么地方?
數(shù)據(jù)應該在哪里加密
反例
公平隊列算法用在什么地方(應用類)
盧溝橋事變發(fā)生在什么地方?(地點類)
21)人物類
定義詢問一個或多個人的名字的問句歸為人物類
判斷方法
Step1判斷問題中是否含有疑問詞“誰”,如果有,則為人物類問題。
Step2判斷問題中是否含有疑問詞“什么”、“哪些”、“何”等,如果有,則判斷疑問詞是否作用在人物類特征詞上,如“什么人”等,如果是,則為人物類問題。
正例
是誰第一個踏上了月球?
電話是誰發(fā)明的?
這是誰干的好事?(人物類)
反例
幀中繼的主要特點是什么?(屬性類)
防火墻可以分為哪幾類?(分類類)
備注
嚴格地說,人物類也屬于實體類,它是一種特殊的實體類。因為人物類的問題在實體類中所占的比例很大,因此將人物類問題單獨作為一類。
22)實體類
定義如果問句詢問滿足條件的具體的或者抽象概念、事物、名稱等實體,則把這類問題歸為實體類。這里的實體既包括具體的、可以觀察的事物,如動物、工具、醫(yī)藥、交通、產(chǎn)品、食物、貨幣等,也包括抽象的概念,如事件、技術(shù)、語言,體育、用戶ID、密碼、身份證號碼、電話號碼、郵政編碼等。
判斷方法
Step1判斷句子的結(jié)構(gòu)是否是“疑問詞+滿足的條件”或“滿足的條件+疑問詞”,如“什么函數(shù)返回字符串的長度?”,如果是,則為實例類問題。
正例
pdf文件用什么打開?
什么函數(shù)返回字符串的長度?(c#中)
反例
能舉出一些分布式、集中式和混合式路由選擇策略的應用實例嗎?(實例類)
玫瑰花是什么顏色?(屬性類)
備注
對于詢問縮寫或全稱的問題,它的答案雖然也為一個概念或名詞,但不是實體類,而是縮寫類。
23)縮寫類
定義此處的縮寫是第三種含義,如果問句詢問一個術(shù)語的簡稱或全稱,則把它稱為縮寫類問題。
判斷方法
Step1判斷問句中是否含有“縮寫是什么”、“全稱是什么”等縮寫類特征詞和疑問詞的常見固定搭配,如果有,則是縮寫類問題。
Step2判斷問句中是否含有疑問詞,如果有,則判斷疑問詞是否作用在縮寫類特征詞上,如果是,則是縮寫類問題。
正例
超文本傳輸協(xié)議的簡稱是什么?
SMTP全稱什么?
反例
SMTP是什么(定義類)
24)原理類
定義詢問一個事物的原理、思想、本質(zhì)的一類問題歸為原理類。
判斷方法
Step1判斷問題中是否含有“基本思想是什么”、“原理是什么”等原理類特征詞和疑問詞的組合,如果有,則為原理類
Step2判斷問題中是否含有疑問詞,如果有,則判斷疑問詞是否作用在原理類特征詞上,如果是,則為原理類問題。
正例
洪泛算法的基本思想是什么?
RSA公開密鑰密碼體制所根據(jù)的原理是什么?
代理服務器的工作原理怎樣?
磁場的本質(zhì)是什么呢?
反例
兩條基本加密原則是什么?(條件類)
25)演化類
定義詢問事物的變化過程或事物的進展趨勢的一類問題歸為發(fā)展類。
判斷方法
Step1判斷問題中是否含有“發(fā)展過程是什么”、“怎樣形成的”等疑問詞何演化類特征詞組成的常見結(jié)構(gòu),如果有,則是發(fā)展類問題。
Step2判斷問題中是否有疑問詞“什么”、“哪些”、“哪”、“何”、“怎么樣”等,如果有,則判斷疑問詞是否作用在演化類特征詞上,如“發(fā)展是怎么樣進行的”、“發(fā)展趨勢是什么”等,如果是,則是發(fā)展類問題。
正例
云是怎樣形成的?
人類社會的發(fā)展過程是怎樣的?
ATM技術(shù)的最新發(fā)展走向是什么?
網(wǎng)絡(luò)有怎樣的一個發(fā)展趨勢?
反例
TCP是如何保證傳送的可靠性的?
ATM的工作方式是怎樣的?
27)觀點類
定義詢問某人的看法、觀點、感想的一類問題歸為觀點類。
判斷方法
Step1問題是否詢問某人的想法、看法、觀點、感受等,如果是,則為觀點類問題。
正例
個人認為有很多優(yōu)秀作品,關(guān)鍵是您怎么看?
請問秋雨先生,去了那么多國家回來以后最大的感受是什么呢?
這次國際音樂節(jié)結(jié)束后,你有何考慮?
你覺得這個杯子怎么樣?
反例
創(chuàng)建子網(wǎng)的時候應該注意什么?(條件類)
ATM網(wǎng)絡(luò)的基本思想是什么?(原理類)
28)描述類
定義詢問關(guān)于一個實體、事物或某件事情的描述、評價、總結(jié)、分析的問題稱為描述類。
判斷方法
Step1如果問句要求對一件事物,一個實體或某個人物做出介紹,評價,則為描述類問題。
正例
秦始皇到底是個什么樣的人?
我國土壤污染的現(xiàn)狀怎么樣?
你有過什么樣的藝術(shù)人生呢?
X.25的主要協(xié)議內(nèi)容是什么?
法律對繼承權(quán)的接受和放棄有什么規(guī)定?
江澤民視察“神舟”號試驗飛船時都有哪些指示?
“三個代表”思想的科學內(nèi)涵是什么?
這篇文章主要講了什么?
反例
是誰第一個登上了月球?(人物類)
幀中繼的主要特點是什么?(屬性類)
2.2中文問題的特征向量表示
對于用自然語言描述的中文問題,分類器是無法識別和進行自動分類的。只有選擇一些問題的特征并且使用這些特征將問題表示成特征向量才能夠用于分類。本發(fā)明首先利用我們已有的分詞和詞性標注工具ChineseParser對問題進行分詞和詞性標注,然后通過自己編寫的特征提取程序進行特征提取。提取的特征包括如下四類
單詞每一個詞作為一個特征;
雙詞每兩個相鄰詞的組合作為一個特征;
詞-詞性組合每個詞與它相鄰詞的詞性的組合作為一個特征;
語義特征每個詞在知網(wǎng)Hownet中的語義作為一個特征。
2.3基于統(tǒng)一損失的中文問題多類分類方法
中文問題分類是一種多類分類問題。本發(fā)明使用基于編解碼的中文問題多類分類模型,用多個二類分類器完成多類分類,并且用一種基于統(tǒng)一損失的多類分類決策函數(shù)對二類分類結(jié)果進行衡量,從而獲得問題的最終類別。
2.3.1基于編解碼的中文問題多類分類模型
1)中文問題多類分類問題的描述
中文問題多類分類問題,可以形式化描述如下假設(shè)給定一組帶有問題類別標記的中文問題樣本其中
是一個中文問題特征向量,且i=1,...,k,d是表示問題的特征向量的維度,k是樣本的個數(shù),yi是每個樣本
對應的類別標記且yi∈{1,...,m},m是問題目標類別的個數(shù)(在CQSC中m=28)。中文問題多類分類的目的是尋找一個未知函數(shù)
使其對未知樣本
進行分類的錯誤損失(或者錯誤率)盡可能小,即
其中,y是
的實際類別,
是函數(shù)f對
的預測類別,
是樣本
的預測損失。
2)基于編解碼的中文問題多類分類模型的框架結(jié)構(gòu)
提出了一種基于編解碼統(tǒng)一框架的中文問題多類分類模型。該模型利用多個二類分類器來完成多類分類。使用該模型對問題進行分類的第一步是設(shè)計碼字矩陣。碼字矩陣的形式如下
其中Ci(i=1,2,...,m)為問題的目標類別,fj(j=1,2,...n)為二類分類器,Mij(i=1,2,...,m,j=1,2,...n)為二類分類標記,Mij只能取兩個值{0,1},當Mij=0時表明二類分類器fj應該將Ci類樣例分為負例,當Mij=1時表明二類分類器fj應該把Ci類樣例分為正例。令Mi=(Mi1,Mi2,...,Min)稱為類Ci的碼字,任何兩個類的碼字不能相等,即任何兩個碼字之間的距離至少為1。
在訓練階段,輸入為帶類別標記的問題樣例,使用類別標記查詢碼字矩陣得到該類別的碼字,根據(jù)碼字中每一項的取值分別得到每一個二類分類器的標記值,然后對每個二類分類器進行訓練。
在預測階段,輸入為未標記的問題樣例,將該樣例分別送入每一個二類分類器,將預測結(jié)果按順序組合成輸出碼字,然后與碼字矩陣中每一類的碼字進行比較,取與輸出碼字距離最近的碼字所對應的類別作為問題的類別標記。
模型的框架結(jié)構(gòu)如附圖所示,該模型分為編碼模塊、分類模塊和解碼模塊三個部分。
各模塊功能分別如下
編碼模塊主要功能是讀取編碼碼字,將輸入樣本分發(fā)到各個基類分類器中去。訓練時,一個目標類別為Ci的樣本被映射成以碼字矩陣M∈{0,1}mxn中的第i行。目標類別為y的樣本,映射到碼字矩陣第j列后,其目標類別將變?yōu)镸ij∈{0,1}。因此我們只需要分別訓練n個二類分類器即可。預測時,直接將輸入樣本分發(fā)到每個二類分類器。
分類模塊主要功能是實現(xiàn)每個二類分類器對輸入樣本的訓練和分類,這是框架的核心模塊。訓練時,訓練樣例經(jīng)過編碼后,將調(diào)用各二類分類器進行訓練,從而形成各二類分類模型。預測時,對于待分類樣本x,調(diào)用二類分類器,產(chǎn)生對應的輸出碼字二類分類算法Bayes、C4.5、CART、AdaBoost、perceptron和SVM等均可作為此處的二類分類器。
解碼模塊的目的是實現(xiàn)樣本目標類別的判別。二類分類器為輸入樣本x產(chǎn)生對應的輸出碼字之后,解碼模塊需要選擇碼字矩陣中與之最近的碼字(假設(shè)為My),把該碼字所對應的類別Cy作為輸入樣本的目標類別,即選取其中My為Cy類的碼字,L是損失函數(shù)。
2.3.2基于統(tǒng)一損失的中文問題多類分類
上述基于編解碼的中文問題多類分類模型中,損失函數(shù)的確定至關(guān)重要,損失函數(shù)直接影響到分類的準確率。以前對多類分類的研究中,所有二類分類器之間相互獨立,對每個分類器獨立進行訓練,均優(yōu)化各自的目標函數(shù),使得分類時可能存在不可分區(qū)域,影響分類的準確率。本發(fā)明提出一種將二類分類器的損失向多類分類損失轉(zhuǎn)化的方法,使用基于統(tǒng)一損失的多類分類決策函數(shù),避免了上述問題,能夠提高分類的準確率。
1)基于統(tǒng)一損失的多類分類決策函數(shù)
定義1.對于樣本
標注的目標類別為yi,多類分類器預測的目標類別為
設(shè)基類分類器
對于所有訓練樣本的損失為其中Myi,s是目標類別為yi的樣本
在第s個基類分類器中的預測目標編碼值;設(shè)樣本實際的多類分類損失為其中My為類別y對應的編碼矩陣中的一行,即
定理1.當且僅當時,基類分類的損失和與多類分類損失一致。
證明訓練樣本在基類分類器中的總體損失為因此,這類分類算法中多類分類器的優(yōu)化目標為求解一個未知函數(shù)
即顯然,只有當時即預測目標類別與樣本實際的類別一致時才能取得最小損失
根據(jù)上文分析,訓練樣本實際的多類分類損失為同理,也只有當時才能取得最小損失
故為使兩損失函數(shù)等價即Lossmin=Loss′min,當且僅當證畢。
由上述證明看出,只有損失函數(shù)滿足定理1中的條件,才能實現(xiàn)基類分類器的損失和與多類分類的損失等價性,從而才能獲得多類分類的最佳性能。
為滿足定理1,我們需要為基類分類器的損失Loss′和多類分類的損失Loss分別尋找合適的函數(shù)。推論1.當取時,有Losg′=Loss。
證明所有訓練樣本在基類分類器中的損失為同時,訓練樣本對應的多類分類損失為顯然有Loss′=Loss,證畢。
上述分析給出了從各基類分類器的損失到最終多類分類損失的轉(zhuǎn)化,轉(zhuǎn)化后的損失函數(shù)為我們統(tǒng)一解決多類分類問題提供了可能。在滿足推論1的條件下,假設(shè)基類分類器為感知器(Perceptron)時,我們能得到本文提出的多類分類模型的決策函數(shù)。具體分析如下Perceptron的函數(shù)表達式為fs(xi)=<ws,xi>+bs,算子
表示兩個向量的內(nèi)積。取<ws,bs>=w′s,<xi,1>=x′i可將fs(xi)進一步簡化為fs(xi)=<w′s,x′i>。為方便起見,下面將重新以ws代替w′s,以xi代替x′i,即定義fs(xi)為fs(xi)=<ws,xi>。此時,我們可得多類分類的損失令則有此式中,當y=y(tǒng)i時才能取得最小損失。由此,樣本x的目標類別應取即
根據(jù)以上分析,我們可以寫出在本文提出的多類分類模型統(tǒng)一框架下,當解碼模塊選用線性損失函數(shù),分類模塊的基類分類器采用Perceptron時的基于統(tǒng)一損失的決策函數(shù)
此式從幾何角度理解,等價于為每個類關(guān)聯(lián)一個超平面,然后將待預測的點x賦予距超平面有最大距離的一類。輸入空間將被分為m個相連的凸區(qū)域。此決策函數(shù)的思想與多類支持向量機的決策函數(shù)思想一致。
2)訓練和預測算法的基本流程
針對模型的決策函數(shù),我們給出訓練和預測算法。算法具體描述如下假設(shè)基類分類器采用Perceptron,迭代次數(shù)為I∈R+,學習步長為η∈R+,類別間隔為τ∈R+。注意此處的
和
已經(jīng)被重新定義,即其他假設(shè)如上文所述。
算法1.基于多類分類器統(tǒng)一框架的一種判定學習算法Initialization
Input帶類別標記的樣本集類別個數(shù)m,二類分類器個數(shù)n,碼字矩陣M;
Output每個Perceptron分類器的權(quán)值向量fort=1...l,i=1...k do
fors=1...n do
end if endforend for
算法2.基于多類分類器統(tǒng)一框架的預測算法Input待標記樣本
每個Perceptron分類器的權(quán)值向量Output輸入樣本
的類別標記
return yi
權(quán)利要求
1、一種中文問題的語義分類方法CQSC,其特征在于,基于中文問題語義類別體系和中文問題多類分類模型,實現(xiàn)對中文問題語義類別的判斷和提問焦點的識別;它由中文問題語義類別體系構(gòu)造、中文問題的特征向量表示和基于統(tǒng)一損失的中文問題多類分類三個部分組成
其中,中文問題語義類別體系構(gòu)造確定了一個問題語義類別體系,該體系包括問題所有語義類別的定義和判斷方法,CQSC對問題分類的結(jié)果即為該體系中的一個類別;
中文問題的特征向量表示通過選擇問題的一些特征,將問題文本表示成分類模型可以識別的特征向量;
基于統(tǒng)一損失的多類分類將輸入的問題特征向量映射到問題語義類別體系中的一個類別。
2.根據(jù)權(quán)利要求1所述的中文問題的語義分類方法CQSC,其特征在于,所構(gòu)造的中文問題語義類別體系包括28個語義類別,分別為目的類、原因類、定義類、方法類、選擇類、是非類、分類類、條件類、結(jié)構(gòu)類、關(guān)系類、區(qū)別類、屬性類、實例類、應用類、作用類、數(shù)量類、程度類、時間類、地點類、方位類、位置類、人物類、實體類、縮寫類、原理類、演化類、觀點類、描述類。
3.根據(jù)權(quán)利要求1所述的中文問題的語義分類方法CQSC,其特征在于,中文問題的特征向量表示選擇單詞、雙詞、詞-詞性組合和語義四類特征,用這些特征將每個問題表示成特征向量用于分類。
4.根據(jù)權(quán)利要求1所述的中文問題的語義分類方法CQSC,其特征在于,對問題的多類分類在基于編解碼的多類分類模型下,使用基于統(tǒng)一損失的多類分類方法,使用多個二類分類器來完成多類分類,并且使用統(tǒng)一損失的決策函數(shù)進行訓練和預測,該方法由編碼、分類和解碼三個模塊組成。
全文摘要
本發(fā)明公開了一種中文問題的語義分類方法,基于中文問題語義類別體系和中文問題多類分類模型,實現(xiàn)對中文問題語義類別的判斷和提問焦點的識別;它由中文問題語義類別體系構(gòu)造、中文問題的特征向量表示和基于統(tǒng)一損失的中文問題多類分類組成中文問題語義類別體系構(gòu)造了一個問題語義類別體系,包括問題所有語義類別的定義和判斷方法,對問題分類的結(jié)果即為該體系中的一個類別;中文問題的特征向量通過選擇問題的一些特征,將問題文本表示成分類模型可以識別的特征向量;基于統(tǒng)一損失的多類分類將輸入的問題特征向量映射到問題語義類別體系中的一個類別。該體系能夠覆蓋所有收集到中文問題,可以覆蓋事實性問題,實現(xiàn)的簡單直觀和分類的高準確率。
文檔編號G06F17/27GK1804829SQ200610041619
公開日2006年7月19日 申請日期2006年1月10日 優(yōu)先權(quán)日2006年1月10日
發(fā)明者鄭慶華, 胡云華, 孫霞, 黨海峰 申請人:西安交通大學