国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      對(duì)話文本主題的自動(dòng)提取方法

      文檔序號(hào):6483280閱讀:651來(lái)源:國(guó)知局
      專利名稱:對(duì)話文本主題的自動(dòng)提取方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及計(jì)算機(jī)及通信技術(shù)領(lǐng)域,尤其涉及一種對(duì)話文本主題的 自動(dòng)提取方法。
      背景技術(shù)
      網(wǎng)絡(luò)通訊如今已成為了人們?nèi)粘贤ǖ闹匾绞剑瑸槿藗兊慕涣魈?供了巨大的便利。同時(shí),即時(shí)通信軟件、網(wǎng)絡(luò)留言板、電子郵件、網(wǎng)絡(luò) 會(huì)議等交流方式生成了大量的網(wǎng)絡(luò)信息數(shù)據(jù),這些數(shù)據(jù)與網(wǎng)頁(yè)類型的數(shù) 據(jù)有著本質(zhì)的區(qū)別,它們以對(duì)話模式存在,其內(nèi)容中蘊(yùn)含著兩個(gè)或多個(gè) 參與者的觀點(diǎn)和態(tài)度。因此網(wǎng)絡(luò)對(duì)話數(shù)據(jù)中含有豐富的信息,能夠給人 們的工作和學(xué)習(xí)帶來(lái)很大的幫助。例如,可以用于協(xié)助警察偵查疑犯的 想法和行動(dòng),幫助心理醫(yī)生了解病人的思考方式和輔助人類學(xué)家探究人 類的行為模式等。但在海量數(shù)據(jù)中尋找有用數(shù)據(jù)需要相當(dāng)大量的人力和 時(shí)間,研究者希望結(jié)合計(jì)算機(jī)人工智能領(lǐng)域的一些方法,在海量對(duì)話數(shù) 據(jù)中高效準(zhǔn)確地獲取重要的信息,因此基于對(duì)話文本的主題提取成為了 近年來(lái)關(guān)注的熱點(diǎn)。
      對(duì)話文本作為一種全新的信息資源,屬于自然語(yǔ)言處理范疇。早期
      渡而來(lái)。然而由于其在語(yǔ)言上的特點(diǎn),用在普通文本的主題提取方法對(duì) 對(duì)話文本發(fā)揮不了較好的效果。普通文本一般由一個(gè)作者編寫,是具有 邏輯合理、思維縝密、措辭得當(dāng)、語(yǔ)句通順、上下文聯(lián)系緊密和主題脈
      絡(luò)清晰等特點(diǎn)的書(shū)面語(yǔ);對(duì)話一般由兩個(gè)或多個(gè)參與者共同完成,是具 有指代不明、語(yǔ)句缺省、大量問(wèn)答句式存在和主題脈絡(luò)混亂特點(diǎn)的口語(yǔ)。 對(duì)于兩種語(yǔ)言特點(diǎn)差異很大的語(yǔ)料,不能將普通文本的主題提取方法直接應(yīng)用于對(duì)話文本的主題提取。
      目前,國(guó)內(nèi)外針對(duì)對(duì)話文本的主題提取方法包括
      1、 基于機(jī)器學(xué)習(xí)的主題提取方法。機(jī)器學(xué)習(xí)的方法對(duì)選取特征集、 訓(xùn)練集大小等都有一定的要求,需要多次測(cè)試比較,選擇合適的模型、 特征集、訓(xùn)練樣本等。
      2、 基于語(yǔ)義理解的主題提取方法。先提取出對(duì)話文本的句子中的名 詞或動(dòng)詞,依賴于WordNet知識(shí)庫(kù),找出它們?cè)谥R(shí)庫(kù)里對(duì)應(yīng)的相克念集, 計(jì)算句子間的語(yǔ)義相似度,在此基礎(chǔ)上對(duì)對(duì)話文本中的句子進(jìn)行排序, 從而將排名靠前的句子視為主題句。該方法依賴于WordNet有一定的局 限性,WordNet中的詞語(yǔ)畢竟也是有限的。特別是針對(duì)對(duì)話文本,其中 包含的大部分是口語(yǔ)詞匯,WordNeU艮難全部嚢括。
      3、 融合語(yǔ)義和機(jī)器學(xué)習(xí)的主題提取方法。選取一些語(yǔ)義特征、詞網(wǎng)、 語(yǔ)料結(jié)構(gòu)特征和詞頻等作為特征,從訓(xùn)練集中提取這些特征放入模型進(jìn) 4亍訓(xùn)練。
      4、 基于統(tǒng)計(jì)的主題提取方法。將用于書(shū)面語(yǔ)文本的主題提取方法 tf4df統(tǒng)計(jì)方法做一些擴(kuò)展,用于對(duì)話文本的主題提取。對(duì)對(duì)話文本中的 詞匯進(jìn)行統(tǒng)計(jì),從而對(duì)詞進(jìn)4亍評(píng)分,提取代表主題的詞。這種簡(jiǎn)單的統(tǒng) 計(jì)方法適合處理實(shí)時(shí)對(duì)話信息,其處理的速度較快。
      5、 基于知識(shí)理解的主題提取方法?;谝粋€(gè)限定領(lǐng)域的知識(shí)理解系 統(tǒng)對(duì)文本的語(yǔ)義進(jìn)行"理解",從而生成主題句。其應(yīng)用于對(duì)話文本的 主題提取的不足之處在于有領(lǐng)域限制,而網(wǎng)絡(luò)上的對(duì)話文本是開(kāi)放領(lǐng)域 的,需要人工編制大量的知識(shí)理解系統(tǒng),可^f亍性不高。
      但由于網(wǎng)絡(luò)通訊對(duì)話文本的特點(diǎn),對(duì)話中語(yǔ)句之間的詞語(yǔ)相似度比 較低,口語(yǔ)詞匯很多,主題交織且組織結(jié)構(gòu)混亂,導(dǎo)致應(yīng)用以上幾種方 法提取出的主題詞準(zhǔn)確度不高。

      發(fā)明內(nèi)容
      有鑒于此,本發(fā)明的目的在于提供一種對(duì)話文本主題的自動(dòng)提取方 法,用于在對(duì)話文本中實(shí)現(xiàn)對(duì)話主題的自動(dòng)提取。
      本發(fā)明的實(shí)施例提供了一種對(duì)話文本主題的自動(dòng)提取方法,包括 對(duì)對(duì)話文本進(jìn)行數(shù)據(jù)預(yù)處理,對(duì)預(yù)處理后的對(duì)話文本進(jìn)行問(wèn)答對(duì)探
      測(cè);
      對(duì)所述對(duì)話文本進(jìn)行主題切分,并對(duì)主題切分后的語(yǔ)塊組進(jìn)行聚類, 從聚類后的語(yǔ)塊組中抽取出主題句。
      本發(fā)明實(shí)施例對(duì)對(duì)話文本,特別是針對(duì)網(wǎng)絡(luò)通訊的對(duì)話文本,首先 進(jìn)行切詞、詞性標(biāo)注等一系列數(shù)據(jù)預(yù)處理后,再?gòu)膶?duì)話文本中找出所有 的問(wèn)答對(duì),并將問(wèn)句與相應(yīng)的答句合并為同一句話;然后對(duì)對(duì)話文本進(jìn) 行主題切分,將屬于不同主題且相鄰的對(duì)話語(yǔ)句切分為不同的語(yǔ)塊;最 后對(duì)相鄰且屬于不同主題的語(yǔ)塊組進(jìn)行聚類,針對(duì)每個(gè)不同的主題從聚 類后的語(yǔ)塊組中抽取出主題句,使得提取出的主題具有較高的準(zhǔn)確性。


      圖1是本實(shí)施例提供的對(duì)話文本主題自動(dòng)提取的方法流程圖2是本發(fā)明實(shí)施例中問(wèn)句探測(cè)的原理圖3是本發(fā)明實(shí)施例中問(wèn)句探測(cè)方法的流程圖4是本發(fā)明實(shí)施例中答句探測(cè)的原理圖5是本發(fā)明實(shí)施例中答句探測(cè)方法的流程圖6是本發(fā)明實(shí)施例中對(duì)對(duì)話文本進(jìn)行主題切分的原理圖7是本發(fā)明實(shí)施例中相鄰句子間相似性計(jì)算的示意圖8是本發(fā)明實(shí)施例中主題切分的可能結(jié)果示意圖9是本發(fā)明實(shí)施例中構(gòu)建的主題樹(shù)示意圖。
      8
      具體實(shí)施例方式
      本發(fā)明實(shí)施例著重針對(duì)網(wǎng)絡(luò)聊天對(duì)話形式的對(duì)話文本,總結(jié)出其有
      別于書(shū)面語(yǔ)文本的三個(gè)顯著特點(diǎn)對(duì)話文本中含有大量的問(wèn)-答句式,不 同主題的對(duì)話之間邊界模糊,主題交織且組織結(jié)構(gòu)混亂。針對(duì)這三個(gè)特 點(diǎn),本發(fā)明實(shí)施例對(duì)對(duì)話文本進(jìn)行切詞、詞性標(biāo)注等一系列數(shù)據(jù)預(yù)處理 后,再?gòu)膶?duì)話文本中找出所有的問(wèn)答對(duì),并將問(wèn)句與相應(yīng)的答句合并為 同一句話;然后對(duì)對(duì)話文本進(jìn)行主題切分,將屬于不同主題且相鄰的對(duì) 話語(yǔ)句切分為不同的語(yǔ)塊;最后對(duì)相鄰且屬于不同主題的語(yǔ)塊組進(jìn)行聚 類,針對(duì)每個(gè)不同的主題從聚類后的語(yǔ)塊組中抽取出主題句,使得提取 出的主題具有較高的準(zhǔn)確性。
      為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖對(duì)本 發(fā)明作進(jìn)一步的詳細(xì)描述。
      圖1是本實(shí)施例提供的對(duì)話文本主題自動(dòng)提取的方法流程圖,該流 程包括以下步驟
      步驟101、對(duì)對(duì)話文本進(jìn)行數(shù)據(jù)預(yù)處理。該數(shù)據(jù)預(yù)處理是指對(duì)聊天 對(duì)話文本進(jìn)行切詞、詞性標(biāo)注、二次切分處理以及停用詞處理的一系列 工作。該對(duì)話文本是指用戶雙方的一次聊天對(duì)話內(nèi)容,即用戶從打開(kāi)聊 天窗口開(kāi)始聊天到本次聊天結(jié)束關(guān)閉聊天窗口 。. (1 )對(duì)對(duì)話文本進(jìn)行切詞處理與詞性標(biāo)注。
      在切詞處理中,對(duì)中文和英文的切詞有4艮大的區(qū)別,英文切詞可以 直接通過(guò)空格完成,而中文是緊湊排列的,需要通過(guò)專門的切詞器進(jìn)行 切分。本實(shí)施例實(shí)現(xiàn)中文切詞與詞性標(biāo)注功能采用的是中科院計(jì)算所研 發(fā)的漢語(yǔ)詞法分析系統(tǒng)ICTCLAS。
      (2)對(duì)對(duì)話文本的二次切分處理。
      經(jīng)過(guò)中文切詞與詞性標(biāo)注后,句子^^皮切分成了一個(gè)詞集,由許多不同詞性的詞組成。如短語(yǔ)"自然語(yǔ)言理解"就會(huì)被切分為"自然/語(yǔ)言/ 理解"這三個(gè)詞,但是這個(gè)短語(yǔ)所表達(dá)的意思與被切分為三個(gè)詞后表達(dá) 的意思是不一樣的。
      按照VSM (vector-space model,向量空間模型)理論,句子可以表 示成n維空間向量,n維表示的是對(duì)話語(yǔ)句的詞條項(xiàng)數(shù)目,用tPidf來(lái)計(jì) 算對(duì)話語(yǔ)句在向量空間各個(gè)維度上的權(quán)重。如果將短語(yǔ)"自然語(yǔ)言理解" 劃分為"自然/語(yǔ)言/理解"三個(gè)詞,就要用向量空間的3個(gè)維度表示, 若一個(gè)句子中同時(shí)出現(xiàn)短語(yǔ)"自然語(yǔ)言理解"和"理解" 一詞的時(shí)候,
      詞條"理解"的權(quán)重就明顯變高,但事實(shí)上"理解,,這個(gè)詞在該句子中 的權(quán)重應(yīng)該與短語(yǔ)"自然語(yǔ)言理解,,等同。
      為了避免上述情況的發(fā)生,采取的方法是在進(jìn)行完切詞處理后,再 對(duì)句子進(jìn)行二次切分處理。采用的方法是基于統(tǒng)計(jì)的方法,選取對(duì)話記 錄方面的語(yǔ)料庫(kù),統(tǒng)計(jì)兩個(gè)詞連續(xù)出現(xiàn)的共現(xiàn)概率,選取共現(xiàn)概率較高 的詞存入共存詞集。在切詞結(jié)束后,掃描一次共存詞集,有匹配的詞將 其劃歸為短-i吾。
      針對(duì)網(wǎng)絡(luò)對(duì)話記錄,會(huì)經(jīng)常出現(xiàn)一些比較流行的短語(yǔ)。定期更新已 有的共存詞集,添加一些新出現(xiàn)的短語(yǔ),可以使句子的切分達(dá)到更好的 效果。
      (3)停用詞處理。
      本實(shí)施例中所謂的停用詞,指的是沒(méi)有實(shí)意的虛詞、類別色彩不強(qiáng) 的詞以及出現(xiàn)頻率高但沒(méi)有表意的詞。編輯一個(gè)停用詞表,對(duì)二次切分 處理后的字詞進(jìn)行掃描,若判斷為停用表里存在的字詞,就對(duì)其標(biāo)注為 停用詞。
      步驟102、對(duì)預(yù)處理后的文本進(jìn)行問(wèn)答對(duì)探測(cè)。找出對(duì)話文本中的 每個(gè)問(wèn)句和其相應(yīng)的答句,并將它們合并為同一句話。
      通過(guò)對(duì)對(duì)話文本進(jìn)行分析,發(fā)現(xiàn)其含有大量的問(wèn)-答對(duì),且問(wèn)-答對(duì)
      10里面的內(nèi)容包含著重要的交流信息。對(duì)話模式中往往通過(guò)多輪回的問(wèn)答 模式,對(duì)話雙方對(duì)一個(gè)或多個(gè)主題進(jìn)行深入的探討。所以本實(shí)施例中有 一個(gè)關(guān)鍵的環(huán)節(jié)就是探測(cè)到對(duì)話文本中存在的問(wèn)-答對(duì),提取出的主題句 信息中也會(huì)包含問(wèn)-答對(duì)合并后的句子。
      本實(shí)施例針對(duì)數(shù)據(jù)預(yù)處理后的對(duì)話文本,利用機(jī)器學(xué)習(xí)的方法尋找 出文本中存在的所有問(wèn)句和可能存在的其相對(duì)應(yīng)的答句,目的是將找出 的每個(gè)問(wèn)句和其對(duì)應(yīng)的答句合并為一個(gè)句子,從而在提取主題句的時(shí)候 可以將其整體提取出來(lái),增強(qiáng)提取出主題句的可讀性和全面性。
      本實(shí)施例采用的探測(cè)問(wèn)答對(duì)的方法為 步驟1021、探測(cè)出對(duì)話文本中的問(wèn)句。
      問(wèn)句進(jìn)行分析,.先選定適合判斷問(wèn)句的一些特征;然后對(duì).準(zhǔn)備用于訓(xùn)練 集的句子手動(dòng)標(biāo)識(shí)句子類別,將從訓(xùn)練集句子中提取出的代表問(wèn)句特征 的特征值序列和人工標(biāo)識(shí)的句子類別共同放入分類模型進(jìn)行訓(xùn)練;再對(duì) 作為測(cè)試集的句子手工標(biāo)識(shí)句子類別,將從測(cè)試集中提取出的代表問(wèn)句 特征的特征值序列和手工標(biāo)識(shí)的句子類別共同放入分類模型,從而得到 分類模型輸出結(jié)果的準(zhǔn)確率,以便對(duì)選定的訓(xùn)練集、分類器和特征做相 應(yīng)的調(diào)整;最后對(duì)輸入的新對(duì)話語(yǔ)句提取特征值,按照訓(xùn)練集提取特征 的格式輸入分類器,從而獲得輸出的分類結(jié)果。圖2是問(wèn)句探測(cè)的原理 圖。
      具體來(lái)說(shuō),本實(shí)施例采用的問(wèn)句探測(cè)方法如圖3所示,包括如下步

      步驟10211、選擇識(shí)別問(wèn)句的特征。
      對(duì)對(duì)話文本中問(wèn)句的探測(cè),分為兩個(gè)層面。淺層的探測(cè)可以通過(guò)一 些簡(jiǎn)單的特征來(lái)實(shí)現(xiàn),如問(wèn)號(hào)、疑問(wèn)詞、語(yǔ)氣助詞等,可以通過(guò)這些簡(jiǎn) 單的特征判斷出一些問(wèn)句。但是網(wǎng)絡(luò)聊天中是手寫的對(duì)話文本,問(wèn)號(hào)往往會(huì)被忽略。隨機(jī)抽取1000條對(duì)話語(yǔ)料,有37°/0省略了問(wèn)號(hào),11%的句 子沒(méi)有答句,還有7%用陳述句的句型來(lái)表達(dá)問(wèn)句。所以只用淺層探測(cè) 方法是不充分的,需要使用其他特征識(shí)別問(wèn)句。深層的探測(cè)是選擇一些 問(wèn)句具有的隱性特征,如對(duì)話語(yǔ)句中詞語(yǔ)的個(gè)數(shù)、語(yǔ)句前段和后段的詞 性順序等。根據(jù)對(duì)話文本的特點(diǎn),本實(shí)施例選擇了如下特征作為分類問(wèn) 句的評(píng)判標(biāo)準(zhǔn)
      (1 )高標(biāo)識(shí)特征,如問(wèn)號(hào)、語(yǔ)氣助詞、問(wèn)句lt問(wèn)詞、問(wèn)句標(biāo)識(shí)詞(如 "是不是"、"怎么樣,,等);
      (2)輸入的對(duì)話語(yǔ)句中詞的個(gè)數(shù);
      (3 )句子中最前面的五個(gè)詞的詞性和句子中最后面的五個(gè)詞的詞性。
      步驟10212、對(duì)準(zhǔn)備用于訓(xùn)練集的句子進(jìn)行人工手動(dòng)標(biāo)識(shí)句子類別。 主要是標(biāo)識(shí)經(jīng)過(guò)數(shù)據(jù)預(yù)處理的訓(xùn)練集的句子是否為問(wèn)句,從而將標(biāo)識(shí)結(jié) 果與訓(xùn)練集一起作為分類器的輸入,對(duì)分類器進(jìn)行訓(xùn)練。
      步驟10213、基于步驟10211所選擇的識(shí)別問(wèn)句的特征,對(duì)用于訓(xùn) 練集的句子的屬性進(jìn)行標(biāo)識(shí)記錄。首先判斷句子中是否包含高標(biāo)識(shí)特征, 如果是的話,將高標(biāo)識(shí)項(xiàng)對(duì)應(yīng)的值置l,不是則置0;記錄句子中詞的個(gè) 數(shù),即通過(guò)步驟101的數(shù)據(jù)預(yù)處理切詞后,記錄下切分得到的句子中詞 的個(gè)數(shù);記錄下句子中前5個(gè)詞和后5個(gè)詞的詞性標(biāo)注。這樣,就得到 了訓(xùn)練集中的每個(gè)句子的特征值序列,每個(gè)特征值序列中包含12項(xiàng)特征 在句中對(duì)應(yīng)的值是否包含高標(biāo)識(shí)特征、句子中詞的個(gè)數(shù)、前5個(gè)詞和 后5個(gè)詞的詞性。
      步驟10214、將訓(xùn)練集的每個(gè)句子的特征值序列和人工標(biāo)識(shí)句子類 別共同作為分類器的輸入,對(duì)分類器進(jìn)行訓(xùn)練。本實(shí)施例采用的分類器 是樸素貝葉斯分類器,其功能就是將輸入的句子分類為問(wèn)句和非問(wèn)句。 在對(duì)分類器進(jìn)行測(cè)試和正式的使用前,需要先對(duì)分類器進(jìn)行訓(xùn)練,從而提高分類器的精度。訓(xùn)練集就是專門針對(duì)訓(xùn)練分類器而定義的句子樣本 集,對(duì)分類器的訓(xùn)練就是將訓(xùn)練集的每個(gè)句子的特征值序列和人工標(biāo)識(shí) 的句子類別共同作為分類器的輸入,分類器通過(guò)對(duì)給與的輸入和輸出不 斷地學(xué)習(xí),不斷地完善分類器中的模型和參數(shù),并通過(guò)測(cè)試集作為輸入 得到分類器輸出結(jié)果的準(zhǔn)確率,根據(jù)準(zhǔn)確率的高低,再對(duì)選定的訓(xùn)練集、 分類器和特征進(jìn)行相應(yīng)的調(diào)整。通過(guò)多次的訓(xùn)練和測(cè)試,來(lái)提高分類器 的分類精確度。
      步驟10215、將測(cè)試集中對(duì)話語(yǔ)句按步驟10213的方法,記錄下代 表其問(wèn)句特征的特征值序列,將測(cè)試集句子的屬性值序列和人工標(biāo)識(shí)的
      句子類別共同作為分類器的輸入,對(duì)分類器分類結(jié)果的準(zhǔn)確率進(jìn)行評(píng)估。 通過(guò)訓(xùn)練集對(duì)分類器進(jìn)行訓(xùn)練和測(cè)試集對(duì)分類器進(jìn)行評(píng)估后,就要對(duì)待 處理的對(duì)話文本進(jìn)行問(wèn)句的探測(cè)了 。
      步驟10216、將待處理的對(duì)話文本中抽取出的特征值序列作為分類 器的輸入,得到輸出的分類結(jié)果。
      步驟1022、通過(guò)問(wèn)句在對(duì)話文本中的位置,將兩個(gè)問(wèn)句之間的陳述 語(yǔ)句列為答句候選集。
      步驟1023、在答句候選集中探測(cè)出對(duì)話文本中的每個(gè)問(wèn)句相對(duì)應(yīng)的 答句。
      答句檢測(cè)也是使用機(jī)器學(xué)習(xí)的方法,每個(gè)問(wèn)句相對(duì)應(yīng)的答句所存在 的范圍是當(dāng)前問(wèn)句和下 一 個(gè)問(wèn)句之間的所有陳述句。答句探測(cè)的方法與 問(wèn)句探測(cè)相類似,圖4是其原理圖。
      答句探測(cè)的方法如圖5所示,包括
      步驟10231、選擇識(shí)別最佳答句的特征。
      根據(jù)對(duì)話文本的特點(diǎn)以及問(wèn)句和對(duì)應(yīng)答句的關(guān)聯(lián)性,本實(shí)施例選擇 了如下特征作為判別答句的特征
      (1)答句候選集中前五個(gè)詞的詞性標(biāo)注和后五個(gè)詞的詞性標(biāo)注;
      13(2) 答句候選集中的句子個(gè)數(shù);
      (3) 答句候選集中的答句與問(wèn)句的距離;
      (4) 答句候選集中的答句與問(wèn)句的相似度。采用余弦相似度算法:
      步驟10232、從選定的訓(xùn)練集對(duì)話語(yǔ)句中抽取出代表答句特征的特 征值序列。
      與問(wèn)句探測(cè)一樣,答句探測(cè)同樣釆用訓(xùn)練集對(duì)分類器先進(jìn)行訓(xùn)練, 然后采用測(cè)試集來(lái)衡量分類器的分類準(zhǔn)確性。最后對(duì)待處理對(duì)話文本進(jìn) 行分類的方法。根據(jù)前一步驟選定的識(shí)別答句的特征,將經(jīng)過(guò)預(yù)處理的 訓(xùn)練集對(duì)話語(yǔ)句輸入,提取出每個(gè)特征所對(duì)應(yīng)的特征值。每句對(duì)話語(yǔ)句 都對(duì)應(yīng)一個(gè)相應(yīng)的特征值序列,特征值序列中包含13項(xiàng),分別是該對(duì)話 語(yǔ)句中前五個(gè)詞和后五個(gè)詞的詞性、該句子所在的答句候選集中所包含 的句子個(gè)數(shù)、該句子與問(wèn)句的距離、該句子與問(wèn)句的相似度。
      步驟10233、將訓(xùn)練集中每個(gè)對(duì)話語(yǔ)句代表答句特征的特征值序列 和人工標(biāo)識(shí)的句子類別一同作為分類器的輸入,對(duì)分類器進(jìn)行訓(xùn)練。本 實(shí)施例采用的分類器是C4.5決策樹(shù)分類器,其功能就是將輸入的句子分 類為答句或非答句。
      步驟10234、將測(cè)試集中的對(duì)話語(yǔ)句按步驟10231抽取出代表答句 特征的特征值序列。并將測(cè)試集抽取出的特征值序列和人工標(biāo)識(shí)的測(cè)試 集句子類別作為分類器的輸入,可獲得分類器輸出結(jié)果的準(zhǔn)確率,從而 對(duì)選定的訓(xùn)練集、分類器和特征進(jìn)行相應(yīng)的調(diào)整,使得分類器的分類準(zhǔn) 確度提高。
      步驟10235、將待處理的答句候選集作為分類器的輸入,可得到在 答句候選集中與問(wèn)句較適合的答句。步驟10236、將尋找出的每個(gè)問(wèn)句和其相對(duì)應(yīng)的答句合并到同一個(gè) 對(duì)話語(yǔ)句,并做出一定的標(biāo)記。
      步驟103、對(duì)對(duì)話文本進(jìn)行主題切分。
      針對(duì)網(wǎng)絡(luò)聊天的對(duì)話文本具有主題交織出現(xiàn),各個(gè)主題之間邊界模 糊,組織結(jié)構(gòu)混亂的特點(diǎn),在抽取主題句之前,先對(duì)對(duì)話文本按照不同 的主題進(jìn)行切分,判別語(yǔ)句之間是否已經(jīng)發(fā)生對(duì)話主題的偏移,識(shí)別出 語(yǔ)義塊邊界,以便于對(duì)對(duì)話語(yǔ)句按主題進(jìn)行聚類,可以更加精準(zhǔn)的抽取 主題句。
      將基于概率的主題模型思想應(yīng)用于本實(shí)施例處理的對(duì)話文本,將對(duì) 話文本看做是多個(gè)主題的隨機(jī)組合,每個(gè)主題可以由詞匯的概率分布來(lái) 體現(xiàn)?;谶@個(gè)思想,需要計(jì)算詞匯在各個(gè)對(duì)話語(yǔ)句中的概率分布,從 而計(jì)算各個(gè)相鄰句子間的語(yǔ)義相似度,最后比較各相鄰句間語(yǔ)義相似度
      與給定閾值的大小,從而確定主題切分點(diǎn)。
      圖6是對(duì)對(duì)話文本進(jìn)行主題切分的原理圖,該方法包括
      步驟1031、將對(duì)話語(yǔ)句集作為輸入,通過(guò)隱含語(yǔ)義概率模型計(jì)算得 到詞匯在對(duì)話文本中各個(gè)對(duì)話語(yǔ)句中的概率分布戶(叫S,),其中的隱含語(yǔ) 義概率模型可以使用現(xiàn)有的潛在語(yǔ)義分析模型PLSA、 LDA進(jìn)行實(shí)現(xiàn)。
      步驟1032、根據(jù)詞匯在對(duì)話文本中各個(gè)對(duì)話語(yǔ)句中的概率分布 P(W|S,),計(jì)算相鄰句子間的語(yǔ)義相似度,采用計(jì)算相似度的算法為
      5V附 = we[K
      "+/p(氛)2 V帳『 V帳『
      圖7是相鄰句子間相似性計(jì)算的示意圖。
      步驟1033、比較各個(gè)相鄰句子間的語(yǔ)義相似度和給定的閾值范圍, ^t人而判定相鄰的兩個(gè)句子間是否為不同主題的切分點(diǎn)。 步驟104、對(duì)主題切分后的語(yǔ)塊組進(jìn)行聚類。
      在對(duì)話文本中可能存在這樣的情況聊天一方想對(duì)前一個(gè)話題進(jìn)行一定的補(bǔ)充,在結(jié)束完當(dāng)前話題后又去討論前一個(gè)話題。但在這種情況 下,若只對(duì)對(duì)話文本進(jìn)行主題切分處理,對(duì)話文本會(huì)被切分為三個(gè)屬于 不同主題的語(yǔ)塊,但事實(shí)上第一個(gè)主題和第三個(gè)主題同屬一個(gè)主題,如
      圖8所示。主題切分處理的不足在于只能將對(duì)話文本中相鄰對(duì)話語(yǔ)句切 分為不同主題,但不能確定非相鄰語(yǔ)塊為同 一主題的情況。
      為了避免上述情況的發(fā)生,本實(shí)施例對(duì)主題切分處理進(jìn)行了后續(xù)處 理,使得屬于同一主題的語(yǔ)塊能盡量聚類到一個(gè)對(duì)話文本組,從而提高 抽取出的主題句的準(zhǔn)確度。本實(shí)施例使用了一種融入語(yǔ)言特征的聚類算 法對(duì)主題切分后的語(yǔ)塊進(jìn)行聚類處理。因?yàn)橥ㄟ^(guò)對(duì)大量對(duì)話文本的分析 得知,在相鄰兩個(gè)語(yǔ)塊之間存在著一些潛在的關(guān)聯(lián)語(yǔ)言規(guī)則,選取關(guān)聯(lián) 語(yǔ)言特征融入聚類算法,能使聚類算法更加適用于對(duì)話文本。本實(shí)施例 中融入的一個(gè)語(yǔ)言特征是指代特征,因?yàn)?一般對(duì)話語(yǔ)句中代詞的出現(xiàn)說(shuō) 明當(dāng)前語(yǔ)句仍在討論之前對(duì)話語(yǔ)句中說(shuō)過(guò)的人或事。本實(shí)施例采用的聚 類方法如下
      步驟1041、確定使用的聚類算法。
      假定存在兩個(gè)語(yǔ)塊是Seg'和Seg"融入的語(yǔ)言特征用條件概率表示就 是P(T(Segj,Segj)ISeg,PPL,SegjPPF)。對(duì)于給與的兩個(gè)語(yǔ)塊S^和Seg』,定義一
      個(gè)函數(shù)T(Seg"Segj): T(Seg,,Segj"(:
      如果Segj和Segj屬于同一個(gè)主題,計(jì)算式值為1;否則,計(jì)算式值為0。
      根據(jù)貝葉斯公式<formula>formula see original document page 16</formula>計(jì)算式右邊的參數(shù)估計(jì)是通過(guò)對(duì)訓(xùn)練數(shù)據(jù)做最大似然估計(jì)。 Sim(Seg, T) = max「=1cos(Seg, Seg,) * P(T(Seg,,Segj)| Seg,PPL, SegjPPF)
      該計(jì)算式是計(jì)算語(yǔ)塊與建立的樹(shù)之間的相似性函數(shù)。 步驟1042、根據(jù)相似性函數(shù)生成主題線索樹(shù)。主題線索樹(shù)是一種表 示每一個(gè)對(duì)話語(yǔ)塊歸屬的樹(shù)形數(shù)據(jù)結(jié)構(gòu)。
      通過(guò)語(yǔ)塊與樹(shù)之間的相似性函數(shù)作為判斷當(dāng)前語(yǔ)塊是不是屬于已建 立的主題線索樹(shù)或者一棵新樹(shù)根節(jié)點(diǎn)的標(biāo)準(zhǔn)。以下是構(gòu)建主題線索樹(shù)的 具體步驟
      步驟10421、將已進(jìn)行主題切分的語(yǔ)塊按照時(shí)間順序進(jìn)行排列。按 時(shí)間排序的原因是對(duì)話主題的發(fā)展是一個(gè)時(shí)間延續(xù)的過(guò)程,從而可以判 斷后續(xù)語(yǔ)塊是前面某個(gè)語(yǔ)塊的順承。
      步驟10422、第一個(gè)語(yǔ)塊內(nèi).容Segl形成樹(shù)的根節(jié)點(diǎn),同時(shí)也形成樹(shù)T'。
      步驟10423、處理第二個(gè)語(yǔ)塊內(nèi)容Seg2,計(jì)算它與第一個(gè)樹(shù)T'的相 似度Sim(Seg2,T,)。若Sim(Seg2,T,)>預(yù)定門限值k,將Seg2加入樹(shù)1;否則,
      語(yǔ)塊內(nèi)容Seg2新建一個(gè)樹(shù)72 。
      步驟10424、處理第三個(gè)語(yǔ)塊內(nèi)容Seg3,分別計(jì)算它與前兩棵樹(shù)的 相似度Sim(Seg3,T,)和Sim(Seg3,T2), 若Sim(Seg3,T;) < Sim(Seg3,T2)且
      Sim(SegH)〉預(yù)定門限值k (k值根據(jù)實(shí)驗(yàn)結(jié)果選定),則將語(yǔ)塊內(nèi)容加 入樹(shù)丁2;若Sim(Seg3,T, )〈Sim(Seg3,T2)且Sim(Seg3,T2)〈預(yù)定門限值k,則由
      第三個(gè)語(yǔ)塊內(nèi)容Seg3新建一個(gè)樹(shù)13。依照max[^os(Seg,Seg,),可計(jì)算得 到在當(dāng)前語(yǔ)塊所屬的樹(shù)下與當(dāng)前語(yǔ)塊相似度最大的語(yǔ)塊SegX,則當(dāng)前語(yǔ) 塊Seg3為SegX的葉子節(jié)點(diǎn)。
      步驟10425、之后的語(yǔ)塊內(nèi)容按照步驟10424中描述的方法分別進(jìn) ^f亍處理,直至處理完文本中的所有語(yǔ)塊。
      17圖9為按照以上方法構(gòu)建的主題線索樹(shù)。
      步驟105、從聚類后的語(yǔ)塊組中抽取出主題句。
      從構(gòu)造的主題線索樹(shù)的結(jié)構(gòu)來(lái)看,已經(jīng)將以時(shí)間序列排序的語(yǔ)塊組 劃分為一個(gè)個(gè)的主題線索樹(shù)。針對(duì)每一個(gè)主題線索樹(shù),可以將該樹(shù)包含 的所有語(yǔ)塊組的對(duì)話語(yǔ)句看作為一個(gè)主題單元,從每個(gè)主題單元中抽取 出最具代表性的一些句子作為主題句。具體方法包括
      步驟1051、確定每個(gè)主題單元提取主題句的個(gè)數(shù)。
      計(jì)算式中w自表示第i個(gè)主題線索樹(shù)中包含的節(jié)點(diǎn)個(gè)數(shù);tv,表示的
      是第i個(gè)主題單元中需要提取的主題句個(gè)數(shù)。
      步驟1052、計(jì)算句子在主題單元中的貢獻(xiàn)度。
      若主題單元中的一個(gè)句子與其他一些句子反映的是相同內(nèi)容,則句 子與其他句子的相似度高,若其與其他句子反映不同內(nèi)容,則與其他句
      子的相似度低,則其對(duì)主題單元的貢獻(xiàn)度大。假設(shè)每個(gè)主題單元里含有 s個(gè).句子,計(jì)算主題線索樹(shù)中當(dāng)前句子k對(duì)主題單元的貢獻(xiàn)度 C, = ItJSim(Sk,S')-ll
      步驟1053、通過(guò)計(jì)算式計(jì)算出每個(gè)句子對(duì)其所在的主題單元的貢獻(xiàn) 度,按照由大到小的順序進(jìn)行排序,取排名靠前的^個(gè)句子作為主題句。
      步驟1054、將每個(gè)主題單元中分布的合并問(wèn)答句都提取出來(lái),作為 一部分主題句。
      最后,用戶可以從提取出來(lái)的主題句中檢索或發(fā)現(xiàn)感興趣的對(duì)話記 錄,提高用戶的體驗(yàn)。
      總之,以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā) 明的保護(hù)范圍。
      權(quán)利要求
      1、一種對(duì)話文本主題的自動(dòng)提取方法,其特征在于,包括對(duì)對(duì)話文本進(jìn)行數(shù)據(jù)預(yù)處理,對(duì)預(yù)處理后的對(duì)話文本進(jìn)行問(wèn)答對(duì)探測(cè);對(duì)所述對(duì)話文本進(jìn)行主題切分,并對(duì)主題切分后的語(yǔ)塊組進(jìn)行聚類,從聚類后的語(yǔ)塊組中抽取出主題句。
      2、 根據(jù)權(quán)利要求l所述的方法,其特征在于,所述對(duì)對(duì)話進(jìn)行數(shù)據(jù) 預(yù)處理包括對(duì)對(duì)話文本進(jìn)行切詞處理、詞性標(biāo)注、二次切分處理以及停用詞處理。
      3、 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述對(duì)對(duì)話文本進(jìn)行問(wèn)答對(duì)探測(cè)具體包括探測(cè)出對(duì)話文本中的問(wèn)句;通過(guò)問(wèn) 句在對(duì)話文本中的位置,將兩個(gè)問(wèn)句之間的陳述語(yǔ)句列為答 句候選集;在答句候選集中探測(cè)出對(duì)話文本中的每個(gè)問(wèn)句相對(duì)應(yīng)的答句。
      4、 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述探測(cè)出對(duì)話文本中的問(wèn)句具體包括選擇識(shí)別問(wèn)句的特征;對(duì)準(zhǔn)備用于訓(xùn)練集的句子進(jìn)行人工手動(dòng)標(biāo)識(shí)句子類別; 基于所述選擇的識(shí)別問(wèn)句的特征,對(duì)用做訓(xùn)練集的句子提取出代表各個(gè)特征的值,記錄下每個(gè)句子對(duì)應(yīng)的特征值序列;將訓(xùn)練集的每個(gè)句子的特征值序列和人工標(biāo)識(shí)的句子類別共同作為分類器的輸入,對(duì)分類器進(jìn)行訓(xùn)練;對(duì)準(zhǔn)備用于測(cè)試集的句子進(jìn)行人工手動(dòng)標(biāo)識(shí)句子類別; 根據(jù)所述訓(xùn)練集句子特征值的提取方法,記錄下代表測(cè)試集每個(gè)句子的特征值序列;將測(cè)試集中抽取出的特征值序列和人工標(biāo)識(shí)的句子類別共同作為分類器的輸入,對(duì)分類器輸出的分類結(jié)果的準(zhǔn)確率進(jìn)行評(píng)估,從而對(duì)選定的訓(xùn)練集、分類器和特征做相應(yīng)的調(diào)整;根據(jù)所述訓(xùn)練集句子特征值的提取方法,記錄下代表待處理對(duì)話文本每個(gè)句子的特征值序列;將待處理對(duì)話文本抽取出的特征值序列作為分類器的輸入,得到輸 出的分類結(jié)果。
      5、 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述識(shí)別問(wèn)句的特征 具體包括問(wèn)句的高標(biāo)識(shí)特征、輸入的對(duì)話語(yǔ)句中詞的個(gè)數(shù),及句子中最前面 的五個(gè)詞的詞性和句子中最后面的五個(gè)詞的詞性。
      6、 根據(jù)權(quán)利要求4或5所述的方法,其特征在于,所述探測(cè)對(duì)話文 本中的每個(gè)問(wèn)句相對(duì)應(yīng)的答句的方法具體包括選擇識(shí)別答句的特征;對(duì)準(zhǔn)備用于訓(xùn)練集的句子進(jìn)行人工手動(dòng)標(biāo)識(shí)句子類別;從選定的訓(xùn)練集對(duì)話語(yǔ)句中抽取出代表答句特征的特征值序列;將訓(xùn)練集中每個(gè)對(duì)話語(yǔ)句代表答句特征的特征值序列和人工標(biāo)識(shí)的句子類別一同作為分類器的輸入,對(duì)分類器進(jìn)行訓(xùn)練; 對(duì)作為測(cè)試集的句子進(jìn)行人工手動(dòng)標(biāo)識(shí)句子類別; 從作為測(cè)試集的對(duì)話語(yǔ)句中抽取出代表答句特征的特征值序列; 將測(cè)試集抽取出的特征值序列和人工標(biāo)識(shí)的句子類別共同作為分類器的輸入,對(duì)分類器輸出的分類結(jié)果的準(zhǔn)確率進(jìn)行評(píng)估,從而對(duì)選定的訓(xùn)練集、分類器和特征做相應(yīng)的調(diào)整;根據(jù)所述訓(xùn)練集句子特征值的提取方法,記錄下代表待處理對(duì)話文本每個(gè)句子的特征值序列;將待處理對(duì)話文本抽取出的特征值序列作為分類器的輸入,得到輸 出的分類結(jié)果。將探測(cè)出的每個(gè)問(wèn)句及其相對(duì)應(yīng)的答句合并到同一個(gè)對(duì)話語(yǔ)句,并 進(jìn)行標(biāo)記。
      7、 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述答句的特征具體包括答句候選集中前五個(gè)詞的詞性標(biāo)注和后五個(gè)詞的詞性標(biāo)注;答句候選集中的句子個(gè)數(shù);答句候選集中的答句與問(wèn)句的距離;答句候選集中的答句與問(wèn)句的相似度。
      8、 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述對(duì)對(duì)話文本 進(jìn)行主題切分具體包括將對(duì)話語(yǔ)句集作為輸入,通過(guò)隱含語(yǔ)義概率模型獲取詞匯在對(duì)話文 本中各個(gè)對(duì)話語(yǔ)句中的概率分布;根據(jù)所述概率分布,獲取相鄰句子間的語(yǔ)義相似度; 比較各個(gè)相鄰句子間的語(yǔ)義相似度和預(yù)設(shè)定的閾值范圍,判定相鄰的兩個(gè)句子間是否為不同主題的切分點(diǎn)。
      9、 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述對(duì)語(yǔ)塊組進(jìn)行聚類包括確定使用的聚類算法,根據(jù)相似性函數(shù)生成主題線索樹(shù); 其中,所述生成主題線索樹(shù)的方法具體包括 將已進(jìn)行主題切分的語(yǔ)塊按照時(shí)間順序進(jìn)行排列; 第一個(gè)語(yǔ)塊內(nèi)容Segl形成樹(shù)的根節(jié)點(diǎn),同時(shí)也形成樹(shù)T^ 獲取第二個(gè)語(yǔ)塊內(nèi)容Seg2與第一個(gè)樹(shù)^的相似度Sim(Seg2,7,),若Sim(SegS,i;)〉預(yù)定門限值k,將Seg2加入樹(shù)T!;否則,語(yǔ)塊內(nèi)容Seg2新建一個(gè)樹(shù)12;獲取第三個(gè)語(yǔ)塊內(nèi)容Seg3與前兩棵樹(shù)的相似度Sim(Seg^)和 Sim(Seg3,T2),若Sim(Seg3,T;) 〈 Sim(Seg3,T2)且Sim(Seg3,T2)〉預(yù)定門限值k,則將語(yǔ)塊內(nèi)容Seg3加入樹(shù)T2;若Sim(Seg3,T,) < Sim(Seg3,T2)且Sim(Seg3,T2)〈預(yù)定門限值k,則由第三個(gè)語(yǔ)塊內(nèi)容Seg3新建一個(gè)樹(shù)T3;并按相同方法 處理對(duì)話文本中的所有語(yǔ)塊。
      10、根據(jù)權(quán)利要求9所述的方法,其特征在于,所述抽取出主題句具體包括確定每個(gè)主題單元提取主題句的個(gè)數(shù); 獲取句子在主題單元中的貢獻(xiàn)度;根據(jù)所述每個(gè)句子在主題單元中的貢獻(xiàn)度,按照由大到小的順序進(jìn)行排序,取排名靠前的W'個(gè)句子作為主題句;將每個(gè)主題單元中合并的問(wèn)答句提取出來(lái),作為主題句。
      全文摘要
      本發(fā)明公開(kāi)了一種對(duì)話文本主題的自動(dòng)提取方法,包括對(duì)對(duì)話文本進(jìn)行數(shù)據(jù)預(yù)處理,對(duì)預(yù)處理后的對(duì)話文本進(jìn)行問(wèn)答對(duì)探測(cè);對(duì)所述對(duì)話文本進(jìn)行主題切分,并對(duì)主題切分后的語(yǔ)塊組進(jìn)行聚類,從聚類后的語(yǔ)塊組中抽取出主題句。采用本發(fā)明方法提取的對(duì)話文本主題更為準(zhǔn)確,用戶可以從提取出來(lái)的主題句中檢索或發(fā)現(xiàn)感興趣的對(duì)話記錄,提高用戶的體驗(yàn)。
      文檔編號(hào)G06F17/30GK101599071SQ20091006311
      公開(kāi)日2009年12月9日 申請(qǐng)日期2009年7月10日 優(yōu)先權(quán)日2009年7月10日
      發(fā)明者杰 溫, 廣 胡, 黃本雄, 黃毅青 申請(qǐng)人:華中科技大學(xué)
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1