国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種面向初等數(shù)學(xué)領(lǐng)域的分詞方法與流程

      文檔序號(hào):11234060閱讀:475來(lái)源:國(guó)知局
      一種面向初等數(shù)學(xué)領(lǐng)域的分詞方法與流程
      本發(fā)明涉及自然語(yǔ)言處理
      技術(shù)領(lǐng)域
      ,具體涉及一種面向初等數(shù)學(xué)領(lǐng)域的分詞方法。
      背景技術(shù)
      :隨著信息技術(shù)的發(fā)展及人工智能技術(shù)的不斷成熟,自然語(yǔ)言處理(nlp)得到了廣泛的應(yīng)用,同時(shí)有關(guān)的理論、技術(shù)也得到了很大的發(fā)展。然而目前絕大多數(shù)的自然語(yǔ)言處理和圖像語(yǔ)義識(shí)別等方面的研究都集中于新聞、論壇、博客等領(lǐng)域,專(zhuān)業(yè)領(lǐng)域的研究較少,涉及到符號(hào)、數(shù)學(xué)公式等處理的就更少。然而,數(shù)學(xué)領(lǐng)域的文本不僅僅包含自然語(yǔ)言,還包含符號(hào)、數(shù)學(xué)公式等內(nèi)容,而且其中所包含的自然語(yǔ)言也與平時(shí)用于日常交流的語(yǔ)言有一定差別。目前現(xiàn)有的自然語(yǔ)言處理算法不能直接應(yīng)用于數(shù)學(xué)領(lǐng)域,如果想要使計(jì)算機(jī)實(shí)現(xiàn)初等數(shù)學(xué)問(wèn)題自動(dòng)求解,并生成類(lèi)人的答題過(guò)程就需要對(duì)包含符號(hào)、數(shù)學(xué)公式、圖形等元素的自然語(yǔ)言進(jìn)行處理,需要融合和擴(kuò)展自然語(yǔ)言處理和圖像語(yǔ)義理解的研究。技術(shù)實(shí)現(xiàn)要素:基于此,針對(duì)上述問(wèn)題,有必要提出一種面向初等數(shù)學(xué)領(lǐng)域的分詞方法,其針對(duì)于數(shù)學(xué)領(lǐng)域,可以很好的對(duì)包含符號(hào)、數(shù)學(xué)公式、圖形等元素的自然語(yǔ)言進(jìn)行處理,可以有效地推動(dòng)自然語(yǔ)言處理、圖像語(yǔ)義理解、機(jī)器學(xué)習(xí)等人工智能領(lǐng)域中的關(guān)鍵技術(shù)針對(duì)數(shù)學(xué)領(lǐng)域的研究和應(yīng)用。本發(fā)明的技術(shù)方案是:一種面向初等數(shù)學(xué)領(lǐng)域的分詞方法,包括如下步驟:s1:根據(jù)初等數(shù)學(xué)中文分詞所需的分詞模型,按照中文分詞規(guī)范進(jìn)行定義,同時(shí)將公式、變量和符號(hào)定義為詞語(yǔ),并根據(jù)詞性類(lèi)別分別進(jìn)行規(guī)定;s2:利用分詞和詞性標(biāo)記后的數(shù)學(xué)標(biāo)注語(yǔ)料庫(kù),并對(duì)通過(guò)訓(xùn)練后的模型進(jìn)行切換,得到領(lǐng)域分詞和詞性標(biāo)注模型;s3:判斷分詞結(jié)果是否符合初等數(shù)學(xué)領(lǐng)域的規(guī)范,如果是,則分詞成功;如果否,則利用分詞后處理程序進(jìn)行重新分詞。在基礎(chǔ)框架方面,本發(fā)明采用大規(guī)模數(shù)據(jù)處理框架和基于深度學(xué)習(xí)的特征學(xué)習(xí)方法,利用大規(guī)模未標(biāo)注語(yǔ)料構(gòu)建特征集合,并利用特征集合結(jié)合結(jié)構(gòu)化機(jī)器學(xué)習(xí)方法來(lái)完成處理任務(wù)。針對(duì)具體任務(wù),本發(fā)明根據(jù)數(shù)學(xué)領(lǐng)域的文本特點(diǎn),并結(jié)合通用自然語(yǔ)言處理基礎(chǔ)問(wèn)題的研究成果,研究發(fā)明了面向數(shù)學(xué)領(lǐng)域的分析方法。針對(duì)初等數(shù)學(xué)中文分詞所需要的分詞模型,本發(fā)明在常規(guī)的中文分詞規(guī)范的基礎(chǔ)上,將公式、變量、符號(hào)等也定義為詞語(yǔ),詞性根據(jù)類(lèi)別分別進(jìn)行規(guī)定;然后使用自己研究的模型領(lǐng)域自適應(yīng)方法,利用少量經(jīng)過(guò)分詞和詞性標(biāo)記的數(shù)學(xué)標(biāo)注語(yǔ)料庫(kù),對(duì)通過(guò)新聞?wù)Z料進(jìn)行訓(xùn)練過(guò)的模型進(jìn)行切換;此方法可以充分利用已有訓(xùn)練語(yǔ)料的信息,結(jié)合少量標(biāo)注語(yǔ)料得到領(lǐng)域分詞和詞性標(biāo)注模型;再把分詞當(dāng)作字的詞位分類(lèi)問(wèn)題,用b代表詞首,e代表詞尾,m代表詞中,s代表單字詞,將b和e之間的字以及s單字構(gòu)成分詞;當(dāng)分詞結(jié)果不符合初等數(shù)學(xué)領(lǐng)域的規(guī)范時(shí),使用分詞后處理程序進(jìn)行重新分詞,綜合利用了統(tǒng)計(jì)和規(guī)則的方法。作為上述方案的進(jìn)一步優(yōu)化,所述步驟s1具體包括以下步驟:在進(jìn)行中文分詞之前,將數(shù)學(xué)領(lǐng)域中數(shù)據(jù)稀疏的元素根據(jù)其所屬類(lèi)別變換為相應(yīng)的中文詞語(yǔ)。在常規(guī)的中文分詞規(guī)范的基礎(chǔ)上,將公式、變量、符號(hào)等也定義為詞語(yǔ),詞性根據(jù)類(lèi)別分別進(jìn)行規(guī)定,在這種標(biāo)注規(guī)范的情況下,數(shù)學(xué)領(lǐng)域的特有元素可能會(huì)存在數(shù)據(jù)稀疏性問(wèn)題,如大多數(shù)公式在語(yǔ)料庫(kù)中出現(xiàn)次數(shù)會(huì)非常低;因此,在進(jìn)行中文分詞之前,我們首先將這些數(shù)學(xué)領(lǐng)域特有內(nèi)容根據(jù)其所屬類(lèi)別變換為相應(yīng)的中文詞語(yǔ),有利于進(jìn)行之后的中文分詞,使分詞的準(zhǔn)確性提高。作為上述方案的進(jìn)一步優(yōu)化,所述步驟s2具體包括以下步驟:s21:根據(jù)基于深度學(xué)習(xí)的特征學(xué)習(xí)方法所需的未標(biāo)注語(yǔ)料,收集相應(yīng)的初等數(shù)學(xué)問(wèn)題以及對(duì)應(yīng)的答案文本,并利用訓(xùn)練初始的單詞向量表示其形式;s22:利用4-tags標(biāo)記,對(duì)訓(xùn)練語(yǔ)料做預(yù)處理,分別用字母“b”表示詞首,字母“e”表示詞尾,字母“m”表示詞中,字母“s”表示單字詞;并將數(shù)學(xué)表達(dá)式或特殊符號(hào)識(shí)別為一個(gè)詞;s23:利用語(yǔ)言模型最大化的方法進(jìn)行訓(xùn)練,并加入句子所在篇章的相關(guān)信息。本方案中所述的深度學(xué)習(xí)(deeplearning)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù),例如圖像、聲音和文本。本發(fā)明首先針對(duì)基于深度學(xué)習(xí)的特征學(xué)習(xí)方法所需的海量未標(biāo)注語(yǔ)料問(wèn)題,通過(guò)網(wǎng)絡(luò)題庫(kù)收集一萬(wàn)多道初等數(shù)學(xué)問(wèn)題以及對(duì)應(yīng)的答案文本,利用其訓(xùn)練初始的單詞向量表示形式;然后采用傳統(tǒng)的4-tags標(biāo)記法,對(duì)訓(xùn)練語(yǔ)料做預(yù)處理,分別用b代表詞首,e代表詞尾,m代表詞中,s代表單字詞;再利用語(yǔ)言模型最大化的方法進(jìn)行訓(xùn)練,同時(shí)加入句子所在篇章的信息來(lái)提高單詞向量學(xué)習(xí)的準(zhǔn)確度,由于單詞向量學(xué)習(xí)的計(jì)算復(fù)雜度極大,所以采用大規(guī)模數(shù)據(jù)處理框架進(jìn)行并行學(xué)習(xí)。當(dāng)分詞后的結(jié)果不符合初等數(shù)學(xué)規(guī)范時(shí)則會(huì)進(jìn)行相應(yīng)的分詞后處理,對(duì)于分詞錯(cuò)誤的句子則會(huì)根據(jù)上下文語(yǔ)境和數(shù)學(xué)知識(shí)重新進(jìn)行分詞,使得分詞結(jié)果可以很好的使用于數(shù)學(xué)領(lǐng)域。作為上述方案的更進(jìn)一步優(yōu)化,所述步驟s3具體包括以下步驟:s31、根據(jù)上下文語(yǔ)境和數(shù)學(xué)規(guī)范,對(duì)分詞錯(cuò)誤的句子進(jìn)行重新分詞,依次把分詞錯(cuò)誤的前一個(gè)詞段的字詞進(jìn)行入棧操作;s32、一邊出棧一邊和分詞錯(cuò)誤的后一個(gè)詞段的字詞進(jìn)行匹配;s33、當(dāng)發(fā)現(xiàn)數(shù)學(xué)中的特殊符號(hào)配對(duì)成功時(shí),則證明原句的處理錯(cuò)誤,需要把分詞錯(cuò)誤的前一個(gè)詞段和后一個(gè)詞段合并到一起,成為一個(gè)詞。在本方案中,對(duì)于分詞錯(cuò)誤的句子則會(huì)根據(jù)上下文語(yǔ)境和數(shù)學(xué)知識(shí)重新進(jìn)行分詞,依次把分詞錯(cuò)誤的前一個(gè)詞段的字詞進(jìn)行入棧操作,然后一邊出棧一邊和分詞錯(cuò)誤的后一個(gè)詞段的字詞進(jìn)行匹配,當(dāng)發(fā)現(xiàn)數(shù)學(xué)中的特殊符號(hào)(“()”,“{}”,“[]”)配對(duì)成功,說(shuō)明原句的處理有錯(cuò)誤,則需要把分詞錯(cuò)誤的前一個(gè)詞段和后一個(gè)詞段合并到一起,使之成為一個(gè)詞。作為上述方案的更進(jìn)一步優(yōu)化,所述的分詞方法采用條件隨機(jī)場(chǎng)開(kāi)源工具crf進(jìn)行分詞操作。本方案的條件隨機(jī)場(chǎng)(crf)是一種常用于模式識(shí)別和機(jī)器學(xué)習(xí)的統(tǒng)計(jì)建模方法,主要用于結(jié)構(gòu)化預(yù)測(cè);crf是一種有區(qū)別的無(wú)向概率圖形模型,它通常用于標(biāo)記或解析順序數(shù)據(jù),如自然語(yǔ)言文本或生物序列和計(jì)算機(jī)視覺(jué),在計(jì)算機(jī)視覺(jué)中,crf經(jīng)常用于對(duì)象識(shí)別和圖像分割;使用普通分類(lèi)器預(yù)測(cè)單個(gè)樣本的標(biāo)簽時(shí)一般不考慮“相鄰”樣本,但是crf可以考慮上下文,例如,線(xiàn)性鏈crf(其在自然語(yǔ)言處理中流行)預(yù)測(cè)輸入樣本的序列的標(biāo)簽序列。本發(fā)明的有益效果是:1、本發(fā)明利用語(yǔ)言模型最大化的方法進(jìn)行訓(xùn)練,同時(shí)加入句子所在篇章的信息來(lái)提高單詞向量學(xué)習(xí)的準(zhǔn)確度,進(jìn)而能被計(jì)算機(jī)所識(shí)別,便于資源的共享利用。2、本發(fā)明在常規(guī)的中文分詞規(guī)范的基礎(chǔ)上,將公式、變量、符號(hào)等也定義為詞語(yǔ),詞性根據(jù)類(lèi)別分別進(jìn)行規(guī)定,研究出了模型的領(lǐng)域自適應(yīng)方法,利用少量經(jīng)過(guò)分詞和詞性標(biāo)記的數(shù)學(xué)標(biāo)注語(yǔ)料庫(kù),對(duì)通過(guò)新聞?wù)Z料進(jìn)行訓(xùn)練過(guò)的模型進(jìn)行切換;可以充分利用已有訓(xùn)練語(yǔ)料的信息,結(jié)合少量標(biāo)注語(yǔ)料得到領(lǐng)域分詞和詞性標(biāo)注模型。3、本發(fā)明采用傳統(tǒng)的4-tags標(biāo)記法,對(duì)訓(xùn)練語(yǔ)料做預(yù)處理,分別用b代表詞首,e代表詞尾,m代表詞中,s代表單字詞,當(dāng)分詞后的結(jié)果不符合初等數(shù)學(xué)規(guī)范時(shí)則會(huì)進(jìn)行相應(yīng)的分詞后處理,對(duì)于分詞錯(cuò)誤的句子則會(huì)根據(jù)上下文語(yǔ)境和數(shù)學(xué)知識(shí)重新進(jìn)行分詞,使得分詞結(jié)果可以很好的使用于數(shù)學(xué)領(lǐng)域。附圖說(shuō)明圖1是本發(fā)明實(shí)施例所述面向初等數(shù)學(xué)領(lǐng)域的分詞方法的流程圖;圖2是本發(fā)明實(shí)施例對(duì)應(yīng)表2在未進(jìn)行后處理程序的中文分詞流程圖;圖3是本發(fā)明實(shí)施例對(duì)應(yīng)表3在進(jìn)行了后處理程序的中文分詞流程圖。具體實(shí)施方式下面結(jié)合附圖對(duì)本發(fā)明的實(shí)施例進(jìn)行詳細(xì)說(shuō)明。實(shí)施例如圖1所示,一種面向初等數(shù)學(xué)領(lǐng)域的分詞方法,包括如下步驟:s1:根據(jù)初等數(shù)學(xué)中文分詞所需的分詞模型,按照中文分詞規(guī)范進(jìn)行定義,同時(shí)將公式、變量和符號(hào)定義為詞語(yǔ),并根據(jù)詞性類(lèi)別分別進(jìn)行規(guī)定;s2:利用分詞和詞性標(biāo)記后的數(shù)學(xué)標(biāo)注語(yǔ)料庫(kù),并對(duì)通過(guò)訓(xùn)練后的模型進(jìn)行切換,得到領(lǐng)域分詞和詞性標(biāo)注模型;s3:判斷分詞結(jié)果是否符合初等數(shù)學(xué)領(lǐng)域的規(guī)范,如果是,則分詞成功;如果否,則利用分詞后處理程序進(jìn)行重新分詞。在基礎(chǔ)框架方面,本發(fā)明采用大規(guī)模數(shù)據(jù)處理框架和基于深度學(xué)習(xí)的特征學(xué)習(xí)方法,利用大規(guī)模未標(biāo)注語(yǔ)料構(gòu)建特征集合,并利用特征集合結(jié)合結(jié)構(gòu)化機(jī)器學(xué)習(xí)方法來(lái)完成處理任務(wù)。針對(duì)具體任務(wù),本發(fā)明根據(jù)數(shù)學(xué)領(lǐng)域的文本特點(diǎn),并結(jié)合通用自然語(yǔ)言處理基礎(chǔ)問(wèn)題的研究成果,研究發(fā)明了面向數(shù)學(xué)領(lǐng)域的分析方法。針對(duì)初等數(shù)學(xué)中文分詞所需要的分詞模型,本發(fā)明在常規(guī)的中文分詞規(guī)范的基礎(chǔ)上,將公式、變量、符號(hào)等也定義為詞語(yǔ),詞性根據(jù)類(lèi)別分別進(jìn)行規(guī)定;然后使用自己研究的模型領(lǐng)域自適應(yīng)方法,利用少量經(jīng)過(guò)分詞和詞性標(biāo)記的數(shù)學(xué)標(biāo)注語(yǔ)料庫(kù),對(duì)通過(guò)新聞?wù)Z料進(jìn)行訓(xùn)練過(guò)的模型進(jìn)行切換;此方法可以充分利用已有訓(xùn)練語(yǔ)料的信息,結(jié)合少量標(biāo)注語(yǔ)料得到領(lǐng)域分詞和詞性標(biāo)注模型;再把分詞當(dāng)作字的詞位分類(lèi)問(wèn)題,用b代表詞首,e代表詞尾,m代表詞中,s代表單字詞,將b和e之間的字以及s單字構(gòu)成分詞;當(dāng)分詞結(jié)果不符合初等數(shù)學(xué)領(lǐng)域的規(guī)范時(shí),使用分詞后處理程序進(jìn)行重新分詞,綜合利用了統(tǒng)計(jì)和規(guī)則的方法。在其中一個(gè)實(shí)施例中,所述步驟s1具體包括以下步驟:在進(jìn)行中文分詞之前,將數(shù)學(xué)領(lǐng)域中數(shù)據(jù)稀疏的元素根據(jù)其所屬類(lèi)別變換為相應(yīng)的中文詞語(yǔ)。將公式、變量、符號(hào)等也定義為詞語(yǔ),詞性根據(jù)類(lèi)別分別進(jìn)行規(guī)定,在這種標(biāo)注規(guī)范的情況下,數(shù)學(xué)領(lǐng)域的特有元素可能會(huì)存在數(shù)據(jù)稀疏性問(wèn)題,如大多數(shù)公式在語(yǔ)料庫(kù)中出現(xiàn)次數(shù)會(huì)非常低;因此,在進(jìn)行中文分詞之前,我們首先將這些數(shù)學(xué)領(lǐng)域特有內(nèi)容根據(jù)其所屬類(lèi)別變換為相應(yīng)的中文詞語(yǔ),有利于進(jìn)行之后的中文分詞,使分詞的準(zhǔn)確性提高。在另一個(gè)實(shí)施例中,所述步驟s2具體包括以下步驟:s21:根據(jù)基于深度學(xué)習(xí)的特征學(xué)習(xí)方法所需的未標(biāo)注語(yǔ)料,收集相應(yīng)的初等數(shù)學(xué)問(wèn)題以及對(duì)應(yīng)的答案文本,并利用訓(xùn)練初始的單詞向量表示其形式;s22:利用4-tags標(biāo)記,對(duì)訓(xùn)練語(yǔ)料做預(yù)處理,分別用字母“b”表示詞首,字母“e”表示詞尾,字母“m”表示詞中,字母“s”表示單字詞;并將數(shù)學(xué)表達(dá)式或特殊符號(hào)識(shí)別為一個(gè)詞;s23:利用語(yǔ)言模型最大化的方法進(jìn)行訓(xùn)練,并加入句子所在篇章的相關(guān)信息。本方案中所述的深度學(xué)習(xí)(deeplearning)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù),例如圖像、聲音和文本。本發(fā)明首先針對(duì)基于深度學(xué)習(xí)的特征學(xué)習(xí)方法所需的海量未標(biāo)注語(yǔ)料問(wèn)題,通過(guò)網(wǎng)絡(luò)題庫(kù)收集一萬(wàn)多道初等數(shù)學(xué)問(wèn)題以及對(duì)應(yīng)的答案文本,利用其訓(xùn)練初始的單詞向量表示形式;然后采用傳統(tǒng)的4-tags標(biāo)記法,對(duì)訓(xùn)練語(yǔ)料做預(yù)處理,分別用b代表詞首,e代表詞尾,m代表詞中,s代表單字詞;再利用語(yǔ)言模型最大化的方法進(jìn)行訓(xùn)練,同時(shí)加入句子所在篇章的信息來(lái)提高單詞向量學(xué)習(xí)的準(zhǔn)確度,由于單詞向量學(xué)習(xí)的計(jì)算復(fù)雜度極大,所以采用大規(guī)模數(shù)據(jù)處理框架進(jìn)行并行學(xué)習(xí)。當(dāng)分詞后的結(jié)果不符合初等數(shù)學(xué)規(guī)范時(shí)則會(huì)進(jìn)行相應(yīng)的分詞后處理,對(duì)于分詞錯(cuò)誤的句子則會(huì)根據(jù)上下文語(yǔ)境和數(shù)學(xué)知識(shí)重新進(jìn)行分詞,使得分詞結(jié)果可以很好的使用于數(shù)學(xué)領(lǐng)域。在另一個(gè)實(shí)施例中,所述步驟s3具體包括以下步驟:s31、根據(jù)上下文語(yǔ)境和數(shù)學(xué)規(guī)范,對(duì)分詞錯(cuò)誤的句子進(jìn)行重新分詞,依次把分詞錯(cuò)誤的前一個(gè)詞段的字詞進(jìn)行入棧操作;s32、一邊出棧一邊和分詞錯(cuò)誤的后一個(gè)詞段的字詞進(jìn)行匹配;s33、當(dāng)發(fā)現(xiàn)數(shù)學(xué)中的特殊符號(hào)配對(duì)成功時(shí),則證明原句的處理錯(cuò)誤,需要把分詞錯(cuò)誤的前一個(gè)詞段和后一個(gè)詞段合并到一起,成為一個(gè)詞。在本方案中,對(duì)于分詞錯(cuò)誤的句子則會(huì)根據(jù)上下文語(yǔ)境和數(shù)學(xué)知識(shí)重新進(jìn)行分詞,依次把分詞錯(cuò)誤的前一個(gè)詞段的字詞進(jìn)行入棧操作,然后一邊出棧一邊和分詞錯(cuò)誤的后一個(gè)詞段的字詞進(jìn)行匹配,當(dāng)發(fā)現(xiàn)數(shù)學(xué)中的特殊符號(hào)(“()”,“{}”,“[]”)配對(duì)成功,說(shuō)明原句的處理有錯(cuò)誤,則需要把分詞錯(cuò)誤的前一個(gè)詞段和后一個(gè)詞段合并到一起,使之成為一個(gè)詞。在另一個(gè)實(shí)施例中,所述的分詞方法采用條件隨機(jī)場(chǎng)開(kāi)源工具crf進(jìn)行分詞操作。本方案的條件隨機(jī)場(chǎng)(crf)是一種常用于模式識(shí)別和機(jī)器學(xué)習(xí)的統(tǒng)計(jì)建模方法,主要用于結(jié)構(gòu)化預(yù)測(cè);crf是一種有區(qū)別的無(wú)向概率圖形模型,它通常用于標(biāo)記或解析順序數(shù)據(jù),如自然語(yǔ)言文本或生物序列和計(jì)算機(jī)視覺(jué),在計(jì)算機(jī)視覺(jué)中,crf經(jīng)常用于對(duì)象識(shí)別和圖像分割;使用普通分類(lèi)器預(yù)測(cè)單個(gè)樣本的標(biāo)簽時(shí)一般不考慮“相鄰”樣本,但是crf可以考慮上下文,例如,線(xiàn)性鏈crf(其在自然語(yǔ)言處理中流行)預(yù)測(cè)輸入樣本的序列的標(biāo)簽序列。如圖2和圖3所述本發(fā)明的中文分詞流程圖,把分詞當(dāng)作了字的詞位分類(lèi)問(wèn)題,通常用b代表詞首,e代表詞尾,m代表詞中,s代表單字詞,將b和e之間的字,以及s單字構(gòu)成分詞,綜合了統(tǒng)計(jì)和規(guī)則的方法經(jīng)進(jìn)行分詞,具體步驟如下:a、輸入一道初等數(shù)學(xué)題目;b、利用訓(xùn)練好的模型對(duì)題目進(jìn)行詞位標(biāo)記(b代表詞首,e代表詞尾,m代表詞中,s代表單字詞);c、將分詞(將b和e之間的字以及s單字構(gòu)成分詞)后的結(jié)果保存到設(shè)置好的數(shù)據(jù)結(jié)構(gòu)中方便使用;d、在使用分詞后的數(shù)學(xué)題目提取關(guān)系和數(shù)據(jù)時(shí)發(fā)現(xiàn)分詞結(jié)果不符合初等數(shù)學(xué)規(guī)范(分詞時(shí)進(jìn)行了錯(cuò)誤的處理),則進(jìn)行步驟e的分詞后處理;e、對(duì)于分詞不符合初等數(shù)學(xué)規(guī)范的句子(數(shù)學(xué)表達(dá)式、括號(hào)之類(lèi)的)重新進(jìn)行分詞,利用棧來(lái)實(shí)現(xiàn)括號(hào)的匹配,從而避免將一對(duì)括號(hào)(“()”,“{}”,“[]”)拆分開(kāi)來(lái)。下面以實(shí)例詳細(xì)說(shuō)明一種面向初等數(shù)學(xué)領(lǐng)域的分詞方法的流程:這里選擇一道題進(jìn)行輸入,題目信息為:求方程y=3x2+2x在區(qū)間[1,2]上的最大值。1、使用訓(xùn)練好的crf模型進(jìn)行詞位標(biāo)注(其中第一列是序號(hào),第二列是題干,第三列是詞位標(biāo)記的信息),結(jié)果如表1所示:表12、將b和e之間的字,以及s單字構(gòu)成一個(gè)詞語(yǔ),分詞的結(jié)果如表2所示(其中第一列為序號(hào),第二列是詞位標(biāo)記,第三列是分詞結(jié)果):表23、因?yàn)橛?xùn)練的模型是多樣化的,所以進(jìn)行詞位標(biāo)注的時(shí)候也是多樣化的,不能夠保證分詞的結(jié)果一定符合現(xiàn)實(shí)需要,所以上述題目還可能會(huì)有如表3所示的分法:1s求2be方程3bmmmmmey=3x2+2x4s在5be區(qū)間6bme[1,7be2]8s上9s的10bme最大值11s。表3明顯上文中的分詞結(jié)果(具體見(jiàn)序號(hào)6、7)不符合數(shù)學(xué)領(lǐng)域的規(guī)范(因?yàn)榘岩粋€(gè)區(qū)間拆分開(kāi)了),所以需要對(duì)分詞結(jié)果進(jìn)行重新分詞,依次把序號(hào)6所代表的字詞進(jìn)行入棧操作,然后一邊出棧一邊和序號(hào)7所代表的字詞進(jìn)行字詞匹配,可以發(fā)現(xiàn)序號(hào)6所代表的字詞中的“[”和序號(hào)7所代表的字詞中的“]”號(hào)配對(duì),說(shuō)明原句的處理有錯(cuò)誤,需要把序號(hào)6、7所代表的字詞合并為一個(gè)長(zhǎng)的分詞結(jié)果(正確的分詞結(jié)果如表2所示)。以上所述實(shí)施例僅表達(dá)了本發(fā)明的具體實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)本發(fā)明專(zhuān)利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。當(dāng)前第1頁(yè)12
      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1