專利名稱:用于從數(shù)學(xué)語句提取語義距離并且按照語義距離對數(shù)學(xué)語句分類的方法、用于該方法的 ...的制作方法
技術(shù)領(lǐng)域:
本公開在一些方面涉及用于從數(shù)學(xué)語句提取語義距離并且按照語義距離對數(shù)學(xué)語句分類的方法、用于該方法的裝置和計(jì)算機(jī)可讀記錄介質(zhì)。更具體地,本公開涉及一種用于當(dāng)搜索所輸入的數(shù)學(xué)語句以給出存儲的數(shù)學(xué)內(nèi)容之間的相似性時(shí)、從由自然語言單詞和標(biāo)準(zhǔn)化數(shù)學(xué)公式中的至少一種組成的數(shù)學(xué)語句提取語義距離并且按照語義距離對數(shù)學(xué)語句分類的方法、用于該方法的裝置和計(jì)算機(jī)可讀記錄介質(zhì)。
背景技術(shù):
這一部分中的說明僅僅提供與本公開有關(guān)的背景信息而可能不構(gòu)成現(xiàn)有技術(shù)。人類的單詞很豐富并且復(fù)雜,并且包括大量的具有復(fù)雜的語法構(gòu)造和語境意義的詞匯,但是機(jī)器或者軟件應(yīng)用通常需要根據(jù)特定格式或者規(guī)則來輸入數(shù)據(jù)。在此,輸入的自然語言單詞可以用于幾乎全部與人類交互的軟件應(yīng)用。通常,自然語言處理方法包括將自然單詞劃分為標(biāo)記(Token)并且將所劃分的標(biāo)記映射到由軟件應(yīng)用提供的一條或者多條運(yùn)算信息或者動作,其中每一個(gè)軟件應(yīng)用被設(shè)定為具有一系列獨(dú)特動作。也就是說,自然語言處理方法適用于基于軟件開發(fā)者對于用于解析輸入的代碼的編寫,將所輸入的自然單詞映射到適合于每一個(gè)應(yīng)用的適當(dāng)動作。然而,自然語言處理方法可能既不能識別數(shù)學(xué)公式,也不能通過算出用于搜索數(shù)學(xué)語句的查詢與所存儲的數(shù)學(xué)語句之間的相似程度來提供搜索結(jié)果。
發(fā)明內(nèi)容
技術(shù)問題
`
本公開的一個(gè)方面適用于自動提取由自然單詞和標(biāo)準(zhǔn)化數(shù)學(xué)公式中的至少一種組成的數(shù)學(xué)語句中包含的語義信息。技術(shù)方案本公開的實(shí)施方式提供一種用于從數(shù)學(xué)語句提取語義距離并且按照語義距離對數(shù)學(xué)語句分類的裝置,所述裝置包括:用戶查詢輸入單元,所述用戶查詢輸入單元用于從用戶接收查詢;查詢解析單元,所述查詢解析單元用于提取所輸入的用戶查詢中包括的至少一個(gè)關(guān)鍵詞;索引信息單元,所述索引信息單元用于對包括語義信息的自然語言標(biāo)記和數(shù)學(xué)公式標(biāo)記中的一個(gè)或多個(gè)編索引;語義距離提取單元,所述語義距離提取單元用于通過測量所提取的關(guān)鍵詞和被編索引的語義信息之間的語義距離來獲取相似性。一種用于從數(shù)學(xué)語句提取語義距離并且按照語義距離對數(shù)學(xué)語句分類的裝置還可包括:信息輸入單元,所述信息輸入單元用于接收包括自然單詞和數(shù)學(xué)公式中的至少一種的復(fù)合語句;語義解析單元,所述語義解析單元用于從所述復(fù)合語句分別劃分自然單詞和數(shù)學(xué)公式,并且用于解析構(gòu)成所劃分的自然單詞和數(shù)學(xué)公式的每一條構(gòu)造信息來生成語義信息,從而生成自然語言標(biāo)記和數(shù)學(xué)公式標(biāo)記。
所述語義解析單元可將所述復(fù)合語句轉(zhuǎn)換為簡單語句的邏輯組合以生成語義信
肩、O 所述語義解析單元可通過對自然單詞標(biāo)記化來生成自然語言標(biāo)記,通過基于自然語言標(biāo)記過濾停用詞來生成過濾了停用詞的數(shù)據(jù),通過對過濾了停用詞的數(shù)據(jù)執(zhí)行重復(fù)去除過濾來生成過濾了重復(fù)的數(shù)據(jù),并且將過濾了重復(fù)的數(shù)據(jù)與具有所獲取的預(yù)定義含義的運(yùn)算信息進(jìn)行匹配以提取匹配作為語義信息。所述語義解析單元可將數(shù)學(xué)公式轉(zhuǎn)換為樹形,對樹形的數(shù)學(xué)公式執(zhí)行遍歷處理,對經(jīng)遍歷處理的數(shù)學(xué)公式執(zhí)行標(biāo)記化為數(shù)學(xué)公式標(biāo)記,以提取數(shù)學(xué)公式標(biāo)記作為語義信
肩、O語義信息可包括復(fù)合語句的運(yùn)算信息,所述運(yùn)算信息是通過參照一規(guī)則并且通過將自然語言標(biāo)記和數(shù)學(xué)公式標(biāo)記與所述規(guī)則進(jìn)行比較而提取的,所述規(guī)則具有自然單詞和數(shù)學(xué)公式中的至少一種的組合,相應(yīng)的運(yùn)算信息組合到所述組合。所述運(yùn)算信息可包括自然語言標(biāo)記的結(jié)構(gòu)含義、自然語言標(biāo)記的方向性和被自然語言標(biāo)記影響的點(diǎn)。所述方向性可表示所述運(yùn)算信息是與自然語言標(biāo)記的一個(gè)或多個(gè)前面的數(shù)學(xué)公式相關(guān)聯(lián)、與自然語言標(biāo)記的一個(gè)或多個(gè)隨后的數(shù)學(xué)公式相關(guān)聯(lián)、還是獨(dú)立。語義信息可包括通過將自然語言標(biāo)記的對象數(shù)學(xué)公式與數(shù)學(xué)公式標(biāo)記中的一個(gè)相匹配而生成的數(shù)學(xué)對象。所述查詢解析單元可從用戶查詢分別劃分自然單詞和數(shù)學(xué)公式,解析構(gòu)成所劃分的自然單詞和數(shù)學(xué)公式的每 一條構(gòu)造信息來生成語義信息,并且提取包括自然語言標(biāo)記和數(shù)學(xué)公式標(biāo)記的關(guān)鍵詞。所述語義距離可被生成為與對于所提取的關(guān)鍵詞的語義元素和被編索引的語義信息的語義元素共同的共同語義元素的數(shù)量成正比的值。語義元素可具有針對每一個(gè)語義元素設(shè)定的權(quán)重。所述語義距離可與等同地存在于所提取的關(guān)鍵詞和被編索引的語義信息中的語義元素的權(quán)重的和成反比,可與所提取的關(guān)鍵詞和被編索引的語義信息中包括的總計(jì)語義元素的權(quán)重的和成正比。本公開的另一個(gè)實(shí)施方式提供一種用于從數(shù)學(xué)語句提取語義距離并且按照語義距離對數(shù)學(xué)語句分類的方法,所述方法包括:從用戶接收查詢,以完成用戶查詢輸入;提取所輸入的用戶查詢中包括的至少一個(gè)關(guān)鍵詞,以完成查詢解析;參照通過對包括語義信息的自然語言標(biāo)記和數(shù)學(xué)公式標(biāo)記中的一個(gè)或多個(gè)編索引而生成的索引信息,通過測量所提取的關(guān)鍵詞和被編索引的語義信息之間的語義距離獲取相似性,以完成語義提取。本公開的又一個(gè)實(shí)施方式提供一種非瞬時(shí)性計(jì)算機(jī)可讀記錄介質(zhì),其中存儲有包括計(jì)算機(jī)可運(yùn)行指令的程序,當(dāng)所述指令被處理器運(yùn)行時(shí),使所述處理器執(zhí)行用于從數(shù)學(xué)語句提取語義距離并且按照語義距離對數(shù)學(xué)語句分類的方法的每一個(gè)處理。有益效果根據(jù)以上描述的本公開,通過提取由自然單詞和標(biāo)準(zhǔn)化數(shù)學(xué)公式中的至少一種組成的數(shù)學(xué)語句(單一或者復(fù)合語句)中包含的語義距離,可以在搜索輸入的數(shù)學(xué)語句時(shí)獲取存儲的數(shù)學(xué)內(nèi)容之間的相似性。
此外,通過將輸入的復(fù)合語句轉(zhuǎn)換為單一語句的邏輯組合并且生成語義信息,可以有效地提取語義信息。此外,通過定義由數(shù)學(xué)語句表示并且描述動作的代表性關(guān)鍵詞,通過當(dāng)輸入各個(gè)語句的動作表示時(shí)匹配代表性關(guān)鍵詞,可以提取數(shù)學(xué)語句的運(yùn)算信息或者動作。附加地,通過識別不被自然語言處理方法識別的數(shù)學(xué)公式,基于通過算出用于搜索數(shù)學(xué)語句的查詢與所存儲的數(shù)學(xué)語句之間的相似性而提供的搜索結(jié)果,還提供了不能被根據(jù)現(xiàn)有技術(shù)的搜索方法搜索的數(shù)學(xué)內(nèi)容的搜索環(huán)境。
圖1是根據(jù)本公開的實(shí)施方式的用于對數(shù)學(xué)語句分類的裝置的示意框圖。圖2是根據(jù)本公開的實(shí)施方式的復(fù)合語句的樹形表示的示例性圖。圖3是針對“ (S1 H S2)=> ( S3 U S4) ”的XML表示的圖。圖4是基于數(shù)學(xué)語句表示方法的語句結(jié)構(gòu)的原始類型的圖。圖5是其中用動作和語義描述來表示數(shù)學(xué)語句的示例的圖。圖6是其中用動作和語義描述來表示兩個(gè)數(shù)學(xué)公式的示例的圖。圖7是根據(jù)本公開的另一個(gè)實(shí)施方式的用于對數(shù)學(xué)語句分類的方法的流程圖。圖8是針對被編索引的數(shù)學(xué)語句的每一個(gè)語義元素設(shè)定的布爾值的圖。
具體實(shí)施例方式
圖1是根據(jù)本公開的實(shí)施方式的用于對數(shù)學(xué)語句分類的裝置的示意構(gòu)造框圖。根據(jù)本公開的實(shí)施方式的用于對數(shù)學(xué)語句分類的裝置可以被配置為包括信息輸入單元110、語義解析單元120、索引信息單元130、用戶查詢輸入單元140、查詢解析單元150、語義距離提取單元160和結(jié)果提供單元170。信息輸入單元110接收自然單詞和數(shù)學(xué)公式中的至少一種的組合數(shù)據(jù)(復(fù)合語句)。在此,信息輸入單元可以通過用戶的操縱或者命令直接接收自然單詞/數(shù)學(xué)公式組合數(shù)據(jù),但是本公開不一定限于此,因此可以從單獨(dú)的外部服務(wù)器接收組合有自然單詞和數(shù)學(xué)公式中的至少一種的文檔數(shù)據(jù)。圖2是根據(jù)本公開的實(shí)施方式的復(fù)合語句的樹形表示的示例性圖。如圖2所例示的,為了繪制數(shù)學(xué)內(nèi)容可采取的結(jié)構(gòu)的樹形表示,在保持詞序的有意義的重要信息完整的同時(shí),將構(gòu)造相同數(shù)學(xué)內(nèi)容(根節(jié)點(diǎn))的子節(jié)點(diǎn)劃分為自然語言和數(shù)學(xué)公式中的至少一種。此外,通過組織語句的不同順序,每一個(gè)自然單詞具有特殊含義。也就是說,很多數(shù)學(xué)內(nèi)容可以具有基于自然語言的合成數(shù)學(xué)公式的結(jié)構(gòu)。例如,數(shù)學(xué)內(nèi)容可以具有以下結(jié)構(gòu):其中自然單詞和隨后的數(shù)學(xué)公式在特定條件下連接,提供關(guān)于隨后的數(shù)學(xué)公式是否被定義的信息等。可以利用各個(gè)節(jié)點(diǎn)處的自然單詞以及單詞和它們的關(guān)聯(lián)物的含義的集成來提取語義重要性。也就是說,為了區(qū)分關(guān)于數(shù)學(xué)內(nèi)容是否需要求解的動作或者描述相應(yīng)的數(shù)學(xué)公式等,可以通過按照全部自然單詞的含義聚合地算出全部自然單詞來獲得每一個(gè)自然語言標(biāo)記的方向性。在此,方向性表示數(shù)學(xué)內(nèi)容內(nèi)的自然語言標(biāo)記是與相應(yīng)自然語言標(biāo)記前面的公式相關(guān)聯(lián)、與后面的公式相關(guān)聯(lián)、還是獨(dú)立,等等。語義解析單元120從組合數(shù)據(jù)單獨(dú)地劃分自然單詞和數(shù)學(xué)公式,并且解析構(gòu)造所劃分的自然單詞和數(shù)學(xué)公式的每一個(gè)構(gòu)造信息,以生成語義信息并且生成自然語言標(biāo)記和數(shù)學(xué)公式標(biāo)記。也就是說,語義解析單元120從組合數(shù)據(jù)單獨(dú)地劃分自然單詞和數(shù)學(xué)公式,并且解析構(gòu)造所劃分的自然單詞和數(shù)學(xué)公式的每一條構(gòu)造信息,以生成語義信息。在此,語義信息可以包括動作和數(shù)學(xué)對象。詳細(xì)描述語義解析單元120的操作,語義解析單元120從組合數(shù)據(jù)單獨(dú)地劃分自然單詞和數(shù)學(xué)公式。也就是說,當(dāng)通過信息輸入單元110輸入了自然單詞和數(shù)學(xué)公式的組合數(shù)據(jù)時(shí),語義解析單元120單獨(dú)地劃分并且識別組合數(shù)據(jù)中包含的自然單詞和數(shù)學(xué)公式。語義解析單元120解析構(gòu)造所劃分的自然單詞的每一個(gè)構(gòu)造信息并標(biāo)記化(Tokenization)自然語言標(biāo)記以生成自然單詞,基于自然語言標(biāo)記過濾停用詞以生成停用詞過濾數(shù)據(jù),對停用詞過濾數(shù)據(jù)進(jìn)行重復(fù)去除過濾以生成重復(fù)去除過濾數(shù)據(jù),并且將預(yù)定義的有意義的動作與重復(fù)去除過濾數(shù)據(jù)相匹配。在此,標(biāo)記指的是可在連續(xù)語句中被區(qū)分的單位,標(biāo)記化指的是將自然單詞變?yōu)榭梢员挥糜趯?shù)學(xué)語句分類的裝置100理解的單詞單位的處理。更詳細(xì)地描述本公開的實(shí)施方式的標(biāo)記化,標(biāo)記化主要劃分為自然語言標(biāo)記化和數(shù)學(xué)公式標(biāo)記化。自然語言標(biāo)記化指的是將與通過基于空格劃分組合數(shù)據(jù)(數(shù)學(xué)問題或者復(fù)合語句)中包括的自然單詞而獲得的結(jié)果相對應(yīng)的每一個(gè)單詞識別為自然語言標(biāo)記的處理。另外,數(shù)學(xué)公式標(biāo)記化指的是將通過解析組合數(shù)據(jù)中包含的數(shù)學(xué)公式獲得的各個(gè)單位信息識別為數(shù)學(xué)公式標(biāo)記的處理。[不例 l]Find the function value9y3+8y2-4y-9with y=-l例如,與[示例I]中的自然語言標(biāo)記相對應(yīng)的信息可以是“Find”、“the”、“function”、“value”、“with”,數(shù)學(xué)公式標(biāo)記可以是多項(xiàng)式(Polynomial )、最大次數(shù)(Maxdegree=3)、項(xiàng)數(shù)(Numofterm=4)、條件(Condition, y=-l)等,這些是在通過解析提取信息之后返回的值。此外,詳細(xì)描述停用詞·過濾,停用詞指的是在解析語句或者數(shù)學(xué)公式時(shí)用于去除與不必要的標(biāo)記相對應(yīng)的部分的預(yù)定義的單詞的集合。也就是說,在[示例I]的單詞中,諸如“the”這樣的單詞(另外,a、to等)是停用詞,在系統(tǒng)中以字典形式先前定義。在此,字典指的是包括單詞的集合的列表。也就是說,語義解析單元120執(zhí)行生成自然語言標(biāo)記然后去除作為對于解析不必要的部分的停用詞的處理,其中停用詞過濾被操作以防止當(dāng)數(shù)學(xué)問題長(例如,描述性問題等)時(shí)在解析處理期間輸入過多標(biāo)記,并且提高系統(tǒng)的處理速度。此外,描述重復(fù)去除過濾,例如,當(dāng)存在數(shù)學(xué)問題“方程式中的一個(gè)解是3;然而,獲得方程式的另一個(gè)解?!睍r(shí),如果自然單詞被標(biāo)記化,則標(biāo)記“方程式”和“解”均可以被提取兩次。在此情況下,可以通過各自地去除關(guān)于兩個(gè)重復(fù)“方程式”的標(biāo)記和關(guān)于兩個(gè)“解”的標(biāo)記進(jìn)行重復(fù)去除過濾。語義解析單元120進(jìn)行以下重復(fù)去除過濾:從停用詞過濾數(shù)據(jù)選擇重復(fù)數(shù)據(jù),并且去除所選擇的重復(fù)數(shù)據(jù)以從自然語言標(biāo)記去除重復(fù)數(shù)據(jù),并且將對應(yīng)于所生成的重復(fù)去除數(shù)據(jù)內(nèi)的謂詞的數(shù)據(jù)與預(yù)定義的有意義的動作信息相匹配,其中動作指的是可以基于自然語言標(biāo)記或者數(shù)學(xué)公式標(biāo)記提取的概括信息。例如,可以基于[示例I]中的自然語言標(biāo)記或者數(shù)學(xué)公式標(biāo)記提取動作“解”。在此,在用于將組合數(shù)據(jù)(數(shù)學(xué)問題)定義為搜索信息或者之后解析問題之間的相似性的架構(gòu)的處理期間,在獲取與整個(gè)語句指示的代表性運(yùn)算有關(guān)的信息時(shí),將對應(yīng)于重復(fù)去除數(shù)據(jù)中的謂詞的數(shù)據(jù)與動作相匹配并且存儲被用作有用工具。此外,語義解析單元120可以將數(shù)學(xué)公式轉(zhuǎn)換為樹形,對轉(zhuǎn)換為樹形的數(shù)學(xué)公式執(zhí)行遍歷處理,并且對經(jīng)歷了遍歷處理的數(shù)學(xué)公式執(zhí)行標(biāo)記化。語義解析單元120可以將寫為數(shù)學(xué)標(biāo)記語言(Math ML)的數(shù)學(xué)公式轉(zhuǎn)換為XML樹形然后轉(zhuǎn)換為文檔對象模型(DOM)類型。語義解析單元120可以按照深度優(yōu)先搜索方法進(jìn)行遍歷,深度優(yōu)先搜索方法將構(gòu)造數(shù)學(xué)公式的構(gòu)造信息逐漸地從最低節(jié)點(diǎn)傳遞到最高節(jié)點(diǎn)。另外,詳細(xì)描述遍歷處理和深度優(yōu)先搜索,數(shù)學(xué)公式通常具有Math ML類型,其被配置為樹形。用于搜索樹的節(jié)點(diǎn)以便從樹提取信息的處理被稱為遍歷處理,并且在進(jìn)行遍歷處理時(shí)可以使用深度優(yōu)先搜索。由于用于遍歷深度優(yōu)先搜索的處理從樹根開始,前進(jìn)到子節(jié)點(diǎn),并且當(dāng)全部子節(jié)點(diǎn)的搜索結(jié)束時(shí)移動到父節(jié)點(diǎn),所以用于遍歷深度優(yōu)先搜索的處理將子節(jié)點(diǎn)中包括的全部信息傳遞到父節(jié)點(diǎn),并且就時(shí)間復(fù)雜性而言進(jìn)行與作為在節(jié)點(diǎn)之間連接的連接線的邊緣的數(shù)量相對應(yīng)的搜索,因此是有效的。此處例示了深度優(yōu)先搜索,但是本公開的實(shí)施方式不限于此。此外,語義解析單元120可以將數(shù)學(xué)內(nèi)容轉(zhuǎn)換為簡單語句的邏輯組合以生成語義信息。語義解析單元120可以將其中混合了數(shù)學(xué)公式和自然單詞的數(shù)學(xué)內(nèi)容表示為簡單語句的組合,并且可以通過由C-MathML表示的部分的語義解析來給出含義。例如,假定存在“針對x2+2x-3=0獲得滿足χ2>1的根”類型的數(shù)學(xué)語句。當(dāng)復(fù)合語句表示為簡單語句時(shí),以上公式如下。(示例2)“解((χ2+2χ-3= 0) H (χ2>1))解(二次方程H X的大于I的平方根)”如在以上示例2中,全部復(fù)合語句可以被劃分為通過簡單語句的邏輯連接符(η(與)、U (或)、 (非)、4 (如果))等連接的語句。如在以上示例中,通過示例方式描述了將復(fù)合語句劃分為簡單語句的邏輯連接符,但是本公開的實(shí)施方式不限于此,因此復(fù)合語句可以通過各種方法劃分為多個(gè)簡單語句。例如,在復(fù)合語句的XML中,可以使用〈SentenceRel〉,其作為用于描述簡單語句之間的邏輯連接的XML標(biāo)簽,表示語句之間的關(guān)系。作為可用方法,可以使用諸如MathML的〈apply〉方法。圖3是例示針對“ (S1 n S2)=> ( S3 U S4) ’,的XML表示的圖。另外,可以指定與作為語義信息而提取的動作相對應(yīng)的關(guān)鍵詞。例如,通過基于自然語言標(biāo)記和數(shù)學(xué)公式標(biāo)記從示例I的數(shù)學(xué)內(nèi)容提取稱為“解”的動作,在將數(shù)學(xué)問題定義為架構(gòu)的處理期間,關(guān)鍵詞可以具有與整個(gè)問題指示的代表性運(yùn)算有關(guān)的信息。例如,編寫者也可以使用諸如找到和回答這樣的各種措辭作為關(guān)鍵詞,例如,“找到(Χ2+2χ-3=0)的根”或者“回答(x2+2x-3=0)”等,而不是“解(χ2+2χ-3=0) ”。唯一地選擇這些關(guān)鍵詞,以防止語義重復(fù)含義。例如,措辭“找到...的根”、“找到解”、“回答”、“計(jì)算”、的值是什么”等統(tǒng)一地使用根據(jù)隨后公式之間的相似性的動作作為解。除了“解”之外,還可以存在諸如求...的值(Evaluate)、積分(Integrate)、微分(Differentiate)、因式分解(Factorize)、展開(Expand)的若干動作。因此,當(dāng)指定了可用于提取與動作相對應(yīng)的關(guān)鍵詞的各輸入項(xiàng)時(shí),可以根據(jù)表示單個(gè)含義的各輸入提取動作。此外,所提取的動作可以包括自然語言標(biāo)記的結(jié)構(gòu)含義、自然語言標(biāo)記的方向性和被自然語言標(biāo)記影響的點(diǎn)。在此,方向性可以表示動作是與自然語言標(biāo)記前面的公式相關(guān)聯(lián)、與自然語言標(biāo)記后面的公式相關(guān)聯(lián)、還是獨(dú)立。另外,根據(jù)用于表示來自數(shù)學(xué)公式的語義信息的方法,語義解析單元120例如可以將(χ2+2χ-3=0)表示為“動作(二次方程)”或者“動作(多項(xiàng)式(次數(shù)=2))”等。圖4是例示基于數(shù)學(xué)語句表示方法的語句結(jié)構(gòu)的原始類型的圖。圖4列出的語句表示類型具有代表性,但是通過解析數(shù)學(xué)問題,可以添加更復(fù)雜的類型。數(shù)學(xué)問題中包括的語義信息可以包括動作和數(shù)學(xué)對象。動作代表基本上要通過數(shù)學(xué)語句解決的對象。例如,動作是基于對相應(yīng)的數(shù)學(xué)公式語句是否解決問題、描述概念等采取動作的實(shí)際求解器的信息從問題提取的信息。按照自然語言標(biāo)記和數(shù)學(xué)公式標(biāo)記預(yù)處理的定義規(guī)則返回該信息。語義解析單元120可以包括通過匹配作為自然語言標(biāo)記的對象的數(shù)學(xué)公式而生成的數(shù)學(xué)對象,作為數(shù)學(xué)公式標(biāo)記中的語義信息。為了 提取由除了自然單詞以外還包括數(shù)學(xué)公式的復(fù)合語句組成的數(shù)學(xué)公式的實(shí)際含義并且自動地表示所提取的含義,語義解析單元120可以進(jìn)行以下:1、將數(shù)學(xué)公式標(biāo)記與自然語言標(biāo)記之間的關(guān)系構(gòu)造為規(guī)則2、讀取表示自然單詞和數(shù)學(xué)公式的語句以搜索數(shù)學(xué)語句表示的動作3、構(gòu)造數(shù)學(xué)對象數(shù)學(xué)對象用于表示數(shù)學(xué)問題中包括的每一個(gè)細(xì)化分的實(shí)體。也就是說,數(shù)學(xué)對象可以指示是否需要任何技術(shù)或者事實(shí)來解數(shù)學(xué)問題,任何類型的函數(shù)是否輸入數(shù)學(xué)問題等。對象的概念可以有助于支持?jǐn)?shù)學(xué)問題多樣性的可擴(kuò)展性。從自然單詞獲得的信息和從數(shù)學(xué)公式獲得的信息均可以是數(shù)學(xué)對象類型。作為數(shù)學(xué)對象,與諸如技術(shù)、定義、理論等的知識相對應(yīng)的信息可以被提取并且具有可擴(kuò)展性,并且當(dāng)通過問題解析存在附加的必要信息時(shí),可以形成期望類型的類別并且添加。基于數(shù)學(xué)問題語義信息,可用范圍非常寬。例如,當(dāng)特定的人希望實(shí)踐解二次方程的問題時(shí),可以基于先前提取的信息迅速提供期望信息,而不是像目前的數(shù)學(xué)問題那樣經(jīng)過比較自然單詞、解析MathML類型的全部XML并且確認(rèn)是否存在期望信息的處理。此外,動作還可以甚至在用于算出所搜索的問題之間的級別的處理中使用,并且可以幫助用戶獲得最優(yōu)的搜索結(jié)果。獲取的數(shù)學(xué)問題的動作和數(shù)學(xué)對象可以根據(jù)存儲裝置按照各種形式存儲,其可以被表示為并列、連續(xù)、嵌套型等。作為簡單語句的成分,針對用C-MathML表示的數(shù)學(xué)對象部分的語義描述可以類似于表I配置,用C-MathML表示的數(shù)學(xué)對象被劃分到〈MathObj〉標(biāo)簽,并且與多個(gè)數(shù)學(xué)對象的關(guān)系可以類似于[表I]、[表2]用〈MathRel〉標(biāo)簽表不。表I
權(quán)利要求
1.一種用于從數(shù)學(xué)語句提取語義距離并且按照語義距離對數(shù)學(xué)語句分類的裝置,所述裝置包括: 用戶查詢輸入單元,所述用戶查詢輸入單元用于從用戶接收查詢; 查詢解析單元,所述查詢解析單元用于提取所輸入的用戶查詢中包括的至少一個(gè)關(guān)鍵詞; 索引信息單元,所述索引信息單元用于對包括語義信息的自然語言標(biāo)記和數(shù)學(xué)公式標(biāo)記中的一個(gè)或多個(gè)編索引; 語義距離提取單元,所述語義距離提取單元用于通過測量所提取的關(guān)鍵詞和被編索引的語義信息之間的語義距離來獲取相似性。
2.根據(jù)權(quán)利要求1所述的裝置,所述裝置還包括: 信息輸入單元,所述信息輸入單元用于接收包括自然單詞和數(shù)學(xué)公式中的至少一種的復(fù)合語句; 語義解析單元,所述語義解析單元用于從所述復(fù)合語句分別劃分自然單詞和數(shù)學(xué)公式,并且用于解析構(gòu)成所劃分的自然單詞和數(shù)學(xué)公式的每一條構(gòu)造信息來生成語義信息,從而生成自然語言標(biāo)記和數(shù)學(xué)公式標(biāo)記。
3.根據(jù)權(quán)利要求2所述的裝置,其中,所述語義解析單元將所述復(fù)合語句轉(zhuǎn)換為簡單語句的邏輯組合以生成語義信息。
4.根據(jù)權(quán)利要求2所述的裝置,其中,所述語義解析單元通過對自然單詞標(biāo)記化來生成自然語言標(biāo)記,通過基于自然語言標(biāo)記過濾停用詞來生成過濾了停用詞的數(shù)據(jù),通過對過濾了停用詞的數(shù)據(jù)執(zhí)行重復(fù)去除過濾來生成過濾了重復(fù)的數(shù)據(jù),并且將過濾了重復(fù)的數(shù)據(jù)與具有所獲取的預(yù)定義含義的運(yùn)算信`息進(jìn)行匹配以提取匹配作為語義信息。
5.根據(jù)權(quán)利要求2所述的裝置,其中,所述語義解析單元將數(shù)學(xué)公式轉(zhuǎn)換為樹形,對樹形的數(shù)學(xué)公式執(zhí)行遍歷處理,對經(jīng)遍歷處理的數(shù)學(xué)公式執(zhí)行標(biāo)記化為數(shù)學(xué)公式標(biāo)記,以提取數(shù)學(xué)公式標(biāo)記作為語義信息。
6.根據(jù)權(quán)利要求1所述的裝置,其中,語義信息包括復(fù)合語句的運(yùn)算信息,所述運(yùn)算信息是通過參照一規(guī)則并且通過將自然語言標(biāo)記和數(shù)學(xué)公式標(biāo)記與所述規(guī)則進(jìn)行比較而提取的,所述規(guī)則具有自然單詞和數(shù)學(xué)公式中的至少一種的組合,相應(yīng)的運(yùn)算信息組合到所述組合。
7.根據(jù)權(quán)利要求6所述的裝置,其中,所述運(yùn)算信息包括自然語言標(biāo)記的結(jié)構(gòu)含義、自然語言標(biāo)記的方向性和被自然語言標(biāo)記影響的點(diǎn)。
8.根據(jù)權(quán)利要求7所述的裝置,其中,所述方向性表示所述運(yùn)算信息是與自然語言標(biāo)記的一個(gè)或多個(gè)前面的數(shù)學(xué)公式相關(guān)聯(lián)、與自然語言標(biāo)記的一個(gè)或多個(gè)隨后的數(shù)學(xué)公式相關(guān)聯(lián)、還是獨(dú)立。
9.根據(jù)權(quán)利要求1所述的裝置,其中,語義信息包括通過將自然語言標(biāo)記的對象數(shù)學(xué)公式與數(shù)學(xué)公式標(biāo)記中的一個(gè)相匹配而生成的數(shù)學(xué)對象。
10.根據(jù)權(quán)利要求1所述的裝置,其中,所述查詢解析單元從用戶查詢分別劃分自然單詞和數(shù)學(xué)公式,解析構(gòu)成所劃分的自然單詞和數(shù)學(xué)公式的每一條構(gòu)造信息來生成語義信息,并且提取包括自然語言標(biāo)記和數(shù)學(xué)公式標(biāo)記的關(guān)鍵詞。
11.根據(jù)權(quán)利要求1所述的裝置,其中,所述語義距離被生成為與對于所提取的關(guān)鍵詞的語義元素和被編索引的語義信息的語義元素共同的共同語義元素的數(shù)量成正比的值。
12.根據(jù)權(quán)利要求11所述的裝置,其中,語義元素具有針對每一個(gè)語義元素設(shè)定的權(quán)重。
13.根據(jù)權(quán)利要求1所述的裝置,其中,隨著共同語義元素變得多于所提取的關(guān)鍵詞的語義元素和被編索引的語義信息的語義元素的總計(jì),所述語義距離變短,隨著共同語義元素變得少于總計(jì)語義元素,所述語義距離變長。
14.根據(jù)權(quán)利要求1所述的裝置,其中,所述語義距離與等同地存在于所提取的關(guān)鍵詞和被編索引的語義信息中的語義元素的權(quán)重的和成反比,與所提取的關(guān)鍵詞和被編索引的語義信息中包括的總計(jì)語義元素的權(quán)重的和成正比。
15.一種用于從數(shù)學(xué)語句提取語義距離并且按照語義距離對數(shù)學(xué)語句分類的方法,所述方法包括: 從用戶接收查詢,以完成用戶查詢輸入; 提取所輸入的用戶查詢中包括的至少一個(gè)關(guān)鍵詞,以完成查詢解析; 參照通過對包括語義信息的自然語言標(biāo)記和數(shù)學(xué)公式標(biāo)記中的一個(gè)或多個(gè)編索引而生成的索引信息,通過測量所提取的關(guān)鍵詞和被編索引的語義信息之間的語義距離獲取相似性,以完成語義提取。
16.根據(jù)權(quán)利要求15所述的方法,其中,通過以下生成語義信息: 接收包括自然單詞和數(shù)學(xué)公式中的至少一種的復(fù)合語句,以完成信息輸入; 從所述復(fù)合數(shù)據(jù)分別劃分自然單詞和數(shù)學(xué)公式,并且解析構(gòu)成所劃分的自然單詞和數(shù)學(xué)公式的每一條構(gòu)造信息來生成語義信息,從而生成自然語言標(biāo)記和數(shù)學(xué)公式標(biāo)記,以完成語義解析。
17.根據(jù)權(quán)利要求16所述的方法,其中,所述語義解析包括: 將所述復(fù)合語句轉(zhuǎn)換為簡單語句的邏輯組合以生成語義信息。
18.根據(jù)權(quán)利要求16所述的方法,其中,所述語義解析包括: 通過對自然單詞標(biāo)記化來生成自然語言標(biāo)記; 通過基于自然語言標(biāo)記過濾停用詞來生成過濾了停用詞的數(shù)據(jù); 通過對過濾了停用詞的數(shù)據(jù)執(zhí)行重復(fù)去除過濾來生成過濾了重復(fù)的數(shù)據(jù); 將過濾了重復(fù)的數(shù)據(jù)與具有所獲取的預(yù)定義含義的運(yùn)算信息進(jìn)行匹配以提取匹配作為語義信息。
19.根據(jù)權(quán)利要求16所述的方法,其中,所述語義解析包括: 將數(shù)學(xué)公式轉(zhuǎn)換為樹形; 對樹形的數(shù)學(xué)公式執(zhí)行遍歷處理; 對經(jīng)遍歷處理的數(shù)學(xué)公式執(zhí)行標(biāo)記化為數(shù)學(xué)公式標(biāo)記,以提取數(shù)學(xué)公式標(biāo)記作為語義信息。
20.根據(jù)權(quán)利要求16所述的方法,其中,語義信息包括復(fù)合語句的運(yùn)算信息,所述運(yùn)算信息是通過參照一規(guī)則并且通過將自然語言標(biāo)記和數(shù)學(xué)公式標(biāo)記與所述規(guī)則進(jìn)行比較而提取的,所述規(guī)則具有自然單詞和數(shù)學(xué)公式中的至少一種的組合,相應(yīng)的運(yùn)算信息組合到所述組合。
21.根據(jù)權(quán)利要求20所述的方法,其中,所述運(yùn)算信息包括自然語言標(biāo)記的結(jié)構(gòu)含義、自然語言標(biāo)記的方向性和被自然語言標(biāo)記影響的點(diǎn)。
22.根據(jù)權(quán)利要求16所述的方法,其中,語義信息包括通過將自然語言標(biāo)記的對象數(shù)學(xué)公式與數(shù)學(xué)公式標(biāo)記中的一個(gè)相匹配而生成的數(shù)學(xué)對象。
23.根據(jù)權(quán)利要求15所述的方法,其中,所述查詢解析包括: 從用戶查詢分別劃分自然單詞和數(shù)學(xué)公式; 解析構(gòu)成所劃分的自然單詞和數(shù)學(xué)公式的每一條構(gòu)造信息來生成語義信息,并且提取包括自然語言標(biāo)記和數(shù)學(xué)公式標(biāo)記的關(guān)鍵詞。
24.根據(jù)權(quán)利要求15所述的方法,其中,所述語義距離被生成為與對于所提取的關(guān)鍵詞的語義元素和被編索引的語義信息的語義元素共同的共同語義元素的數(shù)量成正比的值。
25.根據(jù)權(quán)利要求15所述的方法,其中,隨著共同語義元素變得多于所提取的關(guān)鍵詞的語義元素加上被編索引的語義信息的語義元素,所述語義距離變短,隨著共同語義元素變得少于總計(jì)語義元素,所述語義距離變長。
26.一種非瞬時(shí)性計(jì)算機(jī)可讀記錄介質(zhì),其中存儲有包括計(jì)算機(jī)可運(yùn)行指令的程序,當(dāng)所述指令被處理器運(yùn)行時(shí),使所述處理器執(zhí)行根據(jù)權(quán)利要求15到25中的任一項(xiàng)的用于從數(shù)學(xué)語句提取語義 距離并且按照語義距離對數(shù)學(xué)語句分類的方法的每一個(gè)處理。
全文摘要
本發(fā)明的實(shí)施方式涉及一種用于從數(shù)學(xué)語句提取語義距離并且按照語義距離對數(shù)學(xué)語句分類的方法、用于該方法的裝置和計(jì)算機(jī)可讀記錄介質(zhì)。本發(fā)明的實(shí)施方式提供一種用于從數(shù)學(xué)語句提取語義距離并且按照語義距離對數(shù)學(xué)語句分類的方法、用于該方法的裝置和計(jì)算機(jī)可讀記錄介質(zhì),其中所述方法包括從用戶接收查詢的用戶查詢輸入步驟;提取所輸入的用戶查詢中包括的關(guān)鍵詞的查詢解析步驟;參照其中對包含語義信息的自然語言標(biāo)記和數(shù)學(xué)公式標(biāo)記編索引的信息,通過測量所提取的關(guān)鍵詞和語義信息之間的語義距離獲得相似性的步驟。
文檔編號G06F17/20GK103250149SQ201180059052
公開日2013年8月14日 申請日期2011年12月7日 優(yōu)先權(quán)日2010年12月7日
發(fā)明者樸根兌, 樸鏞吉, 崔炯仁, 魏南淑, 李斗錫, 孫正教, 金行文, 李東學(xué) 申請人:Sk電信有限公司, 智力科學(xué) 研究室股份公司