一種數(shù)學(xué)表達(dá)式相似距離測量方法
【專利摘要】本發(fā)明提供了一種數(shù)學(xué)表達(dá)式相似距離測量方法。本發(fā)明中的方法包括如下步驟:在數(shù)據(jù)庫中對查詢表達(dá)式進(jìn)行相容檢索,得到若干結(jié)果表達(dá)式;對查詢表達(dá)式進(jìn)行解析,同時(shí)將結(jié)果表達(dá)式中的查詢表達(dá)式替換成統(tǒng)一標(biāo)識符“\replace”,并對替換后的結(jié)果表達(dá)式進(jìn)行解析;根據(jù)表達(dá)式的解析結(jié)果,構(gòu)建每一個(gè)表達(dá)式所對應(yīng)的猶豫模糊集;根據(jù)所構(gòu)建的猶豫模糊集,計(jì)算結(jié)果表達(dá)式與查詢表達(dá)式之間的相似距離及相似度。通過本發(fā)明的方法,使得數(shù)學(xué)表達(dá)式搜索結(jié)果集的排序更加貼近查詢表達(dá)式,從而使用戶看到的檢索結(jié)果的排列順序能夠更好地反映他們對這些結(jié)果的需要程度。本發(fā)明受國家自然科學(xué)基金資助(項(xiàng)目批準(zhǔn)號:61375075)。
【專利說明】
一種數(shù)學(xué)表達(dá)式相似距離測量方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及數(shù)學(xué)信息檢索領(lǐng)域,具體地說是一種數(shù)學(xué)表達(dá)式相似距離測量方法。
【背景技術(shù)】
[0002] 隨著信息技術(shù)的普及與發(fā)展,網(wǎng)絡(luò)和數(shù)據(jù)庫中科技信息的比重日益增加,其中的 關(guān)鍵成分一一數(shù)學(xué)表達(dá)式的數(shù)量越來越多;與此同時(shí),人們從網(wǎng)絡(luò)上根據(jù)數(shù)學(xué)內(nèi)容獲取科 技信息的需求也與日倶增。數(shù)學(xué)表達(dá)式具有符號種類繁多且二維分布、運(yùn)算結(jié)構(gòu)復(fù)雜、語法 語義靈活等不同于普通文本的特性,因此,在文本信息檢索領(lǐng)域表現(xiàn)出色的主流全文搜索 引擎在數(shù)學(xué)表達(dá)式搜索方面存在較大的局限性,這使得數(shù)學(xué)內(nèi)容尤其是數(shù)學(xué)表達(dá)式的檢索 成為信息檢索技術(shù)與搜索引擎發(fā)展的一大焦點(diǎn)。
[0003] 數(shù)學(xué)表達(dá)式相似度評價(jià)是數(shù)學(xué)表達(dá)式檢索與數(shù)學(xué)搜索引擎設(shè)計(jì)和研究的重要組 成部分,是數(shù)學(xué)表達(dá)式檢索系統(tǒng)根據(jù)用戶查詢要求為其提供所需內(nèi)容過程中的最后一個(gè)環(huán) 節(jié),關(guān)系到系統(tǒng)是否能夠?qū)崿F(xiàn)檢索結(jié)果按照其滿足用戶需求的程度有序輸出?,F(xiàn)有的面向 純文本的全文搜索引擎所處理的是一維分布的文字串,而高度結(jié)構(gòu)化的數(shù)學(xué)表達(dá)式屬于由 多種符號集合組成的數(shù)學(xué)公式符號的二維分布模式,其中包含了很多利用符號之間的結(jié)構(gòu) 屬性隱性表達(dá)的運(yùn)算關(guān)系,如"a 2",利用一個(gè)比"a"小且位于其右上方的"2",隱性表達(dá)了一 種指數(shù)運(yùn)算關(guān)系。此外,數(shù)學(xué)表達(dá)式中包含了豐富的語法和語義等價(jià)變換關(guān)系,這些特點(diǎn)都 使得傳統(tǒng)的文本相似度評價(jià)方法難以應(yīng)用于數(shù)學(xué)表達(dá)式的相似度測量。
[0004] 目前,國內(nèi)外的一些研究機(jī)構(gòu)已經(jīng)開始致力于數(shù)學(xué)檢索與搜索引擎技術(shù)的研究與 開發(fā),出現(xiàn)了數(shù)學(xué)內(nèi)容檢索的原型系統(tǒng),如:DLMF Search、MathWebSearch、WikiMirs、 MathDex、LeActiveMath、EgoMath等。但現(xiàn)有的數(shù)學(xué)表達(dá)式檢索系統(tǒng)多屬聚焦于為實(shí)現(xiàn)數(shù)學(xué) 內(nèi)容的檢索而必需的索引架構(gòu)和匹配模型的研究與開發(fā),專門針對數(shù)學(xué)表達(dá)式相似度評價(jià) 的研究較為少見,一些對此有所涉及,因此,這方面的研究還有所欠缺。
[0005] 根據(jù)對數(shù)學(xué)內(nèi)容進(jìn)行相似度比較的粒度,可以將數(shù)學(xué)表達(dá)式相似度評價(jià)方法劃分 為"用戶查詢數(shù)學(xué)表達(dá)式-檢索結(jié)果集中的文檔"(簡稱"E-D")和"用戶查詢數(shù)學(xué)表達(dá)式-檢 索結(jié)果集中的數(shù)學(xué)表達(dá)式"(簡稱"E-E")兩種度量方式。
[0006] (1) "E-D"相似度評價(jià)方式
[0007] 此類相似度評價(jià)方式對用戶查詢表達(dá)式與檢索結(jié)果集中的文檔之間的數(shù)學(xué)相似 度進(jìn)行評價(jià),通過在數(shù)學(xué)檢索系統(tǒng)的返回結(jié)果集上采用類似全文檢索技術(shù)中所采用的tf_ idf算法來計(jì)算數(shù)學(xué)表達(dá)式與文檔的相關(guān)性。
[0008] 在文獻(xiàn)"A.Youssef.Methods of Relevance Ranking and Hit-content Generation in Math Search[J]·Lecture Notes in Computer Science: Towards Mechanized Mathematical Assistants,2007,4573: 393-406 ·" 中,DLMF Search這一由美 國國家標(biāo)準(zhǔn)技術(shù)研究所基于DLMF(The NIST Digital Library of Mathematical Functions)建立的數(shù)學(xué)表達(dá)式檢索系統(tǒng)被提出。它以LaTeX數(shù)學(xué)查詢語言作為處理數(shù)學(xué)表 達(dá)式的主要格式,在該系統(tǒng)的后期版本中對標(biāo)準(zhǔn)的tf-idf算法進(jìn)行改進(jìn),利用新的加權(quán)方 式代替原有的檢索詞頻率和倒排文檔頻率。通過計(jì)算用戶查詢表達(dá)式與文檔的相關(guān)性,實(shí) 現(xiàn)對檢索結(jié)果的排序。
[0009]文獻(xiàn)"]/[.1(0]11]1&861,3.八11〇&1,。.了11(3〇¥8(3]1;[,61:(3..]\^1:]1?6匕36&1'(3]10.4,八 Semantic Search Engine for Mathematics[Z].(unpublished manuscript,http:// kwarc/info/kohlhase/publications.html),2008." 中,提出了數(shù)學(xué)搜索引擎 MathWebSearch,該系統(tǒng)通過Content MathML和OpenMath對數(shù)學(xué)表達(dá)式進(jìn)行描述。在查詢階 段,提出了一種通用的語言擴(kuò)展方法并采用tf-idf方法計(jì)算待查詢表達(dá)式與文檔的相關(guān) 性。
[0010]采用tf-idf算法計(jì)算數(shù)學(xué)表達(dá)式與資源庫中文檔的相關(guān)性,對文檔進(jìn)行排序,其 主要思想是待查詢的關(guān)鍵詞在文檔中出現(xiàn)的次數(shù)越多,則關(guān)鍵詞越重要。利用tf-idf方法 對檢索結(jié)果進(jìn)行排序,僅考慮到了表達(dá)式中關(guān)鍵詞的數(shù)目,而忽略了表達(dá)式重要的二維結(jié) 構(gòu)和語義特征,這使得用戶在獲取最終的數(shù)學(xué)表達(dá)式檢索結(jié)果時(shí)的滿意程度降低。
[0011] ⑵"E-E"相似度評價(jià)方式
[0012]此類相似度評價(jià)方式對用戶查詢表達(dá)式與檢索結(jié)果集中的數(shù)學(xué)表達(dá)式之間的數(shù) 學(xué)相似度進(jìn)行評價(jià),通過提取其符號、結(jié)構(gòu)、語法和語義特征來計(jì)算用戶查詢表達(dá)式與檢索 結(jié)果表達(dá)式的相關(guān)性。
[0013] 文南犬 "R.Miner and R.Munaval 1 i . An Approach to Mathematical Search through Query Formulation and Data Normalization[J].Lecture Notes in Computer Science:Towards Mechanized Mathematical Assistants,2007,4573:342-355."提出的 MathDex是能夠?qū)崿F(xiàn)數(shù)學(xué)識別的文本搜索引擎。在索引構(gòu)建方面,MathDex將所有文檔轉(zhuǎn)換 為XHTML+MathML格式,采用N-grams方法對數(shù)學(xué)表達(dá)式建立索引并支持子表達(dá)式查詢;在匹 配算法上,為不同部分匹配到的表達(dá)式分配不同的權(quán)重,且相似度與各個(gè)域中匹配到的子 項(xiàng)數(shù)目成正比。然而,由于在基于文本的索引模型中僅包含了有限的公式結(jié)構(gòu)信息,所以, 由此計(jì)算得到的得分函數(shù)的準(zhǔn)確性還有待提高。
[0014] 文南犬 "X · Hu,L · C · Gao,Χ · Y · Lin,etc · .WikiMirs : A Mathematical Information Retrieval System for ffikipedia[C].Proceedings of the 13th ACM/IEEE-CS joint conference on Digital libraries,ACM,2013,11-20." 中提出的基于維基百科設(shè)計(jì)的數(shù) 學(xué)信息檢索系統(tǒng)WikiMirs旨在利用文本和空間結(jié)構(gòu)相似性查找相似的數(shù)學(xué)表達(dá)式,設(shè)計(jì)了 一種基于版面結(jié)構(gòu)的索引匹配模型。首先,利用分詞器提取索引關(guān)鍵字,并通過對表達(dá)式的 規(guī)范化操作來支持表達(dá)式的同義檢索。然后,分層提取子結(jié)構(gòu)和模糊子結(jié)構(gòu);最后,根據(jù)匹 配結(jié)構(gòu)在樹中的層次進(jìn)行表達(dá)式的相似度計(jì)算。并在文獻(xiàn)"X. Y. Lin,L. C.Gao,X. Hu,etc. .A Mathematics Retrieval System for Formulae in Layout Presentations[C] .Proceedings of the 37th International ACM SIGIR Conference on Research& Development in Information Retrieval .ACM,2014,697-706." 中引入Wc〇ver(Q,F(xiàn)),其中Q 為查詢表達(dá)式,F(xiàn)為匹配表達(dá)式,Wc_r(Q,F(xiàn))表示表達(dá)式Q被表達(dá)式F匹配到的關(guān)鍵字?jǐn)?shù)目占 Q 中關(guān)鍵字總數(shù)的比例,實(shí)現(xiàn)了對相似度算法的改進(jìn)。
[0015] 文南犬 "P. So jka and Μ· Li Ska.Indexing and searching mathematics in digital 1ibraries[J]·Lecture Notes in Computer Science:Intelligent Computer Mathematics,2011,6824:228-243提出了一種在網(wǎng)頁上查找數(shù)學(xué)表達(dá)式的方法,并研究 設(shè)計(jì)了一個(gè)數(shù)學(xué)檢索系統(tǒng)MIaS(Math Indexer and Searcher)。該方法基于數(shù)學(xué)表達(dá)式的 MathML表示,利用了數(shù)學(xué)子表達(dá)式的相似性。在查詢階段,該方法考慮到一個(gè)查詢可能匹配 到索引中若干個(gè)關(guān)鍵詞,然而不同的關(guān)鍵詞的重要性可能不同,因此為不同形式的匹配到 的子項(xiàng)分配不同的權(quán)重。
[0016] 由于數(shù)學(xué)表達(dá)式這一復(fù)雜二維模式在符號種類、語法、語義上與普通文本存在很 大差異,如何采取有效的理論和模型,以盡可能全面的視角依據(jù)數(shù)學(xué)表達(dá)式的多維屬性對 其進(jìn)行相似距離測量,是數(shù)學(xué)表達(dá)式相似度評價(jià)的關(guān)鍵問題。
[0017] 近年來,猶豫模糊集概念被提出,它不僅是模糊集在解決不確定性問題上的擴(kuò)展, 還能處理模糊集的多隸屬函數(shù)問題,非常適用于數(shù)學(xué)表達(dá)式的相似度評價(jià)問題。
[0018] 繼 1965年Zadeh在文獻(xiàn)"L.A.Zadeh.Fuzzy sets[J] · Information&Control,1965, 8(3): 338-353."中首次提出模糊集概念以來,2-型模糊集、η-型模糊集、直覺模糊集、區(qū)間 值模糊集等概念也被相繼提出。在此基礎(chǔ)上文獻(xiàn)"V.Torra.Hesitant Fuzzy Sets[J] ? International Journal of Intelligent Systems,2010,25(6) :529-539."首次提出了 猶豫模糊集的概念,其特點(diǎn)是允許集合中的每個(gè)元素對該集合的隸屬度有多個(gè)不同的值, 而不是像傳統(tǒng)模糊集那樣只有一個(gè)隸屬度。這樣,猶豫模糊集在出現(xiàn)由于在幾個(gè)隸屬度值 之間猶豫不定而導(dǎo)致的難以確定某一元素是否屬于某集合的問題時(shí),獨(dú)具優(yōu)勢。文獻(xiàn) "Z.S.Xu and Μ.M.Xia.Distant and Similarity Measures for Hesitant Fuzzy Sets [J] · Information Sciences ,2011,181(11): 2128-2138." 中給出了一系列的猶豫模糊集距 離測度、相似性測度、猶豫有序加權(quán)距離測度及猶豫有序加權(quán)相似性測度定義和計(jì)算方法, 討論了它們的性質(zhì)及關(guān)系;并根據(jù)距離與相似度的關(guān)系,定義了相應(yīng)的猶豫模糊集相似性 測度。文獻(xiàn)"陳樹偉,蔡麗娜.區(qū)間值猶豫模糊集[J].模糊系統(tǒng)與數(shù)學(xué),2013,27(6): 38-44 中,基于猶豫模糊集概念,提出了區(qū)間值猶豫模糊集定義。文獻(xiàn)"蔡麗娜.區(qū)間值猶豫模糊集 及其在決策中的應(yīng)用研究[D].鄭州大學(xué)碩士學(xué)位論文,2013."將其應(yīng)用到群決策中。上述 研究為猶豫模糊集的研究與應(yīng)用打下了基礎(chǔ)。
【發(fā)明內(nèi)容】
[0019] 本發(fā)明的目的就是提供一種數(shù)學(xué)表達(dá)式相似距離測量方法,以解決現(xiàn)有技術(shù)中在 對數(shù)學(xué)表達(dá)式進(jìn)行檢索時(shí)最終所得到的表達(dá)式排序結(jié)果不能很好地滿足用戶需求的問題。
[0020] 本發(fā)明是這樣實(shí)現(xiàn)的:一種數(shù)學(xué)表達(dá)式相似距離測量方法,包括如下步驟:
[0021] a、在數(shù)據(jù)庫中對查詢表達(dá)式MEq進(jìn)行相容檢索,得到若干包含查詢表達(dá)式MEq的結(jié) 果表達(dá)式€1<士=1,2,一1(,1(為結(jié)果表達(dá)式的個(gè)數(shù);
[0022] b、對查詢表達(dá)式MEq進(jìn)行解析;同時(shí)將結(jié)果表達(dá)式fk中的查詢表達(dá)式MEq替換成統(tǒng) 一標(biāo)識符"\replace",統(tǒng)一標(biāo)識符"\replace"在結(jié)果表達(dá)式fk中作為一個(gè)運(yùn)算數(shù)看待,對 替換后的結(jié)果表達(dá)式進(jìn)行解析;對查詢表達(dá)式ME q和結(jié)果表達(dá)式fk進(jìn)行解析后,得到每一個(gè) 表達(dá)式中各個(gè)符號在表達(dá)式中的層次信息以及各個(gè)符號關(guān)于其上一層次符號的位置信息; [0023] c、根據(jù)查詢表達(dá)式MEq和結(jié)果表達(dá)式fk的解析結(jié)果,構(gòu)建每一個(gè)表達(dá)式所對應(yīng)的猶 豫模糊集;查詢表達(dá)式MEq所對應(yīng)的猶豫模糊集記為hT,結(jié)果表達(dá)式fk所對應(yīng)的猶豫模糊集 記為心;
[0024] d、根據(jù)所構(gòu)建的猶豫模糊集,計(jì)算結(jié)果表達(dá)式fk所對應(yīng)的猶豫模糊集\與查詢表 達(dá)式MEq所對應(yīng)的猶豫模糊集hT之間的相似距離4 )及相似度4 (\,\ );
[0025] 兩個(gè)猶豫模糊集hT和\.之間的相似距離4(~為()的計(jì)算公式如下:
[0026]
( 1 )
[0027] 式(1)中,XlS猶豫模糊集中的評價(jià)屬性,η為猶豫模糊集中的評價(jià)屬性的個(gè)數(shù), 表示評價(jià)屬性Xl中所包含的評價(jià)信息數(shù)目,〇(j)表示評價(jià)屬性中第j大的隸屬度的值,λ為 給定參數(shù);
[0028] 兩個(gè)猶豫模糊集&和&之間的相似度)計(jì)算公式如下:
[0029]
( 2 )
[0030] 兩個(gè)猶豫模糊集&和^之間的相似度~(\,\)即為查詢表達(dá)式MEq和結(jié)果表達(dá)式 fk之間的相似度。
[0031] 上述步驟c中,每一個(gè)表達(dá)式所對應(yīng)的猶豫模糊集中包括三個(gè)評價(jià)屬性,分別為結(jié) 構(gòu)特征S、運(yùn)算符特征0和運(yùn)算數(shù)特征N;結(jié)構(gòu)特征S包括四個(gè)評價(jià)信息,分別為層次特征lev、 長度特征len、位置特征pos和標(biāo)志特征fla;運(yùn)算符特征0所包含的評價(jià)信息數(shù)目與查詢表 達(dá)式中運(yùn)算符的個(gè)數(shù)相同;運(yùn)算數(shù)特征N所包含的評價(jià)信息數(shù)目與查詢表達(dá)式中運(yùn)算數(shù)的 個(gè)數(shù)相同;
[0032] 結(jié)構(gòu)特征S、運(yùn)算符特征0和運(yùn)算數(shù)特征N中的每一個(gè)評價(jià)信息均有相應(yīng)的隸屬度 函數(shù),分別如下:
[0033] I、基于層次特征lev的隸屬度函數(shù)為:
[0034] Ulev = e-a.lev (3)
[0035] 式(3)中,lev表示查詢表達(dá)式MEq在結(jié)果表達(dá)式fk中的層次,α為層次特征權(quán)重系 數(shù);
[0036] II、基于長度特征len的隸屬度函數(shù)為:
[0037]
(4)
[0038] 式(4)中,表不查詢表達(dá)式MEq中的符號個(gè)數(shù),表不結(jié)果表達(dá)式f k中的符號 個(gè)數(shù);
[0039] III、基于位置特征pos的隸屬度函數(shù)為:
[0040] Upos = e-一-" (5)
[0041] 式(5)中,pos表示查詢表達(dá)式MEq在結(jié)果表達(dá)式fk中的位置順序,β為位置特征權(quán)重 系數(shù);
[0042] IV、基于標(biāo)志特征f la的隸屬度函數(shù)為:
[0043] UFLA={(fla,Ufia) |fla = 0,l,2,4,5,6,7,8} (6)
[0044] 式(6)中,f la表示查詢表達(dá)式MEq在結(jié)果表達(dá)式fk中關(guān)于上一層次符號的位置信 息,una表示fla對應(yīng)的隸屬度值;
[0045] V、運(yùn)算符特征0的隸屬度函數(shù)為:
[0046] ⑴
[0047] AW ; Ψ,1733目U3S昇付在查詢表達(dá)式所有運(yùn)算符中出現(xiàn)的序號;表示查詢表 達(dá)式MEq中運(yùn)算符〇1對應(yīng)的權(quán)重,表示結(jié)果表達(dá)式fk中運(yùn)算符 〇1出現(xiàn)的次數(shù),num。表示 結(jié)果表達(dá)式fk中所有運(yùn)算符的數(shù)目;
[0048] VI、運(yùn)算數(shù)特征N的隸屬度函數(shù)為:
[0049]
(.8).
[0050] 式(8)中,j為當(dāng)前運(yùn)算數(shù)在查詢表達(dá)式所有運(yùn)算數(shù)中出現(xiàn)的序號;故;,表示查詢表 達(dá)式MEq中運(yùn)算數(shù)叫對應(yīng)的權(quán)重,·氣表示結(jié)果表達(dá)式f k中運(yùn)算數(shù)叫出現(xiàn)的次數(shù),numn表示 結(jié)果表達(dá)式fk中所有運(yùn)算數(shù)的數(shù)目。
[0051] 上述方法中,運(yùn)算符和運(yùn)算數(shù)統(tǒng)稱為符號;查詢表達(dá)式MEq中某一符號C所對應(yīng)的 權(quán)重的計(jì)算公式如下:
[0052]
(9)
[0053]公式(9)中,γ為符號權(quán)重系數(shù),count。表示數(shù)據(jù)庫中包含符號c的表達(dá)式個(gè)數(shù), counts表示數(shù)據(jù)庫中所有表達(dá)式的個(gè)數(shù)。
[0054] 公式(9)中的參數(shù)γ是通過如下方法求得的:
[0055]統(tǒng)計(jì)數(shù)據(jù)庫中包含每個(gè)符號的表達(dá)式個(gè)數(shù),若含有某一符號的表達(dá)式個(gè)數(shù)最少, 則將含有該符號的表達(dá)式個(gè)數(shù)記為COUntmin,COUntmin>0;
[0056] 設(shè) -的最大整數(shù),將其位數(shù)記為M,且當(dāng)ΙΝΤ = 0 日寸,i己M= 1,只ij ^ - iw 〇
[0057] 上述方法中,層次特征lev的隸屬度函數(shù)uiev中的參數(shù)α是通過如下方法求得的:
[0058] 首先,選取三組層次特征1 eν的節(jié)點(diǎn)定標(biāo)數(shù)據(jù),分別為(1 eVmin,1)、( 1 eVmid,0.5)和 (levmax,); levmin為數(shù)據(jù)庫中所有表達(dá)式層次的最小值,levmax為數(shù)據(jù)庫中所有表達(dá)式 層次的最大值,levmid為數(shù)據(jù)庫中表達(dá)式層次分布的重心,為levmaj#應(yīng)的隸屬度函 數(shù),其值為1除以數(shù)據(jù)庫中表達(dá)式總數(shù);
[0059] 其次,根據(jù)所選取的三組層次特征lev的節(jié)點(diǎn)定標(biāo)數(shù)據(jù)繪制散點(diǎn)圖,并添加趨勢 線,趨勢線為指數(shù)函數(shù),經(jīng)過曲線擬合得到函數(shù)m ev,進(jìn)而可得到參數(shù)α的值。
[0060] 上述方法中,位置特征pos的隸屬度函數(shù)upcis中的參數(shù)β是通過如下方法求得的:
[0061 ] 首先,選取三組位置特征POS的節(jié)點(diǎn)定標(biāo)數(shù)據(jù),分別為(posmin-l,1 )、(P〇Smid-l, 0.5 )和(posmax-l ; posmin為數(shù)據(jù)庫中所有表達(dá)式長度的最小值,posmax為數(shù)據(jù)庫中所 有表達(dá)式長度的最大值,P〇Smid為數(shù)據(jù)庫中表達(dá)式長度分布的重心,〃為P〇Smax對應(yīng)的隸 屬度函數(shù),其值為1除以數(shù)據(jù)庫中表達(dá)式總數(shù);
[0062] 其次,根據(jù)所選取的三組位置特征pos的節(jié)點(diǎn)定標(biāo)數(shù)據(jù)繪制散點(diǎn)圖,并添加趨勢 線,趨勢線為指數(shù)函數(shù),經(jīng)過曲線擬合得到函數(shù)U PC1S,進(jìn)而可得到參數(shù)邱勺值。
[0063] 上述方法中,基于標(biāo)志特征f la的隸屬度函數(shù)具體為:
[0064]
[0065] 本發(fā)明針對數(shù)學(xué)表達(dá)式這一特殊對象,以數(shù)學(xué)表達(dá)式檢索為應(yīng)用背景,將猶豫模 糊集的理論和方法應(yīng)用到數(shù)學(xué)表達(dá)式這一特殊二維模式的相似距離測量問題中,利用猶豫 模糊集在多隸屬度評價(jià)方面的優(yōu)勢,構(gòu)建包括空間、語法、語義等多維層面的數(shù)學(xué)表達(dá)式相 似距離測量模型,為改善數(shù)學(xué)表達(dá)式檢索系統(tǒng)性能奠定基礎(chǔ)。
[0066] 猶豫模糊集作為處理不確定性問題和多屬性決策問題的重要工具,它允許每個(gè)方 案在不同的屬性下存在幾個(gè)不同的評價(jià)值,并且可以為不同的屬性和評價(jià)值賦予不同的權(quán) 重,極大地豐富了決策過程中所利用的信息和途徑,使決策結(jié)果更貼合最優(yōu)方案。本發(fā)明利 用猶豫模糊集的這一優(yōu)勢,提出一種數(shù)學(xué)表達(dá)式之間相似距離的測量方法,用于數(shù)學(xué)表達(dá) 式檢索系統(tǒng)中對根據(jù)用戶查詢數(shù)學(xué)表達(dá)式ME q得到的檢索結(jié)果集合SMEq中多個(gè)數(shù)學(xué)表達(dá)式 的排序操作,通過對表達(dá)式的各項(xiàng)特征如結(jié)構(gòu)、語義等屬性分別進(jìn)行評價(jià),使得數(shù)學(xué)表達(dá)式 搜索結(jié)果集的排序更加貼近查詢表達(dá)式,從而使用戶看到的檢索結(jié)果的排列順序能夠更好 地反映他們對這些結(jié)果的需要程度,在盡可能短的時(shí)間內(nèi)找到真正需要的內(nèi)容。
【附圖說明】
[0067]圖1是本發(fā)明的方法流程示意圖。
[0068]圖2是本發(fā)明在進(jìn)行數(shù)學(xué)表達(dá)式檢索時(shí)的系統(tǒng)前臺效果示意圖。
[0069]圖3是本發(fā)明實(shí)施例中138539條數(shù)學(xué)表達(dá)式樣本的層次分布示意圖。
[0070]圖4是本發(fā)明實(shí)施例中層次特征lev隸屬度函數(shù)的曲線示意圖。
[0071 ]圖5是本發(fā)明實(shí)施例中138539條數(shù)學(xué)表達(dá)式樣本的長度分布不意圖。
[0072] 圖6是本發(fā)明實(shí)施例中位置特征pos隸屬度函數(shù)的曲線示意圖。
[0073] 圖7是本發(fā)明實(shí)施例中檢索后的部分結(jié)果排序示意圖。
【具體實(shí)施方式】
[0074]本發(fā)明由國家自然科學(xué)基金項(xiàng)目(項(xiàng)目批準(zhǔn)號:61375075)研究完成。本發(fā)明提出 的數(shù)學(xué)表達(dá)式相似距離測量方法主要包括四個(gè)部分:數(shù)學(xué)表達(dá)式相容匹配、數(shù)學(xué)表達(dá)式解 析、猶豫隸屬度計(jì)算和相似距離測量。
[0075]下面結(jié)合圖1本發(fā)明的方法流程圖,對本發(fā)明所提供的數(shù)學(xué)表達(dá)式相似距離測量 方法的各個(gè)具體步驟進(jìn)行詳細(xì)描述。
[0076] a、數(shù)學(xué)表達(dá)式相容匹配。
[0077]通過數(shù)學(xué)檢索系統(tǒng)(對應(yīng)圖1中數(shù)學(xué)表達(dá)式數(shù)據(jù)集,或稱數(shù)據(jù)庫)對用戶查詢數(shù)學(xué) 表達(dá)式(即所要查詢的數(shù)學(xué)表達(dá)式,簡稱查詢表達(dá)式)MEq進(jìn)行相容檢索,得到結(jié)果數(shù)學(xué)表達(dá) 式(簡稱結(jié)果表達(dá)式)集合SMEqdfhfs,. . .,fd,其中K表示經(jīng)過相容匹配后,結(jié)果表達(dá)式集 合SMEq中結(jié)果表達(dá)式的個(gè)數(shù)。
[0078]所謂相容匹配,即檢索所得的結(jié)果表達(dá)式均以查詢表達(dá)式為子式。例如對查詢表 達(dá)式"a+b"進(jìn)行檢索時(shí),檢索得到的表達(dá)式"2a+b = 3"、"a+b>b+c"以及" "等都是所 得的相容匹配結(jié)果,即經(jīng)過檢索得到的結(jié)果表達(dá)式中全都包含查詢表達(dá)式,但查詢表達(dá)式 在結(jié)果表達(dá)式中所占層次、位置不同,查詢表達(dá)式中的運(yùn)算符和運(yùn)算數(shù)與結(jié)果表達(dá)式中的 運(yùn)算符和運(yùn)算數(shù)關(guān)系也多種多樣,綜合這一系列信息,對結(jié)果表達(dá)式進(jìn)行綜合評價(jià)。
[0079] b、數(shù)學(xué)表達(dá)式解析。
[0080] 對查詢表達(dá)式進(jìn)行解析;同時(shí)將&(&£5[^,1^=1,2,...,10中所包含的1^(1替換成 統(tǒng)一標(biāo)識符"\replace",并將"\replace"當(dāng)做運(yùn)算數(shù)來看待,對替換后的所有結(jié)果表達(dá)式 進(jìn)行解析。
[0081] 數(shù)學(xué)表達(dá)式具有復(fù)雜的二維結(jié)構(gòu),其中的運(yùn)算符和運(yùn)算數(shù)(可統(tǒng)稱為符號)也有不 同的角色和權(quán)重,如表達(dá)式
[0082]
( 1 )
[0083] 其LaTeX式表示為:
[0084] \[l+\frac{{\sqrt{{b~3}_ac}}}{{a-Μ}\]
[0085]在LaTeX式中,"\[........\]"是定界符;"\frac"表示分?jǐn)?shù)線,"\sqrt"表示平方 根,也就是說,"\"后面緊跟的一串字符串會被自動識別為一個(gè)符號;""'表示上標(biāo),上標(biāo)在 表達(dá)式(1)中屬于隱形運(yùn)算符,其是利用符號間的大小和位置關(guān)系間接表示的,而在LaTeX 式中作了顯性化處理,用""'來表示。
[0086] 表達(dá)式(1)具有四級層次結(jié)構(gòu),并且不同的符號在表達(dá)式中占據(jù)著不同的層次、位 置等。為了表示出表達(dá)式中各個(gè)符號的層次、位置等,需要對LaTeX式進(jìn)行解析,通過解析以 記錄表達(dá)式中各個(gè)符號的信息,將每一個(gè)數(shù)學(xué)表達(dá)式對應(yīng)成為唯一的表達(dá)式特征信息表 FDS(Formula Description Structure),獲得表達(dá)式中各個(gè)符號的檢索特征信息。
[0087] 對LaTeX式進(jìn)行解析具體是:將LaTeX式中第一個(gè)符號記為第0層(此處從第0層開 始,是由于在計(jì)算機(jī)程序中通常以0作為起始點(diǎn)),第0層也就是表達(dá)式中的主基線層;依次 對LaTeX式中的各個(gè)符號所在層次進(jìn)行判斷,若LaTeX式中的符號與第一個(gè)符號處于同一基 準(zhǔn)線(或稱同一水平線),則將其所在層次記為第〇層;若LaTeX式中的符號與第一個(gè)符號處 于不同的基準(zhǔn)線上,則要判斷引起其水平線位置發(fā)生變化的符號是哪個(gè),其所在層次是引 起其水平線位置發(fā)生變化的符號所在層次的下一層。處于同一基準(zhǔn)線上的符號,均處于同 一層次。
[0088] 在LaTeX式"\[l+\frac{ {\sqrt{ {b~3}_ac}}} {{a_b} }\]"中,對應(yīng)的符號有"1"、 "+"、"\frac"、"\sqrt"、"b"、、"3"、"一"、"a"、"c"、"a"、"一"、"b"。T 為第一個(gè)符號,其 所在層次為第0層。"+"與"Γ處于同一基準(zhǔn)線上,其所在層次也為第0層;"\frac"與"Γ處于 同一基準(zhǔn)線上,其所在層次也為第〇層。"\sqrt"與"Γ不在同一基準(zhǔn)線上,且"\sqrt"水平線 位置變化是由"\frac"引起的,因此"\sqrt"所在層次是"\frac"所在層次的下一層,SP"\ sqrt"所在層次為第1層。"b"與"Γ不在同一基準(zhǔn)線上,且"b"水平線位置變化是由"\sqrt" 引起的,因此"b"所在層次是"\sqrt"所在層次的下一層,gp"b"所在層次為第2層。上標(biāo)""' 對應(yīng)在表達(dá)式(1)中為隱形運(yùn)算符,此處不對其進(jìn)行層次的識別。"3"與"Γ不在同一基準(zhǔn)線 上,且"3"水平線位置變化是由""'引起的,而""'由于沒有對其識別,此處由""'的前一符號 "b"來代替,即:"3"所在層次為"b"所在層次的下一層,"3"所在層次為第3層。接下來的 "一"、"a"和"c"均與"b"處于同一基準(zhǔn)線上,因此"一"、"a"和"c"所在層次均為第2層。接下 來的"a"與"Γ不在同一基準(zhǔn)線上,且"a"水平線位置變化是由"\frac"引起的,因此"a"所在 層次是"\frac"所在層次的下一層,即"a"所在層次為第1層。最后的"一"、"b"與"a"處于同 一基準(zhǔn)線上,因此"一"和"b"所在層次均為第1層。
[0089] 對LaTeX式"\[l+\frac{{\sqrt{{b~3}_ac}}} {{a-b} }\]"進(jìn)行解析,得到各符號所 在層次,見表1。表1中"Str"表不LaTeX式中符號;"1^¥61"為符號在表達(dá)式中所處的層次(0 表示符號處于主基線層);"Operator"表示符號是運(yùn)算符還是運(yùn)算數(shù)(0表示是運(yùn)算數(shù),1表 示是運(yùn)算符);"Flag"表示該符號關(guān)于其上一層符號(其上一層符號指引起其水平線位置發(fā) 生變化的符號)的位置信息,〇表示水平位置(對應(yīng)主基線〇層的符號,這是由于主基線〇層的 符號沒有對應(yīng)的上一層符號,且主基線〇層的符號均處于水平位置),1表示上方,2表示右上 方,4表示右下方,5表示下方,6表示內(nèi)部,7表示左上方,8表示左下方。"Γ、"+"和"\frac"在 表達(dá)式(1)沒有對應(yīng)的上一層符號,這三者均處于主基線〇層,其均為水平位置,因此這三者 的Flag值均為0。"\sqrt"位于其上一層符號"\frac"的上方,因此"\sqrt"的Flag值為1。"b" 位于其上一層符號"\sqrt"的內(nèi)部,因此"b"的Flag值為6。"3"位于其上一層符號"b"的右上 方,因此其Flag值為2。"一"、"a"和"c"位于其上一層符號"\sqrt"的內(nèi)部,因此其Flag值均 為6。最后的"a"、"一"和"b"位于其上一層符號"\frac"的下方,因此其Flag值為5。
[0090] 對LaTeX式"\[l+\frac{{\sqrt{{b~3}_ac}}} {{a-b} }\]"進(jìn)行解析后,所得到的各 符號的層次、各符號是運(yùn)算符還是運(yùn)算數(shù)、各符號關(guān)于其上一層符號的位置信息見表1。除 了表1中的這些數(shù)據(jù),還可以得到各符號在LaTeX式中屬于第幾個(gè)符號,即所有符號的排列 順序也是可以得到的,各符號在LaTeX式中對應(yīng)的位置順序,屬于符號的位置特征。表1中沒 有列出各符號的位置特征。
[0091] 表1表達(dá)式(1)對應(yīng)的特征信息表
[0092] _3]~c、構(gòu)建猶豫模糊評價(jià)特征集合。
[0094] 首先介紹猶豫模糊集的相關(guān)概念。
[0095] 定義1:設(shè)X是一個(gè)非空集合,則E稱為X上的猶豫模糊集
[0096] E= {〈x,hE(x)> | xGX}
[0097] 其中,hE(x)表示一個(gè)集合,其中元素值均屬于[0,1],表示x對于集合X的隸屬程 度。hE(x)稱為一個(gè)猶豫模糊元。
[0098]定義2:設(shè)A和B分別為集合X= {xi,X2, . . . ,Χη}上的猶豫模糊集,定義d(A,B)為集合 A和B的距離,且d(A,B)滿足下述條件:
[0099] (l)〇^d(A,B)^l;
[0100] (2)當(dāng)且僅當(dāng) A=B 時(shí),d(A,B)=0;
[0101] (3)d(A,B)=d(B,A)。
[0102] 廣義猶豫標(biāo)準(zhǔn)距離如下所示:
[0103]
[0104] 當(dāng)λ=1時(shí),廣義猶豫標(biāo)準(zhǔn)距離退化為標(biāo)準(zhǔn)猶豫海明距離。
[0105] 根據(jù)定義(2)可知,設(shè)s(A,B)為猶豫模糊集Α和Β的相似度,d(A,B)為兩個(gè)集合間的 距離,則8以,8) = 1-(1以,8),即已知兩個(gè)猶豫模糊集的距離即可計(jì)算出二者的相似度。
[0106] 數(shù)學(xué)表達(dá)式檢索系統(tǒng)根據(jù)用戶提出的查詢表達(dá)式MEq在數(shù)據(jù)庫中進(jìn)行檢索得到結(jié) 果表達(dá)式集合SMEq。本發(fā)明提出了一種基于猶豫模糊集理論的數(shù)學(xué)表達(dá)式相似距離測量方 法,以用戶查詢數(shù)學(xué)表達(dá)式ME q為測量標(biāo)準(zhǔn)建立猶豫模糊集,從數(shù)學(xué)表達(dá)式的基本符號信 息、二維結(jié)構(gòu)信息和語義信息等方面設(shè)計(jì)相應(yīng)的隸屬度函數(shù),通過計(jì)算檢索結(jié)果表達(dá)式集 合S MEq中各個(gè)結(jié)果表達(dá)式與用戶查詢數(shù)學(xué)表達(dá)式MEq之間的猶豫模糊距離,得到SMEq中各個(gè) 結(jié)果表達(dá)式與用戶查詢數(shù)學(xué)表達(dá)式ME q間的相似距離。
[0107] 每個(gè)數(shù)學(xué)表達(dá)式的評價(jià)屬性為一個(gè)三元組(S,0,N),每一個(gè)評價(jià)屬性包含不同的 評價(jià)信息,具體如下:
[0108] (1)結(jié)構(gòu)特征3
[0109]①層次特征lev:用來考察查詢表達(dá)式MEq(也就是"\replace")在結(jié)果表達(dá)式fk中 所處的層次;
[0110] ②長度特征len:用來考察查詢表達(dá)式MEq和結(jié)果表達(dá)式fk的長度(即符號的個(gè)數(shù));
[0111] ③位置特征pos:用來考察MEq在fk中的位置順序,即在fk的LaTeX式中,ME q屬于第 幾個(gè)符號;
[0112] ④標(biāo)志特征fla:用來考察MEq在fk中與上一層次符號的位置關(guān)系。
[0113] (2)運(yùn)算符特征0
[0114] 考察查詢表達(dá)式MEq中包含的所有運(yùn)算符{化巧,…,%),其中h表示ME q中含有的運(yùn) 算符數(shù)目,〇i(i = 1,2,. . .,h)表示查詢表達(dá)式中的任一運(yùn)算符。查詢表達(dá)式MEq中包含的所 有運(yùn)算符柄々2,···,%}即為運(yùn)算符特征0所包含的評價(jià)信息。
[0115] (3)運(yùn)算數(shù)特征N
[0116] 考察查詢表達(dá)式MEq中含有的所有運(yùn)算數(shù)丨《1,《2,".,汽丨,其中1 2表示1^(1中含有的運(yùn) 算數(shù)數(shù)目,nj(j = l,2,...,h)表示查詢表達(dá)式中的任一運(yùn)算數(shù)。查詢表達(dá)式MEq中含有的所 有運(yùn)算數(shù)! "I,〃:,…,% J即為運(yùn)算數(shù)特征?^所包含的評價(jià)信息。 count
[0117] d、統(tǒng)計(jì)查詢表達(dá)式MEq中每個(gè)符號c在數(shù)據(jù)庫中出現(xiàn)的頻率^其中count。表 示數(shù)據(jù)庫中包含該符號c的表達(dá)式個(gè)數(shù),counts表示數(shù)據(jù)庫中所有表達(dá)式的個(gè)數(shù);并為查詢 表達(dá)式MEq中每個(gè)符號c(包括運(yùn)算符和運(yùn)算數(shù))設(shè)置相應(yīng)的權(quán)重
1表示符 號權(quán)重系數(shù)。
[0118] 參數(shù)γ可經(jīng)過以下步驟得出:
[0119] 首先,統(tǒng)計(jì)數(shù)據(jù)庫中包含每個(gè)符號的表達(dá)式個(gè)數(shù),若含有某一符號的表達(dá)式個(gè)數(shù) 最少,則將含有該符號的表達(dá)式個(gè)數(shù)記為〇〇11111:1^11((3〇11111:1^11>0)。
[0120] 其次,設(shè)
的最大整數(shù),將其位數(shù)記為Μ(當(dāng)ΙΝΤ
[0121] 最后,根據(jù)Μ計(jì)算γ的值,γ =10M。
[0122] e、為每一個(gè)評價(jià)信息設(shè)置相應(yīng)的隸屬度函數(shù)。
[0123] (1)基于層次特征lev的隸屬度函數(shù)為:
[0124] Ulev = e-a.lev
[0125] 上式中,lev表示查詢表達(dá)式MEq(即"\replace")在結(jié)果表達(dá)式fk中的層次,α為層 次特征權(quán)重系數(shù)。
[0126] 層次特征lev的隸屬度函數(shù)Ulev中的參數(shù)α可經(jīng)過以下步驟得出:
[0127] 首先,設(shè)置三個(gè)節(jié)點(diǎn)定標(biāo)數(shù)據(jù),如表2所示。
[0128]表2 lev的節(jié)點(diǎn)定標(biāo)數(shù)據(jù)表
[0129]
[0130] 表2中,lev為層次特征,mev為lev對應(yīng)的隸屬度函數(shù)值。levmin為數(shù)據(jù)庫中所有表 達(dá)式層次的最小值,將其隸屬度定標(biāo)為l;lev max為數(shù)據(jù)庫中所有表達(dá)式層次的最大值,且層 次最大值表達(dá)式的樣本數(shù)大于5 (當(dāng)層次最大值樣本數(shù)小于等于5時(shí),忽略不計(jì),并將表達(dá)式 層次的次大值作為levmax,且層次次大值表達(dá)式的樣本數(shù)大于5;這是由于:樣本數(shù)量太少 時(shí),這些表達(dá)式比較特殊,將其作為節(jié)點(diǎn)定標(biāo)數(shù)據(jù)將會影響最后的測量結(jié)果),將lev max的隸 屬度定標(biāo)為值為1除以數(shù)據(jù)庫中表達(dá)式總數(shù);1 e Vm i d為表達(dá)式層次分布的重心, 艮P:在數(shù)據(jù)庫中,比層次分布重心levmid層次小的表達(dá)式的數(shù)量與比層次分布重心lev mid層 次大的表達(dá)式的數(shù)量相當(dāng),將levmid的隸屬度定標(biāo)為0.5。
[0131]根據(jù)表2繪制散點(diǎn)圖,其橫軸為表達(dá)式層次,縱軸為層次對應(yīng)的隸屬度,并添加趨 勢線,趨勢線選項(xiàng)為指數(shù)函數(shù),經(jīng)過曲線擬合得到函數(shù)mev,進(jìn)而可得到參數(shù)α的值。
[0132] (2)基于長度特征len的隸屬度函數(shù)為:
[0133]
[0134] 其中,/0%£^表不查詢表達(dá)式MEq中的符號個(gè)數(shù)(即為I1+I2),/氣表不結(jié)果表達(dá)式fk 中的符號個(gè)數(shù)。
[0135] (3)基于位置特征pos的隸屬度函數(shù)為:
[0136] uP〇s = e^(pos"1)
[0137]其中,pos表不查詢表達(dá)式MEq構(gòu)成的子式(作為一個(gè)運(yùn)算數(shù)來看待)在結(jié)果表達(dá)式 fk中的位置順序(即在LaTeX式中為第幾個(gè)符號),β為位置特征權(quán)重系數(shù)。
[0138] 位置特征pos的隸屬度函數(shù)UpQS中的參數(shù)β可經(jīng)過以下步驟得出:
[0139] 首先,預(yù)設(shè)三個(gè)節(jié)點(diǎn)定標(biāo)數(shù)據(jù),如表3所示。
[0140]表3 pos的節(jié)點(diǎn)定標(biāo)數(shù)據(jù)表
[0141]
[0142] 表3中,pos為位置特征,Upoi^pos對應(yīng)的隸屬度函數(shù)值。posmin為數(shù)據(jù)庫中所有表 達(dá)式長度(即表達(dá)式中符號的個(gè)數(shù))的最小值,將其隸屬度定標(biāo)為l;P〇s max為數(shù)據(jù)庫中所有 表達(dá)式長度的最大值,且長度最大值的樣本數(shù)大于5(當(dāng)長度最大值樣本數(shù)小于等于5時(shí),忽 略不計(jì),并將表達(dá)式長度的次大值作為P 〇Smax,且長度次大值表達(dá)式的樣本數(shù)大于5;這是由 于:樣本數(shù)量太少時(shí),這些表達(dá)式比較特殊,將其作為節(jié)點(diǎn)定標(biāo)數(shù)據(jù)將會影響最后的測量結(jié) 果),將p〇s max的隸屬度定標(biāo)為W_max值為1除以數(shù)據(jù)庫中表達(dá)式總數(shù);p0Smid為表達(dá) 式長度分布的重心,即:在數(shù)據(jù)庫中,比長度分布重心POSmid長度小的表達(dá)式的數(shù)量與比長 度分布重心P〇s mid長度大的表達(dá)式的數(shù)量相當(dāng),將posmid的隸屬度定標(biāo)為0.5。
[0143] 根據(jù)表3繪制散點(diǎn)圖,其橫軸為表達(dá)式長度,縱軸為長度對應(yīng)的隸屬度,并添加趨 勢線,趨勢線選項(xiàng)為指數(shù)函數(shù),經(jīng)過曲線擬合得到函數(shù)u pcis,進(jìn)而可得到參數(shù)邱勺值。
[0144] (4)基于標(biāo)志特征fla的隸屬度函數(shù)為:
[0145] UFLA={(fla,Ufia) |fla = 0,l,2,4,5,6,7,8}
[0146] 其中,fla表不查詢表達(dá)式MEq作為一個(gè)符號在結(jié)果表達(dá)式fk中關(guān)于上一層符號的 位置信息,Ufia表不fla對應(yīng)的隸屬度值。標(biāo)志特征fla的隸屬度函數(shù)Ufia中(fla,Ufla)的設(shè)置 是根據(jù)查詢表達(dá)式MEq在fk中與上一層次符號所構(gòu)成的運(yùn)算關(guān)系的數(shù)學(xué)語義設(shè)定的,1!^的 確定準(zhǔn)則如表4所示。
[0147] 表4 Ufia的確定準(zhǔn)則表
[0148]
[0149]
[0150] 表4中,"□"代表查詢表達(dá)式MEq,示例為查詢表達(dá)式MEq在結(jié)果表達(dá)式fk中位于上 一層符號的位置為fla時(shí)的幾種常見表達(dá)式形式。當(dāng)fla為0時(shí),隸屬度取到最大值記為 unamax。當(dāng)fla為7或8時(shí),隸屬度取到最小值記為unamin。當(dāng)fla取其他值時(shí),隸屬度取值分別 為Uf lamidk(k - 1,2,3,4),隨k的增大,隸屬度Uf lamidk的值減小。
[0151] (5)運(yùn)算符特征0的隸屬度函數(shù)為:
[0152]
[0153] 其中,i為當(dāng)前運(yùn)算符〇i在查詢表達(dá)式所有運(yùn)算符中出現(xiàn)的序號;表示查詢表達(dá) 式MEq中運(yùn)算符 〇1對應(yīng)的權(quán)重,表示結(jié)果表達(dá)式fk中運(yùn)算符〇1出現(xiàn)的次數(shù),num。表示結(jié) 果表達(dá)式f k中所有運(yùn)算符的數(shù)目。
[0154] 由于查詢表達(dá)式MEq中有1:個(gè)運(yùn)算符,因此共有h個(gè)運(yùn)算符特征的隸屬度值。
[0155] (6)運(yùn)算數(shù)特征N的隸屬度函數(shù)為:
[0156]
[0157] 其中,j為當(dāng)前運(yùn)算數(shù)叫在查詢表達(dá)式所有運(yùn)算數(shù)中出現(xiàn)的序號;講;,表示查詢表 達(dá)式MEq中運(yùn)算數(shù)n j對應(yīng)的權(quán)重,表示結(jié)果表達(dá)式f k中運(yùn)算數(shù)n j出現(xiàn)的次數(shù),numn表示 結(jié)果表達(dá)式fk中所有運(yùn)算數(shù)的數(shù)目。
[0158] 由于查詢表達(dá)式MEq中有12個(gè)運(yùn)算數(shù),因此共有12個(gè)運(yùn)算數(shù)特征的隸屬度值。
[0159] f、將解析所得的表達(dá)式特征信息表中的數(shù)據(jù)代入隸屬度函數(shù)中對查詢表達(dá)式MEq 以及每一個(gè)結(jié)果表達(dá)式fk進(jìn)行評價(jià),經(jīng)過計(jì)算,查詢表達(dá)式MEq與每一個(gè)結(jié)果表達(dá)式fk分別 對應(yīng)唯一的一個(gè)猶豫模糊集,記為h T和A, ^^。,…,/^,其中心表示查詢表達(dá)式腿以寸應(yīng)的 猶豫模糊集,&表示結(jié)果表達(dá)式fk對應(yīng)的猶豫模糊集。需要說明的是,在對查詢表達(dá)式ME q 進(jìn)行評價(jià)時(shí),MEq既為查詢表達(dá)式,也為結(jié)果表達(dá)式。
[0160] g、將步驟f所得結(jié)果代入下面公式計(jì)算每個(gè)結(jié)果表達(dá)式fk對應(yīng)的猶豫模糊集^與 查詢表達(dá)式MEq對應(yīng)的猶豫模糊集hT的距離dk。其中η表示評價(jià)屬性的個(gè)數(shù)(η為3), Xl表示各 個(gè)評價(jià)屬性(評價(jià)屬性為S、0、N),&表示每個(gè)評價(jià)屬性的長度即該評價(jià)屬性中包含的評價(jià) 信息數(shù)目(S中的評價(jià)信息數(shù)目為4,0的評價(jià)信息數(shù)目為h,N的評價(jià)信息數(shù)目為l2),〇(j)表 示評價(jià)屬性中第j大的隸屬度的值,λ為給定參數(shù)。
[0161]
[0162 ] h、根據(jù)結(jié)果表達(dá)式f k對應(yīng)的猶豫模糊集^與查詢表達(dá)式MEq對應(yīng)的猶豫模糊集hT 的距離心)計(jì)算二者的相似度= 1 -Μ&Λ;),其中表示猶豫模糊 集hT與&的相似度,即為查詢表達(dá)式MEq與結(jié)果表達(dá)式f k的相似度。
[0163] 下面結(jié)合具體例子介紹本發(fā)明。
[0164] 以對數(shù)學(xué)表達(dá)式MEq="a_b 〃進(jìn)行相容匹配后的結(jié)果表達(dá)式集合SMEq為例,簡述本 發(fā)明提出的數(shù)學(xué)表達(dá)式相似距離測量方法。
[0165] (1)經(jīng)過檢索后,其相容匹配結(jié)果中包含若干結(jié)果表達(dá)式,本實(shí)施例中以三個(gè)結(jié)果 表達(dá)式
為例進(jìn)行說明。
[0166] (2)對表達(dá)式"a-b"進(jìn)行解析,表達(dá)式特征信息表如表5所示。
[0167] 表5表達(dá)式"a-b"的特征信息表 「01681
[0169] 在三個(gè)結(jié)果表達(dá)式"a_b = c"、"(a-b)2",
中,將子式"a_b"替換為 replace",然后再對各個(gè)結(jié)果表達(dá)式進(jìn)行解析,得到結(jié)果表達(dá)式的特征信息表如表6-表8所 不。
[0170] 表6表達(dá)式"a_b = c"的特征信息表
[0171] '[0172] 表7表達(dá)式"(a-bi2"的特征信息表
' ' '
[0173]
[0174] 表8表達(dá)式
'的特征信息表
[0175]
[0176] (3)對查詢表達(dá)式以及三個(gè)結(jié)果表達(dá)
式進(jìn)行隸屬度函數(shù)的計(jì)算。
[0177] 以結(jié)果表達(dá)式"a_b = c"為例,對其隸屬度函數(shù)分別進(jìn)行計(jì)算:
[0178] ①、基于層次特征lev的隸屬度函數(shù)為:Ulev = eTa'lev。
[0179] 首先求解層次特征1 e v的隸屬度函數(shù)uiev中的參數(shù)a。
[0180]統(tǒng)計(jì)本實(shí)施例中所采用的所有數(shù)學(xué)表達(dá)式樣本(即數(shù)據(jù)庫中所包含的138539條數(shù) 學(xué)表達(dá)式各自)的層次,得到數(shù)據(jù)庫中所有表達(dá)式的層次分布情況,結(jié)果見圖3。圖3中,橫軸 為表達(dá)式的層次,縱軸為與層次對應(yīng)的表達(dá)式的個(gè)數(shù)。
[0181]根據(jù)圖3中的統(tǒng)計(jì)圖,選取與層次特征lev所對應(yīng)的三個(gè)節(jié)點(diǎn)定標(biāo)數(shù)據(jù),見表9。
[0182 ]表9本實(shí)施例中所獲得的lev的節(jié)點(diǎn)定標(biāo)數(shù)據(jù)表 [0183]
[0184] 表9中所選取的三個(gè)節(jié)點(diǎn)定標(biāo)數(shù)據(jù),層次(即lev)0對應(yīng)表2中的levmin,其隸屬度定 標(biāo)為1;層次8對應(yīng)表2中的levmx,且層次為8的表達(dá)式樣本數(shù)大于5(本來10為本實(shí)施例數(shù)據(jù) 庫中所有表達(dá)式層次的最大值,但其樣本數(shù)小于5,因此忽略不計(jì),而層次為9的表達(dá)式的樣 本數(shù)仍然小于5,因此本實(shí)施例中選lev maxS8),其所對應(yīng)的隸屬度值為1除以數(shù)據(jù)庫中表達(dá) 式總數(shù)(138539),即為0.00000722;層次1對應(yīng)表2中的lev mid,其隸屬度值為0.5。
[0185] 根據(jù)表9中的三組數(shù)據(jù),繪制散點(diǎn)圖并添加趨勢線,趨勢線選項(xiàng)為指數(shù)函數(shù),縱軸 截距為1.0,經(jīng)過曲線擬合得到函數(shù)為yzeT 1·468'該函數(shù)對應(yīng)的曲線圖見圖4。函數(shù)y = e + 468x中的X即對應(yīng)表9中的lev,y對應(yīng)表9中的uiev,因此層次特征lev的隸屬度函數(shù)uim中的 參數(shù)α為1.468,表示層次特征權(quán)重系數(shù)。
[0186] 查詢表達(dá)式"a_b"在結(jié)果表達(dá)式"a_b = c"中的層次lev為0,將其代入uiev = e + 4681e3V中,得到結(jié)果表達(dá)式"a_b = c"基于層次特征lev的隸屬度函數(shù)為1。
[0187] ②、基于長度特征len的隸屬度函數(shù)為:
[0188] 查詢表達(dá)式"a-b"中的符號個(gè)數(shù)為3,即;結(jié)果表達(dá)式"a-b = c"中的符號 個(gè)數(shù)為5,即=5;因此,結(jié)果表達(dá)式"a-b = c"基于長度特征len的隸屬度函數(shù)為0.6。
[0189] ③、基于位置特征pos的隸屬度函數(shù)為:Upcis = e-e(p°s-1〉。
[0190] 首先求解位置特征pos的隸屬度函數(shù)upcis中的參數(shù)β。
[0191] 統(tǒng)計(jì)本實(shí)施例中所采用的所有數(shù)學(xué)表達(dá)式樣本(即數(shù)據(jù)庫中所包含的138539條數(shù) 學(xué)表達(dá)式各自)的長度(即表達(dá)式中的符號個(gè)數(shù)),得到數(shù)據(jù)庫中所有表達(dá)式的長度分布情 況,結(jié)果見圖5。圖5中,橫軸為表達(dá)式符號個(gè)數(shù)(即為表達(dá)式的長度),縱軸為與長度對應(yīng)的 表達(dá)式個(gè)數(shù)。圖5中還給出了八個(gè)點(diǎn)的坐標(biāo),例如:(1,28864)坐標(biāo)表示長度為1的表達(dá)式的 個(gè)數(shù)為28864。
[0192] 根據(jù)圖5中的統(tǒng)計(jì)圖,選取與位置特征pos所對應(yīng)的三個(gè)節(jié)點(diǎn)定標(biāo)數(shù)據(jù),見表10。
[0193] 表10本實(shí)施例中所獲得的pos的節(jié)點(diǎn)定標(biāo)數(shù)據(jù)表
[0194]
[0195] 表10中所選取的三個(gè)節(jié)點(diǎn)定標(biāo)數(shù)據(jù),位置特征(即pos,對應(yīng)到圖5中即為表達(dá)式的 長度)1對應(yīng)表3中的posmin,其隸屬度定標(biāo)為1;位置特征181對應(yīng)表3中的pos max,且位置特征 181的表達(dá)式樣本數(shù)大于5(比位置特征181大的其他位置特征對應(yīng)的樣本數(shù)均不大于5,因 此忽略不計(jì)),其所對應(yīng)的隸屬度值為1除以數(shù)據(jù)庫中表達(dá)式總數(shù)( 138539),即為 0.00000722;位置特征4對應(yīng)表3中的posmid,其隸屬度值為0.5。
[0196] 根據(jù)表10中的pos和UpQS可繪制散點(diǎn)圖,但是,為了繪制出縱軸截距為1.0的曲線, 因此,使表10中的pos減去1,根據(jù)表10中的pos-Ι和u P〇s繪制散點(diǎn)圖并添加趨勢線,趨勢線選 項(xiàng)為指數(shù)函數(shù),經(jīng)過曲線擬合得到函數(shù)為該函數(shù)對應(yīng)的曲線圖見圖6。函數(shù)y = e n6x中的X即對應(yīng)表10中的P〇s_l,y對應(yīng)表10中的uPQS,因此位置特征pos的隸屬度函數(shù)u P〇s 中的參數(shù)β為ο. 066,表示位置特征權(quán)重系數(shù)。
[0197] 需要說明的是,本發(fā)明中表達(dá)式符號個(gè)數(shù)的最小值(即表達(dá)式的長度最小值)是從 "Γ開始的,即對于只有一個(gè)符號的表達(dá)式,將其長度記為最小值1,而為了得出縱軸截距為 1.0的指數(shù)曲線,因此基于位置特征POS的隸屬度函數(shù)為在上面描述表達(dá)式 的層次特征信息時(shí),本發(fā)明中對表達(dá)式的主基線層是從"〇"開始計(jì)算的,同樣為了得出縱軸 截距為1.0的指數(shù)曲線,因此基于層次特征lev的隸屬度函數(shù)為:ι^ ν = ?Γα'1?3ν。
[0198] 查詢表達(dá)式"a-b"在結(jié)果表達(dá)式"a-b = c"中的位置順序pos為1,將其代入U(xiǎn)pQS = e 一中,得到結(jié)果表達(dá)式"a_b = c"基于位置特征pos的隸屬度函數(shù)為1。
[0199] ④、基于標(biāo)志特征fla的隸屬度函數(shù)為:Ufla= {(fla,Ufia) |fla = 0,1,2,4,5,6,7, 8}〇
[0200] 根據(jù)本實(shí)施例數(shù)據(jù)庫中的138539條數(shù)學(xué)表達(dá)式樣本,設(shè)置標(biāo)志特征f la的隸屬度 函數(shù)為:
[0201] UFLA={(fla,una) |fla = 0,l,2,4,5,6,7,8} = {(0,l),(1,0.7),(2,0.55),(4, 0.3),(5,0.7),(6,0.75),(7,0.25),(8,0.25)}
[0202] 查詢表達(dá)式"a-b"在結(jié)果表達(dá)式"a_b = c"中的標(biāo)志特征fla為0,其所對應(yīng)的隸屬 度函數(shù)為1,因此結(jié)果表達(dá)式"a_b = c"基于標(biāo)志特征fla的隸屬度函數(shù)為1。
[0203] ⑤、運(yùn)算符特征0的隸屬度函數(shù)為
Γ '' 〇
[0204] 首先求解符號權(quán)重中的參數(shù)γ。
[0205]統(tǒng)計(jì)本實(shí)施例中所采用的所有數(shù)學(xué)表達(dá)式樣本(即數(shù)據(jù)庫中所包含的138539條數(shù) 學(xué)表達(dá)式各自)包含的所有符號以及包含每個(gè)符號的表達(dá)式個(gè)數(shù),取存在于最少的表達(dá)式 中的符號,得到包含該符號的表達(dá)式個(gè)數(shù)countmin= h
其整數(shù)位數(shù)Μ =1,則γ =1〇1=1〇。因此符號c權(quán)重iff。計(jì)算公式為:
[0206] 查詢表達(dá)式"a-b"中只有一個(gè)運(yùn)算符"一",通過計(jì)算可得出結(jié)果表達(dá)式"a-b = c" 基于運(yùn)算符"一"的隸屬度函數(shù)為〇. 087。
[0207] ⑥、運(yùn)算數(shù)特征N的隸屬度函數(shù)為:
[0208] 本步驟中的符號權(quán)重計(jì)算公式與步驟⑤中的符號權(quán)重計(jì)算公式相同。
[0209] 查詢表達(dá)式"a-b"中有兩個(gè)運(yùn)算數(shù),分別為"a"和"b",通過計(jì)算可得出結(jié)果表達(dá)式 "a-b = c"基于運(yùn)算數(shù)"a"的隸屬度函數(shù)為0.059,基于運(yùn)算數(shù)"b"的隸屬度函數(shù)為0.077。 [0210]至此,結(jié)果表達(dá)式"a_b = c"對應(yīng)的猶豫模糊集的隸屬度函數(shù)均計(jì)算完畢。
[0211] 根據(jù)上面方法同樣可計(jì)算出查詢表達(dá)式"a-b"和結(jié)果表達(dá)式"(a-b)2"、
'分別對應(yīng)的猶豫模糊集的隸屬度函數(shù)。在對查詢表達(dá)式"a-b"進(jìn)行隸屬度函 數(shù)的計(jì)算時(shí),"a_b"既為查詢表達(dá)式,也為結(jié)果表達(dá)式。
[0212] 針對查詢表達(dá)式和結(jié)果表達(dá)式所計(jì)算出來的隸屬度函數(shù)(S,0,N),即構(gòu)成表達(dá)式 對應(yīng)的猶豫模糊集。最終所形成的猶豫模糊矩陣如表11所示。
[0213] 表11猶豫模糊矩陣
[0214]
[0215] (4)將表11中數(shù)據(jù)代入公式
和
h計(jì)算每個(gè)結(jié)果表達(dá)式與查詢表達(dá)式的相似距離與相似度,取λ = 1,結(jié)果如表12所示。
[0216] 表12相似距離與相似度計(jì)算結(jié)果表
[0217]
[0218] 由表12可以看出,三個(gè)結(jié)果表達(dá)式與查詢表達(dá)式的相似度排名為:
[0219]
[0220] 如圖7所示,圖7中示出了部分檢索結(jié)果,每一條檢索結(jié)果中包含了一個(gè)結(jié)果表達(dá) 式(同一個(gè)結(jié)果表達(dá)式在數(shù)據(jù)庫中可能有若干個(gè),圖7檢索結(jié)果中相同的表達(dá)式只顯示一 個(gè),其余均已用省略號代替,其后數(shù)字表示數(shù)據(jù)庫中該表達(dá)式的個(gè)數(shù))以及該結(jié)果表達(dá)式與 查詢表達(dá)式的相似度,且檢索結(jié)果按照結(jié)果表達(dá)式與查詢表達(dá)式的相似度來排序,相似度 越高,排序越靠前。
[0221] 需要說明的是,上面例子中查詢表達(dá)式"a-b"在結(jié)果表達(dá)式"a-b = c"、"(a_b)2"、 /*/ I /"> ^1 | "4 = ^7"中均只出現(xiàn)了一次,對于結(jié)果表達(dá)式中存在兩個(gè)或者兩個(gè)以上查詢表達(dá)式 a -n c - a 的情況,在計(jì)算隸屬度函數(shù)s中的各個(gè)參數(shù)(lev, len,pos,f la)時(shí),會得出與結(jié)果表達(dá)式中 的查詢表達(dá)式 對應(yīng)的隸屬度函數(shù)值,例如,若結(jié)果表達(dá)式中存在兩個(gè)查詢表達(dá)式,貝1J在 計(jì)算S( lev,len,pos,f la)時(shí),根據(jù)其中一個(gè)查詢表達(dá)式在結(jié)果表達(dá)式中的位置關(guān)系,會得 出一個(gè)51(1^1,1咖,?〇81彳1&1),根據(jù)另一個(gè)查詢表達(dá)式在結(jié)果表達(dá)式中的位置關(guān)系,會得 出另一個(gè)32(16¥2,16112 4〇82,;^]^2);而在計(jì)算隸屬度函數(shù)0和1^的時(shí)候,均只得出一個(gè)數(shù)值, 這樣,對于結(jié)果表達(dá)式中有兩個(gè)查詢表達(dá)式的情況,最終會得出兩組(S,0,N),后期通過計(jì) 算這兩組(S,0,N)分別與查詢表達(dá)式對應(yīng)的(S,0,N)之間的相似距離及相似度,將相似度最 大的那個(gè)作為該結(jié)果表達(dá)式與查詢表達(dá)式的相似度。
[0222] 將本發(fā)明應(yīng)用于數(shù)學(xué)表達(dá)式檢索系統(tǒng)中,對相容匹配的表達(dá)式結(jié)果集中所有的結(jié) 果表達(dá)式進(jìn)行排序,其運(yùn)行環(huán)境為:
[0223] 系統(tǒng):Microsoft Windows Sever 2012
[0224] 編程語言:ASP .net
[0225] 數(shù)據(jù)庫系統(tǒng):Microsoft SQL Server 2012
[0226] 系統(tǒng)架構(gòu)為B/S模式,系統(tǒng)前臺效果如圖2所示。
[0227] 采用138539條網(wǎng)絡(luò)上獲取的數(shù)學(xué)表達(dá)式作為樣本(即作為數(shù)據(jù)庫)進(jìn)行實(shí)驗(yàn),由實(shí) 驗(yàn)結(jié)果可以看出,采用基于猶豫模糊集的數(shù)學(xué)表達(dá)式相似距離測量方法,可以對數(shù)學(xué)表達(dá) 式進(jìn)行有效排序,使與用戶查詢表達(dá)式更加貼近的數(shù)學(xué)表達(dá)式順序靠前,方便用戶獲取所 需要的數(shù)學(xué)表達(dá)式信息。
【主權(quán)項(xiàng)】
1. 一種數(shù)學(xué)表達(dá)式相似距離測量方法,其特征是,基于猶豫模糊集對數(shù)學(xué)表達(dá)式進(jìn)行 相似距離測量;該方法具體包括如下步驟: a、 在數(shù)據(jù)庫中對查詢表達(dá)式MEq進(jìn)行相容檢索,得到若干包含查詢表達(dá)式MEq的結(jié)果表 達(dá)式f k ;k=l,2,…K,K為結(jié)果表達(dá)式的個(gè)數(shù); b、 對查詢表達(dá)式MEq進(jìn)行解析;同時(shí)將結(jié)果表達(dá)式fk中的查詢表達(dá)式MEq替換成統(tǒng)一標(biāo) 識符"\replace",統(tǒng)一標(biāo)識符"\replace"在結(jié)果表達(dá)式fk中作為一個(gè)運(yùn)算數(shù)看待,對替換 后的結(jié)果表達(dá)式進(jìn)行解析;對查詢表達(dá)式MEq和結(jié)果表達(dá)式fk進(jìn)行解析后,得到每一個(gè)表達(dá) 式中各個(gè)符號在表達(dá)式中的層次信息W及各個(gè)符號關(guān)于其上一層次符號的位置信息; C、根據(jù)查詢表達(dá)式MEq和結(jié)果表達(dá)式fk的解析結(jié)果,構(gòu)建每一個(gè)表達(dá)式所對應(yīng)的猶豫模 糊集;查詢表達(dá)式MEq所對應(yīng)的猶豫模糊集記為hT,結(jié)果表達(dá)式fk所對應(yīng)的猶豫模糊集記為 A/..; d、根據(jù)所構(gòu)建的猶豫模糊集,計(jì)算結(jié)果表達(dá)式fk所對應(yīng)的猶豫模糊集%與查詢表達(dá)式 MEq所對應(yīng)的猶豫模糊集hT之間的相似距離及相似度&批。、,); 兩個(gè)猶豫模糊集hT和之間的相似距離或(Λτ,&λ)的計(jì)算公式如下:{1) 式(1)中,XI為猶豫模糊集中的評價(jià)屬性,η為猶豫模糊集中的評價(jià)屬性的個(gè)數(shù),表示 評價(jià)屬性XI中所包含的評價(jià)信息數(shù)目,〇(j)表示評價(jià)屬性中第j大的隸屬度的值,λ為給定 參數(shù); 兩個(gè)猶豫模糊集^和^義間的相似度.?成,%)計(jì)算公式如下:(2) 兩個(gè)猶豫模糊集之間的相似度即為查詢表達(dá)式MEq和結(jié)果表達(dá)式fk之 間的相似度。2. 根據(jù)權(quán)利要求1所述的數(shù)學(xué)表達(dá)式相似距離測量方法,其特征是,步驟C中,每一個(gè)表 達(dá)式所對應(yīng)的猶豫模糊集中包括Ξ個(gè)評價(jià)屬性,分別為結(jié)構(gòu)特征S、運(yùn)算符特征0和運(yùn)算數(shù) 特征N;結(jié)構(gòu)特征S包括四個(gè)評價(jià)信息,分別為層次特征lev、長度特征len、位置特征POS和標(biāo) 志特征fla;運(yùn)算符特征0所包含的評價(jià)信息數(shù)目與查詢表達(dá)式中運(yùn)算符的個(gè)數(shù)相同;運(yùn)算 數(shù)特征N所包含的評價(jià)信息數(shù)目與查詢表達(dá)式中運(yùn)算數(shù)的個(gè)數(shù)相同; 結(jié)構(gòu)特征S、運(yùn)算符特征0和運(yùn)算數(shù)特征N中的每一個(gè)評價(jià)信息均有相應(yīng)的隸屬度函數(shù), 分別如下: I、 基于層次特征lev的隸屬度函數(shù)為: 山 ev=e_a.lev (3) 式(3)中,lev表示查詢表達(dá)式MEq在結(jié)果表達(dá)式fk中的層次,α為層次特征權(quán)重系數(shù); II、 基于長度特征len的隸屬度函數(shù)為:(4) 式(4)中,few曬,表示查詢表達(dá)式MEq中的符號個(gè)數(shù),表示結(jié)果表達(dá)式fk中的符號個(gè) 數(shù); III、 基于位置特征POS的隸屬度函數(shù)為:式(5)中,POS表示查詢表達(dá)式MEq在結(jié)果表達(dá)式fk中的位置順序,β為位置特征權(quán)重系 數(shù); IV、 基于標(biāo)志特征f la的隸屬度函數(shù)為: UFLA={(fla,Ufia)|flae {0,1,2,4,5,6,7,8}} (6) 式(6)中,fla表示查詢表達(dá)式MEq在結(jié)果表達(dá)式fk中關(guān)于上一層次符號的位置信息,ufia 表示f la對應(yīng)的隸屬度值; V、 運(yùn)算符特征0的隸屬度函數(shù)為:C7) 式(7)中,i為當(dāng)前運(yùn)算符在查詢表達(dá)式所有運(yùn)算符中出現(xiàn)的序號;教;,表示查詢表達(dá)式 MEq中運(yùn)算符〇1對應(yīng)的權(quán)重,《W?'。,表示結(jié)果表達(dá)式fk中運(yùn)算符〇1出現(xiàn)的次數(shù),num。表示結(jié)果 表達(dá)式fk中所有運(yùn)算符的數(shù)目; VI、 運(yùn)算數(shù)特征N的隸屬度函數(shù)為:(8) 式(8)中,j為當(dāng)前運(yùn)算數(shù)在查詢表達(dá)式所有運(yùn)算數(shù)中出現(xiàn)的序號;游;表示查詢表達(dá)式 MEq中運(yùn)算數(shù)η擁應(yīng)的權(quán)重,表示結(jié)果表達(dá)式fk中運(yùn)算數(shù)nj出現(xiàn)的次數(shù),numn表示結(jié)果 表達(dá)式fk中所有運(yùn)算數(shù)的數(shù)目。3. 根據(jù)權(quán)利要求2所述的數(shù)學(xué)表達(dá)式相似距離測量方法,其特征是,運(yùn)算符和運(yùn)算數(shù)統(tǒng) 稱為符號;查詢表達(dá)式MEq中符號C所對應(yīng)的權(quán)重的計(jì)算公式如下:(9 ) 式(9)中,γ為符號權(quán)重系數(shù),count。表示數(shù)據(jù)庫中包含符號C的表達(dá)式個(gè)數(shù),counts表 示數(shù)據(jù)庫中所有表達(dá)式的個(gè)數(shù)。4. 根據(jù)權(quán)利要求3所述的數(shù)學(xué)表達(dá)式相似距離測量方法,其特征是,公式(9)中的參數(shù) 丫是通過如下方法求得的: 統(tǒng)計(jì)數(shù)據(jù)庫中包含每個(gè)符號的表達(dá)式個(gè)數(shù),若含有某一符號的表達(dá)式個(gè)數(shù)最少,則將 含有該符號的表達(dá)式個(gè)數(shù)記為COUntmin,COUntmin>0; 巧的最大整數(shù),將其位數(shù)記為M,且當(dāng)INT = 0時(shí), 記 1=1,則丫 =l〇M。5. 根據(jù)權(quán)利要求2所述的數(shù)學(xué)表達(dá)式相似距離測量方法,其特征是,層次特征lev的隸 屬度函數(shù)uiev中的參數(shù)α是通過如下方法求得的: 首先,選取Ξ組層次特征lev的節(jié)點(diǎn)定標(biāo)數(shù)據(jù),分別為(levmin,l)、(levmid,0.5)和 (1 eVmax,"心胃);1 eVmin為數(shù)據(jù)庫中所有表達(dá)式層次的最小值,1 eVmax為數(shù)據(jù)庫中所有表達(dá)式 層次的最大值,leVmid為數(shù)據(jù)庫中表達(dá)式層次分布的重屯、,鴻^"為16¥11131對應(yīng)的隸屬度函數(shù), 其值為1除W數(shù)據(jù)庫中表達(dá)式總數(shù); 其次,根據(jù)所選取的Ξ組層次特征lev的節(jié)點(diǎn)定標(biāo)數(shù)據(jù)繪制散點(diǎn)圖,并添加趨勢線,趨 勢線為指數(shù)函數(shù),經(jīng)過曲線擬合得到函數(shù)Ulev,進(jìn)而可得到參數(shù)α的值。6. 根據(jù)權(quán)利要求2所述的數(shù)學(xué)表達(dá)式相似距離測量方法,其特征是,位置特征POS的隸 屬度函數(shù)UPDS中的參數(shù)β是通過如下方法求得的: 首先,選取Ξ組位置特征pOS的節(jié)點(diǎn)定標(biāo)數(shù)據(jù),分別為(pOSmin-1,1 )、(pOSmid-1,0.5)和 (pOSmax-1) ;P〇Smin為數(shù)據(jù)庫中所有表達(dá)式長度的最小值,pOSmax為數(shù)據(jù)庫中所有表達(dá) 式長度的最大值,POSmid為數(shù)據(jù)庫中表達(dá)式長度分布的重屯、,為pOSmax對應(yīng)的隸屬度函 數(shù),其值為1除W數(shù)據(jù)庫中表達(dá)式總數(shù); 其次,根據(jù)所選取的Ξ組位置特征POS的節(jié)點(diǎn)定標(biāo)數(shù)據(jù)繪制散點(diǎn)圖,并添加趨勢線,趨 勢線為指數(shù)函數(shù),經(jīng)過曲線擬合得到函數(shù)UpDs,進(jìn)而可得到參數(shù)β的值。7. 根據(jù)權(quán)利要求2所述的數(shù)學(xué)表達(dá)式相似距離測量方法,其特征是,基于標(biāo)志特征f la 的隸屬度函數(shù)具體為: UFLA={(fla,Ufia)|fla = 0,l,2,4,5,6,7,8} = {(0,l),(l,0.7),(2,0.55), (4,0.3),巧,0.7),(6,0.75),(7,0.25),(8,0.25)}。
【文檔編號】G06F17/30GK105975584SQ201610293330
【公開日】2016年9月28日
【申請日】2016年5月3日
【發(fā)明人】田學(xué)東, 張凱歌, 周南, 張植明
【申請人】河北大學(xué)