專利名稱:中文漢語到盲文的自動轉換方法
技術領域:
本發(fā)明屬于計算機文字處理技術領域,特別涉及盲人用計算機的文字轉換技術。
盲人使用盲文(摸讀的點字符號)進行文化學習與信息交流。目前在國外一些發(fā)達國家中,已經(jīng)研究出較好的盲人用計算機及其操作平臺。英國已研制出盲人用的計算機,其鍵盤各鍵是由大小、形狀、紋理不一,每鍵均帶有發(fā)聲機制的多媒體信息交互功能。在中國,近年來為了使盲人能夠使用計算機及能夠閱讀普通文本也作了一些局部的工作,如中國盲文書社在中國殘疾人聯(lián)合會和中國盲人協(xié)會的資助支持下,研制出盲文分詞連寫系統(tǒng);北京圖書館在Dos操作系統(tǒng)下研究過盲人閱讀機,是將印刷體普通漢字文本通過掃描輸入計算機進行識別,再將識別的漢字轉換成聲音由計算機輸出;使盲人能夠聽到普通文本;清華大學自動化系研究過盲人用鍵盤輸入法,用聲音幫助選字,及在Dos下的漢字盲文轉換。
上述已有技術的不足之處其一,在漢語漢字與盲文的轉換中沒有應用自然語言理解處理技術,分詞準確性不高。
其二,不能在Windows環(huán)境下工作,如編輯、打印等。
本發(fā)明的目的是為克服已有技術的不足之處,提出一種漢字到漢語盲文的自動轉換方法。根據(jù)漢語盲文分詞連寫規(guī)則對漢字文本作盲文分詞連寫,然后將詞轉換成盲文;使用該方法,三字以上的詞很少有多音現(xiàn)象。具有特殊符號輸入轉換??稍谖臋n中輸入、轉換數(shù)學符號。同時可以根據(jù)需要加入其它特殊字符庫,如化學、物理等。轉換后的盲文可以進行修改保存,并且能夠在Windows下直接驅動盲文打印機進行盲文打印。轉換正確率高,在98%以上。
本發(fā)明提出一種漢字到漢語盲文的自動轉換方法,其特征在于首先根據(jù)漢語盲文分詞連寫規(guī)則對漢字文本作盲文分詞連寫,然后將詞轉換成盲文;所說的分詞,是把一個一個的詞分開來寫;所說的連寫,是根據(jù)盲文的特點,按漢語語法、語音的邏輯性和習慣、音節(jié)長短適度的原則將一些詞連起來寫,以避免音節(jié)結構過于分散,便于模讀。
本發(fā)明所述方法具體可包括以下步驟1)首先對非漢語符號進行預切分處理,讀入一段連續(xù)的漢字串,分別用MM法和RMM法,根據(jù)詞表進行分詞;2)比較MM和RMM分詞結果是否相同,相同,記錄分詞結果,轉入步驟1;3)MM和RMM分詞結果不相同,構造歧義字段的歧義樹,搜索最優(yōu)分詞結果,記錄分詞結果,轉入步驟1;4)判斷文本分詞是否完畢?若是,按照盲文分詞連寫規(guī)則對分詞結果進行修改,生成分詞結果對應的盲文點字。
本發(fā)明所說的漢語盲文分詞連寫規(guī)則具體可包括以下內(nèi)容1)拼寫普通話基本上以詞為寫書單位,一個詞的各個詞素和音節(jié)連寫在一起。
2)幾個多音節(jié)詞組成的固定詞組,表示國名、社會單位和書刊等的專名概念,按詞分寫。
3)表示一個整體概念的雙音節(jié)和三音節(jié)結構,已經(jīng)詞化的(取得了詞的資格)連寫。
4)四個音節(jié)以上,表示一個整體概念的名稱,按詞(或語節(jié))分寫;不能按詞(或語節(jié))劃分的,全部連寫。
5)為了便于摸讀和理解,使詞意迅速形式概念,將一部分音節(jié)較少,在意義上結合得較為緊密的短詞組連寫在一起,以減少一些零散的單音形式。
本發(fā)明方法的主要特點是對漢字文本作盲文分詞連寫,分詞連寫是漢語盲文獨有的重要規(guī)則,它是為了更準確清晰地表達語意,使盲人文字更加精密化、科學化的一種方法。所謂分詞,即是把一個一個的詞分開來寫;所謂連寫,即是按照盲文的特殊性,避免音節(jié)結構過于分散,便于模讀,將一些詞連起來寫。分詞連寫必須遵循漢語語法、語音的邏輯性和習慣、音節(jié)長短適度的原則。在此基礎上派生出近100條具體的規(guī)則,普通漢語文本是不用分詞的,盲文則不然,盲文是一種特殊形式的拼音文字,盲人憑借指尖摸讀盲符,由符號形象傳入大腦,形成文字的讀音和詞義的概念。因此系統(tǒng)將普通漢語文本分詞,再加上盲文的特有規(guī)則(漢語盲文分詞連寫規(guī)則)。否則,即使轉換成了盲文,也是違反盲文習慣的“偽盲文”,是沒有實用價值的。
分詞連寫是漢語盲文獨有的重要規(guī)則,它是為了更準確清晰地表達語意,使盲人文字更加精密化、科學化的一種方法。利用鄰接約束知識和詞典進行正向、反向最大匹配來解決分詞連寫中的歧義和錯誤。盲文的分詞連寫后,詞的多音現(xiàn)象比字的多音現(xiàn)象少的多,三字以上的詞很少有多音現(xiàn)象。詞到盲文的轉換過程中還有部分多音現(xiàn)象是利用綜合知識庫中的漢語拼音知識、詞規(guī)則、語法規(guī)則和句法等知識、統(tǒng)計信息庫和相應的理解后處理進行多層次的歧義校正和糾錯處理。實現(xiàn)了漢語到盲文的轉換。
本發(fā)明方法具有以下效果1.具有特殊符號輸入轉換。已建立了數(shù)學庫,可在文檔中輸入、轉換數(shù)學符號。同時可以根據(jù)需要加入其它特殊字符庫,如化學、物理等。
2.轉換后的盲文可以進行修改保存,并且能夠在Windows下直接驅動盲文打印機進行盲文打印。轉換正確率高,在98%以上。
附圖簡要說明
圖1為本發(fā)明方法的具體流程圖。
圖2為本發(fā)明構造歧義字段的歧義樹的示意圖。
以下結合實施例對本發(fā)明的實現(xiàn)方法詳細進行說明。
本發(fā)明方法的具體實施例的步驟如圖1所示,包括1)首先對非漢語符號進行預切分處理,讀入一段連續(xù)的漢字串,分別用MM法和RMM法,根據(jù)詞表進行分詞;2)比較MM和RMM分詞結果是否相同,相同,記錄分詞結果,轉入步驟1;3)MM和RMM分詞結果不相同,構造歧義字段的歧義樹,搜索最優(yōu)分詞結果,記錄分詞結果,轉入步驟1;4)判斷文本分詞是否完畢?若是,按照盲文分詞連寫規(guī)則對分詞結果進行修改,生成分詞結果對應的盲文點字。
本發(fā)明中所應用的算法說明如下1.分詞在本發(fā)明中,是采用基于Markov模型的雙向掃描法完成的漢語分詞,具體地說,先結合正向最大匹配和反向最大匹配的方法對漢語文本雙向掃描進行兩遍粗分詞,然后將兩次分詞的結果相比較,一致的部分認為是正確的,不一致的部分(稱為歧義字段)則結合上下文的相關信息用基于Markov模型的統(tǒng)計的方法進行排歧處理。
(a)MM和RMMMM(THEMAXIMUM MATCHING METHOD)方法的基本思想是假設自動分詞詞典中的最長詞條所含漢字個數(shù)為I,則取被處理材料當前字符串序數(shù)中的I個字作為匹配字段,查找分詞詞典。若詞典中有這樣的一個I字詞,則匹配成功,匹配字段作為一個詞被切分出來;如果詞典中找不到這樣的一個I字詞,則匹配失敗。匹配字段去掉最后一個漢字,剩下的I-1個字符作為新的匹配字段,進行新的匹配,如此進行下去,直至切分到成功為止。即完成一輪匹配切分出一個詞,然后再按上面的步驟進行下去,直到切分出所有詞為止。
與MM方法相對應的方法是RMM(THE REVERSE DIRECTIONAL MAXIMUM MATCHIN(METHOD)方法。它的分詞過程與MM方法相同,不過是從句子(或文章)末尾開始處理,每次匹配不成功時去掉的是前面的一個漢字。RMM方法的精度要高一些,它的錯誤切分率為1/245。
(b)利用Markov模型解決分詞歧義在Markov二元模型中,認為某一個詞出現(xiàn)的概率是由它前1個詞決定的。
假設X=x1x2...xn是一串漢字,C=c1c2...cn是與漢字串X對應的某一個詞串,本發(fā)明的目標即求下式中的C*。C*=MaxC{P(C|X)}---(1)]]>使用Bayes公式,得P(C|X)=P(C)P(X|C)P(X)---(2)]]>可知,在上式中,P(X)是一個常量;P(X|C)可視為一個常量;那么,P(C|X)的大小僅僅取決于P(C)。所以式(1)可變形為C*=Max{P(C)|C是與X對應的詞串}(3)其中,P(C)在二元模型中可根據(jù)下式進行近似。
P(C)=P(c1c2…cn)=P(cn/c1c2…cn-1)·P(c1c2…cn-1)≈P(cn/cn-1)·P(c1c2…cn-1)≈P(cn/cn-1)P(cn-1/cn-2)…P(c2/c1)P(c1)(4)根據(jù)上文的理論推導,,本發(fā)明可以將產(chǎn)生歧義的漢字串所有可能的分詞方式定義為一個分詞空間。排除歧義的目的就是要找出分詞空間中的最優(yōu)解。此空間可以形式化為一個樹型結構的模型。樹中的每一個結點為可能切分出的候選詞。父結點為前面分出的詞,子結點為后面可能分出的候選詞。每個葉子結點到根結點的路徑代表一種分詞方案。父結點與子結點邊上的權值即為式(4)中的概率因子。
本發(fā)明構造歧義字段的歧義樹實例說明如下例句大使及其他人員幸免遇難。
構造出的歧義樹如附圖2所示MM的結果 大使及其他人員幸免遇難。
RMM的結果大使及其他人員幸免遇難。
歧義字段 及其他人員以“大使”為根結點,子樹包含了“及其他人員”所有可能的分詞情況,最后給所有葉子結點都添加一個表示“幸免”的子結點,這樣保證計算該分詞情況的出現(xiàn)概率時向后多考慮一個詞。
這里需要指出的是,由于本發(fā)明使用的是一個bigram模型,為了保證不丟失鄰接約束信息,在歧義字段的前、后各多取了一個詞。比如前例中的“大使”和“幸免”。
對于已經(jīng)構造出的帶權的歧義樹,本發(fā)明運用深度優(yōu)先的算法搜索出一條從根結點到葉結點概率經(jīng)過的邊權值相乘最大的路徑,即為分詞空間的最優(yōu)解。記錄這條路徑上除根結點以外所有經(jīng)過的結點,從而得到C*-具有最大似然度的分詞方案,完成了排歧處理。
2.盲文分詞連寫分詞連寫在漢語盲文中的作用概括成一句話,就是要使文字更能準確而精密地表達和理解思想內(nèi)容。分詞連寫的正確與否,關系到思想內(nèi)容能否準確地表達和理解。盲人摸讀的心理過程、大腦思維的運動以及思想內(nèi)容的表達和理解過程,歸結為一句話,就是邏輯的展開過程,這三者有機結合,三位一體,相互作用而共同統(tǒng)一完成的。因此,分詞連寫在外在形式上,詞形即不能過長,又不宜太散,這是基本規(guī)律。詞形過長,則缺少間隙,觸覺連續(xù)受刺激的時間較長,容易產(chǎn)生疲勞,影響摸讀效果;詞形太散,又不便于迅速形成概念,影響摸讀速度。
分詞連寫的基本原則是第一、要符合漢語語法;第二、要符合語言的邏輯性和習慣性;第三、在一定程度上還要考慮音節(jié)長短適度,適當?shù)販p少一些零散的單音詞。
這三條基本原則是相互聯(lián)系、相互滲透的統(tǒng)一體,在此基礎上派生出了近100條具體的規(guī)則。所有的盲文語料都是按這些規(guī)則做了分詞處理的,所以本發(fā)明必須在漢語分詞的基礎上加入盲文特有的規(guī)則,否則,即使轉換成了盲文,也是違反盲人觸摸心理和摸讀習慣的“偽盲文”,沒有應用價值。
通過對這些規(guī)則進行研究,本發(fā)明發(fā)現(xiàn)是按詞性進行分類的,可以利用帶有詞性標注的詞庫將它們形式化。
下面是部分形式化的規(guī)則的實施例規(guī)則符號說明+表示連寫、-表示分寫數(shù)字表示詞的字數(shù)小寫字母表示詞性大寫字母表示特殊漢字串,如果其后沒有對其的定義,則表示任意漢字省略號表示其前面詞性的漢字可以在此出現(xiàn)任意多次(一)名詞1.名詞跟單音節(jié)前加成分(副、總、非、反、超、老、阿、可、無等),不論是一個或是兩個,都連寫。如總工程師 副總工程師 老弟規(guī)則h+n 注示h=前接成分h+h+n n=名詞2.名詞跟的加成分(子、兒、頭、性、者、員、家、手、化、們、論、制、法、主義、分子、階級等)連寫。如帽子鳥兒木頭規(guī)則n+k注示k=后接成分3.單音節(jié)名詞得疊式連寫。如人人年年天天事事規(guī)則1n+1ns注示s表示與前一個詞相同4.方位詞的處理(1)附在名詞后面的單純方位詞,跟單音節(jié)名詞連寫,跟雙音節(jié)名詞分寫名詞前面有數(shù)量詞修飾語的,方位詞也分寫。如山上院子|里規(guī)則1n+f注示f=方位詞(二)動詞1.單音節(jié)動詞重疊式連寫;中間插入“一”和“了”也連寫。
如看看看一看規(guī)則1v+1vs1v+1K+1vs;K=一了2.動詞跟時態(tài)助詞“著”、“了”、“過”連寫;如果出現(xiàn)兩個以上的動詞,則時態(tài)肋詞跟最后一個動詞連寫。如參觀|訪問了學習著規(guī)則v+1K;K=著了過3.重疊式動詞之間插入否定副詞“不”,不論是單音節(jié)重疊式還是雙音節(jié)不完全重疊式(及雙音節(jié)動詞重疊式只重疊前一個音節(jié))連寫;雙音節(jié)重疊式動詞,“不”跟后面的動詞連寫。如聽不聽研究|不研究規(guī)則1v+1K+v;K=不2v-k+v;K=不4.“成”、“為”、“做”跟單音動詞組成合成詞,連寫;跟雙音動詞分寫。如打成|一片建設|成|公園規(guī)則1v+1K;K=成為做2v-1K;K=成為做(三)形容詞1.形容詞重疊式中間插入否定副詞“不”,不論是單音節(jié)重疊式還是雙音節(jié)不完全重疊式,都連寫;雙音節(jié)完全重疊式中間插入的“不”,跟前面的詞分寫,跟后面的詞連寫。如好不好漂亮|不漂亮規(guī)則1a+1K+a;K=不2a-1K+as;K=不2.形容詞跟時態(tài)助詞“著”、“了”、“過”連寫。如紅了|一點規(guī)則a+1K;K=著了過3.單音形容詞跟復雜趨向動詞連寫;雙音形容詞和帶有助詞的形容詞,跟復雜趨向動詞分寫。如大起來 熱火|起來規(guī)則1a+2K;K=出來進來出去過去起來2a-2K;K=出來進來出去過去起來為了便于對規(guī)則的擴展和修改,本發(fā)明將盲文分詞連寫規(guī)則寫成一個外部的規(guī)則腳本文件,每對一段漢語文字進行漢語分詞后,都調(diào)入此腳本文件,逐條規(guī)則進行檢測,若符合,則用規(guī)則對分詞結果進行調(diào)整。
3.轉換到盲文如果當前輸入內(nèi)容是數(shù)學公式,數(shù)字或者英文字母,則調(diào)用對應模塊進行處理,否則進行漢字的轉換。
數(shù)字或英文字母的轉換按照漢語盲文規(guī)則進行。數(shù)學公式的轉換需要遞歸的進行,因為公式的轉換必須按照運算符號的優(yōu)先級進行。例如分析一個分數(shù)線是否要寫成繁分數(shù)線,必須先分析其分子和分母,只有當分子或分母中至少有一個含有分數(shù)則需要按照繁分數(shù)進行轉換,否則按照普通分數(shù)進行轉換。
漢字的轉換是通過直接查找詞庫進行的,詞庫中的漢字詞能夠直接查找到對應的盲文ASCII碼。如果兩個詞通過分詞連寫合并了,而詞庫中并沒有合并后的詞,則將兩個詞對應的盲文ASCII碼合并,表示合并后漢字詞對應的盲文ASCII碼;如果某個詞通過分詞連寫后被分成一個以上的詞,則這些詞對應的盲文ASCII碼是該詞對應的盲文ASCII碼按照分詞時切分的對應位置進行切分而得到的。
本發(fā)明所說的漢語盲文分詞連寫規(guī)則具體包括以下內(nèi)容一.分詞連寫的一般原則1.拼寫普通話基本上以詞為寫書單位,一個詞的各個詞素和音節(jié)連寫在一起。如人跑好紅 我 這很 最 在 和朋友同學 閱讀看見電視機圖書館巧克力2.幾個多音節(jié)詞組成的固定詞組,表示國名、社會單位和書刊等的專名概念,按詞分寫。如中華|人民|共和國中國|社會|科學院3.表示一個整體概念的雙音節(jié)和三音節(jié)結構,已經(jīng)詞化的(取得了詞的資格)連寫。如鋼鐵 開關 全國 大會 愛國 種田 說話 心想 膽小大后方 愛鳥周 背地里 對不起 吃得消4.四個音節(jié)以上,表示一個整體概念的名稱,按詞(或語節(jié))分寫;不能按詞(或語節(jié))劃分的,全部連寫。如無縫|鋼管 生產(chǎn)|關系 勞動|模范 國營|商店傷 寒|桿菌晶體管|功率|放大器環(huán)境|保護|規(guī)劃研究生院 紅十字會魚腥草素 古生物學家5.為了便于摸讀和理解,使詞意迅速形式概念,將一部分音節(jié)較少,在意義上結合得較為緊密的短詞組連寫在一起,以減少一些零散的單音形式。如大紅花黑 白片新 中國 盲文書 不錯 很好二.各類詞和詞組的寫法(一)名詞1.名詞跟單音節(jié)前加成分(副、總、非、反、超、老、阿、可、無等),不論是一個或是兩個,都連寫。如總工程師 副總工程師 非金屬 反彈道|導彈 超聲波 阿哥老弟 可見光 無籽瓜2.名詞跟的加成分(子、兒、頭、性、者、員、家、手、化、們、論、制、法、主義、分子、階級等)連寫。如帽子 鳥兒 木頭 科學性 工作者 技術員 考古學家 拖拉機手現(xiàn)代化 朋友們 辯證法 社會主義 積極分子 無產(chǎn)階級3.詞組后面的后加成分跟最后的詞連寫;動賓詞組后面的后加成分要單獨分寫。如兄弟|姐妹們 新聞|工作者 組織|紀律性 社會|保障法 承包|責任制 參加|會議|者 初學|寫作|者4.單音節(jié)名詞得疊式連寫。如人人 年年 天天 事事5.專有名詞的處理(1)漢語姓和名連寫;筆名、別名等同樣處理。如;李華 王建國 諸葛亮 梅蘭芳 魯迅 歐陽梅生(2)單姓跟稱呼、職務連寫;姓前后加有“老”、“小”等表示尊稱或親稱,也連寫。如
張同志 李先生 王部長 田主任 郭老 老楊 小劉(3)名字跟單音節(jié)稱呼連寫;跟雙音節(jié)稱呼分寫。如國華兄 阿慶嫂 建國|表弟(4)已經(jīng)專名化的稱呼連寫。如孔子 包公 西施 孟嘗君(5)漢語地名中的專名跟單音節(jié)普通名詞連寫,跟多音節(jié)普通名詞分寫。如太平洋 喜瑪拉雅山 黑龍江 黃河 洞庭湖 河北省 北京市華北|平原 昆倉|山脈 臺灣|海峽 澎湖|列島 珠江|三角洲(6)幾個并列的單音節(jié)專名,跟單音節(jié)通名連寫,跟多音節(jié)通名分寫。如京滬路 京漢線 寶成|鐵路 云貴|高原 陜甘寧|邊區(qū) 晉冀魯豫|根據(jù)地(7)專名前的附加成分,如是單音節(jié)的,跟專名連寫;如是雙音節(jié)的,則跟單音節(jié)專名連寫,跟多音節(jié)專名分寫;專名和通名之間插入的附加成分,跟專名分寫,跟通名連寫。如南太平洋 西歐 南美洲 東南亞南北|美洲 四川|東路 景山|后街 朝陽門|大街6.方位詞的處理(1)附在名詞后面的單純方位詞,跟單音節(jié)名詞連寫,跟雙音節(jié)名詞分寫;名詞前面有數(shù)量詞修飾語的,方位詞也分定。如山上 天上 地下 樹下 海外國際|上 院子|里 人世|間 一個月|內(nèi)每張|桌|上(2)合成方位詞本身的音節(jié)組成部分都應連寫。如以前 之后 之下 里頭 上面 底下 上下 左右 前后 前前后后里里外外(3)名詞跟附在后面的合成方位詞分寫。如國|內(nèi)外 村|東頭 屋|里頭 宇宙|之間 海洋|之中(二)動詞1.單音節(jié)動詞重疊式連寫;中間插入“一”和“了”也連寫。如看看 說說 看一看 說一說 看了看 說了說2.雙音節(jié)動詞,“甲甲乙乙”重疊式連寫,“甲乙|甲乙”重疊式分寫。如蹦蹦跳跳 說說笑笑 研究|研究 考慮|考慮3.動詞跟時態(tài)助詞“著”、“了”、“過”連寫;如果出現(xiàn)兩個以上的動詞,則時態(tài)肋詞跟最后一個動詞連寫。如學習著 看見了 思考過 參觀|訪問了4.重疊式動詞之間插入否定副詞“不”,不論是單音節(jié)重疊式還是雙音節(jié)不完全重疊式(及雙音節(jié)動詞重疊式只重疊前一個音節(jié))連寫;雙音節(jié)重疊式動詞,“不”跟后面的動詞連寫。如聽不聽 走不走 認不認識 了不了解 研究|不研究5.出現(xiàn)在動詞前面失去數(shù)量意義的“一”跟動詞連寫。如一閃|一閃 一動|不動6.動詞跟賓語分寫。如看|信|吃|魚 種|花 打|電話 交流|經(jīng)驗7.動賓式合成詞中間插入其它成分的,分寫。如鞠了|躬 結了|婚 理了|三次|發(fā) 說了|很多|話8.“成”、“為”、“做”跟單音動詞組成合成詞,連寫;跟雙音動詞分寫。如打成|一片 化為|蒸汽 當作|笑話 建設|成|公園
9.后補式雙音動詞連寫;中間插入“得”或“不”也連寫。如看見 聽懂 說明 看得見 聽得懂 說得明 看不見 聽不懂10.動詞加“得”表示可能和結果,連寫;中間插入“不”也連寫。如吃得 看得 計算得 吃不得 看不得 計算不得11.有些名詞或形容詞加上后加成分“化”,轉化為動詞,連寫。如詞化 酸化 堿化 美化 綠化 機械化 電器化12.動詞跟后面的數(shù)量詞分寫;已經(jīng)詞化的連寫。如看|一下 吃|兩塊 研究|一番 拿|點|東西 做|些|事有些|人 有點|冷 有點|不好意思13.動詞跟有示時間的方位詞分寫;已經(jīng)詞化的連寫。如走|前看|后(比較)他|生前|為|國家|做出了|很大|的|貢獻。
14.能源動詞跟動詞分寫;表示心理活動的動詞跟動詞也分寫。如能|說 會|寫 敢|想 愛|看 想|聽15.趨向動詞的處理(1)單音節(jié)動詞跟復雜趨向動詞或是雙音節(jié)動詞跟單純趨向動詞,都連寫。如拿起 放下 表現(xiàn)出 估計到 走進來 跑出去(2)動詞跟單純趨向動詞之間插入“得”或“不”,都連寫。如拿得起 放得下 站得住 考慮得到 拿不起 放不下 站不住(3)雙音節(jié)動詞跟復雜趨向動詞分寫;動詞帶有助詞的,跟復雜趨向動詞也分寫。如發(fā)展|起來 生產(chǎn)|出來 走了|起來 沖得|過去(4)動詞和趨向動詞之間插入“不”,動詞為雙音節(jié)、趨向動詞為單音節(jié),或者動詞為單音節(jié)、趨向動詞為雙音節(jié),都連寫;動詞和趨向動詞都是雙音節(jié)的,則分寫,“不”跟趨向動詞連寫。如沖不過 去跳不起來 整理不出 生產(chǎn)|不出來(5)動詞跟趨向動詞之間插入了賓語,分寫。如抬起|頭|來 跨進|門|去(三)形容詞1.形容詞重疊式,不論是完全重疊還是不完全重疊,都連寫;重疊式形容詞后面帶有“兒”字的,也連寫。如大大 慢慢 重重 干干凈凈 清清楚楚 糊里糊涂 古里古怪2.形容詞重疊式中間插入否定副詞“不”,不論是單音節(jié)重疊式還是雙音節(jié)不完全重疊式,都連寫;雙音節(jié)完全重疊式中間插入的“不”,跟前面的詞分寫,跟后面的詞連寫。如好不好 大不大 明不明白 漂亮|不漂亮 清楚|不清楚3.形容詞跟時態(tài)助詞“著”、“了”、“過”連寫。如紅了|一點 快了|一步 紅火著|呢 沒有|紅過|臉4.單音形容詞跟復雜趨向動詞連寫;雙音形容詞和帶有助詞的形容詞,跟復雜趨向動詞分寫。如大起來 熱火|起來 冷了|下來 繁榮|起來5.形容詞和趨向動詞之間插入“不”,形容詞為單音節(jié)、趨向動詞為雙音節(jié),都連寫;形容詞和趨向動詞都是雙音節(jié)的,“不”跟形容詞分寫,跟趨向動詞連寫。如熱不起來 熱鬧|不起來6.形容詞跟表示程度的補語“極了”連寫。如
棒極了 痛快極了7.程度補語“點”、“些”、“點兒”跟單音節(jié)形容詞連寫,跟雙音節(jié)形容詞分寫;形容詞和補語之間插入其它詞的,形容詞跟補語也分寫。如快些 慢點 好點兒 寬大|些 輕松|點 長了|點8.單音節(jié)形容詞跟重疊的前加成分或的加成分都連寫。如蒙蒙亮 亮堂堂 綠油油(四)數(shù)詞和量詞1.兩個單音的基數(shù)詞組合成的合成數(shù)詞連寫。如十五 二十 二百 四千 五萬 八億2.三個音節(jié)以上的數(shù)詞詞也連寫。如二十五 一百二十 一千三百 二萬八千四百五十六3.分數(shù)的寫法“分”跟前面的數(shù)詞連寫,“之”單獨寫。如百分|之|二十 十分|之|一 四分|之|三4.小數(shù)的寫法整數(shù)跟“點”、小數(shù)都連寫。如零點三 一點八 二十點六5.表示十分之一的“成”、百分之一的“分”、千分之一的“厘”以及表示倍數(shù)的“倍”跟數(shù)詞都連寫。如八成 五分 三厘 六倍6.表示敘述的前加成分“第”、“頭”、“初”等跟數(shù)詞連寫。如第一 第十五 頭一(名) 初一 初八7.基數(shù)詞跟單音節(jié)量詞(或單音節(jié)名詞)、多音節(jié)量詞連寫,跟量詞詞組分寫。如三丈 四人 一公里 十周年 五平方米 九|平方|公里8.合成數(shù)詞和數(shù)詞組跟單時節(jié)量詞(或單音節(jié)名詞)連寫,跟雙音節(jié)量詞或量詞詞組分寫。如八十米 三萬人 一千二百三十個 二十|公里 七十|周年9.阿拉伯數(shù)詞跟單音節(jié)量詞(或單音節(jié)名詞)連寫,中間加連號(如數(shù)詞跟量詞不易發(fā)生混淆的,可以不加)。如10-月 1-日 20-個 50-人 1992年10.四個音節(jié)以內(nèi)的合成量詞連寫,跟多音節(jié)數(shù)詞分寫。如二十|人次 四十|噸公里 五十|秒立方米 (50米3/秒的讀法)11.概數(shù)的寫法(1)表示不定數(shù)的兩個數(shù)詞組成的約數(shù)詞組連寫,跟單音節(jié)量詞或名詞也連寫。如億萬年 千百雙 七八個 四五十人(2)表示不定數(shù)的“兒”,跟數(shù)詞連寫;插在數(shù)詞和單音量詞或名詞中間的,也連寫。如幾百 幾千 幾個 幾天 三十幾 九十幾歲(3)表示不定數(shù)的“多”、“余”,出現(xiàn)在數(shù)詞、單音節(jié)量詞或名詞之后,連寫;插在數(shù)量詞組中間也連寫。如五十多 兩個多 三年多 二十余年 八十多米 一百多人(4)數(shù)量詞組跟后面的名詞分寫。如一百多米|布 兩個多|月(5)表示不定數(shù)的“來”,插在數(shù)量詞組中間,連寫;出現(xiàn)在數(shù)量詞組之后,跟量詞連寫,跟后面的名詞分寫。如七十來歲 百來塊 三個來|月
(6)表示概數(shù)的“把”,插在數(shù)量詞組中間,連寫;“把”后面是單音節(jié)名詞,也連寫。如百把個 千把條 萬把字(7)由量詞和“把”組成的詞組,跟后面的名詞分成。如個把|月 塊把|錢(8)表示不定數(shù)的“若干”、“許多”、“多少”等,跟量詞或名詞分寫。如若干|個 許多|年 多少|人12.數(shù)量詞后面跟有“半”或奇數(shù)詞,表示余量和尾數(shù),都連寫。如一年半 斤半 三兩五13.名量詞重疊表示“每”的意思連寫。如個個 條條 塊塊 粒粒(五)代詞1.合成的人稱代詞、指示代詞、疑問代詞的音節(jié)組成部分應連寫在一起。如本發(fā)明 大家 別人 人家 自己 這里 那兒怎樣 怎么樣 什么樣 為什么 幾時 多會兒2.指示代詞“這”、“那”、“每”、“某”、“名”、“該”、“本”以及疑問代詞“哪”、“幾”等,跟單音節(jié)名詞或量詞連寫。如每人 某事 各地 這山 該廠 本校 這種 那個 每位 哪塊 這班幾斤3.指示代詞和疑問代詞跟數(shù)量詞組分寫。如這|一年 每|一天 某|兩個 哪|幾位4.人稱代詞“我”、“你”、“他”跟單音節(jié)名詞連寫。如我國 你省 他鄉(xiāng) 別處 我爸 你媽(六)副詞1.雙音節(jié)副詞的音節(jié)組成部分應連寫在一起。如正在 將要 即將 偏要 非要 總得 必得 就得 未曾 未嘗2.副詞“相”跟單音節(jié)動詞連寫;跟雙音節(jié)動詞分寫。中相見 相應 相符相|結合 相|接觸 相|碰撞3.副詞修飾動詞不連寫,已經(jīng)詞化的就連寫。如全|來 光|說 剛|走 就|去 也|有 都|要 真|是 卻|是就是 便是 都是 還是 乃是 總是 只是 倒是 正是 也中極為 尤為 大為 更為 并沒有 并沒 并無 并未 從未4.有些副詞前后關聯(lián)呼應,把詞或詞組甚至分句連系起來,這些副詞都單獨分寫。如一|學|就|會 邊|走|邊|說 才|來|就|走 越|辯|越|明5.否定副詞“不”的處理(1)“不”跟某些名詞組成復合詞,連寫。如不日 不時 不法(2)“不”跟某些數(shù)量詞連寫。如不一 不幾天 不一會兒(3)“不”跟動詞、能愿動詞、形容詞、介詞、單音節(jié)程度副詞都連寫。如不怕 不能 不發(fā)展 不精彩 不把 不被 不很 不太(4)由“不”跟其它副詞組成的詞組已經(jīng)詞化的,連寫。如并不 并不是 決不 決不是 要不 要不是 莫不 莫不是 可不 可不是從不 無不 好不 毫不 永不注意上述詞組出現(xiàn)在能愿動詞前,則“不”跟前面的副詞分寫,跟能愿動詞連寫。如并|不能 絕|不會(5)由“不”組成的雙重否定形式,連寫;如果雙得否定形式修飾單個的詞,分兩段寫,后面的“不”跟被修飾的詞連寫。如不得不|令|人|信服 不能不|改變|計劃(6)從反面表達肯定意思的時候,“不”跟其它的詞分寫。如這|不|清楚了|嗎?那本|書|不|在|這|嗎?(7)“不”跟代詞、成語、聯(lián)合詞組或分寫的詞組不連寫。如不|這樣|做不|聚精會神|地|聽 不|調(diào)查|研究|不行(七)介詞1.介詞一般跟其它詞都分寫。如把|門|開開 被|風|吹滅|了 為|人民|服務 從|昨天|起2.介詞“在”、“到”、“給”、“于”出現(xiàn)在動詞后面,跟單音節(jié)動詞連寫,跟雙音節(jié)動詞分寫。如本發(fā)明|站在|高山|上|看|日出 大家|走到|這邊|來全國|人民|團結|在|黨中央|周圍 中國|由|新民主主義|社會|過渡|到|社會主義|社會他|將|畢生|的|力量|貢獻|給|中國|革命|事業(yè) 馬克思|誕生|于|1818年注意“估計到”、“認識到”、“考慮到”、“有利于”、“有害于”、“有待于”等是合成詞,不應分寫。
3.介詞“向”、“往”、“朝”跟單音方位詞結合成介賓詞組,連寫;如果介詞出現(xiàn)在動詞后面,介詞跟動詞連寫,跟方位詞分寫。如向前|看 往南|走 這|房子|朝東本發(fā)明|一起|奔向|2000年4.由兩組相對稱的介賓詞組組合的四字格式,連寫;中間插有“而”字的同樣處理。如從上到下 由東往西 自上而下 自始至終 由淺入深5.介詞“被”跟某些名詞、動詞組成的合成詞,連寫。如被選舉權 被統(tǒng)治階級 被剝削階級 被領導 被壓迫(八)連詞連詞的分詞連寫處理較為簡單,跟其它詞或詞組一律分寫;其本身的音節(jié)組成部分必須連寫在一起。一些雙音節(jié)的連詞,如果將它們分寫,詞形就會發(fā)生變化。例如但是 若是 要是 或是 即使 倘使與其……勿寧 只要……就 只有……才(九)助詞助詞分為結構助詞、時態(tài)助詞和語氣助詞。
1.結構助詞的處理(1)為了容易掌握,并能適應將來電腦制版的需要,根據(jù)1991年12月北京盲文出版業(yè)務研討會的決定,將作為定語標志和“的”字結構的“的”以及作為狀語標志的“地”,跟其它詞語一律分寫。它們的書寫形式是“的”定形式“”,“地”定形為“”。如本發(fā)明|熱愛|偉大| |祖國,要|做|祖國| |好兒女。我國|人民|過著|幸福| |生活。商店|里|擺滿了|吃|、穿|、用|。打針||請|過來(2)作為補語標志的“得”,跟其它詞語都連寫。如寫得|不錯 熱得|出汗 打掃得|干干凈凈 好得|很(3)結構助詞“之”跟其它詞語分寫。如殘疾人|之|家 最|發(fā)達|國家|之|一(4)“所”修飾及物動詞分寫。如所|說| |問題 所|關心| |事情由“所”構成的合成詞連寫。如所謂 所有 所得 所在 所致 所有制 所在地2.時態(tài)助詞“著”、“了”、“過”跟動詞、形容詞連寫。前面在講動詞和形容詞的處理時,已經(jīng)途述過,此處不財贅述。
3.語氣助詞的處理(1)語氣助詞在句末出現(xiàn),分寫。如你|去|嗎?他|怎么|還|不來|呢?我|只是|說說|罷了!(2)“了”、“的”出現(xiàn)在句末作語氣助詞,也分寫。如我|馬上|走|了 天|快|下雨|了 這事|我|不會|忘記|中國|人民|是|偉大| 這輛|小轎車|是|本發(fā)明|(3)表示停頓語氣的助詞“者”跟其它詞語分寫。如望|者,看|形色|也;聞|者,聽|聲音|也;問|者,訪|病情|也;切|者,診|六脈|也。
(十)嘆詞1.表示應答或感嘆的詞都要單獨寫;其本身的音節(jié)組成部分要連寫。在歌詞中出現(xiàn)的確良連串嘆詞,要按其韻律和節(jié)律連寫或分寫。如??!太好|了!哎呀!你|怎么|搞| 哈哈,這|是|給|你|說|笑活|呢。啊哈|呵呢哪!2.模擬聲音的嘆詞(擬聲詞),兩個或三個音節(jié)的都連寫;四個音節(jié)的,如果是“甲甲乙乙”重疊式或是“甲乙丙丁”排列式的,也連寫;“甲乙|甲乙”重疊式,就分寫。如撲通 嘩嘩啦啦 嘰嘰喳喳 嘰哩咕嚕 叮當|叮當 嘩啦|嘩啦(十一)聯(lián)合詞組1.五個以內(nèi)并列的單音名詞、方位詞連寫。如師生 軍民 工農(nóng)兵 油鹽醬醋 工農(nóng)商學兵 農(nóng)林牧副漁2.四個以內(nèi)并列的常見的單音專名連寫。如中日|友好|條約 英美法|三國 唐宋|詩詞 明清|兩代3.四個并列的單音動詞連寫。如打鬧 哭笑 來去 聽寫 摸爬滾打 吃喝玩樂4.四個以內(nèi)并列的單音形容詞連寫。如新舊 好壞 輕重 冷熱 大中小 多快好省(十二)偏正詞組1.單音名詞修飾單音名詞、單音名詞修飾多音名詞以及多音多詞修飾單音名詞,都連官。如人腦 書皮 菜葉 身高 體重 棉大衣 皮手套 女工程師.機器人 血吸蟲病 扁桃體炎2.單音名詞修飾多音名詞組成的詞組,都分寫。如女|技術|人員 女|大學|校長
3.多音名詞修飾單地名詞表示領屬關系的,分寫。如小河|水 姥姥|家4.兩個以上并列的多音詞修飾單音名詞,分寫;單音名詞跟后面的詞連寫。如水利|電力部 五金|橡膠廠 分詞|連寫法5.由單音詞組成的偏正詞組修飾單音名詞,連寫;修飾多音名詞,分寫。如紅燒肉 清燉魚 紅燒|牛肉 清燉|甲魚6.由多音詞組成的偏正詞組修飾單音名詞,分寫;單音名詞跟后面的詞連寫。如中國|青年報 盲人|月刊社 八小時|工作制7.由單音詞組成的主謂詞組修飾單音名詞,連寫;修飾多音名詞,分寫。如盲用紙 水澆地 水煮肉 油燜筍 頭痛病 酸溜|白菜8.由單音詞組成的主謂詞組修飾單音名詞,分寫;單音名詞跟后面的詞連寫。如盲文|印刷廠 風景|游覽區(qū) 成績|優(yōu)等生 貢獻|突出者殘疾人|保障法腰椎間盤|突出癥9.單音名詞修飾由單音形容詞和雙音名詞組成的偏正詞組,表示生理解剖學方面的某些專用術語,連寫。如拇長伸肌 顳淺動脈 耳大神經(jīng) 腓總神經(jīng)10.有些以中藥名組成的詞組,修飾單音節(jié)的“丸”、“散”、“膏”、“丹”、“湯”等,不便于分寫的就連寫。如香沙六君子湯 六味地黃丸 防風通圣散11.方位詞修飾名詞,連寫。如左手 上身 前額 右肩膀 左右手 左上方 右下角12.單純方位詞修飾單音形容詞,連寫。如外寒 里熱13.雙音動詞修飾單音名詞或是單音動詞修飾雙音名詞,都連寫。如叫賣人 受傷外 結合部 交界處 匯合點 烤白薯 涮羊肉14.動賓詞組修飾單音名詞,連寫。如掌舵人 砍柴工 售票處 通風處 洗衣機 切菜刀 推頸項法15.兩個并列的單音形容詞修飾單音名詞,連寫。如大紅花 黑白片 紅綠燈16.兩個形容詞組合的偏正詞組,連寫。如大喜 大好 多大 多重17.單音形容詞修飾單音名詞、單音形容詞修飾多音名詞或是多音形容詞修飾單音名詞,都連寫。如好人 好事 紅花 綠葉 新中國 大草原 小手工業(yè)者 漂亮者18.單音形容詞修飾由多音詞組成的詞組分寫。如新|生產(chǎn)|關系 大|百貨|公司 小|四輪|拖拉機19.單音動詞修飾單音動詞,連寫。如帶有 裝有 進住 免征 代收 托辦20.單音形容詞修飾單音動詞,連寫;如果動詞后帶有時態(tài)助詞的,也連寫;動詞后出現(xiàn)的介詞,分寫。如好辦 難寫 常見 多見 大堿 大笑高舉 生吃 緊盯著21.有的單音能愿動詞和副詞,跟單音動詞組成偏睚詞組充當修飾語時,已經(jīng)詞化的,連寫。如應盡|責任 應有|態(tài)度 應付|款項 特定|制度 特派|記者22.數(shù)量詞組中間插入單音形容詞,如數(shù)詞和量詞(或名詞)都是單音的,連寫;否則就分寫。如一整套 一小段 四大件 七大洲 兩|大|部分 九|大|行星23.“前”、“后”、“上”、“下”、“頭”修飾由單音數(shù)詞和量詞(或名詞)組成的詞組,連寫。如前半年 頭半天 前幾年 上一周 下一次 前三個|月 (比較) 離開|北京|前|一天24.單音程度副詞修飾單音形容詞,連寫。如最好 最壞 更美 較快(十三)動賓詞組1.動詞充當謂語動詞時,動詞跟賓語分寫。如山上|無|霜|而|山腰|卻|有|霜 你|吃|飯 小張|種|菜2.單音動詞和單音名詞組成的動賓詞組,已經(jīng)詞化的,連寫。如說話 喜人 逼人 氣人 急人 迷人 上山 下鄉(xiāng) 爬山 跳水3.單音動詞和單音名詞組成的動賓詞組,充當主語、賓語和定語時,都連寫。如讀書、看報|能|增長|知識(“讀書”、“看報”做主語)全校|師生員工|積極|參加了|植樹、造林(“植樹”、“造林”做賓語)小張|是|種菜|能手,小王|是|養(yǎng)豬|模范(“種菜”、“養(yǎng)豬”做定語)4.單音動詞和單音名詞組成的動賓詞動,作為醫(yī)學用語表示一個概念,連寫。如健牌 合胃 舒經(jīng) 活絡 清熱 解毒5.由動詞“為”和單音名詞組成的動賓詞組,已名詞化的,連定。如為人 為師 為父 為娘 為妻 為時(比較)為|人|師表(十四)述補詞組1.單音述語包括(動詞或形容詞)跟雙音補語或是雙音述語跟單音補語,都連寫;述語和補語之間插入“不”,也連寫。如洗干凈 搞清楚 準備好 整理完 洗不干凈 準備不好2.述語和補語都是雙音節(jié)的,中間插入“不”,跟述語分寫,跟補語連寫。如清洗|不干凈 準備|不周全 考慮|不妥當(十五)主謂詞組1.主語和謂語一般應分寫。如雨|停|云|散|天|晴|了 他|人|好|心|善2.由單音名詞和單音動詞或形容詞組成的主謂詞組,充當主語、賓語和定語時,連寫。如天旱|是|莊稼|欠收| |一個|重要|原因(“天旱”做主語)有|刀砍、斧劈、繩勒、投毒|等(“刀砍”、“斧劈”、“繩勒”、“投毒”做賓語)本發(fā)明|要|盡量|少吃|煙熏、火烤| |食品(這兩句話里的“校辦”、“煙熏”、“火烤”都是定語)3.三個音節(jié)以內(nèi)的主謂詞組,作為一種病癥的名稱時,連寫。如偏頭痛 神經(jīng)痛 腰扭傷 肺氣腫 胃下垂 心絞痛4.單音名詞和單音動詞或形容詞組成的主謂詞組,表示某種癥狀時連寫;如果謂語是詞組,就分寫。如口干 舌燥 苔白 脈弦 痰多 尿頻脈|細數(shù) 苔|白|而|膩 腰|酸痛 痰|多|粘白|泡沫5.單音名詞和單音動詞或形容詞組合的主謂詞語,已經(jīng)詞化的,連寫。如天明 氣爽 水煎 水洗 火燒 火燙 話說 心想(十六)成語
1.四言(音節(jié))以外的成語按詞分寫。如破天荒 下馬威 樹|倒|猢猻|散 風|馬牛|不相及 心|有|余|而|力|不足 愚人|千慮|必|有|一得3.四言成語中,有一個復音詞能獨立分寫的,就按詞分寫。如對|牛|彈琴 另|起|爐灶 肆|無|忌彈 危|在|旦 夕 安|天衣|無|縫 侃侃|而|談 前車|之|鑒3.四言成語為聯(lián)合式的并列式、主謂加主謂、動賓加動賓、偏正加偏正、連動式、兼語式以及其它四言獨立形式的成語,一律連寫,中間不加連號。如青紅皂白 生老病死 風花雪月 心滿意足 手舞足蹈 驚天動地 懲前毖后開源節(jié)流 養(yǎng)精蓄銳 和風細雨 左顧右盼(十七)略語略語應當連寫在一起,作為一個詞處理。其組成形式大致有下列三種1.取詞組兩個詞的詞頭。如中共 人大 政協(xié) 文教 科技 文改2.兩個或三個并列的修飾訓共有一個中心語。如指戰(zhàn)員 海陸空軍 大中小學 貧下中農(nóng) 工農(nóng)業(yè)3.用數(shù)字概說并列的幾項。如五愛 四害(十八)古漢語古代漢語的詞基本都是單音節(jié)的,復音詞很少。其分詞連寫方法,可參照本規(guī)則辦法處理,每個字都應標調(diào)(常用的慮詞除外),以便于理解。如南|其|轅|而|北|其|轍
權利要求
1.一種漢字到漢語盲文的自動轉換方法,其特征在于,首先根據(jù)漢語盲文分詞連寫規(guī)則對漢字文本作盲文分詞連寫,然后將詞轉換成盲文;所說的分詞,是把一個一個的詞分開來寫;所說的連寫,是根據(jù)盲文的特點,按漢語語法、語音的邏輯性和習慣、音節(jié)長短適度的原則將一些詞連起來寫,以避免音節(jié)結構過于分散,便于摸讀。
2.如權利要求1所述的方法,其特征在于,具體包括以下步驟1)首先對非漢語符號進行預切分處理,讀入一段連續(xù)的漢字串,分別用MM法和RMM法,根據(jù)詞表進行分詞;2)比較MM和RMM分詞結果是否相同,相同,記錄分詞結果,轉入步驟1;3)MM和RMM分詞結果不相同,構造歧義字段的歧義樹,搜索最優(yōu)分詞結果,記錄分詞結果,轉入步驟1;4)判斷文本分詞是否完畢?若是,按照盲文分詞連寫規(guī)則對分詞結果進行修改,生成分詞結果對應的盲文點字。
3.如權利要求1所述的方法,其特征在于,所說的漢語盲文分詞連寫規(guī)則具體包括以下內(nèi)容1)拼寫普通話基本上以詞為寫書單位,一個詞的各個詞素和音節(jié)連寫在一起;2)幾個多音節(jié)詞組成的固定詞組,表示國名、社會單位和書刊等的專名概念,按詞分寫;3)表示一個整體概念的雙音節(jié)和三音節(jié)結構,已經(jīng)詞化的連寫;4)四個音節(jié)以上,表示一個整體概念的名稱,按詞或語節(jié)分寫;不能按詞或語節(jié)劃分的,全部連寫;5)為了便于摸讀和理解,使詞意迅速形式概念,將一部分音節(jié)較少,在意義上結合得較為緊密的短詞組連寫在一起,以減少一些零散的單音形式。
全文摘要
本發(fā)明屬于計算機文字處理技術領域,其特點是首先根據(jù)漢語盲文分詞連寫規(guī)則對漢字文本作盲文分詞連寫,然后將詞轉換成盲文;使用該方法,三字以上的詞很少有多音現(xiàn)象。具有特殊符號輸入轉換??稍谖臋n中輸入、轉換數(shù)學符號。同時可以根據(jù)需要加入其它特殊字符庫,轉換后的盲文可以進行修改保存,并且能夠在Windows下直接驅動盲文打印機進行盲文打印。轉換正確率高,在98%以上。
文檔編號G06F17/28GK1323005SQ0111867
公開日2001年11月21日 申請日期2001年6月8日 優(yōu)先權日2001年6月8日
發(fā)明者朱小燕, 江銘虎, 夏瑩, 馬少平, 姜哲, 包塔, 譚剛 申請人:清華大學