專利名稱:華語(yǔ)自動(dòng)分詞注音新技術(shù)的制作方法
技術(shù)領(lǐng)域:
智能化的計(jì)算機(jī)漢語(yǔ)信息處理技術(shù);現(xiàn)代漢語(yǔ)自動(dòng)分詞技術(shù)和自動(dòng)注音技術(shù)的有機(jī)結(jié)合。
二、國(guó)內(nèi)外對(duì)現(xiàn)代漢語(yǔ)自動(dòng)注音研究的現(xiàn)狀1、中國(guó)的漢語(yǔ)注音讀物有兩大類一是中國(guó)大陸的漢語(yǔ)拼音注音讀物,主要是小學(xué)低年級(jí)教材和課外讀物;學(xué)齡前兒童注音讀物和成人掃盲注音讀物;供外國(guó)人閱讀和學(xué)習(xí)漢語(yǔ)漢字的注音讀物;在中國(guó)的外國(guó)留學(xué)生學(xué)習(xí)漢語(yǔ)漢字的注音教材。二是中國(guó)臺(tái)灣使用注音字母的注音讀物,應(yīng)用范圍同大陸相當(dāng)。目前注音讀物的創(chuàng)作、編輯和出版,仍然以人工注音,鉛排印刷為主要技術(shù)手段。近年一些注音讀物的激光電子排版印刷,同樣以人工注音為前提。
2、國(guó)內(nèi)少數(shù)人進(jìn)行的計(jì)算機(jī)自動(dòng)注音研究,停留在按字為單位進(jìn)行注音的階段,注音準(zhǔn)確率低,不按詞連寫,不符合我國(guó)注音讀物的規(guī)范。國(guó)內(nèi)外尚未發(fā)現(xiàn)本發(fā)明以外的有效的自動(dòng)分詞注音研究成果。
三、本發(fā)明的目的使用先進(jìn)的計(jì)算機(jī)技術(shù),通過(guò)智能化手段,實(shí)現(xiàn)快速的、準(zhǔn)確度高的現(xiàn)代漢語(yǔ)文本自動(dòng)分詞注音,取代效率低下、錯(cuò)誤繁多的傳統(tǒng)的人工注音。把現(xiàn)代漢語(yǔ)注音技術(shù)推向現(xiàn)代化、標(biāo)準(zhǔn)化和規(guī)范化。
使用目前國(guó)內(nèi)外各種漢字系統(tǒng)所生成的漢字機(jī)讀文章,不用經(jīng)過(guò)人工分詞,通過(guò)本技術(shù)處理后立即自動(dòng)注音,變?yōu)榉衷~注音的、漢字詞和拼音詞兩相對(duì)照的注音文章,注音符合國(guó)家的“漢語(yǔ)拼音”規(guī)范,分詞符合國(guó)家的“漢語(yǔ)拼音正詞法”規(guī)范。自動(dòng)分詞注音的準(zhǔn)確率達(dá)到98%。經(jīng)過(guò)人工少量校正,符合出版要求。
使用計(jì)算機(jī)技術(shù)實(shí)現(xiàn)現(xiàn)代漢語(yǔ)文本的自動(dòng)分詞和自動(dòng)注音,有利于提高我國(guó)注音讀物的質(zhì)量,克服過(guò)去因人而異的注音混亂現(xiàn)象,實(shí)現(xiàn)注音讀物的規(guī)范化,大大加快注音讀物的出版周期。利于人們學(xué)習(xí)漢語(yǔ)漢字和掌握普通話,促進(jìn)發(fā)展我國(guó)民族共同語(yǔ),提高人們的文化質(zhì)素。同時(shí)有利于外國(guó)人學(xué)習(xí)漢字漢語(yǔ),促進(jìn)中外文化交流。
四、本發(fā)明的內(nèi)容1、“現(xiàn)代漢語(yǔ)和漢語(yǔ)拼音相對(duì)應(yīng)的分詞規(guī)則”。
在研究現(xiàn)代漢語(yǔ)詞匯的相關(guān)關(guān)系和《漢語(yǔ)拼音正詞法基本規(guī)則》的基礎(chǔ)上,研究確定了本規(guī)則。本規(guī)則由詞性相關(guān)規(guī)則;綴加成分(前加成分和后加成分)處理規(guī)則;前后交連結(jié)構(gòu)判定規(guī)則;同形異音詞處理規(guī)則等部分構(gòu)成。本規(guī)則是實(shí)現(xiàn)計(jì)算機(jī)現(xiàn)代漢語(yǔ)自動(dòng)分詞和自動(dòng)注音技術(shù)的可靠基礎(chǔ)。
2、多屬性注音系統(tǒng)詞匯庫(kù)(漢字詞、拼音詞、詞匯屬性、交連結(jié)構(gòu)知識(shí)多位一體)和用戶臨時(shí)干預(yù)詞庫(kù)。
從“漢語(yǔ)拼音正詞法基本規(guī)則”出發(fā),對(duì)8萬(wàn)條現(xiàn)代漢語(yǔ)常用詞和次常用詞進(jìn)行注音和標(biāo)注詞性;從現(xiàn)代漢語(yǔ)自動(dòng)分詞實(shí)踐中,總結(jié)出語(yǔ)詞交連結(jié)構(gòu)的正確劃分規(guī)律,總結(jié)出語(yǔ)詞前加成分和后加成分的分詞連寫規(guī)則,拼音大寫小寫規(guī)則等,然后根據(jù)計(jì)算機(jī)科學(xué)檢索的要求,建成多屬性的注音詞匯庫(kù)。建造這個(gè)詞匯庫(kù),是正確分詞注音的重要依據(jù)。用戶臨時(shí)干預(yù)詞庫(kù)的作用是提高罕用語(yǔ)詞注音的準(zhǔn)確性。
3、“計(jì)算機(jī)華語(yǔ)自動(dòng)分詞注音技術(shù)”。
在漢語(yǔ)語(yǔ)詞規(guī)律研究的基礎(chǔ)上,研究確立了本技術(shù)。本技術(shù)包括現(xiàn)代漢語(yǔ)語(yǔ)詞減字切分法;多屬性詞庫(kù)(包括漢字詞庫(kù)和拼音詞庫(kù))檢索法;現(xiàn)代漢語(yǔ)交連結(jié)構(gòu)正確判斷法;漢字詞、拼音詞自動(dòng)對(duì)應(yīng)注音技術(shù)等。在本技術(shù)的指導(dǎo)下,研制成功了“華語(yǔ)自動(dòng)分詞注音系統(tǒng)”(又稱“華語(yǔ)自動(dòng)注音卡”。該系統(tǒng)能對(duì)現(xiàn)代漢語(yǔ)的計(jì)算機(jī)機(jī)讀文本,按照國(guó)家的漢語(yǔ)拼音正詞法的分詞連寫要求,按照國(guó)家漢語(yǔ)拼音規(guī)范(包括大寫小寫、標(biāo)調(diào)法、輕聲和兒化、隔音符號(hào)等)進(jìn)行正確分詞和正確注音,分詞和注音的正確率達(dá)到98%以上。
4、“華語(yǔ)注音結(jié)果文本輸出排版印刷技術(shù)”。
本技術(shù)包括注音結(jié)果文本的修改和計(jì)算機(jī)排版方法,注音結(jié)果文本在行式打印機(jī)上的格式打印輸出,以及通過(guò)代碼轉(zhuǎn)換同先進(jìn)的計(jì)算機(jī)激光照排系統(tǒng)相接口,實(shí)現(xiàn)注音結(jié)果文本的激光照排輸出,進(jìn)行注音讀物的高精度膠版印刷。
上述四項(xiàng)內(nèi)容的結(jié)合,構(gòu)成了“華語(yǔ)自動(dòng)分詞注音新技術(shù)”。
五、本發(fā)明的優(yōu)點(diǎn)及效果1、把現(xiàn)代漢語(yǔ)文章轉(zhuǎn)換為規(guī)范的拼音-漢字兩相對(duì)照的注音文章,不需人工事先對(duì)漢語(yǔ)文章做分詞處理、辨音標(biāo)調(diào)處理,真正實(shí)現(xiàn)現(xiàn)代漢語(yǔ)文章注音的自動(dòng)化、智能化;
2、采用本技術(shù)對(duì)現(xiàn)代漢語(yǔ)機(jī)讀文本進(jìn)行自動(dòng)注音,可以大大提高注音的工作效率,使用普通的微型計(jì)算機(jī),自動(dòng)注音的速度可達(dá)每分鐘1000個(gè)漢字以上,比人工注音高出許多倍;
3、采用本技術(shù)獲得的注音結(jié)果的準(zhǔn)確度高,規(guī)范性和一致性好。人工注音的最大缺點(diǎn)是一致性和規(guī)范性差,不同作者的注音差異性大,讀者難以適從。
4、改變注音讀物的寫作、編輯、排版?zhèn)鹘y(tǒng)方式,改變注音讀物出版的舊工藝,縮短注音讀物出版周期,減輕出版人員腦力、體力負(fù)擔(dān);促進(jìn)注音讀物出版的現(xiàn)代化、標(biāo)準(zhǔn)化、規(guī)范化;
5、本發(fā)明使注音讀物的創(chuàng)作和編輯出版變得非常容易,更方便地向人們提供注音讀物,幫助人們更快地掌握文化科學(xué)知識(shí),尤其是學(xué)好普通話和漢語(yǔ)拼音,促進(jìn)發(fā)展我國(guó)民族共同語(yǔ)。有利于外國(guó)人學(xué)習(xí)漢語(yǔ)。
現(xiàn)代漢語(yǔ)文本自動(dòng)注音前后的對(duì)照舉例原漢語(yǔ)文本我攀登過(guò)峰巒雄偉的泰山,游覽過(guò)紅葉似火的香山,卻從沒(méi)看見(jiàn)過(guò)桂林這一帶的山。桂林的山真奇啊,一座座拔地而起,各不相連,象老人,象巨象,象駱駝,齊峰羅列,形態(tài)萬(wàn)千;桂林的山真秀啊,象翠綠的屏障,象新生的竹筍,色彩明麗,倒映水中;桂林的山真險(xiǎn)啊,危峰兀立,怪石嶙峋,好象一不小心就會(huì)栽倒下來(lái)。
經(jīng)過(guò)自動(dòng)分詞注音后的注音文本
權(quán)利要求
“華語(yǔ)自動(dòng)分詞注音系統(tǒng)”具有以下技術(shù)特征1、待注音的漢語(yǔ)機(jī)讀文本,漢字與漢字之間不必留空,無(wú)須人工事先作分詞安排,分詞和注音由系統(tǒng)自動(dòng)完成。
2.形成的注音文本,能夠同注音前的原文文本的起行、段落格式保持一致。
3.注音過(guò)程的特色是先整行顯示拼音,后整行顯示漢字。構(gòu)成整行拼音和整行漢字快速地兩相對(duì)照。不是一個(gè)詞一個(gè)詞地顯示拼音和顯示漢字。
4.形成注音文本的漢字詞,不管是雙音節(jié)詞或多音節(jié)詞,都作為一個(gè)完整的詞串連結(jié)在一起,詞與詞之間留空,而字與字之間不留空。即漢字詞作為一個(gè)整體同拼音詞相對(duì)照。
5.形成注音文本的拼音串,它的分詞連寫法,聲母韻母寫法,標(biāo)調(diào)法,語(yǔ)詞首字母大寫法,隔音符號(hào),輕聲和兒化等,符合漢語(yǔ)拼音規(guī)范和1988年國(guó)家頒布的“漢語(yǔ)拼音正詞法”規(guī)范。
6.具有自動(dòng)區(qū)別多音字的能力,無(wú)須人工干預(yù),能夠辨別例如“龜裂、烏龜、龜茲”中的“龜”字的不同讀音,正確注為龜裂jǖnliè 烏龜wūguī 龜茲qiūcí
7.形成的注音文本的拼音字符是半角字符,它是本注音系統(tǒng)特有的,它的寬度是一個(gè)漢字寬度的二分之一。不同于國(guó)標(biāo)字符集里的拼音全角符。(見(jiàn)附圖
中的注音文本中的拼音字符)請(qǐng)求保護(hù)具有上述綜合特征的本技術(shù)發(fā)明權(quán)。
全文摘要
“華語(yǔ)自動(dòng)分詞注音新技術(shù)”是智能化的計(jì)算機(jī)漢語(yǔ)信息處理技術(shù)、現(xiàn)代漢語(yǔ)自動(dòng)分詞技術(shù)和自動(dòng)注音技術(shù)的有機(jī)結(jié)合。使用本技術(shù)研制成功的“華語(yǔ)自動(dòng)分詞注音系統(tǒng)”,能夠直接對(duì)各種符合漢字交換碼標(biāo)準(zhǔn)的漢字系統(tǒng)生成的漢字機(jī)讀文本,進(jìn)行自動(dòng)注音,生成規(guī)范的、以詞為單位的現(xiàn)代漢語(yǔ)注音文章,從而方便獲得注音讀物。不需人工事先對(duì)需要注音的漢字文章的語(yǔ)詞作辨音和分詞處理,實(shí)現(xiàn)現(xiàn)代漢語(yǔ)注音的自動(dòng)化。本技術(shù)改變注音讀物出版舊工藝,改變注音讀物的生成方法,減輕出版人員腦力、體力負(fù)擔(dān),大大縮短注音讀物出版周期,促進(jìn)實(shí)現(xiàn)現(xiàn)代漢語(yǔ)注音讀物出版的現(xiàn)代化、標(biāo)準(zhǔn)化、規(guī)范化。
文檔編號(hào)G06F3/09GK1052960SQ8910943
公開(kāi)日1991年7月10日 申請(qǐng)日期1989年12月23日 優(yōu)先權(quán)日1989年12月23日
發(fā)明者方暉, 方世增, 周有光 申請(qǐng)人:方暉