專利名稱:一種雙字節(jié)漢字編碼系統(tǒng)中集外漢字的編碼方法
技術(shù)領(lǐng)域:
本發(fā)明是關(guān)于一種漢字編碼方法,尤其是關(guān)于一種雙字節(jié)漢字編碼系統(tǒng)中集外漢字的編碼方法。
背景技術(shù):
目前,現(xiàn)有的漢字編碼方法都是采用雙字節(jié)漢字編碼方法,如GBK、CJK編碼規(guī)范。這些漢字編碼方法存在的一個(gè)共同缺點(diǎn)是不能處理一些集外漢字(如人名、地名中的偏、生漢字)的輸入、顯示、打印和交換問(wèn)題,而這些用字又必須要給予準(zhǔn)確的表達(dá)和處理,否則會(huì)給一些應(yīng)用系統(tǒng)帶來(lái)麻煩。
發(fā)明內(nèi)容
本發(fā)明的目的是為了解決勞動(dòng)保障、公安、民政、醫(yī)保等領(lǐng)域中迫切需要的人名、地名中集外漢字的信息處理問(wèn)題。在現(xiàn)有的輸入技術(shù)環(huán)境下,增加三角碼輸入法和集外字輸入法。在處理集外漢字時(shí),啟動(dòng)集外漢字的顯示和打印驅(qū)動(dòng)模塊,這樣,使集外漢字和非集外漢字都能夠正常地輸入、顯示和打印。在信息交換時(shí),只需掌握這些集外漢字和非集外漢字的內(nèi)碼與實(shí)際漢字的對(duì)照表,就可解決集外漢字的精確處理問(wèn)題。
本發(fā)明的集外漢字字匯表是發(fā)明人以目前已經(jīng)收集整理到的人名、地名中集外漢字為基礎(chǔ)確立的,并在現(xiàn)有編碼方法中以GDI方式嵌入這些集外漢字,字匯編排以偏旁部首為序,對(duì)具體的集外漢字,根據(jù)其使用情況決定將其收入集外字基本集還是收入集外字?jǐn)U展集。在字匯收錄時(shí)將簡(jiǎn)繁字作為不同的兩個(gè)字來(lái)處理,即把簡(jiǎn)體字和繁體字各作為一個(gè)漢字,各占一個(gè)碼位。所述的集外漢字只需在國(guó)內(nèi)統(tǒng)一以及便于目前的計(jì)算機(jī)系統(tǒng)和外部設(shè)備的使用。本發(fā)明的編碼方法是采用單/多字節(jié)混合編碼漢字編碼(Multi-bytecharacter set,MBCS)國(guó)際標(biāo)準(zhǔn)。在編碼范圍、漢字排序、漢字內(nèi)碼方面,集外漢字所依據(jù)的基本字符集采用漢字內(nèi)碼擴(kuò)展規(guī)范(GBK1.0)。該字符集的字匯與國(guó)際標(biāo)準(zhǔn)ISO10646.1中的中、日、韓統(tǒng)一編碼漢字大致相當(dāng),約21,000個(gè),其中部分漢字是日、韓專用漢字。
本發(fā)明在漢字編碼方面對(duì)每個(gè)集外漢字采用三個(gè)字節(jié)表示,第一個(gè)字節(jié)表示集外漢字的啟用標(biāo)志,第二個(gè)、第三個(gè)字節(jié)表示集外漢字的內(nèi)碼。集外漢字的第一個(gè)字節(jié)采用Windows中未定義的低位ASCII碼來(lái)表示,集外漢字的編碼范圍確定為068140到06FEFE,除06XX7F,XX=81-FE;06XXFF,XX=81-FD外,并在編碼范圍確定的基礎(chǔ)上,建立一個(gè)集外漢字頁(yè)面。在啟用集外漢字的同時(shí)啟動(dòng)集外漢字的顯示和打印驅(qū)動(dòng)模塊,這樣,使集外漢字和非集外漢字都能夠正常地輸入、顯示和打印。在信息交換時(shí),只需掌握這些集外漢字和非集外漢字的內(nèi)碼與實(shí)際漢字的對(duì)照表,就可解決集外漢字的精確處理問(wèn)題。
本發(fā)明為目前在計(jì)算機(jī)中文信息應(yīng)用領(lǐng)域廣泛存在的偏、生漢字的輸入方法提供了很好的解決方案,具有廣泛的代表性、實(shí)用性和普及性,能夠支持用戶現(xiàn)有的應(yīng)用系統(tǒng),與Windows操作系統(tǒng)中現(xiàn)有的常用漢字輸入法相兼容,并在此基礎(chǔ)上擴(kuò)充了漢字輸入法,為用戶方便地輸入自己所需要的集外字提供了便捷快速的方法。
圖1是本發(fā)明的非集外漢字與集外漢字的編碼范圍示意圖。
具體實(shí)施例方式
下面結(jié)合實(shí)施例對(duì)本發(fā)明作進(jìn)一步地說(shuō)明。
本發(fā)明的字匯表是發(fā)明人根據(jù)目前的應(yīng)用需求和收集整理到的人名、地名集外字為基礎(chǔ),按照未來(lái)的國(guó)家標(biāo)準(zhǔn)和行業(yè)標(biāo)準(zhǔn)為原則確立的。在字匯收錄時(shí)將簡(jiǎn)繁字作為不同的兩個(gè)字來(lái)處理,即把簡(jiǎn)體字和繁體字各作為一個(gè)漢字,分別占用一個(gè)碼位。所收錄的字匯根據(jù)偏旁部首為序,對(duì)具體的集外漢字,根據(jù)其使用情況決定將其收入集外字基本集還是收入集外字?jǐn)U展集。編碼方法采用單/多字節(jié)混合編碼漢字編碼國(guó)際標(biāo)準(zhǔn)進(jìn)行編碼,編碼需在國(guó)內(nèi)統(tǒng)一,以便于目前的計(jì)算機(jī)系統(tǒng)和外部設(shè)備的使用。本發(fā)明所采用的基本字符集為GBK1.0,該字符集的字匯與國(guó)際標(biāo)準(zhǔn)ISO10646.1中的中、日、韓統(tǒng)一編碼漢字大致相同,約21,000個(gè),其中部分漢字是日、韓專用漢字。
本發(fā)明為使計(jì)算機(jī)中文信息處理應(yīng)用系統(tǒng)能識(shí)別非集外漢字與集外漢字,在集外漢字編碼的環(huán)境中,對(duì)每個(gè)集外漢字采用三個(gè)字節(jié)表示,編碼范圍確定為068140到06FEFE,除06XX7F,XX=81-FE;06XXFF,XX=81-FD外,如圖1所示。第一個(gè)字節(jié)表示集外漢字的啟用標(biāo)志,第二個(gè)、第三個(gè)字節(jié)代表集外漢字內(nèi)碼。集外漢字的第一個(gè)字節(jié)采用Windows中未定義的低位ASCII碼表示,如圖1所示的“06”是作為集外漢字的第一個(gè)字節(jié),表示集外漢字的啟用標(biāo)志。本發(fā)明使用“06”作為集外漢字的啟用標(biāo)志,是因?yàn)樵赪indows中絕大多數(shù)的字符已經(jīng)被詳細(xì)定義,并且這種定義已成為了公認(rèn)的標(biāo)準(zhǔn),例如A的十六進(jìn)制是41,@的十六進(jìn)制是40等。如果隨意選擇了已有定義的字符,將在信息傳輸過(guò)程中造成二意性,文檔則會(huì)顯示亂碼。
在進(jìn)行中文信息處理時(shí),當(dāng)遇到偏、生漢字時(shí),就啟用集外漢字,同時(shí)啟動(dòng)集外漢字的顯示和打印驅(qū)動(dòng)模塊,使集外漢字和非集外漢字都能夠正常地輸入、顯示和打印。在信息交換時(shí),只需掌握這些集外漢字和非集外漢字的內(nèi)碼與實(shí)際漢字的對(duì)照表,就可解決集外漢字的精確處理問(wèn)題。如某個(gè)非集外漢字編碼是“8140”,代表漢字是“丂”;而在集外漢字編碼系統(tǒng)中“068140”代表的漢字是 在這里“06”是集外漢字標(biāo)志,“8140”是集外漢字的編碼。在本發(fā)明中對(duì)所收集的集外漢字都采用“06”作為啟用標(biāo)志,使集外漢字由三個(gè)字節(jié)組成,以區(qū)別常用的雙字節(jié)漢字。
權(quán)利要求
1.一種雙字節(jié)漢字編碼系統(tǒng)中集外漢字的編碼方法,其特征在于,所述方法包括如下步驟a)以人名、地名集外字為基礎(chǔ)確立字匯表,在字匯收錄時(shí)將簡(jiǎn)體字和繁體字各作為一個(gè)漢字處理,即各占一個(gè)碼位;b)集外漢字根據(jù)單/多字節(jié)混合編碼漢字編碼國(guó)際標(biāo)準(zhǔn)進(jìn)行編碼;c)集外漢字在編碼范圍、漢字排序、漢字內(nèi)碼方面采用漢字內(nèi)碼擴(kuò)展規(guī)范為基本字符集;d)在漢字編碼范圍確定的基礎(chǔ)上,建立一個(gè)集外字頁(yè)面,每個(gè)集外漢字的編碼由三個(gè)字節(jié)組成,第一個(gè)字節(jié)表示集外漢字的啟用標(biāo)志,采用Windows中未定義的低位ASCII碼字符來(lái)表示,第二個(gè)和第三個(gè)字節(jié)代表集外漢字的內(nèi)碼。
2.如權(quán)利要求1所述的一種雙字節(jié)漢字編碼系統(tǒng)中集外漢字的編碼方法,其特征在于,所述集外漢字的編碼范圍為068140到06FEFE,除06XX7F,XX=81-FE;06XXFF,XX=81-FD外。
3.如權(quán)利要求1所述的一種雙字節(jié)漢字編碼系統(tǒng)中集外漢字的編碼方法,其特征在于,所述集外漢字排序是以偏旁部首為序,并根據(jù)集外漢字的使用情況決定將集外漢字收入集外字基本集或收入集外字?jǐn)U展集。
全文摘要
本發(fā)明是關(guān)于一種雙字節(jié)漢字編碼系統(tǒng)中集外漢字的編碼方法。在集外漢字編碼范圍確定的基礎(chǔ)上,建立一個(gè)集外漢字頁(yè)面,對(duì)每個(gè)集外漢字采用三個(gè)字節(jié)表示,第一個(gè)字節(jié)表示集外漢字的啟用標(biāo)志,第二個(gè)、第三個(gè)字節(jié)代表集外漢字內(nèi)碼。集外漢字的第一個(gè)字節(jié)采用Windows中未定義的低位ASCII碼表示。本發(fā)明為目前在計(jì)算機(jī)中文信息應(yīng)用領(lǐng)域廣泛存在的偏、生漢字的輸入、顯示、打印和交換等信息處理提供了很好的解決方案,能夠支持用戶現(xiàn)有的應(yīng)用系統(tǒng),與Windows操作系統(tǒng)中現(xiàn)有的常用漢字輸入法相兼容,并在此基礎(chǔ)上擴(kuò)充了漢字輸入法,為用戶方便地輸入自己所需要的集外字提供了便捷快速的方法。
文檔編號(hào)G06F3/023GK1501226SQ0214541
公開(kāi)日2004年6月2日 申請(qǐng)日期2002年11月15日 優(yōu)先權(quán)日2002年11月15日
發(fā)明者張惠芬, 袁國(guó)華, 楊海音, 魯明, 胡力旗, 張義恩, 彭朝暉, 王蓓俊, 徐曉燕, 陳金琴, 毛信麗, 范耀周 申請(qǐng)人:上海市社會(huì)保障和市民服務(wù)信息中心上海市社會(huì)保障卡服務(wù)中心, 上海市社會(huì)保障和市民服務(wù)信息中心上