專利名稱:語言文字信息處理與交換設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種專門用于語言文字信息處理的計算機設(shè)備。該設(shè)備也可以作為信息交換網(wǎng)絡(luò)或大、中、小型計算機信息處理系統(tǒng)的智能終端。
目前,計算機語言文字信息處理系統(tǒng)的計算機設(shè)備都是基于字符處理,在計算機內(nèi)部直接處理的最小單元是字符-拼音文字的字母或東方文字的漢字等。這種處理方法的不足之處是沒有照顧到人類語言是以詞匯為最小語義單位這一事實。按字符處理語言文字信息,存在著效率低、計算機機時與存儲空間開銷大的缺點,還給文獻(xiàn)的自動標(biāo)引、計算機檢索和機器翻譯增加了困難。針對上述問題,本發(fā)明人在《16bit信息處理詞匯代碼編碼標(biāo)準(zhǔn)的探討》(《中文信息處理標(biāo)準(zhǔn)化國際研討會論文集》46-54頁,1989年3月,中國標(biāo)準(zhǔn)出版社)一文中提出了字符詞匯兼容編碼的方案。本發(fā)明的目的是設(shè)計一種使用這種字詞兼容碼進(jìn)行語言文字信息處理的計算機設(shè)備,提高計算機信息處理的效率,減少計算機信息處理的機時和存儲空間開銷,減少信息交換的通訊線路占用時間,節(jié)約通訊費用。
本發(fā)明是通過下述技術(shù)方案實現(xiàn)的1、在普通計算機中設(shè)置一套詞庫存儲器組,其用途是建立起詞匯代碼與字符代碼之間的對應(yīng)關(guān)系,用于計算機的輸入輸出過程。詞庫存儲器組的結(jié)構(gòu)是這樣的,詞庫的地址碼對應(yīng)于詞匯代碼,按該地址存儲的內(nèi)容,是組成相應(yīng)詞的各字符的代碼。為了便于檢索,詞庫中的詞按其第一個字的字符代碼排序,第一個字相同的詞,則按詞的使用頻度排序。在輸入過程中,本發(fā)明的設(shè)備把輸入的字符串與詞庫中存儲的詞相互比較,根據(jù)命中的詞匯在詞庫中的地址確定該詞匯的代碼,用該詞匯的代碼代替原來的一串字符代碼。只有少量單字詞和詞庫中未存儲的非常用詞,才使用單個字符的代碼。所有被處理的語言文字信息,在計算機內(nèi)部和交換網(wǎng)絡(luò)中,都用這種以詞匯代碼為主的字詞兼容代碼的形式存儲和處理。直到需要顯示或打印時,才利用詞庫把詞匯代碼轉(zhuǎn)換成字符代碼。
2、在使用詞匯代碼時,詞匯代碼集的存儲是必須解決的問題。詞庫中必須包含長度不等的詞匯,這給代碼集的存儲帶來了麻煩。以漢語為例,“發(fā)明”一詞有兩個漢字,在詞庫中要占4個字節(jié),“中華人民共和國”一詞由7個漢字組成,要占14個字節(jié)。一種常用的存儲方法是按最長的詞預(yù)留存儲空間,然后用計算的辦法由詞的代碼求得該詞在詞庫中的物理地址。這種方法的缺點是詞庫要占相當(dāng)大的存儲地址空間,并且使詞庫的檢索速度大大降低。本發(fā)明針對這一問題設(shè)計了一種采用雙重地址低位片選控制的詞庫存儲器結(jié)構(gòu),使全部字詞代碼集的65536種代碼在系統(tǒng)中僅占128K字節(jié)的存儲地址空間。所謂雙重地址,是指本發(fā)明的詞庫中的每個詞都可以從兩個不同的地址進(jìn)行檢索,這兩個地址分別稱之為系統(tǒng)地址和詞庫地址?,F(xiàn)有計算機系統(tǒng)的存儲器通常由多片存儲器芯片組成,利用高位地址線選取當(dāng)前讀寫的存儲器芯片。本發(fā)明中的詞庫存儲器的特征之一是利用詞庫地址的低位地址線進(jìn)行片選控制,同一條詞中的各個單字符是分別從不同的存儲器組中讀出的,因此稱之為低位片選控制結(jié)構(gòu)。
3、一種更好的方案是采用定長存儲器多層次存取結(jié)構(gòu)詞庫,把一些超長詞或組合詞壓縮在較短的存儲空間中。仍以漢語為例,“中華人民共和國”這個詞可由“中華”、“人民”和“共和國”三個基本詞組合而成,在詞庫中存儲這三個基本詞的代碼,只需要6個字節(jié)的存儲空間。對于拼音文字、多層次存取結(jié)構(gòu)是以音節(jié)分段為基礎(chǔ)的。例如,英語中的“翻譯”一詞“trans-la-tion”,共有11個字母,用普通ASCⅡ碼存儲要占11個字節(jié),用按音節(jié)分段的多層次存取的方法,只需要6個字節(jié)。在本發(fā)明的詞庫中,各種不同長度的詞都壓縮在定長的存儲器組內(nèi),利用堆棧操作的辦法在詞庫讀取過程中層層展開,把詞匯代碼還原為基本字符代碼,因而稱之為定長存儲器多層次存取結(jié)構(gòu)詞庫。
4、本發(fā)明所說的信息處理設(shè)備,既可以是獨立的專用文字信息處理設(shè)備(如電腦打字機)或計算機系統(tǒng)的智能終端,也可以按照微型計算機或大、中、小型計算機的標(biāo)準(zhǔn)總線設(shè)計成插板式結(jié)構(gòu),插入主機構(gòu)成語言文字信息處理系統(tǒng)。
本發(fā)明與現(xiàn)有技術(shù)相比有如下優(yōu)點(1)本發(fā)明的設(shè)備,可以使信息處理和交換從基本字符處理發(fā)展為詞匯處理,屬于信息處理技術(shù)和設(shè)備的升級換代產(chǎn)品。由于任何語言文字都是用若干字符構(gòu)成一條詞匯,字符代碼轉(zhuǎn)換為詞匯代碼實現(xiàn)了大幅度的信息壓縮,可以大大減少計算機信息處理占用的存儲空間。以《中華人民共和國專利法》第二十二條為例,該條共有245個字符(包括標(biāo)點符號和分段標(biāo)記符號等),用現(xiàn)有技術(shù)的方法存儲在計算機中需要占用490個字節(jié)的存儲空間。如果采用本發(fā)明的設(shè)備處理這段文字,使用字詞兼容代碼存儲這段文字,只需要274個字節(jié)的存儲空間,約可節(jié)約存儲空間44%。拼音文字采用本發(fā)明的設(shè)備處理存儲,可以節(jié)約更多的存儲空間。一段800個字符的英語文章,用本發(fā)明的設(shè)備處理只需要320個字節(jié)的存儲空間,比直接用ASCⅡ碼存儲約可節(jié)約60%的存儲空間。因此,使用本發(fā)明的設(shè)備,只需要增加幾千元的成本,用十幾塊集成電路組裝成一塊插板,就可以使計算機的語言文字信息處理能力成倍提高。由于計算機系統(tǒng)中存儲器(內(nèi)存和外存)占系統(tǒng)硬件成本的80%以上,節(jié)約存儲空間是計算機系統(tǒng)的最大節(jié)約。據(jù)統(tǒng)計,在各種信息系統(tǒng)中,文字型信息占90%以上。尤其是在計算機信息檢索、機器翻譯等涉及大量語言文字信息處理的系統(tǒng)中,采用本發(fā)明的設(shè)備明顯優(yōu)于現(xiàn)有的按字符處理的設(shè)備。
(2)正如分時操作系統(tǒng)可以大大提高計算機系統(tǒng)的使用效率一樣,本發(fā)明的設(shè)備是利用輸入、顯示、打印等低速外部設(shè)備工作過程中的等待時間對信息進(jìn)行預(yù)處理,減少主機所需處理和交換的信息量,從而在計算機或通訊線路處理速度不變的情況下,大大提高計算機系統(tǒng)信息處理和交換的能力。例如。一些大型聯(lián)機情報檢索系統(tǒng)經(jīng)常要從上百萬字的文獻(xiàn)中查找需要的信息,各國的新聞機構(gòu)每天要播發(fā)大量的電訊稿,用本發(fā)明的設(shè)備處理后,文獻(xiàn)檢索所占用的計算機時間和電訊傳輸占用通訊線路的時間平均節(jié)約50%左右。其經(jīng)濟(jì)效益是十分顯著的。
(3)本發(fā)明中的詞庫存儲器組采用雙重地址低位片選控制結(jié)構(gòu),不僅減少了詞庫占用的存儲地址空間,還使詞庫檢索的速度提高2-8倍。
(4)本發(fā)明的設(shè)備具備實現(xiàn)字詞兼容代碼與國家標(biāo)準(zhǔn)字符代碼互相轉(zhuǎn)換的功能,因而可以用兩種不同的代碼體系輸入、輸出、實現(xiàn)與現(xiàn)有計算機語言文字信息處理系統(tǒng)兼容,便于逐步擴(kuò)充,具有良好的外部設(shè)備適應(yīng)能力,可以與各種大、中、小型和微型計算機交換信息。
附圖的圖面說明如下
圖1是本發(fā)明設(shè)備的一個實施例電路框圖。
圖2是詞庫存儲器組雙重地址低位片選控制結(jié)構(gòu)的接線示意圖。
圖3是定長存儲器多層次取結(jié)構(gòu)詞庫的讀取程序流程圖。
本發(fā)明的技術(shù)方案還可以結(jié)合以下的實施例和附圖進(jìn)行說明。
圖1是本發(fā)明信息處理設(shè)備的一個實施例電路框圖,圖中省略了與現(xiàn)有計算機相同的輸入輸出接口電路、總線仲裁控制電路和系統(tǒng)存儲器部件等。詞庫CPU(1)是本設(shè)備的中央處理機,它可以是任何型號的字長16位以上的微機CPU芯片,例如,INTEL8086系列。如果本設(shè)備設(shè)計為插板結(jié)構(gòu),作為普通計算機的擴(kuò)充板,詞庫CPU(1)也可采用專用輸入輸出處理器,例如,INTEL8089。如果本設(shè)備僅用作信息交換的智能終端,詞庫CPU(1)還可采用16位單片微處理機,例如,INTEL8096系列。
本設(shè)備的詞庫由詞庫存儲器組(2)和片選擇碼器(3)組成。詞庫存儲器組是由多片普通的只讀存儲器(ROM)構(gòu)成的,可以采用常用的27128,27256等芯片,大批量生產(chǎn)時可采用掩模式ROM芯片。詞庫存儲器組的任務(wù),是按照詞匯代碼所確定的地址,存放組成相應(yīng)詞匯的字符代碼串,供輸入、輸出過程中顯示和打印時讀取。在本實施例中,詞庫存儲器組采用了雙重地址低位片選控制結(jié)構(gòu)。詞庫CPU(1)的地址總線CA0-CA19由總線緩沖器(4)和(5)分連接到詞庫地址總線LA0-LA19和系統(tǒng)地址總線SA0-SA19。系統(tǒng)地址總線SA0-SA19又通過總線緩沖器(6)連接到詞庫地址總線LA0-LA19??偩€緩沖器(4)、(5)和(6)都是三態(tài)緩沖器,例如,74LS244或74LS367A,其輸出受輸出允許端OE的控制。如果詞庫CPU(1)的地址數(shù)據(jù)總線是復(fù)用的,例如INTEL8086或8089芯片,總線緩沖器(4)和(5)要換成地址鎖存器(例如,8282或8283芯片)。當(dāng)詞庫CPU(1)通過系統(tǒng)地址總線SA0-SA19讀詞庫或讀寫系統(tǒng)存儲器時、CPU(1)發(fā)出控制命令送至總線緩沖器(5)的輸出允許端OE,把地址碼送至系統(tǒng)地址總線SA0-SA19。譯碼邏輯電路(7)將系統(tǒng)地址譯碼,根據(jù)譯碼結(jié)果控制總線緩沖器(4)和(6)的輸出允許端OE。譯碼邏輯電路(7)由普通門電路或通用譯碼器電路組成。當(dāng)系統(tǒng)尋址詞庫存儲器區(qū)時,譯碼邏輯電路(7)的輸出端Q為高電平,使總線緩沖器(4)的輸出進(jìn)入高阻態(tài);Q為低電平,總線緩沖器(6)把系統(tǒng)地址送至詞庫存儲器組。如果本發(fā)明的設(shè)備作為微機系統(tǒng)的擴(kuò)充插板使用時,主機系統(tǒng)中其它的中央處理機或DMA設(shè)備也可以通過系統(tǒng)地址總線直接尋址本發(fā)明設(shè)備的詞庫。
圖2是本發(fā)明中的詞庫存儲器組雙重地址低位片選控制結(jié)構(gòu)的接線示意圖,圖中省略了總線緩沖器(4)和(6)的輸出允許端OE。在本實施例中,詞庫僅使用了系統(tǒng)地址總線的SA0-SA16共17根地址線進(jìn)行尋址,SA17-SA19用于詞庫區(qū)的選通譯碼。因此,本發(fā)明的設(shè)備僅占用128K字節(jié)的系統(tǒng)地址空間就可尋址全部65536種字詞兼容代碼。系統(tǒng)地址線SA1-SA16對應(yīng)于字詞兼容代碼的16位二進(jìn)制碼,SA0僅用于與按字節(jié)存取的外部設(shè)備交換信息。16位字長的詞庫存儲器組也和普通16位微機存儲器系統(tǒng)一樣,分成高低兩個八位存儲體,詞庫地址線LA0和系統(tǒng)地址線SA0用于區(qū)分這兩個存儲體。詞庫存儲器又按詞匯長度分組,一般可分為2-8組。按照漢語詞匯長度的統(tǒng)計結(jié)果,本實施例中的詞庫存儲器分為四組,用詞庫地址線的低位LA1和LA2作為片選線,接到片選譯碼器(3)的輸入端。片選譯碼器可采用普通的集成譯碼器電路,例如74LS155等四中選一譯碼器。當(dāng)詞庫CPU(1)通過詞庫地址總線查詞庫時,組成一條詞的各個單字分別從詞庫存儲器的各組依次讀出。在通過系統(tǒng)地址總線查詞庫時,詞庫的低位地址線LA1和LA2接至“0”狀態(tài),直接尋址詞庫中各條詞的第一個字。由于詞庫中的詞是按每條詞的第一個字排序的,本發(fā)明中詞庫的系統(tǒng)地址又稱為索引地址。通過系統(tǒng)地址查詞庫,就象利用詞典的字順?biāo)饕樽值湟粯?,約可使檢索速度提高2-8倍(依詞庫存儲器的分組數(shù)目而定)。
圖3是本發(fā)明設(shè)備的詞庫讀取程序流程圖。本實施例采用定長存儲器多層次存取結(jié)構(gòu)儲存超長詞或組合詞,在詞庫讀取過程中,利用計算機的后進(jìn)先出堆棧操作,實現(xiàn)詞的多層次展開讀取。在本實施例中,詞庫存儲器的分組長度為每組16位字長,4個存儲器組總字長為8個字節(jié)。如果一條詞的長度超過四個字,就采用多層次存取結(jié)構(gòu)存放在詞庫中。例如,“中華人民共和國”一詞,在詞庫中不是直接存儲七個單字的代碼,而是在四個組中分別存儲“中”、“華”兩個字的代碼和“人民”、“共和國”兩個詞的代碼。對于某些不是復(fù)合詞的超長詞,人為分段進(jìn)行存儲。例如,“不管三七二十一”這條詞共七個字,可以分成“不”、“管”、“三七”和“二十一”四段。為了不影響按詞的第一個字排序,后面各段如果沒有獨立存在的意義,就在第一字之前用“空白符”(16位全部為“0”)作為標(biāo)識存入存儲器的第一組,排序時不予考慮。對于不足四個字的詞,后面用“刪除符”(16位全部為“1”)填充。在讀取詞庫時,CPU判斷并跳過“空白符”和“刪除符”,只讀出有效字符。
詞庫讀取過程如下(1)CPU根據(jù)文件存儲的地址讀取待處理文件中的字詞代碼。
(2)判斷該代碼是否為基本字符代碼,并將基本字符代碼送入輸出緩沖區(qū)。輸出緩沖區(qū)存儲的代碼都是基本字符代碼,可以直接送入顯示、打印設(shè)備,或者變換為普通的字符代碼(例如,國家標(biāo)準(zhǔn)代碼GB2312碼、國際標(biāo)準(zhǔn)代碼IS0646碼等),與現(xiàn)有的計算機系統(tǒng)交換信息或送入現(xiàn)有的數(shù)據(jù)通訊網(wǎng)絡(luò)。
(3)如果讀出的代碼不是基本字符代碼,CPU就進(jìn)行堆棧操作,將該代碼的存儲地址壓入后進(jìn)先出堆棧,中斷原來的讀取過程。
(4)CPU把讀取的詞匯代碼變換為詞庫地址,按該地址從詞庫存儲器組中讀取代碼。
(5)判斷過程(4)讀取的代碼,跳過空白符,將基本字符送入輸出緩沖區(qū)。
(6)如果一條詞在詞庫存儲器組的各組中的代碼已全部讀出,或者讀出結(jié)果為“刪除符”,CPU將后進(jìn)先出堆棧中的地址彈出,返回原來中斷的讀取過程。
(7)重復(fù)(3)至(6)的循環(huán)讀取過程,直到詞匯代碼全部轉(zhuǎn)換為基本字符代碼并送入輸出緩沖區(qū)。
整個詞庫讀取過程是層層展開的,展開的層次不受限制,任意長度的詞或詞組都可以壓縮存儲在定長的存儲器組內(nèi)。
權(quán)利要求
1.一種用于語言文字信息處理或交換用的計算機設(shè)備,適用于各種語言文字信息的處理或交換。該設(shè)備包括普通計算機的輸入、輸出裝置、中央處理機和存儲器等部分,其特征在于全部處理過程采用以詞處理為主的字詞兼容代碼,并且在存儲器中設(shè)置了存放字詞兼容代碼的詞庫存儲器組。
2.根據(jù)權(quán)利要求1所述的信息處理設(shè)備,其特征在于其詞庫存儲器組采用雙重地址低位片選控制結(jié)構(gòu)。
3.根據(jù)權(quán)利要求1或權(quán)利要求2所述的信息處理設(shè)備,其特征在于采用了定長存儲器多層次存取結(jié)構(gòu)詞庫。
4.根據(jù)權(quán)利要求1或權(quán)利要求2或權(quán)利要求3所述的信息處理設(shè)備,其特征在于采用插板式結(jié)構(gòu),可以插在普通微型計算機或大,中、小型計算機上,構(gòu)成語言文字信息處理系統(tǒng)。
全文摘要
一種語言文字信息處理或交換用的計算機設(shè)備,適用于各種語言文字的處理。本設(shè)備采用字詞兼容代碼處理信息,配有特殊結(jié)構(gòu)的詞庫存儲器組。本發(fā)明與現(xiàn)有計算機信息處理系統(tǒng)有良好的兼容性,能使計算機系統(tǒng)和數(shù)據(jù)通訊網(wǎng)絡(luò)的語言文字信息處理和交換能力成倍提高,不僅能用于微型計算機系統(tǒng)和電訊網(wǎng)絡(luò)的智能終端設(shè)備,也能使大、中、小型計算機信息處理系統(tǒng)的效率成倍提高。
文檔編號G06F17/28GK1039136SQ8910531
公開日1990年1月24日 申請日期1989年6月19日 優(yōu)先權(quán)日1989年6月19日
發(fā)明者曲聲波 申請人:曲聲波