專利名稱:漢語個人簡歷信息處理系統(tǒng)和方法
技術領域:
本發(fā)明涉及中文信息處理和計算語言學中的自然語言理解,尤其涉及一種漢語個人簡歷信息處理系統(tǒng)和方法。
個人簡歷信息是人才招聘工作中的一種信息資源,是企事業(yè)單位尋求人才的基本數(shù)據(jù)。尤其是隨著網(wǎng)絡技術的發(fā)展,越來越多的企事業(yè)單位已尋求通過互聯(lián)網(wǎng)來發(fā)現(xiàn)和招聘人才。上網(wǎng)獵取人才不僅可以使企事業(yè)的人事部門擺脫繁重和復雜的傳統(tǒng)人力勞動,而且,網(wǎng)絡豐富的信息資源為企事業(yè)單位提供了廣闊的人才選擇余地。與此同時,作為提供了個人簡歷信息的各類人才,同樣也增加了被選擇錄用的機會。另一方面,正因為網(wǎng)上投遞簡歷的方便性,求職者在短時間內(nèi)可以同時申請很多職位,導致許多在互聯(lián)網(wǎng)上進行招聘的企業(yè)每天都要收到成百上千的電子簡歷文本。這樣,招聘人才的企業(yè)人事部門就需要投入大量人力處理所收到的大量電子簡歷文本,增加了新的負擔。同時,由于各種個人簡歷的設計風格以及各人書寫習慣的不同,個人簡歷信息的具體格式因人而異,千變?nèi)f化,給數(shù)據(jù)庫建立和人才信息檢索帶來諸多不便。傳統(tǒng)的方法只能依靠人工進行分類處理這些格式各異的電子簡歷,將求職者的信息手工錄入到數(shù)據(jù)庫中。為了減輕企事業(yè)人事部門新的負擔,就需要有一種自動處理任意格式的簡歷文本的方法,從簡歷文本中自動提取出企業(yè)最為關心的關鍵信息。
本發(fā)明的目的的在于提供一種自動從任意書寫格式的漢語個人簡歷文本中提取相關信息并進行格式化處理的漢語個人簡歷信息處理系統(tǒng)和方法。
根據(jù)本發(fā)明的一個方面,提供一種漢語個人簡歷信息處理方法,該方法包括以下步驟對輸入的漢語個人簡歷文本進行預處理,形成已標注的第一簡歷文本;對所述第一簡歷文本進行分詞處理,形成已標注的第二簡歷文本;對所述第二簡歷文本中的個人簡歷常用專有名詞組進行識別標注,形成已標注的第三簡歷文本;對已標注的第三簡歷文本進行文本結(jié)構(gòu)分析,形成已標注并具有特定類型的文本塊。
根據(jù)本發(fā)明的另一方面,提供一種漢語個人簡歷信息處理系統(tǒng),它包括用以對輸入的個人簡歷文本中的字符、單詞、詞組和專有名詞進行標注的簡歷文本信息識別標注裝置;以及用以對識別標注后的個人簡歷文本進行分塊并對分塊后的文本塊進行標注、分割和合并組合的簡歷文本結(jié)構(gòu)分析標注裝置。
采用本發(fā)明的漢語個人簡歷信息處理系統(tǒng)和方法,可以對任何書寫習慣形成的個人簡歷文本進行處理,抽取出簡歷文本中的主要信息,最終形成一種統(tǒng)一的格式,給人才數(shù)據(jù)庫建立和人才信息檢索帶來了方便。
以下將結(jié)合附圖和較佳實施例對本發(fā)明作進一步的詳細描述。本發(fā)明的其它的目的、特征和效果將在以下的描述中變得更加清楚。
圖1是表示根據(jù)本發(fā)明的漢語個人簡歷信息處理系統(tǒng)的方框圖;圖2是表示根據(jù)本發(fā)明的漢語個人簡歷信息處理系統(tǒng)的操作流程圖;圖3是表示圖2所示操作流程圖中有關預處理流程的更詳細的流程圖;圖4是表示圖2所示操作流程圖中有關簡歷文本結(jié)構(gòu)分析流程的更詳細的流程圖。
參見圖1,本發(fā)明的漢語個人簡歷信息處理系統(tǒng)包括用以對輸入的個人簡歷文本中的字符、單詞、詞組和專有名詞進行標注的簡歷文本信息識別標注裝置1;用以對識別標注后的個人簡歷文本進行分塊并對分塊后的文本塊進行標注、分割和合并組合的簡歷文本結(jié)構(gòu)分析標注裝置2;以及按照特定的順序匯總各類信息,作為信息提取結(jié)果輸出的信息收集匯總裝置3。
其中,簡歷文本信息識別標注裝置1包括用以對文本中的特定字符進行識別標注的預處理裝置11;對所述文本進行分詞處理的分詞處理裝置12;以及對所述文本中的個人簡歷常用專有名詞組進行識別標注的專有名詞識別標注裝置13。
簡歷文本結(jié)構(gòu)分析標注裝置2包括用以按自然段落對所述文本進行初始分塊的簡歷文本分塊裝置21;對所述初始分塊的文本塊進行匹配標注的文本塊標注裝置22;對經(jīng)過標注的文本塊進行分割,形成具有單一類型的文本塊的文本塊分割裝置23;以及將所述分割后具有相同類型的各文本塊合并組合成單一類型的大文本塊的文本塊組合裝置24。
接下來參見圖2至圖4,它表示根據(jù)本發(fā)明的漢語個人簡歷信息處理系統(tǒng)的操作流程圖。步驟S1,系統(tǒng)輸入漢語個人簡歷文本。步驟S2,系統(tǒng)對輸入的個人簡歷文本進行預處理,它包括步驟S21,系統(tǒng)對原始個人簡歷文本中的數(shù)字、外文單詞和標點符號等進行識別和標記;步驟S22,系統(tǒng)進一步對該文本中的日期時間、URL網(wǎng)頁地址和電子郵件地址等進行識別標記。至此,系統(tǒng)形成已標注的第一簡歷文本。
步驟S3,系統(tǒng)利用常規(guī)詞典和簡歷詞典對第一簡歷文本進行分詞處理。其中,簡歷詞典是針對中文簡歷文本專門構(gòu)造的一種專用詞典,它包含了大量從真實簡歷文本中提取出的粒度較大的組合詞匯。經(jīng)過分詞處理步驟后,系統(tǒng)形成已標注的第二簡歷文本。在第二簡歷文本中,出現(xiàn)了可供識別的中文單詞、常用詞組和個人簡歷專有名詞及詞組,例如,“北京”、“清華”、“本科”、“畢業(yè)”、“無憂工作網(wǎng)”、“開發(fā)部”、“工程師”、“技術總監(jiān)”、“教育背景”、“工作經(jīng)歷”、“興趣愛好”等等。
步驟S4,系統(tǒng)利用專有名詞組識別知識庫(下稱第一知識庫)和第一規(guī)則解釋器對上述第二簡歷文本中的個人簡歷常用專有名詞組(例如人名、教育機構(gòu)名稱、專業(yè)名稱、工作單位名稱、工作部門名稱、職稱職務名稱、項目名稱、擔當角色等)進行識別標注。其中,第一知識庫是針對個人簡歷中常用的專有名詞組的特點構(gòu)造的,它包含了許多個人簡歷常用專有名詞組的結(jié)構(gòu)特征規(guī)則。例如,根據(jù)該規(guī)則,類似“地點名詞(如北京、上海、江蘇省)+一個或多個其他名詞(如航空、交通)+教育機構(gòu)名稱后綴(如大學、學院)”這一結(jié)構(gòu)的專有名詞組將被識別和標注為“教育機構(gòu)名稱”。第一規(guī)則解釋器用以對第一知識庫中的詞組結(jié)構(gòu)特征規(guī)則進行解釋分析,從而識別出上述個人簡歷常用專有名詞組。經(jīng)過專有名詞識別標注步驟后,系統(tǒng)形成已標注的第三簡歷文本。
步驟S5,系統(tǒng)對已標注的第三簡歷文本進行文本結(jié)構(gòu)分析。它包括步驟S51,按自然段落對第三簡歷文本進行初始分塊;步驟S52,系統(tǒng)利用文本模式知識庫(下稱第二知識庫)和第二規(guī)則解釋器對已經(jīng)初始分塊的文本塊進行匹配標注。經(jīng)過匹配標注后的文本塊既可能是只包含單一類型信息的文本快,也可能是包含多種類型信息的混合文本塊。其中,第二知識庫包含了許多根據(jù)簡歷文本中不同類型的文本塊的特征構(gòu)造的模式規(guī)則。而第二規(guī)則解釋器則用以對第二知識庫中的模式規(guī)則進行解釋和分析。例如,根據(jù)該規(guī)則,上述文本塊中類似“存在時間起止范圍AND存在教育機構(gòu)名稱AND存在專業(yè)名稱AND存在學位名稱”的將被標注為“教育背景塊”。步驟S53,系統(tǒng)利用第一數(shù)據(jù)庫和特定的決策標準確定混合文本塊的首部類型,所謂首部指該文本塊的最前面的連續(xù)若干句,并且這些句子只包含同一類型的信息,緊跟在首部之后的一句(如果有的話)包含的信息類型與首部的信息類型不同。其中,第一數(shù)據(jù)庫也稱為“信息頻率權(quán)值數(shù)據(jù)庫”,它包含許多從大量真實簡歷文本統(tǒng)計出來的不同信息在不同類型文本塊中出現(xiàn)頻率的統(tǒng)計數(shù)據(jù)。步驟S54,系統(tǒng)利用簡歷文本分塊線索詞典及概率數(shù)據(jù)庫對上述混合文本塊進行分割,即將該文本塊分割成更細、具有單一類型的文本塊。其中,該分塊線索詞典及概率數(shù)據(jù)庫包含許多從大量真實簡歷文本中訓練、提取出來的分塊線索詞以及這些詞成為簡歷文本分塊標記的概率統(tǒng)計數(shù)據(jù)。步驟S55,系統(tǒng)將以上分割后具有相同類型的各文本塊合并組合成單一類型的大文本塊。例如,基本信息塊、教育背景塊、工作經(jīng)驗塊、項目經(jīng)驗塊、求職要求塊和其它信息塊等。
步驟S6,系統(tǒng)從各類文本塊中收集相應的信息,要收集的信息均已在前面的各步驟中被逐漸識別標注出來了。例如,從個人基本信息塊中收集姓名、性別、出生日期、婚姻狀況、郵政編碼、電話號碼、Email地址、居住城市、通信地址或居住地址、身份證號碼等信息;從教育背景文本塊中收集接受教育的起止年月、教育機構(gòu)名稱、系名或?qū)I(yè)名稱、學歷或?qū)W位名稱、最高學歷名稱、外語極其等級程度等信息;從工作經(jīng)驗文本塊中收集工作起止年月、所在單位名稱、所在部門名稱、擔任的職稱職務、工作年數(shù)等信息;從項目經(jīng)驗文本塊中收集項目起止年月、項目名稱、開發(fā)工具名稱、硬件環(huán)境名稱、軟件環(huán)境名稱以及擔任的角色或者職責等信息;從求職要求文本塊中收集從事的行業(yè)、工作職能名稱、工作地點、月薪要求、期望的單位性質(zhì)等信息、從其它信息文本塊中收集未包含在在上述文本塊內(nèi)的其它信息,如專業(yè)技能、培訓經(jīng)歷、獲得的證書名稱、獎勵名稱、個人興趣和個人愛好等信息。
步驟S7,系統(tǒng)按照特定的順序匯總各類信息,作為信息提取結(jié)果輸出。
以上所述僅僅是本發(fā)明的漢語個人簡歷信息處理系統(tǒng)和方法的較佳實施例。根據(jù)本發(fā)明的構(gòu)思,本領域的熟練人員還可以對此作出各種修改和變換,但這種修改和變換均屬于本發(fā)明的范圍。
權(quán)利要求
1.一種漢語個人簡歷信息處理方法,其特征在于包括以下步驟對輸入的個人簡歷文本進行預處理,形成已標注的第一簡歷文本;對所述第一簡歷文本進行分詞處理,形成已標注的第二簡歷文本;對所述第二簡歷文本中的個人簡歷常用專有名詞組進行識別標注,形成已標注的第三簡歷文本;對已標注的第三簡歷文本進行文本結(jié)構(gòu)分析,形成已標注并具有特定類型的文本塊。
2.如權(quán)利要求1所述的方法,其特征在于所述預處理步驟包括以下步驟對輸入的個人簡歷文本中包括數(shù)字、外文單詞和標點符號等類型的字符進行識別和標記;對個人簡歷文本中包括日期時間、URL網(wǎng)頁地址和電子郵件地址等類型的字符進行識別和標記。
3.權(quán)利要求1所述的方法,其特征在于所述文本結(jié)構(gòu)分析步驟包括以下步驟按自然段落對第三簡歷文本進行初始分塊;對已經(jīng)初始分塊的文本塊進行模式匹配標注;對經(jīng)過模式匹配標注的混合文本塊進行分割,形成具有單一類型的文本塊;將所述分割后具有相同類型的各文本塊合并組合成單一類型的大文本塊。
4.如權(quán)利要求1所述的方法,其特征在于進一步包括從各個特定類型的文本塊中收集相應的信息的步驟。
5.如權(quán)利要求4所述的方法,其特征在于進一步包括按照特定的順序匯總各類信息,作為信息提取結(jié)果輸出的步驟。
6.如權(quán)利要求3所述的方法,其特征在于進一步包括在對混合文本塊進行分割之前確定所述混合文本塊的首部類型的步驟。
7.一種漢語個人簡歷信息處理系統(tǒng),其特征在于包括用以對輸入的漢語個人簡歷文本中的字符、單詞、詞組和專有名詞進行標注的簡歷文本信息識別標注裝置;以及用以對識別標注后的個人簡歷文本進行分塊并對分塊后的文本塊進行標注、分割和合并組合的簡歷文本結(jié)構(gòu)分析標注裝置。
8.如權(quán)利要求7所述的系統(tǒng),其特征在于所述簡歷文本識別標注裝置包括用以對文本中的特定字符進行識別標注的預處理裝置;利用常規(guī)詞典和簡歷詞典對所述文本進行分詞處理的分詞處理裝置;以及利用第一知識庫和第一規(guī)則解釋器對所述文本中的個人簡歷常用專有名詞組進行識別標注的專有名詞識別標注裝置,所述第一知識庫含有個人簡歷常用專有名詞組的結(jié)構(gòu)特征規(guī)則,所述第一規(guī)則解釋器用以對第一知識庫中的詞組結(jié)構(gòu)特征規(guī)則進行解釋分析。
9.如權(quán)利要求7所述的系統(tǒng),其特征在于所述簡歷文本結(jié)構(gòu)分析標注裝置包括用以按自然段落對所述文本進行初始分塊的簡歷文本分塊裝置;利用第二知識庫和第二規(guī)則解釋器對所述初始分塊的文本塊進行匹配標注的文本塊標注裝置,所述第二知識庫含有根據(jù)簡歷文本中不同類型的文本塊的特征構(gòu)造的模式規(guī)則,所述第二規(guī)則解釋器用以對第二知識庫中的模式規(guī)則進行解釋和分析;利用第一數(shù)據(jù)庫和特定的決策標準對經(jīng)過模式匹配標注的混合文本塊的首部進行確定性標注的文本塊首部標注裝置,所述第一數(shù)據(jù)庫含有從大量真實簡歷文本統(tǒng)計出來的不同信息在不同類型文本塊中出現(xiàn)頻率的統(tǒng)計數(shù)據(jù);利用簡歷文本分塊線索詞典及概率數(shù)據(jù)庫對經(jīng)過標注的文本塊進行分割,形成具有單一類型的文本塊的文本塊分割裝置,所述分塊線索詞典及概率數(shù)據(jù)庫含有從大量真實簡歷文本中訓練、提取出來的分塊線索詞以及這些詞成為簡歷文本分塊標記的概率統(tǒng)計數(shù)據(jù);以及將所述分割后具有相同類型的各文本塊合并組合成單一類型的大文本塊的文本塊組合裝置。
10.如權(quán)利要求7至9任一所述的系統(tǒng),其特征在于進一步包括按照特定的順序匯總各類信息,作為信息提取結(jié)果輸出的信息收集匯總裝置。
全文摘要
漢語個人簡歷信息處理方法和系統(tǒng),包括對輸入的漢語個人簡歷文本進行預處理形成已標注的第一簡歷文本;對第一簡歷文本進行分詞處理形成已標注的第二簡歷文本;對第二簡歷文本中的個人簡歷常用專有名詞組進行識別標注形成已標注的第三簡歷文本;對已標注的第三簡歷文本進行文本結(jié)構(gòu)分析形成已標注并具有特定類型的文本塊。該方法和系統(tǒng)可以對個人簡歷文本進行處理,抽取出簡歷文本中的主要信息,最終形成一種統(tǒng)一的格式。
文檔編號G06F17/21GK1367446SQ0110528
公開日2002年9月4日 申請日期2001年1月22日 優(yōu)先權(quán)日2001年1月22日
發(fā)明者呂楠, 鄭飛 申請人:前程無憂網(wǎng)絡信息技術(北京)有限公司上海分公司