国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      根據(jù)短信生成財務(wù)記錄、電子賬本的方法和裝置與流程

      文檔序號:12470796閱讀:909來源:國知局
      根據(jù)短信生成財務(wù)記錄、電子賬本的方法和裝置與流程

      本發(fā)明涉及應(yīng)用軟件開發(fā)技術(shù)領(lǐng)域,具體而言,涉及根據(jù)短信生成財務(wù)記錄的方法、根據(jù)短信生成財務(wù)記錄的裝置、歸納短信并建立電子賬本的方法和歸納短信并建立電子賬本的裝置。



      背景技術(shù):

      隨著手機的智能化程度不斷提升,銀聯(lián)、微信支付和支付寶的不斷普及,用戶逐漸降低了對紙幣的依賴。同時傳統(tǒng)的紙質(zhì)銀行流水單據(jù)也逐漸的被替換為用戶提醒短信的形式。然而,銀行交易(包含支付寶支付和微信支付,后統(tǒng)稱為銀行交易)的短信在用戶的信息列表中分散雜亂,不易收集,這給職業(yè)會計和有意向理財?shù)挠脩魧灰仔畔⒌挠涗浽斐闪撕艽蟮淖璧K。雖然現(xiàn)有市場上日記賬軟件不少,但是涉及到直接從用戶短信息中智能抽取并生成日記賬的產(chǎn)品并沒有,此外,目前日記賬產(chǎn)品存在不能智能識別用戶銀行流水信息的問題,往往需要用戶主動去填寫和操作,這給用戶帶來了不好的體驗。

      因此,如何從短信內(nèi)容中智能識別和抽取關(guān)于銀行流水的信息形成財務(wù)記錄成為亟待解決的技術(shù)問題。



      技術(shù)實現(xiàn)要素:

      本發(fā)明旨在至少解決上述現(xiàn)有技術(shù)或相關(guān)技術(shù)中存在的技術(shù)問題之一。

      為此,本發(fā)明的一個目的在于提出了一種根據(jù)短信生成財務(wù)記錄的方法。

      本發(fā)明的另一個目的在于提出一種歸納短信并建立電子賬本的方法。

      本發(fā)明的再一個目的在于提供了一種根據(jù)短信生成財務(wù)記錄的裝置。

      本發(fā)明的再一個目的在于提供了一種歸納短信并建立電子賬本的裝置。

      為實現(xiàn)上述目的,本發(fā)明的第一方面提出了一種根據(jù)短信生成財務(wù)記錄的方法,包括:根據(jù)啟發(fā)式規(guī)則指導正則表達式框架抽取短信中的多個字段,生成多個交易元素;其中,啟發(fā)式規(guī)則為基于機器深度學習工具的回歸模型,用于對多個字段的位置和長度進行預測,正則表達式框架具有結(jié)合Singleton模式、Strategy模式和Template模式的結(jié)構(gòu),能夠集成多個正則表達式且具備可擴展性;將多個交易元素歸檔,生成財務(wù)記錄。

      根據(jù)本發(fā)明第一方面的根據(jù)短信生成財務(wù)記錄的方法,能夠從包含銀行交易流水信息(包括支付寶微信支付等渠道)的短信中提取銀行流水關(guān)鍵字字段,在處理多個種類的短信(短信內(nèi)容樣式和結(jié)構(gòu)有所改變)的情況下也能根據(jù)啟發(fā)式規(guī)則預測目標字段的位置和長度,從而智能地提取目標字段生成財務(wù)記錄。所述啟發(fā)式規(guī)則基于tensorflow(用于機器深度學習的一種人工智能學習系統(tǒng))工具的回歸模型來預測字段位置和長度,正則表達式根據(jù)字段位置信息和字段長度信息提取字段,利用此方案對短信的關(guān)鍵字字段智能抽取并以用戶期望的格式自動歸檔的功能,能夠預測短信中具有利用價值的字段的位置和長度,有效地覆蓋大多數(shù)銀行短信并智能識別和正確抽取銀行流水信息形成財務(wù)記錄。

      在上述技術(shù)方案中,優(yōu)選地,還包括:預處理短信,使短信的文本格式易被識別和分析。

      在該技術(shù)方案中,對短信內(nèi)容的格式進行轉(zhuǎn)換,使其更便于識別和抽取。例如,將英文字母轉(zhuǎn)換為小寫、將日期格式的空格去除以及將全角標點符號轉(zhuǎn)換為半角標點符號等。

      在上述技術(shù)方案中,優(yōu)選地,在所述根據(jù)啟發(fā)式規(guī)則指導正則表達式框架抽取短信中的多個字段,生成多個交易元素之前,還包括:根據(jù)已有短信和數(shù)據(jù)模型訓練啟發(fā)式規(guī)則的回歸模型。

      在該技術(shù)方案中,啟發(fā)式規(guī)則用于根據(jù)已有數(shù)據(jù)的特征,來預測未知數(shù)據(jù)的特征值。本發(fā)明采用基于tensorflow的回歸模型來預測字段位置。訓練過程主要包括:收集已有的銀行流水短信;將要抽取的銀行、賬號、日期、摘要、金額、類型在短信的位置信息,以及短信的長度信息分別抽取抽出來;采用tensorflow建立regressor模型;采用數(shù)據(jù)訓練模型。

      在上述技術(shù)方案中,優(yōu)選地,所述多個字段包括:交易日期字段、銀行名稱字段、賬號字段、金額字段、短信摘要字段和/或短信類型字段。

      在該技術(shù)方案中,根據(jù)具體需求利用啟發(fā)式規(guī)則和對應(yīng)于上述多個字段的正則表達式,用以抽取短信中的交易日期、銀行名稱、帳號、金額、短信摘要、短信類型等信息。這些關(guān)鍵字字段將會被抽取和整理成財務(wù)記錄以便用戶查看或記賬軟件調(diào)用。

      在上述技術(shù)方案中,優(yōu)選地,所述根據(jù)啟發(fā)式規(guī)則指導正則表達式框架抽取短信中的多個字段,生成多個交易元素,具體包括:根據(jù)正則表達式框架的抽取策略抽取日期字段、銀行名稱字段、賬號字段和/或金額字段,根據(jù)啟發(fā)式規(guī)則策略抽取短信摘要字段和/或短信類型字段,生成多個交易元素;或者根據(jù)啟發(fā)式規(guī)則指導正則表達式框架的抽取策略抽取日期字段、銀行名稱字段、賬號字段、金額字段、短信摘要字段和/或短信類型字段,生成多個交易元素。

      在該技術(shù)方案中,其一,僅利用啟發(fā)式規(guī)則對短信的摘要和類型進行預測,除需要語義預測的字段之外的常規(guī)部分根據(jù)正則表達式框架進行抽取。其二,利用啟發(fā)式規(guī)則預測所有包含銀行流水信息的字段的位置和長度用以指導正則表達式框架從而提取全部目標字段。提供了兩種具體思路來進行字段抽取使字段抽取功能更智能和靈活。

      本發(fā)明的第二方面提出了一種歸納短信并建立電子賬本的方法,用于移動終端,包括:利用如上述任一技術(shù)方案的根據(jù)短信生成財務(wù)記錄的方法處理移動終端中的多個短信,生成多個財務(wù)記錄;根據(jù)多個財務(wù)記錄建立或更新電子賬本,其中,短信包括既存短信和新接收到的短信。

      根據(jù)本發(fā)明第二方面的歸納短信并建立電子賬本的方法,能夠從包含銀行交易流水信息(包括支付寶微信支付等渠道)的短信中提取銀行流水關(guān)鍵字字段,在處理多個種類的短信(短信內(nèi)容樣式和結(jié)構(gòu)有所改變)的情況下也能根據(jù)啟發(fā)式規(guī)則預測目標字段的位置和長度,從而智能地提取目標字段生成財務(wù)記錄,同樣的方法對多條短信進行處理得到多個財務(wù)記錄進行匯總,導入記賬軟件或者根據(jù)上述方法制作相應(yīng)軟件用以生成電子賬本。所述啟發(fā)式規(guī)則基于tensorflow(用于機器深度學習的一種人工智能學習系統(tǒng))工具的回歸模型來預測字段位置和長度,正則表達式根據(jù)字段位置信息和字段長度信息提取字段,利用此方案對短信的關(guān)鍵字字段智能抽取并以用戶期望的格式自動歸檔的功能,能夠預測短信中具有利用價值的字段的位置和長度,有效地覆蓋大多數(shù)銀行短信并智能識別和正確抽取銀行流水信息形成電子賬本。

      本發(fā)明的第三方面提供了一種根據(jù)短信生成財務(wù)記錄的裝置,包括:啟發(fā)式規(guī)則單元,根據(jù)啟發(fā)式規(guī)則指導正則表達式框架抽取短信中的多個字段,生成多個交易元素;其中,啟發(fā)式規(guī)則為基于機器深度學習工具的回歸模型,用于對多個字段的位置和長度進行預測,正則表達式框架具有結(jié)合Singleton模式、Strategy模式和Template模式的結(jié)構(gòu),能夠集成多個正則表達式且具備可擴展性;歸檔單元,將多個交易元素歸檔,生成財務(wù)記錄。

      根據(jù)本發(fā)明第三方面的根據(jù)短信生成財務(wù)記錄的裝置,能夠從包含銀行交易流水信息(包括支付寶微信支付等渠道)的短信中提取銀行流水關(guān)鍵字字段,在處理多個種類的短信(短信內(nèi)容樣式和結(jié)構(gòu)有所改變)的情況下也能根據(jù)啟發(fā)式規(guī)則預測目標字段的位置和長度,從而智能地提取目標字段生成財務(wù)記錄。所述啟發(fā)式規(guī)則基于tensorflow(用于機器深度學習的一種人工智能學習系統(tǒng))工具的回歸模型來預測字段位置和長度,正則表達式根據(jù)字段位置信息和字段長度信息提取字段,利用此方案對短信的關(guān)鍵字字段智能抽取并以用戶期望的格式自動歸檔的功能,能夠預測短信中具有利用價值的字段的位置和長度,有效地覆蓋大多數(shù)銀行短信并智能識別和正確抽取銀行流水信息形成財務(wù)記錄。

      在上述技術(shù)方案中,優(yōu)選地,還包括:預處理單元,預處理短信,使短信的文本格式易被識別和分析。

      在該技術(shù)方案中,對短信內(nèi)容的格式進行轉(zhuǎn)換,使其更便于識別和抽取。例如,將英文字母轉(zhuǎn)換為小寫、將日期格式的空格去除以及將全角標點符號轉(zhuǎn)換為半角標點符號等。

      在上述技術(shù)方案中,優(yōu)選地,還包括:訓練單元,根據(jù)已有短信和數(shù)據(jù)模型訓練啟發(fā)式規(guī)則的回歸模型。

      在該技術(shù)方案中,啟發(fā)式規(guī)則用于根據(jù)已有數(shù)據(jù)的特征,來預測未知數(shù)據(jù)的特征值。本發(fā)明采用基于tensorflow的回歸模型來預測字段位置。訓練過程主要包括:收集已有的銀行流水短信;將要抽取的銀行、賬號、日期、摘要、金額、類型在短信的位置信息,以及短信的長度信息分別抽取抽出來;采用tensorflow建立regressor模型;采用數(shù)據(jù)訓練模型。

      在上述技術(shù)方案中,優(yōu)選地,多個字段包括:交易日期字段、銀行名稱字段、賬號字段、金額字段、短信摘要字段和/或短信類型字段。

      在該技術(shù)方案中,根據(jù)具體需求利用啟發(fā)式規(guī)則和對應(yīng)于上述多個字段的正則表達式,用以抽取短信中的交易日期、銀行名稱、帳號、金額、短信摘要、短信類型等信息。這些關(guān)鍵字字段將會被抽取和整理成財務(wù)記錄以便用戶查看或記賬軟件調(diào)用。

      在上述技術(shù)方案中,優(yōu)選地,所述啟發(fā)式規(guī)則單元,具體用于:根據(jù)正則表達式框架的抽取策略抽取日期字段、銀行名稱字段、賬號字段和/或金額字段,根據(jù)啟發(fā)式規(guī)則策略抽取短信摘要字段和/或短信類型字段,生成多個交易元素;或者根據(jù)啟發(fā)式規(guī)則指導正則表達式框架的抽取策略抽取日期字段、銀行名稱字段、賬號字段、金額字段、短信摘要字段和/或短信類型字段,生成多個交易元素。

      在該技術(shù)方案中,其一,僅利用啟發(fā)式規(guī)則對短信的摘要和類型進行預測,除需要語義預測的字段之外的常規(guī)部分根據(jù)正則表達式框架進行抽取。其二,利用啟發(fā)式規(guī)則預測所有包含銀行流水信息的字段的位置和長度用以指導正則表達式框架從而提取全部目標字段。提供了兩種具體思路來進行字段抽取使字段抽取功能更智能和靈活。

      本發(fā)明第四方面提供了一種歸納短信并建立電子賬本的裝置,用于移動終端,包括:賬本單元,利用如上述任一技術(shù)方案提供的根據(jù)短信生成財務(wù)記錄的裝置處理移動終端中的多個短信,生成多個財務(wù)記錄,根據(jù)多個財務(wù)記錄建立或更新電子賬本,其中,短信包括既存短信和新接收到的短信。

      根據(jù)本發(fā)明第四方面的歸納短信并建立電子賬本的裝置,能夠從包含銀行交易流水信息(包括支付寶微信支付等渠道)的短信中提取銀行流水關(guān)鍵字字段,在處理多個種類的短信(短信內(nèi)容樣式和結(jié)構(gòu)有所改變)的情況下也能根據(jù)啟發(fā)式規(guī)則預測目標字段的位置和長度,從而智能地提取目標字段生成財務(wù)記錄,利用如上述任一技術(shù)方案提供的根據(jù)短信生成財務(wù)記錄的裝置對多條短信進行處理得到多個財務(wù)記錄進行匯總,導入記賬軟件或者制作記賬軟件用以生成電子賬本。所述啟發(fā)式規(guī)則基于tensorflow(用于機器深度學習的一種人工智能學習系統(tǒng))工具的回歸模型來預測字段位置和長度,正則表達式根據(jù)字段位置信息和字段長度信息提取字段,利用此方案對短信的關(guān)鍵字字段智能抽取并以用戶期望的格式自動歸檔的功能,能夠預測短信中具有利用價值的字段的位置和長度,有效地覆蓋大多數(shù)銀行短信并智能識別和正確抽取銀行流水信息形成電子賬本。

      附圖說明

      本發(fā)明的上述和/或附加的方面和優(yōu)點從結(jié)合下面附圖對實施例的描述中將變得明顯和容易理解,其中:

      圖1示出了根據(jù)本發(fā)明實施例的根據(jù)短信生成財務(wù)記錄的方法的示意流程圖;

      圖2示出了根據(jù)本發(fā)明實施例的根據(jù)短信生成財務(wù)記錄的裝置示意框圖;

      圖3示出了根據(jù)本發(fā)明實施例抽取字段的一種實施方式的示意圖;

      圖4示出了根據(jù)本發(fā)明實施例的接口UML示意圖;

      圖5示出了根據(jù)本發(fā)明實施例的Singleton模式示意圖;

      圖6示出了根據(jù)本發(fā)明實施例的Template模式示意圖;

      圖7示出了根據(jù)本發(fā)明實施例的字段抽取策略的一種實施情況;

      圖8示出了根據(jù)本發(fā)明實施例的啟發(fā)式規(guī)則應(yīng)用流程圖;

      圖9至圖11示出了根據(jù)本發(fā)明實施例用于日記賬軟件的效果圖。

      具體實施方式

      為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點,下面結(jié)合附圖和具體實施方式對本發(fā)明進行進一步的詳細描述。需要說明的是,在不沖突的情況下,本申請的實施例及實施例中的特征可以相互組合。

      在下面的描述中闡述了很多具體細節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可以采用其他不同于在此描述的其他方式來實施,因此,本發(fā)明的保護范圍并不受下面公開的具體實施例的限制。

      圖1示出了根據(jù)本發(fā)明實施例的根據(jù)短信生成財務(wù)記錄的方法的示意流程圖。

      如圖1所示,本發(fā)明的第一方面的實施例提出了一種根據(jù)短信生成財務(wù)記錄的方法,包括:步驟102,根據(jù)啟發(fā)式規(guī)則指導正則表達式框架抽取短信中的多個字段,生成多個交易元素;其中,啟發(fā)式規(guī)則為基于機器深度學習工具的回歸模型,用于對多個字段的位置和長度進行預測,正則表達式框架具有結(jié)合Singleton模式、Strategy模式和Template模式的結(jié)構(gòu),能夠集成多個正則表達式且具備可擴展性;步驟104,將多個交易元素歸檔,生成財務(wù)記錄。

      根據(jù)本發(fā)明第一方面的實施例提出的根據(jù)短信生成財務(wù)記錄的方法,能夠從包含銀行交易流水信息(包括支付寶微信支付等渠道)的短信中提取銀行流水關(guān)鍵字字段,在處理多個種類的短信(短信內(nèi)容樣式和結(jié)構(gòu)有所改變)的情況下也能根據(jù)啟發(fā)式規(guī)則預測目標字段的位置和長度,從而智能地提取目標字段生成財務(wù)記錄。所述啟發(fā)式規(guī)則基于tensorflow(用于機器深度學習的一種人工智能學習系統(tǒng))工具的回歸模型來預測字段位置和長度,正則表達式根據(jù)字段位置信息和字段長度信息提取字段,利用此方案對短信的關(guān)鍵字字段智能抽取并以用戶期望的格式自動歸檔的功能,能夠預測短信中具有利用價值的字段的位置和長度,有效地覆蓋大多數(shù)銀行短信并智能識別和正確抽取銀行流水信息形成財務(wù)記錄。

      根據(jù)本發(fā)明第一方面的實施例提出的根據(jù)短信生成財務(wù)記錄的方法,優(yōu)選地,還包括:預處理短信,使短信的文本格式易被識別和分析。

      在該實施例中,對短信內(nèi)容的格式進行轉(zhuǎn)換,使其更便于識別和抽取。例如,將英文字母轉(zhuǎn)換為小寫、將日期格式的空格去除以及將全角標點符號轉(zhuǎn)換為半角標點符號等。

      根據(jù)本發(fā)明第一方面的實施例提出的根據(jù)短信生成財務(wù)記錄的方法,優(yōu)選地,在步驟102之前,還包括:根據(jù)已有短信和數(shù)據(jù)模型訓練啟發(fā)式規(guī)則的回歸模型。

      在該實施例中,啟發(fā)式規(guī)則用于根據(jù)已有數(shù)據(jù)的特征,來預測未知數(shù)據(jù)的特征值。本發(fā)明采用基于tensorflow的回歸模型來預測字段位置。訓練過程主要包括:收集已有的銀行流水短信;將要抽取的銀行、賬號、日期、摘要、金額、類型在短信的位置信息,以及短信的長度信息分別抽取抽出來;采用tensorflow建立regressor模型;采用數(shù)據(jù)訓練模型。

      根據(jù)本發(fā)明第一方面的實施例提出的根據(jù)短信生成財務(wù)記錄的方法,優(yōu)選地,所述多個字段包括:交易日期字段、銀行名稱字段、賬號字段、金額字段、短信摘要字段和/或短信類型字段。

      在該實施例中,根據(jù)具體需求利用啟發(fā)式規(guī)則和對應(yīng)于上述多個字段的正則表達式,用以抽取短信中的交易日期、銀行名稱、帳號、金額、短信摘要、短信類型等信息。這些關(guān)鍵字字段將會被抽取和整理成財務(wù)記錄以便用戶查看或記賬軟件調(diào)用。

      根據(jù)本發(fā)明第一方面的實施例提出的根據(jù)短信生成財務(wù)記錄的方法,優(yōu)選地,步驟102具體包括:根據(jù)正則表達式框架的抽取策略抽取日期字段、銀行名稱字段、賬號字段和/或金額字段,根據(jù)啟發(fā)式規(guī)則策略抽取短信摘要字段和/或短信類型字段,生成多個交易元素;或者根據(jù)啟發(fā)式規(guī)則指導正則表達式框架的抽取策略抽取日期字段、銀行名稱字段、賬號字段、金額字段、短信摘要字段和/或短信類型字段,生成多個交易元素。

      在該實施例中,其一,僅利用啟發(fā)式規(guī)則對短信的摘要和類型進行預測,除需要語義預測的字段之外的常規(guī)部分根據(jù)正則表達式框架進行抽取。其二,利用啟發(fā)式規(guī)則預測所有包含銀行流水信息的字段的位置和長度用以指導正則表達式框架從而提取全部目標字段。提供了兩種具體思路來進行字段抽取使字段抽取功能更智能和靈活。

      本發(fā)明的第二方面的實施例提出了一種歸納短信并建立電子賬本的方法,用于移動終端,包括:利用如上述任一實施例的根據(jù)短信生成財務(wù)記錄的方法(如圖1所示)處理移動終端中的多個短信,生成多個財務(wù)記錄;根據(jù)多個財務(wù)記錄建立或更新電子賬本,其中,所述短信包括既存短信和新接收到的短信。

      根據(jù)本發(fā)明第二方面的實施例提出的歸納短信并建立電子賬本的方法,能夠從包含銀行交易流水信息(包括支付寶微信支付等渠道)的短信中提取銀行流水關(guān)鍵字字段,在處理多個種類的短信(短信內(nèi)容樣式和結(jié)構(gòu)有所改變)的情況下也能根據(jù)啟發(fā)式規(guī)則預測目標字段的位置和長度,從而智能地提取目標字段生成財務(wù)記錄,同樣的方法對多條短信進行處理得到多個財務(wù)記錄進行匯總,導入記賬軟件形成電子賬本。所述啟發(fā)式規(guī)則基于tensorflow(用于機器深度學習的一種人工智能學習系統(tǒng))工具的回歸模型來預測字段位置和長度,正則表達式根據(jù)字段位置信息和字段長度信息提取字段,利用此方案對短信的關(guān)鍵字字段智能抽取并以用戶期望的格式自動歸檔的功能,能夠預測短信中具有利用價值的字段的位置和長度,有效地覆蓋大多數(shù)銀行短信并智能識別和正確抽取銀行流水信息形成電子賬本。

      圖2示出了根據(jù)本發(fā)明實施例的根據(jù)短信生成財務(wù)記錄的裝置示意框圖。

      如圖2所示,本發(fā)明第三方面的實施例提供了一種根據(jù)短信生成財務(wù)記錄的裝置200,包括:啟發(fā)式規(guī)則單元202,根據(jù)啟發(fā)式規(guī)則指導正則表達式框架抽取短信中的多個字段,生成多個交易元素;其中,啟發(fā)式規(guī)則為基于機器深度學習工具的回歸模型,用于對多個字段的位置和長度進行預測,正則表達式框架具有結(jié)合Singleton模式、Strategy模式和Template模式的結(jié)構(gòu),能夠集成多個正則表達式且具備可擴展性;歸檔單元204,將多個交易元素歸檔,生成財務(wù)記錄。

      根據(jù)本發(fā)明第三方面實施例的根據(jù)短信生成財務(wù)記錄的裝置200,能夠從包含銀行交易流水信息(包括支付寶微信支付等渠道)的短信中提取銀行流水關(guān)鍵字字段,在處理多個種類的短信(短信內(nèi)容樣式和結(jié)構(gòu)有所改變)的情況下也能根據(jù)啟發(fā)式規(guī)則預測目標字段的位置和長度,從而智能地提取目標字段生成財務(wù)記錄。所述啟發(fā)式規(guī)則基于tensorflow(用于機器深度學習的一種人工智能學習系統(tǒng))工具的回歸模型來預測字段位置和長度,正則表達式根據(jù)字段位置信息和字段長度信息提取字段,利用此方案對短信的關(guān)鍵字字段智能抽取并以用戶期望的格式自動歸檔的功能,能夠預測短信中具有利用價值的字段的位置和長度,有效地覆蓋大多數(shù)銀行短信并智能識別和正確抽取銀行流水信息形成財務(wù)記錄。

      根據(jù)本發(fā)明第三方面實施例的根據(jù)短信生成財務(wù)記錄的裝置200,優(yōu)選地,還包括:預處理單元206,預處理短信,使短信的文本格式易被識別和分析。

      在該實施例中,對短信內(nèi)容的格式進行轉(zhuǎn)換,使其更便于識別和抽取。例如,將英文字母轉(zhuǎn)換為小寫、將日期格式的空格去除以及將全角標點符號轉(zhuǎn)換為半角標點符號等。

      根據(jù)本發(fā)明第三方面實施例的根據(jù)短信生成財務(wù)記錄的裝置200,優(yōu)選地,還包括:訓練單元208,根據(jù)已有短信和數(shù)據(jù)模型訓練啟發(fā)式規(guī)則的回歸模型。

      在該實施例中,啟發(fā)式規(guī)則用于根據(jù)已有數(shù)據(jù)的特征,來預測未知數(shù)據(jù)的特征值。本發(fā)明采用基于tensorflow的回歸模型來預測字段位置。訓練過程主要包括:收集已有的銀行流水短信;將要抽取的銀行、賬號、日期、摘要、金額、類型在短信的位置信息,以及短信的長度信息分別抽取抽出來;采用tensorflow建立regressor模型;采用數(shù)據(jù)訓練模型。

      根據(jù)本發(fā)明第三方面實施例的根據(jù)短信生成財務(wù)記錄的裝置200,優(yōu)選地,多個字段包括:交易日期字段、銀行名稱字段、賬號字段、金額字段、短信摘要字段和/或短信類型字段。

      在該實施例中,根據(jù)具體需求利用啟發(fā)式規(guī)則和對應(yīng)于上述多個字段的正則表達式,用以抽取短信中的交易日期、銀行名稱、帳號、金額、短信摘要、短信類型等信息。這些關(guān)鍵字字段將會被抽取和整理成財務(wù)記錄以便用戶查看或記賬軟件調(diào)用。

      根據(jù)本發(fā)明第三方面實施例的根據(jù)短信生成財務(wù)記錄的裝置200,優(yōu)選地,所述啟發(fā)式規(guī)則單元202,具體用于:根據(jù)正則表達式框架的抽取策略抽取日期字段、銀行名稱字段、賬號字段和/或金額字段,根據(jù)啟發(fā)式規(guī)則策略抽取短信摘要字段和/或短信類型字段,生成多個交易元素;或者根據(jù)啟發(fā)式規(guī)則指導正則表達式框架的抽取策略抽取日期字段、銀行名稱字段、賬號字段、金額字段、短信摘要字段和/或短信類型字段,生成多個交易元素。

      在該實施例中,其一,僅利用啟發(fā)式規(guī)則對短信的摘要和類型進行預測,除需要語義預測的字段之外的常規(guī)部分根據(jù)正則表達式框架進行抽取。其二,利用啟發(fā)式規(guī)則預測所有包含銀行流水信息的字段的位置和長度用以指導正則表達式框架從而提取全部目標字段。提供了兩種具體思路來進行字段抽取使字段抽取功能更智能和靈活。

      本發(fā)明第四方面的實施例提供了一種歸納短信并建立電子賬本的裝置,用于移動終端,包括:賬本單元,利用如上述任一技術(shù)方案提供的根據(jù)短信生成財務(wù)記錄的裝置200處理移動終端中的多個短信,生成多個財務(wù)記錄,根據(jù)多個財務(wù)記錄建立或更新電子賬本,其中,短信包括既存短信和新接收到的短信。

      根據(jù)本發(fā)明第四方面實施例的歸納短信并建立電子賬本的裝置,能夠從包含銀行交易流水信息(包括支付寶微信支付等渠道)的短信中提取銀行流水關(guān)鍵字字段,在處理多個種類的短信(短信內(nèi)容樣式和結(jié)構(gòu)有所改變)的情況下也能根據(jù)啟發(fā)式規(guī)則預測目標字段的位置和長度,從而智能地提取目標字段生成財務(wù)記錄,利用如上述任一技術(shù)方案提供的根據(jù)短信生成財務(wù)記錄的裝置200對多條短信進行處理得到多個財務(wù)記錄進行匯總,導入記賬軟件形成電子賬本。所述啟發(fā)式規(guī)則基于tensorflow(用于機器深度學習的一種人工智能學習系統(tǒng))工具的回歸模型來預測字段位置和長度,正則表達式根據(jù)字段位置信息和字段長度信息提取字段,利用此方案對短信的關(guān)鍵字字段智能抽取并以用戶期望的格式自動歸檔的功能,能夠預測短信中具有利用價值的字段的位置和長度,有效地覆蓋大多數(shù)銀行短信并智能識別和正確抽取銀行流水信息形成電子賬本。

      圖3示出了根據(jù)本發(fā)明實施例抽取字段的一種實施方式的示意圖。

      如圖3所示,根據(jù)短信內(nèi)容抽取字段的過程主要包括以下步驟:

      對銀行短信(包括銀行機構(gòu)短信、支付寶支付短信、微信支付短信)進行預處理,包括將英文字母轉(zhuǎn)換為小寫、將日期格式的空格去除以及將全角標點符號轉(zhuǎn)換為半角標點符號等;

      對處理后的銀行短信進行過濾,若短信是需要直接被過濾的,則過濾并結(jié)束,反之,進行后續(xù)的抽取操作;

      抽取賬號和金額,如果沒有金額或者賬號,那么直接結(jié)束。因為,沒有賬號或者金額的流水,會計人員本身是無法制作憑證的,所以該類短信沒有必要抽取。反之,則接著抽取短信其他的字段,包括銀行、摘要、日期和類型。

      在該實施例中,大多數(shù)銀行短信主要分為三類:第一類,不含有賬號和金額的廣告性質(zhì)短信;第二類,含有賬號和金額,但是屬于驗證碼、信用卡還款催繳等非銀行流水短信;第三類,含有賬號和金額的銀行交易流水短信。目前只有第三類是我們要進行抽取過程的對象。通過上述過濾的步驟,過濾掉第一類、第二類兩種類型的短信,僅對第三類中的短信進行字段抽取,提取目標字段。

      圖4示出了根據(jù)本發(fā)明實施例的接口UML(統(tǒng)一建模語言)示意圖。

      為了滿足可拓展性的正則表達式框架,采用如圖4所示的接口UML設(shè)計,該框架采用Singleton模式,Strategy模式以及Template模式的系統(tǒng)設(shè)計方法,保證系統(tǒng)的靈活性和可拓展性。圖4的接口UML圖描述了系統(tǒng)主要實體要件,其中各個接口的定義如下:

      SMS(402),Short Message Service,即手機短信服務(wù),表示手機短信接口;

      Strategy(404),是委托模式的接口,目的在于讓委托對象和被委托的對象解除耦合;

      DbOperation(406),是數(shù)據(jù)庫操作接口,用于數(shù)據(jù)庫操作;

      Regex(408),是正則表達式接口,用于規(guī)范所有的正則表達式;

      Rule(410),是預處理接口,用于實現(xiàn)預處理的相關(guān)操作;

      Element(412),是正則表達式元素的接口,用于針對不同類型正則表達式實現(xiàn)實現(xiàn)特定的元素實體。

      其中Regex(408)接口對Strategy(404)接口的委托采用了Singleton模式,采用該模式可以保證全局只有唯一一個委托實體,可以避免反復從數(shù)據(jù)庫從查詢,從而提升程序的響應(yīng)速度和使用體驗。

      圖5示出了根據(jù)本發(fā)明實施例的Singleton模式示意圖。

      以賬號抽取的委托AccountStrategy為例,有如圖5所示的Singleton模式設(shè)計類圖:

      對短信的預處理、對各個元素的抽取均采用了Strategy模式。從圖4的UML接口圖可以看出,短信并沒有直接和短信預處理規(guī)則Rule(410)接口以及正則表達式規(guī)則Regex(408)接口直接依賴,而是通過Strategy(404)接口進行依賴,這樣避免了短信本身對于規(guī)則和正則表達式的直接依賴,保持程序敏捷性和可拓展性。

      圖6示出了根據(jù)本發(fā)明實施例的Template模式示意圖。

      對于DbOperation和Strategy的實現(xiàn)采用了Template模式,這樣可以使得程序易于拓展。以DbOperation為例,有如圖5所示的Template模式圖,該實施例提供的Template模式可以解決正則拓展問題和保證程序敏捷性,及時響應(yīng)新的銀行模版,從而能夠盡量覆蓋所有的銀行短信模版。

      圖7示出了根據(jù)本發(fā)明實施例的字段抽取策略的一種實施情況。

      如圖7所示,該實施例的主要技術(shù)組成成分包括正則表達式管理框架和啟發(fā)式規(guī)則。銀行短信種類繁多,因此日期格式、金額格式、賬號格式不同,為了進行覆蓋率較高的抽取,主要采用正則表達式來處理,但是一個正則表達式并不能完全歸納所有的短信,也是不易拓展的。對于摘要、短信類型抽取一般很難用標準的正則來抽取,需要對文本的語音進行理解的程度上進行總結(jié)后抽取,因此需要設(shè)計一套可靈活拓展的正則管理框架,這需要兼顧程序的可拓展性和正則的可拓展性,因此采用啟發(fā)式規(guī)則來抽取,啟發(fā)式規(guī)則的挖掘主要是采用基于tensorflow工具的回歸模型來預測。

      其中正則表達式管理框架主要負責對交易日期、銀行名稱、賬號以及金額的抽取工作;啟發(fā)式規(guī)則負責對摘要和短信類型的抽取。

      圖8示出了根據(jù)本發(fā)明實施例的啟發(fā)式規(guī)則應(yīng)用流程圖。

      如圖8所示,啟發(fā)式規(guī)則的一種實施情況主要包括:

      步驟802,收集已有的銀行流水短信;

      步驟804,將要抽取的銀行、賬號、日期、摘要、金額、類型在短信的位置信息,以及短信的長度信息分別抽取抽來;

      步驟806,采用tensorflow建立regressor模型;

      步驟808,采用數(shù)據(jù)訓練模型;

      步驟810,對于新來的短信,采用正則表達式管理框架抽取出其他字段信息;

      步驟812,采用模型來預測。

      在該實施例中,啟發(fā)式規(guī)則是機器學習基本的概念,用于根據(jù)已有數(shù)據(jù)的特征,來預測未知數(shù)據(jù)的特征值。短信日記賬采用基于tensorflow的回歸模型來預測摘要位置。

      其中,根據(jù)所述步驟804,以一條短信為例:

      短信內(nèi)容:“您賬戶3211發(fā)生個人信用卡扣款,應(yīng)扣人民幣1333.32,實扣1222.00.【招商銀行】”

      可以抽取如下的(位置,長度)信息對:

      銀行:招商銀行,(40,5)

      賬號:3211,(3,4)

      日期:默認值,(-1,-1)

      摘要:發(fā)生個人信用卡扣款,(7,9)

      金額:1222.00,(34,7)

      類型:扣款,(15,2)

      短信長度:46

      以預測摘要為例,由此可以得到兩組實驗數(shù)據(jù):

      40,3,-1,34,15,7

      5,4,-1,7,2,46,9

      其中,最后一個數(shù)字分別為目標值(target)(在機器學習中也可以叫做標簽(Label))的位置信息和長度信息;

      采用啟發(fā)式規(guī)則,可以有效地預測摘要和類型關(guān)鍵字的位置的長度信息,從而達到智能抽取的目的。

      圖9至圖11為根據(jù)本發(fā)明實施例用于日記賬軟件的效果圖。

      根據(jù)本發(fā)明提供的生成財務(wù)記錄并建立電子賬本的技術(shù)方案,對于種類繁多、分散雜亂、不易收集的但是具有利用價值的銀行短信,其中包含很多財務(wù)信息,這些對會計工作能夠起到積極作用的字段通過正則表達式框架和啟發(fā)式規(guī)則被抽取出來,用于如圖9至圖11示出的日記賬軟件,幫助用戶從銀行短信中收集和處理財務(wù)信息。

      以上結(jié)合附圖詳細說明了本發(fā)明的技術(shù)方案,通過本發(fā)明的技術(shù)方案,實現(xiàn)了對短信的關(guān)鍵字字段智能抽取并以用戶期望的格式自動歸檔的功能,能夠預測短信中具有利用價值的字段的位置和長度,有效地覆蓋大多數(shù)銀行短信(包括各種銀行機構(gòu),支付寶支付和微信支付)并智能識別和正確抽取銀行流水信息形成財務(wù)記錄。

      本發(fā)明實施例方法中的步驟可以根據(jù)實際需要進行順序調(diào)整、合并和刪減,本發(fā)明實施例系統(tǒng)中的單元可以根據(jù)實際需要進行合并、劃分和刪減。以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。

      當前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1