文本拼接方法及裝置制造方法

文檔序號：6626657閱讀：260來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

文本拼接方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種文本拼接方法及裝置，其中，該方法包括：獲取待拼接文本；對待拼接文本中的每兩個相鄰的第一文本和第二文本執(zhí)行以下操作，其中，第一文本和第二文本的拼接順序?yàn)榈谝晃谋酒唇釉诘诙谋局埃翰檎业谝晃谋九c第二文本中相同的至少一行文本字符串，其中，至少一行文本字符串包括第一文本的最后一行文本字符串和第二文本的第一行文本字符串；若查找到相同的至少一行文本字符串，則從第一文本或第二文本中刪除至少一行文本字符串，并按照拼接順序?qū)?zhí)行完刪除之后的第一文本和第二文本進(jìn)行拼接。本發(fā)明解決了采用現(xiàn)有的文本拼接方法所導(dǎo)致的拼接后的文本之間連續(xù)性較低的技術(shù)問題。
【專利說明】文本拼接方法及裝置

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)領(lǐng)域，具體而言，涉及一種文本拼接方法及裝置。

【背景技術(shù)】
[0002]目前，利用光學(xué)字符識別(OCR, Optical Character Recognit1n)對紙質(zhì)文件上的文本進(jìn)行識別時，通常采用的方式是利用攝像頭從上述紙質(zhì)文件采集文本信息，再利用圖像配準(zhǔn)和圖像融合技術(shù)將從紙質(zhì)上采集到的多個文本圖像進(jìn)行拼接，以得到一幅完整的文本圖像，再對上述完整的文本圖像進(jìn)行OCR識別，從而得到與上述紙質(zhì)文件上的文本相對應(yīng)的計(jì)算機(jī)可識別的全部文本信息，其中，上述多個文本圖像中各個文本圖像之間可能包含重復(fù)的部分。其中，圖像配準(zhǔn)技術(shù)指的是，將不同時刻、不同傳感器(成像設(shè)備)、不同條件(位置。角度、光照)獲取的多幅圖像進(jìn)行匹配、疊加的過程。圖像融合技術(shù)指的是將多源信道所采集到的關(guān)于同一目標(biāo)的圖像數(shù)據(jù)經(jīng)過圖像處理等，最大限度的提取各自信道中的有利信息，最后綜合成高質(zhì)量的圖像。
[0003]然而，利用現(xiàn)有的OCR識別方法來進(jìn)行文本識別時，由于采用機(jī)器學(xué)習(xí)的方式進(jìn)行識別，因而識別得出的結(jié)果可能會受到外界環(huán)境的影響，例如，采集文本信息時的光照、角度不同，機(jī)器識別出的文本信息與紙質(zhì)文件上的原始文本信息相比也可能會不同，從而導(dǎo)致利用OCR識別文本的準(zhǔn)確率大大下降。此外，對于一些在邊界缺損文本信息的文本圖像，在現(xiàn)有的文本識別方案中也并沒有得到良好的處理，從而使得最終識別出的文本信息無法保證識別的準(zhǔn)確性，以及文本之間拼接的連續(xù)性。
[0004]針對上述的問題，目前尚未提出有效的解決方案。

【發(fā)明內(nèi)容】

[0005]本發(fā)明實(shí)施例提供了一種文本拼接方法及裝置，以至少解決采用現(xiàn)有的文本拼接方法所導(dǎo)致的拼接后的文本之間連續(xù)性較低的技術(shù)問題。
[0006]根據(jù)本發(fā)明實(shí)施例的一個方面，提供了一種文本拼接方法，包括:獲取待拼接文本；對上述待拼接文本中的每兩個相鄰的第一文本和第二文本執(zhí)行以下操作，其中，上述第一文本和第二文本的拼接順序?yàn)樯鲜龅谝晃谋酒唇釉谏鲜龅诙谋局?查找上述第一文本與上述第二文本中相同的至少一行文本字符串，其中，上述至少一行文本字符串包括上述第一文本的最后一行文本字符串和上述第二文本的第一行文本字符串；若查找到上述相同的至少一行文本字符串，則從上述第一文本或上述第二文本中刪除上述至少一行文本字符串，并按照上述拼接順序?qū)?zhí)行完上述刪除之后的上述第一文本和上述第二文本進(jìn)行拼接。
[0007]根據(jù)本發(fā)明實(shí)施例的另一方面，還提供了一種文本拼接裝置，包括:獲取單元，用于獲取待拼接文本；拼接單元，用于通過以下模塊實(shí)現(xiàn)對上述待拼接文本中的每兩個相鄰的第一文本和第二文本所執(zhí)行的操作，其中，上述第一文本和第二文本的拼接順序?yàn)樯鲜龅谝晃谋酒唇釉谏鲜龅诙谋局?查找模塊，用于查找上述第一文本與上述第二文本中相同的至少一行文本字符串，其中，上述至少一行文本字符串包括上述第一文本的最后一行文本字符串和上述第二文本的第一行文本字符串；第一拼接模塊，用于在查找到上述相同的至少一行文本字符串時，從上述第一文本或上述第二文本中刪除上述至少一行文本字符串，并按照上述拼接順序?qū)?zhí)行完上述刪除之后的上述第一文本和上述第二文本進(jìn)行拼接。
[0008]在本發(fā)明實(shí)施例中，通過對獲取到的待拼接文本中的每兩個相鄰的第一文本和第二文本查找是否存在相同的至少一行文本字符串，得到第一文本與第二文本中相同的至少一行文本字符串，將其從第一文本或第二文本中刪除，再對刪除后的文本進(jìn)行拼接。由于現(xiàn)有技術(shù)中采用文本圖像直接進(jìn)行拼接，則OCR識別出的文本字符串可能存在重復(fù)的文本字符串，從而導(dǎo)致整個文本不連續(xù)的問題，而且，由于存在重復(fù)的文本字符串，也使得識別出的文本字符串在拼接時無法保證準(zhǔn)確性。而通過本發(fā)明實(shí)施例，使得待拼接文本中不再包含重復(fù)的文本字符串，進(jìn)而達(dá)到提高文本拼接的連續(xù)性的效果。
[0009]此外，在本發(fā)明實(shí)施例中，在對文本識別時，還會對文本中的殘缺文本字符串予以過濾刪除，從而進(jìn)一步保證了在文本拼接時，不會有殘缺文本字符串的干擾，提高了文本拼接的準(zhǔn)確性。

【專利附圖】

【附圖說明】
[0010]此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解，構(gòu)成本申請的一部分，本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明，并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0011]圖1是根據(jù)本發(fā)明實(shí)施例的一種可選的文本拼接方法的流程示意圖；
[0012]圖2是根據(jù)本發(fā)明實(shí)施例的一種可選的文本拼接的示意圖；
[0013]圖3是根據(jù)本發(fā)明實(shí)施例的另一種可選的文本拼接的示意圖；
[0014]圖4是根據(jù)本發(fā)明實(shí)施例的又一種可選的文本拼接的示意圖；
[0015]圖5是根據(jù)本發(fā)明實(shí)施例的又一種可選的文本拼接的示意圖；
[0016]圖6是根據(jù)本發(fā)明實(shí)施例的又一種可選的文本拼接的示意圖；
[0017]圖7是根據(jù)本發(fā)明實(shí)施例的又一種可選的文本拼接的示意圖；
[0018]圖8是根據(jù)本發(fā)明實(shí)施例的又一種可選的文本拼接的示意圖；以及
[0019]圖9是根據(jù)本發(fā)明實(shí)施例的一種可選的文本拼接裝置的示意圖。

【具體實(shí)施方式】
[0020]為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明方案，下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例，都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
[0021]需要說明的是，本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象，而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換，以便這里描述的本發(fā)明的實(shí)施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外，術(shù)語“包括”和“具有”以及他們的任何變形，意圖在于覆蓋不排他的包含，例如，包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元，而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
[0022]實(shí)施例1
[0023]根據(jù)本發(fā)明實(shí)施例，提供了一種文本拼接方法，如圖1所示，該方法包括:
[0024]S102，獲取待拼接文本；
[0025]S104，對待拼接文本中的每兩個相鄰的第一文本和第二文本執(zhí)行以下操作，其中，第一文本和第二文本的拼接順序?yàn)榈谝晃谋酒唇釉诘诙谋局?
[0026]S1042，查找第一文本與第二文本中相同的至少一行文本字符串，其中，至少一行文本字符串包括第一文本的最后一行文本字符串和第二文本的第一行文本字符串；
[0027]S1044，若查找到相同的至少一行文本字符串，則從第一文本或第二文本中刪除至少一行文本字符串，并按照拼接順序?qū)?zhí)行完刪除之后的第一文本和第二文本進(jìn)行拼接。
[0028]可選地，在本實(shí)施例中，上述文本拼接方法可以但不限于在終端上實(shí)現(xiàn)文本拼接，其中，上述終端可以包括但不限于以下至少之一:手機(jī)、筆記本電腦、平板電腦、PC機(jī)。進(jìn)一步，上述文本拼接方法可以但不限于應(yīng)用于光學(xué)字符識別(OCR, Optical CharacterRecognit1n)之后的文本拼接過程中。例如，通過OCR識別將由攝像頭采集的待拼接文本的圖像識別成待拼接文本，其中，上述待拼接文本可以包括但不限于一個或多個文本。例如，如圖2所示，上述待拼接文本T可以包括第一文本Text_l、第二文本Text_2、第三文本Text_3，其中，上述待拼接文本的拼接順序?yàn)榈谝晃谋綯ext_l位于第二文本Text_2之前，第二文本Text_2位于第三文本Text_3之前，且第一文本Text_l與第二文本Text_2之間存在3行相同的文本字符串，則通過本實(shí)施例中提供的文本拼接方法，可以實(shí)現(xiàn)將相同的文本字符串刪除，對刪除相同的文本字符串之后的待拼接文本進(jìn)行拼接得到拼接后的文本T’，從而實(shí)現(xiàn)提高文本拼接的連續(xù)性。上述舉例只是一種示例，本實(shí)施例對此不做任何限定。
[0029]可選地，在本實(shí)施例中，上述查找第一文本與第二文本中相同的至少一行文本字符串的方式可以包括但不限于:對第一文本中包括最后一行在內(nèi)的至少一行文本字符串與第二文本中包括第一行在內(nèi)的至少一行文本字符串進(jìn)行逐行匹配，將逐行匹配得到的最大行數(shù)匹配結(jié)果作為第一文本與第二文本中相同的至少一行文本字符串?？蛇x地，在本實(shí)施例中，上述至少一行文本字符串可以包括但不限于:一行或兩行或連續(xù)多行文本字符串。例如，當(dāng)只有一行文本字符串相同時，則可以直接刪除上述相同的一行文本字符串，以實(shí)現(xiàn)待拼接文本的無縫拼接。又例如，當(dāng)連續(xù)多行文本字符串相同時，則需要多次查找兩個文本之間相同的文本字符串的行數(shù)最大的多行文本字符串，從而實(shí)現(xiàn)可以完整獲取所有相同的文本字符串，進(jìn)而將上述相同的文本字符串刪除，而不會因有所遺漏，導(dǎo)致拼接后的文本不連續(xù)的問題。
[0030]可選地，在本實(shí)施例中，上述匹配判斷可以包括但不限于分別從第一文本的最后一行文本字符串以及第二文本的第一行文本字符串開始，以逐次遞增一行的方式分別對上述兩個文本中的文本字符串進(jìn)行字符串匹配。例如，依次對第一文本的最后一行文本字符串與第二文本的第一行文本字符串進(jìn)行匹配判斷，再對第一文本的最后兩行文本字符串與第二文本的前兩行文本字符串進(jìn)行匹配判斷，然后對第一文本的最后三行文本字符串與第二文本的前三行文本字符串進(jìn)行匹配判斷，直到遍歷一次上述第一文本和第二文本中總行數(shù)較小的一個文本。
[0031]可選地，在本實(shí)施例中，上述匹配方式可以包括但不限于:單行匹配、多行匹配。
[0032]可選地，在本實(shí)施例中，上述單行匹配的方式可以包括但不限于:通過比較兩個文本中兩行文本字符串的編輯距離，判斷上述單行匹配是否成功。其中，上述編輯距離可以包括但不限于:有一個文本字符串轉(zhuǎn)成另一個文本字符串所需的最少編輯操作次數(shù)，其中，上述編輯操作可以包括但不限于一個字符替換成另一個字符、插入一個字符、刪除一個字符。其中，上述單行匹配是否成功匹配的判斷方式可以包括但不限于:當(dāng)兩行文本字符串的編輯距離小于等于預(yù)定閾值時，則判斷出上述單行匹配成功。例如，第一文本的最后一行文本字符串為:android:name = “.gu1.CodeActivity”,第二文本的第一行文本字符串為:android:name = “.guu.CodeActivityl2”,則上述兩個文本的兩行文本字符串的編輯距離為3，其中，“gui”中的一個字符“i”替換為“U”，末尾增加“12”兩個字符，因而上述單行匹配得到的編輯距離為3，假設(shè)預(yù)先設(shè)定的閾值為5，則可判斷出上述兩行文本字符串的編輯距離3小于預(yù)定閾值5時，則判斷出上述單行匹配成功。
[0033]可選地，在本實(shí)施例中，上述多行匹配的方式可以包括但不限于:將匹配行數(shù)最多的文本字符串作為最終的匹配字符串，也就是兩個文本之間的相同的文本字符串?？蛇x地，在本實(shí)施例中，上述多行匹配是否成功匹配的判斷方式可以包括但不限于:計(jì)算上述多行匹配的文本字符串中單行匹配成功的行數(shù)占總行數(shù)的比例，當(dāng)上述比例大于預(yù)定閾值時，則可判斷出上述多行匹配已匹配成功。
[0034]可選地，在本實(shí)施例中，若查找到相同的至少一行文本字符串，則從第一文本或第二文本中刪除至少一行文本字符串，并按照拼接順序?qū)?zhí)行完刪除之后的第一文本和第二文本進(jìn)行拼接包括但不限于以下至少之一:
[0035]I)從第一文本刪除至少一行文本字符串，并將刪除了至少一行文本字符串的第一文本和第二文本進(jìn)行拼接，其中，刪除了至少一行文本字符串的第一文本的最后一行拼接在第二文本的第一行之前；或者
[0036]2)從第二文本刪除至少一行文本字符串，并將第一文本和刪除了至少一行文本字符串的第二文本進(jìn)行拼接，其中，第一文本的最后一行拼接在刪除了至少一行文本字符串的第二文本的第一行之前。
[0037]具體結(jié)合以下示例進(jìn)行描述，假設(shè)在第一文本與第二文本中查找到相同的文本字符串:“XXXXXX，Yyyyyyyyy, zzz”，則可以選擇刪除第一文本中上述相同的文本字符串，將第一文本中刪除了上述相同的文本字符串的最后一行拼接到第二文本的第一行之前，如圖3所示。也可以選擇刪除第二文本中上述相同的文本字符串，將第一文本的最后一行拼接到第二文本刪除了上述相同的文本字符串的第一行之前，如圖4所示。
[0038]可選地，在本實(shí)施例中，在查找第一文本與第二文本中是否存在相同的至少一行文本字符串之后，還包括:若不存在相同的至少一行文本字符串，則按照拼接順序?qū)Φ谝晃谋竞偷诙谋具M(jìn)行拼接，其中，第一文本的最后一行拼接在第二文本的第一行之前。
[0039]具體結(jié)合以下示例進(jìn)行描述，假設(shè)在第一文本與第二文本中未查找到相同的文本字符串，則按照拼接順序直接對第一文本和第二文本進(jìn)行拼接，其中，第一文本的最后一行(例如，“zzz”)拼接在第二文本的第一行(例如，“456789”)之前，如圖5所示。
[0040]通過本申請?zhí)峁┑膶?shí)施例，通過對獲取到的待拼接文本中的每兩個相鄰的第一文本和第二文本查找判斷是否存在相同的至少一行文本字符串，得到第一文本與第二文本中相同的至少一行文本字符串，將其從第一文本或第二文本中刪除，再對刪除后的文本進(jìn)行拼接，從而實(shí)現(xiàn)在對文本拼接時，不再包含重復(fù)的文本字符串，提高了拼接后的文本的連續(xù)性，改善了用戶體驗(yàn)。
[0041]作為一種可選的方案，上述查找第一文本與第二文本中相同的至少一行文本字符串包括:
[0042]SI，重復(fù)執(zhí)行以下步驟，直到N大于第一文本和第二文本中總行數(shù)較小的一個的總行數(shù)，N的初始值為1:
[0043]S12，獲取第一文本中包括第一文本的最后一行在內(nèi)的連續(xù)N行的第一文本字符串與第二文本中包括第二文本的第一行在內(nèi)的連續(xù)N行的第二文本字符串之間文本字符串相同的行數(shù)P;
[0044]S14，存儲P和對應(yīng)的N，并令N = N+1 ;
[0045]S2，從存儲的P中獲取取值最大的并從存儲的N中獲取與對應(yīng)的N目P并將第一文本中包括第一文本的最后一行在內(nèi)的連續(xù)N@s行的第一文本字符串與第二文本中包括第二文本的第一行在內(nèi)的連續(xù)Ngig行作為查找到的第一文本與第二文本中相同的至少一行文本字符串。
[0046]具體結(jié)合以下示例進(jìn)行描述，如圖6所示，假設(shè)第一文本包括6行文本字符串，第二文本包括7行文本字符串，其中，上述兩個文本中包括連續(xù)4行相同的字符串，在查找第一文本與第二文本中相同的至少一行文本字符串時包括以下步驟:
[0047]SI，分別對第一文本的最后一行與第二文本的第一行進(jìn)行匹配，判斷是否匹配成功，若匹配成功，則存儲相同的文本字符串的行數(shù)P = 1，參與匹配的行數(shù)為N= I ；
[0048]S2，分別對第一文本的最后兩行與第二文本的前兩行進(jìn)行匹配，判斷是否匹配成功，若匹配成功，則存儲相同的文本字符串的行數(shù)P = 0，參與匹配的行數(shù)為N = 2 ;
[0049]S3，分別對第一文本的最后三行與第二文本的前三行進(jìn)行匹配，判斷是否匹配成功，若匹配成功，則存儲相同的文本字符串的行數(shù)P = 0，參與匹配的行數(shù)為N = 3 ;
[0050]S4，分別對第一文本的最后四行與第二文本的前四行進(jìn)行匹配，判斷是否匹配成功，若匹配成功，則存儲相同的文本字符串的行數(shù)P = 4，參與匹配的行數(shù)為N = 4。
[0051]以此類推，由于第一文本的總行數(shù)小于第二文本的總行數(shù)，因而，上述匹配判斷將重復(fù)執(zhí)行直至遍歷完上述總行數(shù)為6的第一文本。
[0052]通過上述匹配判斷得出，存儲的P中最大值為Pi±{t= 4，對應(yīng)的Ngig= 4，則上述N = 4所對應(yīng)的文本字符串“6，4，5，6”將作為查找到的第一文本與第二文本中相同的文本字符串。
[0053]通過本申請?zhí)峁┑膶?shí)施例，通過上述方式對第一文本與第二文本中的文本字符串進(jìn)行判斷，以得出上述兩個文本中相同的文本字符串，實(shí)現(xiàn)了對相同的文本字符串的準(zhǔn)確識別，進(jìn)而提高了文本拼接的準(zhǔn)確性。
[0054]作為一種可選的方案，上述存儲P和對應(yīng)的N包括:
[0055]SI，判斷比例值P/N是否大于預(yù)定比例閾值；
[0056]S2，若比例值P/N大于預(yù)定比例閾值，則存儲P和對應(yīng)的N。
[0057]可選地，在本實(shí)施例中，上述多行匹配是否成功匹配的判斷方式可以包括但不限于:計(jì)算上述多行匹配的文本字符串中單行匹配成功的行數(shù)占總行數(shù)的比例，當(dāng)上述比例大于預(yù)定閾值時，則可判斷出上述多行匹配已匹配成功。
[0058]結(jié)合以上示例進(jìn)行描述，如圖6所示，假設(shè)第一文本包括6行文本字符串，第二文本包括7行文本字符串，從多行匹配的角度進(jìn)行說明，在第一文本的最后一行與第二文本的第一行進(jìn)行匹配時，得到上述比例值P/N= 1，假設(shè)預(yù)定閾值為0.8，則可以判斷出上述比例值P/N大于預(yù)定比例閾值，則匹配成功；進(jìn)一步，在第一文本的最后兩行與第二文本的前兩行進(jìn)行匹配時，得到上述比例值P/N = 0，則可以判斷出上述比例值P/N小于預(yù)定比例閾值，則上述匹配失敗；再者，在第一文本的最后三行與第二文本的前三行進(jìn)行匹配時，得到上述比例值P/N = 0，則可以判斷出上述比例值P/N小于預(yù)定比例閾值，則上述匹配失??；進(jìn)一步，在第一文本的最后四行與第二文本的前四行進(jìn)行匹配時，得到上述比例值P/N =1，則可以判斷出上述比例值P/N大于預(yù)定比例閾值，則匹配成功；再繼續(xù)匹配直至遍歷完成。在所有匹配中只有上述兩次匹配成功的情況，由于第四次匹配的行數(shù)最多，則將上述匹配行數(shù)最多的四行文本字符串作為最終的匹配字符串，也就是作為第一文本與第二文本之間相同的文本字符串。
[0059]通過本申請?zhí)峁┑膶?shí)施例，通過利用比例值來判斷上述多行匹配是否成功，進(jìn)一步保證了文本匹配的準(zhǔn)確性，從而可以準(zhǔn)確刪除相同的文本字符串，達(dá)到提高文本拼接的準(zhǔn)確性的效果。
[0060]作為一種可選的方案，獲取待拼接文本包括:
[0061 ] SI，獲取一個或多個待識別文本圖像，其中，每個待識別文本圖像對應(yīng)待拼接文本中的一個文本；
[0062]S2，對每個待識別文本圖像執(zhí)行以下識別操作，得到待拼接文本中對應(yīng)的一個文本可以但不限于包括以下三種方式:
[0063]作為一種可選的實(shí)施方式，對待識別文本圖像中的第一行進(jìn)行識別:
[0064]SI，判斷待識別文本圖像中的第一行與待識別文本圖像的上邊界之間的第一距離是否小于等于第一距離閾值；
[0065]S2，若第一距離小于等于第一距離閾值，則將待識別文本圖像中的第一行進(jìn)行標(biāo)記；
[0066]S3，將待識別文本圖像識別成當(dāng)前文本，從當(dāng)前文本中刪除進(jìn)行了標(biāo)記的行，得到待拼接文本中對應(yīng)的一個文本。
[0067]作為另一種可選的實(shí)施方式，對待識別文本圖像中的最后一行進(jìn)行識別:
[0068]SI，判斷待識別文本圖像中的最后一行與待識別文本圖像的下邊界之間的第二距離是否小于等于第二距離閾值；
[0069]S2，若第二距離小于等于第二距離閾值，則將待識別文本圖像中的最后一行進(jìn)行標(biāo)記；
[0070]S3，將待識別文本圖像識別成當(dāng)前文本，從當(dāng)前文本中刪除進(jìn)行了標(biāo)記的行，得到待拼接文本中對應(yīng)的一個文本。
[0071]作為又一種可選的實(shí)施方式，同時對待識別文本圖像中的第一行以及最后一行進(jìn)行識別:
[0072]SI，判斷待識別文本圖像中的第一行與待識別文本圖像的上邊界之間的第一距離是否小于等于第一距離閾值，并判斷待識別文本圖像中的最后一行與待識別文本圖像的下邊界之間的第二距離是否小于等于第二距離閾值；
[0073]S2，若第一距離小于等于第一距離閾值，則將待識別文本圖像中的第一行進(jìn)行標(biāo)記；若第二距離小于等于第二距離閾值，則將待識別文本圖像中的最后一行進(jìn)行標(biāo)記；
[0074]S3，將待識別文本圖像識別成當(dāng)前文本，從當(dāng)前文本中刪除進(jìn)行了標(biāo)記的行，得到待拼接文本中對應(yīng)的一個文本。
[0075]可選地，將待識別文本圖像識別成當(dāng)前文本包括:采用OCR將待識別文本圖像識別成當(dāng)前文本。
[0076]可選地，在本實(shí)施例中，通過攝像頭獲取待識別文本圖像，再利用OCR識別，將上述獲取到的文本圖像識別成當(dāng)前待拼接文本。
[0077]然而，上述獲取到的待識別文本圖像可能存在文本殘缺，如圖7所示，則在對文本圖像進(jìn)行識別時，還需要過濾上述殘缺文本，以得到待拼接文本。
[0078]可選地，在本實(shí)施例中，需要刪除的殘缺文本字符串可以包括但不限于以下至少之一:待識別文本圖像中的第一行與待識別文本圖像的上邊界之間的第一距離小于等于第一距離閾值的文本字符串、待識別文本圖像中的最后一行與待識別文本圖像的下邊界之間的第二距離小于等于第二距離閾值的文本字符串。其中，上述第一距離閾值可以包括但不限于:上述待識別文本圖像中的第一行與待識別文本圖像的上邊界之間空白區(qū)域的寬度、上述待識別文本圖像中的最后一行與待識別文本圖像的下邊界之間空白區(qū)域的寬度。例如，如圖8所示，上述待識別文本圖像中的最后一行與待識別文本圖像的下邊界之間空白區(qū)域的寬度h將作為第二距離閾值。
[0079]可選地，在本實(shí)施例中，上述第一距離閾值與第二距離閾值可以但不限于根據(jù)不同的應(yīng)用場景取值相同或取值不同。例如，上述閾值可以但不限于為上述空白區(qū)域的十分之一，從而保證在刪除殘缺文本字符串時，可以使得其他文本字符串不受影響，從而保證了文本拼接的準(zhǔn)確性。
[0080]通過本申請?zhí)峁┑膶?shí)施例，通過上述方式得到文本中的殘缺文本字符串，從而實(shí)現(xiàn)將上述文本中的殘缺文本字符串準(zhǔn)確刪除，進(jìn)而達(dá)到提高文本識別以及文本拼接的準(zhǔn)確性。
[0081]需要說明的是，對于前述的各方法實(shí)施例，為了簡單描述，故將其都表述為一系列的動作組合，但是本領(lǐng)域技術(shù)人員應(yīng)該知悉，本發(fā)明并不受所描述的動作順序的限制，因?yàn)橐罁?jù)本發(fā)明，某些步驟可以采用其他順序或者同時進(jìn)行。其次，本領(lǐng)域技術(shù)人員也應(yīng)該知悉，說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例，所涉及的動作和模塊并不一定是本發(fā)明所必須的。
[0082]通過以上的實(shí)施方式的描述，本領(lǐng)域的技術(shù)人員可以清楚地了解到根據(jù)上述實(shí)施例的方法可借助軟件加必需的通用硬件平臺的方式來實(shí)現(xiàn)，當(dāng)然也可以通過硬件，但很多情況下前者是更佳的實(shí)施方式?；谶@樣的理解，本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來，該計(jì)算機(jī)軟件產(chǎn)品存儲在一個存儲介質(zhì)(如R0M/RAM、磁碟、光盤)中，包括若干指令用以使得一臺終端設(shè)備(可以是手機(jī)，計(jì)算機(jī)，服務(wù)器，或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實(shí)施例所述的方法。
[0083]實(shí)施例2
[0084]根據(jù)本發(fā)明實(shí)施例，還提供了一種文本拼接裝置，如圖9所示，該裝置包括:
[0085]I)獲取單元902，用于獲取待拼接文本；
[0086]2)拼接單元904，用于通過以下模塊實(shí)現(xiàn)對待拼接文本中的每兩個相鄰的第一文本和第二文本所執(zhí)行的操作，其中，第一文本和第二文本的拼接順序?yàn)榈谝晃谋酒唇釉诘诙谋局?
[0087](I)查找模塊9042，用于查找第一文本與第二文本中相同的至少一行文本字符串，其中，至少一行文本字符串包括第一文本的最后一行文本字符串和第二文本的第一行文本字符串；
[0088](2)第一拼接模塊9044，用于在查找到相同的至少一行文本字符串時，從第一文本或第二文本中刪除至少一行文本字符串，并按照拼接順序?qū)?zhí)行完刪除之后的第一文本和第二文本進(jìn)行拼接。
[0089]可選地，在本實(shí)施例中，上述文本拼接方法可以但不限于在終端上實(shí)現(xiàn)文本拼接，其中，上述終端可以包括但不限于以下至少之一:手機(jī)、筆記本電腦、平板電腦、PC機(jī)。進(jìn)一步，上述文本拼接方法可以但不限于應(yīng)用于光學(xué)字符識別(OCR, Optical CharacterRecognit1n)之后的文本拼接過程中。例如，通過OCR識別將由攝像頭采集的待拼接文本的圖像識別成待拼接文本，其中，上述待拼接文本可以包括但不限于一個或多個文本。例如，如圖2所示，上述待拼接文本T可以包括第一文本Text_l、第二文本Text_2、第三文本Text_3,其中，上述待拼接文本的拼接順序?yàn)榈谝晃谋綯ext_l位于第二文本Text_2之前，第二文本Text_2位于第三文本Text_3之前，且第一文本Text_l與第二文本Text_2之間存在3行相同的文本字符串，則通過本實(shí)施例中提供的文本拼接方法，可以實(shí)現(xiàn)將相同的文本字符串刪除，對刪除相同的文本字符串之后的待拼接文本進(jìn)行拼接得到拼接后的文本T’，從而實(shí)現(xiàn)提高文本拼接的連續(xù)性。上述舉例只是一種示例，本實(shí)施例對此不做任何限定。
[0090]可選地，在本實(shí)施例中，上述查找第一文本與第二文本中相同的至少一行文本字符串的方式可以包括但不限于:對第一文本中包括最后一行在內(nèi)的至少一行文本字符串與第二文本中包括第一行在內(nèi)的至少一行文本字符串進(jìn)行逐行匹配，將逐行匹配得到的最大行數(shù)匹配結(jié)果作為第一文本與第二文本中相同的至少一行文本字符串。可選地，在本實(shí)施例中，上述至少一行文本字符串可以包括但不限于:一行或連續(xù)多行文本字符串。例如，當(dāng)只有一行文本字符串相同時，則可以直接刪除上述相同的一行文本字符串，以實(shí)現(xiàn)待拼接文本的無縫拼接。又例如，當(dāng)連續(xù)多行文本字符串相同時，則需要多次查找兩個文本之間相同的文本字符串的行數(shù)最大的多行文本字符串，從而實(shí)現(xiàn)可以完整獲取所有相同的文本字符串，進(jìn)而將上述相同的文本字符串刪除，而不會因有所遺漏，導(dǎo)致拼接后的文本不連續(xù)的問題。
[0091]可選地，在本實(shí)施例中，上述匹配判斷可以包括但不限于分別從第一文本的最后一行文本字符串以及第二文本的第一行文本字符串開始，以逐次遞增一行的方式分別對上述兩個文本中的文本字符串進(jìn)行字符串匹配。例如，依次對第一文本的最后一行文本字符串與第二文本的第一行文本字符串進(jìn)行匹配判斷，再對第一文本的最后兩行文本字符串與第二文本的前兩行文本字符串進(jìn)行匹配判斷，然后對第一文本的最后三行文本字符串與第二文本的前三行文本字符串進(jìn)行匹配判斷，直到遍歷一遍上述第一文本和第二文本中總行數(shù)較小的一個文本。
[0092]可選地，在本實(shí)施例中，上述匹配方式可以包括但不限于:單行匹配、多行匹配。
[0093]可選地，在本實(shí)施例中，上述單行匹配的方式可以包括但不限于:通過比較兩個文本中兩行文本字符串的編輯距離，判斷上述單行匹配是否成功。其中，上述編輯距離可以包括但不限于:有一個文本字符串轉(zhuǎn)成另一個文本字符串所需的最少編輯操作次數(shù)，其中，上述編輯操作可以包括但不限于一個字符替換成另一個字符、插入一個字符、刪除一個字符。其中，上述單行匹配是否成功匹配的判斷方式可以包括但不限于:當(dāng)兩行文本字符串的編輯距離小于等于預(yù)定閾值時，則判斷出上述單行匹配成功。例如，第一文本的最后一行文本字符串為:android:name = “.gu1.CodeActivity”,第二文本的第一行文本字符串為:android:name = “.guu.CodeActivityl2”,則上述兩個文本的兩行文本字符串的編輯距離為3，其中，“gui”中的一個字符“i”替換為“U”，末尾增加“12”兩個字符，因而上述單行匹配得到的編輯距離為3，假設(shè)預(yù)先設(shè)定的閾值為5，則可判斷出上述兩行文本字符串的編輯距離3小于預(yù)定閾值5時，則判斷出上述單行匹配成功。
[0094]可選地，在本實(shí)施例中，上述多行匹配的方式可以包括但不限于:將匹配行數(shù)最多的文本字符串作為最終的匹配字符串，也就是兩個文本之間的相同的文本字符串。可選地，在本實(shí)施例中，上述多行匹配是否成功匹配的判斷方式可以包括但不限于:計(jì)算上述多行匹配的文本字符串中單行匹配成功的行數(shù)占總行數(shù)的比例，當(dāng)上述比例大于預(yù)定閾值時，則可判斷出上述多行匹配已匹配成功。
[0095]通過本申請?zhí)峁┑膶?shí)施例，通過對獲取到的待拼接文本中的每兩個相鄰的第一文本和第二文本查找判斷是否存在相同的至少一行文本字符串，得到第一文本與第二文本中相同的至少一行文本字符串，將其從第一文本或第二文本中刪除，再對刪除后的文本進(jìn)行拼接，從而實(shí)現(xiàn)在對文本拼接時，不再包含重復(fù)的文本字符串，提高了拼接后的文本的連續(xù)性，改善了用戶體驗(yàn)。
[0096]作為一種可選的方案，查找模塊包括:
[0097]I)處理子模塊，用于重復(fù)執(zhí)行以下步驟，直到N大于第一文本和第二文本中總行數(shù)較小的一個的總行數(shù)，N的初始值為1:
[0098](I)獲取第一文本中包括第一文本的最后一行在內(nèi)的連續(xù)N行的第一文本字符串與第二文本中包括第二文本的第一行在內(nèi)的連續(xù)N行的第二文本字符串之間文本字符串相同的行數(shù)P;
[0099](2)存儲P和對應(yīng)的N，并令N = N+1 ;
[0100]2)確定子模塊，用于從存儲的P中獲取取值最大的Pi±1l，并從存儲的N中獲取與對應(yīng)的N 并將第一文本中包括第一文本的最后一行在內(nèi)的連續(xù)N目#行的第一文本字符串與第二文本中包括第二文本的第一行在內(nèi)的連續(xù)N@#行作為查找到的第一文本與第二文本中相同的至少一行文本字符串。
[0101]具體結(jié)合以下示例進(jìn)行描述，如圖6所示，假設(shè)第一文本包括6行文本字符串，第二文本包括7行文本字符串，其中，上述兩個文本中包括連續(xù)4行相同的字符串，在查找第一文本與第二文本中相同的至少一行文本字符串時包括以下步驟:
[0102]SI，分別對第一文本的最后一行與第二文本的第一行進(jìn)行匹配，判斷是否匹配成功，若匹配成功，則存儲相同的文本字符串的行數(shù)P= 1，參與匹配的行數(shù)為N= I ；
[0103]S2，分別對第一文本的最后兩行與第二文本的前兩行進(jìn)行匹配，判斷是否匹配成功，若匹配成功，則存儲相同的文本字符串的行數(shù)P = 0，參與匹配的行數(shù)為N = 2 ;
[0104]S3，分別對第一文本的最后三行與第二文本的前三行進(jìn)行匹配，判斷是否匹配成功，若匹配成功，則存儲相同的文本字符串的行數(shù)P = 0，參與匹配的行數(shù)為N = 3 ;
[0105]S4，分別對第一文本的最后四行與第二文本的前四行進(jìn)行匹配，判斷是否匹配成功，若匹配成功，則存儲相同的文本字符串的行數(shù)P = 4，參與匹配的行數(shù)為N = 4。
[0106]以此類推，由于第一文本的總行數(shù)小于第二文本的總行數(shù)，因而，上述匹配判斷將重復(fù)執(zhí)行直至遍歷完上述總行數(shù)為6的第一文本。
[0107]通過上述匹配判斷得出，存儲的P中最大值為Pi±{t= 4，對應(yīng)的Ngig= 4，則上述N = 4所對應(yīng)的文本字符串“6，4，5，6”將作為查找到的第一文本與第二文本中相同的文本字符串。
[0108]通過本申請?zhí)峁┑膶?shí)施例，通過上述方式對第一文本與第二文本中的文本字符串進(jìn)行判斷，以得出上述兩個文本中相同的文本字符串，實(shí)現(xiàn)了對相同的文本字符串的準(zhǔn)確識別，進(jìn)而提高了文本拼接的準(zhǔn)確性。
[0109]作為一種可選的方案，處理子模塊通過以下步驟實(shí)現(xiàn)存儲P和對應(yīng)的N包括:
[0110]SI，判斷比例值P/N是否大于預(yù)定比例閾值；
[0111]S2，若比例值P/N大于預(yù)定比例閾值，則存儲P和對應(yīng)的N。
[0112]可選地，在本實(shí)施例中，上述多行匹配是否成功匹配的判斷方式可以包括但不限于:計(jì)算上述多行匹配的文本字符串中單行匹配成功的行數(shù)占總行數(shù)的比例，當(dāng)上述比例大于預(yù)定閾值時，則可判斷出上述多行匹配已匹配成功。
[0113]結(jié)合以上示例進(jìn)行描述，如圖6所示，假設(shè)第一文本包括6行文本字符串，第二文本包括7行文本字符串，從多行匹配的角度進(jìn)行說明，在第一文本的最后一行與第二文本的第一行進(jìn)行匹配時，得到上述比例值P/N= 1，假設(shè)預(yù)定閾值為0.8，則可以判斷出上述比例值P/N大于預(yù)定比例閾值，則匹配成功；進(jìn)一步，在第一文本的最后兩行與第二文本的前兩行進(jìn)行匹配時，得到上述比例值P/N = 0，則可以判斷出上述比例值P/N小于預(yù)定比例閾值，則上述匹配失敗；再者，在第一文本的最后三行與第二文本的前三行進(jìn)行匹配時，得到上述比例值P/N = 0，則可以判斷出上述比例值P/N小于預(yù)定比例閾值，則上述匹配失??；進(jìn)一步，在第一文本的最后四行與第二文本的前四行進(jìn)行匹配時，得到上述比例值P/N =1，則可以判斷出上述比例值P/N大于預(yù)定比例閾值，則匹配成功；再繼續(xù)匹配直至遍歷完成。在所有匹配中只有上述兩次匹配成功的情況，由于第四次匹配的行數(shù)最多，則將上述匹配行數(shù)最多的四行文本字符串作為最終的匹配字符串，也就是作為第一文本與第二文本之間相同的文本字符串。
[0114]通過本申請?zhí)峁┑膶?shí)施例，通過利用比例值來判斷上述多行匹配是否成功，進(jìn)一步保證了文本匹配的準(zhǔn)確性，從而可以準(zhǔn)確刪除相同的文本字符串，達(dá)到提高文本拼接的準(zhǔn)確性的效果。
[0115]作為一種可選的方案，第一拼接模塊包括:
[0116]I)第一刪除子模塊，用于從第一文本刪除至少一行文本字符串，并將刪除了至少一行文本字符串的第一文本和第二文本進(jìn)行拼接，其中，刪除了至少一行文本字符串的第一文本的最后一行拼接在第二文本的第一行之前；或者
[0117]2)第二刪除子模塊，用于從第二文本刪除至少一行文本字符串，并將第一文本和刪除了至少一行文本字符串的第二文本進(jìn)行拼接，其中，第一文本的最后一行拼接在刪除了至少一行文本字符串的第二文本的第一行之前。
[0118]具體結(jié)合以下示例進(jìn)行描述，假設(shè)在第一文本與第二文本中查找到相同的文本字符串:“XXXXXX，Yyyyyyyyy, zzz”，則可以選擇刪除第一文本中上述相同的文本字符串，將第一文本中刪除了上述相同的文本字符串的最后一行拼接到第二文本的第一行之前，如圖3所示。也可以選擇刪除第二文本中上述相同的文本字符串，將第一文本的最后一行拼接到第二文本刪除了上述相同的文本字符串的第一行之前，如圖4所示。
[0119]通過本申請?zhí)峁┑膶?shí)施例，通過查找到的相同的至少一行文本字符串從第一文本或第二文本中刪除，再對刪除后的文本進(jìn)行拼接，從而實(shí)現(xiàn)在對文本拼接時，不再包含重復(fù)的文本字符串，提高了拼接后的文本的連續(xù)性。
[0120]作為一種可選的方案，上述裝置還包括:
[0121]I)第二拼接模塊，用于在查找所述第一文本與所述第二文本中是否存在相同的至少一行文本字符串之后，在不存在所述相同的至少一行文本字符串時，按照所述拼接順序?qū)λ龅谝晃谋竞退龅诙谋具M(jìn)行拼接，其中，所述第一文本的最后一行拼接在所述第二文本的第一行之前。
[0122]具體結(jié)合以下示例進(jìn)行描述，假設(shè)在第一文本與第二文本中未查找到相同的文本字符串，則按照拼接順序直接對第一文本和第二文本進(jìn)行拼接，其中，第一文本的最后一行(例如，“zzz”)拼接在第二文本的第一行(例如，“456789”)之前，如圖5所示。
[0123]通過本申請?zhí)峁┑膶?shí)施例，通過對未查找到相同的至少一行文本字符串的文本直接進(jìn)行拼接，從而實(shí)現(xiàn)在對文本拼接時，可以提高文本拼接的連續(xù)性。
[0124]作為一種可選的方案，上述獲取單元902包括:
[0125]I)第一獲取模塊，用于獲取一個或多個待識別文本圖像，其中，每個待識別文本圖像對應(yīng)待拼接文本中的一個文本；
[0126]2)第一識別模塊，用于通過以下模塊實(shí)現(xiàn)對每個待識別文本圖像執(zhí)行的識別操作，得到待拼接文本中對應(yīng)的一個文本:
[0127](I)第一判斷子模塊，用于判斷待識別文本圖像中的第一行與待識別文本圖像的上邊界之間的第一距離是否小于等于第一距離閾值；
[0128](2)第一標(biāo)記子模塊，用于在第一距離小于等于第一距離閾值時，將待識別文本圖像中的第一行進(jìn)行標(biāo)記；
[0129](3)第一識別子模塊，用于將待識別文本圖像識別成當(dāng)前文本，從當(dāng)前文本中刪除進(jìn)行了標(biāo)記的行，得到待拼接文本中對應(yīng)的一個文本。
[0130]作為一種可選的方案，上述獲取單元902包括:
[0131]I)第二獲取模塊，用于獲取一個或多個待識別文本圖像，其中，每個待識別文本圖像對應(yīng)待拼接文本中的一個文本；
[0132]2)第二識別模塊，用于通過以下模塊實(shí)現(xiàn)對每個待識別文本圖像執(zhí)行的識別操作，得到待拼接文本中對應(yīng)的一個文本:
[0133](I)第二判斷子模塊，用于判斷待識別文本圖像中的最后一行與待識別文本圖像的下邊界之間的第二距離是否小于等于第二距離閾值；
[0134](2)第二標(biāo)記子模塊，用于在第二距離小于等于第二距離閾值時，將待識別文本圖像中的最后一行進(jìn)行標(biāo)記；
[0135](3)第二識別子模塊，用于將待識別文本圖像識別成當(dāng)前文本，從當(dāng)前文本中刪除進(jìn)行了標(biāo)記的行，得到待拼接文本中對應(yīng)的一個文本。
[0136]可選地，在本實(shí)施例中，識別子模塊通過以下步驟實(shí)現(xiàn)將待識別文本圖像識別成當(dāng)前文本:采用OCR將待識別文本圖像識別成當(dāng)前文本。
[0137]可選地，在本實(shí)施例中，通過攝像頭獲取待識別文本圖像，再利用OCR識別，將上述獲取到的文本圖像識別成當(dāng)前待拼接文本。
[0138]然而，上述獲取到的待識別文本圖像可能存在文本殘缺，如圖7所示，則在對文本圖像進(jìn)行識別時，還需要過濾上述殘缺文本，以得到待拼接文本。
[0139]可選地，在本實(shí)施例中，需要刪除的殘缺文本字符串可以包括但不限于以下至少之一:待識別文本圖像中的第一行與待識別文本圖像的上邊界之間的第一距離小于等于第一距離閾值的文本字符串、待識別文本圖像中的最后一行與待識別文本圖像的下邊界之間的第二距離小于等于第二距離閾值的文本字符串。其中，上述第一距離閾值可以包括但不限于:上述待識別文本圖像中的第一行與待識別文本圖像的上邊界之間空白區(qū)域的寬度、上述待識別文本圖像中的最后一行與待識別文本圖像的下邊界之間空白區(qū)域的寬度。例如，如圖8所示，上述待識別文本圖像中的最后一行與待識別文本圖像的下邊界之間空白區(qū)域的寬度h將作為第二距離閾值。
[0140]可選地，在本實(shí)施例中，上述第一距離閾值與第二距離閾值可以但不限于根據(jù)不同的應(yīng)用場景取值相同或取值不同。例如，上述閾值可以但不限于為上述空白區(qū)域的十分之一，從而保證在刪除殘缺文本字符串時，可以使得其他文本字符串不受影響，從而保證了文本拼接的準(zhǔn)確性。
[0141]通過本申請?zhí)峁┑膶?shí)施例，通過上述方式得到文本中的殘缺文本字符串，從而實(shí)現(xiàn)將上述文本中的殘缺文本字符串準(zhǔn)確刪除，進(jìn)而達(dá)到提高文本識別以及文本拼接的準(zhǔn)確性。
[0142]上述本發(fā)明實(shí)施例序號僅僅為了描述，不代表實(shí)施例的優(yōu)劣。
[0143]實(shí)施例3
[0144]根據(jù)本發(fā)明實(shí)施例，還提供了一種用于實(shí)施上述文本拼接方法的終端，該終端包括:
[0145]I)存儲器，被設(shè)置為存儲獲取到的待拼接文本，以及從待拼接文本中刪除相同的至少一行文本字符串后按照拼接順序拼接完成的最終目標(biāo)文本；
[0146]2)處理器，被設(shè)置為對待拼接文本中的每兩個相鄰的第一文本和第二文本執(zhí)行以下操作，其中，第一文本和第二文本的拼接順序?yàn)榈谝晃谋酒唇釉诘诙谋局?
[0147]SI，查找第一文本與第二文本中相同的至少一行文本字符串，其中，至少一行文本字符串包括第一文本的最后一行文本字符串和第二文本的第一行文本字符串；
[0148]S2，若查找到相同的至少一行文本字符串，則從第一文本或第二文本中刪除至少一行文本字符串，并按照拼接順序?qū)?zhí)行完刪除之后的第一文本和第二文本進(jìn)行拼接。
[0149]可選地，在本實(shí)施例中，上述存儲器還可以用于存儲上述實(shí)施例1中的文本拼接方法過程中所存儲的其他數(shù)據(jù)。
[0150]可選地,本實(shí)施例中的具體示例可以參考上述實(shí)施例1和實(shí)施例2中所描述的示例，本實(shí)施例在此不再贅述。
[0151]實(shí)施例4
[0152]本發(fā)明的實(shí)施例還提供了一種用于實(shí)施文本拼接方法的存儲介質(zhì)?？蛇x地，在本實(shí)施例中，上述存儲介質(zhì)可以但不限于應(yīng)用于光學(xué)字符識別(OCR, Optical CharacterRecognit1n)之后的文本拼接過程中的一個終端上，其中，上述終端可以包括但不限于以下至少之一:手機(jī)、筆記本電腦、平板電腦、PC機(jī)。上述舉例只是一種示例，本實(shí)施例對此不做任何限定。
[0153]可選地，在本實(shí)施例中，存儲介質(zhì)被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:
[0154]SI，獲取待拼接文本；
[0155]S2，對待拼接文本中的每兩個相鄰的第一文本和第二文本執(zhí)行以下操作，其中，第一文本和第二文本的拼接順序?yàn)榈谝晃谋酒唇釉诘诙谋局?
[0156]S22，查找第一文本與第二文本中相同的至少一行文本字符串，其中，至少一行文本字符串包括第一文本的最后一行文本字符串和第二文本的第一行文本字符串；
[0157]S24，若查找到相同的至少一行文本字符串，則從第一文本或第二文本中刪除至少一行文本字符串，并按照拼接順序?qū)?zhí)行完刪除之后的第一文本和第二文本進(jìn)行拼接。
[0158]可選地，在本實(shí)施例中，上述存儲介質(zhì)可以包括但不限于:U盤、只讀存儲器(R0M，Read-Only Memory)、隨機(jī)存取存儲器(RAM, Random Access Memory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
[0159]可選地，本實(shí)施例中的具體示例可以參考上述實(shí)施例1和實(shí)施例2中所描述的示例，本實(shí)施例在此不再贅述。
[0160]上述本發(fā)明實(shí)施例序號僅僅為了描述，不代表實(shí)施例的優(yōu)劣。
[0161]上述實(shí)施例中的集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時，可以存儲在上述計(jì)算機(jī)可讀取的存儲介質(zhì)中?；谶@樣的理解，本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來，該計(jì)算機(jī)軟件產(chǎn)品存儲在存儲介質(zhì)中，包括若干指令用以使得一臺或多臺計(jì)算機(jī)設(shè)備(可為個人計(jì)算機(jī)、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實(shí)施例所述方法的全部或部分步驟。
[0162]在本發(fā)明的上述實(shí)施例中，對各個實(shí)施例的描述都各有側(cè)重，某個實(shí)施例中沒有詳述的部分，可以參見其他實(shí)施例的相關(guān)描述。
[0163]在本申請所提供的幾個實(shí)施例中，應(yīng)該理解到，所揭露的客戶端，可通過其它的方式實(shí)現(xiàn)。其中，以上所描述的裝置實(shí)施例僅僅是示意性的，例如所述單元的劃分，僅僅為一種邏輯功能劃分，實(shí)際實(shí)現(xiàn)時可以有另外的劃分方式，例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng)，或一些特征可以忽略，或不執(zhí)行。另一點(diǎn)，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口，單元或模塊的間接耦合或通信連接，可以是電性或其它的形式。
[0164]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個地方，或者也可以分布到多個網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。
[0165]另外，在本發(fā)明各個實(shí)施例中的各功能單元可以集成在一個處理單元中，也可以是各個單元單獨(dú)物理存在，也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn)，也可以采用軟件功能單元的形式實(shí)現(xiàn)。
[0166]以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式，應(yīng)當(dāng)指出，對于本【技術(shù)領(lǐng)域】的普通技術(shù)人員來說，在不脫離本發(fā)明原理的前提下，還可以做出若干改進(jìn)和潤飾，這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。
【權(quán)利要求】
1.一種文本拼接方法，其特征在于，包括: 獲取待拼接文本；對所述待拼接文本中的每兩個相鄰的第一文本和第二文本執(zhí)行以下操作，其中，所述第一文本和第二文本的拼接順序?yàn)樗龅谝晃谋酒唇釉谒龅诙谋局? 查找所述第一文本與所述第二文本中相同的至少一行文本字符串，其中，所述至少一行文本字符串包括所述第一文本的最后一行文本字符串和所述第二文本的第一行文本字符串；若查找到所述相同的至少一行文本字符串，則從所述第一文本或所述第二文本中刪除所述至少一行文本字符串，并按照所述拼接順序?qū)?zhí)行完所述刪除之后的所述第一文本和所述第二文本進(jìn)行拼接。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，通過以下步驟實(shí)現(xiàn)所述查找所述第一文本與所述第二文本中相同的至少一行文本字符串包括: 對所述第一文本中包括所述最后一行在內(nèi)的至少一行文本字符串與所述第二文本中包括所述第一行在內(nèi)的至少一行文本字符串進(jìn)行逐行匹配；將所述逐行匹配得到的最大行數(shù)匹配結(jié)果作為所述第一文本與所述第二文本中相同的所述至少一行文本字符串。
3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述將所述逐行匹配得到的最大行數(shù)匹配結(jié)果作為所述第一文本與所述第二文本中相同的所述至少一行文本字符串包括: 重復(fù)執(zhí)行以下步驟，直到N大于所述第一文本和所述第二文本中總行數(shù)較小的一個的總行數(shù)，N的初始值為1: 獲取所述第一文本中包括所述第一文本的最后一行在內(nèi)的連續(xù)N行的第一文本字符串與所述第二文本中包括所述第二文本的第一行在內(nèi)的連續(xù)所述N行的第二文本字符串之間文本字符串相同的行數(shù)P ；存儲所述P和對應(yīng)的所述N，并令N = N+1 ；從存儲的所述P中獲取取值最大的P最大值，并從存儲的所述N中獲取與所述對應(yīng)的N 并將所述第一文本中包括所述第一文本的最后一行在內(nèi)的連續(xù)所述N @#行的第一文本字符串與所述第二文本中包括所述第二文本的第一行在內(nèi)的連續(xù)所述N 行作為查找到的所述第一文本與所述第二文本中相同的所述至少一行文本字符串。
4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述存儲所述P和對應(yīng)的所述N包括: 判斷比例值P/N是否大于預(yù)定比例閾值；若所述比例值P/N大于所述預(yù)定比例閾值，則存儲所述P和對應(yīng)的所述N。
5.根據(jù)權(quán)利要求1所述的方法，其特征在于，從所述第一文本或所述第二文本中刪除所述至少一行文本字符串，并按照所述拼接順序?qū)?zhí)行完所述刪除之后的所述第一文本和所述第二文本進(jìn)行拼接包括: 從所述第一文本刪除所述至少一行文本字符串，并將刪除了所述至少一行文本字符串的所述第一文本和所述第二文本進(jìn)行拼接，其中，刪除了所述至少一行文本字符串的所述第一文本的最后一行拼接在所述第二文本的第一行之前；或者從所述第二文本刪除所述至少一行文本字符串，并將所述第一文本和刪除了所述至少一行文本字符串的所述第二文本進(jìn)行拼接，其中，所述第一文本的最后一行拼接在刪除了所述至少一行文本字符串的所述第二文本的第一行之前。
6.根據(jù)權(quán)利要求1所述的方法，其特征在于，在查找所述第一文本與所述第二文本中是否存在相同的至少一行文本字符串之后，還包括: 若不存在所述相同的至少一行文本字符串，則按照所述拼接順序?qū)λ龅谝晃谋竞退龅诙谋具M(jìn)行拼接，其中，所述第一文本的最后一行拼接在所述第二文本的第一行之前。
7.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述獲取待拼接文本包括: 獲取一個或多個待識別文本圖像，其中，每個所述待識別文本圖像對應(yīng)所述待拼接文本中的一個文本；對每個所述待識別文本圖像執(zhí)行以下識別操作，得到所述待拼接文本中對應(yīng)的一個文本: 判斷所述待識別文本圖像中的第一行與所述待識別文本圖像的上邊界之間的第一距離是否小于等于第一距離閾值；若所述第一距離小于等于所述第一距離閾值，則將所述待識別文本圖像中的所述第一行進(jìn)行標(biāo)記；將所述待識別文本圖像識別成當(dāng)前文本，從所述當(dāng)前文本中刪除進(jìn)行了所述標(biāo)記的行，得到所述待拼接文本中對應(yīng)的所述一個文本。
8.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述獲取待拼接文本包括: 獲取一個或多個待識別文本圖像，其中，每個所述待識別文本圖像對應(yīng)所述待拼接文本中的一個文本；對每個所述待識別文本圖像執(zhí)行以下識別操作，得到所述待拼接文本中對應(yīng)的一個文本: 判斷所述待識別文本圖像中的最后一行與所述待識別文本圖像的下邊界之間的第二距離是否小于等于第二距離閾值；若所述第二距離小于等于所述第二距離閾值，則將所述待識別文本圖像中的所述最后一行進(jìn)行標(biāo)記；將所述待識別文本圖像識別成當(dāng)前文本，從所述當(dāng)前文本中刪除進(jìn)行了所述標(biāo)記的行，得到所述待拼接文本中對應(yīng)的所述一個文本。
9.一種文本拼接裝置，其特征在于，包括: 獲取單元，用于獲取待拼接文本；拼接單元，用于通過以下模塊實(shí)現(xiàn)對所述待拼接文本中的每兩個相鄰的第一文本和第二文本所執(zhí)行的操作，其中，所述第一文本和第二文本的拼接順序?yàn)樗龅谝晃谋酒唇釉谒龅诙谋局? 查找模塊，用于查找所述第一文本與所述第二文本中相同的至少一行文本字符串，其中，所述至少一行文本字符串包括所述第一文本的最后一行文本字符串和所述第二文本的第一行文本字符串；第一拼接模塊，用于在查找到所述相同的至少一行文本字符串時，從所述第一文本或所述第二文本中刪除所述至少一行文本字符串，并按照所述拼接順序?qū)?zhí)行完所述刪除之后的所述第一文本和所述第二文本進(jìn)行拼接。
10.根據(jù)權(quán)利要求9所述的裝置，其特征在于，所述查找模塊通過以下步驟實(shí)現(xiàn)所述查找所述第一文本與所述第二文本中相同的至少一行文本字符串包括: 對所述第一文本中包括所述最后一行在內(nèi)的至少一行文本字符串與所述第二文本中包括所述第一行在內(nèi)的至少一行文本字符串進(jìn)行逐行匹配；將所述逐行匹配得到的最大行數(shù)匹配結(jié)果作為所述第一文本與所述第二文本中相同的所述至少一行文本字符串。
11.根據(jù)權(quán)利要求10所述的裝置，其特征在于，所述查找模塊通過以下模塊實(shí)現(xiàn)將所述逐行匹配得到的最大行數(shù)匹配結(jié)果作為所述第一文本與所述第二文本中相同的所述至少一行文本字符串: 處理子模塊，用于重復(fù)執(zhí)行以下步驟，直到N大于所述第一文本和所述第二文本中總行數(shù)較小的一個的總行數(shù)，N的初始值為1: 獲取所述第一文本中包括所述第一文本的最后一行在內(nèi)的連續(xù)N行的第一文本字符串與所述第二文本中包括所述第二文本的第一行在內(nèi)的連續(xù)所述N行的第二文本字符串之間文本字符串相同的行數(shù)P ；存儲所述P和對應(yīng)的所述N，并令N = N+1 ；確定子模塊，用于從存儲的所述P中獲取取值最大的并從存儲的所述N中獲取與所述對應(yīng)的N @#，并將所述第一文本中包括所述第一文本的最后一行在內(nèi)的連續(xù)所述N 行的第一文本字符串與所述第二文本中包括所述第二文本的第一行在內(nèi)的連續(xù)所述N@#行作為查找到的所述第一文本與所述第二文本中相同的所述至少一行文本字符串O
12.根據(jù)權(quán)利要求11所述的裝置，其特征在于，所述處理子模塊通過以下步驟實(shí)現(xiàn)所述存儲所述P和對應(yīng)的所述N包括: 判斷比例值P/N是否大于預(yù)定比例閾值；若所述比例值P/N大于所述預(yù)定比例閾值，則存儲所述P和對應(yīng)的所述N。
13.根據(jù)權(quán)利要求9所述的裝置，其特征在于，所述第一拼接模塊包括: 第一刪除子模塊，用于從所述第一文本刪除所述至少一行文本字符串，并將刪除了所述至少一行文本字符串的所述第一文本和所述第二文本進(jìn)行拼接，其中，刪除了所述至少一行文本字符串的所述第一文本的最后一行拼接在所述第二文本的第一行之前；或者第二刪除子模塊，用于從所述第二文本刪除所述至少一行文本字符串，并將所述第一文本和刪除了所述至少一行文本字符串的所述第二文本進(jìn)行拼接，其中，所述第一文本的最后一行拼接在刪除了所述至少一行文本字符串的所述第二文本的第一行之前。
14.根據(jù)權(quán)利要求9所述的裝置，其特征在于，還包括: 第二拼接模塊，用于在查找所述第一文本與所述第二文本中是否存在相同的至少一行文本字符串之后，在不存在所述相同的至少一行文本字符串時，按照所述拼接順序?qū)λ龅谝晃谋竞退龅诙谋具M(jìn)行拼接，其中，所述第一文本的最后一行拼接在所述第二文本的第一行之前。
15.根據(jù)權(quán)利要求9所述的裝置，其特征在于，所述獲取單元包括: 第一獲取模塊，用于獲取一個或多個待識別文本圖像，其中，每個所述待識別文本圖像對應(yīng)所述待拼接文本中的一個文本；第二識別模塊，用于通過以下模塊實(shí)現(xiàn)對每個所述待識別文本圖像執(zhí)行的識別操作，得到所述待拼接文本中對應(yīng)的一個文本: 第一判斷子模塊，用于判斷所述待識別文本圖像中的第一行與所述待識別文本圖像的上邊界之間的第一距離是否小于等于第一距離閾值；第一標(biāo)記子模塊，用于在所述第一距離小于等于所述第一距離閾值時，將所述待識別文本圖像中的所述第一行進(jìn)行標(biāo)記；第一識別子模塊，用于將所述待識別文本圖像識別成當(dāng)前文本，從所述當(dāng)前文本中刪除進(jìn)行了所述標(biāo)記的行，得到所述待拼接文本中對應(yīng)的所述一個文本。
16.根據(jù)權(quán)利要求9所述的裝置，其特征在于，所述獲取單元包括: 第二獲取模塊，用于獲取一個或多個待識別文本圖像，其中，每個所述待識別文本圖像對應(yīng)所述待拼接文本中的一個文本；第二識別模塊，用于對每個所述待識別文本圖像執(zhí)行以下識別操作，得到所述待拼接文本中對應(yīng)的一個文本: 第二判斷子模塊，用于判斷所述待識別文本圖像中的最后一行與所述待識別文本圖像的下邊界之間的第二距離是否小于等于第二距離閾值；第二標(biāo)記子模塊，用于在所述第二距離小于等于所述第二距離閾值時，將所述待識別文本圖像中的所述最后一行進(jìn)行標(biāo)記；第二識別子模塊，用于將所述待識別文本圖像識別成當(dāng)前文本，從所述當(dāng)前文本中刪除進(jìn)行了所述標(biāo)記的行，得到所述待拼接文本中對應(yīng)的所述一個文本。
【文檔編號】G06K9/20GK104199805SQ201410461259
【公開日】2014年12月10日申請日期:2014年9月11日優(yōu)先權(quán)日:2014年9月11日
【發(fā)明者】李德斌, 王巨宏, 許勇, 全琦, 黃志斌, 楊大威, 譚志鵬, 吳現(xiàn), 楊言申請人:清華大學(xué), 騰訊科技（深圳）有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李德斌;王巨宏;許勇;全琦;黃志斌;楊大威;譚志鵬;吳現(xiàn);楊言
技術(shù)所有人：清華大學(xué);騰訊科技（深圳）有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

檢查裝置氣密性的方法相關(guān)技術(shù)

裝置氣密性檢查方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

文本拼接方法及裝置制造方法