本申請(qǐng)要求2014年6月24日提交的美國(guó)申請(qǐng)?zhí)?4/313,670的優(yōu)先權(quán)。上述申請(qǐng)的公開(kāi)被整體地通過(guò)引用并入到本文中。
技術(shù)領(lǐng)域
本公開(kāi)一般地涉及光學(xué)字符識(shí)別(OCR)和機(jī)器語(yǔ)言翻譯,并且更特別地涉及用于基于來(lái)自圖像的非文本上下文信息的對(duì)來(lái)自圖像的OCR文本的機(jī)器語(yǔ)言翻譯的技術(shù)。
背景技術(shù):
本文中提供的背景描述是出于一般地呈現(xiàn)本公開(kāi)的上下文的目的。在已經(jīng)在背景技術(shù)小節(jié)中進(jìn)行描述的程度上,本發(fā)明人的工作以及以其它方式在提交時(shí)未被承認(rèn)為現(xiàn)有技術(shù)的本描述的各方面既未明示地、也為隱含地被認(rèn)可為針對(duì)本公開(kāi)的現(xiàn)有技術(shù)。
光學(xué)字符識(shí)別(OCR)涉及到使用計(jì)算設(shè)備(例如,服務(wù)器)的圖像中的文本的檢測(cè)。OCR可以提供用以在用戶設(shè)備處以數(shù)字形式獲得文本的更快方式(例如,與由用戶向用戶設(shè)備手動(dòng)輸入文本相比)。在獲得圖像中的文本之后,可以以各種方式利用該文本。例如,該文本可被計(jì)算設(shè)備處理、被存儲(chǔ)在存儲(chǔ)器處和/或被發(fā)送到另一計(jì)算設(shè)備。處理文本的一個(gè)示例是機(jī)器語(yǔ)言翻譯,其涉及到使用計(jì)算設(shè)備將文本從源語(yǔ)言翻譯成不同的目標(biāo)語(yǔ)言。
技術(shù)實(shí)現(xiàn)要素:
在一個(gè)方面,提出了一種計(jì)算機(jī)實(shí)現(xiàn)的技術(shù)。所述技術(shù)可以包括在服務(wù)器處從移動(dòng)計(jì)算設(shè)備接收包括文本的圖像,所述服務(wù)器具有一個(gè)或多個(gè)處理器。所述技術(shù)可以包括在服務(wù)器處獲得對(duì)應(yīng)于文本的光學(xué)字符識(shí)別(OCR)文本,所述OCR文本是通過(guò)對(duì)圖像執(zhí)行OCR而獲得的。被技術(shù)可以包括在服務(wù)器處從圖像識(shí)別非文本上下文信息,所述非文本上下文信息(i)表示除文本本身之外的上下文信息且(ii)指示圖像的上下文。所述技術(shù)可以包括基于非文本上下文信息,在服務(wù)器處獲得OCR文本到目標(biāo)語(yǔ)言的翻譯以獲得所翻譯的OCR文本。所述技術(shù)還可以包括從服務(wù)器向移動(dòng)計(jì)算設(shè)備輸出所翻譯的OCR文本。
在某些實(shí)施例中,所述技術(shù)還包括在服務(wù)器處獲得OCR文本到目標(biāo)語(yǔ)言的翻譯以獲得基準(zhǔn)翻譯的OCR文本,以及在服務(wù)器處基于非文本上下文信息來(lái)調(diào)整基準(zhǔn)翻譯的OCR文本以獲得所翻譯的OCR文本。
在其它實(shí)施例中,所述技術(shù)還包括在服務(wù)器處基于非文本上下文信息來(lái)確定文本的源語(yǔ)言,其中,所翻譯的OCR文本進(jìn)一步基于源語(yǔ)言。
在某些實(shí)施例中,所述技術(shù)還包括在服務(wù)器處基于非文本上下文信息來(lái)確定捕捉到圖像的位置的類(lèi)型,其中,所翻譯的OCR文本進(jìn)一步基于位置的類(lèi)型。
在其它實(shí)施例中,所述技術(shù)還包括在服務(wù)器處確定移動(dòng)計(jì)算設(shè)備的地理位置,其中,所翻譯的OCR文本進(jìn)一步基于移動(dòng)計(jì)算設(shè)備的地理位置。
在某些實(shí)施例中,所述技術(shù)還包括在服務(wù)器處基于地理位置來(lái)獲得地圖信息,以及在服務(wù)器處使用地圖信息來(lái)識(shí)別地理位置附近的興趣點(diǎn),其中,所翻譯的OCR文本進(jìn)一步基于所述地理位置附近的興趣點(diǎn)。
在其它實(shí)施例中,所述技術(shù)還包括在服務(wù)器處確定對(duì)應(yīng)于移動(dòng)計(jì)算設(shè)備的用戶的用戶歷史,其中,所翻譯的OCR文本進(jìn)一步基于用戶歷史。
在某些實(shí)施例中,所述非文本上下文信息包括文本的字體。在其它實(shí)施例中,所述非文本上下文信息包括以下的至少一個(gè):(i)圖像中的對(duì)象和(ii)圖像中的對(duì)象的形狀。
在某些實(shí)施例中,所述非文本上下文信息包括對(duì)象的顏色中的至少一個(gè),并且其中,所述技術(shù)還包括在服務(wù)器處基于對(duì)象的顏色來(lái)確定圖像是在室內(nèi)還是室外捕捉的,其中,所翻譯的OCR文本進(jìn)一步基于圖像是在室內(nèi)還是室外捕捉的。
還呈現(xiàn)了一種具有被配置成執(zhí)行操作的一個(gè)或多個(gè)處理器的服務(wù)器。所述操作可以包括從移動(dòng)計(jì)算設(shè)備接收包括文本的圖像。所述操作可以包括獲得對(duì)應(yīng)于文本的OCR文本,所述OCR文本是通過(guò)對(duì)圖像執(zhí)行OCR而獲得的。所述操作可以包括從圖像識(shí)別非文本上下文信息,所述非文本上下文信息(i)表示除文本本身之外的上下文信息以及(ii)指示圖像的上下文。所述操作可以包括基于非文本上下文信息,獲得OCR文本到目標(biāo)語(yǔ)言的翻譯以獲得所翻譯的OCR文本。所述操作還可以包括向移動(dòng)計(jì)算設(shè)備輸出所翻譯的OCR文本。
在某些實(shí)施例中,所述操作還包括獲得OCR文本到目標(biāo)語(yǔ)言的翻譯以獲得基準(zhǔn)翻譯的OCR文本,以及基于非文本上下文信息來(lái)調(diào)整基準(zhǔn)翻譯的OCR文本以獲得所翻譯的OCR文本。
在其它實(shí)施例中,所述操作還包括基于非文本上下文信息來(lái)確定文本的源語(yǔ)言,其中,所翻譯的OCR文本進(jìn)一步基于源語(yǔ)言。
在某些實(shí)施例中,所述操作還包括基于非文本上下文信息來(lái)確定捕捉到圖像的位置的類(lèi)型,其中,所翻譯的OCR文本進(jìn)一步基于位置的類(lèi)型。
在其它實(shí)施例中,所述操作還包括確定移動(dòng)計(jì)算設(shè)備的地理位置,其中,所翻譯的OCR文本進(jìn)一步基于移動(dòng)計(jì)算設(shè)備的地理位置。
在某些實(shí)施例中,所述操作還包括基于地理位置來(lái)獲得地圖信息,以及使用地圖信息來(lái)識(shí)別地理位置附近的興趣點(diǎn),其中,所翻譯的OCR文本進(jìn)一步基于所述地理位置附近的興趣點(diǎn)。
在其它實(shí)施例中,所述操作還包括確定對(duì)應(yīng)于移動(dòng)計(jì)算設(shè)備的用戶的用戶歷史,其中,所翻譯的OCR文本進(jìn)一步基于用戶歷史。
在某些實(shí)施例中,所述非文本上下文信息包括文本的字體。在其它實(shí)施例中,所述非文本上下文信息包括以下中的至少一個(gè):(i)圖像中的對(duì)象和(ii)圖像中的對(duì)象的形狀。
在某些實(shí)施例中,所述非文本上下文信息包括對(duì)象的顏色中的至少一個(gè),并且其中,所述操作還包括基于對(duì)象的顏色來(lái)確定圖像是在室內(nèi)還是室外捕捉的,其中,所翻譯的OCR文本進(jìn)一步基于圖像是在室內(nèi)還是室外捕捉的。
根據(jù)在下文中提供的詳細(xì)描述,本公開(kāi)的更多適用領(lǐng)域?qū)⒆兊蔑@而易見(jiàn)。應(yīng)理解的是本詳細(xì)描述和特定示例僅僅意圖用于說(shuō)明的目的且并不意圖限制本公開(kāi)的范圍。
附圖說(shuō)明
根據(jù)本詳細(xì)描述和附圖將更全面地理解本公開(kāi),在所述附圖中:
圖1是根據(jù)本公開(kāi)的某些實(shí)施方式的包括示例服務(wù)器和示例移動(dòng)計(jì)算設(shè)備的計(jì)算網(wǎng)絡(luò)的圖;
圖2是圖1的示例服務(wù)器的功能框圖;
圖3A-圖3B圖示出根據(jù)本公開(kāi)的某些實(shí)施方式的每一個(gè)具有相同文本但不同的非文本上下文信息的示例圖像對(duì);
圖4A-圖4B圖示出根據(jù)本公開(kāi)的某些實(shí)施方式的每一個(gè)具有相同文本但不同的非文本上下文信息的另一示例圖像對(duì);以及
圖5是根據(jù)本公開(kāi)的某些實(shí)施方式的用于基于來(lái)自圖像的非文本上下文信息的來(lái)自圖像的OCR文本的機(jī)器語(yǔ)言翻譯的示例技術(shù)的流程圖。
具體實(shí)施方式
常規(guī)系統(tǒng)從圖像獲得光學(xué)字符識(shí)別(OCR)文本并執(zhí)行OCR文本從其源語(yǔ)言到期望語(yǔ)言的機(jī)器語(yǔ)言翻譯。然而,某些單詞和/或短語(yǔ)在某些語(yǔ)言中可能具有多個(gè)意義。這些多個(gè)意義中的每一個(gè)可取決于特定單詞或短語(yǔ)的上下文。例如,德語(yǔ)單詞“rind”可意指“牛肉”和“奶牛”兩者。常規(guī)系統(tǒng)將把OCR文本“rind”翻譯成英語(yǔ)的“beef(牛肉)”或“cow(奶牛)”中任一個(gè),例如哪個(gè)單詞在英語(yǔ)中具有較高使用率。并且例如,英語(yǔ)單詞“bear right”可以意指“向右”“轉(zhuǎn)向”、“轉(zhuǎn)彎”或“止住”以及“熊”(動(dòng)物)“在右邊”兩者。這些系統(tǒng)并未考慮到圖像中的可指示其上下文的其它信息,該信息可以用來(lái)確定正確的意義并因此獲得正確或期望的翻譯。因此,呈現(xiàn)了用于來(lái)自圖像的OCR文本基于來(lái)自圖像的非文本上下文信息的機(jī)器語(yǔ)言翻譯的技術(shù)。
如本文所使用的“非文本上下文信息”指的是來(lái)自圖像的除文本本身之外的指示圖像的上下文的任何信息。非文本上下文信息包括從圖像本身提取且指示圖像的上下文的信息(特征、對(duì)象等)。換言之,非文本上下文信息是從圖像提取或?qū)С?例如,在圖像內(nèi)部)的信息而不是關(guān)于圖像的信息(例如,在圖像外部),諸如與圖像或圖像文件相關(guān)聯(lián)的元數(shù)據(jù)或其它屬性。非文本上下文信息的示例包括形狀、顏色以及對(duì)象,諸如圖像的背景中的特征或?qū)ο?。還可以從圖像的前景獲得非文本上下文信息。另外,非文本上下文信息還可以包括文本本身的屬性,諸如其字體。
本技術(shù)可以識(shí)別此非文本上下文信息,并且使用該非文本上下文信息來(lái)獲得從圖像獲得的OCR文本的翻譯??梢允褂萌魏芜m當(dāng)?shù)膱D像處理技術(shù)和特征/對(duì)象檢測(cè)技術(shù)來(lái)獲得非文本上下文信息。在一個(gè)實(shí)施方式中,本技術(shù)可以獲得OCR文本的基準(zhǔn)翻譯,并且然后基于非文本上下文信息來(lái)確定是否要調(diào)整基準(zhǔn)翻譯。這還可以表示用于基準(zhǔn)翻譯的驗(yàn)證步驟。還可以使用其它信息來(lái)進(jìn)一步增強(qiáng)這些技術(shù),用戶的移動(dòng)計(jì)算設(shè)備的地理位置及其過(guò)去的行為(或“用戶歷史”)。此信息可以指示在該處捕捉到圖像的位置的類(lèi)型,其可以用來(lái)增強(qiáng)非文本上下文信息識(shí)別。還可以使用位置來(lái)更容易地識(shí)別源語(yǔ)言。
在其中這里所討論的系統(tǒng)可收集關(guān)于用戶的個(gè)人信息或者可利用個(gè)人信息的情況下,可為用戶提供控制程序或特征是否收集用戶信息(例如,關(guān)于用戶的歷史(諸如,其關(guān)于社交網(wǎng)絡(luò)的過(guò)去行為)、社交動(dòng)作或活動(dòng)、其職業(yè)和/或其一般偏好的信息、和/或關(guān)于用戶當(dāng)前地理位置的信息)或控制是否和/或如何從內(nèi)容服務(wù)器接收可能與用戶更加相關(guān)的信息的機(jī)會(huì)。另外,某些數(shù)據(jù)在其被存儲(chǔ)或使用之前可以被以一個(gè)或多個(gè)方式處理,使得個(gè)人可識(shí)別信息被去除。例如,可處理用戶的身份,使得對(duì)于用戶而言不能確定個(gè)人可識(shí)別信息,或者可將在該處獲得位置信息的用戶的地理位置廣義化(諸如到城市、ZIP代碼或州層級(jí)),使得不能確定用戶的特定位置。因此,用戶可能可控制如何和是否收集關(guān)于用戶的信息和該信息如何被內(nèi)容服務(wù)器使用。
現(xiàn)在參考圖1,圖示出計(jì)算網(wǎng)絡(luò)100。計(jì)算網(wǎng)絡(luò)100包括服務(wù)器104。如本文所使用的術(shù)語(yǔ)“服務(wù)器”可以指代單個(gè)硬件計(jì)算機(jī)服務(wù)器和在并行或分布式架構(gòu)中操作的多個(gè)類(lèi)似服務(wù)器兩者。僅僅為了示例,可以實(shí)現(xiàn)第一和第二服務(wù)器以便分別地執(zhí)行OCR和機(jī)器語(yǔ)言翻譯。移動(dòng)計(jì)算設(shè)備108被配置成經(jīng)由網(wǎng)絡(luò)112與服務(wù)器104通信。移動(dòng)計(jì)算設(shè)備108的示例包括膝上型計(jì)算機(jī)、平板計(jì)算機(jī)、移動(dòng)電話以及可穿戴技術(shù),諸如智能手表、眼鏡、或并入了計(jì)算設(shè)備的其它可穿戴對(duì)象。然而,應(yīng)認(rèn)識(shí)到的是可以在具有顯示器和照相機(jī)的任何計(jì)算設(shè)備(例如,臺(tái)式計(jì)算機(jī))處實(shí)現(xiàn)本公開(kāi)的技術(shù)。網(wǎng)絡(luò)112可以包括局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)(例如,因特網(wǎng))、或其組合。
移動(dòng)計(jì)算設(shè)備108可以與用戶116相關(guān)聯(lián)。例如,用戶116可以經(jīng)由顯示器120(例如,觸摸顯示器)與移動(dòng)計(jì)算設(shè)備108相交互。用戶116可以使用移動(dòng)計(jì)算設(shè)備108來(lái)捕捉場(chǎng)景的圖像124。圖像124可以包括前景128和背景132。如所示,圖像124的前景128包括在其上面具有文本140的對(duì)象136。在所示示例中,場(chǎng)景是飯店且對(duì)象136是菜單。僅僅為了示例,用戶116可在捕捉圖像124的同時(shí)將對(duì)象136舉在她前面。對(duì)象136的其它示例包括文檔、標(biāo)志以及廣告??梢詫?duì)圖像執(zhí)行OCR以檢測(cè)文本140。如所示,圖像124的背景132可以包括非文本上下文信息144,其包括桌子148、和布置在桌子148的上表面上的用餐地點(diǎn)布置152(盤(pán)子、叉子、刀、匙、餐巾等)。
在獲得文本140之后,然后可以將文本140翻譯成目標(biāo)語(yǔ)言,諸如用戶116所理解/說(shuō)的語(yǔ)言。OCR和/或機(jī)器語(yǔ)言翻譯可以本地地(在移動(dòng)計(jì)算設(shè)備108處)、遠(yuǎn)程地(在服務(wù)器處104)或以其組合的方式執(zhí)行。例如,移動(dòng)計(jì)算設(shè)備108可以將圖像發(fā)送到服務(wù)器104以用于處理。服務(wù)器104然后可以獲得OCR文本,識(shí)別非文本上下文信息144,并且獲得OCR文本的翻譯。在所示示例中,非文本上下文信息144指示飯店環(huán)境,并且因此服務(wù)器104可以利用此知識(shí)來(lái)獲得對(duì)應(yīng)于圖像124的飯店上下文的OCR文本的翻譯。如在本文中先前所討論的,例如,如果“OCR”是“rind”,則飯店語(yǔ)言將指示到英語(yǔ)單詞“beef”而不是英語(yǔ)單詞“cow”的翻譯。
現(xiàn)在參考圖2,圖示出示例服務(wù)器104的功能框圖。服務(wù)器104可以包括通信設(shè)備200、處理器204以及存儲(chǔ)器208。通信設(shè)備200可以包括被配置成經(jīng)由網(wǎng)絡(luò)112與其它設(shè)備(諸如移動(dòng)計(jì)算設(shè)備108)的任何適當(dāng)組件(例如,收發(fā)機(jī))。存儲(chǔ)器208可以是被配置成在服務(wù)器104存儲(chǔ)信息的任何適當(dāng)存儲(chǔ)介質(zhì)(閃存、硬盤(pán)等)。處理器204可以控制服務(wù)器104的操作。由處理器204執(zhí)行的示例功能包括但不限于加載/執(zhí)行服務(wù)器104的操作系統(tǒng)、控制經(jīng)由通信設(shè)備200進(jìn)行的信息的發(fā)送/接收、以及控制存儲(chǔ)器208處的讀/寫(xiě)操作。處理器204還可以被配置成執(zhí)行本公開(kāi)的技術(shù)的至少一部分,現(xiàn)在更詳細(xì)地對(duì)其進(jìn)行討論。
服務(wù)器104可以接收?qǐng)D像以用于處理。該圖像可以是從移動(dòng)計(jì)算設(shè)備108接收到的。在某些實(shí)施方式中,移動(dòng)計(jì)算設(shè)備108可以捕捉圖像,但是還可以由移動(dòng)計(jì)算設(shè)備108從另一源獲得圖像。服務(wù)器104處的圖像的接收可以表示對(duì)OCR和機(jī)器語(yǔ)言翻譯的請(qǐng)求。替選地,移動(dòng)計(jì)算設(shè)備108可連同圖像一起向服務(wù)器104發(fā)送顯式請(qǐng)求。服務(wù)器104可以對(duì)圖像執(zhí)行OCR以獲得OCR文本??梢岳萌魏芜m當(dāng)?shù)腛CR算法來(lái)獲得OCR文本。在某些實(shí)施方式中,可以在另一設(shè)備(諸如,移動(dòng)計(jì)算設(shè)備108或另一服務(wù)器)處執(zhí)行OCR的至少一部分。在獲得OCR文本之后,服務(wù)器104可以然后繼續(xù)本公開(kāi)的機(jī)器語(yǔ)言翻譯技術(shù)。
在某些實(shí)施方式中,服務(wù)器104可以獲得OCR文本的所翻譯的基準(zhǔn)或“所翻譯的基準(zhǔn)OCR文本”。此所翻譯的基準(zhǔn)OCR文本可以表示在未考慮到來(lái)自圖像的任何非文本上下文信息的情況下的OCR文本從其源語(yǔ)言至目標(biāo)語(yǔ)言的機(jī)器語(yǔ)言翻譯。該目標(biāo)語(yǔ)言可以由移動(dòng)計(jì)算設(shè)備108(諸如由來(lái)自用戶116的輸入或其偏好)指定。服務(wù)器104可以從圖像識(shí)別任何非文本上下文信息。服務(wù)器104可以利用任何適當(dāng)?shù)膶?duì)象識(shí)別和/或特征檢測(cè)技術(shù)來(lái)識(shí)別非文本上下文信息。在某些實(shí)施方式中,服務(wù)器104可以執(zhí)行機(jī)器學(xué)習(xí)以使用標(biāo)記訓(xùn)練集來(lái)訓(xùn)練分類(lèi)器,并且然后使用所訓(xùn)練的分類(lèi)器來(lái)識(shí)別非文本上下文信息。如先前所討論的,示例非文本上下文信息包括對(duì)象類(lèi)型、形狀、顏色以及文本屬性(諸如字體)。
在識(shí)別非文本上下文信息之后,服務(wù)器104可以基于非文本上下文信息而獲得OCR文本的翻譯或“所翻譯的OCR文本”。如果先前獲得了基準(zhǔn)翻譯的OCR文本,則服務(wù)器104可以根據(jù)非文本上下文信息來(lái)確定是否要調(diào)整基準(zhǔn)翻譯的OCR文本。僅僅為了示例,可基于各種非文本上下文信息而生成一個(gè)或多個(gè)附加翻譯的OCR文本,并且然后可以諸如使用語(yǔ)料庫(kù)加權(quán)意義將每個(gè)所翻譯的OCR文本(包括基準(zhǔn)OCR文本)相互比較。另外,還可以使用其它信息來(lái)增強(qiáng)所翻譯的OCR文本的獲得。如先前所討論的,此其它信息的示例包括位置和/或地理位置的類(lèi)型以及用戶歷史。另外,服務(wù)器104可確定圖像是在室內(nèi)還是室外捕捉的。此確定可以基于非文本上下文信息、其它信息(例如,地理位置)和/或成像參數(shù)(環(huán)境照明、亮度、閃光燈開(kāi)/關(guān)等)。
如果非文本上下文信息指示基準(zhǔn)翻譯的OCR文本是不正確的或不準(zhǔn)確的(例如,不正確的上下文),則服務(wù)器104可以基于非文本上下文信息來(lái)調(diào)整基準(zhǔn)翻譯的OCR文本以獲得所翻譯的OCR文本或“調(diào)整的所翻譯的OCR文本”。否則,可以利用基準(zhǔn)翻譯的OCR文本。服務(wù)104然后可以將適當(dāng)?shù)姆g的OCR文本輸出到移動(dòng)計(jì)算設(shè)備108以便顯示給用戶116。服務(wù)器104可另外或替選地將適當(dāng)?shù)乃g的OCR文本發(fā)送到另一設(shè)備和/或存儲(chǔ)適當(dāng)?shù)乃g的OCR文本(例如,在存儲(chǔ)器208)以學(xué)習(xí)和/或用于未來(lái)操作的檢索。僅僅為了示例,同一圖像(諸如知名標(biāo)志或地標(biāo))可能會(huì)從不同的用戶移動(dòng)計(jì)算設(shè)備重復(fù)地發(fā)送到服務(wù)器104,并且因此服務(wù)器104可能能夠確定這些圖像是相同的,并且然后檢索適當(dāng)?shù)乃g的OCR文本以便更快速地提供給用戶移動(dòng)計(jì)算設(shè)備。
圖3A-圖3B圖示出每個(gè)具有相同的文本但不同的上下文和因此具有不同的非文本上下文信息的示例圖像對(duì)300、350。每個(gè)圖像300、350包括文本“rind”。如先前所討論的,德語(yǔ)單詞“rind”具有多個(gè)意義且對(duì)應(yīng)于英語(yǔ)單詞“beef”和英語(yǔ)單詞“cow”兩者。同樣地,圖4A-4B還圖示出每個(gè)具有相同的文本但不同的上下文和因此具有不同的非文本上下文信息的示例圖像對(duì)400、450。如先前所討論的,英語(yǔ)短語(yǔ)“bear right”具有多個(gè)意義,包括在右邊的熊(動(dòng)物)和向右轉(zhuǎn)向/轉(zhuǎn)彎/止住。這些不同的意義在非英語(yǔ)語(yǔ)言中可以對(duì)應(yīng)于多個(gè)翻譯。常規(guī)系統(tǒng)將為這些圖像對(duì)300、350和400、450中的每一個(gè)輸出相同的翻譯的OCR文本。然而,由于這些圖像對(duì)300、350和400、450的上下文是不同的,所以可能需要不同的翻譯的OCR文本。
在圖3A的左側(cè)圖像300中,上下文是雜貨店,并且罐頭304包括文本308。服務(wù)器104可以從圖像300識(shí)別非文本上下文信息,其可以包括但不限于罐頭304的形狀(圓筒)、貨架312、多個(gè)(其它)罐頭316(例如,成行的)以及多個(gè)其它對(duì)象320(例如,成行的箱子)。可以指示雜貨店上下文的其它示例非文本上下文信息可包括食品項(xiàng)(例如,罐頭304)上的標(biāo)簽、文本312的字體、價(jià)格標(biāo)簽、以及過(guò)道號(hào)碼/標(biāo)記。如先前所討論的,服務(wù)器104還可檢測(cè)到圖像300是在室內(nèi)捕捉的,其可以被用來(lái)確定雜貨店上下文。雜貨店上下文指示意義“beef”而不是“cow”,并且因此可以提供適當(dāng)?shù)乃g的OCR文本(“beef”)。
在圖3B的右側(cè)圖像350中,上下文是道路交叉路口,并且標(biāo)志354包括文本358。服務(wù)器104可以從圖像350識(shí)別非文本上下文信息,其可以包括但不限于標(biāo)志354的形狀(菱形)、標(biāo)志上的圖示362(穿過(guò)道路的奶牛)、道路366、道路366的交叉路口370(例如,具有與道路366不同的紋理,從而指示交叉路口)、以及樹(shù)374??梢灾甘镜缆方徊媛房谏舷挛牡钠渌纠俏谋旧舷挛男畔⑹俏谋?58的字體和一個(gè)或多個(gè)奶牛。例如,諸如標(biāo)志358之類(lèi)的標(biāo)志可始終使用特定字體或字體集,并且還可使其它對(duì)象與特定字體或字體集相關(guān)聯(lián)。服務(wù)器104還可檢測(cè)到圖像350是在室外捕捉的,其可以用來(lái)確定道路交叉路口上下文。道路交叉路口上下文指示意義“cow”而不是“beef”,并且因此可以提供適當(dāng)?shù)乃g的OCR文本(“cow”)。
在圖4A的左側(cè)圖像400中,上下文是施工中的道路或公路,并且標(biāo)志404包括文本408。服務(wù)器104可以從圖像400識(shí)別非文本上下文信息,其可以包括但不限于標(biāo)志的形狀(菱形,其可指示道路/公路標(biāo)志)、標(biāo)志404上的箭頭412的類(lèi)型或形狀(例如,箭頭412的彎曲性質(zhì)可指示道路420在分叉/分隔420之后向前)、道路或公路416、車(chē)道標(biāo)記420、道路/公路416中的分叉/分隔424、以及施工路障428。可以指示道路/公路施工上下文的其它示例非文本上下文信息是文本408的字體、其它施工標(biāo)志、施工工人以及顏色(例如,橙色可指示施工)。服務(wù)器104還可檢測(cè)到圖像400是在室外捕捉的,其可以用來(lái)確定道路/公路施工上下文。道路/公路施工上下文指示意義向右轉(zhuǎn)向/轉(zhuǎn)彎/止住而不是在右邊的熊(動(dòng)物),并且因此可以提供適當(dāng)?shù)乃g的OCR文本。
在圖4B的右側(cè)圖像450中,上下文是動(dòng)物園且標(biāo)志454包括文本458。服務(wù)器104可以從圖像400識(shí)別非文本上下文信息,其可以包括但不限于箭頭462的類(lèi)型或形狀、通道或人行道466、草地470、樹(shù)474、具有柵欄的籠子478以及籠子478中的熊482。可以指示動(dòng)物園上下文的其它示例非文本上下文信息是文本458的字體(例如,有趣或兒童友好的字體)、其它動(dòng)物園標(biāo)志、其它動(dòng)物、其它籠子以及人(例如,其它兒童)。服務(wù)器104還可檢測(cè)到圖像400是在室外捕捉的,其可以用來(lái)確定動(dòng)物園上下文。僅僅為了示例,草地470和/或樹(shù)474的綠色可以指示室外上下文、和更特別地動(dòng)物園上下文兩者。動(dòng)物園上下文指示在右邊的熊(動(dòng)物)的意義而不是向右轉(zhuǎn)向/轉(zhuǎn)彎/止住,并且因此可以提供適當(dāng)?shù)乃g的OCR文本。
現(xiàn)在參考圖5,圖示出用于基于來(lái)自圖像的非文本上下文信息的對(duì)來(lái)自圖像的OCR文本的機(jī)器語(yǔ)言翻譯的示例技術(shù)500的流程圖。在504處,服務(wù)器104可以從移動(dòng)計(jì)算設(shè)備108接收包括文本的圖像。例如,該圖像可以是由移動(dòng)計(jì)算設(shè)備108捕捉的。在508處,服務(wù)器104可以獲得對(duì)應(yīng)于圖像中的文本的OCR文本。可以在服務(wù)器104、在另一服務(wù)器、或在其某種組合執(zhí)行OCR。在512處,服務(wù)器104可以可選地識(shí)別OCR文本到目標(biāo)語(yǔ)言的翻譯以獲得基準(zhǔn)翻譯的OCR文本。此基準(zhǔn)翻譯的OCR文本可以表示在未考慮來(lái)自圖像的非文本上下文信息的情況下的OCR文本的翻譯。
在516處,服務(wù)器104可以從圖像識(shí)別非文本上下文信息,該非文本上下文信息(i)表示除文本本身之外的上下文信息和(ii)指示圖像的上下文。在520處,服務(wù)器104可以基于非文本上下文信息來(lái)確定是否要調(diào)整基準(zhǔn)翻譯的OCR文本。如果應(yīng)根據(jù)非文本上下文信息來(lái)翻譯基準(zhǔn)翻譯的OCR文本,則技術(shù)500可以繼續(xù)至524。否則,本技術(shù)可以繼續(xù)至528。在524處,服務(wù)器104可以基于非文本上下文信息來(lái)調(diào)整基準(zhǔn)翻譯的OCR文本以獲得所翻譯的OCR文本。例如,服務(wù)器104可基于非文本上下文信息來(lái)獲得OCR文本的新翻譯。在528處,服務(wù)器104可以將所翻譯的OCR文本(或基準(zhǔn)翻譯的OCR)文本輸出到移動(dòng)計(jì)算設(shè)備108。技術(shù)500然后可以結(jié)束或返回至504。
提供了示例實(shí)施例,使得本公開(kāi)將是透徹的,并且將向本領(lǐng)域的技術(shù)人員全面地傳達(dá)其的范圍。闡述了許多特定細(xì)節(jié)(諸如特定組件、設(shè)備以及方法的示例)以提供本公開(kāi)的實(shí)施例的透徹理解。對(duì)于本領(lǐng)域的技術(shù)人員而言將顯而易見(jiàn)的是不需要采用特定細(xì)節(jié),可以許多不同的形式體現(xiàn)示例實(shí)施例,并且不應(yīng)將任一者理解成限制本公開(kāi)的范圍。在某些示例實(shí)施例中,并未詳細(xì)地描述眾所周知的步驟、眾所周知的設(shè)備結(jié)構(gòu)以及眾所周知的技術(shù)。
在本文中使用的術(shù)語(yǔ)僅僅是出于描述特定示例實(shí)施例的目的且并不意圖限制本本發(fā)明。如本文所使用的單數(shù)形式“一”、“一個(gè)”和“該”也可意圖包括復(fù)數(shù)形式,除非上下文另外清楚地指明。術(shù)語(yǔ)“和/或”包括關(guān)聯(lián)列出項(xiàng)中的一個(gè)或多個(gè)的任何和所有組合。術(shù)語(yǔ)“包括”、“包含”和“具有”是包括性的,并且因此指定所述特征、整體、步驟、操作、元件和/或組件的存在,但不排除一個(gè)或多個(gè)其它特征、整體、步驟、操作、元件、組件和/或其群組的存在或添加。不應(yīng)將本文所述的方法步驟、過(guò)程以及操作理解為必須要求按照所討論或所示的特定次序的執(zhí)行,除非具體地識(shí)別為執(zhí)行次序。還應(yīng)理解的是可采用附加或替選步驟。
雖然在本文中可使用術(shù)語(yǔ)第一、第二、第三等來(lái)描述各種元件、組件、區(qū)域、層和/或區(qū)段,但這些元件、組件、區(qū)域、層和/或區(qū)段不應(yīng)受到這些術(shù)語(yǔ)的限制。這些術(shù)語(yǔ)僅可用來(lái)將一個(gè)元件、組件、區(qū)域、層或區(qū)段與另一區(qū)域、層或區(qū)域區(qū)別開(kāi)。諸如“第一”、“第二”之類(lèi)的術(shù)語(yǔ)及其它數(shù)值術(shù)語(yǔ)當(dāng)在本文中使用時(shí)并不暗示序列或次序,除非上下文清楚地指明。因此,在不脫離示例實(shí)施例的教導(dǎo)的情況下,可以將下面所討論的第一元件、組件、區(qū)域、層或區(qū)段稱為第二元件、組件、區(qū)域、層或區(qū)段。
如本文所使用的,術(shù)語(yǔ)模塊可指代或包括:專(zhuān)用集成電路(ASIC);電子電路;組合邏輯電路;現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA);處理器或處理器的分布式網(wǎng)絡(luò)(共享、專(zhuān)用或分組)和執(zhí)行代碼或進(jìn)程的聯(lián)網(wǎng)集群或數(shù)據(jù)中心中的儲(chǔ)存器;提供所述功能的其它適當(dāng)組件;或者上述各項(xiàng)中的某些或全部的組合(諸如在片上系統(tǒng)中)。術(shù)語(yǔ)模塊還可包括存儲(chǔ)被一個(gè)或多個(gè)處理器執(zhí)行的代碼的存儲(chǔ)器(共享、專(zhuān)用或分組)。
如上文所示用的術(shù)語(yǔ)代碼可包括軟件、固件、字節(jié)代碼和/或微代碼,并且可指代程序、例程、函數(shù)、類(lèi)和/或?qū)ο蟆H缟衔乃居玫男g(shù)語(yǔ)共享意指可使用單個(gè)(共享)處理器來(lái)執(zhí)行來(lái)自多個(gè)模塊的某些或所有代碼。另外,來(lái)自多個(gè)模塊的某些或所有代碼可被單個(gè)(共享)存儲(chǔ)器存儲(chǔ)。如上文所使用的術(shù)語(yǔ)群組意指可使用處理器群組來(lái)執(zhí)行來(lái)自單個(gè)模塊的某些或所有代碼。另外,可使用存儲(chǔ)器群組來(lái)存儲(chǔ)來(lái)自單個(gè)模塊的某些或所有代碼。
本文所述的技術(shù)可由一個(gè)或多個(gè)處理器所執(zhí)行的一個(gè)或多個(gè)計(jì)算機(jī)程序?qū)崿F(xiàn)。計(jì)算機(jī)程序包括處理器可執(zhí)行指令,其被存儲(chǔ)在非暫時(shí)性有形計(jì)算機(jī)可讀介質(zhì)上。該計(jì)算機(jī)程序還可包括存儲(chǔ)數(shù)據(jù)。非暫時(shí)性有形計(jì)算機(jī)可讀介質(zhì)的非限制性示例是非易失性儲(chǔ)存器、磁存儲(chǔ)器以及光學(xué)儲(chǔ)存器。
以上描述中的某些部分根據(jù)對(duì)信息的操作的算法和符號(hào)表示而提出了本文所述的技術(shù)。這些算法描述和表示是被數(shù)據(jù)處理領(lǐng)域的技術(shù)人員用來(lái)最有效地向本領(lǐng)域的其它技術(shù)人員傳達(dá)其工作的實(shí)質(zhì)的手段。這些操作雖然是在功能上或邏輯上描述的,但被理解成由計(jì)算機(jī)程序?qū)崿F(xiàn)。此外,在不失一般性的情況下,也經(jīng)證明有時(shí)作為模塊或用功能名稱來(lái)提及這些操作布置是有利的。
除非另外具體地說(shuō)明,如從以上討論顯而易見(jiàn)的,應(yīng)認(rèn)識(shí)到的是遍及本描述,利用諸如“處理”或“計(jì)算”或“計(jì)量”或“確定”或“顯示”等術(shù)語(yǔ)的討論涉及計(jì)算機(jī)系統(tǒng)或類(lèi)似電子計(jì)算設(shè)備的動(dòng)作和過(guò)程,其對(duì)在計(jì)算機(jī)系統(tǒng)的寄存器和存儲(chǔ)器、或其它此類(lèi)信息存儲(chǔ)、傳輸或顯示設(shè)備內(nèi)被表示為物理(例如,電子)量的數(shù)據(jù)進(jìn)行操縱并變換。
所述技術(shù)的某些方面包括在本文中以算法形式描述的過(guò)程步驟及指令。應(yīng)注意的是可以用軟件、固件或硬件來(lái)體現(xiàn)所述的過(guò)程步驟和指令,并且當(dāng)用軟件來(lái)體現(xiàn)時(shí),可以被下載以駐于實(shí)時(shí)網(wǎng)絡(luò)操作系統(tǒng)所使用的不同平臺(tái)上并被從那里操作。
本公開(kāi)還涉及一種用于執(zhí)行本文中的操作的裝置。本裝置可出于所需目的而被特別地構(gòu)造,或者其可包括被存儲(chǔ)在可以被計(jì)算機(jī)訪問(wèn)的計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)程序選擇性地激活或重配置的通用計(jì)算機(jī)。此類(lèi)計(jì)算機(jī)程序可被存儲(chǔ)于有形計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,其諸如但不限于任何類(lèi)型的磁盤(pán),包括軟盤(pán)、光盤(pán)、CD-ROM、磁光盤(pán)、只讀存儲(chǔ)器(ROM)、隨機(jī)存取存儲(chǔ)器(RAM)、EPROM、EEPROM、磁卡或光學(xué)卡、專(zhuān)用集成電路(ASIC)、或者適合于存儲(chǔ)電子指令的任何類(lèi)型的介質(zhì),并且每個(gè)被耦合到計(jì)算機(jī)系統(tǒng)總線。此外,在本說(shuō)明書(shū)中提及的計(jì)算機(jī)可包括單個(gè)處理器,或者可以是采用多個(gè)處理器設(shè)計(jì)以實(shí)現(xiàn)增加的計(jì)算能力的架構(gòu)。
在本文中提出的算法和操作并非固有地與任何特定計(jì)算機(jī)或其它裝置相關(guān)。還可將各種通用系統(tǒng)與根據(jù)本文中的教導(dǎo)的程序一起使用,或者構(gòu)造更專(zhuān)業(yè)化的裝置以執(zhí)行所需方法步驟可證明是方便的。用于多種此類(lèi)系統(tǒng)的所需結(jié)構(gòu)連同等價(jià)變型一起對(duì)于本領(lǐng)域的技術(shù)人員而言將是顯而易見(jiàn)的。另外,并未參考任何特定變成語(yǔ)言來(lái)描述本公開(kāi)。應(yīng)認(rèn)識(shí)到的是可使用多種編程語(yǔ)言來(lái)實(shí)現(xiàn)如本文所述的本公開(kāi)的教導(dǎo),并且可針對(duì)本發(fā)明的實(shí)現(xiàn)和最佳方式的公開(kāi)而提供對(duì)特定語(yǔ)言的任何參考。
本公開(kāi)非常適合于許多拓?fù)渖系亩喾N計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)。在本領(lǐng)域內(nèi),大型網(wǎng)絡(luò)的配置和管理包括通過(guò)網(wǎng)絡(luò)(諸如因特網(wǎng))而通信耦合到不同計(jì)算機(jī)和存儲(chǔ)設(shè)備的存儲(chǔ)設(shè)備和計(jì)算機(jī)。
前文對(duì)實(shí)施例的描述是出于舉例說(shuō)明和描述的目的提供的。其并不意圖是窮舉的或限制本公開(kāi)。特定實(shí)施例的單獨(dú)元件或特征一般地不限于該特定實(shí)施例,而是在適用的情況下是可互換的,并且可以在所選實(shí)施例中使用,即使并未具體地示出或描述。其也可以許多方式改變。不應(yīng)認(rèn)為此類(lèi)變化是偏離本公開(kāi),并且所有此類(lèi)修改意圖包括在本公開(kāi)的范圍內(nèi)。