本發(fā)明涉及多媒體技術(shù)領(lǐng)域,特別是涉及一種句子連貫性判斷方法及裝置和電子設(shè)備。
背景技術(shù):
在視頻分析中,為了更好地分析視頻所表達(dá)的內(nèi)容、更深地挖掘視頻信息,目前往往通過(guò)分析視頻中的字幕來(lái)理解視頻,而字幕文本的獲取,最準(zhǔn)確有效的方法是ocr(opticalcharacterrecognition,光學(xué)字符識(shí)別)識(shí)別。但是,在ocr識(shí)別中,由于視頻背景的多樣性,以及字幕定位算法精度的不足,在ocr識(shí)別中會(huì)有部分識(shí)別錯(cuò)誤的字幕,如果不對(duì)錯(cuò)誤的字幕糾錯(cuò)或者剔除,那么會(huì)對(duì)之后的字幕分析造成非常大的干擾。由于錯(cuò)誤的字幕會(huì)造成句子的不連貫性,因此,可通過(guò)判斷句子的連貫性識(shí)別不通順的句子,得到錯(cuò)誤的字幕,進(jìn)而對(duì)錯(cuò)誤的字幕進(jìn)行糾錯(cuò)或者剔除。
目前,對(duì)句子連貫性的判斷都是基于語(yǔ)言模型。為了判斷句子的通順度,通過(guò)大量的訓(xùn)練語(yǔ)料構(gòu)建n-gram模型,計(jì)算句子的條件概率得到句子的通順度。其中,n-gram是大詞匯連續(xù)語(yǔ)音識(shí)別中常用的一種語(yǔ)言模型,該模型基于這樣一種假設(shè),第n個(gè)詞的出現(xiàn)只與前面n-1個(gè)詞相關(guān),而與其它任何詞都不相關(guān),整句的條件概率就是各個(gè)詞出現(xiàn)概率的乘積。通過(guò)直接從語(yǔ)料中統(tǒng)計(jì)n個(gè)詞同時(shí)出現(xiàn)的次數(shù)可以得到整句的條件概率,常用的句子條件概率的計(jì)算包括:二元的bi-gram和三元的tri-gram。
雖然上述計(jì)算句子的條件概率的方法簡(jiǎn)單明了,但目前對(duì)訓(xùn)練語(yǔ)料中句子的分詞準(zhǔn)確率無(wú)法達(dá)到100%,特別是專有名詞,分錯(cuò)的概率高達(dá)60%以上。并且,對(duì)于句子條件概率的計(jì)算,目前最多只計(jì)算tri-gram,更高層次的條件概率需要更多的訓(xùn)練語(yǔ)料,同時(shí)計(jì)算更高層次的條件概率導(dǎo)致訓(xùn)練數(shù)據(jù)稀疏嚴(yán)重,計(jì)算時(shí)間復(fù)雜度高,句子條件概率的計(jì)算精度卻提高的較少。由于無(wú)法計(jì)算更多的條件概率,從而不能考慮上下文之間的關(guān)系,進(jìn)而導(dǎo)致不能根據(jù)上下文的邏輯關(guān)系判斷句子的連貫性。因此,上述計(jì)算方法判斷句子連貫性的準(zhǔn)確性比較低。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例的目的在于提供一種句子連貫性判斷方法及裝置和電子設(shè)備,以提高句子連貫性判斷的準(zhǔn)確性。具體技術(shù)方案如下:
本發(fā)明實(shí)施例公開了一種句子連貫性判斷方法,包括:
獲取待分析文本,對(duì)所述待分析文本進(jìn)行預(yù)處理,得到待處理文本;
對(duì)所述待處理文本中的每一個(gè)字符進(jìn)行向量表示,得到所述待處理文本的字符矩陣;
將所述字符矩陣輸入預(yù)先建立的句子連貫性模型,得到所述字符矩陣對(duì)應(yīng)的句子連貫性向量,其中,所述句子連貫性模型是根據(jù)樣本數(shù)據(jù),以及樣本數(shù)據(jù)對(duì)應(yīng)的句子連貫性結(jié)果進(jìn)行訓(xùn)練得到的;
根據(jù)所述句子連貫性向量,得到所述待分析文本的句子連貫性結(jié)果。
可選的,在所述獲取待分析文本之前,所述方法還包括:
獲取句子連貫的正樣本數(shù)據(jù)和句子不連貫的負(fù)樣本數(shù)據(jù),其中,所述正樣本數(shù)據(jù)和所述負(fù)樣本數(shù)據(jù)分別具有對(duì)應(yīng)的句子連貫性向量;
分別對(duì)所述正樣本數(shù)據(jù)和所述負(fù)樣本數(shù)據(jù)進(jìn)行向量表示,得到所述正樣本數(shù)據(jù)的字符矩陣和所述負(fù)樣本數(shù)據(jù)的字符矩陣;
通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述正樣本數(shù)據(jù)的字符矩陣、所述正樣本數(shù)據(jù)對(duì)應(yīng)的句子連貫性向量,以及所述負(fù)樣本數(shù)據(jù)的字符矩陣、所述負(fù)樣本數(shù)據(jù)對(duì)應(yīng)的句子連貫性向量進(jìn)行訓(xùn)練,得到所述句子連貫性模型。
可選的,所述根據(jù)所述句子連貫性向量,得到所述待分析文本的句子連貫性結(jié)果,包括:
將所述句子連貫性向量中元素概率最高值對(duì)應(yīng)的句子連貫性結(jié)果確定為所述待分析文本的句子連貫性結(jié)果,其中,所述句子連貫性向量中元素對(duì)應(yīng)的句子連貫性結(jié)果包括:句子連貫和句子不連貫。
可選的,所述獲取待分析文本,包括:
通過(guò)光學(xué)字符識(shí)別ocr技術(shù)識(shí)別待分析視頻中的字幕,得到所述待分析文本。
可選的,所述對(duì)所述待分析文本進(jìn)行預(yù)處理,包括:
刪除所述待分析文本中的非中文字符。
本發(fā)明實(shí)施例公開了一種句子連貫性判斷裝置,包括:
預(yù)處理模塊,用于獲取待分析文本,對(duì)所述待分析文本進(jìn)行預(yù)處理,得到待處理文本;
文本向量表示模塊,用于對(duì)所述待處理文本中的每一個(gè)字符進(jìn)行向量表示,得到所述待處理文本的字符矩陣;
句子連貫性向量獲得模塊,用于將所述字符矩陣輸入預(yù)先建立的句子連貫性模型,得到所述字符矩陣對(duì)應(yīng)的句子連貫性向量,其中,所述句子連貫性模型是根據(jù)樣本數(shù)據(jù),以及樣本數(shù)據(jù)對(duì)應(yīng)的句子連貫性結(jié)果進(jìn)行訓(xùn)練得到的;
句子連貫性結(jié)果獲得模塊,用于根據(jù)所述句子連貫性向量,得到所述待分析文本的句子連貫性結(jié)果。
可選的,本發(fā)明實(shí)施例的句子連貫性判斷裝置,還包括:
樣本數(shù)據(jù)獲取模塊,用于獲取句子連貫的正樣本數(shù)據(jù)和句子不連貫的負(fù)樣本數(shù)據(jù),其中,所述正樣本數(shù)據(jù)和所述負(fù)樣本數(shù)據(jù)分別具有對(duì)應(yīng)的句子連貫性向量;
樣本數(shù)據(jù)向量表示模塊,用于分別對(duì)所述正樣本數(shù)據(jù)和所述負(fù)樣本數(shù)據(jù)進(jìn)行向量表示,得到所述正樣本數(shù)據(jù)的字符矩陣和所述負(fù)樣本數(shù)據(jù)的字符矩陣;
模型訓(xùn)練模塊,用于通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述正樣本數(shù)據(jù)的字符矩陣、所述正樣本數(shù)據(jù)對(duì)應(yīng)的句子連貫性向量,以及所述負(fù)樣本數(shù)據(jù)的字符矩陣、所述負(fù)樣本數(shù)據(jù)對(duì)應(yīng)的句子連貫性向量進(jìn)行訓(xùn)練,得到所述句子連貫性模型。
可選的,所述句子連貫性結(jié)果獲得模塊,具體用于將所述句子連貫性向量中元素概率最高值對(duì)應(yīng)的句子連貫性結(jié)果確定為所述待分析文本的句子連貫性結(jié)果,其中,所述句子連貫性向量中元素對(duì)應(yīng)的句子連貫性結(jié)果包括:句子連貫和句子不連貫。
可選的,所述預(yù)處理模塊具體用于,通過(guò)光學(xué)字符識(shí)別ocr技術(shù)識(shí)別待分析視頻中的字幕,得到所述待分析文本。
可選的,所述預(yù)處理模塊具體用于,刪除所述待分析文本中的非中文字符。
本發(fā)明實(shí)施例還公開了一種電子設(shè)備,包括:處理器、通信接口、存儲(chǔ)器和通信總線,其中,所述處理器、所述通信接口、所述存儲(chǔ)器通過(guò)所述通信總線完成相互間的通信;
所述存儲(chǔ)器,用于存放計(jì)算機(jī)程序;
所述處理器,用于執(zhí)行所述存儲(chǔ)器上所存放的程序時(shí),實(shí)現(xiàn)以下步驟:
獲取待分析文本,對(duì)所述待分析文本進(jìn)行預(yù)處理,得到待處理文本;
對(duì)所述待處理文本中的每一個(gè)字符進(jìn)行向量表示,得到所述待處理文本的字符矩陣;
將所述字符矩陣輸入預(yù)先建立的句子連貫性模型,得到所述字符矩陣對(duì)應(yīng)的句子連貫性向量,其中,所述句子連貫性模型是根據(jù)樣本數(shù)據(jù),以及樣本數(shù)據(jù)對(duì)應(yīng)的句子連貫性結(jié)果進(jìn)行訓(xùn)練得到的;
根據(jù)所述句子連貫性向量,得到所述待分析文本的句子連貫性結(jié)果。
在本發(fā)明實(shí)施的又一方面,還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令,當(dāng)其在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行上述任一所述的句子連貫性判斷方法。
在本發(fā)明實(shí)施的又一方面,本發(fā)明實(shí)施例還提供了一種包含指令的計(jì)算機(jī)程序產(chǎn)品,當(dāng)其在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行上述任一所述的句子連貫性判斷方法。
本發(fā)明實(shí)施例提供的句子連貫性判斷方法及裝置和電子設(shè)備,通過(guò)獲取待分析文本,對(duì)待分析文本進(jìn)行預(yù)處理,得到待處理文本。對(duì)待處理文本中的每一個(gè)字符進(jìn)行向量表示,得到待處理文本的字符矩陣。將字符矩陣輸入預(yù)先建立的句子連貫性模型,得到字符矩陣對(duì)應(yīng)的句子連貫性向量。根據(jù)句子連貫性向量,得到待分析文本的句子連貫性結(jié)果。本發(fā)明實(shí)施例通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)樣本文本進(jìn)行訓(xùn)練,得到句子連貫性模型,通過(guò)句子連貫性模型識(shí)別不連貫的句子,提高了句子連貫性判斷的準(zhǔn)確性。當(dāng)然,實(shí)施本發(fā)明的任一產(chǎn)品或方法并不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹。
圖1為本發(fā)明實(shí)施例的句子連貫性判斷方法的一種流程圖;
圖2為本發(fā)明實(shí)施例的句子連貫性判斷方法的另一種流程圖;
圖3為本發(fā)明實(shí)施例的句子連貫性判斷裝置的一種結(jié)構(gòu)圖;
圖4為本發(fā)明實(shí)施例的句子連貫性判斷裝置的另一種結(jié)構(gòu)圖;
圖5為本發(fā)明實(shí)施例的電子設(shè)備的結(jié)構(gòu)圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行描述。
為了解決現(xiàn)有技術(shù)中對(duì)句子連貫性判斷準(zhǔn)確率低的問(wèn)題,本發(fā)明實(shí)施例提供了一種句子連貫性判斷方法及裝置和電子設(shè)備,以提高句子連貫性判斷的準(zhǔn)確性。下面首先對(duì)本發(fā)明實(shí)施例所提供的句子連貫性判斷方法進(jìn)行介紹。
參見(jiàn)圖1,圖1為本發(fā)明實(shí)施例的句子連貫性判斷方法的一種流程圖,包括以下步驟:
s101,獲取待分析文本,對(duì)待分析文本進(jìn)行預(yù)處理,得到待處理文本。
本發(fā)明實(shí)施例中,待分析文本可以是直接獲取的文本數(shù)據(jù),也可以是通過(guò)對(duì)視頻信息進(jìn)行字幕提取得到的文本數(shù)據(jù),當(dāng)然,還可以是通過(guò)其他形式獲取的文本數(shù)據(jù)。對(duì)于文本數(shù)據(jù),除了包括需要分析的文本信息,例如,中文字符,還可以包括對(duì)判斷句子連貫性沒(méi)有幫助的符號(hào)信息,例如,標(biāo)點(diǎn)符號(hào)和英文字符等。而對(duì)句子連貫性的判斷,指的是對(duì)句子中的文本信息連貫性的判斷,因此,對(duì)待分析文本進(jìn)行預(yù)處理,過(guò)濾掉不需要的符號(hào)信息等,可以降低句子連貫性判斷的復(fù)雜性,提高句子連貫性判斷的效率。
s102,對(duì)待處理文本中的每一個(gè)字符進(jìn)行向量表示,得到待處理文本的字符矩陣。
可選的,通過(guò)word2vec對(duì)待處理文本中的每一個(gè)字符進(jìn)行向量表示,其中,word2vec是google在2013年年中開源的一款將詞表征為實(shí)數(shù)值向量的高效工具,word2vec利用深度學(xué)習(xí)的思想,通過(guò)訓(xùn)練,把對(duì)文本內(nèi)容的處理簡(jiǎn)化為k維向量空間中的向量運(yùn)算,而向量空間上的相似度可以用來(lái)表示文本語(yǔ)義上的相似度。因此,word2vec輸出的詞向量可以被用來(lái)做很多nlp(naturallanguageprocessing,自然語(yǔ)言處理)相關(guān)的工作,比如聚類、找同義詞、詞性分析等等。word2vec把特征映射到k維向量空間,可以為文本尋求更加深層次的特征表示。本發(fā)明實(shí)施例中,通過(guò)word2vec把待處理文本中的每一個(gè)字符映射為k維向量空間,如果待處理文本中包含m個(gè)字符,那么,每一個(gè)字符由k維向量表示,待處理文本就可以表示為m×k的矩陣,即字符矩陣。其中,m為大于0的整數(shù),k維向量一般是高維向量,因此,k可以為百位的整數(shù),例如,k的取值為200,當(dāng)然k也可以為其他數(shù)值,在此不做限定。
s103,將字符矩陣輸入預(yù)先建立的句子連貫性模型,得到字符矩陣對(duì)應(yīng)的句子連貫性向量,其中,句子連貫性模型是根據(jù)樣本數(shù)據(jù),以及樣本數(shù)據(jù)對(duì)應(yīng)的句子連貫性結(jié)果進(jìn)行訓(xùn)練得到的。
具體的,句子連貫性模型是根據(jù)樣本數(shù)據(jù),以及樣本數(shù)據(jù)對(duì)應(yīng)的句子連貫性結(jié)果進(jìn)行訓(xùn)練得到的,該句子連貫性模型包括:字符矩陣和句子連貫性向量的對(duì)應(yīng)關(guān)系,其中,字符矩陣和句子連貫性向量是兩種不同的表示文本信息的形式。本發(fā)明實(shí)施例中,將得到的待處理文本的字符矩陣輸入句子連貫性模型,即可得到該字符矩陣對(duì)應(yīng)的句子連貫性向量。句子連貫性模型的建立方法將在下文進(jìn)行描述,在此不再贅述。
s104,根據(jù)句子連貫性向量,得到待分析文本的句子連貫性結(jié)果。
需要說(shuō)明的是,由于句子連貫性是一個(gè)二分類問(wèn)題,即,句子是連貫的,或者句子是不連貫的,因此,句子連貫性向量是一個(gè)二維向量。根據(jù)該二維向量,可方便地判斷待分析文本的句子連貫性,得到待分析文本的句子連貫性結(jié)果。
本發(fā)明實(shí)施例提供的句子連貫性判斷方法,通過(guò)對(duì)待分析文本進(jìn)行預(yù)處理,得到待處理文本。對(duì)待處理文本中的每一個(gè)字符進(jìn)行向量表示,得到待處理文本的字符矩陣。將字符矩陣輸入預(yù)先建立的句子連貫性模型,得到字符矩陣對(duì)應(yīng)的句子連貫性向量。根據(jù)句子連貫性向量,得到待分析文本的句子連貫性結(jié)果。本發(fā)明實(shí)施例通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)樣本文本進(jìn)行訓(xùn)練,得到句子連貫性模型,通過(guò)句子連貫性模型識(shí)別不連貫的句子,提高了句子連貫性判斷的準(zhǔn)確性。
在圖1實(shí)施例中,s103中句子連貫性模型的建立方法,可參見(jiàn)圖2,圖2為本發(fā)明實(shí)施例的句子連貫性判斷方法的另一種流程圖,包括以下步驟:
s201,獲取句子連貫的正樣本數(shù)據(jù)和句子不連貫的負(fù)樣本數(shù)據(jù),其中,正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)分別具有對(duì)應(yīng)的句子連貫性向量。
本發(fā)明實(shí)施例中,正樣本數(shù)據(jù)是指句子連貫的數(shù)據(jù),例如,正樣本數(shù)據(jù)為3000w電影字幕句子,其中,電影字幕句子是連貫的,每個(gè)句子的長(zhǎng)度在15-25個(gè)字符之間。負(fù)樣本數(shù)據(jù)指句子不連貫的數(shù)據(jù),可以是將正樣本數(shù)據(jù)進(jìn)行亂序處理后的數(shù)據(jù),例如,負(fù)樣本數(shù)據(jù)為3000w亂序后的電影字幕句子,每個(gè)句子的長(zhǎng)度在15-25個(gè)字符之間。
句子連貫性向量用于衡量一個(gè)句子是否連貫,句子連貫性向量可以表示為(連貫的概率,不連貫的概率),那么,正樣本數(shù)據(jù)對(duì)應(yīng)的句子連貫性向量為(1,0),負(fù)樣本數(shù)據(jù)對(duì)應(yīng)的句子連貫性向量為(0,1)。當(dāng)然,句子連貫性向量還可以表示為(不連貫的概率,連貫的概率),本發(fā)明實(shí)施例不對(duì)連貫性向量的具體形式做限定。
s202,分別對(duì)正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)進(jìn)行向量表示,得到正樣本數(shù)據(jù)的字符矩陣和負(fù)樣本數(shù)據(jù)的字符矩陣。
本發(fā)明實(shí)施例中,為了在輸入卷積神經(jīng)網(wǎng)絡(luò)時(shí)統(tǒng)一句子長(zhǎng)度,可選的,將正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)中的每一個(gè)句子的長(zhǎng)度設(shè)置為固定值,例如,將每一個(gè)句子的長(zhǎng)度設(shè)置為20個(gè)字符。那么,當(dāng)句子的長(zhǎng)度少于20個(gè)字符時(shí),對(duì)句子添加預(yù)設(shè)字符,如字符“0”等,使句子達(dá)到20個(gè)字符;同理,當(dāng)句子的長(zhǎng)度大于20個(gè)字符時(shí),將句子截?cái)啵A艟渥拥那?0個(gè)字符,當(dāng)然,也可以保留句子中間的20個(gè)字符,或者保留句子的后20個(gè)字符。在對(duì)正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)進(jìn)行長(zhǎng)度設(shè)置之后,通過(guò)word2vec分別對(duì)正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)進(jìn)行向量表示,得到正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)的字符矩陣。這樣,得到的正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)的字符矩陣為整齊的矩陣。其中,通過(guò)word2vec分別對(duì)正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)進(jìn)行向量表示的方法與圖1實(shí)施例中s102的方法相同,且屬于現(xiàn)有技術(shù),這里不再贅述。
s203,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)正樣本數(shù)據(jù)的字符矩陣、正樣本數(shù)據(jù)對(duì)應(yīng)的句子連貫性向量,以及負(fù)樣本數(shù)據(jù)的字符矩陣、負(fù)樣本數(shù)據(jù)對(duì)應(yīng)的句子連貫性向量進(jìn)行訓(xùn)練,得到句子連貫性模型。
具體的,句子連貫性模型表示這樣一種對(duì)應(yīng)關(guān)系,將文本的字符矩陣輸入該句子連貫性模型,可以得到該文本對(duì)應(yīng)的句子連貫性向量,即字符矩陣和句子連貫性向量的對(duì)應(yīng)關(guān)系。因此,正樣本數(shù)據(jù)的字符矩陣、正樣本數(shù)據(jù)對(duì)應(yīng)的句子連貫性向量是正樣本數(shù)據(jù)中的對(duì)應(yīng)關(guān)系,負(fù)樣本數(shù)據(jù)的字符矩陣、負(fù)樣本數(shù)據(jù)對(duì)應(yīng)的句子連貫性向量是負(fù)樣本數(shù)據(jù)中的對(duì)應(yīng)關(guān)系,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)正樣本數(shù)據(jù)中的對(duì)應(yīng)關(guān)系和負(fù)樣本數(shù)據(jù)中的對(duì)應(yīng)關(guān)系進(jìn)行訓(xùn)練,得到句子連貫性模型。
本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中,根據(jù)句子連貫性向量,得到待分析文本的句子連貫性結(jié)果,包括:
將句子連貫性向量中元素概率最高值對(duì)應(yīng)的句子連貫性結(jié)果確定為待分析文本的句子連貫性結(jié)果,其中,句子連貫性向量中元素對(duì)應(yīng)的句子連貫性結(jié)果包括:句子連貫和句子不連貫。
可選的,句子連貫性向量可以表示為(連貫的概率,不連貫的概率),如果連貫的概率比較高,句子連貫性結(jié)果即為連貫;如果不連貫的概率比較高,句子連貫性結(jié)果即為不連貫。例如,得到的句子a的句子連貫性向量為(0.6,0.4),0.6表示連貫的概率,0.4表示不連貫的概率,顯然,連貫的概率大于不連貫的概率,因此,句子a的句子連貫性結(jié)果為連貫。
本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中,獲取待分析文本,包括:
通過(guò)光學(xué)字符識(shí)別ocr技術(shù)識(shí)別待分析視頻中的字幕,得到待分析文本。
需要說(shuō)明的是,ocr是指電子設(shè)備(例如掃描儀或數(shù)碼相機(jī))檢查紙上打印的字符,通過(guò)檢測(cè)暗、亮的模式確定字符形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過(guò)程。待分析文本可以是通過(guò)對(duì)待分析視頻進(jìn)行字幕提取得到的文本數(shù)據(jù),這樣,通過(guò)對(duì)文本數(shù)據(jù)進(jìn)行句子連貫性判斷,可以更好地理解待分析視頻所表達(dá)的內(nèi)容,更深地挖掘視頻信息。另外,還可以對(duì)視頻進(jìn)行看點(diǎn)分析,得到視頻的精彩看點(diǎn),而對(duì)于特定的場(chǎng)景,可以推薦個(gè)性化的廣告等。
本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中,對(duì)待分析文本進(jìn)行預(yù)處理,包括:
刪除待分析文本中的非中文字符。
通常,待分析文本中包含多種字符形式,本發(fā)明實(shí)施例的句子連貫性判斷指的是,對(duì)中文字符的句子連貫性的判斷,因此,需要將待分析文本中的非中文字符刪除,其中,非中文字符包括:英文字符、標(biāo)點(diǎn)符號(hào)、其他語(yǔ)種的字符等。
另外,待分析文本中的句子長(zhǎng)度可能多種多樣,本發(fā)明實(shí)施例中,還可以對(duì)待分析文本的句子長(zhǎng)度進(jìn)行設(shè)置,包括:對(duì)長(zhǎng)句子進(jìn)行截?cái)嗵幚恚瑢?duì)短句子添加特定字符,使短句子達(dá)到預(yù)設(shè)長(zhǎng)度等等。這樣,使輸入句子連貫性模型的字符矩陣更加整齊,并且不超出句子連貫性模型的處理范圍。
相應(yīng)于上述方法實(shí)施例,本發(fā)明實(shí)施例還提供了一種句子連貫性判斷裝置,參見(jiàn)圖3,圖3為本發(fā)明實(shí)施例的句子連貫性判斷裝置的一種結(jié)構(gòu)圖,包括:
預(yù)處理模塊301,用于獲取待分析文本,對(duì)待分析文本進(jìn)行預(yù)處理,得到待處理文本。
文本向量表示模塊302,用于對(duì)待處理文本中的每一個(gè)字符進(jìn)行向量表示,得到待處理文本的字符矩陣。
句子連貫性向量獲得模塊303,用于將字符矩陣輸入預(yù)先建立的句子連貫性模型,得到字符矩陣對(duì)應(yīng)的句子連貫性向量,其中,句子連貫性模型是根據(jù)樣本數(shù)據(jù),以及樣本數(shù)據(jù)對(duì)應(yīng)的句子連貫性結(jié)果進(jìn)行訓(xùn)練得到的。
句子連貫性結(jié)果獲得模塊304,用于根據(jù)句子連貫性向量,得到待分析文本的句子連貫性結(jié)果。
本發(fā)明實(shí)施例提供的句子連貫性判斷裝置,通過(guò)對(duì)待分析文本進(jìn)行預(yù)處理,得到待處理文本。對(duì)待處理文本中的每一個(gè)字符進(jìn)行向量表示,得到待處理文本的字符矩陣。將字符矩陣輸入預(yù)先建立的句子連貫性模型,得到字符矩陣對(duì)應(yīng)的句子連貫性向量。根據(jù)句子連貫性向量,得到待分析文本的句子連貫性結(jié)果。本發(fā)明實(shí)施例通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)樣本文本進(jìn)行訓(xùn)練,得到句子連貫性模型,通過(guò)句子連貫性模型識(shí)別不連貫的句子,提高了句子連貫性判斷的準(zhǔn)確性。
需要說(shuō)明的是,本發(fā)明實(shí)施例的裝置是應(yīng)用上述句子連貫性判斷方法的裝置,則上述句子連貫性判斷方法的所有實(shí)施例均適用于該裝置,且均能達(dá)到相同或相似的有益效果。
參見(jiàn)圖4,圖4為本發(fā)明實(shí)施例的句子連貫性判斷裝置的另一種結(jié)構(gòu)圖,在圖3實(shí)施例的基礎(chǔ)上,還包括:
樣本數(shù)據(jù)獲取模塊401,用于獲取句子連貫的正樣本數(shù)據(jù)和句子不連貫的負(fù)樣本數(shù)據(jù),其中,正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)分別具有對(duì)應(yīng)的句子連貫性向量。
樣本數(shù)據(jù)向量表示模塊402,用于分別對(duì)正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)進(jìn)行向量表示,得到正樣本數(shù)據(jù)的字符矩陣和負(fù)樣本數(shù)據(jù)的字符矩陣。
模型訓(xùn)練模塊403,用于通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)正樣本數(shù)據(jù)的字符矩陣、正樣本數(shù)據(jù)對(duì)應(yīng)的句子連貫性向量,以及負(fù)樣本數(shù)據(jù)的字符矩陣、負(fù)樣本數(shù)據(jù)對(duì)應(yīng)的句子連貫性向量進(jìn)行訓(xùn)練,得到句子連貫性模型。
可選的,本發(fā)明實(shí)施例的句子連貫性判斷裝置中,句子連貫性結(jié)果獲得模塊304,具體用于將句子連貫性向量中元素概率最高值對(duì)應(yīng)的句子連貫性結(jié)果確定為待分析文本的句子連貫性結(jié)果,其中,句子連貫性向量中元素對(duì)應(yīng)的句子連貫性結(jié)果包括:句子連貫和句子不連貫。
可選的,本發(fā)明實(shí)施例的句子連貫性判斷裝置中,預(yù)處理模塊301具體用于,通過(guò)光學(xué)字符識(shí)別ocr技術(shù)識(shí)別待分析視頻中的字幕,得到待分析文本。
可選的,本發(fā)明實(shí)施例的句子連貫性判斷裝置中,預(yù)處理模塊301還用于,刪除待分析文本中的非中文字符。
本發(fā)明實(shí)施例還提供了一種電子設(shè)備,參見(jiàn)圖5,圖5為本發(fā)明實(shí)施例的電子設(shè)備的結(jié)構(gòu)圖,包括:處理器501、通信接口502、存儲(chǔ)器503和通信總線504,其中,處理器501、通信接口502、存儲(chǔ)器503通過(guò)通信總線504完成相互間的通信;
存儲(chǔ)器503,用于存放計(jì)算機(jī)程序;
處理器501,用于執(zhí)行存儲(chǔ)器503上所存放的程序時(shí),實(shí)現(xiàn)以下步驟:
獲取待分析文本,對(duì)待分析文本進(jìn)行預(yù)處理,得到待處理文本。
對(duì)待處理文本中的每一個(gè)字符進(jìn)行向量表示,得到待處理文本的字符矩陣。
將字符矩陣輸入預(yù)先建立的句子連貫性模型,得到字符矩陣對(duì)應(yīng)的句子連貫性向量,其中,句子連貫性模型是根據(jù)樣本數(shù)據(jù),以及樣本數(shù)據(jù)對(duì)應(yīng)的句子連貫性結(jié)果進(jìn)行訓(xùn)練得到的。
根據(jù)句子連貫性向量,得到待分析文本的句子連貫性結(jié)果。
需要說(shuō)明的是,上述電子設(shè)備提到的通信總線504可以是pci(peripheralcomponentinterconnect,外設(shè)部件互連標(biāo)準(zhǔn))總線或eisa(extendedindustrystandardarchitecture,擴(kuò)展工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu))總線等。該通信總線504可以分為地址總線、數(shù)據(jù)總線、控制總線等。為便于表示,圖5中僅用一條粗線表示,但并不表示僅有一根總線或一種類型的總線。
通信接口502用于上述電子設(shè)備與其他設(shè)備之間的通信。
存儲(chǔ)器503可以包括ram(randomaccessmemory,隨機(jī)存取存儲(chǔ)器),也可以包括非易失性存儲(chǔ)器(non-volatilememory),例如至少一個(gè)磁盤存儲(chǔ)器??蛇x的,存儲(chǔ)器還可以是至少一個(gè)位于遠(yuǎn)離前述處理器的存儲(chǔ)裝置。
上述的處理器501可以是通用處理器,包括:cpu(centralprocessingunit,中央處理器)、np(networkprocessor,網(wǎng)絡(luò)處理器)等;還可以是dsp(digitalsignalprocessing,數(shù)字信號(hào)處理器)、asic(applicationspecificintegratedcircuit,專用集成電路)、fpga(field-programmablegatearray,現(xiàn)場(chǎng)可編程門陣列)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件。
由以上可見(jiàn),本發(fā)明實(shí)施例的電子設(shè)備中,處理器通過(guò)執(zhí)行存儲(chǔ)器上所存放的程序,從而對(duì)待分析文本進(jìn)行預(yù)處理,得到待處理文本。對(duì)待處理文本中的每一個(gè)字符進(jìn)行向量表示,得到待處理文本的字符矩陣。將字符矩陣輸入預(yù)先建立的句子連貫性模型,得到字符矩陣對(duì)應(yīng)的句子連貫性向量,其中,句子連貫性模型是根據(jù)樣本數(shù)據(jù),以及樣本數(shù)據(jù)對(duì)應(yīng)的句子連貫性結(jié)果進(jìn)行訓(xùn)練得到的。根據(jù)句子連貫性向量,得到待分析文本的句子連貫性結(jié)果。本發(fā)明實(shí)施例通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)樣本文本進(jìn)行訓(xùn)練,得到句子連貫性模型,通過(guò)句子連貫性模型識(shí)別不連貫的句子,提高了句子連貫性判斷的準(zhǔn)確性。
在本發(fā)明提供的又一實(shí)施例中,還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令,當(dāng)其在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行上述實(shí)施例中任一所述的句子連貫性判斷方法。
在本發(fā)明提供的又一實(shí)施例中,還提供了一種包含指令的計(jì)算機(jī)程序產(chǎn)品,當(dāng)其在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行上述實(shí)施例中任一所述的句子連貫性判斷方法。
在上述實(shí)施例中,可以全部或部分地通過(guò)軟件、硬件、固件或者其任意組合來(lái)實(shí)現(xiàn)。當(dāng)使用軟件實(shí)現(xiàn)時(shí),可以全部或部分地以計(jì)算機(jī)程序產(chǎn)品的形式實(shí)現(xiàn)。所述計(jì)算機(jī)程序產(chǎn)品包括一個(gè)或多個(gè)計(jì)算機(jī)指令。在計(jì)算機(jī)上加載和執(zhí)行所述計(jì)算機(jī)程序指令時(shí),全部或部分地產(chǎn)生按照本發(fā)明實(shí)施例所述的流程或功能。所述計(jì)算機(jī)可以是通用計(jì)算機(jī)、專用計(jì)算機(jī)、計(jì)算機(jī)網(wǎng)絡(luò)、或者其他可編程裝置。所述計(jì)算機(jī)指令可以存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,或者從一個(gè)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)向另一個(gè)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)傳輸,例如,所述計(jì)算機(jī)指令可以從一個(gè)網(wǎng)站站點(diǎn)、計(jì)算機(jī)、服務(wù)器或數(shù)據(jù)中心通過(guò)有線(例如同軸電纜、光纖、數(shù)字用戶線(dsl))或無(wú)線(例如紅外、無(wú)線、微波等)方式向另一個(gè)網(wǎng)站站點(diǎn)、計(jì)算機(jī)、服務(wù)器或數(shù)據(jù)中心進(jìn)行傳輸。所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是計(jì)算機(jī)能夠存取的任何可用介質(zhì)或者是包含一個(gè)或多個(gè)可用介質(zhì)集成的服務(wù)器、數(shù)據(jù)中心等數(shù)據(jù)存儲(chǔ)設(shè)備。所述可用介質(zhì)可以是磁性介質(zhì),(例如,軟盤、硬盤、磁帶)、光介質(zhì)(例如,dvd)、或者半導(dǎo)體介質(zhì)(例如固態(tài)硬盤solidstatedisk(ssd))等。
需要說(shuō)明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。
本說(shuō)明書中的各個(gè)實(shí)施例均采用相關(guān)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述的比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。