本發(fā)明涉及書(shū)法藝術(shù)自動(dòng)化評(píng)價(jià),具體為一種基于類(lèi)別約束的變分自編碼器的書(shū)法評(píng)價(jià)方法及系統(tǒng)。
背景技術(shù):
1、在當(dāng)前的書(shū)法藝術(shù)自動(dòng)化評(píng)價(jià)領(lǐng)域,盡管已有多種技術(shù)被應(yīng)用,包括骨架提取、筆畫(huà)分析、美學(xué)特征量化以及使用卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)框架,每種技術(shù)都有其獨(dú)特的優(yōu)勢(shì)和局限性。
2、首先,骨架提取技術(shù)通常用于書(shū)法臨摹領(lǐng)域,它通過(guò)提取漢字的主要結(jié)構(gòu)骨架來(lái)幫助分析和比較書(shū)法作品。這種方法能夠有效地計(jì)算書(shū)法作品與標(biāo)準(zhǔn)或者優(yōu)秀作品之間的相似度,從而用于臨摹訓(xùn)練和評(píng)價(jià)。然而,骨架提取技術(shù)主要關(guān)注書(shū)法作品的宏觀(guān)結(jié)構(gòu),忽略了筆畫(huà)細(xì)節(jié)和結(jié)構(gòu)之間的復(fù)雜交互,因此難以全面評(píng)價(jià)漢字的藝術(shù)價(jià)值和技術(shù)精度。
3、其次,筆畫(huà)分析和美學(xué)特征量化方法側(cè)重于根據(jù)一系列預(yù)設(shè)的標(biāo)準(zhǔn)來(lái)評(píng)估書(shū)法作品。筆畫(huà)分析技術(shù)主要關(guān)注每一筆的形狀、粗細(xì)和力度,而美學(xué)特征量化則嘗試將書(shū)法作品的美感轉(zhuǎn)換為可量化的數(shù)據(jù)。這些技術(shù)的主要問(wèn)題在于它們高度依賴(lài)圖像質(zhì)量和人工設(shè)定的評(píng)價(jià)標(biāo)準(zhǔn),這不僅使得評(píng)價(jià)結(jié)果對(duì)圖像的質(zhì)量非常敏感,還可能因?yàn)闃?biāo)準(zhǔn)的主觀(guān)性而導(dǎo)致評(píng)價(jià)結(jié)果的不一致性。在實(shí)際應(yīng)用中,尤其是在圖像質(zhì)量不理想的情況下,這些方法的準(zhǔn)確性和可靠性會(huì)大幅下降。
4、最后,卷積神經(jīng)網(wǎng)絡(luò)(cnn)的方法在書(shū)法藝術(shù)的自動(dòng)化評(píng)價(jià)中通常用于分類(lèi)任務(wù),比如區(qū)分不同的書(shū)法風(fēng)格或書(shū)寫(xiě)者。這種技術(shù)通過(guò)學(xué)習(xí)大量的書(shū)法圖像數(shù)據(jù),能夠有效識(shí)別和分類(lèi)復(fù)雜的視覺(jué)模式。然而,盡管卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域表現(xiàn)出色,它們?cè)谥苯釉u(píng)價(jià)書(shū)法作品的美學(xué)和技術(shù)質(zhì)量方面卻遇到了困難。這主要是因?yàn)闀?shū)法評(píng)價(jià)不僅僅是一個(gè)簡(jiǎn)單的分類(lèi)問(wèn)題,它需要對(duì)作品的藝術(shù)性、技術(shù)細(xì)節(jié)和整體協(xié)調(diào)性有深入的理解,這些是目前的cnn模型難以實(shí)現(xiàn)的。
5、綜上所述,盡管現(xiàn)有技術(shù)為書(shū)法藝術(shù)的自動(dòng)化評(píng)價(jià)提供了一定的支持,但它們各自的局限性仍然使得在漢字評(píng)價(jià)領(lǐng)域難以達(dá)到理想的效果。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述存在的問(wèn)題,提出了本發(fā)明。
2、因此,本發(fā)明解決的技術(shù)問(wèn)題是:現(xiàn)有的書(shū)法藝術(shù)自動(dòng)化評(píng)價(jià)方法存在難以全面評(píng)價(jià)漢字的藝術(shù)價(jià)值和技術(shù)精度,圖像質(zhì)量需求高,以及如何對(duì)作品的藝術(shù)性、技術(shù)細(xì)節(jié)和整體協(xié)調(diào)性進(jìn)行深入的理解的問(wèn)題。
3、為解決上述技術(shù)問(wèn)題,本發(fā)明提供如下技術(shù)方案:一種基于類(lèi)別約束的變分自編碼器的書(shū)法評(píng)價(jià)方法,包括通過(guò)圖像和文本的特征提取與壓縮,生成漢字圖像和相應(yīng)評(píng)價(jià)文本的潛在變量表示;利用類(lèi)別偏移量和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)解碼器構(gòu)建圖像與文本的一致性約束和語(yǔ)義關(guān)聯(lián)性,通過(guò)調(diào)整隱變量的均值來(lái)反映漢字書(shū)寫(xiě)質(zhì)量的不同級(jí)別;利用后驗(yàn)分布和先驗(yàn)分布之間的kl散度來(lái)約束隱變量生成評(píng)價(jià)。
4、作為本發(fā)明所述的基于類(lèi)別約束的變分自編碼器的書(shū)法評(píng)價(jià)方法的一種優(yōu)選方案,其中:所述通過(guò)圖像和文本的特征提取與壓縮,生成漢字圖像和相應(yīng)評(píng)價(jià)文本的潛在變量表示包括圖像編碼器接收漢字圖像作為輸入,采用殘差網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),對(duì)輸入圖像進(jìn)行特征提取和維度壓縮,得到圖像的壓縮表示himg
5、himg=resnet50(img)
6、圖像編碼器利用兩個(gè)獨(dú)立的全連接層fc將himg映射為潛在變量z的均值μ和對(duì)數(shù)標(biāo)準(zhǔn)差logσ,表示為:
7、μimg=fcμ(himg)
8、logσimg=fcσ(himg)
9、其中,μimg和logσimg分別表示將壓縮后的圖片映射為潛在變量z的均值和對(duì)數(shù)標(biāo)準(zhǔn)差。
10、作為本發(fā)明所述的基于類(lèi)別約束的變分自編碼器的書(shū)法評(píng)價(jià)方法的一種優(yōu)選方案,其中:所述通過(guò)圖像和文本的特征提取與壓縮,生成漢字圖像和相應(yīng)評(píng)價(jià)文本的潛在變量表示包括在圖像編碼器對(duì)輸入圖像進(jìn)行編碼得到隱變量表示后,利用數(shù)據(jù)集中預(yù)先定義的類(lèi)別信息對(duì)隱變量進(jìn)行調(diào)整,引入先驗(yàn)知識(shí),在準(zhǔn)備數(shù)據(jù)集時(shí),將所有的漢字按照書(shū)寫(xiě)質(zhì)量分為好、中、差三個(gè)等級(jí),并分別賦予0、1、2三個(gè)類(lèi)別標(biāo)簽,對(duì)于每個(gè)類(lèi)別,設(shè)定一個(gè)不同的偏移量shift,通過(guò)將隱變量的均值向量減去對(duì)應(yīng)類(lèi)別的偏移量,將不同類(lèi)別的隱變量編碼向不同方向偏移,表示為:
11、zimg=(μimg+shift)+σimg⊙∈,
12、作為本發(fā)明所述的基于類(lèi)別約束的變分自編碼器的書(shū)法評(píng)價(jià)方法的一種優(yōu)選方案,其中:所述利用類(lèi)別偏移量和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)解碼器構(gòu)建圖像與文本的一致性約束和語(yǔ)義關(guān)聯(lián)性包括文本編碼器接收漢字圖像對(duì)應(yīng)的評(píng)價(jià)文本作為輸入,采用lstm網(wǎng)絡(luò),對(duì)輸入的評(píng)價(jià)進(jìn)行特征提取和語(yǔ)義編碼,得到文本的壓縮表示htext,表示為:
13、htext=lstm(text)
14、文本編碼器利用兩個(gè)獨(dú)立的全連接層將htext映射為潛在變量均值μtext和對(duì)數(shù)標(biāo)準(zhǔn)差,在均值參數(shù)μtext中融入反映漢字質(zhì)量等級(jí)的類(lèi)別shift以實(shí)現(xiàn)圖文信息的一致性約束,通過(guò)重參數(shù)化生成采樣結(jié)果ztext,表示為:
15、μtext=fcμ(htext)
16、logσtext=fcσ(htext)
17、ztext=(μtext+shift)+σtext⊙∈,
18、作為本發(fā)明所述的基于類(lèi)別約束的變分自編碼器的書(shū)法評(píng)價(jià)方法的一種優(yōu)選方案,其中:所述利用類(lèi)別偏移量和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)解碼器構(gòu)建圖像與文本的一致性約束和語(yǔ)義關(guān)聯(lián)性還包括使用同一個(gè)雙向長(zhǎng)短期記憶網(wǎng)絡(luò)作為解碼器分別對(duì)圖像編碼器和文本編碼器生成的潛在表示zimg和ztext進(jìn)行解碼,得到decimg和dectext;
19、將zimg輸入到bilstm解碼器中,經(jīng)過(guò)多層非線(xiàn)性變換,得到圖像的解碼結(jié)果decimg,表示為:
20、decimg=bilstm(zimg)
21、將ztext輸入到同一個(gè)bilstm解碼器中,得到文本的解碼結(jié)果dectext,表示為:
22、dectext=bilstm(ztext)
23、使用兩個(gè)獨(dú)立的全連接層將decimg和dectext映射到字詞表空間,并通過(guò)歸一化函數(shù)獲得每個(gè)字詞的生成概率,表示為:
24、p(xt|zimg)=softmax(fc(decimg))
25、p(xt|ztext)=softmax(fc(dectext))
26、其中xt表示生成的第t個(gè)字詞。
27、作為本發(fā)明所述的基于類(lèi)別約束的變分自編碼器的書(shū)法評(píng)價(jià)方法的一種優(yōu)選方案,其中:所述通過(guò)調(diào)整隱變量的均值來(lái)反映漢字書(shū)寫(xiě)質(zhì)量的不同級(jí)別包括構(gòu)建訓(xùn)練損失包括重構(gòu)損失、圖像潛在表示損失和文本潛在表示損失。
28、重構(gòu)損失衡量解碼器生成的結(jié)果與真實(shí)文本之間的差異分別計(jì)算decimg和dectext與真實(shí)文本inputtext之間的交叉熵?fù)p失,表示為:
29、
30、其中,表示交叉熵?fù)p失函數(shù),表示為
31、
32、其中,p(x)表示真實(shí)值在本項(xiàng)目中就表示真實(shí)的評(píng)價(jià)文本,q(x)表示預(yù)測(cè)值;
33、圖像潛在表示損失表示為:
34、
35、其中,q(z)表示后驗(yàn)分布,p(z)表示先驗(yàn)分布。
36、作為本發(fā)明所述的基于類(lèi)別約束的變分自編碼器的書(shū)法評(píng)價(jià)方法的一種優(yōu)選方案,其中:所述利用后驗(yàn)分布和先驗(yàn)分布之間的kl散度來(lái)約束隱變量生成評(píng)價(jià)包括圖像潛在表示損失用于約束圖像編碼器生成的潛在表示,引入一個(gè)先驗(yàn)分布,并最小化zimg與先驗(yàn)分布之間的kl散度,表示為:
37、llatentimg=dkl(q(zimg∣ximg)||p(zimg))
38、其中,q(zimg|ximg)表示圖像編碼器生成的后驗(yàn)分布,p(zimg)表示圖像編碼器生成的先驗(yàn)分布,通過(guò)最小化圖像潛在表示損失,確保生成的zimg符合預(yù)設(shè)的先驗(yàn)分布;
39、文本潛在表示損失用于約束文本編碼器生成的潛在表示ztext,表示為:
40、llatenttext=dkl(q(ztext∣xtext)||p(ztext))
41、其中,q(ztext|xtext)表示文本編碼器生成的后驗(yàn)分布,p(ztext)表示文本編碼器生成的先驗(yàn)分布,最小化文本潛在表示損失確保生成的ztext符合預(yù)設(shè)的先驗(yàn)分布,
42、模型的總體損失函數(shù)為重構(gòu)損失、圖像潛在表示損失和文本潛在表示損失的加權(quán)和,表示為:
43、
44、其中λ為重構(gòu)損失項(xiàng)的權(quán)重系數(shù),通過(guò)平衡三個(gè)損失函數(shù),模型同時(shí)學(xué)習(xí)圖像和文本的潛在表示,生成評(píng)價(jià)文本。
45、本發(fā)明的另外一個(gè)目的是提供一種基于類(lèi)別約束的變分自編碼器的書(shū)法評(píng)價(jià)系統(tǒng),其能通過(guò)分類(lèi)約束機(jī)制,顯著提升了模型在漢字書(shū)寫(xiě)評(píng)價(jià)中的準(zhǔn)確性和可靠性,確保了評(píng)價(jià)結(jié)果的專(zhuān)業(yè)性和權(quán)威性。解決了目前的經(jīng)典的變分自編碼器模型架構(gòu)含有準(zhǔn)確性不足的問(wèn)題。
46、作為本發(fā)明所述的基于類(lèi)別約束的變分自編碼器的書(shū)法評(píng)價(jià)系統(tǒng)的一種優(yōu)選方案,其中:包括數(shù)據(jù)生成模塊,評(píng)級(jí)模塊,評(píng)價(jià)模塊;所述數(shù)據(jù)生成模塊用于通過(guò)圖像和文本的特征提取與壓縮,生成漢字圖像和相應(yīng)評(píng)價(jià)文本的潛在變量表示;所述評(píng)級(jí)模塊用于利用類(lèi)別偏移量和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)解碼器構(gòu)建圖像與文本的一致性約束和語(yǔ)義關(guān)聯(lián)性,通過(guò)調(diào)整隱變量的均值來(lái)反映漢字書(shū)寫(xiě)質(zhì)量的不同級(jí)別;所述評(píng)價(jià)模塊用于利用后驗(yàn)分布和先驗(yàn)分布之間的kl散度來(lái)約束隱變量生成評(píng)價(jià)。
47、一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序是實(shí)現(xiàn)基于類(lèi)別約束的變分自編碼器的書(shū)法評(píng)價(jià)方法的步驟。
48、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)基于類(lèi)別約束的變分自編碼器的書(shū)法評(píng)價(jià)方法的步驟。
49、本發(fā)明的有益效果:本發(fā)明提供的基于類(lèi)別約束的變分自編碼器的書(shū)法評(píng)價(jià)方法賦予模型自我學(xué)習(xí)和特征提取的能力,使其能夠獨(dú)立地從圖像和文本數(shù)據(jù)中發(fā)現(xiàn)并構(gòu)建內(nèi)在聯(lián)系,實(shí)現(xiàn)了從輸入到輸出的端到端智能學(xué)習(xí)機(jī)制。在經(jīng)典的變分自編碼器模型架構(gòu)之上,引入了分類(lèi)約束機(jī)制,顯著提升了模型在漢字書(shū)寫(xiě)評(píng)價(jià)中的準(zhǔn)確性和可靠性,確保了評(píng)價(jià)結(jié)果的專(zhuān)業(yè)性和權(quán)威性。本發(fā)明在準(zhǔn)確性和可靠性方面都取得更加良好的效果。