本發(fā)明涉及歌曲推送領(lǐng)域,尤其涉及一種基于人臉微表情識(shí)別的相關(guān)歌曲推送系統(tǒng)。
背景技術(shù):
1、目前市場(chǎng)上存在多種音樂推薦系統(tǒng),這些系統(tǒng)通?;谟脩舻钠脷v史、播放記錄或社交網(wǎng)絡(luò)數(shù)據(jù)來(lái)推薦音樂。然而,大多數(shù)現(xiàn)有的系統(tǒng)并沒有直接考慮用戶當(dāng)前的情緒狀態(tài),這限制了它們?cè)谔囟ㄇ榫诚碌倪m用性和個(gè)性化水平。
2、盡管一些較為先進(jìn)的系統(tǒng)已開始嘗試使用情感分析技術(shù)來(lái)改善推薦效果,例如通過語(yǔ)音識(shí)別或文本分析推斷用戶的情緒狀態(tài)并據(jù)此推薦音樂,但這些技術(shù)仍存在一些局限性。
3、首先,大多數(shù)基于語(yǔ)音或文本的情感分析技術(shù)只能在特定的交互方式下使用,如對(duì)話或用戶主動(dòng)提供文本輸入,這限制了系統(tǒng)的適用場(chǎng)景,尤其是在用戶不愿或不便進(jìn)行語(yǔ)音或文本交互的情況下。其次,現(xiàn)有的情感分析技術(shù)在準(zhǔn)確識(shí)別用戶情緒方面仍有待提高,例如語(yǔ)音和文本分析可能受到噪音干擾或語(yǔ)言表達(dá)差異的影響,導(dǎo)致情緒識(shí)別不準(zhǔn)確。此外,許多音樂推薦系統(tǒng)需要用戶主動(dòng)提供情緒狀態(tài)信息,從而無(wú)法在用戶情緒變化時(shí)實(shí)時(shí)響應(yīng)。最后,盡管現(xiàn)有系統(tǒng)可以基于歷史行為進(jìn)行推薦,但往往忽略了用戶在不同情境下的即時(shí)情緒變化,導(dǎo)致推薦內(nèi)容不夠個(gè)性化。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明針對(duì)現(xiàn)有語(yǔ)音識(shí)別或文本分析推斷用戶的情緒狀態(tài)并據(jù)此推薦音樂存在一些局限性的問題,提出一種基于人臉微表情識(shí)別的相關(guān)歌曲推送系統(tǒng),所述系統(tǒng)包括:
2、數(shù)據(jù)采集模塊,面部檢測(cè)模塊,微表情識(shí)別分類模塊,情緒狀態(tài)推斷模塊和音樂推薦模塊;
3、所述數(shù)據(jù)采集模塊用于采集面部視頻流,并將面部視頻流傳輸至面部檢測(cè)模塊,所述面部檢測(cè)模塊用于接收面部視頻流,并檢測(cè)面部視頻流中每一幀中的面部信息;所述面部信息傳輸至微表情識(shí)別分類模塊,所述微表情識(shí)別分類模塊對(duì)檢測(cè)到的面部區(qū)域進(jìn)行微表情分類,并對(duì)分類結(jié)果進(jìn)行輸入至情緒狀態(tài)推斷模塊進(jìn)行融合判決;所述情緒狀態(tài)推斷模塊用于推斷用戶的情緒狀態(tài),并將用戶的情緒狀態(tài)輸入至音樂推薦模塊;所述音樂推薦模塊根據(jù)用戶的情緒狀態(tài),從音樂數(shù)據(jù)庫(kù)中選取匹配的音樂進(jìn)行推薦。
4、進(jìn)一步的,還提出一種優(yōu)選方式,所述數(shù)據(jù)采集模塊中面部視頻流采集的幀率為30幀/秒,分辨率為640x480像素。
5、進(jìn)一步的,還提出一種優(yōu)選方式,所述面部檢測(cè)模塊通過面部檢測(cè)模型mtcnn構(gòu)成,所述面部檢測(cè)模型mtcnn由p-net、r-net和o-net三個(gè)子網(wǎng)絡(luò)組成;所述p-net接收輸入圖像并生成候選的人臉區(qū)域,所述p-net輸出每個(gè)區(qū)域的置信度,當(dāng)輸出的置信度高于0.9時(shí),候選區(qū)域保留并傳遞給r-net;所述r-net接收p-net傳遞的候選區(qū)域,并在候選區(qū)域內(nèi)進(jìn)行人臉檢測(cè),所述r-net輸出每個(gè)區(qū)域的置信度,并對(duì)邊界框進(jìn)行微調(diào),當(dāng)輸出的置信度高于0.9時(shí),判定為有效人臉區(qū)域,將有效人臉區(qū)域傳遞給o-net,所述o-net接收r-net輸出的細(xì)化后的人臉區(qū)域,并進(jìn)行最終的人臉關(guān)鍵點(diǎn)定位,當(dāng)o-net輸出的置信度高于0.9時(shí),獲取面部的邊界框坐標(biāo),并且保留關(guān)鍵點(diǎn)定位結(jié)果。
6、進(jìn)一步的,還提出一種優(yōu)選方式,所述微表情識(shí)別分類模塊由resnet50模型和yolov5-cls模型組成。
7、進(jìn)一步的,還提出一種優(yōu)選方式,所述微表情識(shí)別分類模塊的優(yōu)化流程為:
8、從包含超過35000張灰度圖像,涵蓋憤怒、厭惡、恐懼、高興、悲傷、驚訝、平靜七種表情的fer2013和包含30000張彩色圖像,標(biāo)簽包括年齡、性別、頭部姿態(tài)、光照條件的raf-db中各選取2000張圖像,獲取開源數(shù)據(jù)集;
9、預(yù)處理開源數(shù)據(jù)集,將數(shù)據(jù)集中圖像修剪為640x480像素的標(biāo)注圖像,并縮放為224x224像素正方形圖像,獲取得到1400張表情數(shù)據(jù);
10、將5400張圖像按照7:2:1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集;
11、收到人臉信息時(shí),同時(shí)調(diào)用resnet50模型和yolov5-cls模型進(jìn)行預(yù)測(cè),每個(gè)模型的置信度閾值設(shè)定為0.7;
12、如果兩個(gè)模型的預(yù)測(cè)結(jié)果一致,則將結(jié)果直接傳入情緒狀態(tài)推斷模塊;
13、如果兩個(gè)模型的預(yù)測(cè)結(jié)果不一致,進(jìn)行加權(quán)平均法計(jì)算最終判決,其中,resnet50權(quán)重0.9,yolov5-cls模型權(quán)重0.85。
14、計(jì)算兩個(gè)模型預(yù)測(cè)結(jié)果的加權(quán)平均值,重新比較置信度,并做出最終判決;
15、如果只有一個(gè)模型返回預(yù)測(cè)結(jié)果,則將結(jié)果直接傳入情緒狀態(tài)推斷模塊。
16、進(jìn)一步的,還提出一種優(yōu)選方式,所述音樂推薦模塊包括:
17、根據(jù)用戶的情緒狀態(tài),將用戶的情緒狀態(tài)轉(zhuǎn)化為向量表示;
18、將音樂數(shù)據(jù)庫(kù)中的每首音樂標(biāo)記情感標(biāo)簽,并將音樂的情感標(biāo)簽轉(zhuǎn)化為向量表示;
19、利用余弦相似度計(jì)算用戶情緒狀態(tài)向量和音樂情感標(biāo)簽向量之間的相似度;
20、根據(jù)計(jì)算出的相似度,將相似度較高的音樂推薦給用戶。
21、基于同一發(fā)明構(gòu)思,本發(fā)明還提出一種基于人臉微表情識(shí)別的相關(guān)歌曲推送方法,所述方法基于上述所述的系統(tǒng)實(shí)現(xiàn),所述方法包括:
22、通過攝像頭或其他視頻采集設(shè)備實(shí)時(shí)采集用戶的面部視頻流;
23、利用面部檢測(cè)模塊來(lái)檢測(cè)視頻流的畫面進(jìn)行逐幀處理,將圖像轉(zhuǎn)換為rgb格式,傳入面部檢測(cè)模型,獲得每一幀圖像檢測(cè)到的所有面部的邊界框坐標(biāo)和關(guān)鍵點(diǎn)信息,保留坐標(biāo)信息,并將坐標(biāo)框內(nèi)的圖像提取為新文件,經(jīng)過縮放調(diào)整為正方形傳入微表情識(shí)別分類模塊;
24、微表情識(shí)別分類模塊對(duì)檢測(cè)到的面部區(qū)域進(jìn)行微表情分類;
25、根據(jù)微表情分類結(jié)果,使用預(yù)定義的情緒映射表推斷用戶的情緒狀態(tài);
26、根據(jù)用戶的情緒狀態(tài),從音樂數(shù)據(jù)庫(kù)中選取匹配的音樂進(jìn)行推薦。
27、進(jìn)一步的,還提出一種優(yōu)選方式,所述方法還包括用戶反饋收集與模型優(yōu)化,具體為:
28、在推薦系統(tǒng)的界面中集成反饋機(jī)制,所述反饋內(nèi)容包括用戶對(duì)推薦音樂的喜好程度、情緒狀態(tài)的改變、音樂是否符合用戶期望;
29、將用戶的反饋數(shù)據(jù)實(shí)時(shí)記錄在數(shù)據(jù)庫(kù)中,利用反饋數(shù)據(jù)更新推薦策略調(diào)整推薦算法的策略參數(shù);
30、根據(jù)用戶的反饋調(diào)整獎(jiǎng)勵(lì)值,使用在線梯度下降法實(shí)時(shí)更新模型參數(shù)。
31、基于同一發(fā)明構(gòu)思,本發(fā)明還提出一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)所述處理器運(yùn)行所述存儲(chǔ)器存儲(chǔ)的計(jì)算機(jī)程序時(shí),所述處理器執(zhí)行根據(jù)上述中任一項(xiàng)中所述的基于人臉微表情識(shí)別的相關(guān)歌曲推送方法。
32、基于同一發(fā)明構(gòu)思,本發(fā)明還提出一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器運(yùn)行時(shí)執(zhí)行如上述任一項(xiàng)所述的基于人臉微表情識(shí)別的相關(guān)歌曲推送方法的步驟。
33、本發(fā)明的有益之處在于:
34、1、本發(fā)明所述的基于人臉微表情識(shí)別的相關(guān)歌曲推送系統(tǒng),通過攝像頭捕捉用戶的面部表情,無(wú)需用戶主動(dòng)提供信息,實(shí)現(xiàn)了自然且非侵入式的交互方式。
35、2、本發(fā)明所述的基于人臉微表情識(shí)別的相關(guān)歌曲推送系統(tǒng),采用先進(jìn)的計(jì)算機(jī)視覺技術(shù)和深度學(xué)習(xí)算法,本發(fā)明能夠準(zhǔn)確識(shí)別用戶微妙的面部表情變化,從而更準(zhǔn)確地推斷用戶的情緒狀態(tài)。
36、3、本發(fā)明本發(fā)明所述的基于人臉微表情識(shí)別的相關(guān)歌曲推送系統(tǒng),能夠在用戶情緒發(fā)生變化時(shí)立即作出響應(yīng),動(dòng)態(tài)更新推薦的音樂列表,以更好地適應(yīng)用戶的情緒變化。
37、4、本發(fā)明本發(fā)明所述的基于人臉微表情識(shí)別的相關(guān)歌曲推送系統(tǒng),能夠根據(jù)用戶當(dāng)前的情緒狀態(tài)實(shí)時(shí)推薦音樂,結(jié)合用戶歷史習(xí)慣,為用戶提供更加個(gè)性化和情境化的音樂體驗(yàn)。