1.一種基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成系統(tǒng),其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成系統(tǒng),其特征在于,所述具有樂(lè)段結(jié)構(gòu)的歌詞序列包括由歌詞組成的序列,在序列中歌詞帶有標(biāo)簽,其中標(biāo)簽包括音色、樂(lè)器、音效、風(fēng)格、以及樂(lè)段結(jié)構(gòu)標(biāo)簽,樂(lè)段結(jié)構(gòu)標(biāo)簽包括前奏、主歌、預(yù)副歌、副歌、橋段或間奏、以及結(jié)語(yǔ);
3.根據(jù)權(quán)利要求2所述的基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成系統(tǒng),其特征在于,所述采用生成模型基于具有樂(lè)段結(jié)構(gòu)的歌詞序列進(jìn)行去噪處理來(lái)生成表示音樂(lè)的潛在概率分布,包括:
4.根據(jù)權(quán)利要求3所述的基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成系統(tǒng),其特征在于,所述對(duì)基于當(dāng)前輸入歌詞序列和前一時(shí)間窗口對(duì)應(yīng)的生成音頻數(shù)據(jù)通過(guò)生成模型進(jìn)行連續(xù)去噪,生成當(dāng)前時(shí)間窗口對(duì)應(yīng)的表示音樂(lè)的潛在概率分布,包括:
5.根據(jù)權(quán)利要求4所述的基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成系統(tǒng),其特征在于,所述生成模型包括用于基于拼接向量和歌詞序列進(jìn)行噪聲生成的dit子模型、和基于生成噪聲進(jìn)行去噪計(jì)算的ddpm子模型;
6.根據(jù)權(quán)利要求5所述的基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成系統(tǒng),其特征在于,所述dit子模型替換為sit子模型,sit子模型中,在形狀調(diào)整過(guò)程中,通過(guò)采樣器的選擇進(jìn)行隨機(jī)性采樣,基于隨機(jī)采樣結(jié)果來(lái)生成噪聲分布;
7.根據(jù)權(quán)利要求1所述的基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成系統(tǒng),其特征在于,所述vae模型包括vae編碼器和vae解碼器,基于自監(jiān)督訓(xùn)練得到,其中vae編碼器用于將輸入的音頻數(shù)據(jù)壓縮編碼到音頻數(shù)據(jù)空間的音頻分布,vae解碼器用于將音頻數(shù)據(jù)空間的音頻分布解碼生成頻譜圖;
8.根據(jù)權(quán)利要求1所述的基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成系統(tǒng),其特征在于,所述生成模型在被應(yīng)用之前需要經(jīng)過(guò)參數(shù)優(yōu)化,參數(shù)優(yōu)化時(shí),對(duì)vae模型的音頻數(shù)據(jù)空間的音頻分布進(jìn)行采樣得到樣本數(shù)據(jù),并以音頻數(shù)據(jù)作為標(biāo)簽,對(duì)生成模型進(jìn)行基于樣本數(shù)據(jù)在標(biāo)簽下的監(jiān)督訓(xùn)練,以?xún)?yōu)化生成模型參數(shù)。
9.根據(jù)權(quán)利要求1所述的基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成系統(tǒng),其特征在于,所述大語(yǔ)言模型在被應(yīng)用之前經(jīng)過(guò)微調(diào),微調(diào)時(shí)采用的文本數(shù)據(jù)包括:采用專(zhuān)業(yè)人士和業(yè)務(wù)愛(ài)好者對(duì)音樂(lè)進(jìn)行標(biāo)注的音樂(lè)注釋?zhuān)渲幸魳?lè)注釋采用專(zhuān)業(yè)化描述和通俗口語(yǔ)化描述,并且專(zhuān)業(yè)化描述與通俗口語(yǔ)化描述形成數(shù)據(jù)對(duì),利用數(shù)據(jù)對(duì)對(duì)大語(yǔ)言模型進(jìn)行微調(diào),使其能夠基于通俗口語(yǔ)化描述文本轉(zhuǎn)換為具有樂(lè)段結(jié)構(gòu)的歌詞序列。
10.一種基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成方法,其特征在于,采用所述權(quán)利要求1-9所述的端到端歌曲生成系統(tǒng),所述方法包括以下步驟:
11.一種計(jì)算設(shè)備,包括存儲(chǔ)器和一個(gè)或多個(gè)處理器,所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼,其特征在于,所述一個(gè)或多個(gè)處理器執(zhí)行所述可執(zhí)行代碼時(shí),用于實(shí)現(xiàn)權(quán)利要求10所述的基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成方法。