一種基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成方法和系統(tǒng)與流程

文檔序號(hào)：39346279發(fā)布日期：2024-09-10 12:10閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>一種基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成方法和系統(tǒng)與流程

技術(shù)特征：

1.一種基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成系統(tǒng)，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成系統(tǒng)，其特征在于，所述具有樂(lè)段結(jié)構(gòu)的歌詞序列包括由歌詞組成的序列，在序列中歌詞帶有標(biāo)簽，其中標(biāo)簽包括音色、樂(lè)器、音效、風(fēng)格、以及樂(lè)段結(jié)構(gòu)標(biāo)簽，樂(lè)段結(jié)構(gòu)標(biāo)簽包括前奏、主歌、預(yù)副歌、副歌、橋段或間奏、以及結(jié)語(yǔ)；

3.根據(jù)權(quán)利要求2所述的基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成系統(tǒng)，其特征在于，所述采用生成模型基于具有樂(lè)段結(jié)構(gòu)的歌詞序列進(jìn)行去噪處理來(lái)生成表示音樂(lè)的潛在概率分布，包括：

4.根據(jù)權(quán)利要求3所述的基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成系統(tǒng)，其特征在于，所述對(duì)基于當(dāng)前輸入歌詞序列和前一時(shí)間窗口對(duì)應(yīng)的生成音頻數(shù)據(jù)通過(guò)生成模型進(jìn)行連續(xù)去噪，生成當(dāng)前時(shí)間窗口對(duì)應(yīng)的表示音樂(lè)的潛在概率分布，包括：

5.根據(jù)權(quán)利要求4所述的基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成系統(tǒng)，其特征在于，所述生成模型包括用于基于拼接向量和歌詞序列進(jìn)行噪聲生成的dit子模型、和基于生成噪聲進(jìn)行去噪計(jì)算的ddpm子模型；

6.根據(jù)權(quán)利要求5所述的基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成系統(tǒng)，其特征在于，所述dit子模型替換為sit子模型，sit子模型中，在形狀調(diào)整過(guò)程中，通過(guò)采樣器的選擇進(jìn)行隨機(jī)性采樣，基于隨機(jī)采樣結(jié)果來(lái)生成噪聲分布；

7.根據(jù)權(quán)利要求1所述的基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成系統(tǒng)，其特征在于，所述vae模型包括vae編碼器和vae解碼器，基于自監(jiān)督訓(xùn)練得到，其中vae編碼器用于將輸入的音頻數(shù)據(jù)壓縮編碼到音頻數(shù)據(jù)空間的音頻分布，vae解碼器用于將音頻數(shù)據(jù)空間的音頻分布解碼生成頻譜圖；

8.根據(jù)權(quán)利要求1所述的基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成系統(tǒng)，其特征在于，所述生成模型在被應(yīng)用之前需要經(jīng)過(guò)參數(shù)優(yōu)化，參數(shù)優(yōu)化時(shí)，對(duì)vae模型的音頻數(shù)據(jù)空間的音頻分布進(jìn)行采樣得到樣本數(shù)據(jù)，并以音頻數(shù)據(jù)作為標(biāo)簽，對(duì)生成模型進(jìn)行基于樣本數(shù)據(jù)在標(biāo)簽下的監(jiān)督訓(xùn)練，以?xún)?yōu)化生成模型參數(shù)。

9.根據(jù)權(quán)利要求1所述的基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成系統(tǒng)，其特征在于，所述大語(yǔ)言模型在被應(yīng)用之前經(jīng)過(guò)微調(diào)，微調(diào)時(shí)采用的文本數(shù)據(jù)包括：采用專(zhuān)業(yè)人士和業(yè)務(wù)愛(ài)好者對(duì)音樂(lè)進(jìn)行標(biāo)注的音樂(lè)注釋?zhuān)渲幸魳?lè)注釋采用專(zhuān)業(yè)化描述和通俗口語(yǔ)化描述，并且專(zhuān)業(yè)化描述與通俗口語(yǔ)化描述形成數(shù)據(jù)對(duì)，利用數(shù)據(jù)對(duì)對(duì)大語(yǔ)言模型進(jìn)行微調(diào)，使其能夠基于通俗口語(yǔ)化描述文本轉(zhuǎn)換為具有樂(lè)段結(jié)構(gòu)的歌詞序列。

10.一種基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成方法，其特征在于，采用所述權(quán)利要求1-9所述的端到端歌曲生成系統(tǒng)，所述方法包括以下步驟：

11.一種計(jì)算設(shè)備，包括存儲(chǔ)器和一個(gè)或多個(gè)處理器，所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼，其特征在于，所述一個(gè)或多個(gè)處理器執(zhí)行所述可執(zhí)行代碼時(shí)，用于實(shí)現(xiàn)權(quán)利要求10所述的基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成方法。

技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成方法和系統(tǒng)，包括：獲取用戶(hù)輸入的通俗口語(yǔ)表達(dá)文本并將其作為描述文本提示詞；采用大語(yǔ)言模型根據(jù)描述文本提示詞生成具有樂(lè)段結(jié)構(gòu)的歌詞序列；采用生成模型基于具有樂(lè)段結(jié)構(gòu)的歌詞序列進(jìn)行去噪處理來(lái)生成表示音樂(lè)的潛在概率分布，并基于潛在概率分布在VAE模型的音頻數(shù)據(jù)空間中進(jìn)行搜索得到歌詞序列對(duì)應(yīng)的音頻分布，音頻分布中的每個(gè)點(diǎn)表示一段音頻，將音頻分布轉(zhuǎn)換成頻譜圖后，將頻譜圖轉(zhuǎn)換為歌曲的音頻數(shù)據(jù)，這樣在充分理解的口語(yǔ)化表達(dá)的基礎(chǔ)上創(chuàng)建歌曲，并將用戶(hù)的通俗口語(yǔ)表達(dá)與創(chuàng)建的歌曲進(jìn)行匹配。

技術(shù)研發(fā)人員：劉浩軒,劉巖,張弢,余鵬飛
受保護(hù)的技術(shù)使用者：北京對(duì)酒當(dāng)歌科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/9/9

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于用戶(hù)通俗口語(yǔ)表達(dá)的端到端歌曲生成方法和系統(tǒng)與流程