一種將生物基因以特定的性狀進行分類與自我識別的方法

文檔序號：10655799閱讀：250來源：國知局

一種將生物基因以特定的性狀進行分類與自我識別的方法
【專利摘要】本發(fā)明涉及生物信息技術(shù)領(lǐng)域，具體涉及一種將生物基因以特定的性狀進行分類與自我識別的方法，它采用如下的方法步驟；步驟一：Caffe深度學習框架運行環(huán)境的搭建；步驟二：生物基因信息數(shù)據(jù)的準備；步驟三：生物基因性狀識別模型的建立；步驟四：生物基因性狀識別模型的訓練；步驟五：對未知性狀基因信息進行識別；它采用深度學習算法，構(gòu)建一個對生物基因信息識別并找出與對應性狀之間聯(lián)系的模型，然后使用這個模型對未知性狀的基因信息進行識別，它具有能夠更方便及智能的進行基因的對應性狀分類，對未知性狀的基因進行自我識別的優(yōu)點。
【專利說明】-種將生物基因從特定的性狀進行分類與自我識別的方法【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及生物信息技術(shù)領(lǐng)域，具體設(shè)及一種將生物基因 W特定的性狀進行分類與自我識別的方法。【【背景技術(shù)】】
[0002] 人類基因組計劃奠定了從基因切入研究疾病的基礎(chǔ)，人們希望找到人類發(fā)病與基因之間的關(guān)系。全基因組關(guān)聯(lián)研究(GWAS，-Wide Association Study)的基本原理是在同層人群中選擇滿足一定統(tǒng)計學數(shù)量的病例組和對照組樣本，比較全基因組范圍內(nèi)SNP位點在病例組與對照組中的頻率差異，若某個SNP位點在病例組中出現(xiàn)的頻率明顯高于或低于對照組，則認為該SNP位點與復雜疾病存在某種關(guān)聯(lián)。雖然，GWAS已經(jīng)發(fā)現(xiàn)了很多與復雜疾病相關(guān)的SNP位點，但是GWAS仍然存在很多問題，其成果與人們的預期差距甚遠。
[0003] 在基因的間接識別法化Xtrinsic Approach)中，人們利用已知的mRNA或蛋白質(zhì)序列為線索在DNA序列中捜尋所對應的片段。由給定的mRNA序列確定唯一的作為轉(zhuǎn)錄源的DNA 序列;而由給定的蛋白質(zhì)序列，也可W由密碼子反轉(zhuǎn)確定一族可能的DNA序列。因此，在線索的提示下捜尋工作相對較為容易，捜尋算法的關(guān)鍵在于提高效率，并能夠容忍由于測序不完整或者不精確所帶來的誤差。BLAST是目前W此為目的最廣泛使用的軟件之一。
[0004] BLAST(Basic Local Alignment Search Tool)是一套在DNA數(shù)據(jù)庫或蛋白質(zhì)數(shù)據(jù) 庫中進行相似性比較的分析工具。BLAST程序能迅速使目標基因序列與公開數(shù)據(jù)庫進行相似性序列比較。BLAST采用一種局部的算法獲得兩個序列中具有相似性的序列，并且對一條或多條序列(可W是任何形式的序列)在一個或多個核酸或蛋白序列庫中進行比對。然而， BLAST卻也存在一定的局限性，并不能進行深度學下的依照對應性狀進行基因分類和自我識別，而且對于大數(shù)據(jù)量的基因數(shù)據(jù)集進行智能化的對應性狀分類和自我識別顯得無能為力。
[0005] Caffe是一個清晰而高效的深度學習框架。它是純粹的C++/CUDA架構(gòu)，支持命令行、P^hon和MTLAB接口；可W在CPU和GPU直接無縫切換，用于研究機器視覺的開源卷積神經(jīng)網(wǎng)絡(luò)框架，并且主要應用于圖像領(lǐng)域處理。它的特點是:快速搭建網(wǎng)絡(luò)結(jié)構(gòu)，代碼可擴展，計算速度快等。利用化ffe開源深度學習框架，構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)學習模型，W生物基因數(shù) 據(jù)信息進行推算，從而獲得識別基因及其對應性狀的模型，有助于更加高效的進行基因性狀識別和自我分類。【
【發(fā)明內(nèi)容】
】
[0006] 本發(fā)明的目的在于針對現(xiàn)有技術(shù)的缺陷和不足，提供一種結(jié)構(gòu)簡單，設(shè)計合理、使用方便的一種將生物基因 W特定的性狀進行分類與自我識別的方法，它采用深度學習算法，構(gòu)建一個對生物基因信息識別并找出與對應性狀之間聯(lián)系的模型，然后使用運個模型對未知性狀的基因信息進行識別，它具有能夠更方便及智能的進行基因的對應性狀分類，對未知性狀的基因進行自我識別的優(yōu)點。
[0007]本發(fā)明所述的一種將生物基因 W特定的性狀進行分類與自我識別的方法，它采用如下的技術(shù)方案：
[000引步驟一:搭建一個適合化ffe深度學習運行的軟硬件環(huán)境；
[0009] 步驟二:生物基因信息數(shù)據(jù)的準備，使其適用于Caffe的訓練數(shù)據(jù)，對原始基因信息進行預處理，預處理包括更改原始數(shù)據(jù)維數(shù)，統(tǒng)一到固定大小，并歸一化；
[0010] 步驟根據(jù)識別任務(wù)目標，采用深度學習算法構(gòu)建一個適用于生物基因性狀識別的模型；
[0011] 步驟四：在化ffe運行環(huán)境上，使用準備的生物基因數(shù)據(jù)，按照基因性狀識別模型描述文件和求解描述文件對所建立的識別模型進行訓練，求解模型中各層的參數(shù)，達到預期性能停止訓練并保存各層參數(shù)；
[0012] 步驟五:利用建立的識別模型結(jié)合訓練得到的模型參數(shù)對未知性狀的基因信息進行識別。
[0013] 進一步地，步驟一中搭建一個適合化ffe深度學習運行的軟硬件環(huán)境如下:硬件為一臺內(nèi)存32GB，帶一個內(nèi)存為12GB的NVIDIA GeForce GTX Ti化n X獨立顯卡的服務(wù)器或更高配置;軟件的操作系統(tǒng)為化un化15.10，64位系統(tǒng)，W及caffe依賴的其它第S方庫。
[0014] 進一步地，步驟二中準備的生物基因信息數(shù)據(jù)是經(jīng)過二進制字節(jié)流表示和可視化圖像轉(zhuǎn)換后的基因信息，其基因信息數(shù)據(jù)W圖像的格式表現(xiàn)；其次使用Caffe提供的 conve;rt_imageset工具將基因數(shù)據(jù)集轉(zhuǎn)化為數(shù)據(jù)庫文件，數(shù)據(jù)庫文件可W是Ieveldb或者 InKlb，優(yōu)選Indb;進一步地，使用化f f e提供的compute_image_mean命令對上面的數(shù)據(jù)庫文件計算基因信息的均值，并將生成的數(shù)據(jù)拆分成訓練數(shù)據(jù)集和測試數(shù)據(jù)集。
[0015] 進一步地，步驟S的特征在于構(gòu)建一個基于化ffe深度學習算法的生物基因性狀識別模型進行目標訓練，根據(jù)基因性狀識別任務(wù)，確定基因性狀識別模型的結(jié)構(gòu)W及模型中每一層的超參數(shù);其次，編寫適用于化ffe的模型描述文件和模型求解描述文件。
[0016] 進一步地，步驟四中：生物基因性狀識別模型的訓練，其特征是在化ffe運行環(huán)境上，使用準備的生物基因數(shù)據(jù)，按照基因性狀識別模型描述文件和求解描述文件對所建立的識別模型進行訓練，求解模型中各層的參數(shù);在訓練過程中，利用訓練數(shù)據(jù)集采用梯度下降算法在每一個迭代過程中更新各層參數(shù)，并使用測試集對訓練完的模型進行性能評估，達到預期性能停止訓練并保存各層參數(shù)。
[0017] 進一步地，步驟五中：利用建立的識別模型結(jié)合訓練得到的模型參數(shù)對未知性狀的基因信息進行識別，輸入的未知性狀的基因信息需要按照步驟B進行數(shù)據(jù)準備，將原始基因信息轉(zhuǎn)化為適用于化ffe的輸入數(shù)據(jù)。識別模型對輸入數(shù)據(jù)的輸出是一個歸屬于某一對應性狀的概率數(shù)值，并認為概率最大的性狀標簽作為待識別基因?qū)男誀睢?br>[0018] 采用上述結(jié)構(gòu)后，本發(fā)明有益效果為:本發(fā)明所述的一種將生物基因 W特定的性狀進行分類與自我識別的方法，它采用深度學習算法，構(gòu)建一個對生物基因信息識別并找出與對應性狀之間聯(lián)系的模型，然后使用運個模型對未知性狀的基因信息進行識別，它具有能夠更方便及智能的進行基因的對應性狀分類，對未知性狀的基因進行自我識別的優(yōu) 點。【【附圖說明】】
[0019] 此處所說明的附圖是用來提供對本發(fā)明的進一步理解，構(gòu)成本申請的一部分，但并不構(gòu)成對本發(fā)明的不當限定，在附圖中：
[0020] 圖1是本發(fā)明技術(shù)方案的實施流程圖。
[0021] 圖2是本發(fā)明實施中生物基因信息數(shù)據(jù)的準備流程圖。
[0022] 圖3是本發(fā)明實施中生物基因性狀識別模型的網(wǎng)絡(luò)結(jié)構(gòu)；
[0023] 圖4是本發(fā)明實施中生物基因性狀識別模型的各層網(wǎng)絡(luò)參數(shù)表；
[0024] 圖5是本發(fā)明實施中生物基因性狀識別模型訓練流程圖。
[0025] 圖6是本發(fā)明實施中生物基因性狀識別模型對未知性狀基因信息識別流程圖；【【具體實施方式】】
[0026] 下面將結(jié)合附圖W及具體實施例來詳細說明本發(fā)明，其中的示意性實施例W及說明僅用來解釋本發(fā)明，但并不作為對本發(fā)明的限定。
[0027] 如圖1-圖6所示，本【具體實施方式】所述的一種將生物基因 W特定的性狀進行分類與自我識別的方法，它采用如下的技術(shù)方案：
[00%]步驟一:化ffe深度學習框架運行環(huán)境的搭建；
[0029] 步驟二:生物基因信息數(shù)據(jù)的準備；
[0030] 步驟生物基因性狀識別模型的建立；
[0031 ]步驟四：生物基因性狀識別模型的訓練；
[0032] 步驟五:對未知性狀基因信息進行識別；
[0033] 步驟一中：在于搭建一個適合化ffe深度學習運行的軟硬件環(huán)境，硬件為一臺內(nèi)存 32GB，帶一個內(nèi)存為12GB的NVIDIA GeForce GTX Titan X獨立顯卡的服務(wù)器或更高配置。軟件的操作系統(tǒng)為化un化15.10,64位系統(tǒng)，W及caffe依賴的其它第S方庫。
[0034] 步驟二中：生物基因信息數(shù)據(jù)，是經(jīng)過二進制字節(jié)流表示和可視化圖像轉(zhuǎn)換后的基因信息，其基因信息數(shù)據(jù)W圖像的格式表現(xiàn)。
[0035] 較佳地，步驟二的生物基因信息數(shù)據(jù)的準備是要使其適用于化ffe的訓練數(shù)據(jù)。對原始基因信息進行預處理，預處理包括更改原始數(shù)據(jù)維數(shù)，統(tǒng)一到固定大小，并歸一化。
[0036] 使用化ffe提供的conve;rt_imageset工具將基因數(shù)據(jù)集轉(zhuǎn)化為數(shù)據(jù)庫文件，數(shù)據(jù) 庫文件可W是level化或者InKlb,優(yōu)選Indb。
[0037] 進一步地，使用化ffe提供的compute_image_mean命令對上面的數(shù)據(jù)庫文件計算基因信息的均值，并將生成的數(shù)據(jù)拆分成訓練數(shù)據(jù)集和測試數(shù)據(jù)集。
[0038] 步驟=中：生物基因性狀識別模型建立是根據(jù)識別任務(wù)目標，采用深度學習算法構(gòu)建一個適用于生物基因性狀識別的模型。
[0039] 第一步，根據(jù)基因性狀識別任務(wù)，確定基因性狀識別模型的結(jié)構(gòu)W及模型中每一層的超參數(shù);第二步，編寫適用于化ffe的模型描述文件和模型求解描述文件。
[0040] 模型描述文件是一種適用于化ffe框架的用于描述基因性狀識別模型結(jié)構(gòu)W及網(wǎng) 絡(luò)參數(shù)的描述文件;模型求解描述文件是一種適用于化ffe框架的用于描述基因性狀識別模型關(guān)于求解的描述文件。
[0041] 步驟四中：是在Caffe運行環(huán)境上，使用準備的生物基因數(shù)據(jù)，按照基因性狀識別模型描述文件和求解描述文件對所建立的識別模型進行訓練，求解模型中各層的參數(shù);在訓練過程中，利用訓練數(shù)據(jù)集采用梯度下降算法在每一個迭代過程中更新各層參數(shù)，并使用測試集對訓練完的模型進行性能評估，達到預期性能停止訓練并保存各層參數(shù)。
[0042] 步驟五中：是利用建立的識別模型結(jié)合訓練得到的模型參數(shù)對未知性狀的基因信息進行識別。
[0043] 輸入的未知性狀的基因信息需要按照步驟B進行數(shù)據(jù)準備，將原始基因信息轉(zhuǎn)化為適用于Caffe的輸入數(shù)據(jù)。識別模型對輸入數(shù)據(jù)的輸出是一個歸屬于某一對應性狀的概率數(shù)值，并認為概率最大的性狀標簽作為待識別基因?qū)男誀睢?br>[0044] 本【具體實施方式】是基于化ffe深度學習框架，構(gòu)建一個卷積神經(jīng)網(wǎng)絡(luò)的基因性狀識別模型。在實施方式中，生物基因信息數(shù)據(jù)準備是將已知對應性狀的基因信息處理成用于訓練模型的樣本數(shù)據(jù)。運里定義(X，Y)為樣本數(shù)據(jù)，其中X代表樣本數(shù)據(jù)中的基因信息，Y 代表樣本數(shù)據(jù)中的性狀標簽。
[0045] X=(xi,X2,. . . ,Xn) ,Y=(yi,Y2,. . . ,yn)
[0046] 進一步地，Xi是用來描述基因信息的一種類似圖像的二維矩陣，即XiGrXs;yi是用來描述基因不同性狀的標簽的向量yiGRnxi。同時定義識別模型為：
[0047] y = f (x； 0)
[0048] 運里，X是某一性狀對應的基因信息，y是該基因?qū)男誀睿?是識別模型的參數(shù)。
[0049] 卷積神經(jīng)網(wǎng)絡(luò)模型主要包括卷積層、池化層（下采樣層）、非線性層W及用于構(gòu)造監(jiān)督學習模型的全連接層和用于構(gòu)建模型損失函數(shù)的SOftmax識別器?；诰矸e神經(jīng)網(wǎng)絡(luò) 的識別的一般網(wǎng)絡(luò)結(jié)構(gòu)為若干個交替出現(xiàn)的卷積層、池化層，然后連接若干個全連接層，最后是一個用于識別的SOftmax層。每一層都有若干參數(shù)。
[0050] 卷積層:每一個卷積層由若干個權(quán)值共享的卷積核對整個圖像進行卷積操作來提取特征，并將特征作為輸出。卷積層最主要的參數(shù)是卷積核的大小W及卷積核的個數(shù)。另夕h卷積核參數(shù)還有卷積核移動的步幅和填充大小。卷積層輸出與卷積核個數(shù)相同的特征圖，運些特征圖的大小由卷積核的大小和卷積核移動的步幅W及填充大小有關(guān)。
[0051] 卷積核表示為kmxn，大小為mXn。卷積核移動步幅表示為S，填充大小表示為P。卷積操作用數(shù)學公式描述為：
[0化2]
[005；3]運里，X,"是1-1層網(wǎng)絡(luò)第i個卷積核的輸出，作為1層網(wǎng)絡(luò)的輸入，是當前層第j個卷積核的輸出，^為的第j個卷積核的參數(shù)，6;為該卷積層對應卷積核的偏置參數(shù)。fnnnlinear 是對卷積數(shù)據(jù)進行非線性操作，運個函數(shù)一般為sigmoid,化nh或者ReLU。
[0054]池化層:池化層是利用一個池化核對前一層卷積層的輸出進行降采樣。所謂降采樣就是減小卷積層輸出的維數(shù)，W降低模型參數(shù)規(guī)模。池化層的主要參數(shù)是池化核的大小，池化核移動步幅W及池化方式。池化方式一般為最大池化和均值池化。最大池化是將池化核范圍內(nèi)最大的數(shù)值作為輸出；均值池化是將池化核范圍內(nèi)所有數(shù)值的均值作為輸出。池化層用數(shù)學公式描述為：
[0化5]
[0化6]同樣地，運里的fnonlinear是對池化層輸出做非線性操作，公j是該池化層的核參數(shù)， 6;;是對應的偏置參數(shù)。down(x)代表對輸入進行降采樣。降采樣方式一般有均值采樣和最大化采樣。
[0057]池化層的核表示為kmXn，大小為m X n，移動步幅表示為S，填充大小表示為P。用MAX 表示使用最大池化方式，AVE表示使用均值池化方式。
[005引非線性層:非線性層是對輸入的數(shù)據(jù)逐元素進行非線性操作，W增加網(wǎng)絡(luò)的復雜性。常見的非線性操作有sigmoid、1:anh、ReLU等。
[0化9]
[0060]
[0061]
[0062] 全連接層:全連接層是前一層網(wǎng)絡(luò)與下一層網(wǎng)路每個神經(jīng)元都進行連接。最后一個全連接層的輸出個數(shù)與數(shù)據(jù)中類別個數(shù)相同，也就是最后一個全連接層的輸出對應的是每一個類別標簽。運個全連接層用于構(gòu)建一個有監(jiān)督的識別。
[0063] SOftmax層：SOftmax層是用來構(gòu)建一個用于訓練網(wǎng)絡(luò)模型的目標函數(shù)，運個函數(shù) 是一種評估模型輸出類別與真實類別之間差別的度量。
[0064] 編寫適用于化ffe的模型結(jié)構(gòu)描述文件即是將上面確定的各層超參數(shù)依照化ffe 描述文件的格式保存在描述文件里。
[0065] 卷積神經(jīng)網(wǎng)絡(luò)模型分為前向過程和后向過程。前向過程是從輸入數(shù)據(jù)，經(jīng)過若干個卷積操作，池化操作，非線性操作，全連接，到輸出一個類別標簽，并與真實類別標簽做比較得到一個誤差，作為loss。后向過程是誤差向后傳播的過程，從得到的誤差開始，反向逐層計算誤差相對于全連接層，非線性層，池化層，卷積層各層參數(shù)的梯度。
[0066] 卷積神經(jīng)網(wǎng)絡(luò)模型的訓練就是根據(jù)誤差后向傳播，采用梯度下降算法，對各層的誤差求梯度，沿著能使梯度下降最快的方向更新各層的參數(shù)，最終達到收斂。訓練過程中， W多大的權(quán)重來調(diào)整權(quán)重更新就是所謂的學習速率。
[0067] W卷積操作為例，第1層第j個特征圖的殘差為：
[006引
[0069] 其中，啡（?）表示上述采樣過程。
[0070] 那么對應卷積層的偏置參數(shù)的梯度為：
[0071]
[0072] 梯度為：
[0073]
[0074] 運里的E是后面一層網(wǎng)絡(luò)傳遞過來的誤差。
[0075] 得到各層誤差相對于參數(shù)的梯度之后，可W根據(jù)學習規(guī)則，對各層參數(shù)進行更新操作。
[0076] 更新規(guī)則為：
[0077]
[0078] 運里，0是包含該層權(quán)值和偏置的參數(shù);n為學習速率；心0為誤差相對于參數(shù)的梯度;J(e)是關(guān)于參數(shù)的誤差函數(shù)。
[0079] 在每一次迭代訓練中，對于每一個樣本輸入，首先按照前向過程，計算每一層網(wǎng)絡(luò) 的輸出W及誤差，并向后一層網(wǎng)絡(luò)傳遞;在后向過程中，計算誤差對每一層每一個參數(shù)的梯度，并向前一層網(wǎng)絡(luò)傳播，然后根據(jù)參數(shù)更新規(guī)則更新參數(shù)值，直到訓練結(jié)束。
[0080] 根據(jù)確定的卷積神經(jīng)網(wǎng)絡(luò)識別模型的網(wǎng)絡(luò)結(jié)構(gòu)W及各層網(wǎng)絡(luò)的參數(shù)，編寫適用于 Caffe的網(wǎng)絡(luò)結(jié)構(gòu)描述文件。網(wǎng)絡(luò)結(jié)構(gòu)見圖基于卷積神經(jīng)網(wǎng)絡(luò)的生物基因性狀識別模型網(wǎng) 絡(luò)結(jié)構(gòu)。各層參數(shù)見基于卷積神經(jīng)網(wǎng)絡(luò)的生物基因性狀識別模型各層網(wǎng)絡(luò)參數(shù)表。
[0081] 對未知性狀的基因信息進行數(shù)據(jù)預處理，并輸入到已訓練好的識別模型，模型輸出該基因信息歸屬于某一性狀的概率值，認為概率最大的性狀標簽作為待識別基因的對應性狀，即為模型識別的結(jié)果。
[0082] 本發(fā)明所述的一種將生物基因 W特定的性狀進行分類與自我識別的方法，它采用深度學習算法，構(gòu)建一個對生物基因信息識別并找出與對應性狀之間聯(lián)系的模型，然后使用運個模型對未知性狀的基因信息進行識別，它具有能夠更方便及智能的進行基因的對應性狀分類，對未知性狀的基因進行自我識別的優(yōu)點。
[0083] W上所述僅是本發(fā)明的較佳實施方式，故凡依本發(fā)明專利申請范圍所述的構(gòu)造、特征及原理所做的等效變化或修飾，均包括于本發(fā)明專利申請范圍內(nèi)。
【主權(quán)項】
1. 一種將生物基因以特定的性狀進行分類與自我識別的方法，其特征在于：它采用如下的技術(shù)方案：步驟一:搭建一個適合Caff e深度學習運行的軟硬件環(huán)境；步驟二:生物基因信息數(shù)據(jù)的準備，使其適用于Caffe的訓練數(shù)據(jù)，對原始基因信息進行預處理，預處理包括更改原始數(shù)據(jù)維數(shù)，統(tǒng)一到固定大小，并歸一化；步驟三:根據(jù)識別任務(wù)目標，采用深度學習算法構(gòu)建一個適用于生物基因性狀識別的豐旲型；步驟四：在Caffe運行環(huán)境上，使用準備的生物基因數(shù)據(jù)，按照基因性狀識別模型描述文件和求解描述文件對所建立的識別模型進行訓練，求解模型中各層的參數(shù)，達到預期性能停止訓練并保存各層參數(shù)；步驟五:利用建立的識別模型結(jié)合訓練得到的模型參數(shù)對未知性狀的基因信息進行識別。2. 根據(jù)權(quán)利要求1所述的一種將生物基因以特定的性狀進行分類與自我識別的方法，其特征在于:步驟一中搭建一個適合Caffe深度學習運行的軟硬件環(huán)境如下:硬件為一臺內(nèi) 存32GB，帶一個內(nèi)存為12GB的NVIDIA GeForce GTX Titan X獨立顯卡的服務(wù)器或更高配置;軟件的操作系統(tǒng)為Ubuntul5.10，64位系統(tǒng)，以及caff e依賴的其它第三方庫。3. 根據(jù)權(quán)利要求1所述的一種將生物基因以特定的性狀進行分類與自我識別的方法，其特征在于:步驟二中準備的生物基因信息數(shù)據(jù)是經(jīng)過二進制字節(jié)流表示和可視化圖像轉(zhuǎn) 換后的基因信息，其基因信息數(shù)據(jù)以圖像的格式表現(xiàn)；其次使用Caffe提供的convert# imageset工具將基因數(shù)據(jù)集轉(zhuǎn)化為數(shù)據(jù)庫文件，數(shù)據(jù)庫文件可以是leveldb或者lmdb，優(yōu)選 lmdb〇4. 根據(jù)權(quán)利要求3所述的一種將生物基因以特定的性狀進行分類與自我識別的方法，其特征在于:使用Caffe提供的compute_image_mean命令對上面的數(shù)據(jù)庫文件計算基因信息的均值，并將生成的數(shù)據(jù)拆分成訓練數(shù)據(jù)集和測試數(shù)據(jù)集。5. 根據(jù)權(quán)利要求1所述的一種將生物基因以特定的性狀進行分類與自我識別的方法，其特征在于：步驟三的特征在于構(gòu)建一個基于Caffe深度學習算法的生物基因性狀識別模型進行目標訓練，根據(jù)基因性狀識別任務(wù)，確定基因性狀識別模型的結(jié)構(gòu)以及模型中每一層的超參數(shù);其次，編寫適用于Caffe的模型描述文件和模型求解描述文件。6. 根據(jù)權(quán)利要求1所述的一種將生物基因以特定的性狀進行分類與自我識別的方法，其特征在于:步驟四中：生物基因性狀識別模型的訓練，其特征是在Caffe運行環(huán)境上，使用準備的生物基因數(shù)據(jù)，按照基因性狀識別模型描述文件和求解描述文件對所建立的識別模型進行訓練，求解模型中各層的參數(shù);在訓練過程中，利用訓練數(shù)據(jù)集采用梯度下降算法在每一個迭代過程中更新各層參數(shù)，并使用測試集對訓練完的模型進行性能評估，達到預期性能停止訓練并保存各層參數(shù)。7. 根據(jù)權(quán)利要求1所述的一種將生物基因以特定的性狀進行分類與自我識別的方法，其特征在于:步驟五中：利用建立的識別模型結(jié)合訓練得到的模型參數(shù)對未知性狀的基因信息進行識別，輸入的未知性狀的基因信息需要按照步驟B進行數(shù)據(jù)準備，將原始基因信息轉(zhuǎn)化為適用于Caffe的輸入數(shù)據(jù)。識別模型對輸入數(shù)據(jù)的輸出是一個歸屬于某一對應性狀的概率數(shù)值，并認為概率最大的性狀標簽作為待識別基因?qū)男誀睢?br>【文檔編號】G06F19/24GK106021990SQ201610399253
【公開日】2016年10月12日
【申請日】2016年6月7日
【發(fā)明人】閆磊, 謝清祿, 余孟春
【申請人】廣州麥侖信息科技有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：閆磊;謝清祿;余孟春;
技術(shù)所有人：廣州麥侖信息科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

基因控制生物的性狀相關(guān)技術(shù)

基因控制生物性狀ppt相關(guān)技術(shù)

基因控制生物性狀相關(guān)技術(shù)

基因?qū)π誀畹目刂苝pt相關(guān)技術(shù)

基因?qū)π誀畹目刂葡嚓P(guān)技術(shù)

基因與性狀的關(guān)系相關(guān)技術(shù)

基因?qū)π誀畹目刂平贪赶嚓P(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種將生物基因以特定的性狀進行分類與自我識別的方法