專利名稱:群體突發(fā)病毒性疫情快速pcr檢測引物文庫及篩查系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明是一種病毒引物設(shè)計及評測系統(tǒng),它屬于生物學(xué)和計算機(jī)數(shù)據(jù)庫技術(shù)相結(jié)合的領(lǐng)域。
背景技術(shù):
聚合酶鏈?zhǔn)椒磻?yīng)(Polymerase Chain Reaction, PCR)是一種體外快速擴(kuò)增DNA的方法,用于放大特定的DNA片段,數(shù)小時內(nèi)可使目的基因片段擴(kuò)增到數(shù)百萬個拷貝的分子生物學(xué)技術(shù)。PCR技術(shù)的基本原理類似于DNA的天然復(fù)制過程,其特異性依賴于與靶序列兩端互補的寡核苷酸引物。PCR由變性一退火一延伸三個基本反應(yīng)步驟構(gòu)成①模板DNA 的變性模板DNA經(jīng)加熱至93°C左右一定時間后,使模板DNA雙鏈或經(jīng)PCR擴(kuò)增形成的雙鏈DNA解離,使之成為單鏈,以便它與引物結(jié)合,為下輪反應(yīng)作準(zhǔn)備;②模板DNA與引物的退火(復(fù)性)模板DNA經(jīng)加熱變性成單鏈后,溫度降至55°C左右,引物與模板DNA單鏈的互補序列配對結(jié)合;③引物的延伸DNA模板一引物結(jié)合物在TaqDNA聚合酶的作用下,以 dNTP為反應(yīng)原料,靶序列為模板,按堿基互補配對與半保留復(fù)制原理,合成一條新的與模板 DNA鏈互補的半保留復(fù)制鏈,重復(fù)循環(huán)變性一退火一延伸三過程就可獲得更多的“半保留復(fù)制鏈”,而且這種新鏈又可成為下次循環(huán)的模板。每完成一個循環(huán)需2 4分鐘,2 3小時就能將待擴(kuò)目的基因擴(kuò)增放大幾百萬倍。PCR技術(shù)作為常用的分子生物學(xué)技術(shù)之一在生命科學(xué)研究、醫(yī)學(xué)科研及臨床醫(yī)學(xué)診斷、環(huán)境保護(hù)、農(nóng)業(yè)等各個領(lǐng)域有著廣泛的應(yīng)用。引物設(shè)計是PCR反應(yīng)中至關(guān)重要的一步,無法設(shè)計出合理的引物就不能擴(kuò)增出目標(biāo)序列。引物設(shè)計需要注意的地方很多,在大多數(shù)情況下,我們都是在知道已知模板序列時進(jìn)行PCR擴(kuò)增的。在某些情況比如構(gòu)建文庫的時候也會在不知道模板序列的情況下進(jìn)行設(shè)計。這個時候隨機(jī)核苷酸序列就與模板不是完全匹配。我們通常指的設(shè)計引物都是在已知模板序列的情況下進(jìn)行。引物設(shè)計除了要考慮與模板正確匹配外,還要考慮到引物的特異性及熱動力學(xué)參數(shù)等。在實際中,病毒的引物設(shè)計與其他物種的引物設(shè)計相比具有其自身的復(fù)雜性。病毒的變異速率極快,其自身的編碼DNA或RNA的突變速率要遠(yuǎn)遠(yuǎn)高于其他生物,因此不斷地有新的亞型產(chǎn)生,引物設(shè)計者要不斷查找并更新當(dāng)前病毒序列數(shù)據(jù)庫的信息。此外對于某一種疾病來說,可能會有多個病毒共同作用導(dǎo)致發(fā)病,因此在知道具體的病毒種類之前也無法設(shè)計出合適的引物來擴(kuò)增病毒序列,故常規(guī)的引物設(shè)計方法無法很好地滿足病毒引物設(shè)計的需要。我們開發(fā)了一種全新的引物設(shè)計及評測系統(tǒng),它能夠快捷簡便地自動更新病毒數(shù)據(jù)庫信息及針對病種設(shè)計出適用的引物來用于病毒的臨床檢測。
發(fā)明內(nèi)容
本發(fā)明主要由臨床病毒學(xué)數(shù)據(jù)庫模塊、病毒序列數(shù)據(jù)庫模塊、病毒序列自動提取模塊、病毒變異序列的功能預(yù)測、病毒種屬特異性序列和病毒亞型特異性序列的篩選、引物生成和評價模塊以及擴(kuò)增產(chǎn)物注釋模塊七個部分組成。旨在能夠?qū)崿F(xiàn)第一,根據(jù)目標(biāo)基因序列設(shè)計最佳PCR擴(kuò)增的病毒引物序列;第二,保證引物的特異性和準(zhǔn)確性;第三,預(yù)測擴(kuò)增片斷在未經(jīng)測序的狀況下,與目標(biāo)病毒的匹配程度;第四,根據(jù)PCR引物的擴(kuò)增序列預(yù)測病毒的臨床背景資料和參考治療方案。
圖1是軟件整體結(jié)構(gòu)圖。圖2是臨床病毒學(xué)數(shù)據(jù)庫結(jié)構(gòu)圖。圖3是批量化自動提取基因組序列,軟件左側(cè)為序列數(shù)據(jù)庫。圖4是批量化序列搜索與比對模塊。界面右側(cè)為序列數(shù)據(jù)庫,界面上方為Blast 搜索方法。
具體實施例方式一、臨床病毒學(xué)數(shù)據(jù)庫模塊臨床病毒數(shù)據(jù)庫包含了常見病毒性疾病的臨床信息、治療信息和病毒基本信息。 利用該數(shù)據(jù)庫,通過臨床信息,可獲取所有可能的病毒源,為下一步調(diào)取病毒基因組信息提供數(shù)據(jù)源。此外,對于新病毒種屬或已知病毒新亞型導(dǎo)致的疾病,也將在疾病發(fā)布同時,將最全面的臨床信息數(shù)據(jù)整合入本數(shù)據(jù)庫。二、病毒序列數(shù)據(jù)庫模塊下載測序完成并公布的客戶指定的病毒基因組序列,并構(gòu)建序列數(shù)據(jù)庫,序列數(shù)據(jù)庫主要來源于GenBank、EMBL。序列數(shù)據(jù)庫存儲格式為i^asta格式。通過對已經(jīng)公開報道的來源2235個病毒基因組的3309條參考序列和來源于類病毒的39條參考序列的整合,構(gòu)建客戶指定的與腹灣,非細(xì)菌性胃腸炎,呼吸道癥狀,肺炎,夏季感冒,手足口病,神經(jīng)癥狀, 腦炎,心肌炎,出血,腎病,視網(wǎng)膜炎,肝炎,皮膚、粘膜損害,禽類15種49個病毒基因組。所有物種的序列均需與GenBank、EMBL同步更新。此外,非常重要的是,對于新病毒種屬和已知病毒種屬的未知亞型,在已有測序結(jié)果的情況下,所有序列信息也將在公布同時裝載入病毒序列數(shù)據(jù)庫。三、病毒序列自動提取模塊客戶只需輸入病毒序列的GenBank Accession Number和GI編號,通過本模塊(嵌套其明公司自主開發(fā)的BlastDesk系統(tǒng))即可批量化獲得病毒基因組序列。序列為!^asta 格式,供引物生成和評價模塊設(shè)計備選引物。四、病毒變異序列的功能預(yù)測1、密碼子偏好數(shù)據(jù)庫遺傳密碼有64種,但是絕大多數(shù)生物傾向于利用這些密碼子中的一部分。那些被最頻繁利用的稱為最佳密碼子(optimal codons),那些不被經(jīng)常利用的稱為稀有或利用率低的密碼子(rare or low-usage codons)。禾[I用偏愛密碼子(preferred codons)并避免利用率低的或稀有的密碼子,可以在不知道目的基因的編碼序列的狀況下,預(yù)測目的基因的氨基酸序列,為病毒基因功能以及特定宿主系統(tǒng)的選擇提供參考。為此,我們應(yīng)用密碼子偏好數(shù)據(jù)庫對新病毒種屬或已知病毒新亞型的核酸序列進(jìn)行翻譯,此數(shù)據(jù)庫根據(jù) GenBank35779個物種的3027973個完整蛋白編碼區(qū)(自起始密碼子至終止密碼子)進(jìn)行的密碼子使用頻率的統(tǒng)計而成。所以這個數(shù)據(jù)庫中的結(jié)果基本可以反應(yīng)各物種對密碼子使用的偏向性。2、病毒變異的功能變化預(yù)測通過密碼子分析,獲得新病毒種屬或病毒新亞型的氨基酸序列。通過分析氨基酸序列的結(jié)構(gòu)域,預(yù)測氨基酸序列的功能組成;或利用blastp與蛋白結(jié)構(gòu)數(shù)據(jù)庫進(jìn)行比對, 確定結(jié)構(gòu)相似的已知蛋白,從而確定病毒變異序列的功能。3、校正臨床病毒數(shù)據(jù)庫的校正若病毒變異造成功能變化(病毒發(fā)生有義突變),導(dǎo)致臨床病毒數(shù)據(jù)庫中相應(yīng)指標(biāo)變化以及藥物作用效果變化,則病毒變異的新病毒種屬或病毒新亞型對于的臨床特征作用新特點增加如臨床病毒數(shù)據(jù)庫。五、病毒種屬特異性序列和病毒亞型特異性序列的篩選1、篩選病毒種屬特異性序列同一種疾病可能伴有多種不同屬病毒感染,在病毒特異性引物設(shè)計時,必須獲取病毒種屬特異性序列作為引物設(shè)計的依據(jù)。通過49X49次病毒基因組多序列分析,并經(jīng)過交叉驗證,獲得發(fā)現(xiàn)每個種屬病毒特異性的基因組序列。2、篩選病毒亞型特異性序列同種屬病毒包括多種亞型,在特定病毒性疾病中,可能由多種屬病毒的特定亞型致病,因此,為了精確定位病毒亞型,必須對獲取各種屬病毒亞型特異性序列作為引物設(shè)計的依據(jù)。六、引物生成和評價模塊根據(jù)病毒基因特異性序列,使用引物設(shè)計模塊獲取目標(biāo)序列多條備選引物,而后使用熱力學(xué)參數(shù)評價引物的質(zhì)量引物Tm值、GC比、簡并性堿基、3’端穩(wěn)定性、引物的穩(wěn)定性、重復(fù)序列、二聚體/發(fā)卡結(jié)構(gòu)和與模板之間的錯配情況。所有參數(shù)基本狀態(tài)為默認(rèn)參數(shù),若客戶需要修改,可進(jìn)入?yún)?shù)配置頁面修改。軟件首先根據(jù)熱力學(xué)參數(shù)從極高嚴(yán)謹(jǐn)性到極低嚴(yán)謹(jǐn)性設(shè)計多條備選引物,而后對備選引物自動搜索,篩選符合設(shè)定引物長度的寡核苷酸都被視為進(jìn)一步候選引物。最終,用于PCR檢測的是候選引物中檢測病毒特異性、嚴(yán)謹(jǐn)度最高的前3對特異性引物。七、擴(kuò)增產(chǎn)物注釋模塊經(jīng)過引物生成和評價模塊后生成的若干條單對引物,盡管在熱力學(xué)參數(shù)上已經(jīng)獲得了優(yōu)化,但其中仍有一些不能擴(kuò)增目標(biāo)片段的引物,理論上可以不用實驗操作,篩除不能擴(kuò)增目標(biāo)片段的引物而選出能夠擴(kuò)增目標(biāo)片段的引物。擴(kuò)增產(chǎn)物注釋模塊可把單引物對檢驗設(shè)置成為多重引物組合,然后將這些組合與前期已構(gòu)建的病毒基因組序列數(shù)據(jù)庫進(jìn)行 blastn比對,批量化搜索所有引物擴(kuò)增產(chǎn)物中最佳匹配的目標(biāo)基因序列及其病毒種屬。
權(quán)利要求
1.一種病毒引物設(shè)計及評測系統(tǒng),包括臨床病毒學(xué)數(shù)據(jù)庫模塊、病毒序列數(shù)據(jù)庫模塊、 病毒序列自動提取模塊、病毒變異序列的功能預(yù)測、病毒種屬特異性序列和病毒亞型特異性序列的篩選、引物生成和評價模塊以及擴(kuò)增產(chǎn)物注釋模塊七個部分。其特征在于根據(jù)目標(biāo)基因序列設(shè)計最佳PCR擴(kuò)增的病毒引物序列,保證引物的特異性和準(zhǔn)確性。
2.根據(jù)權(quán)利要求1所述的臨床病毒學(xué)數(shù)據(jù)庫模塊,其特征在于包含了常見病毒性疾病的臨床信息、治療信息和病毒基本信息,為下一步調(diào)取病毒基因組信息提供數(shù)據(jù)源。
3.根據(jù)權(quán)利要求1所述的病毒序列數(shù)據(jù)庫模塊,其特征在于下載測序完成并公布的客戶指定的病毒基因組序列,并構(gòu)建序列數(shù)據(jù)庫。對于新病毒種屬和已知病毒種屬的未知亞型,在已有測序結(jié)果的情況下,所有序列信息也將在公布同時裝載入病毒序列數(shù)據(jù)庫。
4.根據(jù)權(quán)利要求1所述的病毒序列自動提取模塊,其特征在于只需輸入病毒序列的 GenBankAccession Number和GI編號,通過本模塊即可批量化獲得病毒基因組序列。序列 Siesta格式,供引物生成和評價模塊設(shè)計備選引物。
5.根據(jù)權(quán)利要求1所述的病毒變異序列的功能預(yù)測,其特征在于通過密碼子分析,獲得新病毒種屬或病毒新亞型的氨基酸序列。通過分析氨基酸序列的結(jié)構(gòu)域,預(yù)測氨基酸序列的功能組成;或利用blastp與蛋白結(jié)構(gòu)數(shù)據(jù)庫進(jìn)行比對,確定結(jié)構(gòu)相似的已知蛋白,從而確定病毒變異序列的功能。
6.根據(jù)權(quán)利要求1所述的引物生成和評價模塊,其特征在于根據(jù)病毒基因特異性序列,使用引物設(shè)計模塊獲取目標(biāo)序列多條備選引物,而后使用熱力學(xué)參數(shù)評價引物的質(zhì)量。
7.根據(jù)權(quán)利要求1所述的擴(kuò)增產(chǎn)物注釋模塊,其特征在于可把單引物對檢驗設(shè)置成為多重引物組合,然后將這些組合與前期已構(gòu)建的病毒基因組序列數(shù)據(jù)庫進(jìn)行blastn比對, 批量化搜索所有引物擴(kuò)增產(chǎn)物中最佳匹配的目標(biāo)基因序列及其病毒種屬。
全文摘要
本發(fā)明涉及一種群體突發(fā)病毒性疫情快速PCR檢測引物文庫及篩查系統(tǒng)。本發(fā)明是一種病毒引物設(shè)計及評測系統(tǒng),它屬于生物學(xué)和計算機(jī)數(shù)據(jù)庫技術(shù)相結(jié)合的領(lǐng)域。主要由臨床病毒學(xué)數(shù)據(jù)庫模塊、病毒序列數(shù)據(jù)庫模塊、病毒序列自動提取模塊、病毒變異序列的功能預(yù)測、病毒種屬特異性序列和病毒亞型特異性序列的篩選、引物生成和評價模塊以及擴(kuò)增產(chǎn)物注釋模塊七個部分組成。旨在能夠?qū)崿F(xiàn)第一,根據(jù)目標(biāo)基因序列設(shè)計最佳PCR擴(kuò)增的病毒引物序列;第二,保證引物的特異性和準(zhǔn)確性;第三,預(yù)測擴(kuò)增片斷在未經(jīng)測序的狀況下,與目標(biāo)病毒的匹配程度;第四,根據(jù)PCR引物的擴(kuò)增序列預(yù)測病毒的臨床背景資料和參考治療方案。
文檔編號G06F19/28GK102243697SQ20101017123
公開日2011年11月16日 申請日期2010年5月11日 優(yōu)先權(quán)日2010年5月11日
發(fā)明者張永強, 戚楊, 李伯安, 李林, 程云, 蘇峰, 遲淑萍, 韓晉 申請人:上海其明信息技術(shù)有限公司, 解放軍第三○二醫(yī)院